Wiki Analyzer Documentation
Wiki Analyzer - это инструмент для автоматизированного анализа и создания контента для различных языковых версий Wikipedia на основе английских статей.
Основные команды
Система поддерживает следующие команды:
1. start
Инициализация нового анализа. Сначала система анализирует указанный веб-сайт, извлекая ключевые темы и концепции. Затем она находит соответствующие статьи в английской Wikipedia, проверяет их релевантность и существование, и сохраняет результаты в Google Таблицу. Основная цель - автоматизировать процесс поиска и подготовки материалов для создания статей Wikipedia на разных языках (например, испанском, японском, греческом, итальянском) на основе информации с целевого сайта и существующих английских статей Wikipedia.
Формат REST запроса:
{
"cmd": "start",
"params": {
"target_url": "https://example.com", // Целевой сайт для анализа
"langs": ["es", "ja", "el", "it"], // Список целевых языков
"articles_limit": 3, // Максимальное количество статей
"google_table_url": "https://docs...", // URL Google таблицы
"count_confirm_status": 3 // Количество статей со статусом "confirm"
}
}
Время выполнения: 1-2 минуты Средняя стоимость: ~$0.19
Использование API и стоимость:
- Perplexity AI: 1 запрос на анализ
- GPT-4: в среднем 4-5 запросов на прогон
- Средняя стоимость одного прогона GPT-4: ~$0.14
- Статистика по 5 запускам:
- Общее количество запросов GPT-4: 24
- Общая стоимость GPT-4: $0.71
- Количество запросов Perplexity: 5 (цена условно $0.05)
Процесс выполнения:
-
Инициализация
- Прием и валидация входных параметров
- Подготовка рабочего окружения
-
Анализ сайта
- Использование Perplexity AI для анализа контента
- Определение ключевых тем и концепций
- Формирование базового набора тем
- Генерация краткого описания (summary)
- Создание списка релевантных ссылок Wikipedia
- Фильтрация нерелевантных тем
-
Обработка ссылок
- Разделение и валидация ссылок
- API-запросы к Wikipedia
- Проверка существования статей
- Следование по цепочке редиректов
- Получение финальных статей
-
Запись резуль татов
- Создание записей в Google Sheets
- Структурирование данных по полям
- Установка начальных статусов
Структура данных в Google Sheets:
| Поле | Описание |
|---|---|
| title | Название статьи |
| status | Статус обработки |
| wiki_url | Ссылка на Wikipedia |
| revision_time | Время последней редакции |
| revision_user | Автор последней редакции |
| target_url | Исходный URL |
| summary | Краткое описание |
| langs | Целевые языки |
Особенности и ограничения:
-
Интеллектуальный отбор
- Исключение общих терминов
- Приоритизация релевантных статей
- Контекстный анализ
-
Обработка ошибок
- Валидация статей
- Обработка редиректов
- Проверка содержимого
-
Системные ограничения
- Лимит на количество статей
- Контроль статусов "confirm"
- Фильтрация дубликатов
2. lang_search
Поиск и анализ языковых вер сий для найденных английских статей Wikipedia. Команда проверяет существующие статьи на указанных языках, анализирует их содержимое и актуальность.
Формат REST запроса:
{
"cmd": "lang_search",
"params": {
"google_table_url": "https://docs...", // URL Google таблицы с результатами
"count_langs": 3 // Количество языковых версий для обработки
}
}
Время выполнения: 20-55 секунд Средняя стоимость: ~$0
Использование API и стоимость:
- Не используется GPT-4 api только бесплатное Wikipedia API
Проц есс выполнения:
-
Чтение данных
- Получение списка статей из таблицы
- Фильтрация по статусу "confirm"
- Проверка наличия целевых языков
-
Поиск языковых версий
- API-запросы к Wikipedia
- Получение списка доступных переводов
- Проверка существования версий
-
Анализ контента
- Сравнение объема контента
- Проверка даты последнего обновления
- Валидация качества статей
-
Сохранение результатов
- Запись в лист LANGS
- Обновление статусов
- Формирование отчета
Структура данных в LANGS:
| Поле | Описание |
|---|---|
| en_title | Название английской статьи |
| en_url | URL английской версии |
| lang | Код языка |
| lang_title | Название на целевом языке |
| lang_url | URL языковой версии |
Особенности и ограничения:
-
Фильтрация результатов
- Проверка объема контента (>33% от английской версии)
- Актуальность обновлений (не старше 90 дней)
- Исключение редиректов
-
Приоритизация
- Обработка только статей со статусом "confirm"
- Лимит на количество языковых версий
- Пропуск неактуальных переводов
3. links_search
Поиск релевантных ссылок на целевом сайте для недостающих разделов статьи. Команда анализирует отсутствующие секции в языковой версии статьи и ищет соответствующий контент на целевом сайте.
Формат REST запроса:
{
"cmd": "links_search",
"params": {
"google_table_url": "https://docs...", // URL Google таблицы с результатами
"row_number": 4 // Номер строки в таблице LANGS
}
}
Время выполнения: 20-55 секунд Средняя стоимость за одну строку: ~$0.045
Использование API и стоимость:
- GPT-4: 5 запросов
- GPT-4-mini: 15 запросов
- Serper API: 13 запросов
- Статистика по 5 запускам:
- Общая стоимость GPT-4: $0.20
- Стоимость Serper API: ~$0.013 (при тарифе $1 за 1000 запросов)
- Средняя стоимость одного прогона: ~$0.043
Процес выполнения:
-
Анализ статей
- Получение контента английской версии
- Получение контента языковой версии
- Выявление отсутствующих разделов
-
Поиск контента
- Генерация поисковых запросов на основе отсутствующих разделов
- Поиск статей на целевом сайте
- Фильтрация результатов
-
Обработка результатов
- Анализ найденных статей
- Создание кратких описаний
- Проверка релевантности
-
Сохранение данных
- Запись найденных ссылок
- Сохранение описаний
- Обновление статусов
Структура сохраняемых данных:
| Поле | Описание |
|---|---|
| Links Section name | Название отсутствующего раздела |
| Links Section content | Содержание раздела из английской версии |
| Keywords N | Ключевые слова для поика |
| Site url N | URL найденной статьи на целевом сайте |
Особенности и ограничения:
-
Поиск контента
- Использование не более 5 ключевых слов
- Поиск только по домену целевого сайта
- Возврат только существующих страниц
-
Фильтрация результатов
- До 3-х релевантных ссылок на раздел
- Исключение ссылок на главную страницу
- Проверка доступности страниц
4. write_articles
Генерация контента для недостающих разделов статьи на основе найденных ссылок и анализа существующего контента.
Формат REST запроса:
{
"cmd": "write_articles",
"params": {
"google_table_url": "https://docs...", // URL Google таблицы с результатами
"row_number": 3 // Номер строки в таблице LANGS
}
}
Процесс выполнения:
-
Подготовка данных
- Получение информации о статье из таблицы LANGS
- Создание нового листа для контента
- Проверка существования предыдущих версий
-
Анализ контента
- Получение содержимого английской версии
- Получение содержимого языковой версии
- Сопоставление разделов
-
Генерация контента
- Анализ найденных ссылок
- Создание новых разделов
- Интеграция с существующим контентом
-
Сохранение результатов
- Запись сгенерированного контента
- Создание структурированных секций
- Обновление статусов
Структура данных в новом листе:
| Поле | Описание |
|---|---|
| Section name | Название раздела |
| Section content | Оригинальный контент на английском |
| site_keywords | Ключевые слова с целевого сайта |
| site_url | URL источника контента |
| language_section | Сгенерированный контент на целевом языке |
| translated_section | Финальная версия раздела |
Особенности и ограничения:
-
Генерация контента
- Сохранение стиля Wikipedia
- Интеграция информации из разных источников
- Адаптация под целевой язык
-
Контроль качества
- Проверка согласованности контента
- Валидация форматирования
- Сохранение ссылок на источники
5. full_search
Комплексная команда, которая последовательно выпо лняет команды start, lang_search и links_search. Это позволяет автоматизировать весь процесс анализа от начала до конца.
Формат REST запроса:
{
"cmd": "full_search",
"params": {
"target_url": "https://example.com", // Целевой сайт для анализа
"langs": ["es", "ja", "el", "it"], // Список целевых языков
"articles_limit": 50, // Максимальное количество статей
"google_table_url": "https://docs...", // URL Google таблицы
"count_confirm_status": 5, // Количество статей со статусом "confirm"
"count_langs": 5 // Количество языковых версий для обработки
}
}
Время выполнения: 2-4 минуты Средняя стоимость: ~$0.28 (сумма стоимостей команд start, lang_search и links_search)
Процесс выполнения:
- Запуск команды start
- После успешного завершения start - запуск lang_search
- После успешного завершения lang_search - запуск links_search для каждой найденной языковой версии
Особенности и ограничения:
- Выполнение останавливается при ошибке любой из команд
- Требует корректной настройки всех параметров для трёх команд
- Позволяет автоматизировать полный цикл анализа
6. start_and_lang_search
Комбинированная команда для запуска первых двух стадий, анализа и поиска языковых версий.
Структура Google таблицы
Таблица содержит следующие листы:
-
EN LIST
- Список найденных английских статей
- Статусы обработки
- Ссылки на статьи
-
LANGS
- Языковые версии статей
- Статусы перевода
- Дополнительная информация
Примеры использования
# Пример запуска начального анализа
curl --location 'https://n8n.mingles.ai/webhook/wiki_analyze' \
--header 'Content-Type: application/json' \
--data '{
"cmd": "start",
"params": {
"target_url": "https://securityamericamortgage.com",
"langs": ["es", "ja", "el", "it"],
"articles_limit": 3,
"google_table_url": "https://docs.google.com/spreadsheets/d/xxx",
"count_confirm_status": 3
}
}'