Skip to main content

Wiki Analyzer Documentation

Wiki Analyzer - это инструмент для автоматизированного анализа и создания контента для различных языковых версий Wikipedia на основе английских статей.

Основные команды

Система поддерживает следующие команды:

1. start

Инициализация нового анализа. Сначала система анализирует указанный веб-сайт, извлекая ключевые темы и концепции. Затем она находит соответствующие статьи в английской Wikipedia, проверяет их релевантность и существование, и сохраняет результаты в Google Таблицу. Основная цель - автоматизировать процесс поиска и подготовки материалов для создания статей Wikipedia на разных языках (например, испанском, японском, греческом, итальянском) на основе информации с целевого сайта и существующих английских статей Wikipedia.

Формат REST запроса:

{
"cmd": "start",
"params": {
"target_url": "https://example.com", // Целевой сайт для анализа
"langs": ["es", "ja", "el", "it"], // Список целевых языков
"articles_limit": 3, // Максимальное количество статей
"google_table_url": "https://docs...", // URL Google таблицы
"count_confirm_status": 3 // Количество статей со статусом "confirm"
}
}

Время выполнения: 1-2 минуты Средняя стоимость: ~$0.19

Использование API и стоимость:

  • Perplexity AI: 1 запрос на анализ
  • GPT-4: в среднем 4-5 запросов на прогон
  • Средняя стоимость одного прогона GPT-4: ~$0.14
  • Статистика по 5 запускам:
    • Общее количество запросов GPT-4: 24
    • Общая стоимость GPT-4: $0.71
    • Количество запросов Perplexity: 5 (цена условно $0.05)

Процесс выполнения:

  1. Инициализация

    • Прием и валидация входных параметров
    • Подготовка рабочего окружения
  2. Анализ сайта

    • Использование Perplexity AI для анализа контента
    • Определение ключевых тем и концепций
    • Формирование базового набора тем
    • Генерация краткого описания (summary)
    • Создание списка релевантных ссылок Wikipedia
    • Фильтрация нерелевантных тем
  3. Обработка ссылок

    • Разделение и валидация ссылок
    • API-запросы к Wikipedia
    • Проверка существования статей
    • Следование по цепочке редиректов
    • Получение финальных статей
  4. Запись результатов

    • Создание записей в Google Sheets
    • Структурирование данных по полям
    • Установка начальных статусов

Структура данных в Google Sheets:

ПолеОписание
titleНазвание статьи
statusСтатус обработки
wiki_urlСсылка на Wikipedia
revision_timeВремя последней редакции
revision_userАвтор последней редакции
target_urlИсходный URL
summaryКраткое описание
langsЦелевые языки

Особенности и ограничения:

  1. Интеллектуальный отбор

    • Исключение общих терминов
    • Приоритизация релевантных статей
    • Контекстный анализ
  2. Обработка ошибок

    • Валидация статей
    • Обработка редиректов
    • Проверка содержимого
  3. Системные ограничения

    • Лимит на количество статей
    • Контроль статусов "confirm"
    • Фильтрация дубликатов

Поиск и анализ языковых версий для найденных английских статей Wikipedia. Команда проверяет существующие статьи на указанных языках, анализирует их содержимое и актуальность.

Формат REST запроса:

{
"cmd": "lang_search",
"params": {
"google_table_url": "https://docs...", // URL Google таблицы с результатами
"count_langs": 3 // Количество языковых версий для обработки
}
}

Время выполнения: 20-55 секунд Средняя стоимость: ~$0

Использование API и стоимость:

  • Не используется GPT-4 api только бесплатное Wikipedia API

Процесс выполнения:

  1. Чтение данных

    • Получение списка статей из таблицы
    • Фильтрация по статусу "confirm"
    • Проверка наличия целевых языков
  2. Поиск языковых версий

    • API-запросы к Wikipedia
    • Получение списка доступных переводов
    • Проверка существования версий
  3. Анализ контента

    • Сравнение объема контента
    • Проверка даты последнего обновления
    • Валидация качества статей
  4. Сохранение результатов

    • Запись в лист LANGS
    • Обновление статусов
    • Формирование отчета

Структура данных в LANGS:

ПолеОписание
en_titleНазвание английской статьи
en_urlURL английской версии
langКод языка
lang_titleНазвание на целевом языке
lang_urlURL языковой версии

Особенности и ограничения:

  1. Фильтрация результатов

    • Проверка объема контента (>33% от английской версии)
    • Актуальность обновлений (не старше 90 дней)
    • Исключение редиректов
  2. Приоритизация

    • Обработка только статей со статусом "confirm"
    • Лимит на количество языковых версий
    • Пропуск неактуальных переводов

Поиск релевантных ссылок на целевом сайте для недостающих разделов статьи. Команда анализирует отсутствующие секции в языковой версии статьи и ищет соответствующий контент на целевом сайте.

Формат REST запроса:

{
"cmd": "links_search",
"params": {
"google_table_url": "https://docs...", // URL Google таблицы с результатами
"row_number": 4 // Номер строки в таблице LANGS
}
}

Время выполнения: 20-55 секунд Средняя стоимость за одну строку: ~$0.045

Использование API и стоимость:

  • GPT-4: 5 запросов
  • GPT-4-mini: 15 запросов
  • Serper API: 13 запросов
  • Статистика по 5 запускам:
    • Общая стоимость GPT-4: $0.20
    • Стоимость Serper API: ~$0.013 (при тарифе $1 за 1000 запросов)
    • Средняя стоимость одного прогона: ~$0.043

Процес выполнения:

  1. Анализ статей

    • Получение контента английской версии
    • Получение контента языковой версии
    • Выявление отсутствующих разделов
  2. Поиск контента

    • Генерация поисковых запросов на основе отсутствующих разделов
    • Поиск статей на целевом сайте
    • Фильтрация результатов
  3. Обработка результатов

    • Анализ найденных статей
    • Создание кратких описаний
    • Проверка релевантности
  4. Сохранение данных

    • Запись найденных ссылок
    • Сохранение описаний
    • Обновление статусов

Структура сохраняемых данных:

ПолеОписание
Links Section nameНазвание отсутствующего раздела
Links Section contentСодержание раздела из английской версии
Keywords NКлючевые слова для поика
Site url NURL найденной статьи на целевом сайте

Особенности и ограничения:

  1. Поиск контента

    • Использование не более 5 ключевых слов
    • Поиск только по домену целевого сайта
    • Возврат только существующих страниц
  2. Фильтрация результатов

    • До 3-х релевантных ссылок на раздел
    • Исключение ссылок на главную страницу
    • Проверка доступности страниц

4. write_articles

Генерация контента для недостающих разделов статьи на основе найденных ссылок и анализа существующего контента.

Формат REST запроса:

{
"cmd": "write_articles",
"params": {
"google_table_url": "https://docs...", // URL Google таблицы с результатами
"row_number": 3 // Номер строки в таблице LANGS
}
}

Процесс выполнения:

  1. Подготовка данных

    • Получение информации о статье из таблицы LANGS
    • Создание нового листа для контента
    • Проверка существования предыдущих версий
  2. Анализ контента

    • Получение содержимого английской версии
    • Получение содержимого языковой версии
    • Сопоставление разделов
  3. Генерация контента

    • Анализ найденных ссылок
    • Создание новых разделов
    • Интеграция с существующим контентом
  4. Сохранение результатов

    • Запись сгенерированного контента
    • Создание структурированных секций
    • Обновление статусов

Структура данных в новом листе:

ПолеОписание
Section nameНазвание раздела
Section contentОригинальный контент на английском
site_keywordsКлючевые слова с целевого сайта
site_urlURL источника контента
language_sectionСгенерированный контент на целевом языке
translated_sectionФинальная версия раздела

Особенности и ограничения:

  1. Генерация контента

    • Сохранение стиля Wikipedia
    • Интеграция информации из разных источников
    • Адаптация под целевой язык
  2. Контроль качества

    • Проверка согласованности контента
    • Валидация форматирования
    • Сохранение ссылок на источники

Комплексная команда, которая последовательно выполняет команды start, lang_search и links_search. Это позволяет автоматизировать весь процесс анализа от начала до конца.

Формат REST запроса:

{
"cmd": "full_search",
"params": {
"target_url": "https://example.com", // Целевой сайт для анализа
"langs": ["es", "ja", "el", "it"], // Список целевых языков
"articles_limit": 50, // Максимальное количество статей
"google_table_url": "https://docs...", // URL Google таблицы
"count_confirm_status": 5, // Количество статей со статусом "confirm"
"count_langs": 5 // Количество языковых версий для обработки
}
}

Время выполнения: 2-4 минуты Средняя стоимость: ~$0.28 (сумма стоимостей команд start, lang_search и links_search)

Процесс выполнения:

  1. Запуск команды start
  2. После успешного завершения start - запуск lang_search
  3. После успешного завершения lang_search - запуск links_search для каждой найденной языковой версии

Особенности и ограничения:

  • Выполнение останавливается при ошибке любой из команд
  • Требует корректной настройки всех параметров для трёх команд
  • Позволяет автоматизировать полный цикл анализа

Комбинированная команда для запуска первых двух стадий, анализа и поиска языковых версий.

Структура Google таблицы

Таблица содержит следующие листы:

  1. EN LIST

    • Список найденных английских статей
    • Статусы обработки
    • Ссылки на статьи
  2. LANGS

    • Языковые версии статей
    • Статусы перевода
    • Дополнительная информация

Примеры использования

# Пример запуска начального анализа
curl --location 'https://n8n.mingles.ai/webhook/wiki_analyze' \
--header 'Content-Type: application/json' \
--data '{
"cmd": "start",
"params": {
"target_url": "https://securityamericamortgage.com",
"langs": ["es", "ja", "el", "it"],
"articles_limit": 3,
"google_table_url": "https://docs.google.com/spreadsheets/d/xxx",
"count_confirm_status": 3
}
}'