Wiki Analyzer Documentation

Wiki Analyzer - это инструмент для автоматизированного анализа и создания контента для различных языковых версий Wikipedia на основе английских статей.

Основные команды

Система поддерживает следующие команды:

1. start

Инициализация нового анализа. Сначала система анализирует указанный веб-сайт, извлекая ключевые темы и концепции. Затем она находит соответствующие статьи в английской Wikipedia, проверяет их релевантность и существование, и сохраняет результаты в Google Таблицу. Основная цель - автоматизировать процесс поиска и подготовки материалов для создания статей Wikipedia на разных языках (например, испанском, японском, греческом, итальянском) на основе информации с целевого сайта и существующих английских статей Wikipedia.

Формат REST запроса:

{
    "cmd": "start",
    "params": {
        "target_url": "https://example.com",         // Целевой сайт для анализа
        "langs": ["es", "ja", "el", "it"],          // Список целевых языков
        "articles_limit": 3,                         // Максимальное количество статей
        "google_table_url": "https://docs...",       // URL Google таблицы
        "count_confirm_status": 3                    // Количество статей со статусом "confirm"
    }
}

Время выполнения: 1-2 минуты Средняя стоимость: ~$0.19

Использование API и стоимость:

Perplexity AI: 1 запрос на анализ
GPT-4: в среднем 4-5 запросов на прогон
Средняя стоимость одного прогона GPT-4: ~$0.14
Статистика по 5 запускам:
- Общее количество запросов GPT-4: 24
- Общая стоимость GPT-4: $0.71
- Количество запросов Perplexity: 5 (цена условно $0.05)

Процесс выполнения:

Инициализация
- Прием и валидация входных параметров
- Подготовка рабочего окружения
Анализ сайта
- Использование Perplexity AI для анализа контента
- Определение ключевых тем и концепций
- Формирование базового набора тем
- Генерация краткого описания (summary)
- Создание списка релевантных ссылок Wikipedia
- Фильтрация нерелевантных тем
Обработка ссылок
- Разделение и валидация ссылок
- API-запросы к Wikipedia
- Проверка существования статей
- Следование по цепочке редиректов
- Получение финальных статей
Запись результатов
- Создание записей в Google Sheets
- Структурирование данных по полям
- Установка начальных статусов

Структура данных в Google Sheets:

Поле	Описание
title	Название статьи
status	Статус обработки
wiki_url	Ссылка на Wikipedia
revision_time	Время последней редакции
revision_user	Автор последней редакции
target_url	Исходный URL
summary	Краткое описание
langs	Целевые языки

Особенности и ограничения:

Интеллектуальный отбор
- Исключение общих терминов
- Приоритизация релевантных статей
- Контекстный анализ
Обработка ошибок
- Валидация статей
- Обработка редиректов
- Проверка содержимого
Системные ограничения
- Лимит на количество статей
- Контроль статусов "confirm"
- Фильтрация дубликатов

2. lang_search

Поиск и анализ языковых версий для найденных английских статей Wikipedia. Команда проверяет существующие статьи на указанных языках, анализирует их содержимое и актуальность.

Формат REST запроса:

{
    "cmd": "lang_search",
    "params": {
        "google_table_url": "https://docs...",       // URL Google таблицы с результатами
        "count_langs": 3                             // Количество языковых версий для обработки
    }
}

Время выполнения: 20-55 секунд Средняя стоимость: ~$0

Использование API и стоимость:

Не используется GPT-4 api только бесплатное Wikipedia API

Процесс выполнения:

Чтение данных
- Получение списка статей из таблицы
- Фильтрация по статусу "confirm"
- Проверка наличия целевых языков
Поиск языковых версий
- API-запросы к Wikipedia
- Получение списка доступных переводов
- Проверка существования версий
Анализ контента
- Сравнение объема контента
- Проверка даты последнего обновления
- Валидация качества статей
Сохранение результатов
- Запись в лист LANGS
- Обновление статусов
- Формирование отчета

Структура данных в LANGS:

Поле	Описание
en_title	Название английской статьи
en_url	URL английской версии
lang	Код языка
lang_title	Название на целевом языке
lang_url	URL языковой версии

Особенности и ограничения:

Фильтрация результатов
- Проверка объема контента (>33% от английской версии)
- Актуальность обновлений (не старше 90 дней)
- Исключение редиректов
Приоритизация
- Обработка только статей со статусом "confirm"
- Лимит на количество языковых версий
- Пропуск неактуальных переводов

3. links_search

Поиск релевантных ссылок на целевом сайте для недостающих разделов статьи. Команда анализирует отсутствующие секции в языковой версии статьи и ищет соответствующий контент на целевом сайте.

Формат REST запроса:

{
    "cmd": "links_search",
    "params": {
        "google_table_url": "https://docs...",       // URL Google таблицы с результатами
        "row_number": 4                              // Номер строки в таблице LANGS
    }
}

Время выполнения: 20-55 секунд Средняя стоимость за одну строку: ~$0.045

Использование API и стоимость:

GPT-4: 5 запросов
GPT-4-mini: 15 запросов
Serper API: 13 запросов
Статистика по 5 запускам:
- Общая стоимость GPT-4: $0.20
- Стоимость Serper API: ~$0.013 (при тарифе $1 за 1000 запросов)
- Средняя стоимость одного прогона: ~$0.043

Процес выполнения:

Анализ статей
- Получение контента английской версии
- Получение контента языковой версии
- Выявление отсутствующих разделов
Поиск контента
- Генерация поисковых запросов на основе отсутствующих разделов
- Поиск статей на целевом сайте
- Фильтрация результатов
Обработка результатов
- Анализ найденных статей
- Создание кратких описаний
- Проверка релевантности
Сохранение данных
- Запись найденных ссылок
- Сохранение описаний
- Обновление статусов

Структура сохраняемых данных:

Поле	Описание
Links Section name	Название отсутствующего раздела
Links Section content	Содержание раздела из английской версии
Keywords N	Ключевые слова для поика
Site url N	URL найденной статьи на целевом сайте

Особенности и ограничения:

Поиск контента
- Использование не более 5 ключевых слов
- Поиск только по домену целевого сайта
- Возврат только существующих страниц
Фильтрация результатов
- До 3-х релевантных ссылок на раздел
- Исключение ссылок на главную страницу
- Проверка доступности страниц

4. write_articles

Генерация контента для недостающих разделов статьи на основе найденных ссылок и анализа существующего контента.

Формат REST запроса:

{
    "cmd": "write_articles",
    "params": {
        "google_table_url": "https://docs...",       // URL Google таблицы с результатами
        "row_number": 3                              // Номер строки в таблице LANGS
    }
}

Процесс выполнения:

Подготовка данных
- Получение информации о статье из таблицы LANGS
- Создание нового листа для контента
- Проверка существования предыдущих версий
Анализ контента
- Получение содержимого английской версии
- Получение содержимого языковой версии
- Сопоставление разделов
Генерация контента
- Анализ найденных ссылок
- Создание новых разделов
- Интеграция с существующим контентом
Сохранение результатов
- Запись сгенерированного контента
- Создание структурированных секций
- Обновление статусов

Структура данных в новом листе:

Поле	Описание
Section name	Название раздела
Section content	Оригинальный контент на английском
site_keywords	Ключевые слова с целевого сайта
site_url	URL источника контента
language_section	Сгенерированный контент на целевом языке
translated_section	Финальная версия раздела

Особенности и ограничения:

Генерация контента
- Сохранение стиля Wikipedia
- Интеграция информации из разных источников
- Адаптация под целевой язык
Контроль качества
- Проверка согласованности контента
- Валидация форматирования
- Сохранение ссылок на источники

5. full_search

Комплексная команда, которая последовательно выполняет команды start, lang_search и links_search. Это позволяет автоматизировать весь процесс анализа от начала до конца.

Формат REST запроса:

{
    "cmd": "full_search",
    "params": {
        "target_url": "https://example.com",         // Целевой сайт для анализа
        "langs": ["es", "ja", "el", "it"],     // Список целевых языков
        "articles_limit": 50,                         // Максимальное количество статей
        "google_table_url": "https://docs...",       // URL Google таблицы
        "count_confirm_status": 5,                   // Количество статей со статусом "confirm"
        "count_langs": 5                             // Количество языковых версий для обработки
    }
}

Время выполнения: 2-4 минуты Средняя стоимость: ~$0.28 (сумма стоимостей команд start, lang_search и links_search)

Процесс выполнения:

Запуск команды start
После успешного завершения start - запуск lang_search
После успешного завершения lang_search - запуск links_search для каждой найденной языковой версии

Особенности и ограничения:

Выполнение останавливается при ошибке любой из команд
Требует корректной настройки всех параметров для трёх команд
Позволяет автоматизировать полный цикл анализа

6. start_and_lang_search

Комбинированная команда для запуска первых двух стадий, анализа и поиска языковых версий.

Структура Google таблицы

Таблица содержит следующие листы:

EN LIST
- Список найденных английских статей
- Статусы обработки
- Ссылки на статьи
LANGS
- Языковые версии статей
- Статусы перевода
- Дополнительная информация

Примеры использования

# Пример запуска начального анализа
curl --location 'https://n8n.mingles.ai/webhook/wiki_analyze' \
--header 'Content-Type: application/json' \
--data '{
    "cmd": "start",
    "params": {
        "target_url": "https://securityamericamortgage.com",
        "langs": ["es", "ja", "el", "it"],
        "articles_limit": 3,
        "google_table_url": "https://docs.google.com/spreadsheets/d/xxx",
        "count_confirm_status": 3
    }
}'

Основные команды​

1. start​

2. lang_search​

3. links_search​

4. write_articles​

5. full_search​

6. start_and_lang_search​

Структура Google таблицы​

Примеры использования​

Основные команды

1. start

2. lang_search

3. links_search

4. write_articles

5. full_search

6. start_and_lang_search

Структура Google таблицы

Примеры использования