Получение n-грамм ручным способом

Получение n-грамм ручным способом

Любой автоматизированный сервис по поиску биграмм и триграмм для ТЗ или написания статьи работает по алгоритму, заданному автором и нам неведомому. Но как-то хотелось бы управлять этим процессом.

Для этого подойдут только ручные или «псевдоручные» способы.

Сервис ручного сбора n-грамм Online NGram Analyzer

Контроль над выделением устойчивых словосочетаний из текста дает мне сервис Online NGram Analyzer в связке с Excel с надстройкой !SEMTools.

Кстати, через меня можно купить данную надстройку с небольшим дисконтом. С автором есть договоренность, обращайтесь ко мне и она будет дешевле на 20% от цены на официальном сайте.

Рассмотрим инструмент NGram Analyzer.

Онлайн анализатор n-грамм

В поле (1) вставляем текст для анализа. Можно вставлять и URL, но парсинг текста «грязный», для анализа берется весь код страницы и на выходе получаем вместе с текстом много html строк.

Переключатели (2) и (3) устанавливают возможность того или иного режима:

​ (2) — вручную выбирается требуемая n-грамма и задается нижняя граница частоты. В случае показанном на скриншоте, собираются биграммы с частотой повторения больше 2.

​ (3) — показываются только коллокации биграмм (то есть осмысленные биграммы, имеющие признаки синтаксически и семантически целостной единицы). Я этим режимом практически не пользуюсь

В поле (4) не надо ставить галочку, оставить как есть (знаки препинания учитываются как отдельные токены и участвуют в построении n-грамм).

Как работать анализатором Online NGram?

  1. Вставляем анализируемый текст в окно
  2. Выставляем требуемую n-грамму и ее нижнюю частотность
  3. Получаем результат

Будем собирать фразы по теме «Что нельзя делать после ботокса» (все ключевые фразы и результаты поисковой выдачи уже собраны в Кей Коллекторе).

Собирать будем только триграммы с частотой повторения не ниже 2 по первым трем статьям-конкурентам.

Вся последовательность работы показана в видео

Оставьте ответ

Ваш адрес email не будет опубликован.