
Получение n-грамм ручным способом

Любой автоматизированный сервис по поиску биграмм и триграмм для ТЗ или написания статьи работает по алгоритму, заданному автором и нам неведомому. Но как-то хотелось бы управлять этим процессом.
Для этого подойдут только ручные или «псевдоручные» способы.
Сервис ручного сбора n-грамм Online NGram Analyzer
Контроль над выделением устойчивых словосочетаний из текста дает мне сервис Online NGram Analyzer в связке с Excel с надстройкой !SEMTools.
Рассмотрим инструмент NGram Analyzer.
В поле (1) вставляем текст для анализа. Можно вставлять и URL, но парсинг текста «грязный», для анализа берется весь код страницы и на выходе получаем вместе с текстом много html строк.
Переключатели (2) и (3) устанавливают возможность того или иного режима:
(2) — вручную выбирается требуемая n-грамма и задается нижняя граница частоты. В случае показанном на скриншоте, собираются биграммы с частотой повторения больше 2.
(3) — показываются только коллокации биграмм (то есть осмысленные биграммы, имеющие признаки синтаксически и семантически целостной единицы). Я этим режимом практически не пользуюсь
В поле (4) не надо ставить галочку, оставить как есть (знаки препинания учитываются как отдельные токены и участвуют в построении n-грамм).
- Вставляем анализируемый текст в окно
- Выставляем требуемую n-грамму и ее нижнюю частотность
- Получаем результат
Будем собирать фразы по теме «Что нельзя делать после ботокса» (все ключевые фразы и результаты поисковой выдачи уже собраны в Кей Коллекторе).