Как применять биграммы и триграммы в SEO текстах

При создании технического задания на написание текста и при текстовом анализе уже готовых работ биграммы и триграммы, а в общем случае n-граммы, являются важным инструментом. В статье я расскажу как искать и пользоваться ими для улучшения своих текстов и покажу алгоритм работы с ними.

Что такое биграмма и триграмма в семантике?

Биграмма — это два слова, которые в тексте являются соседними, то есть биграмма это двухсловное сочетание. Триграмма — это три слова. В общем виде они все называются n-граммами. Униграмма — это единичное слова. Для примера рассмотрим предложение: Мальчик смотрел в окно. В нем можно выделить такие биграммы:

  • мальчик смотрел,
  • смотрел в,
  • в окно,
  • окно мальчик.

Вот и всё! А триграмм и того меньше:

  • мальчик смотрел в,
  • смотрел в окно,
  • в окно мальчик.

Слово у нас неделимая единица. Также еще они называются токенами, то есть слово = токен. N-граммы в семантике применяются для:

  • индексирования текстовой информации в поисковых системах,
  • предугадывания последовательностей слова на основе вероятностных моделей,
  • для определения текстовой релевантности.

Поскольку они применяются в ПС, то значит и для семантического анализа текста крайне интересны. Ведь появление той или иной n-граммы в тексте является закономерной. Пусть у нас есть текст «Как составить ключевые слова для статьи за 20 минут«.  Биграмм в нем много. Посмотрим на часть из них

Желтым подсвечены те, что определяют тематику текста. Если же посмотреть на триграммы, то здесь картинка еще более «красивая», словосочетания более точно определяют текст. 

Триграммы в тексте
Четырехсловные фразы еще четче показывают тематическую направленность текста.
Четырехграммы в тексте
Для сравнения я взял текст из той же тематики, но чуть-чуть в стороне (про написание текстов). И что же мы видим. Биграммы:
Биграммы в тексте для сравнения
Триграммы:
Триграммы в тексте для сравнения
Похожих биграмм и триграмм в двух текстах нет. И это правильно: ведь тексты имеют разную тематику. Из рассмотренного примера можно сделать выводы о том, что:
Разные тексты дают разные словосочетания (если они не являются копиями и 100% уникальны). На каждый текст есть свои n-граммы, которые определяют тематическую направленность текста.

Анализ словосочетаний текстов одной тематики

Возьмем любую произвольную поисковую выдачу. Пусть это будет Ботокс и алкоголь и проанализируем биграммы и триграммы первых трех текстов из ТОП10, исключая рекламу и сервисы Яндекса.

Сравнение трех текстов
Поскольку у нас поисковая фраза состоит из трех слов (в данном случае предлог «и» считается за единичный токен), то корректнее всего анализировать триграммы. Из полученных триграмм я выкинул все те, что не имеют отношения к теме. Оставил только те, что содержат в себе «ботокс» или «алкоголь» и вариации и синонимы этих слов. К слову «алкоголь» я оставил «спиртное, пить, употреблять, употребление, выпить». Итоговая таблица получилась вот такая:
Сравнение трех текстов таблица

Все словосочетания из одного кластера, все они про алкоголь и ботокс. Так и должно быть. Круг замкнулся:

тема (поисковый запрос) → тексты в ТОПе → триграммы текстов из ТОПа → включение (использование) этих триграмм в своем тексте → мой текст в ТОПе.
 Конечно, это схема крайне упрощенная, но она дает понимание того, что такое биграммы и триграммы и какое место в текстах они занимают.

Как использовать словосочетания в тексте

Как и где практически применять биграммы и триграммы? Если я пишу новую статью или только создаю для нее техническое задание, то изучив сочетания слов статей-конкурентов можно определить как, что и о чем надо писать в своем тексте. Ну если не в полной мере, то можно найти устойчивые фразы, которые описывают тематику.

Использование биграмм и паттернов формирует положительное ранжирование. Статистически значимым оказывается добавление этих слов в title, тексты и другой контент страницы

Алексей Чекушин, создатель just-magic.org, конференция Оptimization 2019.

Откуда же взять такие n-граммы? Придумывать? Да, нет же. Есть статьи, которые в ТОПе по вашему запросу. Взять и снять с них биграммы и триграммы. Ведь если эти статьи занимают лидирующее положение, то устойчивые словосочетания из них есть уже в памяти поисковой системы. Значит выявлена корреляция между n-граммами и темой. Если мы в своем тексте употребим несколько выявленных биграмм или триграмм (к месту и в абсолютно читаемом виде), то тем самым дадим поисковой системе еще один сигнал о тематической принадлежности текста. Понятно что одного такого сигнала мало. Но по капельке-капельке и собирается ручеек, а потом и речка…

Используя все доступные «рычаги» (ключевые слова, похожие фразы, подсказки, lsi, биграммы и триграммы), можно подтолкнуть поисковые системы к тому, что наш текст тоже чего-то стоит и что он релевантен поисковому запросу пользователя. Возьмем все наши триграммы из примера сведем в одну таблицу, удалим явные и неявные дубли, незначащие фразы, отсортируем по частоте употребления и получим вот такую «красоту»:

Таблица триграмм и биграмм
Это уже готовая часть в наше ТЗ на текст. Осталось только также красиво ее реализовать в тексте.

Онлайн-сервисы для получения биграмм и триграмм

Есть немало сервисов, которые позволяют получить нужные нам словосочетания. Я буду рассматривать только бесплатные или же совсем дешевые.

Инструмент «Вместо ТЗ копирайтеру»

Начнем рассмотрение с сервиса Кулакова.

Сервис Кулакова для поиска биграмм
В поле «Запрос» вводим поисковый запрос, нажимаем «Отправить» и получаем список n-грамм. Буду собирать словосочетания для реальной статьи «Что нельзя делать после ботокса». Семантика по этой статье собрана в Кей Коллекторе. Беру самых 4 высокочастотных запроса
  • после ботокса что нельзя делать,
  • сколько нельзя заниматься спортом после ботокса,
  • сколько нельзя ложиться после ботокса,
  • ботокс и антибиотики.

Снимаю по ним биграммы и триграммы, последовательно вводя ключевые фразы в поле «Запрос» и копируя результаты анализа в Excel в одну таблицу. Таким образом, получили все n-граммы. Сняли — это одно, а теперь надо их правильно обработать. Что я имею ввиду? Ведь в этих биграммах и триграммах есть словосочетания, содержащие в себе части ключевых фраз, а есть просто широкоупотребительные фразы, которые применимы к любой теме.

Выделение нужных фраз

Фразы, выделенные синим цветом, это малоинформативные фразы или это я так думаю? Чтобы принять правильное решение по ним можно поступить так, как я показываю в этом видео.

Лемматизатор текста и проверка N-грамм от Арсенкина

Если в сервисе Кулакова мы искали n-граммы по ключевым словам, то у Арсенкина можно анализировать сами тексты (1) или URL страниц с текстами (2). Текст должен спаршиваться автоматически, но на момент написания статьи (май 2021 года) что-то в нем не работало.

Лематизатор текста в сервисе Арсенкина

Доступны следующие установки:

  • Max слов в N-грамме — можно извлечь биграммы (2), триграммы (3) и так далее
  • Не учитывать стоп слова при поиске — не будут учитываться предлоги, союзы, местоимения.
  • Игнорировать близко стоящие N-граммы — будут склеиваться близко стоящие словосочетания. Например, в тексте есть такая фраза «найти биграммы в тексте искать». При анализе будут выделены две триграммы: «найти биграммы в тексте» и «биграммы в тексте искать«. Но слова найти и искать есть близкие по смыслу. Если чекбокс будет включен, то одна из этих фраз будет игнорирована.

Результат работы скрипта:

Вывод биграмм в сервисе
Вывод лематизированных слов в сервисе

Принципиальное отличие этого сервиса от Кулакова — он дает лематизированные словосочетания (то есть все слова приведены в единственное число именительный падеж). 

Достоинства:

  • быстро и просто,
  • бесплатно,
  • выдает лематизированные слова,
  • можно определить какие n-граммы получать.

Недостатки:

  • все n-граммы в одном списке и они лематизированы.

Комплексная оценка текста в Пиксель Тулс

Еще одним онлайн-сервисом является сервис Пиксель Тулс.

В поисковую строку вводим основной поисковый запрос исследуемой темы и берем урл самого первого сайта (кроме рекламы). Вставляем его в поле (1) и нажимаем Получить текст (2). Текст со страницы загружается в сервис.  

Пиксель тулс для поиска биграмм

Нажимаем Проверить текст (3) и получаем вот такой результат

Результаты биграмм и триграмм из Пиксель Тулс

Результат можно скачать в формате *.pdf (1). Файл не закрытый и поэтому при определенных навыках с pdf файлами, всю информацию можно скопировать в формат *.txt. 

Можно также посмотреть плотность ключевых слов (2), биграммы, триграммы, четырех — и пятисловные фразы (3), распределение слов по закону Ципфа.

Скачать информацию (4) однако можно только при условии платной подписки.

Лучше всего вводить самому текст, потому что если указать урл страницы, то вместе с текстом спаршивается вся информация, вплоть до телефонов и разной информации в сайтбарах, хедере и футере (а она в данном случае лишняя и анализу не подлежит).

Достоинства:

  • просто, быстро,
  • полнота информации,
  • сохраняется история проверок.

Недостатки:

  • платный,
  • нет возможности экспортировать результаты при бесплатных тарифах,
  • ограничения по количеству проверок (на начальном тарифе Стажер — только 5 анализов в сутки).

Поиск n-грамм от Артура Корсакова

Еще один сервис, который позволяет решить вопрос с биграммами и тоже бесплатный (есть ограничение по количеству запросов в течение суток). Он также помогает составить ТЗ копирайтеру.

Для поиска можно использовать как одну ключевую фразу, так и целый кластер, но не более 10 запросов. Так же можно осуществить поиск по заданному списку url-адресов (максимальное количество 20 страниц).

Внимание!!! пустая строка в списке запросов считается за один запрос, поэтому надо обязательно удалить пустые строчки и пробелы в конце последнего запроса.

Фишкой данного сервиса является то, что если зарегистрироваться в нем (бесплатно), то доступна функция поиска биграмм и триграмм в только свежих сайтах. Не могу сказать, как определяется свежесть текста, но выдача точно разная. Автор говорит, что свежие тексты это тексты новостей на заданную тему.

Копировать для работы нужно не все, подтащится много разных фраз, которые встречаются только один раз.

В отчете есть графа «Популярность фраз» в %

Результаты расчета биграмм в сервисе Артура Корсакова

Чем выше процент, тем лучше и точнее слова и фразы характеризуют тематику. За 100% берётся частота повторения самого популярного слова после ключевого.
Я для себя выработал такое правило:

просматриваю список, не обращая внимание на проценты, и как только появилось первая фраза не по моей теме, сразу останавливаюсь и ниже уже не смотрю. Чаще всего ниже ничего толкового и нет, а если есть то повторы или неявные дубли.

Есть еще один лайфхак с работой в данном сервисе — как правильно отобрать биграммы и триграммы из всего списка, обращайтесь — расскажу.

Поиск n-грамм по ключевым словам имеет на бесплатном тарифе лимиты обращений в сутки, по урлам такого лимита нет.

Достоинства:

  • просто и быстро,
  • полнота информации, парсинг как по ключевым словам, так и по урлам страниц,
  • есть возможность скачать результаты.

Недостатки:

  • не выявлено.

Сравнение онлайн-сервисов

Сравним теперь три автоматических онлайн сервиса. Под термином автоматический я понимаю то, что n-граммы формируются вне моего участия и по каким-то своим алгоритмам. Ведь если бы алгоритмы были похожи, то и результаты тоже были похожи. А в нашем случае они здорово отличаются друг от друга. Конечно, тема полностью совпадает (это хорошо!), а вот нюансы есть.

Лично мне больше по душе варианты биграмм и триграмм от сервиса Кулакова и Артура, они какие-то более «живые» и реальные. Но опять же, это исключительно субъективное мнение.

Сравнение онлайн сервисов
Автор DiviLancer

Помогу в создании блога, интернет-магазина или лендинга на премиальной теме WordPress Divi. Обучу администрированию сайта. Окажу техническую поддержку.

Если Вам нужно составить биграммы или триграммы для текста, обращайтесь, буду рад помочь Вашему бизнесу или хобби.

Оставьте ответ

Ваш адрес email не будет опубликован.