Июн
17
2010

Закон Ципфа


Размещено Oleg в Теория

В свете последних изменений в алгоритмах поисковых систем снова на первое место выходит контент сайтов. Но теперь речь не идет о гонке за количество ключевых слов, умещенных всеми правдами и неправдами в один текст, пусть даже он не соответствует тематике ключей либо вовсе создан автоматически, как это было на заре зарождения поисковиков. Сегодня гораздо большее число алгоритмов обеспечивают релевантную выдачу, которые, ко всему прочему, значительно усложнились, что позволило взглянуть на тексты с качественной, а не количественной стороны.

Что подразумевается под качеством? Очень просто — попытки автоматически оценить текст на качество написания, естественность (написан ли текст вручную), тематичность употребленных ключевых слов и многое другое, что буквально несколько лет назад возможно было проанализировать исключительно человеку, но никак не поисковой системе. Среди подобных «умных» алгоритмов, реализующих вышеописанное, выделяется закон Ципфа, который в последнее время на слуху у многих оптимизаторов. Особенно это касается вебмастеров, радеющих за естественность текста и работающих с автоматизированными системами оценки текстов, такими как в Rookee. Что же это за закон и почему именно ему посвящен сегодня целый пост?

Выдержка из Википедии:

Закон Ципфа (Зипфа) — эмпирическая закономерность распределения частоты слов естественного языка: если все слова языка (или просто достаточно длинного текста) упорядочить по убыванию частоты их использования, то частота n-го слова в таком списке окажется приблизительно обратно пропорциональной его порядковому номеру n (так называемому рангу этого слова, см. шкала порядка). Например, второе по используемости слово встречается примерно в два раза реже, чем первое, третье — в три раза реже, чем первое, и т. д.

Для пояснения пригодится график, представленный в этой же статье на Википедии:

Закон Ципфа.

Здесь Частота – частота использования слова, Ранг – порядковый номер слова. Напоминаю, слова выстроены в порядке убывания частоты использования, поэтому Ранг 1 означает, что это слово используется чаще всего.

Для того чтобы лучше понять закон, удобно сформулировать 3 правила, применимые к любому языку:

  • Всего лишь малое число слов в языке используется чаще всего (левая почти вертикальная линия диаграммы);
  • Среднее число слов используется среднее число раз (средняя дуга диаграммы);
  • Большее число слов используется крайне редко (правая почти горизонтальная линия диаграммы).

Как все это касается оптимизаторов и конкретно текстов для продвигаемого сайта?

Если учесть, что поисковые системы все же используют закон при ранжировании и оценке сайтов, то напрашивается очевидный вывод — практически любые, созданные автоматически тексты, элементарно распознаются поисковиками. А если даже мы решили порассуждать на эту тему, то создатели поисковых систем наверняка взяли закон на вооружение.

Стоит сказать пару слов о связи частотности слов и тематики текстов или о так называемых частотных словарях. Последние создаются на предварительно собранных корпусах текстов. Корпус — это, грубо говоря, набор текстов, объединенных неким общим признаком, чаще всего — тематикой. Для построения эталонной частотности слов внутри выбранной тематики используется максимально большой набор тематических текстов, вычленяются из них слова и словосочетания, и подсчитывается их частота. После этого, зная тематику текста, возможно проверить его на естественность, благодаря сравнению с эталонной частотностью. Есть мнение, что поисковые системы используют этот принцип. Определение же тематики проверяемых текстов (сайтов) возложено на модераторов каталогов DMOZ, ЯК и др.

Примеры

В качестве примера возьмем синонимайзер. Эти программы просто подставляют слова из заранее сформированной базы, не принимая в расчет частотность синонима, а часто даже ошибаясь с его тематическим соответствием тексту. Естественно, обычно заменяются именно те слова, которые чаще всего встречаются, на слова с менее выраженной частотностью. Таким образом, нарушается тематичность частотности слов, и сайт попадает в группу риска по получению бана или снижению траста. В качестве решения проблемы можно обратиться к специалистам, вроде Aot.ru. Но это далеко не самая простая задача.

На очереди автоматический переводчик. Наверняка вы замечали, что тот же translate.google.com частенько предлагает перевод слов, совершенно не подходящих по тематике к документу. Особенно это касается перевода на сложные языки, вроде русского или китайского. Без редактирования переводчиком или хотя бы копирайтером полученного переводного текста, он даже с точки зрения обычного читателя покажется неестественным, стоит ли говорить о частотных словарях и законе Ципфа?

В конце концов, возьмем излюбленный прием оптимизаторов — использование нетематических ключевых слов в текстах. Например, это касается подготовки материалов для бирж статей. Если текст готовится специально под конкретный сайт, то часто в нем продвигается совершенно отличный по тематике ресурс. Следствие — нетематические анкоры, а значит и нарушение частотных словарей. Либо еще проще — заказчик предоставляет копирайтеру список ключевых слов для употребления в тексте, содержание которого отличается от темы ключевиков. Мы сами не раз встречались с такими заказами.

Итак, какие выводы можно сделать?

  1. Если вы работаете с ГС (плохими сайтами), наполняемыми автоматическими методами, то вы должны либо просто смириться с тем, что долго они не проживут, либо иметь достаточный опыт для обхода фильтров поисковых систем, связанных с качеством текстов.
  2. Если ваш выбор — процветающий и надежно удерживающий позиции сайт, то стоит прислушаться к гуру «белой» оптимизации: наполнять сайт написанным вручную контентом, получать ссылки только с тематических или околотематических сайтов, используя опять же тематически анкоры и околоссылочный текст, забыть про синонимайзеры, автоматические переводчики и прочие «игрушки».
В избранное

Написать комментарий

меньше | больше