Война с роботами
Да и роботы эти не такие страшные, и занимаются они куда более мирными делами — ищут информацию. «А-а-а, поисковые роботы! Ясно, это мы уже проходили», вздохнет кто-то с облегчением, а любители остросюжетных историй — с разочарованием. Да, проходили, не раз, много читали, пробовали. Но далеко не все добились своей цели, далеко не все попали на первые места (или даже на первую страницу) в результатах поиска каталогов и поисковых систем по желаемым ключевым словам. А почему? Да потому, что конкуренция иногда бывает слишком велика, чтобы туда пробиться. Чтобы осуществить задуманное, нужно работать практически со всеми параметрами, которые учитывает поисковик. Это нелегко, но в принципе осуществимо.
В этой статье будет сделан упор на продвижение вашего проекта с помощью поисковых систем, что является наиболее комплексным и трудоемким, но вместе с тем и очень эффективным методом. Информация, изложенная далее, порой будет пересекаться с тем, что вы уже могли прочитать, но я попробую раскрыть некоторые важные моменты работы с поисковыми машинами более детально.
Итак, что же учитывает поисковик при выдаче результатов запроса? Достоверно об этом могут сказать только разработчики каждой поисковой системы, и такие секреты вам вряд ли кто-то выдаст. Но вот общий принцип — далеко не тайна за семью замками, и вы должны его знать. Что учитывается для вычисления той самой релевантности, которой все хотят добиться? Если вы скажете, что она определяется роботом по содержимому вашей страницы, то будете правы лишь частично. Просматривая страницу, робот индексирует ее, чтобы при поступлении запроса оценить на предмет соответствия. Но оптимизации страниц для поисковой машины сейчас недостаточно. Учитываются и другие факторы, вносящие свой вклад в сортировку результатов поиска, иногда выводящие не самые оптимальные страницы на первые места.
Несомненно, первым параметром все же остается отношение поисковика к содержимому вашей страницы, иначе вы бы при поиске получали несколько искаженные результаты. Но, как я уже говорила, в условиях жесткой конкуренции важна буквально каждая мелочь. Следующим за соответствием страницы запросу идет ранг или вес документа. В разных поисковиках он может называться по-разному. Например, в Google это Page Rank, в Яндексе — взвешенный индекс цитирования. Ранг страницы — это число, которое указывает количество документов с других сайтов, ссылающихся на страницу, с учетом их рангов. Формулировка довольно общая и не отражает всех деталей вычисления ранга, но для нашей работы подойдет. Еще один параметр, несколько связанный с рангом, — это содержание ссылок на вашу страницу, т.е. содержатся ли в ссылке слова из запроса. Ну и наконец, учитывается количество других документов с вашего сайта с учетом их параметров (оптимизации, ранга и наличия ссылок на эти страницы с желаемым запросом в тексте ссылки). Теперь, когда известны все «враги», приступим к борьбе с каждым из них.
Начнем все же с оптимизации страниц. Несмотря на то, что эта тема уже обсуждалась, с ней не мешало бы разобраться до конца. К моменту оптимизации страниц сайта вы уже должны были подобрать ключевые слова, которые будут характеризовать ваши страницы. То, что у вас должно получиться, в результате оптимизации представляет из себя страницу с ключевыми словами, имеющими высокие значения параметров частоты, веса, плотности и расположения. Разберем, как добиться каждого из них.
Частота — в физике она измеряется в Герцах, т.е. раз в секунду, а для слова — раз на странице. С этим параметром все ясно. Страница, на которой ключевое слово встречается один раз, будет менее релевантной, чем та, на которой их пять. Но не переусердствуйте. Во-первых, слово должно быть уместным, чрезмерное его повторение в самом тексте может нарушить литературный стиль (вспомните про то, как учительница русского языка снижала вам оценку за тавтологию в сочинении), а если оно будет повторяться в коде, страница может быть расценена как спам. Про это мы поговорим несколько позже.
Вес слова определяется тем, какую роль оно играет в документе. Это может быть заголовок документа, ссылка на другую страницу, подпись к иллюстрации или просто часть обыкновенного параграфа. Естественно, роль слов определяется не чем иным как HTML-тэгами. Важность тэгов можно распределить по уровням:
1) title; 2) a, h1-h6; 3) b, strong, i, em; 4) атрибуты alt и title.
Наверняка у вас теперь возникло желание поместить как можно больше ключевых слов в title. Остановитесь! Во-первых, заголовок сделан не для того, что содержать в себе бессмысленный список слов — это название вашего документа. Во-вторых, поисковики учитывают только определенное количество символов, а остальные отбрасывают. Лучше ограничиться 75 знаками. В-третьих, чем больше слов в каком либо тэге, тем ниже следующий важный параметр — плотность. Но перед тем как перейти к ней, задержимся еще на некоторое время на весе. Вес ключевым словам придает и наличие их в мета-тэге keywords (хотя этот тэг потерял свои позиции в связи с использованием его для спама). Но будьте внимательны — наличие слова в keywords при отсутствии его в тексте страницы не приносит никакой пользы, поэтому помещайте в этот мета-тэг только те слова, которые относятся к данному документу. Мета-тэг, как и title, не резиновый, ограничьтесь 250 символами, а если уж хотите угодить абсолютно всем поисковикам, то хватит и 75. Отделять слова лучше пробелами, чем запятыми — последние все-таки являются символами, соответственно, занимают место. Вы можете повторить ключевое слово в мета-тэге несколько раз, но не забывайтесь, а то наказание от сканирующего робота будет строгим. Еще можете использовать разные варианты написания (например, единственное и множественное число). Это принесет вам сразу ряд выгод. Поисковиком прежде всего учитывается точное написание слова, а потом уже варианты. Например, если пользователь введет запрос «кот в мешке», а поисковик найдет в вашем документе именно такое словосочетание, страница окажется в результатах выше той, где «кот» и «мешок» представляют собой отдельные лексемы (при всех остальных равных параметрах). Поскольку поисковик лексически анализирует введенные пользователем слова, то и вторая страница будет отвечать введенному запросу, стало быть, перебор вариантов ключевого слова можно считать более приемлемым вариантом повтора.
Закончим с весом и передвинемся наконец-то к следующему параметру. Это плотность ключевого слова, которая определяется отношением количества повторений его в документе к общему объему документа. Плотность прямо пропорциональна частоте, а во многих случаях даже заменяет ее. Т.е. поисковиком используется не количество повторений, а именно отношение к размеру документа. Для каждого тэга плотность также вычисляется, т.е. чем меньше слов в одном из весомых тэгов, тем лучше. Понятно, что помещать весь текст в такие весомые тэги как h1—h6 или strong, изменяя при этом внешний вид тэга с помощью CSS, чтобы пользователь ничего не заметил, не имеет смысла. Вы теряете плотность для ключевых слов, и они становятся такими же обычными, как и все остальные слова. По причине потери плотности не нужно использовать в title или каких-либо других значимых тэгах «украшательства» типа -= =-, .::: :::.. Встречаются случаи, когда web-мастер пытается отделить в тэге title название сайта от подраздела, где находится посетитель, вертикальной чертой — |. Кроме того, что такая черта занимает зря место, она может быть расценена поисковиком как отсечение, и он не воспримет следующие за ней слова. Избегайте использования скобок, двойных и одинарных кавычек и каких-либо других специальных символов. Если хотите отделить слова в заголовке, используйте точки или запятые. Если название сайта никак не отражает его содержимого (например, название неизвестной фирмы), а значит, не будет использоваться при поиске пользователем, то во многих случаях лучше отказаться от включения его (названия) в заголовок, опять же из соображений увеличения плотности ключевых слов. Еще одно правило, использование которого позволит вам получить приемлемую плотность — не делайте больших документов. И не только потому, что пользователю будет неудобно их загружать, а еще и потому, что чем больше «лишних» слов, тем в менее выгодном положении окажутся те, на которые вы делаете ставку. Разбивайте документ на несколько частей. Это облегчит жизнь и вашему посетителю, и вам. С помощью нескольких частей вы сможете затронуть сходные запросы (опять же, «кот в мешке» и «котята в мешке» :-)). Помните, поисковики любят средние по размеру страницы. Не отказывайте им в удовольствии индексировать ваши страницы.
Последний немаловажный параметр — расположение ключевого слова. Индексируя страницы, робот заносит в свою базу данных о каждом слове такую информацию, как номер документа и номер предложения, в котором оно присутствует, а также номер слова в самом предложении. Тем самым он сможет определить точное местонахождение слова в документе, предложении, тэге. Что из этого следует, я думаю, вы поняли. Вы должны размещать ключевые слова поближе к началу, как в самих документах, так и в тэгах. Чем важнее для вас ключевое слово, тем раньше оно должно стоять в заголовке, мета-тэге keywords, ссылках и т.д. Кроме того, некоторые поисковики не рассматривают весь документ, а обрезают его до определенного размера, а посему слова, которые фигурируют в конце страницы, роботы могут и не увидеть. Еще одна причина, почему ключевые слова нужно размещать ближе к началу, заключается в том, что поисковик может взять начальные предложения в качестве описания к вашей ссылке в результатах поиска вместо того, что вы написали в мета-тэге description, о котором, кстати, забывать тоже ни в коем случае нельзя. Например, так поступает самый популярный российский поисковик Яндекс. Чтобы обеспечить своим словам хорошее расположение, не помещайте в начало документа Javascript-меню или счетчики. Полезный текст должен начинаться как можно скорее после тэга body.
Итак, с параметрами разобрались. Отмечу, что для получения наилучших значений страницы необходимо оптимизировать ее под 1—3 ключевых слова. Для большего числа слов получить оптимальность просто невозможно.
До сих пор в нашей статье остался открытым один очень важный и актуальный вопрос: что же делать с динамическими страницами? Было время, когда поисковики ни в какую не хотели индексировать что-либо помимо html и htm. Сейчас же большинство из них рассматривает страницу с URL http://имя сайта/имя страницы.php?имя переменной=значение переменной&&… точно так же, как и статическую страницу, хотя еще остались более привередливые ресурсы. Например, Апорт выборочно индексирует страницы, в адресе которых хранятся символы ?, && и =. Но это не значит, что про индексацию динамического содержимого можно забыть. Как раз наоборот, иногда форум или каталог продукции, формирующийся серверным скриптом по запросам к базе данных, — именно та самая важная информация, которую вам бы хотелось сделать доступной для поисковой машины. Яндекс, в противовес Апорту, наоборот, отдает предпочтение в индексации форумов и гостевых книг, а он ведь далеко не единственный поисковик, работающий с динамическими страницами. Поэтому у вас есть полное право рассчитывать на внимание роботов по отношению к вашему динамическому содержимому. Нужно только его правильно подготовить к взаимодействию с поисковой системой. Индексироваться должны те страницы, которые не зависят от действий пользователя, например, регистрации или аутентификации, а также наличия cookies, сессий. Другое дело скрипт, каждый раз выдающий новые данные. Индексация такого документа нецелесообразна, так как к тому времени как страница будет прописана в поисковике, информация о ней будет неактуальна. Индексироваться может скрипт, который в зависимости от параметров, передающихся в URL, формирует содержимое страницы. Каждый возможный вариант, который может выдать данный скрипт, будет для поисковика отдельной страницей. Например, по адресу http://mysite.com/myscrip.php?sec=1 формируется страница с содержимым о котах, а http://mysite.com/myscrip.php?sec=2 отвечает за котят. Для того чтобы поисковик мог найти и проиндексировать каждую из таких вот страничек, желательно отвести страницу под карту сайта. Для тех поисковиков, которые не любят специальных символов в адресе страницы, можно воспользоваться некоторыми способами завуалировать динамическое под статическое. Первое, что можно сделать — настроить web-сервер для восприятия файлов с расширениями .htm и .html в качестве скриптов, например, php-, asp- или pl-. Второе и более важное — убрать из URL специальные символы. Вы можете превратить страницу http://mysite.com/myscrip.php?sec=1 в http://mysite.com/myscrip/1 с помощью модуля mod_rewrite, также описываемого в МК ранее. В этом случае ваш скрипт возьмет переменную sec не из массива GET, а из переменной окружения. Тогда даже упрямый Апорт сдастся и проиндексирует ваш сайт. Что касается кода HTML, генеруруемого скрпитом, то требования к нему будут аналогичны тем, которые предъявляются к статическим страницам, ведь даже если HTML формируется серверным скриптом, он все равно остается HTML’ем, который потом просматривает посетитель сайта в браузере или индексирует поисковая машина.
Пока все. Но на мировую еще не идем, и в следующей части продолжим бороться с непокладистыми поисковыми системами/роботами. В дальнейших публикациях речь пойдет о нечестных приемах, которые могут использовать web-мастеры, чтобы превзойти ваши оптимизированные страницы.
Полную версию книги вы можете скачать бесплатно здесь
|