|
Дмитрий
Крюков, 30 июня 1998
Данный
документ описывает общие принципы,
относящиеся только к поисковой
системе Rambler. Возможно, некоторые
положения этого документа будут не
соответствовать аналогичным принципам
других поисковых систем, следовательно,
использовать их нужно с осторожностью.
Сами
принципы достаточно просты. Вот они:
- Прежде
всего рекомендуем заполнить
регистрационную анкету в поисковой
системе Rambler, анкета находится по
адресу http://www.rambler.ru/new/add_site.shtml.
Это будет гарантией того, что по
крайней мере, эта анкета будет найдена
при соответствующем поиске, и по
ссылке из нее человек сможет попасть
на ваш сайт. Рекомендуется также
проделать это в случае, если ваши
странички располагаются на
зарубежных сайтах. Роботы Rambler
сканируют сайты, находящиеся в рамках
Содружества и игнорируют остальные
зарубежные сайты. Определение
принадлежности сайта производится по
формальному признаку - домену первого
уровня в URL сайта.
- В случае,
если ваш сайт находится за рубежом, но
существенная часть сайта содержит
русскоязычные материалы, или если ваш
сайт находится в пределах содружества,
но входит в другие домены первого
уровня ( .com .org .net и пр.), вы можете
отослать письмо на адрес webmaster@stack.net
с просьбой включить ваш сайт в число
сканируемых. Наши сотрудники
рассмотрят эту просьбу и примут
решение о целесообразности такого
включения. Пожалуйста, не стоит
обращаться с подобными просьбами,
если ваши странички располагаются на
зарубежных публичных сайтах, таких
как: geocities, tripod, aol, xoom, netcom, hypermart и
других, подобных этим. Роботы Rambler не
сканируют эти сайты. Не следует также
обращаться с такими просьбами, если в
качестве URL вы укажите один из адресов-редиректоров,
например *.da.ru. Однако это не мешает вам
заполнить анкету - см. предыдущий
пункт.
- Роботы Rambler
при сканировании игнорируют поля <meta...keywords=...>.
Это связано с тем, что наша система
старается индексировать документ
таким, как есть, а не таким, как хочет
владелец. Не секрет, что зачастую
владельцы документов злоупотребляют
этими полями в документе, с тем, чтобы
их документы обязательно находились
по словам, при этом часто реальное
содержание документа не
соответствует данным критериям.
- Не следует
также использовать невидимый текст на
страничке (т.е. шрифты, цвет которых
соответствует цвету background).
Комментарии в документе роботы Rambler
тоже не сканируют, по-этому советуем
использовать их по прямому назначению.
Помните, что каждый комментарий
увеличивает размер вашего документа,
а значит снижает вероятность того, что
в каком-нибудь конкретном случае
документ будет просмотрен до конца.
Обычно это делают с той же целью,
которая указана в предыдущем пункте.
- Базовые
понятия и ключевые слова для данного
сайта следует включать в HTML тэги (в
порядке значимости):
- <TITLE>
- <H1-..H6>
- <ADDRESS>
- <B>,
<STRONG>
Чем чаще
слово встречается в комбинации этих
полей, тем более вероятно, что
поисковая система Rambler найдет ваш
документ ближе к началу списка
результатов поиска. Конечно,
использование этих HTML тэгов должно
органично сочетаться с дизайном
вашего сайта. Кроме того, чем ближе
располагается поисковое слово к
началу документа, тем больше весовой
коэффициент данного слова.
- Не следует
включать в список желаемых ключевых
слов общеупотребительные, часто
встречающиеся слова, такие как сервер,
html, ru, страница и другие. Ваши слова
должны быть достаточно
информативными (в идеале уникальными).
Не следует также ориентироваться на
слова, состоящие из одних цифр. В
настоящий момент поисковая система
Rambler игнорирует такие слова. Возможно,
в будущем это будет изменено, но на
сегодня это именно так.
- С точки
зрения поиска использование фреймов в
документе не приветствуется. Это не
означает, что роботы не умеют
сканировать фреймы. Это означает
только то, что отсканированный
отдельный фрейм не может дать
представление о целом документе.
Данное замечание не отностится к
случаю, когда фреймы в документе
используются исключительно для
удобств навигации. Роботы Rambler
прекрасно справляются с
конструкциями фреймов, однако мы
советуем включать в текст таких
документов HTML тэг <NOFRAMES> с
последующим описанием документа и
ссылками. Разумеется, это увеличит
размер странички, но будет являться
актом "доброй воли" к
пользователям текстовых браузеров (например
lynx) и поисковым машинам.
- Поисковый
сервер Rambler автоматически исключает
из индекса слова, встретившиеся в
более чем 800 тыс. документов. Такие
слова не являются информативными для
поиска, и в 99,9% случаев можно обойтись
без них.
- При
указании перекрестных ссылок в
документе будте предельно
внимательны, проверьте
работоспособность каждой ссылки,
иначе роботы не смогут добраться в
глубь дерева ваших документов.
Следует также иметь ввиду, что с точки
зрения HTML записи типа:
<a
href="directory"....>>
и
<a href="directory/"....>> (слэш в
конце href)
являются
разными ссылками. Обычно при запросе
по первой ссылке робот получит
редирект на вторую, а значит извелечет
сам документ только на следующем
проходе при обращении к Вашему
серверу. Тем самым вы замедляете время
индексации вашего сайта.
- Максимальный
размер документа для роботов Rambler
составляет 200KB. Документы большего
размера отсекаются до указанной
величины. Кроме того, считается "дурным
тоном" делать документы такого
размера без особой на то
необходимости.
- Роботы
Рамблер обрабатывают ссылки типа <a
href="/cgi-bin/imagemap...">, однако
наряду со ссылкой такого вида мы
рекомендуем поместить в текст
документа конструкцию <map
name="name">. Это ускорит
индексацию документов, указанных в IMAGEMAP
и облегчит доступ к документам для
обычных браузеров.
- Часто
изменяющиеся (динамические) документы
рекомендуется исключить из списка
индексируемых, т.к. актуальность этих
документов быстро теряется.
Осуществить это можно с помощью
стандартного для HTTP механизма -
посредством файла robots.txt в головной
директории вашего сайта.
- Части
документа, не требующие по вашему
мнению индексации, можно отделять в
документе с помощью тэгов <index>....<noindex>
- При
написании документов внимательно
следите за соблюдением русского/латинского
регистров. Часто вместо русской буквы
'р' используют латинскую 'p'. Некоторые
подобные ошибки индексатор
исправляет, но не все. Слова с
подобными опечатками теряют
информативность. Старайтесь не
использовать символов переноса части
слова на другую строку '-'. Это
затрудняет определение того, является
ли начало следующей строки
продолжением слова или просто дефисом.
Помните, что браузер сам осуществляет
представление документа согласно
текущим установкам каждого
конкретного пользователя.
- Отнеситесь
серьезно к планированию и размещению
вашего сайта, чтобы вам не приходилось
направлять письма с просьбами
переиндексировать Ваш сайт
администраторам поисковых систем в
связи с их переносом или полным
изменением структуры. Поисковые
машины - вешь достаточно инерционная
для этого.
Желаю успехов! |
|