Баланс
0.00
Расход в день
0.00
Расход в месяц
0.00
Бонусные баллы
получить
Пополнить

Списания и начисления
Расходы по проектам

Поисковый робот — специальная программа, принадлежащая определенной поисковой системе и предназначенная для индексирования (занесения в базу сайтов поисковой системы) веб-сайтов и их страниц, найденных в интернет-пространстве. Также принятые названия: краулер, бот, паук, webcrawler, bot, automaticindexer, ant, webrobots, webspider, webscutter.

Принцип работы

Поисковый робот является браузерного типа программой. Он постоянно сканирует веб-пространство, посещая уже известные ему (проиндексированные) сайты, проходя по ссылкам с них и находя, таким образом, новые ресурсы. Обнаружив неизвестный сайт, и проведя некоторые процедуры, робот добавляет его в индекс поисковой системы.

Кроме того, поисковым роботом индексируются обновления на сайтах. Причем, периодичность обновлений фиксируется. К примеру, сайт, обновляемый раз в неделю, будет посещаться роботом с той же частотой, а информация на новостных сайтах может индексироваться уже через несколько минут.

Сайтам, не обладающим внешней ссылочной массой, то есть тем из них, на которые не ведут ссылки с других ресурсов, чтобы быть проиндексированными, необходимо привлечь внимание поисковых роботов. Для этого сайт добавляется в специальную форму поисковой системы. К примеру, в панель вебмастера Яндекс, или в Центр вебмастеров Google.

Виды поисковых роботов

На самом деле понятием «поисковый робот» объединена их некоторая совокупность. Каждая поисковая система улучшает процесс сканирования веб-пространства и индексацию, используя несколько роботов, наделенных более узкой специализацией. К примеру, Яндекс сегодня использует следующие, действующие одновременно боты:

  • Yandex/1.01.001 (compatible; Win16; I) — это основной робот Яндекса, занимающийся индексацией.
  • Yandex/1.01.001 (compatible; Win16; P) — его задача: индексация картинок.
  • Yandex/1.01.001 (compatible; Win16; H) — предназначается для обнаружения зеркал сайтов.
  • Yandex/1.03.003 (compatible; Win16; D) — определяет соответствие параметрам индексации страницы, добавленной через форму панели вебмастера. Он первым посещает добавленный ресурс, и только после его положительной оценки за работу принимается основной поисковый бот Yandex/1.01.001.
  • Yandex/1.03.000 (compatible; Win16; M) — данный робот посещает страницу после ее открытия по ссылке «Найденные слова» в поисковой выдаче.
  • YaDirectBot/1.0 (compatible; Win16; I) — индексирует сайты из рекламной сети Яндекса.
  • Yandex/1.02.000 (compatible; Win16; F) — отвечает за индексацию фавиконов сайтов.
Второй по значимости в Рунете поисковик Google использует похожих по функциям поисковых роботов:
  • Робот Googlebot — основной индексирующий робот системы.
  • Googlebot News — специально созданный для сканирования и индексирования новостей робот.
  • Googlebot Images — робот, занимающийся поиском и индексацией изображений.
  • Googlebot Video — поиск и индексация видео.
  • Google Mobile — индексация сайтов для мобильных устройств.
  • Google AdSense и Google Mobile AdSense — индексация сайтов, участвующих в рекламной сети Google.
  • Google AdsBot — робот, проверяющий качество целевой страницы.
Другие поисковые системы также используют несколько видов роботов, функционально схожих с перечисленными. Имена поисковых роботов наиболее популярных поисковых систем:
  • Яндекс — «Yandex».
  • Google — «googlebot».
  • Рамблер — «StackRambler».
  • MSN — «msnbot».
  • Yahoo! — «Yahoo! Slurp».

Управление индексацией

Несмотря на то, что чтобы быть замеченным, сайт должен оказаться проиндексированным, далеко не всегда требуется, чтобы вся информация с него была доступна пользователям и, соответственно, поисковому роботу. К примеру, интернет-магазины закрывают от индексации страницы с реквизитами покупателей, значительная часть сайтов — административные данные и т.п.

Закрыть от индексации поисковыми роботами все содержимое сайта или только часть информации, размещенной на нем, можно с помощью файла robots.txt. В нем, согласно определенным правилам, с помощью специальных директив в текстовом формате прописываются указания для поисковых роботов. Надо заметить, что роботы, попадая на сайт, ищут в первую очередь файл robots.txt. Знакомятся с инструкциями (если файл существует) и в соответствии с ними индексируют страницы.

Директивы файла robots.txt:

  • User-agent — обращение к конкретному роботу конкретной поисковой системы.
  • Disallow — может закрывать как весь сайт, так и отдельные его файлы и страницы.
  • Host — сигнализирует роботу, под URL какого зеркала (если сайт имеет зеркала) индексируется ресурс.

См. также

Мария Буга, Руководитель отдела «Персональный менеджер»

Персональный менеджер

Мы дадим рекомендации по настройке кампании или выполним работу за вас

Мария Буга, Руководитель отдела «Персональный менеджер»
Мобильное приложение SeoPult, доступно в AppStore и Google Play

Мобильное приложение

Вы сможете оперативно отслеживать динамику продвижения, корректировать настройки кампаний, пополнять баланс и получать важные уведомления cистемы.