Баланс
0.00
Расход в день
0.00
Расход в месяц
0.00
Бонусные баллы
получить
Пополнить

Списания и начисления
Расходы по проектам

Robots.txt — это текстовый файл в кодировке UTF-8, который содержит рекомендации поисковым роботам, какие страницы / документы индексировать, а какие нет.

Robots.txt размещается в корневой папке сайта и доступен по адресу вида https://somesite.ru/robots.txt

Этот стандарт утвержден Консорциумом Всемирной паутины W3C в 1994 году. Использование Robots.txt является добровольным как для владельцев сайтов, так и для поисковиков.

Назначение файла Robots.txt

Основная задача — управление поведением поисковых машин на сайте.

Приходя на сайт, робот сразу загружает содержимое Robots.txt. Если файл отсутствует, робот будет индексировать все документы из корневой и вложенных папок (если они не закрыты от индексации другими методами). В результате могут возникнуть следующие проблемы:

  • в индекс попадают лишние страницы и конфиденциальные документы (например, профили пользователей), которые не должны участвовать в поиске;
  • до основного важного контента робот может не добраться, так его ресурс и время на сайте ограничены.

Обрабатывая файл, роботы получают инструкции: индексировать, индексировать частично, запрещено к индексации.

Как правило, от индексации закрывают следующие документы и разделы:

  • административную панель,
  • системные файлы,
  • кэшированные данные,
  • страницы загрузки,
  • поиск, фильтры и сортировки,
  • корзины товаров,
  • личные кабинеты,
  • формы регистрации.

Что содержит Robots.txt

User-agent

Правило, указывающее, каким роботам оно предназначается. Если не указывать все роботы, а только прописать знак *, это будет значить, что правило действительно для любого известного робота, посетившего сайт.

Правило для робота «Яндекса»:

User-agent: Yandex

Правило для робота Google:

User-agent: Googlebot

Disallow

Правило, указывающее роботам, какую информацию индексировать запрещено. Это могут быть отдельные документы, разделы сайта или сайт целиком (в том случае, если он еще находится в разработке).

Правило, запрещающее индексировать весь сайт:

Disallow: /

Запрет обхода страниц, находящихся в определенном каталоге:

Disallow: /catalogue

Запрет обхода конкретной страницы (указать URL):

Disallow: /user-data.html

Allow

Данная директива разрешает индексировать содержимое сайта. Может потребоваться, когда нужно выборочно разрешить к индексации какой-либо контент. Обычно используется в комбинации с Disallow.

Правило, запрещающее индексировать все, кроме указанных страниц:

User-agent: Googlebot
Allow: /cgi-bin
Disallow: /

Host

Данная директива сообщает роботу о главном зеркале сайта. С марта 2018 года «Яндекс» полностью отказался от этой директивы, поэтому ее можно не прописывать в Robots. Однако важно, чтобы на всех не главных зеркалах сайта теперь стоял 301-й постраничный редирект.

Crawl-delay

Правило задает скорость обхода сайта. В секундах задается минимальный период времени между окончанием загрузки одной страницы и началом загрузки следующей. Необходимо при сильной нагрузке на сервер, когда робот не успевает обрабатывать страницы.

Установка тайм-аута в две секунды:

User-agent: Yandex
Crawl-delay: 2.0

Clean-param

Правило задается для динамических страниц GET-параметром или страниц с рекламными метками (идентификатор сессии, пользователей и т. д.), чтобы робот не индексировал дублирующуюся информацию.

Запрет индексации страниц с рекламной меткой — параметром ref:

User-agent: Yandex
Disallow:
Clean-param: ref /video/how_to_look.ru

Sitemap

Правило сообщает роботам, что все URL сайта, обязательные для индексации, находятся в файле Sitemap.xml. Прописывается путь к этой карте сайта. При каждом новом визите робот будет обращаться к этому файлу и вносить в индекс новую информацию, если она появилась на сайте.

User-agent: Yandex
Allow: /
sitemap: https://somesite.ru/sitemaps.xml

Как создать файл Robots.txt

Файл создается в текстовом редакторе с присвоением имени robots.txt. В этом файле прописываются инструкции с учетом озвученных выше правил. Далее файл загружается в корневую директорию сайта.

Для блога или новостного сайта можно скачать стандартный robots.txt с сайта движка или форума разработчиков, подкорректировав под свои особенности.

Как проверить Robots.txt

Проверка валидности файла Robots.txt проводится с помощью инструментов веб-мастеров Google и «Яндекса».

См. также

Мария Буга, Руководитель отдела «Персональный менеджер»

Персональный менеджер

Мы дадим рекомендации по настройке кампании или выполним работу за вас

Мария Буга, Руководитель отдела «Персональный менеджер»
Мобильное приложение SeoPult, доступно в AppStore и Google Play

Мобильное приложение

Вы сможете оперативно отслеживать динамику продвижения, корректировать настройки кампаний, пополнять баланс и получать важные уведомления cистемы.