Создаем файл robots.txt

04.10.2019
Создаем файл robots.txt

Директивы, рекомендации, ошибки и примеры robots.txt для разных сайтов. Инструмент проверки robots.txt

Оглавление

Что такое robots.txt и зачем он нужен

Robots.txt – это файл, в котором прописаны правила индексации сайта поисковыми системами. Он размещается в корневой папке сайта, и поисковые роботы считывают с него информацию. С помощью роботс можно запретить или разрешить индексировать определенные страницы или весь сайт. Существуют определенные правила оформления и работы с этим файлом, которые мы подробно рассмотрим в этом материале.  

Корректно составленный robots.txt способен в разы ускорить индексацию, скрыть от поисковиков ненужные страницы, чтобы они не попали в индекс. К примеру, с помощью этого файла можно скрыть административную панель или другие технические страницы, а также конфиденциальные данные и системные файлы. Если robots.txt настроен неверно, то вся эта информация будет проиндексирована и попадет в выдачу. Если файл роботс вовсе отсутствует, это означает, что поисковые боты могут индексировать сайт полностью.    

Чтобы создать файл, достаточно воспользоваться любым текстовым редактором и сохранить файл под названием «robots» в формате .txt. Кодировка файла должна быть UTF-8. Разместив файл в корневую папку, проверьте, что он доступен по адресу домен/robots.txt. Важно, чтобы код ответа сервера был 200, что свидетельствует об успешной обработке запроса. Теперь можно приступать к составлению корректного содержимого, но для этого вам понадобится знание синтаксиса и директив.

История создания robots.txt

30 января 1994

30 января 1994 года был принят стандарт ограничения доступа роботам к содержимому сайта. Параметры доступа начали задавать с помощью файла robots.txt. В 1996 году был предложен расширенный стандарт robots.txt, включающий такие директивы как Request-rate и Visit-time.

Структура файла robots.txt

Файл роботс представляет собой строчные записи, разделенные пустыми строками, что означат  конец строки (символы CR, CR+LF, LF).

Каждая запись имеет такую структуру:

Значение <поле> предполагает два варианта: User-agent (в значении указываются боты) или Disallow (в значении указывается запрет доступа к документу).

Также в файле могут быть прописаны комментарии, начинающиеся с символа #.

Директивы robots.txt

С помощью директив можно задать параметры для каждой поисковой системы по отдельности.

Директива User-agent

Любой файл роботс начинается в директивы «User-agent», которая является «обращением» к поисковому роботу.

К примеру:

Ко всем ботам сразу можно обратиться с помощью такой директивы: User-agent: * ;

К боту Яндекса: User-agent: Yandex;

К боту Google: User-agent: Googlebot.

Существует не только боты поисковых систем, но и различные роботы, от которых лучше закрывать сайт. Самые популярные и, соответственно, самые надоедливые нежелательные боты приведены ниже:

  • AhrefsBot – этот робот сервиса ahrefs.com анализирует страницы сайта на наличие внешних ссылок.
  • SemrushBot – робот аналитического сервиса ru.semrush.com по анализу сайтов.
  • MJ12bot – поисковый робот сервиса Majestic, который собирает данные об исходящих ссылках на сайтах.
  • Riddler – робот сервиса riddler.io
  • aiHitBot – робот сервиса aihitdata.com
  • trovitBot – робот сервиса trovit.com
  • Detectify – робот сервиса detectify.com
  • BLEXBot – робот от webmeup-crawler.com
  • dotbot – робот сервиса www.dotnetdotcom.org
  • FlipboardProxy – робот сервиса flipboard.com
  • rogerBot – робот компании Moz Pro. Он обращается к коду вашего сайта, анализирует его и доставляет отчет по нему в Moz Pro.
  • MegaIndex – робот сервиса megaindex.ru (система автоматизированного продвижения).

Директивы Disallow и Allow

Disallow и Allow

Не менее важны директивы disallow и allow, которые запрещают и разрешают индексацию. Если ресурс на стадии разработки, то его легко можно скрыть с помощью такой формулировки:

User-agent: *

Disallow: /

Для каждой отдельной папки, которую необходимо скрыть, стоит указывать свой disallow. Если вы хотите запретить индексацию какой-то папки, но на нее ведут ссылки с вашего или других сайтов, то в таком случае Googlebot может проигнорировать запрет индексации.

Противоположная директива – allow, с помощью которой можно наоборот открыть доступ к документу. По умолчанию весь сайт доступен поисковым ботам (если не прописана запрещающая директива), но allow пригодится в случае, если вам необходимо скрыть весь сайт, оставив только несколько страниц открытыми. В таком случае эффективно применять обе директивы в комбинации:

Allow: /blog

Disallow: /

В данном примере показано, что весь сайт закрыт для индексации, а блог – доступен для ботов.

При совместном использовании Allow и Disallow в одном блоке User-agent происходит сортировка от меньшего к большему в зависимости от длины префикса URL. Ранее, мы подробно разобрали тему: как закрыть сайт от индексации.

Директива Sitemap

В директиве sitemap обязательно нужно указать адрес, по которому расположена карта сайта. Это касается как стандартного адреса (https://site.ru/sitemap.xml), так и любого другого (https://site.ru/data/sitemaps/sitemap.xml).

Для каждого поискового бота может быть создана отдельная карта сайта.

Директива Crawl-Delay

Crawl-Delay

Чтобы не перегружать сайт постоянными визитами ботов, можно задать параметр, который не даст боту часто индексировать ресурс. Но для Googlebot эта директива не действует, так как частотность его посещений регулируется непосредственно поисковой системой и влиять на это невозможно.

Если вы хотите более частой индексации, тогда нужно оценить, способен ли ваш сервер справиться с такой нагрузкой. Но маленькие интервалы способны ускорить процесс занесения страниц в базу данных и более частого обновления информации. Директива не является обязательной.

Пример:

User-agent: Yandex

Crawl-delay: 2.0

# задает тайм-аут в 2 секунды

User-agent: *

Crawl-delay: 1.5

# задает тайм-аут в 1.5 секунды

Директива Clean-param

Если URL-ы страниц ресурса содержат идентификаторы сессий или пользователей (так называемые GET-параметры) или метки UTM, то целесообразно использовать директиву Clean-param. Вы сможете избежать многократной загрузки информации, которая имеет дубли, тем самым снизить нагрузку на сервер и облегчить работу ботов по сбору информации с сайта. Clean-param прописывать в роботс не обязательно и этих директив может быть несколько (они все будут учитываться ботами).

Символ & помогает перечислить параметры, которые роботу не нужно индексировать. Префикс можно прописывать через символы: A-Za-z0-9.-/*.

Максимальная длина директивы 500 символов.

Например:

Справка Яндекс:   https://yandex.by/support/webmaster/robot-workings/clean-param.html?lang=ru.

Директива Host

На сегодняшний день директива host не используется!

Подробнее можно почитать в официальном материале: https://webmaster.yandex.ru/blog/301-y-redirekt-polnostyu-zamenil-direktivu-host.

Использование кириллицы в robots.txt

Чтобы грамотно составить файл, стоит ознакомиться с синтаксисом (https://yandex.ru/support/webmaster/controlling-robot/robots-txt.html, https://support.google.com/webmasters/answer/6062596?hl=ru), так как без знания правил вы не сможете задать правильные параметры индексации.

Для понимания файл необходимо знать значение символов:

* (звездочка) –любая последовательность символов;

$ (знак доллара) – конец строки;

# (решетка) – пояснение.

Перед тем, как разместить готовый robots в корне сайт, проверьте его корректность в сервисах от Яндекс:

и Google.  Это поможет избежать ошибок, при которых нужные страницы будут запрещены.

Также стоит соблюдать такие правила:

  • на сайте должен быть только один файл robots.txt;
  • размещается он исключительно в корне сайта;
  • после значка # можно писать комментарии;
  • файл можно размещать под любым URL (в любой папке сайта);
  • максимальный размер файла 500 кб;
  • robots.txt регистрозависимый, как само название, так и указание в инструкциях.

С полным перечнем правил и рекомендаций можно ознакомиться в Cearch Console и в Яндекс.Помощь.

Использование кириллицы в robots.txt

Использование кириллических символов в стандартном формате в файле robots.txt недопустимо. Чтобы прописать кириллические символы и адреса, необходимо использовать Punycode-преобразование. Происходит кодировка символов, и только в таком формате допускается написание букв кириллицы.

Можно использовать любой конвертер, к примеру: https://www.punycoder.com/:

Пример:

User-agent: Yandex

Disallow: Главная

Sitemap: http://продвижение/sitemap.xml

.

User-agent: Yandex

Disallow: xn--80aafc4bo1k

Sitemap: http:// xn--b1adeadlc3bdjl /sitemap.xml

Частые ошибки в robots.txt

1. Зачастую упускается запрещающая директива disallow;

2. не указан User-agent;

3. в одной disallow прописаны несколько адресов файлов через запятую;

4. вместо использования открывающей и запрещающей директив, прописаны все адреса страниц. Это не является слишком грубой ошибкой, но перегружает robots.

Примеры robots.txt

Ниже вы можете просмотреть и скачать примеры robots.txt для популярных CMS:

•             robots.txt для WordPress

•             robots.txt для Opencart

•             robots.txt для Битрикс (Bitrix)

•             robots.txt для Modx

Архив с примерами
obots.txt доступен по ссылке: https://yadi.sk/d/S7wKquuBHxeWvw

robots.txt Wix

В конструкторе Wix файл robots.txt создается автоматически и находится всегда в корне сайта

www.ВАШ_САЙТ.ru/robots.txt

Платформа Wix не дает возможности загрузить свой robots.txt, а возможности редактирования созданного файла сильно ограничены.

Как загрузить готовый файл robots.txt на сайт

Robots.txt обязательно должен располагаться в корневой папке. К примеру, на нашем сайте он находится по адресу:

https://agency.sape.ru/robots.txt

Чтобы загрузить файл на ресурс, в административной панели вашего хостинг-провайдера необходимо запросить FTP (протокол предназначен для передачи данных в интрнете), а также логин и пароль для доступа. После авторизации необходимо найти раздел «Помощь» или описание раздела FTP, где будет написано, как подключиться к серверу, на котором хранятся файлы вашего сайта. Для сохранения информации можно воспользоваться бесплатной программой Filezilla (https://filezilla.ru/). Для подключения роботс необходимо ввести данные в поля: логин, пароль, IP вашего сервера и порт (обычно значение 21). Далее сохраняем настройки и приступаем к прописыванию директив.

В арсенале команды Sape Agency есть набор бесплатных инструментов для SEO-оптимизаторов. Вы можете воспользоваться бесплатным сервисом просмотра файла robots.txt:

Заключение

Файл robots.txt является важным компонентом в продвижении сайта, так как задает параметры индексации. Когда этот файл отсутствует в корневой папке сайта – ресурс полностью доступен для поисковых ботов: все технические страницы, страницы на стадии разработки и прочие элементы, которые не должны попасть в индекс.

Корректно составленный файл поможет скрыть те документы, которые не должны попасть в базу данных Яндекс и Google. Для каждой CMS есть свои особенности составления файла роботс, поэтому нет универсального шаблона, файл нужно подгонять под каждый конкретный сайт. Для его составления необходимо знать директивы и синтаксис.

Юрий Софин

 Интернет-агенство Sape Agency

#Allow #Disallow #robots.txt

Рекомендуем прочитать

26.08.2022

Яндекс сменил индексацию AJAX-сайтов

Поисковик Yandex поменял процесс индексации AJAX-сайтов. Такая...
07.04.2022

Google прекращает поддержку сервиса Google My Business

Компания Google больше не будет поддерживать Google...

Закажите услуги

Заполните форму и получите
консультацию по нашим услугам

Заполняя форму я соглашаюсь с обработкой моих персональных данных в соответствии с политикой конфиденциальности

Ваша заявка отправляется