Файл robots.txt — текстовый документ с кодировкой UTF-8, предназначен для рекомендаций поисковым роботам по индексации файлов, разделов и отдельных страниц сайта. Файл всегда должен располагаться только в корне сайта, использовать расширение .txt и кодировку UTF-8. Файл robots.txt должен быть доступен для поисковых роботов и отдавать код 200. Файл относится только к домену и никак не влияет на поддомены.
Пример нашего файла https://upme.biz/robots.txt
Содержит в себе обращение к агенту: User-agent: *
Доступ к индексации раздела: Allow: Allow: /wp-content/cache
Закрытый раздел для индексации: Disallow: /wp-admin/
Хост (главное зеркало сайта): Host: https://upme.biz
Карта сайта sitemap.xml: Sitemap: https://upme.biz/sitemap_index.xml
Также могут встречаться следующее записи:
Crawl-delay: 10 — время которое робот должен выдерживать между загрузкой страниц для уменьшения нагрузки на сервер. Практически не используется, т.к. хостинг стал достаточно производительным и роботы игнорируют данную запись.
Request-rate: 2/5 — загружать не более 2х страниц за 5 секунд. Так же как и Crawl-delay игнорируется поисковыми роботами ввиду того, что поисковые системы самостоятельно устанавливают объем времени на каждый сайт.
Важно отметить:
- Разные поисковые роботы интерпретируют синтаксис файлов robots.txt неодинаково, поэтому лучше делать разные записи User-agent.
- Записи в файле robots.txt это не правило для поисковых систем, а рекомендации, которым могут не следовать.
- Файл robots.txt не предназначен для блокировки показа веб-страниц в результатах поиска Google, для этого стоит использовать noindex