8 800 700-59-30
Служба поддержки
пн-пт, 10:00-19:00

Что такое robots.txt?

Robots.txt – это инструкция для поисковых роботов, обычно хранящаяся в корневой папке сайта. С её помощью можно контролировать поведение роботов – например, запретить им индексировать определённое содержимое сайта.

При посещении сайта поисковик запрашивает robots.txt в первую очередь.

Рассмотрим на примере.

Имеется файл robots.txt, в котором записано:

User-agent: *
Disallow: /tmp/
Disallow: /cgi-bin/

  • Знак «*» после User-agent сообщает об общем доступе к содержимому robots.txt – им может воспользоваться любой поисковой робот. Вместо этого знака также можно вписать название конкретного робота.
  • Disallow запрещает роботу индексировать один из разделов. Так, если в robots.txt прописано «Disallow: /» - значит, роботу запрещено индексировать весь сайт.

Запретить индексацию можно и при помощи атрибута nofollow и тега noindex, но поисковые системы негативно относятся к этим запретам.

Как указать основное зеркало в файле robots.txt?

  • Если основное зеркало сайта – это домен без WWW:

User-agent: YandexBot

Disallow: ...

...

Host: example.com

  • Если основное зеркало сайта – это домен с WWW:

User-agent: YandexBot

Disallow: ...

...

Host: www.example.com

И не забудьте поменять example.com на правильный URL-адрес вашего сайта :)