Что такое robots.txt

robots.txt — это текстовый файл для сайта, который содержит инструкции для поисковых роботов о том, какие страницы и разделы сайта можно сканировать, а какие следует игнорировать. Файл robots.txt размещается в корневом каталоге сайта и доступен по адресу domain.ru/robots.txt.

Поисковые системы используют специальных ботов (краулеров) для сканирования страниц. Например, Google использует Googlebot, Яндекс — YandexBot. Эти роботы обращаются к файлу robots.txt перед началом сканирования сайта.

robots.txt и мета-тег robots: в чем разница

Многие путают файл robots.txt с мета-тегом robots, хотя эти инструменты решают разные задачи. Файл robots.txt управляет сканированием, т.е. запрещает роботам заходить на определенные страницы сайта. Запрещающая директива в robots.txt не гарантирует исключение из индекса: если на страницу есть внешние ссылки, она может быть проиндексирована. Мета-тег robots управляет индексированием, т.е. запрещает добавлять определенную страницу в поисковый индекс.

Помните: если вы хотите закрыть страницу от индексирования, используйте мета-тег <meta name="robots" content="noindex, nofollow">, а не запрещающую директиву в robots.txt.

Когда используют robots.txt

Файл robots.txt наиболее эффективен для закрытия:

  • технических разделов;
  • административных панелей (/admin/);
  • личных кабинетов пользователей, страниц корзины и оформления заказа, т.е. страниц, содержащих конфиденциальную информацию;
  • страниц с параметрами сортировки (?sort=) и фильтрации (?filter=);
  • результатов внутреннего поиска;
  • PDF-документов, не предназначенных для поиска;
  • версий для печати (/print/);
  • архивов и т.д.

Интересно: не рекомендуется закрывать от сканирования в robots.txt CSS и JS файлы, изображения, поскольку они нужны для корректного рендеринга страниц.

Основные директивы robots.txt

  1. User-agent указывает, для каких роботов предназначены инструкции:
  2. User-agent: * # Для всех роботов

    User-agent: Googlebot  # Только для Google

    User-agent: YandexBot  # Только для Яндекса

  3. Disallow запрещает сканирование определенных страниц/разделов:
  4. Disallow: / # Закрыть весь сайт

    Disallow: /admin/ # Закрыть папку admin

    Disallow: /search? # Закрыть страницы поиска

    Disallow: *.pdf$ # Закрыть все PDF-файлы

  5. Allow разрешает сканирование страниц/разделов внутри закрытой директории:
  6. Disallow: /private/

    Allow: /private/public/ # Открыть подраздел в закрытой папке

  7. Sitemap указывает расположение XML-карты сайта:
  8. Sitemap: https://domain.ru/sitemap.xml

  9. Clean-param (только для Яндекса) помогает перечислить параметры URL, которые не влияют на содержание страницы, а потому не должны учитываться.
  10. Clean-param: utm_term&utm_campaign&utm_source

Устаревшие директивы:

  1. Host указывает главное зеркало сайта (только для Яндекса):
  2. Host: domain.ru # Без www

    Host: www.domain.ru # С www

  3. Crawl-delay устанавливает паузу между запросами робота (в секундах):

Crawl-delay: 1  # Пауза в одну секунду между запросами

Правила составления и размещения

Технические требования

  • имя файла: robots.txt (в нижнем регистре);
  • размещение: в корневом каталоге сайта;
  • кодировка: UTF-8;
  • размер: не более 500 КБ;
  • доступность: файл должен отдавать HTTP код 200.

Синтаксис и форматирование

  • файл включает один или несколько наборов директив;
  • каждая директива на отдельной строке;
  • каждый набор начинается со строки User-agent (кому адресованы правила);
  • каждый набор содержит информацию о том, к каким страницам/разделам доступ запрещен и разрешен;
  • директивы чувствительны к регистру;
  • комментарии начинаются с символа #.

Использование символов

* — любое количество символов;

$ — конец URL;

/ — начало пути.

Как проверить robots.txt

  1. Проверка robots.txt через инструменты вебмастеров.

Google Search Console:

  • Перейдите в Google Search Console;
  • Выберите ваш сайт;
  • В разделе «Настройки» подразделе «Сканирование» найдите «robots.txt» и введите URL для тестирования.

robots.png

Яндекс Вебмастер:

  • Откройте Яндекс Вебмастер;

  • Выберите сайт;

  • Перейдите в «Инструменты» → «Анализ robots.txt»;

  • Проверьте доступность файла и корректность директив.

robots_yandex.png

  1. Онлайн-сервисы для проверки: SE Ranking Robots.txt Tester, Technical SEO robots.txt Validator and Testing Tool.

На заметку: всегда проверяйте robots.txt после изменений, чтобы убедиться, что не заблокировали важные страницы.

Как посмотреть robots.txt любого сайта

  1. Прямое обращение: добавьте /robots.txt к домену;
  2. Через браузер: введите полный адрес в адресной строке;
  3. В панелях вебмастеров.

Заключение

Правильно настроенный файл robots txt для сайта — это основа эффективного SEO-продвижения. Он помогает поисковым системам сосредоточиться на важном контенте, экономит краулинговый бюджет и предотвращает индексацию нежелательных страниц.

Помните, что robots.txt — это рекомендация для поисковых роботов, а не строгое правило. Для гарантированного исключения страниц из индекса используйте мета-тег robots и другие методы контроля индексации.