robots.txt для SEO: краткое руководство по настройке файла для сайта

2199

4 минуты

SEO

команда

Содержание статьи

Что такое robots.txt
robots.txt и мета-тег robots: в чем разница
Когда используют robots.txt
Основные директивы robots.txt
Правила составления и размещения
Как проверить robots.txt
Как посмотреть robots.txt любого сайта
Заключение

Содержание статьи

Что такое robots.txt
robots.txt и мета-тег robots: в чем разница
Когда используют robots.txt
Основные директивы robots.txt
Правила составления и размещения
Как проверить robots.txt
Как посмотреть robots.txt любого сайта
Заключение

Что такое robots.txt

robots.txt — это текстовый файл для сайта, который содержит инструкции для поисковых роботов о том, какие страницы и разделы сайта можно сканировать, а какие следует игнорировать. Файл robots.txt размещается в корневом каталоге сайта и доступен по адресу domain.ru/robots.txt.

Поисковые системы используют специальных ботов (краулеров) для сканирования страниц. Например, Google использует Googlebot, Яндекс — YandexBot. Эти роботы обращаются к файлу robots.txt перед началом сканирования сайта.

robots.txt и мета-тег robots: в чем разница

Многие путают файл robots.txt с мета-тегом robots, хотя эти инструменты решают разные задачи. Файл robots.txt управляет сканированием, т.е. запрещает роботам заходить на определенные страницы сайта. Запрещающая директива в robots.txt не гарантирует исключение из индекса: если на страницу есть внешние ссылки, она может быть проиндексирована. Мета-тег robots управляет индексированием, т.е. запрещает добавлять определенную страницу в поисковый индекс.

Помните: если вы хотите закрыть страницу от индексирования, используйте мета-тег <meta name="robots" content="noindex, nofollow">, а не запрещающую директиву в robots.txt.

Когда используют robots.txt

Файл robots.txt наиболее эффективен для закрытия:

технических разделов;
административных панелей (/admin/);
личных кабинетов пользователей, страниц корзины и оформления заказа, т.е. страниц, содержащих конфиденциальную информацию;
страниц с параметрами сортировки (?sort=) и фильтрации (?filter=);
результатов внутреннего поиска;
PDF-документов, не предназначенных для поиска;
версий для печати (/print/);
архивов и т.д.

Интересно: не рекомендуется закрывать от сканирования в robots.txt CSS и JS файлы, изображения, поскольку они нужны для корректного рендеринга страниц.

Основные директивы robots.txt

User-agent указывает, для каких роботов предназначены инструкции:

User-agent: * # Для всех роботов

User-agent: Googlebot # Только для Google

User-agent: YandexBot # Только для Яндекса

Disallow запрещает сканирование определенных страниц/разделов:

Disallow: / # Закрыть весь сайт

Disallow: /admin/ # Закрыть папку admin

Disallow: /search? # Закрыть страницы поиска

Disallow: *.pdf$ # Закрыть все PDF-файлы

Allow разрешает сканирование страниц/разделов внутри закрытой директории:

Disallow: /private/

Allow: /private/public/ # Открыть подраздел в закрытой папке

Sitemap указывает расположение XML-карты сайта:

Sitemap: https://domain.ru/sitemap.xml

Clean-param (только для Яндекса) помогает перечислить параметры URL, которые не влияют на содержание страницы, а потому не должны учитываться.

Clean-param: utm_term&utm_campaign&utm_source

Устаревшие директивы:

Host указывает главное зеркало сайта (только для Яндекса):

Host: domain.ru # Без www

Host: www.domain.ru # С www

Crawl-delay устанавливает паузу между запросами робота (в секундах):

Crawl-delay: 1 # Пауза в одну секунду между запросами

Правила составления и размещения

Технические требования

имя файла: robots.txt (в нижнем регистре);
размещение: в корневом каталоге сайта;
кодировка: UTF-8;
размер: не более 500 КБ;
доступность: файл должен отдавать HTTP код 200.

Синтаксис и форматирование

файл включает один или несколько наборов директив;
каждая директива на отдельной строке;
каждый набор начинается со строки User-agent (кому адресованы правила);
каждый набор содержит информацию о том, к каким страницам/разделам доступ запрещен и разрешен;
директивы чувствительны к регистру;
комментарии начинаются с символа #.

Использование символов

* — любое количество символов;

$ — конец URL;

/ — начало пути.

Как проверить robots.txt

Проверка robots.txt через инструменты вебмастеров.

Google Search Console:

Перейдите в Google Search Console;
Выберите ваш сайт;
В разделе «Настройки» подразделе «Сканирование» найдите «robots.txt» и введите URL для тестирования.

Яндекс Вебмастер:

Откройте Яндекс Вебмастер;
Выберите сайт;
Перейдите в «Инструменты» → «Анализ robots.txt»;
Проверьте доступность файла и корректность директив.

Онлайн-сервисы для проверки: SE Ranking Robots.txt Tester, Technical SEO robots.txt Validator and Testing Tool.

На заметку: всегда проверяйте robots.txt после изменений, чтобы убедиться, что не заблокировали важные страницы.

Как посмотреть robots.txt любого сайта

Прямое обращение: добавьте /robots.txt к домену;
Через браузер: введите полный адрес в адресной строке;
В панелях вебмастеров.

Заключение

Правильно настроенный файл robots txt для сайта — это основа эффективного SEO-продвижения. Он помогает поисковым системам сосредоточиться на важном контенте, экономит краулинговый бюджет и предотвращает индексацию нежелательных страниц.

Помните, что robots.txt — это рекомендация для поисковых роботов, а не строгое правило. Для гарантированного исключения страниц из индекса используйте мета-тег robots и другие методы контроля индексации.

2199

Оставить комментарий

Пока нет комментариев. Будьте первым!

robots.txt в SEO-продвижении: краткое руководство для начинающих

Содержание статьи

Что такое robots.txt

robots.txt и мета-тег robots: в чем разница

Когда используют robots.txt

Основные директивы robots.txt

Правила составления и размещения

Технические требования

Синтаксис и форматирование

Использование символов

Как проверить robots.txt

Как посмотреть robots.txt любого сайта

Заключение

Оставить комментарий

Запишитесь на бесплатную консультацию