Логотип компании ЛогиВиста Собрать сайт

Что такое robots.txt, как настроить и загрузить на сайт

Разберемся что за файл robots.txt, для чего он нужен, его преимущества и чем он полезен. Расскажем как его правильно создать и разместить на вашем сайте.

Содержание

Настройка файла robots.txt и первичный обзор
  1. Указывает поисковым системам какие страницы, разделы или файлы не следует индексировать и отображать в поисковой выдаче;
  2. Позволяет запретить сканирование больших файлов (видео, архивов) или разделов сайта с динамически генерирующимся контентом;
  3. Позволяет указать местоположение файла sitemap.xml;
  4. Предоставляет возможность задавать различные правила для разных ботов;
  5. Помогает оптимизировать «бюджет сканирования», то есть кол-во страниц, которые поисковый робот сканирует за определенный период времени.
Пример работы файла robots.txt на сайте
  1. User-agent: определяет к какому поисковому роботу применяется правило. Синтаксис: User-agent: [имя_бота]. User-agent: Googlebot (для бота Гугл);
  2. Disallow: Указывает URL-адрес или шаблон URL-адресов, которые запрещено сканировать. Синтаксис: Disallow: [путь_к_странице_или_каталогу]. Пример: Disallow: /private/ (Запрет сканирования каталога private и всего содержимого), Disallow: /admin.html (Запрет сканирования страницы), Disallow: /images/*.jpg (Запрет сканирования всех изображений формата jpg в папке images).
  3. Allow: Указывает URL которые можно сканировать, даже если они находятся под disallow.
  4. Комментарии: Строки начинающиеся с символа #. Игнорируются ПС. Например: # Это просто комментарий
  5. Sitemap: Указывает адрес Sitemap.xml, который содержит список всех важных страниц.
Инструмент для проверки файла robots.txt
  1. Дублирующиеся страницы: Если на вашем сайте есть страницы, которые дублируют контент других страниц (страницы с разными параметрами сортировки или фильтрация).
  2. Страницы с низким качеством контента: страницы ошибок, пустые или с очень коротким контентом.
  3. Административные панели и личный кабинет.
  4. Служебные страницы и логи.
  5. Страницы, которые находятся в разработке.
  1. Важный контент, который вы хотите показывать пользователям.
  2. Страницы, которые как раз “генерируют” трафик: Если вы знаете какие страницы хорошо видны в поисковой сети, то они обязательно должны быть в файле robots.txt.

Вам может понравится