Техническое здоровье

robots.txt: маленький файл, который управляет тем, что увидит Яндекс

robots.txt — это короткий текстовый файл в корне сайта, который объясняет поисковикам, какие страницы можно показывать в выдаче, а какие — служебные. Одна неверная строчка может убрать весь сайт из Яндекса и Google.

4 мин чтения

Что такое robots.txt и где он живёт

robots.txt — это обычный текстовый файл, лежащий в корне домена по адресу site.ru/robots.txt. Когда поисковый робот заходит на сайт, он первым делом запрашивает именно этот файл, читает правила и только потом решает, какие страницы можно индексировать.

Файл нужен, чтобы поисковик не тратил время на служебные разделы — корзину, личный кабинет, страницы сортировки, тестовые URL. И чтобы случайно не показал клиенту страницу «спасибо за заказ» вместо каталога. Это не запрет на доступ — это договорённость с честными роботами Яндекса и Google.

Если файла нет — поисковик считает, что разрешено всё. Если в нём ошибка — может оказаться, что весь сайт закрыт от индексации, и за неделю вы потеряете все позиции.

Из чего состоит файл

Внутри всего четыре основных директивы. User-agent: * — к каким роботам относятся правила (звёздочка = ко всем). Disallow: /admin — какие пути закрыты от индексации. Allow: /public — какие пути разрешены, даже если родительская папка закрыта. Sitemap: https://site.ru/sitemap.xml — где лежит карта сайта.

Пример минимального рабочего файла для интернет-магазина: User-agent: * \ Disallow: /cart \ Disallow: /personal \ Disallow: /search \ Sitemap: https://site.ru/sitemap.xml. Этого достаточно для большинства типовых сайтов на 1С-Битрикс, WordPress, Tilda.

Важно: для Яндекса можно отдельно прописать User-agent: Yandex и для него — свои правила. Раньше это требовалось из-за директивы Host (она указывала зеркало). С 2018 года Host больше не нужен — Яндекс понимает основное зеркало через 301-редирект, как и Google.

Пять ошибок, из-за которых сайт пропадает из поиска

1. Disallow: / на проде. Когда разработчик копирует robots.txt с тестового стенда — закрывает индексацию ВСЕГО сайта. Через 7-14 дней позиции обрушиваются в ноль. Сайтболит ловит это первым же осмотром.

2. Закрыта папка с CSS и JS (например, Disallow: /wp-content/ или /assets/). Поисковик не может «увидеть», как выглядит сайт, и понижает позиции — особенно по мобильному поиску.

3. Нет ссылки на sitemap.xml. Без этой строки робот может месяцами не находить новые страницы.

4. Кодировка не UTF-8 или BOM в начале файла. Файл может «не читаться», и все правила игнорируются.

5. Закрыты страницы пагинации (?page=2, ?page=3). Робот не доходит до товаров на 5-й странице — и они не появляются в выдаче.

Что проверяет Сайтболит

Сайтболит при каждом осмотре скачивает robots.txt, парсит его и ищет 8 типовых проблем: полный Disallow, закрытие ассетов, отсутствие Sitemap, неверный синтаксис, дубли директив, BOM, размер больше 500 КБ, недоступность файла (404 или 5xx).

Каждая найденная проблема превращается в миссию с конкретной инструкцией: что именно поменять, какую строчку добавить, какую убрать. Закрываете миссию — Сайтболит проверяет файл повторно и засчитывает её, если всё чисто.

Как чинить и поддерживать

WordPress: используйте плагин Yoast SEO или RankMath — они генерируют корректный robots.txt автоматически. Не редактируйте файл руками, если не уверены в синтаксисе.

1С-Битрикс: стандартный модуль «Поисковая оптимизация» (seo) умеет создавать robots.txt через интерфейс. Главное — после изменений зайти в Яндекс.Вебмастер → «Анализ robots.txt» и проверить, что нужные страницы открыты.

Tilda: файл генерируется автоматически, в настройках сайта есть пункт «Дополнительные параметры → robots.txt» — можно дописать свои правила.

После любого изменения — обязательно проверьте в Яндекс.Вебмастере (Инструменты → Анализ robots.txt) и Google Search Console (Настройки → robots.txt). Оба сервиса бесплатные и показывают, какие URL разрешены, а какие закрыты.

Бесплатный осмотр сайта

Одна строчка в robots.txt — и весь ваш сайт исчезает из Яндекса

Самая частая катастрофа малого бизнеса: разработчик переносит сайт с тестового стенда и забывает поменять robots.txt. Через 10 дней звонят клиенты: «нас нет в поиске». К этому моменту уже потеряны позиции, на восстановление которых уйдут месяцы.

8 проверок robots.txt при каждом осмотре — от полного Disallow до забытого Sitemap
Каждая найденная проблема — миссия с готовой инструкцией, что поменять
Уведомление в Telegram, если файл вдруг закрыл весь сайт от индексации

Проверьте, не закрыт ли ваш сайт от поисковиков прямо сейчас

Без регистрации · без карты · результат за 60 секунд. Регистрация даст +100 пилюль и доступ к 14 параметрам 152-ФЗ со штрафами.