Что такое robots.txt и где он живёт
robots.txt — это обычный текстовый файл, лежащий в корне домена по адресу site.ru/robots.txt. Когда поисковый робот заходит на сайт, он первым делом запрашивает именно этот файл, читает правила и только потом решает, какие страницы можно индексировать.
Файл нужен, чтобы поисковик не тратил время на служебные разделы — корзину, личный кабинет, страницы сортировки, тестовые URL. И чтобы случайно не показал клиенту страницу «спасибо за заказ» вместо каталога. Это не запрет на доступ — это договорённость с честными роботами Яндекса и Google.
Если файла нет — поисковик считает, что разрешено всё. Если в нём ошибка — может оказаться, что весь сайт закрыт от индексации, и за неделю вы потеряете все позиции.
Из чего состоит файл
Внутри всего четыре основных директивы. User-agent: * — к каким роботам относятся правила (звёздочка = ко всем). Disallow: /admin — какие пути закрыты от индексации. Allow: /public — какие пути разрешены, даже если родительская папка закрыта. Sitemap: https://site.ru/sitemap.xml — где лежит карта сайта.
Пример минимального рабочего файла для интернет-магазина: User-agent: * \ Disallow: /cart \ Disallow: /personal \ Disallow: /search \ Sitemap: https://site.ru/sitemap.xml. Этого достаточно для большинства типовых сайтов на 1С-Битрикс, WordPress, Tilda.
Важно: для Яндекса можно отдельно прописать User-agent: Yandex и для него — свои правила. Раньше это требовалось из-за директивы Host (она указывала зеркало). С 2018 года Host больше не нужен — Яндекс понимает основное зеркало через 301-редирект, как и Google.
Пять ошибок, из-за которых сайт пропадает из поиска
1. Disallow: / на проде. Когда разработчик копирует robots.txt с тестового стенда — закрывает индексацию ВСЕГО сайта. Через 7-14 дней позиции обрушиваются в ноль. Сайтболит ловит это первым же осмотром.
2. Закрыта папка с CSS и JS (например, Disallow: /wp-content/ или /assets/). Поисковик не может «увидеть», как выглядит сайт, и понижает позиции — особенно по мобильному поиску.
3. Нет ссылки на sitemap.xml. Без этой строки робот может месяцами не находить новые страницы.
4. Кодировка не UTF-8 или BOM в начале файла. Файл может «не читаться», и все правила игнорируются.
5. Закрыты страницы пагинации (?page=2, ?page=3). Робот не доходит до товаров на 5-й странице — и они не появляются в выдаче.
Что проверяет Сайтболит
Сайтболит при каждом осмотре скачивает robots.txt, парсит его и ищет 8 типовых проблем: полный Disallow, закрытие ассетов, отсутствие Sitemap, неверный синтаксис, дубли директив, BOM, размер больше 500 КБ, недоступность файла (404 или 5xx).
Каждая найденная проблема превращается в миссию с конкретной инструкцией: что именно поменять, какую строчку добавить, какую убрать. Закрываете миссию — Сайтболит проверяет файл повторно и засчитывает её, если всё чисто.
Как чинить и поддерживать
WordPress: используйте плагин Yoast SEO или RankMath — они генерируют корректный robots.txt автоматически. Не редактируйте файл руками, если не уверены в синтаксисе.
1С-Битрикс: стандартный модуль «Поисковая оптимизация» (seo) умеет создавать robots.txt через интерфейс. Главное — после изменений зайти в Яндекс.Вебмастер → «Анализ robots.txt» и проверить, что нужные страницы открыты.
Tilda: файл генерируется автоматически, в настройках сайта есть пункт «Дополнительные параметры → robots.txt» — можно дописать свои правила.
После любого изменения — обязательно проверьте в Яндекс.Вебмастере (Инструменты → Анализ robots.txt) и Google Search Console (Настройки → robots.txt). Оба сервиса бесплатные и показывают, какие URL разрешены, а какие закрыты.