Файл robots.txt
В каждом сайте имеются некоторые папки (страницы) которые нужно закрыть от индексации поисковиков. Например папки с файлами CMS. Для этого и предназначен текстовый файл robots.txt.
Что такое robots.txt?
robots.txt это обычный текстовый файл, в котором прописано какие папки (страницы) индексировать а какие нет.
Вот к примеру официальный файл robots.txt для сайтов на CMS WordPress:
Sitemap: http://www.example.com/sitemap.xml
# Google Image
User-agent: Googlebot-Image
Disallow:
Allow: /*
# Google AdSense
User-agent: Mediapartners-Google
Disallow:
# digg mirror
User-agent: duggmirror
Disallow: /
# global
User-agent: *
Disallow: /cgi-bin/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/cache/
Disallow: /wp-content/themes/
Disallow: /trackback/
Disallow: /feed/
Disallow: /comments/
Disallow: /category/*/*
Disallow: */trackback/
Disallow: */feed/
Disallow: */comments/
Disallow: /*?
Allow: /wp-content/uploads/
Синтаксис robots.txt
Синтаксис robots.txt крайне прост:
1) Запись Sitemap: http://www.example.com/sitemap.xml
означает что у сайта example.com файл sitemap.xml находится по адресу http://www.example.com/sitemap.xml
.
2) # Google Image
формат комментирования. То есть все символы после #
не влияют на индексацию.
User-agent: Googlebot-Image
Это обращение к роботу-боту Googlebot-Image.
Disallow:
Не закрывает этому боту индексирование всех файлов.
Allow: /*
Разрешает этому боту индексировать всё.
3) User-agent: *
для всех ботов задает правила:
Disallow: /cgi-bin/
означает закрыть от индексирования папку /cgi-bin/
Allow: /wp-content/uploads/
разрешает индексировать папку /wp-content/uploads/
robots.txt для Яндекса
robots.txt
для Яндекса требует вставки всего лишь одной дополнительной строки:
Host: example.com
Итоговый файл robots.txt таков:
Sitemap: http://www.example.com/sitemap.xml
# Google Image
User-agent: Googlebot-Image
Disallow:
Allow: /*
# Google AdSense
User-agent: Mediapartners-Google
Disallow:
# digg mirror
User-agent: duggmirror
Disallow: /
# global
User-agent: *
Disallow: /cgi-bin/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/cache/
Disallow: /wp-content/themes/
Disallow: /trackback/
Disallow: /feed/
Disallow: /comments/
Disallow: /category/*/*
Disallow: */trackback/
Disallow: */feed/
Disallow: */comments/
Disallow: /*?
Allow: /wp-content/uploads/
Host: example.com