Курс HTML5, CSS3, SEO, Wordpress и Photoshop

Файл robots.txt

В каждом сайте имеются некоторые папки (страницы) которые нужно закрыть от индексации поисковиков. Например папки с файлами CMS. Для этого и предназначен текстовый файл robots.txt.

Что такое robots.txt?

robots.txt это обычный текстовый файл, в котором прописано какие папки (страницы) индексировать а какие нет.
Вот к примеру официальный файл robots.txt для сайтов на CMS WordPress:
Sitemap: http://www.example.com/sitemap.xml

# Google Image
User-agent: Googlebot-Image
Disallow:
Allow: /*

# Google AdSense
User-agent: Mediapartners-Google
Disallow:

# digg mirror
User-agent: duggmirror
Disallow: /

# global
User-agent: *
Disallow: /cgi-bin/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/cache/
Disallow: /wp-content/themes/
Disallow: /trackback/
Disallow: /feed/
Disallow: /comments/
Disallow: /category/*/*
Disallow: */trackback/
Disallow: */feed/
Disallow: */comments/
Disallow: /*?
Allow: /wp-content/uploads/

Синтаксис robots.txt

Синтаксис robots.txt крайне прост:
1) Запись Sitemap: http://www.example.com/sitemap.xml означает что у сайта example.com файл sitemap.xml находится по адресу http://www.example.com/sitemap.xml.
2) # Google Image формат комментирования. То есть все символы после # не влияют на индексацию.
User-agent: Googlebot-Image Это обращение к роботу-боту Googlebot-Image.
Disallow: Не закрывает этому боту индексирование всех файлов.
Allow: /* Разрешает этому боту индексировать всё.
3) User-agent: * для всех ботов задает правила:
Disallow: /cgi-bin/ означает закрыть от индексирования папку /cgi-bin/
Allow: /wp-content/uploads/ разрешает индексировать папку /wp-content/uploads/

robots.txt для Яндекса

robots.txt для Яндекса требует вставки всего лишь одной дополнительной строки:
Host: example.com
Итоговый файл robots.txt таков:
Sitemap: http://www.example.com/sitemap.xml

# Google Image
User-agent: Googlebot-Image
Disallow:
Allow: /*

# Google AdSense
User-agent: Mediapartners-Google
Disallow:

# digg mirror
User-agent: duggmirror
Disallow: /

# global
User-agent: *
Disallow: /cgi-bin/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/cache/
Disallow: /wp-content/themes/
Disallow: /trackback/
Disallow: /feed/
Disallow: /comments/
Disallow: /category/*/*
Disallow: */trackback/
Disallow: */feed/
Disallow: */comments/
Disallow: /*?
Allow: /wp-content/uploads/
Host: example.com