Robots.txt

После того, как вы перенесли сайт на хостинг и открыли к нему доступ, на ваш сайт начнут заходить поисковые роботы. Цель поисковых роботов – занесение информации о страницах сайта в базу данных поисковика. В первую очередь поисковые роботы ищут на сайте файл robots.txt.

 

Файл robots.txt - настройка параметров индексирования сайта

Файл robots.txt служит для запрета от индексирования страниц, не предназначенных для пользователей. Таким образом, с помощью robots.txt от индексирования можно закрыть технические и не представляющие ценности ни для пользователя, ни для поисковых систем страницы (дубликаты страниц, статистика посещаемости, поиск по сайту и др.). Для поисковых роботов файл robots.txt является инструкцией, в которой указаны параметры индексирования сайта. Поэтому, в первую очередь веб-мастеру нужно создать эту инструкцию для поисковых роботов.

 

Как создать robots.txt

Создать файл robot.txt для поисковых роботов несложно. Создайте в любом текстовом редакторе файл с названием «robots.txt», заполните его в соответствии с правилами и разместите в корневой папке сайта.

 

Robots.txt для Joomla

Чтобы вам было легче понять, что из себя представляет файл robots.txt, вначале хочу показать, как он выглядит на примере robots.txt для Joomla. Хочу отметить, что в данном файле прописаны две инструкции: вверху - для всех поисковых роботов и ниже - для поискового робота Яндекс.

User-agent: *
Allow: /index.php?option=com_xmap&sitemap=1&view=xml
Disallow: /administrator/
Disallow: /cache/
Disallow: /index.php?
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /images/
Disallow: /tmp/
Disallow: /xmlrpc/
Disallow: /search/
Disallow: /*.pdf
Disallow: /*print=1
Disallow: /*type=atom
Sitemap: http://www.webadvisor.ru/index.php?option=com_xmap&sitemap=1&view=xml
Sitemap: http://www.webadvisor.ru/index.php?option=com_xmap&sitemap=1&view=xml&no_html=1
Sitemap: http://www.webadvisor.ru
User-agent: Yandex
Allow: /index.php?option=com_xmap&sitemap=1&view=xml
Disallow: /administrator/
Disallow: /cache/
Disallow: /index.php?
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /images/
Disallow: /tmp/
Disallow: /xmlrpc/
Disallow: /search/
Disallow: /*.pdf
Disallow: /*print=1
Disallow: /*type=atom
Host: www.webadvisor.ru
Sitemap: http://www.webadvisor.ru/index.php?option=com_xmap&sitemap=1&view=xml
Sitemap: http://www.webadvisor.ru/index.php?option=com_xmap&sitemap=1&view=xml&no_html=1
Sitemap: http://www.webadvisor.ru

Правильный robots txt

Выше приведён пример файла robots.txt для Joomla. Вы можете его скопировать и отредактировать, согласно своим требованиям. А можете создать robots.txt самостоятельно. Чтобы создать правильный robots.txt, создайте текстовой файл и заполните его в соответствии с представленными ниже правилами.

Директива User-agent

В файле robots.txt вы можете указать параметры индексирования своего сайта как для всех роботов сразу, так и для каждого поисковика отдельно. Это можно сделать с помощью директивы User-agent. По правилам перед каждой директивой User-agent рекомендуется вставлять пустой перевод строки.

Например:

User-agent: * # для всех поисковиков

User-agent: Yandex # для робота Яндекса

 

Директивы Disallow и Allow

Директива Disallow используется для запрета к некоторым частям сайта. По правилам не допускается наличие пустых переводов между директивами User-agent и Disallow (Allow). Отсутствие у директив параметров трактуется таким образом: Disallow – то же, что и / Allow; Allow – то же, что / Disallow

Например:

User-agent: Yandex

Disallow: / # блокирует доступ ко всему сайту

 

Директива Sitemap

В файле robots.txt вы можете указать путь к sitemaps.xml

Пример. Sitemap: http://www.webadvisor.ru/index.php?option=com_xmap&sitemap=1&view=xml&no_html=1

 

Директива Host

С помощью директивы Host в файле robots.txt вы можете указать главное зеркало сайта (сайт с www или без).

Директива должна располагаться сразу после директив Disallow (Allow) и должна состоять из одного корректного имени хоста.

Пример. Host: www.webadvisor.ru

 

При написании robots.txt помните, что файл не должен превышать 32 Кб. Слишком большой robots.txt воспринимается поисковым роботом, как полностью разрешающий и рассматривается им аналогично следующей записи:

User-agent: Yandex

Disallow:

 

После создания файла рекомендую проверить, правильно ли вы его составили. Проверить правильность файла robots.txt вы можете в панели вебмастера Яндекс, в панели вебмастера Google или специальным on-line анализатором по этому адресу: http://webmaster.yandex.ru/robots.xml

Комментарии   

 
0 #3 admin 19.02.2015 22:25
Непонятно, что Вы имеете в виду... Вы хотите запретить индексирование сайта в Яндексе?
 
 
0 #2 Акмал 18.02.2015 15:57
Здравствуйте как отключить robots-txt в яндекси
 
 
0 #1 Евгений 30.04.2012 13:45
Подскажите, поставил компонент k2, импортировал материалы из Joomla стандартного, поставил Xmap, включил плагины в нем для content и к2. Теперь в карте сайта ссылки и те и те. Что отключить лучше, если 99% материала на сайте используется из к2? Или как лучше теперь сделать карту сайта чтоб поисковики читали и позиции не терять? Заранее спасибо за помощь!
 

У Вас недостаточно прав для добавления комментариев. Возможно, Вам необходимо зарегистрироваться на сайте.