Robots.txt для сайта – каким он должен быть?

Robots.txt для сайта – каким он должен быть?

От автора: приветствую вас. В прошлой статье мы рассмотрели такой важный для сайта файл, как карта. Сегодня поговорим о не менее значимом – robots.txt. Для сайта и его продвижения в поисковиках этот файл значит многое.

Зачем нужен robots.txt?

Это как инструкция для поисковых роботов. Именно они читают и выполняют команды, которые вы в нем пишите. Этот текстовый документ нужен для того, чтобы поисковый робот увидел, какие страницы и директории нужно индексировать, а какие нет.

Например, что у нас в корневой папке? Если у вас установлен WordPress, то там вы увидите директории wp-admin, wp-content, wp-includes. Очевидно, что они не должны быть проиндексированы, по крайней мере первая и последняя, потому что в wp-content хранятся изображения и вы, возможно, хотели бы, чтобы они были проиндексированы.

Точно также дело обстоит и с другими движками. В любой cms есть куча технических папок, которые ни в коем случае не должны попадать в индекс. Но представим, что файла с инструкциями для робота нет на вашем сайте. Что тогда? А тогда бот просто может взять и проиндексировать все директории и файлы, что не очень желательно.

Синтаксис

Возможно, вы хотите сами написать или отредактировать что-то в этом файле. Как написать команды правильно? Это несложно, ведь тут очень простой синтаксис. Начинаться все должно с указания того, для какой поисковой машины будут предназначены инструкции. Например:

Никаких точек с запятой в конце ставить не надо. А для составления команд тут есть 2 основных слова: Allow – разрешить индексировать файл или каталог; и Disallow – запрет на индексацию.

Этими командами вы как бы говорите: “Эй, робот, вот сюда добро пожаловать, а туда не ходи, но-но-но”. На самом деле команда Allow используется редко, ведь по умолчанию весь сайт итак разрешен для индексации. А вот disallow потребуется нам гораздо чаще. Примеры:

Папка wp-content не будет индексироваться, но ее подпапка uploads, содержащая в себе картинки, будет. Вот так все просто. И таких команд может быть в файле сколько угодно, сколько вы решите закрыть папок от индексации. По моим наблюдениям средняя длина robots.txt составляет 20-40 строк.

Дополнительные команды для Яндекса

Для бота этой поисковой системы можно указать еще две директивы. Во-первых, это хост, то есть просто адрес вашего веб-сайта. Для чего? Это для тех случаев, когда вы склеиваете несколько доменов и нужно указать, какой из них будет главным, а остальные как бы будут его зеркалами. Для этого всем доменам нужно указать один хост – ссылку на главный домен.

Другая директива – sitemap и в ней указывается путь к карте. Вообще многие советуют заполнять его, но можно просто добавить sitemap в Вебмастер и не беспокоиться более.

Как правильно написать robots.txt для сайта

Я вам посоветую ничего самому не писать, а поступить следующим образом: выбрать ресурс, которому вы доверяете и у которого хорошие показатели и потом написать в строке браузера: url-проекта/robots.txt. Таким образом, вы сможете увидеть, какой robots.txt используется здесь и просто скопировать его себе.

Можно пройтись по командам и убрать те, что вам не нужны. Например, если на выбранном ресурсе есть форум, а у вас нет, то можете убрать соответствующие строки, если они конечно есть.

Мне кажется, из-за сео-специалистов важность robots.txt была преувеличена. Я специально смотрел его наполнение на разных успешных сайтах. Где-то было 10 строк, где-то – 50. В общем, наполнение было разным, но все сайты успешно продвигаются и имеют хорошие позиции в поисковых системах. Из этого вопрос:

А так ли важен этот файл?

Конечно, я советую создать его, но слишком сильно заморачиваться по поводу составления файла не стоит. Скопируйте с другого авторитетного сайта, удалив все лишнее, либо закройте от индексации только основные технические папки на вашем сайте.

Какой правильный robots.txt для сайта вам не скажет никто, потому что у всех разные мнения на этот счет. Самое главное, проверьте файл на ошибки в Яндекс.Вебмастере, там есть такая возможность.

Для продвижения его заполнение не критично, главное, не допустить серьезной ошибки и не закрыть, например, картинки.

Вообще, очень часто инструкция для ботов используется для того, чтобы закрыть на ресурсе дублированный контент, но как показывает практика, для этого недостаточно пары строчек, нужно применять дополнительные меры, в том числе и установкой модулей или вставкой в движок кода, который будет предотвращать то или иное дублирование.

О полезных плагинах для WordPress вы можете посмотреть уроки здесь, ну а для Joomla – тут. Все это, вместо с оптимально заполненным robots.txt даст вашему сайту хороший толчок вверх.

Метки:

Похожие статьи:

Комментарии Вконтакте: