Robots.txt

интернет

интернет

Как и обещал в этой статье выложу свой вариант текстового файла robots.txt. Я не считаю его идеальным вариантом. Многие могут настучать мне по тыковке, найдя в нем, чего-то того, что с их точки зрения некорректно прописано. В защиту своего варианта отмечу только то, что благодаря ему количество страниц в индексе Яндекса начало увеличиваться. А ведь совсем еще недавно в этом чертовом индексе была лишь всего одна главная страница. Если есть какие-то замечания пользователей, и опытных вебмастеров, с удовольствием приму к сведению.
Итак сам файл:
User-agent: *

Disallow: /cgi-bin

Disallow: /wp-admin

Disallow: /wp-includes

Disallow: /wp-content/plugins

Disallow: /wp-content/cache

Disallow: /wp-content/themes

Disallow: /trackback

Disallow: /feed

Disallow: /category/*/*

Disallow: */trackback

Disallow: */feed

Disallow: /xmlrpc.php

Allow: /wp-content/uploads

User-agent: Yandex

Disallow: /cgi-bin

Disallow: /wp-admin

Disallow: /wp-includes

Disallow: /wp-content/plugins

Disallow: /wp-content/cache

Disallow: /wp-content/themes

Disallow: /trackback

Disallow: /feed

Disallow: /comments

Disallow: */trackback

Disallow: */feed

Disallow: */comments

Host: be4e.ru

Как вы видите, он состоит из двух частей. Первая для всех поисковиков, вторая отдельно для Яндекса. Мало того, каждый блок разделен пустой строкой. Это я сделал по совету небезызвестного Платона Щукина.
Важна последняя строка — Host: be4e.ru
И еще, кое-где я читал иной вариант строки Disallow: */comments, вроде вот так Disallow: /*comments, как правильно это прописать я не знаю. Может быть, Вы мне поможете разобраться с этим.
Всем удачи!!!

Категория: Пустатейки  Метки:
Вы можете следить за комментариями с помощью RSS 2.0-ленты. 135 views В можете оставить комментарий, или Трекбэк с вашего сайта.
24 комментария
  1. Не думаю, что яша проиндексировал оставшиеся страницы из за изменений файла robots.txt. Просто совпадение…

  2. Газовщик, почитайте статью ниже «Индексация блога Яндексом».

  3. Maikel:

    да просто некотрие не могут читать!а все гуд Disallow: */comments зачем что то менять?остаь как есть!

  4. Maikel, раз так, значит так.

  5. Вы выложили пример роботса для движка WordPress, вот мой вариант роботса для Joomla:

    User-agent: *

    Disallow: /administrator/

    Disallow: /cache/

    Disallow: /components/

    Disallow: /includes/

    Disallow: /installation/

    Disallow: /language/

    Disallow: /libraries/

    Disallow: /media/

    Disallow: /modules/

    Disallow: /plugins/

    Disallow: /templates/

    Disallow: /tmp/

    Disallow: /xmlrpc/

    прошу заметить, что уменя отсутствует строка Disallow: /images/, благодаря этому возможна индексация картинок на сайте (только для Joomla)

  6. Gravis, может кому-нибудь пригодится.

  7. Нет, ну что-то отсюда можно вытянуть…

  8. Vadya, ну и дай бог!

  9. > И еще, кое-где я читал иной вариант строки Disallow: */comments, вроде вот так Disallow: /*comments, как правильно это прописать я не знаю.

    я где-то читал, что некоторые поисковики не понимают *
    лучше писать */comments — если хотите скрыть из индекса страницы с комментариями,
    /*comments — запретит к индексу нетолько страницы комментариев, но и, например, статью с урлом заканчивающемся на слово comments

  10. а зачем там что то прописывать??вроде на яндексе написано что надо пустой текстовый файл сделать…что то не пойму..

  11. андрей, так именно рекомендовал сам Платон!!!

  12. Просмотрел справку платона по заполнению роботс, где там рекомендация такая описана???

  13. xlife, в статье ниже про индексацию сайта я писал про переписку с Платоном, ему же я послал свой образец этого файла, единственное, что он мне посоветовал исправить, это поставить строку Host: be4e.ru в конец файла, она у меня стояла после строки User-agent: Yandex. Я никого не принуждаю делать этот файл таким, каким я его описал. Но и нет у меня желания обманывать кого бы то не было.

  14. Файл роботс не ускоряет индексацию, он наоборот показывает какие страницы не нужно индексировать. Закрывает от индексации технические страницы. Возможно благодаря строчке «Host: be4e.ru» в этом файле быстрее поймет что сайт не зеркало. А то что в индексе была только главная страница, так это частенько бывает у яши в последнее время. Даже сайты который были проиндексированы полностью бывает остается только главная. А потом опять все постепенно возвращается. Тупит яша временами.

  15. strela, вот после того, как в этот файл внес строчку эту, страницы стали индексироваться.

  16. samuray:

    Спасибо. По вашему примеру составлю свой роботс. Пока только искал пример.

  17. samuray:

    и кстати еще где-то читал что теги тоже нужно запрещать к индексации!

  18. samuray, вариантов в инете много, но поиск-то происходит в основном по тегам, или я не прав?

  19. Sergio:

    спасибо за пример написание Robots.txt, хоть дошло что это и с чем его едят 🙂

  20. Sergio, мне приятно, что кому-то пригодилась. И писал сам. В инете много статей на эту тему. Но я написал эту опираясь на переписку с Платоном.

  21. Из личного опыта.
    Деректива Host в файле роботс предназначена для робота зеркальщика , он 1 раз в пару месяцев ходит, я пол года ждал чтобы с зеркалом на моём сайте определился поисковик наш любимый ) , думаете помогло? …кароче пришлось редирект прописывать в htaccess. ,

  22. xlife, спасибо за совет. Когда этот файл написал, так, как написан он здесь, мне помогло. Страницы появились в индексе. А была лишь одна, главная.

  23. спасибо за пример, пригодится

  24. класс, у меня там вообще пару строчек, но я обязательно первым целом его создала!

Оставить комментарий

XHTML: Вы можете использовать следующие теги: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>