Основан 26 Июля 2013 года
freehacks.ru fhacks.me fhacks.pw fhacksnplmzxaaoo.onion
HashFlare
Показано с 1 по 4 из 4

Тема: robots.txt

  1. #1
    TopicStarter
    Аватар для sata-ata

    Статус
    Offline
    Регистрация
    29.10.2013
    Сообщений
    3,035
    Репутация
    282 + / -
    Программист

    robots.txt

    Файл robots.txt это правила, согласно которым поисковик будет индексировать ваш сайт.

    Где должен находиться файл robots.txt?
    Каков формат записей и синтаксис, который поддерживает файл robots.txt?
    Как правильно использовать мета-тег «ROBOTS»?
    Какие нестандартные методы управления поисковыми роботами существуют?
    Как избежать грубых ошибок при составлении файла robots.txt?
    Так выглядит перечень вопросов, затрагиваемых в этой заметке.

    Поехали...

    Назначение файла robots.txt

    Файл robots.txt существует с давних времен. Еще в 1994г. было принято соглашение об его использовании.
    Это обычный текстовый файл содержащий инструкции понятные поисковым роботам.
    Для тех, кто не в курсе:

    Поисковый робот это программное обеспечение поисковой машины для индексирования документов, опубликованных в Интернете.
    Индексирование процесс занесения сведений о страницах сайтов в базу данных поисковой системы.
    Индексирование необходимо для быстрого поиска необходимой информации в Сети пользователями поисковых машин: Яндекс, Рамблер, Google, Yahoo, MSN и т.д.
    По сути, инструкции описанные в файле robots.txt сводятся в основном лишь к тому, чтобы сказать поисковику какие файлы и каталоги сайта не индексировать. Т.е. не вносить в свою базу данных. Любой сайт содержит каталоги и файлы, которые не содержат полезной информации для пользователя Сети. Их индексирование может вызвать дополнительную нагрузку на сервер и даже навредить сайту с ранжированием в поисковой выдаче.

    Файл robots.txt закрывает доступ роботам к таким каталогам и файлам, чем оказывает неоценимую услугу всем. Обычно не индексируют каталоги со скриптами, такие как «cgi-bin» и прочие программные каталоги включая другие каталоги и файлы, содержащие служебную и прочую информацию не предназначенную для индексации.

    Формат файла robots.txt

    Для того чтобы поисковая система начала индексировать ваш сайт достаточно создать пустой файл robots.txt и разместить его в корневой папке вашего сайта. Именно там его будет искать робот поисковой системы. Путь к файлу должен быть:
    Код:
    http://ваш_домен/robots.txt
    Файл robots.txt должен называться только так и не иначе, имя в нижнем регистре. Размещается файл в корне вашего сайта. Пустой файл разрешает индексировать все содержимое вашего сайта всем поисковым машинам.
    Сразу стоит оговориться, что файл robots.txt ни в коем случае не запрещает доступ к контенту и обладает лишь рекомендательными функциями. Если роботу поручено обследовать все каталоги — он проигнорирует все запреты-рекомендации и поступит как знает.

    Синтаксис

    Чтобы рекомендовать какому-либо роботу не индексировать тот или иной каталог, используется одна или несколько записей (records) оканчивающихся служебным символом конца строки(CR, CR/NL или NL). Если строк несколько, то они должны разделяться между собой одной или несколькими пустыми строками. Каждая запись должна содержать строки (lines) следующего вида:

    Код:
    <field>:<value>

    <field> -- предназначено для директив, не чувствительно к регистру вводимых символов
    <value> — значение, принимаемое директивой к исполнению.

    Директив не так много: Use-agent, Disallow, Host, Sitemap.

    Файл robots.txt может включать в себя комментарии, начинающиеся со знака «#» и заканчивающиеся концом строки.

    User-Agent

    Запись должна начинаться с одной или нескольких строк со значением «User-agent».

    Значением этого поля является имя поискового робота, которому устанавливаются права доступа.
    Если в записи несколько имен роботов, права будут одни для всех.
    Если в качестве значения для этого поля указать символ «*», правила будут относиться абсолютно ко всем поисковым роботам.
    Disallow

    Ниже следует одна или несколько строк с директивой «Disallow».

    Значением будет частичный или полный URL каталога или файла, которые мы не желаем индексировать.
    Если значение Disallow не указывается, это означает что индексировать все.
    Запись(record) должна состоять как минимум из одной строки(line) «User-agent» и одной строки «Disallow».

    Примеры файла robots.txt

    Пример 1:
    Код:
    # robots.txt for [Только зарегистрированные могут видеть это. ]
    User-Agent: *
    Disallow: /cgi-bin/script/
    Disallow: /tmp/
    В примере 1 закрывается от индексации содержимое директорий /cgi-bin/script/ и /tmp/.

    Пример 2:

    Код:
    # robots.txt for [Только зарегистрированные могут видеть это. ]
    User-Agent: *
    Disallow: /tmp/
    User-Agent: powersearch
    Disallow:
    В примере 2 закрывается от индексации содержимое директории /tmp/, однако поисковому роботу powersearch все разрешено.

    Пример 3:

    Код:
    # robots.txt for [Только зарегистрированные могут видеть это. ]
    User-Agent: *
    Disallow: /
    В примере 3 любому поисковому роботу запрещается индексировать весь сайт.

    Host


    Директива «Host» используется только в случае с роботом Яндекса. Остальным роботам она абсолютно «по-барабану».

    Введите в Ваш файл robots.txt эту строку, где Вы должны указать имя Вашего сайта, которое будет указывать на его основное зеркало. Вещь полезная, поможет избежать проблем со склеиванием-расклеиванием зеркал. Если Вы захотите позволить Яндексу индексировать сайт полностью — В ЗАПИСИ ДОЛЖНА БЫТЬ ХОТЯ БЫ ОДНА СТРОКА С ДИРЕКТИВОЙ «DISALLOW»:

    Пример для робота Яндекса:

    Код:
    # robots.txt for [Только зарегистрированные могут видеть это. ]
    User-Agent: Yandex
    Disallow:
    Host: [Только зарегистрированные могут видеть это. ]
    Sitemap
    Эта директива укажет поисковым роботам явное местонахождение карты сайта. Карта сайта полезна когда ваш сайт содержит тысячи страниц. Это помогает поисковику более быстро его индексировать.

    Если это необходимо, добавьте следующую строку в Ваш файл robots.txt:

    Код:
    Sitemap: [Только зарегистрированные могут видеть это. ]
    Примеры использования файла robots.txt

    Размещение файла
    Код:
    [Только зарегистрированные могут видеть это. ] <=> [Только зарегистрированные могут видеть это. ]
    yoursite.ru:80 <=> [Только зарегистрированные могут видеть это. ]
    
    yoursite.ru:1234 <=> [Только зарегистрированные могут видеть это. ]
    
    [Только зарегистрированные могут видеть это. ] <=> [Только зарегистрированные могут видеть это. ]
    Пример: Запретить весь сайт для индексации всеми роботами

    Код:
    User-agent: *
    Disallow: /
    Пример: Разрешить всем роботам индексировать весь сайт

    Код:
    User-agent: *
    Disallow:
    Или можете просто создать пустой файл robots.txt.

    Пример: Закрыть от индексации только несколько каталогов

    Код:
    User-agent: *
    Disallow: /cgi-bin/
    Disallow: /tmp/
    Disallow: /private/
    Пример: Запретить индексацию сайта только для одного робота

    Код:
    User-agent: BadBot
    Disallow: /
    Пример: Разрешить индексацию сайта одному роботу и запретить всем остальным
    Код:
    User-agent: Yandex
    Disallow:
    User-agent: *
    Disallow: /
    Пример: Запретить к индексации все файлы кроме одного

    Задача непростая, инструкции «Allow» не существует. Переместите все файлы кроме того, который вы хотите разрешить к индексации в поддиректорию и запретите ее индексацию:

    Код:
    User-agent: *
    Disallow: /docs/
    
    Второй вариант — запретить каждый файл по отдельности:
    
    User-agent: *
    Disallow: /private.html
    Disallow: /foo.html
    Disallow: /bar.html

    Пример файла robots.txt для Wordpress блога


    Код:
    User-agent: *
    Disallow: /cgi-bin/
    Disallow: /wp-admin/
    Disallow: /wp-includes/
    Disallow: /wp-content/
    Disallow: /index.html
    Disallow: /index.php
    Disallow: /tag/
    Disallow: /category/
    Disallow: /search/
    # Google Image
    User-agent: Googlebot-Image
    Disallow:
    
    # Google AdSense
    User-agent: Mediapartners-Google*
    Disallow:
    
    # Internet Archiver Wayback Machine
    User-agent: ia_archiver
    Disallow: /
    
    # digg mirror
    User-agent: duggmirror
    Disallow: /
    
    Sitemap: [Только зарегистрированные могут видеть это. ]
    
    User-agent: Yandex
    Disallow: /cgi-bin/
    Disallow: /wp-admin/
    Disallow: /wp-includes/
    Disallow: /wp-content/
    Disallow: /index.html
    Disallow: /index.php
    Disallow: /tag/
    Disallow: /category/
    Disallow: /search/
    Host: [Только зарегистрированные могут видеть это. ]
    Мета-тег ROBOTS

    Бывают случаи когда необходимо запретить индексацию к какой-либо странице. Делается это с помощью мета-тега «ROBOTS».

    В этом простом примере:
    Код:
    META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW"
    робот не должен ни индексировать документ, ни анализировать стоящие на нем ссылки.

    Отличие от стандарта исключения для роботов в том, что при ограничении прав доступа к сайту со стороны его администратора, Вы можете сделать это самостоятельно.

    Где разместить мета-тег ROBOTS:

    Код:
    <html>
    <head>
    <meta name="robots" content="noindex,nofollow">
    <meta name="description" content="Эта страница ….">
    <title>…</title>
    </head>
    <body>
    Еще несколько примеров использования:
    Код:
    <meta name="robots" content="index, follow">
    <meta name="robots" content="noindex, follow">
    <meta name="robots" content="index, nofollow">
    <meta name="robots" content="noindex, nofollow">
    Нестандартные методы управления поисковыми роботами

    Файл robots.txt умеет ограничивать доступ поисковикам на уровне каталогов и файлов сайта. Мета-тег ROBOTS на уровне страницы. А что, если стоит задача запретить к индексации лишь часть текста или ссылок на странице. Для этого существуют тег noindex и атрибут rel="nofollow" для тега a.

    Пример:

    Очень много сайтов в Интернете откровенно плохого качества контента и отвратительного дизайна. <noindex>Если такие сайты, как <a rel="nofollow" href="[Только зарегистрированные могут видеть это. ]">этот говносайт</a> будут и дальше плодиться, вскоре Интернет станет грязной помойкой.</noindex>
    В примере, тегом noindex мы предлагаем поисковым системам Яндекс и Рамблер второе предложение текста не индексировать , а атрибутом nofollow говорим роботу Google не следовать по этой ссылке. Атрибут rel="nofollow" может использоваться как до, так и после URL и совместно с другими атрибутами «rel» записывается подряд через пробел. Роботы Google не понимают тег noindex и к тому же такое его использование нарушает валидность html-кода данной страницы. Если есть необходимость ее не нарушать, рекомендуется использовать следующий синтаксис их написания:
    Код:
    <!-noindex-> ваш текст <!-/noindex->

    Другие методы управления индексацией


    Возможны и другие методы запрета доступа поисковым машинам к содержимому сайтов. Например с помощью модуля веб-сервера «mod_rewrite», программно с помощью Javascript или же файла .htaccess.


    з.ы. накопал на просторах интернета, отредактировал.
    8AC4F56356469F79B5283364053ACDA49D8EC9FEFDADC2B42F A5B4E979D9222267583F350BF9

    с/delphi/pascal/vbs/vbm/bat
    Ник зареган, суки! [Только зарегистрированные могут видеть это. ]

  2. Пользователь сказал cпасибо:
    admin
  3. #2
    Trust
    Аватар для ul1k317

    Статус
    Offline
    Регистрация
    26.08.2013
    Сообщений
    823
    Репутация
    395 + / -
    Web-программист
    не пойму как это относится к php. переместил в прочее.
    php, mysql, mssql, js, html, css, ajax, administrating, it consulting, etc.

  4. #3
    TopicStarter
    Аватар для sata-ata

    Статус
    Offline
    Регистрация
    29.10.2013
    Сообщений
    3,035
    Репутация
    282 + / -
    Программист
    ок, сорри
    8AC4F56356469F79B5283364053ACDA49D8EC9FEFDADC2B42F A5B4E979D9222267583F350BF9

    с/delphi/pascal/vbs/vbm/bat
    Ник зареган, суки! [Только зарегистрированные могут видеть это. ]

  5. #4
    Аватар для stels1

    Статус
    Offline
    Регистрация
    22.08.2014
    Сообщений
    17
    Репутация
    2 + / -
    Спам
    спасибо, весьма кстати)

Метки этой темы

Ваши права

  • Вы не можете создавать новые темы
  • Вы не можете отвечать в темах
  • Вы не можете прикреплять вложения
  • Вы не можете редактировать свои сообщения
  •  
Информация на сайте предоставлена исключительно в ознакомительных целях, использование знаний в противозаконных целях преследуется по закону! Администрация не несет ответственности за ваши деяния.