Что такое Robots.txt? - Ryte Digital Marketing Wiki

  1. Структура протокола редактировать ]
  2. Создание и управление robots.txt [ редактировать ]
  3. Исключение страниц из индекса [ редактировать ]
  4. Используйте Robots.txt с подстановочными знаками [ редактировать ]
  5. Важность поисковой оптимизации [ редактировать ]


Файл robots.txt представляет собой текстовый файл, который можно использовать, чтобы указать, какие части домена должны сканироваться веб-сканером, а какие - нет. С отдельными файлами robots.txt в каталоге, полные каталоги, подкаталоги или целые домены могут быть исключены из сканирования. Файл robots.txt хранится в корне домена. Это первый документ, который бот извлекает при посещении веб-сайта. Боты основных поисковых систем, таких как Google и Bing, следуют инструкциям. В противном случае, нет никакой гарантии, что бот будет придерживаться спецификаций robots.txt.

Robots.txt помогает контролировать сканирование роботами поисковых систем. Кроме того, в файле robots.txt ссылка на Карта сайта быть включен, чтобы сообщить сканерам, какая структура URL принадлежит сайту. Отдельные подстраницы также могут быть идентифицированы с помощью мета-тэга, называемого роботами, и, например, значения NOINDEX исключен из индексации.

Структура протокола редактировать ]

Так называемый «Стандартный протокол исключения роботов» (сокращенно REP) был опубликован в 1994 году. Этот протокол указывает, что роботы поисковых систем (также: Пользовательский агент Сначала найдите в корневом каталоге файл robots.txt и прочитайте содержащиеся в нем спецификации перед использованием индексирование начать. Для этого файл robots.txt должен храниться в корневом каталоге домена и содержать именно это имя файла строчными буквами. При чтении ботом файла robots.txt учитывается регистр. То же самое относится и к директивам, которые указаны в файле robots.txt.

Однако следует отметить, что не все сканеры придерживаются этих правил, и поэтому файл robots.txt не обеспечивает защиты доступа. Однако некоторые поисковые системы индексируют заблокированные страницы и отображают их только без описательного текста на страницах результатов поиска. Это происходит, особенно когда страница сильно связана. Обратные ссылки с других сайтов гарантируют, что бот попадет на сайт даже без директив из robots.txt. Основные поисковые системы, например Google , Yahoo и Bing Однако придерживайтесь рекомендаций в robots.txt и переходите к REP. [1]

[1]

Создание и управление robots.txt [ редактировать ]

Файл robots.txt можно легко создать с помощью текстового редактора, поскольку он хранится в простом текстовом формате и считывается. Кроме того, в Интернете есть бесплатные инструменты для запроса наиболее важной информации для robots.txt и автоматического создания файла. Также о Google Search Console Файл robots.txt может быть создан и проверен одновременно.

Каждый файл состоит из двух блоков. Во-первых, создатель указывает, к какому пользовательскому агенту (-ам) должны применяться инструкции. За этим следует блок с введением «Запретить», после которого могут быть перечислены страницы, подлежащие исключению из индексации. Необязательно, второй блок также может состоять из введения «Разрешить», дополнить его третьим блоком «Запретить» и указать инструкции.

Перед загрузкой файла robots.txt в корневой каталог веб-сайта файл всегда следует проверять на правильность. Даже самая маленькая ошибка в синтаксис может заставить пользовательский агент игнорировать рекомендации, а также сканировать страницы, которые не должны появляться в индексе поисковой системы. Чтобы проверить, работает ли файл robots.txt должным образом, в Google Search Console В разделе «Статус» -> «Заблокированные URL-адреса» будет выполнен анализ. [2] В разделе «Сканирование» есть собственный тестер robots.txt.

Исключение страниц из индекса [ редактировать ]

Простейшая структура robots.txt выглядит так:

Пользователь-агент: Googlebot Disallow:

Этот код вызывает Googlebot сканировать все страницы Противоположность этому, а именно веб-сканеры Запрет сканирования всего веб-сайта выглядит следующим образом:

Пользователь-агент: Googlebot Disallow: /

В строке «Пользователь-агент» пользователь вводит пользовательских агентов за двоеточием, для которого применяются значения по умолчанию. Здесь, например, могут быть сделаны следующие записи:

  • Googlebot ( Google поисковая система)
  • Googlebot Image (Поиск картинок Google)
  • Adsbot Google ( Google AdWords )
  • Slurp (Yahoo)
  • Бингбот (Bing)

Если необходимо обратиться к нескольким пользовательским агентам, каждый бот получает свою собственную строку. Обзор всех общих команд и параметров для robots.txt включен Mindshape.de найти.

Ссылка на XML Sitemap реализована следующим образом:

Карта сайта: http://www.domain.de/sitemap.xml

Используйте Robots.txt с подстановочными знаками [ редактировать ]

Протокол исключения роботов не позволяет регулярные выражения (Англ .: wildcards) в строгом смысле. Но основные операторы поисковых систем поддерживают определенные выражения, такие как * и $. Это означает, что регулярные выражения обычно используются только с директивой Disallow для исключения файлов, каталогов или веб-сайтов.

  • Символ * служит подстановочным знаком для любых строк, следующих за этим символом. Искатели не будут индексировать сайты, содержащие эту строку - при условии, что они поддерживают подстановочный синтаксис. Для пользовательского агента это означает, что директива применяется ко всем сканерам - даже без указания строки. Пример:

Пользователь-агент: * Disallow: * автомобили

С помощью этой директивы все веб-сайты, содержащие строку «autos», не будут проиндексированы. Это часто используется для таких параметров, как идентификаторы сеанса (например, с disallow: * sid) или параметры URL (например, с disallow: / *?), Чтобы исключить так называемые URL без сканирования.

  • Символ $ служит заполнителем для правила фильтрации, которое достигает конца строки. Искатель не будет индексировать содержимое, которое заканчивается в этой строке. Пример:

Пользователь-агент: * Disallow: * .autos $

С помощью этой директивы весь контент, заканчивающийся на. Autos, будет исключен из индексации. Точно так же это может быть передано в различные форматы файлов: например, .pdf (с Disallow: /*.pdf$), .xls (с Disallow: /*.xls$) или другие форматы файлов, такие как изображения, программные файлы или файлы журнала, могут быть выбраны для них не вносить в индекс поисковых систем. Опять же, директива относится к поведению всех сканеров (user-agent: *), которые поддерживают подстановочные знаки.

Опять же, директива относится к поведению всех сканеров (user-agent: *), которые поддерживают подстановочные знаки

Важность поисковой оптимизации [ редактировать ]

На Поисковая оптимизация robots.txt страницы оказывает значительное влияние. Страницы, исключенные robots.txt, могут иметь сайт обычно не ранжируются или максимально с текстом заполнителя в SERPs вверх. Поэтому слишком сильное ограничение пользовательских агентов может привести к недостаткам в ранжирование причина. Слишком открытое обозначение директив может привести к индексации страниц, например Дублированный контент или чувствительные области, такие как логин. При создании файла robots.txt точность в соответствии с синтаксисом абсолютно необходима. Последнее также относится к использованию подстановочных знаков, поэтому тест в консоли поиска Google имеет смысл. [3] Однако важно, чтобы команды в файле robots.txt не препятствовали индексации. В этом случае веб-мастерам следует вместо этого использовать метатег noindex и исключать отдельные страницы из индексации, указав в заголовке.

Файл robots.txt является основным способом для веб-мастеров контролировать поведение сканеров поисковых систем. Если здесь возникают ошибки, веб-страницы могут стать недоступными, потому что URL-адрес не будет сканироваться вообще и поэтому не может появиться в индексе поисковых систем. Потому что вопрос о том, какие страницы должны быть проиндексированы, а какие нет, оказывает косвенное влияние на то, как поисковые системы просматривают или даже регистрируют сайты. По сути, правильное использование файла robots.txt не оказывает положительного или отрицательного влияния на фактический рейтинг сайта в поисковой выдаче. Скорее с ней работа Googlebots контролируется и что Сканирование бюджета оптимально используется. Таким образом, правильное использование файла гарантирует, что все важные области домена будут просканированы и, следовательно, текущий контент проиндексирован Google.

Некоторые программисты и веб-мастера также используют robots.txt, чтобы скрыть забавные сообщения. [4] Тем не менее, это «искусство» не влияет на сканирование или поисковую оптимизацию.

  1. Улучшения в протоколе исключения роботов googlewebmastercentral-de.blogspot.de. Зарегистрированы 06.11.2015
  2. Информация о файле robots.txt support.google.com. Зарегистрированы 06.11.2015
  3. Главное руководство по блокировке вашего контента в поиске internetmarketingninjas.com. Зарегистрированы 06.11.2015
  4. От законов роботов Азимова до металлической задницы Бендера: самые смешные файлы Robots.txt в Интернете t3n.de По состоянию на 01.02.2017