Руководство по маркетингу для определения и устранения Google Bloat индекса

  1. Шаг 1: Определите, страдаете ли вы от «раздувания индекса»
  2. Шаг 2: Диагностика, какие страницы вызывают проблемы с индексацией
  3. Глубокий обход
  4. Кричащая лягушка
  5. Google Search Console
  6. Гугл Аналитика
  7. Шаг 3. Удаление некачественных страниц и устранение проблем с индексацией
  8. Инструменты торговли: ваши возможности для устранения проблем с индексацией
  9. Robots.txt
  10. Meta Noindex Tag
  11. Канонический тег
  12. Инструмент удаления URL
  13. Обработка параметров в консоли поиска Google
  14. XML Sitemaps
  15. Удаление или перенаправление страниц
  16. Утолщение и продвижение страницы
  17. Завершение

Google недавно выпустил ряд обновлений, касающихся качества - от Panda до Fred и Phantom. Очевидно, что качественный контент и сильные показатели взаимодействия с пользователями становятся все более важными составляющими хорошего рейтинга в Google.

Хотя вам может и не понадобиться оправиться от явного штрафа Google Если многие ваши веб-страницы индексируются, есть большая вероятность того, что ваш сайт может страдать из-за некачественного, дублированного контента, который поглощает бюджет обхода и равенство ссылок, а также имеет очень плохие показатели ссылок и вовлеченности.

Так как же вы - как маркетолог, который может не иметь полное понимание того, как работает индекс Google Найти и исправить проблемы с индексацией?

В этом посте я расскажу вам о некоторых относительно простых (но зачастую трудоемких) шагах, чтобы определить, есть ли у вас проблемы с дублированным / тонким содержимым и индексацией, как определить, какие страницы вызывают проблему, и ваши варианты очистки. это до.

Учить больше: Как восстановить любой штраф Google

Шаг 1: Определите, страдаете ли вы от «раздувания индекса»

Первый шаг - определить, есть ли у вас проблема. Мы стремимся отличить количество страниц, которые вы позволяете индексировать, от количества страниц, которые фактически ранжируют и привлекают трафик.

Во-первых, мы можем получить приблизительные оценки количества проиндексированных страниц на нашем сайте, перейдя в Google и выполнив оператор сайта для нашего домена. Мои дети и я смотрели Гарри Поттера прошлой ночью, поэтому я буду использовать сайт Pottermore.com в качестве примера здесь:

com в качестве примера здесь:

Оператор поиска по сайту может быть немного запутанным - если я на самом деле перебираю все результаты для Pottermore.com , я вижу только несколько сотен результатов (я показываю 100 результатов на страницу, поэтому я перехожу к последней странице результатов нажмите Показать все, и теперь мы видим первые результаты 601-700):

com , я вижу только несколько сотен результатов (я показываю 100 результатов на страницу, поэтому я перехожу к последней странице результатов нажмите Показать все, и теперь мы видим первые результаты 601-700):

Google-х Гари Иллис объяснил, что это только оценки, и они менее точны для крупных сайтов:

Google-х   Гари Иллис   объяснил, что это только оценки, и они менее точны для крупных сайтов:

Это одна из вещей, которая затрудняет диагностику проблем с индексацией: не всегда есть исчерпывающий, конкретный список точных страниц, которые есть или отсутствуют в индексе, и на вашем сайте часто много проиндексированных страниц, которые вы проиндексировали. не вижу в результатах поиска.

Бесплатная загрузка бонусов:

получите наше бесплатное руководство по SEO, чтобы узнать, как вы можете поднять свой рейтинг даже в конкурентной нише! Нажмите здесь, чтобы скачать бесплатно прямо сейчас! Мы помогли компаниям из списка Fortune 500, венчурным стартапам и таким компаниям, как ваша, быстрее увеличить доходы . Получите бесплатную консультацию

Я подробнее расскажу о том, как справиться с этим пробелом в знаниях через минуту, но помимо оценки оператора сайта, вы также можете получить номера индексации из Google Search Console:

Я подробнее расскажу о том, как справиться с этим пробелом в знаниях через минуту, но помимо оценки оператора сайта, вы также можете получить номера индексации из Google Search Console:

Очевидно, что у нас нет доступа к учетной записи Google Search Console в Pottermore (выше приведен пример с другого сайта), но если бы мы это сделали, мы могли бы сравнить необработанные числа индексации с оценкой (для небольших сайтов часто вы обнаружите, что они совпадать довольно близко).

Как только вы быстро проверили, сколько страниц вашего сайта находится в индексе, вы захотите понять, на высоком уровне, сколько на самом деле привлекает органический трафик для вашего сайта. Для этого вы можете начать с Google Analytics:

Мне всегда нравится создавать пользовательский отчет для просмотра данных целевой страницы, но вы также можете быстро перейти к отчету о содержании и посмотреть на сегмент органического трафика, как показано выше, и прокрутить до нижней части экрана, чтобы увидеть количество страниц. на самом деле вождение трафика:

Точно так же вы можете увидеть количество страниц, генерирующих показы поиска в консоли поиска Google, просмотрев Search Analytics и детализировав до кликов (или показов) и страниц:

А затем, глядя на общее количество страниц в списке:

Если у вас есть тысячи страниц, отображаемых в индексе в консоли поиска Google и в оценках оператора поиска по сайту, но только несколько сотен страниц занимают весь трафик вашего сайта (и / или только несколько страниц занимают большую часть трафика вашего сайта), вы скорее всего есть проблема.

Учить больше: 10 поисковых хаков для поиска SEO

Шаг 2: Диагностика, какие страницы вызывают проблемы с индексацией

Итак, вы просмотрели приблизительное количество проиндексированных страниц для вашего сайта и страниц, фактически привлекающих трафик на ваш сайт, и выявили потенциальную проблему: как вы фактически определяете, какие страницы на вашем сайте представляют собой «проблему индексации»? »

Другими словами: откуда вы знаете, какие страницы вы должны «очистить» и выйти из индекса?

Есть несколько отличных инструментов, которые могут помочь с этим процессом.

Глубокий обход

Я часто использую Deep Crawl, особенно для больших сайтов. Это может быть немного дорогой для некоторых, но если вы вкладываете средства в SEO и у вас есть проблемы с индексацией, подписку довольно легко оправдать (если ценник отключен, не волнуйтесь, я также опишу некоторые менее дорогие варианты ).

По сути, вы можете начать сканирование и связать учетные записи консоли поиска Google для своего сайта. После того, как вы запустите сканирование, которое может занять некоторое время, вы сможете получить доступ ко всем видам отличных данных, но для наших целей мы хотим начать с перехода к пунктам «Проблемы»> «Дублированный контент» :

После того, как вы запустите сканирование, которое может занять некоторое время, вы сможете получить доступ ко всем видам отличных данных, но для наших целей мы хотим начать с перехода к пунктам «Проблемы»> «Дублированный контент» :

Как видите, вы можете быстро понять, какие страницы на вашем сайте индексируются и дублируются.

Затем следует трудная часть: анализ этих URL-адресов, чтобы выяснить, почему ваш контент дублируется (а затем фактически устранить проблемы!). Мы разберемся с этим подробнее на третьем этапе.

Сейчас мы хотим взглянуть на еще один отчет Deep Crawl, который называется «Индексируемые страницы без результатов поиска»:

Сейчас мы хотим взглянуть на еще один отчет Deep Crawl, который называется «Индексируемые страницы без результатов поиска»:

Если мы перейдем к разделу Трафик> Целевые страницы> Индексируемые страницы без показов поиска, мы получим приведенный выше отчет.

В случае с этим конкретным сайтом большинство дублированных страниц фактически не получают никаких поисковых показов, но для многих сайтов «индексируемые страницы без поисковых показов» могут включать в себя множество страниц, которые не отображаются как «дубликаты». », Но на самом деле это уникальные страницы, только более низкого качества. (Опять же: подробнее о том, как просеять их и определить, что удалить из индекса позже.)

Кричащая лягушка

Кричащая лягушка это еще один великий (и дешевле ) возможность определения дублированного контента и областей вашего сайта, где страницы индексируются, но не отображаются в результатах поиска. Запустив сканирование своего сайта, вы можете быстро получить список страниц с дублированными заголовками или мета-описаниями:

Еще раз, после того как вы связали свою учетную запись Google Search Console, вы можете сгенерировать отчет со всеми URL-адресами, которые были просканированы, индексируются и не отображаются в Google Search Console:

Google Search Console

Третьим и даже более дешевым (т.е. бесплатным!) Вариантом для получения полезного дублированного контента и информации об индексации является Google Search Console. С помощью этого инструмента вы можете быстро перейти к получению дублированного тега заголовка и мета-информации, как если бы вы использовали Screaming Frog или Deep Crawl:

Одним из преимуществ данных поисковой консоли является то, что вы на самом деле получаете отчет «прямо из уст в уста» и можете получить представление о том, что на самом деле видит Google.

Помимо этих дублированных данных, у Google также есть новый отчет «Статус индекса» (в настоящее время находится в стадии бета-тестирования и развернут для большего количества учетных записей), который предлагает намного больше данных, по которым конкретные страницы вашего сайта индексируются:

Помимо этих дублированных данных, у Google также есть новый отчет «Статус индекса» (в настоящее время находится в стадии бета-тестирования и развернут для большего количества учетных записей), который предлагает намного больше данных, по которым конкретные страницы вашего сайта индексируются:

Отчет даже позволяет вам детализировать, чтобы увидеть конкретные проблемы со страницами и «проиндексированными страницами с низким интересом», где Google проиндексировал страницу, но не сканирует ее часто:

Отчет даже позволяет вам детализировать, чтобы увидеть конкретные проблемы со страницами и «проиндексированными страницами с низким интересом», где Google проиндексировал страницу, но не сканирует ее часто:

Эти проиндексированные страницы с низким интересом могут быть страницами, которые вы хотите проиндексировать (так что вы не индексируете или не удаляете их автоматически), но они также могут быть страницами более низкого качества, с которыми вы можете работать, удаляя из индекса.

Бесплатная загрузка бонусов:

получите наше бесплатное руководство по SEO, чтобы узнать, как вы можете поднять свой рейтинг даже в конкурентной нише! Нажмите здесь, чтобы скачать бесплатно прямо сейчас! Мы помогли компаниям из списка Fortune 500, венчурным стартапам и таким компаниям, как ваша, быстрее увеличить доходы . Получите бесплатную консультацию

Гугл Аналитика

Теперь, когда вы работали с Deep Crawl, Screaming Frog и / или Google Search Console, вы, вероятно, знаете о множестве дублированных страниц и проиндексированных страниц, которые не нужно индексировать.

Следующим шагом будет работа по фактическому удалению этих страниц из индекса, но сначала мы хотим убедиться, что мы не пропускаем одну оставшуюся когорту страниц, которые мы могли бы удалить из индекса: страницы низкого качества с плохое взаимодействие.

Как вы видели, вышеприведенные отчеты в основном фокусируются на дублированном контенте и страницах, которые индексируются, но не получают показов или трафика. Но как насчет страниц на вашем сайте, которые могут быть «законными» страницами, но не имеют реальной ценности для посетителей?

Если у вас есть пакет трехлетних пресс-релизов или подраздел вашего сайта, которым пренебрегали и который не имеет отношения к делу или бесполезен, все равно может быть некоторое количество трафика от поиска, переходящего на эти страницы, но посетители могут не иметь положительный опыт, когда они туда попали.

Чтобы найти страницы с относительно небольшим числом посещений и плохими сигналами участия, мы можем перейти к просмотру отчета по целевой странице в Google Analytics, сегментированного для органического трафика:

Если вы захватите значительный объем данных с точки зрения диапазона дат (например, за предыдущий год), вы можете экспортировать этот отчет и посмотреть, какие страницы имеют необычно высокий показатель отказов:

В этом отчете было несколько таких типов страниц, что, как мне кажется, часто встречается, даже с относительно простыми сайтами, которые постоянно создавали контент блогов в течение длительного периода времени.

Так что теперь у вас должен быть большой список URL, которые представляют собой некоторую комбинацию:

  • Дублированный контент
  • Страницы, которые проиндексированы, но не производят показы
  • Страницы с очень низким показателем вовлеченности (высокий показатель отказов, малое время на сайте и т. Д.)

Далее следует самая хитрая часть: удаление этих страниц из индекса и устранение проблем с помощью «раздувания индекса».

Связанное содержание: Как настроить цели и последовательности в Google Analytics

Шаг 3. Удаление некачественных страниц и устранение проблем с индексацией

По мере того, как вы переходите к фактическому решению проблем с индексацией, первым шагом является выяснение того, какие типы дублированного и низкокачественного контента присутствуют в индексе. У вас должен быть большой список URL, которые, вероятно, дублируются или имеют низкое значение в результате первых двух шагов, но как вы на самом деле решаете эти проблемы?

Я хотел бы начать с классификации различных типов проблем, от которых страдает сайт. Это может занять много времени, так как вам нужно просмотреть каждый URL-адрес, который вы видите в этих отчетах. Если вы просмотрели много разных сайтов, то это то, к чему вы привыкли и можете довольно быстро определить, но, если вы новичок в вопросах индексации, вот как вы можете начать копаться.

Во-первых, вы хотите убедиться, что рассматриваемая страница на самом деле является дубликатом или тонкой страницей, которую вы собираетесь удалить. Затем вам нужно найти корень проблемы, которую вы видите. Почему эта страница тонкая или дублируется? В большинстве случаев причиной дублирования URL-адреса будет то, что повторяется на разных страницах.

Давайте углубимся в некоторые отчеты Поттермора, чтобы увидеть примеры.

Рассматривая отчет о повторяющихся тегах заголовков Screaming Frog, мы видим несколько страниц с одинаковыми тегами заголовков:

Это фактически один и тот же контент на разных URL и поддоменах. В этом случае, однако, сайт настроен на доставку разных страниц покупок в зависимости от географии. Хотя это может быть лучшим опытом для пользователя, нет теги hreflang применяется к этим страницам, чтобы помочь Google понять их цель.

Здесь мы видим, что индексируются две разные версии одной и той же страницы:

Здесь мы видим, что индексируются две разные версии одной и той же страницы:

Это пример набора страниц, на которых вы, вероятно, не можете просто удалить контент, но вы можете применить исправление (в данном случае правильное использование тегов hreflang), которое поможет улучшить понимание и индексацию вашего сайта Google тысячами страниц.

Кстати, если вы хотите определить, действительно ли проиндексирован большой список дублированных URL-адресов, вы можете запустить URL-адреса через URL Profiler проверить их статус индексации.

Если немного углубиться, мы видим, что причина, по которой эти заголовки дублируются, заключается не только в том, что существует несколько версий страницы, предназначенных для разных стран:

Эти два URL, даже в магазине США, имеют одинаковое содержание. Вместо того, чтобы два пути через сайт (один через продукты, другой через коллекции) приводили к одному и тому же URL, сайт создает дублированные версии продуктов.

Это верно буквально для каждого произведения искусства на сайте Pottermore:

Здесь мы снова видим, что существует основная проблема, влияющая на каждую из этих страниц продукта. Теперь, когда мы определили это, каждый раз, когда мы видим что-то похожее в наших отчетах, мы знаем причину дублирования (мы узнаем, как устранить это через минуту).

Прокручивая наш список URL-адресов, мы можем быстро найти другую пару распространенных виновников дублированного контента:

Прокручивая наш список URL-адресов, мы можем быстро найти другую пару распространенных виновников дублированного контента:

В этом случае Pottermore действительно имеет уникальные теги заголовков для своих постерных постерных результатов, но обычно вы часто обнаруживаете, что сайты неправильно обрабатывают нумерацию страниц. Реализация rel previous и rel next и / или добавление тегов noindex follow к постраничным результатам может помочь очистить тысячи тонких страниц.

Кроме того, мы можем видеть параметры отслеживания Google Analytics выше. Параметры могут быть другой областью, где в индекс могут проникать тысячи дублированных страниц.

Вы будете использовать аналогичный подход с тем, что вы найдете в аналитическом отчете. У меня нет доступа к учетной записи Google Analytics для Pottermore, но мы можем представить, что я мог обнаружить, что некоторые страницы, подобные этой ...

https://www.pottermore.com/image/graveyard-at-night

… Отображаются как тонкий контент в отчете Deep Crawl, а также имеют низкий трафик и / или чрезвычайно высокий показатель отказов. Если это так, я снова хочу это отметить и добавить в качестве потенциального «типа контента», к которому я, возможно, захочу как-то обратиться.

Далее мне нужно начать применять решения к моему списку проблем.

Бесплатная загрузка бонусов:

получите наше бесплатное руководство по SEO, чтобы узнать, как вы можете поднять свой рейтинг даже в конкурентной нише! Нажмите здесь, чтобы скачать бесплатно прямо сейчас! Мы помогли компаниям из списка Fortune 500, венчурным стартапам и таким компаниям, как ваша, быстрее увеличить доходы . Получите бесплатную консультацию

Инструменты торговли: ваши возможности для устранения проблем с индексацией

Теперь, когда у меня есть список URL-адресов, которые могут вызывать у меня проблемы, и я понимаю суть этих проблем, я могу начать шаг за шагом и извлекать содержание проблемы из индекса. Чтобы сделать это, я должен понять инструменты, которые доступны для меня.

Robots.txt

txt

Общим и известным инструментом для решения проблем индексации является сайт файл robots.txt , Однако я считаю, что этот инструмент часто неправильно понимают.

Важное замечание о запрете страницы или раздела вашего сайта с помощью роботов: вы запрещаете Google сканировать этот раздел вашего сайта. Если ваши страницы уже есть в индексе, добавление робота не запрещает Google сохранять эти страницы в индексе.

Преимущество этого подхода в том, что вы сохраняете бюджет обхода не давая Google вернуться на эти страницы. И если у вас есть новый пакет страниц или раздел вашего сайта, который еще не проиндексирован, вы можете предотвратить индексацию этих страниц.

Недостатком является то, что Google не может переходить по ссылкам на этих заблокированных страницах (если они ссылаются на другие страницы, которые вы хотите обнаружить), и, опять же, если они уже есть в индексе, запрещенные страницы не обязательно будут удалены.

Meta Noindex Tag

Meta Noindex Tag

И наоборот, добавив мета-индекс вы можете фактически удалить свои страницы из индекса Google после того, как эти страницы будут сканированы.

Плюсы и минусы, по сути, являются оборотной стороной использования файла роботов: у вас удалены страницы в индексе, и вы можете отслеживать ссылки в неиндексированном контенте для обнаружения (при условии, что вы также добавили метатег); но вы не мешаете Google сканировать ваши неиндексированные страницы, и Google может «не вернуться», чтобы удалить вашу страницу, если это более глубокая, менее важная страница или раздел сайта.

Чтобы помочь в удалении этих страниц из индекса, вы можете использовать инструмент удаления URL, подробно описанный ниже, или вы можете отправить в индекс, используя Выбор Google Search Console как инструмента Google ,

Канонический тег

Канонический тег

Как правило, всегда лучше попытаться устранить корень проблемы с дублированным содержимым, поэтому перенаправление страниц, предотвращение создания дублированного содержимого в CMS и т. Д. Предпочтительнее, чем просто применить канонический тег и двигаться дальше.

Тем не менее, правильно добавив канонический тег может помочь указать Google, какая версия вашей страницы на самом деле является основным или «каноническим» результатом, который Google должен возвращать в результатах поиска.

Просто убедитесь, что вы не испортить реализацию !

Учить больше: Руководство для начинающих по правильному использованию тегов Rel для улучшения рейтинга вашего сайта

Инструмент удаления URL

Инструмент удаления URL

Объединять роботов, работающих с тегом noindex, бессмысленно, но что, если вы действительно не можете заставить разработчика получить доступ для добавления мета-тегов noindex в раздел вашего сайта?

Один из вариантов - добавить роботов, добавивших ваш URL в консоль поиска Google для удаления. Там даже классное бесплатное расширение Chrome, которое поможет с удалением больших объемов ,

Обработка параметров в консоли поиска Google

Кроме того, если вы отслеживаете параметры или граненая навигация и вы хотите иметь дело с некоторыми параметрами, которые не должны индексироваться, вы можете обратиться к ним из раздела Параметры URL-адреса консоли поиска Google:

Просто будьте осторожны, чтобы правильно классифицировать ваши параметры в инструменте:

XML Sitemaps

Кроме того, убедившись, что ваш Карта сайта XML актуальна и отсутствие сообщений об ошибках может помочь Google сканировать и понять ваш сайт, а с учетом упомянутых выше новых отчетов об индексации в консоли поиска XML-карта сайта станет еще более полезной.

Удаление или перенаправление страниц

Допустим, у нас есть ~ 100 старых, менее качественных блогов на 150 слов, которые мы написали, когда начинали блог нашей компании. Они вполне могут быть проиндексированы, но не получают никакого трафика, никогда не передавались и никогда не были связаны с внешними сайтами. Мы можем захотеть их не индексировать, но мы также можем просто удалить их и отправить URL-адреса для удаления.

Точно так же, если у нас есть страница очень низкого качества, которую пользователи часто не посещают (или даже дублируют), но в которой есть несколько случайных ссылок из внешних источников, рекомендуется 301 перенаправить эту страницу на самую релевантную страницу (или ее дублировать).

Утолщение и продвижение страницы

После того, как вы проработаете чистые дубликаты, параметры отслеживания и страницы с более низким значением, которые вы хотите удалить, у вас могут появиться области, где у вас есть страницы, которые действительно полезны для пользователей и которые вы хотели бы сохранить в индексе (и возможно, повысить производительность с точки зрения показателей трафика и вовлеченности, таких как время на сайте и показатель отказов).

В этих случаях вы можете работать на утолщение ваших существующих страниц , продвигая их, и решение проблемы плохих показателей отказов вместо того, чтобы просто удалить их из индекса.

Бесплатная загрузка бонусов:

получите наше бесплатное руководство по SEO, чтобы узнать, как вы можете поднять свой рейтинг даже в конкурентной нише! Нажмите здесь, чтобы скачать бесплатно прямо сейчас! Мы помогли компаниям из списка Fortune 500, венчурным стартапам и таким компаниям, как ваша, быстрее увеличить доходы . Получите бесплатную консультацию

Завершение

Если вы обнаружили, что многие ваши веб-страницы были проиндексированы в результате некачественного дублированного контента в дополнение к плохим показателям ссылок и вовлеченности, я надеюсь, что эта статья помогла вам определить, действительно ли вы проблема с дублированным или тонким содержимым и индексацией, и если да, то как определить, какие страницы вызывают проблему, а затем как ее устранить.