Cursa
Помощь для маркетинга и безнеса

Сканирующий бюджет

15

Photo of the whiteboard describing crawl budget.

Нажмите на изображение доски выше, чтобы открыть увеличенную версию в новой вкладке!

Транскрипция видео

С пятницей, фанаты Moz, и сегодняшняя тема — обход бюджета. Я думаю, стоит сразу сказать, что это несколько более сложная тема или та, которая применима в первую очередь к более крупным веб-сайтам. Я думаю, что даже если это не вы, вы все равно можете многому научиться из этого с точки зрения теории SEO, которая возникает, когда вы смотрите на некоторые из тактик, которые вы можете использовать, или на некоторые методы диагностики, которые вы можете использовать для сканирования. бюджет.

Но в собственной документации Google предлагается заботиться о бюджете сканирования, если у вас более миллиона страниц или более 10 000 страниц, которые обновляются ежедневно. Я думаю, что это явно жесткие или произвольные пороги. Я бы сказал, что если у вас есть проблемы с индексированием вашего сайта и у вас есть страницы в глубине вашего сайта, которые просто не попадают в индекс, который вы хотите, или если у вас есть проблемы с страницами, которые не индексируются достаточно быстро, то в любом в таких случаях обходной бюджет — это проблема, о которой вам следует позаботиться.

Что такое краулинговый бюджет?

Рисунок паука, держащего долларовую купюру.
Так что же такое краулинговый бюджет? Бюджет сканирования — это количество времени, которое Google готов потратить на сканирование определенного сайта. Хотя кажется, что Google в некотором роде всемогущ, у них ограниченные ресурсы, а Интернет огромен. Поэтому им нужно как-то расставить приоритеты и выделить определенное количество времени или ресурсов для сканирования определенного веб-сайта.

Drawing of a spider holding a dollar bill.

Теперь они расставляют приоритеты на основе — или так они говорят, что они расставляют приоритеты на основе популярности сайтов у их пользователей и на основе свежести контента, потому что робот Google как бы жаждет новых, никогда ранее не просматриваемых URL-адресов.

На самом деле мы не будем говорить в этом видео о том, как увеличить краулинговый бюджет. Мы собираемся сосредоточиться на том, как наилучшим образом использовать имеющийся у вас краулинговый бюджет, который, как правило, легче использовать в любом случае.

Причины проблем с бюджетом сканирования

Так как же на самом деле возникают проблемы с бюджетом сканирования?

Грани
Теперь я думаю, что основные проблемы на сайтах, которые могут привести к проблемам с обходным бюджетом, — это прежде всего аспекты.

Итак, вы можете представить себе сайт электронной коммуникации, представьте, что у нас есть страница о ноутбуках. Возможно, мы сможем отфильтровать это по размеру. У вас 15-дюймовый экран и 16 гигабайт оперативной памяти. Там может быть много разных перестановок, которые могут привести к очень большому количеству URL-адресов, когда на самом деле у нас есть только одна страница или одна категория, как мы думаем об этом — страница ноутбуков.

Точно так же их можно переупорядочить, чтобы создать другие URL-адреса, которые делают то же самое, но должны сканироваться отдельно. Точно так же они могут быть по-разному отсортированы. Может быть разбивка на страницы и так далее, и так далее. Таким образом, у вас может быть одна страница категории, генерирующая огромное количество URL-адресов.

Страницы результатов поиска

Некоторые другие вещи, которые часто возникают, часто возникают на страницах результатов поиска из внутреннего поиска по сайту, особенно если они разбиты на страницы, для них может быть сгенерировано много разных URL-адресов.

Chart of crawl budget issue solutions and whether they allow crawling, indexing, and PageRank.

Страницы со списками

Страницы списков. Если вы разрешите пользователям загружать свои собственные списки или контент, то со временем это может превратиться в огромное количество URL-адресов, если вы думаете о доске объявлений или чем-то вроде eBay, и на нем, вероятно, есть огромное количество страниц.

Устранение проблем с бюджетом сканирования
Диаграмма решений проблем с бюджетом сканирования и позволяет ли они сканировать, индексировать и рейтинг страницы.
Итак, какие инструменты вы можете использовать для решения этих проблем и максимально использовать свой краулинговый бюджет?

Итак, в качестве основы, если мы подумаем о том, как обычный URL ведет себя с роботом Google, мы скажем: да, его можно сканировать, да, его можно проиндексировать, и да, он передает PageRank. Таким образом, если я свяжусь с такими URL-адресами где-нибудь на моем сайте, а затем Google перейдет по этой ссылке и проиндексирует эти страницы, они, вероятно, все еще будут иметь верхнюю навигацию и навигацию по всему сайту. Таким образом, ссылка, фактически переданная на эти страницы, будет как бы переработана. Будут некоторые потери из-за разбавления, когда мы будем ссылаться на так много разных страниц и так много разных фильтров. Но в конечном итоге мы перерабатываем это. Нет никакой потери утечки PageRank из-за черной дыры.

Robots.txt

С другой стороны, самое экстремальное решение для сканирования бюджета, которое вы можете использовать, — это файл robots.txt.

Поэтому, если вы заблокируете страницу в robots.txt, ее нельзя будет просканировать. Так здорово, проблема решена. Ну нет, потому что здесь есть компромиссы. Технически сайты и страницы, заблокированные в robots.txt, можно проиндексировать. Иногда вы видите, что появляются сайты или страницы с таким метаописанием в поисковой выдаче не могут быть показаны, потому что страница заблокирована в robots.txt или в таком сообщении.

Так что технически их можно проиндексировать, но функционально они не собираются ранжироваться по чему-либо или, по крайней мере, по чему-то эффективному. Так что да, формально. Они не проходят PageRank. Мы все еще передаем PageRank, когда делаем ссылку на такую ​​страницу. Но если он затем заблокирован в грабеже

ots.txt, рейтинг PageRank не увеличивается.

Итак, мы как бы создали утечку и черную дыру. Так что это довольно тяжелое решение, хотя его легко реализовать.

Nofollow на уровне ссылок

Nofollow на уровне ссылок, поэтому я имею в виду, что если бы мы взяли наши ссылки на главной странице категории ноутбуков, которые указывали на эти аспекты, и поместили бы атрибут nofollow внутри этих ссылок, это имело бы некоторые преимущества и недостатки.

Я думаю, что лучший вариант использования для этого на самом деле будет больше в случае листинга. Итак, представьте, что мы запускаем веб-сайт подержанных автомобилей, где у нас есть миллионы различных списков товаров с подержанными автомобилями. Теперь мы действительно не хотим, чтобы Google тратил время на эти отдельные списки, возможно, в зависимости от масштаба нашего сайта.

Но иногда знаменитость может загрузить свою машину или что-то в этом роде, или может быть загружена очень редкая машина, и на нее начнут появляться ссылки в СМИ. Таким образом, мы не хотим блокировать эту страницу в robots.txt, потому что это внешние ссылки, которые мы в этом случае потеряем. Итак, что мы можем сделать, так это на наших внутренних ссылках на эту страницу мы можем внутренне nofollow по ссылке. Таким образом, это будет означать, что его можно сканировать, но только если он найден, только если Google найдет его каким-либо другим способом, например, через внешнюю ссылку или что-то в этом роде.

Так что у нас здесь вроде как дом на полпути. Технически в наши дни nofollow — это намек. По моему опыту, Google не будет сканировать страницы, на которые есть ссылки только через внутренний nofollow. Если он найдет страницу каким-либо другим способом, очевидно, он все равно будет ее сканировать. Но, вообще говоря, это может быть эффективным способом ограничения бюджета сканирования или, я бы сказал, более эффективно при использовании бюджета сканирования. Страницу все еще можно проиндексировать.

Это то, чего мы пытались достичь в этом примере. Он все еще может передавать PageRank. Это еще одна вещь, которую мы пытались достичь. Хотя вы по-прежнему теряете некоторый PageRank из-за этой ссылки nofollow. Это по-прежнему считается ссылкой, и поэтому вы теряете некоторый PageRank, который в противном случае был бы передан по этой ссылке.

Noindex, nofollow

Noindex и nofollow, так что это, очевидно, очень распространенное решение для подобных страниц на сайтах ecomm.

Теперь в этом случае страницу можно сканировать. Но как только Google доберется до этой страницы, он обнаружит, что это noindex, и со временем будет сканировать ее гораздо реже, потому что в сканировании страницы noindex становится меньше смысла. Итак, опять же, у нас здесь что-то вроде дома на полпути.

Очевидно, его нельзя проиндексировать. Это ноиндекс. Он не передает рейтинг PageRank вовне. PageRank по-прежнему передается на эту страницу, но поскольку у него есть nofollow в разделе заголовка, он не передает PageRank наружу. Это не лучшее решение. У нас есть некоторые компромиссы, которых нам пришлось достичь здесь, чтобы сэкономить на краулинговом бюджете.

Noindex, подписывайтесь

Так что многие люди думали, что решение этой проблемы — использовать noindex follow как что-то лучшее из того и другого. Итак, вы помещаете тег подписки noindex в заголовок одной из этих страниц, и о да, все в выигрыше, потому что мы по-прежнему получаем такие же преимущества сканирования. Мы все еще не индексируем такие новые повторяющиеся страницы, которые мы не хотим индексировать, но решение PageRank исправлено.

Что ж, несколько лет назад Google вышел и сказал: «О, мы сами этого не осознавали, но на самом деле, поскольку мы все реже и реже сканируем эту страницу, мы перестанем видеть ссылку, и тогда она вроде как выиграла». т считать. » Таким образом, они как бы подразумевали, что это больше не работает как способ по-прежнему передавать PageRank, и в конечном итоге его будут рассматривать как noindex и nofollow. Итак, опять же, здесь у нас есть своего рода слегка компромиссное решение.

Канонический
Теперь лучшее из миров могло бы стать каноническим. С каноническим тегом он все равно будет сканироваться немного меньше со временем, каноническая версия — отлично. Он по-прежнему не будет индексироваться, каноническая версия, отлично, и она по-прежнему проходит PageRank.

Так что это здорово. Во многих случаях это кажется идеальным. Но это работает только в том случае, если страницы имеют достаточно близких дубликатов, чтобы Google мог считать их дубликатами и уважать каноничность. Если они не хотят считать их дубликатом, возможно, вам придется вернуться к использованию noindex. Или, если вы думаете, что на самом деле нет никаких причин для существования этого URL-адреса, я не знаю, как возникла эта неправильная комбинация порядка, но это кажется довольно бессмысленным.

301

Я больше не буду на него ссылаться. Но в случае, если некоторые люди все же каким-то образом найдут URL-адрес, мы могли бы использовать 301 как своего рода экономию, которая в конечном итоге будет неплохо работать для … Я бы сказал, даже лучше, чем canonical и noindex для экономии краулингового бюджета, потому что Google не Мне даже не нужно смотреть на страницу в тех редких случаях, когда она действительно ее проверяет, потому что она просто следует за 301.

Это решит нашу проблему с индексированием, и он будет передавать PageRank. Но очевидно, что компромисс здесь заключается в том, что пользователи также не могут получить доступ к этому URL-адресу, поэтому мы должны с этим мириться.

Реализация тактики обходного бюджета
Так что вроде округления

все это, как бы мы на самом деле использовали эту тактику? Итак, какие действия я бы порекомендовал, если вы хотите иметь проект с обходным бюджетом?

Один из менее интуитивных — скорость. Как я сказал ранее, Google выделяет определенное количество времени или ресурсов для сканирования определенного сайта. Так что, если ваш сайт очень быстрый, если у вас низкое время отклика сервера, если у вас легкий HTML, они просто пройдут большее количество страниц за то же время.

Так что это парадоксально — отличный способ приблизиться к этому. Анализ журналов, это вроде как более традиционный. Часто бывает совершенно непонятно, какие страницы вашего сайта или какие параметры фактически истощают весь ваш краулинговый бюджет. Анализ журналов на крупных сайтах часто дает удивительные результаты, так что вы можете подумать об этом. Затем фактически используя некоторые из этих инструментов.

Таким образом, избыточные URL-адреса, на которые, как мы думаем, пользователям даже не нужно смотреть, мы можем 301. Варианты, на которые пользователи действительно должны смотреть, мы могли бы посмотреть на канонический тег или тег noindex. Но мы также можем захотеть избежать ссылок на них в первую очередь, чтобы мы не потеряли некоторую степень PageRank в этих канонизированных или noindex вариантах из-за разбавления или тупика.

Robots.txt и nofollow, как я как бы подразумевал, когда проходил через это, это тактика, которую вы хотели бы использовать очень экономно, потому что они действительно создают тупики для PageRank. Затем, наконец, своего рода недавний или более интересный совет, который я получил некоторое время назад из сообщения в блоге Олли Х.Г. Мэйсона, на которое я, вероятно, сделаю ссылку ниже, оказывается, что если у вас есть карта сайта на вашем сайте, которую вы используете только для свежих или недавних URL-адресов, ваших недавно измененных URL-адресов, тогда, поскольку робот Google, как я уже сказал, очень жаждет свежего контента, он будет очень часто сканировать эту карту сайта. Таким образом, вы можете использовать эту тактику, чтобы направить бюджет сканирования на новые URL-адреса, от чего выигрывают все.

Робот Googlebot хочет видеть только свежие URL. Возможно, вы хотите, чтобы робот Googlebot видел только свежие URL-адреса. Так что, если у вас есть карта сайта, которая служит только этой цели, то выигрывают все, и это может быть довольно приятным и своего рода простым советом для реализации. Вот и все. Надеюсь, вы нашли это полезным. Если нет, дайте мне знать о своих советах или проблемах в Twitter. Мне любопытно посмотреть, как другие подходят к этой теме.

Транскрипция видео на Speechpad.com.

Источник https://moz.com/blog/crawl-budget

Комментарии закрыты, но обратные ссылки И pingbacks открыты.