Краулинговый бюджет - что такое, как оптимизировать и увеличить?
Приветствую всех читателей своего блога. Сегодня поговорим о том, с чем многие сталкиваются, но мало кто слышал о таком -
краулинговый бюджет сайта.
Вкратце поясню... Исходя из общения с разными клиентами, я понял, что о краулинговом бюджете практически никто не слышал, процентов 80, а то и 90. Но каждый сталкивался с тем, что краулинговый бюджет сайта слишком мал, либо тратится понапрасну, из-за чего и появляются разного рода проблемы.
Для того чтобы полноценно разобраться во всех нюансах, нужно четко понимать
что такое краулинговый бюджет.
Что такое краулинговый бюджет?
Краулинговый бюджет (Crawl Budget) - это некий объем ресурсов который выделяется поисковыми системами на сканирование Вашего сайта. При этом, сканируется не только файлы html, а весь сайт полностью.
В Google Вебмастере (search.google.com) бюджет рассчитывается за 24 часа. Crawl Budget можно считать +/- стабильной величиной, если сайт без рывков развивается. Если на сайте резко измениться количество страниц, либо изменится Last-Modified и If-Modified-Since - на графике резко отобразится скачок.
Как работает краулинг?
Чтобы полностью разобраться в вопросе краулингового бюджета, необходимо в целом понимать, что такое краулинг и как он работает. Если постараться визуализировать, то Мы можем представить следующую картину.
Робот поисковой системы, Google, Яндекс, Рамблер и любой другой в целом, получает список URL сайта при сканировании:
- Обход файла sitemap.xml.
- Обход страниц за счет внутренней перелинковки.
- Внешние ссылки, как с сайтов, так и с социальных сетей.
- И т.д.
После чего, он закидывает все собранное в общий котел и начинает индексацию.
Для того, чтобы понять можно индексировать страницу или нет, робот смотрит на правила и рекомендации от вебмастера:
- robots.txt.
- заголовки http.
- meta robots.
Важно понимать, что указания в файле robots.txt - это всего рекомендация, а не четкое правило. А вот 2 и 3 пункт списка - это правило. Именно из-за этого бывают ситуации, когда закрыв страницу от индексации в файле robots.txt, в Вебмастере Google можно наблюдать сообщение «проиндексировано несмотря на запрет».
Где посмотреть свой краулинговый бюджет?
Чтобы узнать краулинговый бюджет своего сайта, необходимо перейти в
Google Search Console. В левом вертикальном меню, практически в самом низу, есть пункт "
Настройки", перейдя в них, в блоке "
Сканирование", нажмите на "
Открыть отчет".
На этой странице вебмастер сможет изучить объем своего краулингового бюджета и на что он тратится.
Как определить проблему с краулинговым бюджетом?
С этим вопросом сталкиваются владельцы сайтов у которых десятки и сотни тысяч страниц, но в индексе максимум половина, они не понимают в чем проблема.
Из-за чего я надумал написать данный материал, отчасти от того, что общаясь с людьми, многие не понимают что такое краулинговый бюджет и зачем он нужен, а те кто понимает, не знают как понять, что проблема в нем. Так же и сеошники начального уровня, не могут определить проблему и правильно настроить - дать правки для настройки.
Самое простое что можно сделать, что бы определить есть ли проблемы, это сравнить примерное число страниц на сайте и страниц в индексе поисковой системы. Дополнительно, если понаблюдать за недавно созданной страницей, можно увидеть, что она, к примеру, недель, а то и больше месяца не попадает в индекс.
Это говорит о том, что краулинговый бюджет расходуется не правильно. Но это догадки, а что бы узнать более точно, необходимо проанализировать лог-файлов (в них вся информация о работе хостинга и обращений к нему от пользователей и роботов).
Куда и как расходуется краулинговый бюджет?
Так как работать ручками всегда муторно, для этого лучше использовать программы, которых в интернете много. Софт позволит все максимально быстро сортировать и привести в более приемлемый вид для удобного изучения и анализа. Самые популярные программы для анализа:
- Power BI;
- Loggly;
- Screaming Frog Log Analyzer;
- GoAccess;
- JetOctopus;
- LogViewer.
В программах можно четко вывести какие боты зашли, сколько отсканировали и т.д.
Как краулинговый бюджет влияет на продвижения сайта?
Ответ очевиден - замедляет продвижение сайта за счет редкого захода робота на страницу и ее индексацию/переиндексацию. То есть, когда Вы создали новую страницу и ждете что она начнет приносить трафик, она месяц не попадает в индекс вообще. Либо, когда Вы отредактировали контент на уже созданной странице, робот долго не заходит на страницу что бы ее переиндексировать.
В таких случаях, быстро и оперативно внести правки и занять лучшие позиции не выйдет.
Как увеличить краулинговый бюджет?
В моей практике чаще всего встречается несколько видов проблем которые влияют на краулинговый бюджет, они и расскажу поподробнее, а ниже, перечислю все варианты для увеличения Crawl Budget.
№1 - Last-Modified и If-Modified-Since
Работая с большими сайтами, в большинстве случаев я не находил на них правильно настроенного Last-Modified и If-Modified-Since. Эти параметры позволяют оптимизировать работу роботов и направлять их только на те страницы, на которые они не заходили или страница обновилась и нужно зайти.
№2 - Динамические страницы
Динамический контент всегда будет ценнее для поисковых систем, чем статический. Соответственно, страницы с таким контентом роботы будут чаще обходить для анализа. От части, именно из-за этого роботы и сидят 24/7 в социальных сетях - там постоянно люди добавляют новый контент.
№3 - Дубли URL
Это пункт прям актуальный для 99% сайтов, которые ко мне обращались за продвижением. 2 и более формирования URL создают дубль контента. Хоть поисковики со временем и определят какой тег канонический, плюс Вы подскажите, но в любом случае, робот будет обходить все вариации для того чтобы понять, а ничего ли не изменилось.
Советы по увеличению краулингового бюджета сайта
- Увеличить скорость сайта
- Настроить HTTP-кеширование
- Настроить 410 ответ сервера для удалённых страниц
- Сделать больше динамических страниц
- Настроить Last-Modified и If-Modified-Since
- Настроить sitemap.xml
- Уменьшить число редиректов
- Удалить идентификатор сессии из URL
- Избавиться от бесконечной пагинации
- Избавиться от дублей URL
- Уменьшить глубину сайта, если страницы есть глубже 5 уровня
- Улучшить внутреннюю перелинковку
- Нарастить ссылочный профиль
- Используйте API индексирования Google
Что не поможет увеличить краулинговый бюджет?
Однозначно можно сказать, что если закрыть технические страницы в robots.txt - это не уменьшит расход бюджета, так как файл - рекомендация, а не четкое правило которому необходимо следовать. Некоторые удаляют сторонние скрипты, чтобы ускорить скорость загрузки сайта и увеличить краулинговый бюджет, но и это не поможет. Сторонние ресурсы расположенные на сайте не учитываются в общем расходе бюджета на сайт.
И последнее, закрыть ссылки технические страницы nofollow. Ранее это помогало, но сейчас, увы. Данный тег не позволит утекать ссылочной массе, но на краулинговый бюджет это никак не повлияет, так как робот все равно перейдет на страницу.
Краулинговый бюджет - Итог
Я надеюсь, что всем стало понятно, что такое краулинговый бюджет и зачем он нужен, особенно тем, у кого сайты обладают большим количеством страниц, более 10 000. Сайты с маленьким числом страниц менее подвержены негативному влиянию низкого бюджета.
Если у кого-то остались вопросы или предложения, пишите их в комментариях или мне в социальных сетях. Всегда рад обратной связи.