Googlebot является краул-сервисом, который используется компанией Googleдля сбора нужных данных и налаживания доступного индекса Всемирной паутины для поисковой системы. Googlebot имеет собственный краулер как для мобильной, так и для десктопной версии, а также узконаправленные сервисы для новостей, фото- и видеоматериалов. В сегодняшнем материале мы подробно расскажем о работе Googlebot и о том, как ним управлять.
Сканирование и индексация роботом Googlebot сети
Последняя схема работы поискового индекса Google, представлена компанией, выглядит следующим образом.
Бот работает с сайтами повторно, пытаясь найти какие-либо изменения на странице ресурса или же найти его новые УРЛы. Содержимое страниц, прошедших рендер хранится и является доступным для поиска в Гугл. Прочие новые ссылки отправляются в список ссылок для сканирования.
Управление Googlebot
Гугл дает варианты способов контроля сканирования и индексирования.
К методам контроля сканирования относят:
- Файл robots.txt, который позволяет наблюдать за тем, что сканируется.
- Атрибут Nofollow, указывающий на ссылку, которую не нужно сканировать. Однако робот может проигнорировать его, поскольку это только подсказка.
- Google Search Console, а конкретно его инструмент Изменения скорости сканирования, который дает возможность сделать сканирования поисковой системой медленнее.
Методы контроля индексирования:
- Удаление контента. Если совершить удаление страницы, то попросту не будет что индексировать.
- Ограничение доступа к странице. Google не имеет войти на сайт, в связи с этим любое наличие защиты или авторизации не разрешит системе увидеть содержимое.
- Атрибут Noindex. Он показывает поисковым роботам, что данная страница не должна индексироваться.
- Файл robots.txt (для картинок) – блокировка Googlebot Image приведет к тому, что Ваши фотоматериалы не будут подлежать индексированию.
Точно ли это Googlebot
Большое количество SEO-инструментов и вредоносных ботов изображают из себя Googlebot. Это помогает им иметь доступ к ресурсам, пытающимся провести их блокировку.
Раньше необходимо было пройти проверку DNS для подтверждения того, что Вы действительно имеете дело с Googlebot. Но в недалеком прошлом компания Гугл значительно упростила требования и разместила перечень IP-адресов для подтверждения. Теперь нужно сравнивать их с информацией на сервере.
Также можно воспользоваться Google Search Console, зайдя в статистику сканирования. На данной странице будет содержаться большое количество данных о сканировании Гуглом Вашего ресурса. Подробно можно посмотреть о том, какой робот проводил сканирование конкретных файлов.
Выводы
Всемирная паутина является огромным и очень хаотичным местом. В связи с этим Googlebot вынужден справляться с различными настройками, отсутствием доступа к страницам и другим ограничениям, чтобы собрать данные, которые нужны для корректной работы поисковой.