Googlebot є краул-сервісом, який використовується компанією Google для збирання потрібних даних та налагодження доступного індексу Всесвітньої павутини для пошукової системи. Googlebot має власний краулер як для мобільної, так і для десктопної версії, а також вузькоспрямовані послуги для новин, фото- та відеоматеріалів. У сьогоднішньому матеріалі ми докладно розповімо про роботу Googlebot та про те, як ним керувати.
Сканування та індексація роботом Googlebot мережі
Остання схема роботи пошукового індексу Google, представлена компанією, має такий вигляд.
Бот працює з сайтами повторно, намагаючись знайти будь-які зміни на сторінці ресурсу або знайти його нові УРЛи. Вміст сторінок, що пройшли рендер, зберігається і є доступним для пошуку в Google. Інші нові посилання надсилаються до списку посилань для сканування.
Керування Googlebot
Google дає варіанти способів контролю сканування та індексування.
До методів контролю сканування відносять:
- Файл robots.txt, який дозволяє спостерігати за скануванням.
- Атрибут Nofollow вказує на посилання, яке не потрібно сканувати. Однак робот може проігнорувати його, оскільки це лише підказка.
- Google Search Console, а саме його інструмент Зміни швидкості сканування, який дає можливість зробити сканування пошуковою системою повільніше.
Методи контролю індексування:
- Видалення контенту. Якщо зробити видалення сторінки, то просто не буде що індексувати.
- Обмеження доступу до сторінки. Google не має увійти на сайт, тому будь-яка наявність захисту або авторизації не дозволить системі побачити вміст.
- Атрибут Noindex. Він показує пошуковим роботам, що ця сторінка не повинна індексуватись.
- Файл robots.txt (для зображень) – блокування Googlebot Image призведе до того, що Ваші фотоматеріали не підлягатимуть індексуванню.
Чи точно це Googlebot
Велика кількість SEO-інструментів та шкідливих роботів зображають із себе Googlebot. Це допомагає їм мати доступ до ресурсів, які намагаються провести їхнє блокування.
Раніше необхідно було пройти перевірку DNS для підтвердження того, що Ви справді маєте справу з Googlebot. Але в недалекому минулому компанія Google значно спростила вимоги та розмістила перелік IP-адрес для підтвердження. Тепер потрібно порівнювати їх із інформацією на сервері.
Також можна скористатися Google Search Console, зайшовши до статистики сканування. Ця сторінка містить велику кількість даних про сканування Гуглом Вашого ресурсу. Докладно можна побачити, який робот проводив сканування конкретних файлів.
Висновки
Всесвітнє павутиння є величезним та дуже хаотичним місцем. У зв’язку з цим Googlebot змушений справлятися з різними налаштуваннями, відсутністю доступу до сторінок та інших обмежень, щоб зібрати дані, потрібні для коректної пошукової роботи.