Czym jest crawl budget?

Crawl budget (budżet crawlowania) to koncepcja opisująca, ile zasobów Googlebot przeznacza na crawlowanie danej witryny w określonym czasie. W praktyce oznacza to: ile stron bot odwiedzi podczas jednej sesji crawlowania Twojego serwisu. Termin jest od lat używany przez inżynierów Google, ale oficjalne wyjaśnienie pojawiło się w dokumentacji Search Central dopiero w 2017 roku.

Crawl budget jest szczególnie ważny dla dużych serwisów – sklepów internetowych z tysiącami produktów, portali newsowych, serwisów z ogłoszeniami. Na małych stronach (do kilkuset podstron) Google zazwyczaj indeksuje wszystko bez ograniczeń i zarządzanie budżetem ma drugorzędne znaczenie.

Crawl budget = crawl rate limit × crawl demand

Budżet crawlowania wynika z dwóch czynników: jak szybko bot może crawlować bez przeciążenia serwera (crawl rate) i jak bardzo Google jest zainteresowany crawlowaniem Twojej strony (crawl demand).

Dwa składniki crawl budgetu

Crawl rate limit

Określa maksymalną prędkość, z jaką Googlebot crawluje stronę, żeby nie przeciążyć serwera. Google automatycznie dostosowuje tę wartość na podstawie czasu odpowiedzi. Im szybszy serwer, tym więcej stron bot może odwiedzić w tym samym czasie. W Google Search Console możesz ograniczyć częstotliwość crawlowania – ale nie możesz jej zwiększyć powyżej limitu wyznaczonego przez Google.

Crawl demand

Jak bardzo Google chce crawlować Twoją stronę. Wyższy popyt mają strony z dużą popularnością i backlinkami, często aktualizowane witryny oraz strony, które Google jeszcze nie w pełni zaindeksował. Nowe lub rzadko linkowane strony mają niski crawl demand – bot odwiedza je rzadziej lub wcale.

Co marnuje crawl budget?

Każda zbędna strona, którą bot musi odwiedzić, to zmarnowany fragment budżetu – czas, który Googlebot mógł poświęcić na ważniejsze podstrony. Oto najczęstsze pożeracze crawl budgetu:

  • Parametry URL – filtry, sortowania, wyszukiwania wewnętrzne (np. /produkty/?sort=cena&page=2&kolor=czerwony). Jeden produkt może generować setki unikalnych adresów URL z tą samą treścią.
  • Zduplikowane wersje domeny – www i bez www, HTTP i HTTPS, z trailing slash i bez – to do czterech razy więcej adresów URL z identyczną treścią.
  • Głęboka paginacja bez canonical – strony /kategoria/page/50/ bez odpowiednich tagów canonical lub noindex generują dziesiątki stron o niskiej wartości SEO.
  • Strony z noindex w sitemapie XML – sprzeczny sygnał: zapraszasz bota do odwiedzenia strony, którą jednocześnie każesz mu zignorować. Bot traci czas, nic nie zyskując.
  • Odpowiedzi 404 i błędy serwera – każda odpowiedź 404, 500 czy 503 to strata budżetu. Błędne adresy powinny być naprawiane lub przekierowane.
  • Strony bez linków wewnętrznych – strony "osierocone", do których nic nie prowadzi, są crawlowane rzadko lub w ogóle nie zostają zaindeksowane.

Jak optymalizować crawl budget?

Robots.txt

Zablokuj Googlebotowi dostęp do sekcji, które nie powinny być indeksowane: panele admina, wyniki wyszukiwania wewnętrznego, strony logowania, wersje do wydruku. Blokada w robots.txt zatrzymuje bota przed wejściem i oszczędza budżet.

Canonical i noindex

Strony z parametrami URL oznacz tagiem canonical wskazującym na wersję kanoniczną lub dodaj noindex. Bot wie, że nie musi ich osobno indeksować, i skupia budżet na ważnych podstronach.

Sitemap XML

Umieść w sitemapie tylko strony, które chcesz zaindeksować. To lista priorytetów dla bota – nie wrzucaj tam stron z noindex, stron błędów ani parametrycznych duplikatów.

Szybkość serwera

Im szybciej odpowiada serwer, tym więcej stron Googlebot może odwiedzić w ramach crawl rate limit. Wdrożenie cache (np. Varnish, Redis) i CDN bezpośrednio przekłada się na liczbę crawlowanych podstron.

Linkowanie wewnętrzne

Dobrze zaplanowana struktura linków kieruje bota do najważniejszych podstron. Strony z wieloma linkami wewnętrznymi są crawlowane częściej. Strony bez żadnych linków mogą nie zostać zaindeksowane nigdy.

Naprawa błędów 4xx/5xx

Każda odpowiedź 404 czy 500 to strata budżetu. Regularnie sprawdzaj raport pokrycia w Google Search Console i naprawiaj błędne adresy lub przekierowuj je (301) na właściwe podstrony.

Jak sprawdzić crawl budget w Google Search Console?

Google Search Console udostępnia raport Statystyki crawlowania (Ustawienia → Statystyki crawlowania). Znajdziesz tam:

  • Łączną liczbę żądań crawlowania z ostatnich 3 miesięcy
  • Średni czas pobierania strony przez Googlebota
  • Podział na typy zasobów: HTML, JavaScript, CSS, obrazy
  • Odpowiedzi według kodu HTTP – 200, 301, 404, 500

Jeśli widzisz, że bot traci czas na crawlowanie plików CSS, JS lub setek stron z odpowiedzią 404 – masz gotową listę elementów do optymalizacji.

Parametry URL a crawl budget – jak je kontrolować?

Parametry URL to jeden z największych pożeraczy budżetu w sklepach i katalogach. Masz trzy narzędzia do ich opanowania:

<!-- 1. Canonical na stronach z parametrami -->
<!-- Na stronie /produkty/?sort=cena wskazuje na: -->
<link rel="canonical" href="https://twojadomena.pl/produkty/" />

<!-- 2. Noindex na stronach filtrów -->
<meta name="robots" content="noindex, follow">

<!-- 3. Blokada w robots.txt -->
Disallow: /*?sort=
Disallow: /*?page=
Disallow: /*?kolor=
Masz duży serwis i obawiasz się problemów z crawl budgetem? Bezpłatna wycena