Czym jest crawl budget?
Crawl budget (budżet crawlowania) to koncepcja opisująca, ile zasobów Googlebot przeznacza na crawlowanie danej witryny w określonym czasie. W praktyce oznacza to: ile stron bot odwiedzi podczas jednej sesji crawlowania Twojego serwisu. Termin jest od lat używany przez inżynierów Google, ale oficjalne wyjaśnienie pojawiło się w dokumentacji Search Central dopiero w 2017 roku.
Crawl budget jest szczególnie ważny dla dużych serwisów – sklepów internetowych z tysiącami produktów, portali newsowych, serwisów z ogłoszeniami. Na małych stronach (do kilkuset podstron) Google zazwyczaj indeksuje wszystko bez ograniczeń i zarządzanie budżetem ma drugorzędne znaczenie.
Budżet crawlowania wynika z dwóch czynników: jak szybko bot może crawlować bez przeciążenia serwera (crawl rate) i jak bardzo Google jest zainteresowany crawlowaniem Twojej strony (crawl demand).
Dwa składniki crawl budgetu
Crawl rate limit
Określa maksymalną prędkość, z jaką Googlebot crawluje stronę, żeby nie przeciążyć serwera. Google automatycznie dostosowuje tę wartość na podstawie czasu odpowiedzi. Im szybszy serwer, tym więcej stron bot może odwiedzić w tym samym czasie. W Google Search Console możesz ograniczyć częstotliwość crawlowania – ale nie możesz jej zwiększyć powyżej limitu wyznaczonego przez Google.
Crawl demand
Jak bardzo Google chce crawlować Twoją stronę. Wyższy popyt mają strony z dużą popularnością i backlinkami, często aktualizowane witryny oraz strony, które Google jeszcze nie w pełni zaindeksował. Nowe lub rzadko linkowane strony mają niski crawl demand – bot odwiedza je rzadziej lub wcale.
Co marnuje crawl budget?
Każda zbędna strona, którą bot musi odwiedzić, to zmarnowany fragment budżetu – czas, który Googlebot mógł poświęcić na ważniejsze podstrony. Oto najczęstsze pożeracze crawl budgetu:
- Parametry URL – filtry, sortowania, wyszukiwania wewnętrzne (np.
/produkty/?sort=cena&page=2&kolor=czerwony). Jeden produkt może generować setki unikalnych adresów URL z tą samą treścią. - Zduplikowane wersje domeny – www i bez www, HTTP i HTTPS, z trailing slash i bez – to do czterech razy więcej adresów URL z identyczną treścią.
- Głęboka paginacja bez canonical – strony /kategoria/page/50/ bez odpowiednich tagów canonical lub noindex generują dziesiątki stron o niskiej wartości SEO.
- Strony z noindex w sitemapie XML – sprzeczny sygnał: zapraszasz bota do odwiedzenia strony, którą jednocześnie każesz mu zignorować. Bot traci czas, nic nie zyskując.
- Odpowiedzi 404 i błędy serwera – każda odpowiedź 404, 500 czy 503 to strata budżetu. Błędne adresy powinny być naprawiane lub przekierowane.
- Strony bez linków wewnętrznych – strony "osierocone", do których nic nie prowadzi, są crawlowane rzadko lub w ogóle nie zostają zaindeksowane.
Jak optymalizować crawl budget?
Robots.txt
Zablokuj Googlebotowi dostęp do sekcji, które nie powinny być indeksowane: panele admina, wyniki wyszukiwania wewnętrznego, strony logowania, wersje do wydruku. Blokada w robots.txt zatrzymuje bota przed wejściem i oszczędza budżet.
Canonical i noindex
Strony z parametrami URL oznacz tagiem canonical wskazującym na wersję kanoniczną lub dodaj noindex. Bot wie, że nie musi ich osobno indeksować, i skupia budżet na ważnych podstronach.
Sitemap XML
Umieść w sitemapie tylko strony, które chcesz zaindeksować. To lista priorytetów dla bota – nie wrzucaj tam stron z noindex, stron błędów ani parametrycznych duplikatów.
Szybkość serwera
Im szybciej odpowiada serwer, tym więcej stron Googlebot może odwiedzić w ramach crawl rate limit. Wdrożenie cache (np. Varnish, Redis) i CDN bezpośrednio przekłada się na liczbę crawlowanych podstron.
Linkowanie wewnętrzne
Dobrze zaplanowana struktura linków kieruje bota do najważniejszych podstron. Strony z wieloma linkami wewnętrznymi są crawlowane częściej. Strony bez żadnych linków mogą nie zostać zaindeksowane nigdy.
Naprawa błędów 4xx/5xx
Każda odpowiedź 404 czy 500 to strata budżetu. Regularnie sprawdzaj raport pokrycia w Google Search Console i naprawiaj błędne adresy lub przekierowuj je (301) na właściwe podstrony.
Jak sprawdzić crawl budget w Google Search Console?
Google Search Console udostępnia raport Statystyki crawlowania (Ustawienia → Statystyki crawlowania). Znajdziesz tam:
- Łączną liczbę żądań crawlowania z ostatnich 3 miesięcy
- Średni czas pobierania strony przez Googlebota
- Podział na typy zasobów: HTML, JavaScript, CSS, obrazy
- Odpowiedzi według kodu HTTP – 200, 301, 404, 500
Jeśli widzisz, że bot traci czas na crawlowanie plików CSS, JS lub setek stron z odpowiedzią 404 – masz gotową listę elementów do optymalizacji.
Parametry URL a crawl budget – jak je kontrolować?
Parametry URL to jeden z największych pożeraczy budżetu w sklepach i katalogach. Masz trzy narzędzia do ich opanowania:
<!-- 1. Canonical na stronach z parametrami -->
<!-- Na stronie /produkty/?sort=cena wskazuje na: -->
<link rel="canonical" href="https://twojadomena.pl/produkty/" />
<!-- 2. Noindex na stronach filtrów -->
<meta name="robots" content="noindex, follow">
<!-- 3. Blokada w robots.txt -->
Disallow: /*?sort=
Disallow: /*?page=
Disallow: /*?kolor=