Czy crawl budget dotyczy małych stron?

Dla stron z kilkudziesięcioma lub kilkuset podstronami crawl budget zazwyczaj nie jest problemem – Google indeksuje je bez ograniczeń. Zarządzanie budżetem zaczyna mieć znaczenie na serwisach z tysiącami lub dziesiątkami tysięcy podstron: sklepach internetowych, katalogach czy portalach newsowych.

Jak często Googlebot odwiedza moją stronę?

Zależy to od popularności strony, częstotliwości aktualizacji treści i szybkości serwera. Strony z dużą liczbą backlinków i częstymi aktualizacjami są crawlowane codziennie lub nawet kilka razy dziennie. Nowe lub słabo linkowane strony mogą być odwiedzane raz na kilka tygodni. Dane znajdziesz w raporcie Statystyki crawlowania w Google Search Console.

Czy mogę zwiększyć crawl budget?

Nie możesz bezpośrednio "zamówić" więcej budżetu. Możesz jednak na niego wpłynąć pośrednio: przyspieszając serwer (wyższy crawl rate limit), budując więcej backlinków i aktualizując treści (wyższy crawl demand) oraz eliminując zbędne strony (więcej budżetu dla ważnych podstron). W Google Search Console możesz tylko ograniczyć crawl rate – nie zwiększyć go powyżej limitu Google.

Czy robots.txt i crawl budget to to samo?

Nie. Robots.txt to narzędzie do blokowania dostępu Googlebota do wybranych sekcji – jego użycie pośrednio chroni crawl budget, bo bot nie traci czasu na zablokowane strony. Crawl budget to ogólna pula zasobów przydzielona domenie przez Google. Robots.txt jest jednym z narzędzi optymalizacji, ale nie jedynym.

Co to jest crawl demand i jak go zwiększyć?

Crawl demand to stopień zainteresowania Google crawlowaniem Twojej strony – zależy od liczby i jakości backlinków oraz częstotliwości aktualizacji treści. Aby go zwiększyć: regularnie publikuj nowe treści, zdobywaj wartościowe linki zewnętrzne i aktualizuj istniejące artykuły, żeby sygnalizować świeżość treści.

Czy strony z noindex marnują crawl budget?

Tak, częściowo. Bot musi wejść na stronę z noindex, żeby odczytać ten tag. Jeśli masz dużo takich stron, rozważ zablokowanie ich w robots.txt – bot w ogóle ich nie odwiedzi. Pamiętaj jednak, że strony zablokowane w robots.txt mogą pozostać w indeksie, jeśli Google dowiedział się o nich z innych źródeł – linków zewnętrznych lub sitemapa.

Crawl budget – definicja i optymalizacja

Czym jest crawl budget?

Crawl budget (budżet crawlowania) to koncepcja opisująca, ile zasobów Googlebot przeznacza na crawlowanie danej witryny w określonym czasie. W praktyce oznacza to: ile stron bot odwiedzi podczas jednej sesji crawlowania Twojego serwisu. Termin jest od lat używany przez inżynierów Google, ale oficjalne wyjaśnienie pojawiło się w dokumentacji Search Central dopiero w 2017 roku.

Crawl budget jest szczególnie ważny dla dużych serwisów – sklepów internetowych z tysiącami produktów, portali newsowych, serwisów z ogłoszeniami. Na małych stronach (do kilkuset podstron) Google zazwyczaj indeksuje wszystko bez ograniczeń i zarządzanie budżetem ma drugorzędne znaczenie.

Crawl budget = crawl rate limit × crawl demand

Budżet crawlowania wynika z dwóch czynników: jak szybko bot może crawlować bez przeciążenia serwera (crawl rate) i jak bardzo Google jest zainteresowany crawlowaniem Twojej strony (crawl demand).

Dwa składniki crawl budgetu

Crawl rate limit

Określa maksymalną prędkość, z jaką Googlebot crawluje stronę, żeby nie przeciążyć serwera. Google automatycznie dostosowuje tę wartość na podstawie czasu odpowiedzi. Im szybszy serwer, tym więcej stron bot może odwiedzić w tym samym czasie. W Google Search Console możesz ograniczyć częstotliwość crawlowania – ale nie możesz jej zwiększyć powyżej limitu wyznaczonego przez Google.

Crawl demand

Jak bardzo Google chce crawlować Twoją stronę. Wyższy popyt mają strony z dużą popularnością i backlinkami, często aktualizowane witryny oraz strony, które Google jeszcze nie w pełni zaindeksował. Nowe lub rzadko linkowane strony mają niski crawl demand – bot odwiedza je rzadziej lub wcale.

Co marnuje crawl budget?

Każda zbędna strona, którą bot musi odwiedzić, to zmarnowany fragment budżetu – czas, który Googlebot mógł poświęcić na ważniejsze podstrony. Oto najczęstsze pożeracze crawl budgetu:

Parametry URL – filtry, sortowania, wyszukiwania wewnętrzne (np. /produkty/?sort=cena&page=2&kolor=czerwony). Jeden produkt może generować setki unikalnych adresów URL z tą samą treścią.
Zduplikowane wersje domeny – www i bez www, HTTP i HTTPS, z trailing slash i bez – to do czterech razy więcej adresów URL z identyczną treścią.
Głęboka paginacja bez canonical – strony /kategoria/page/50/ bez odpowiednich tagów canonical lub noindex generują dziesiątki stron o niskiej wartości SEO.
Strony z noindex w sitemapie XML – sprzeczny sygnał: zapraszasz bota do odwiedzenia strony, którą jednocześnie każesz mu zignorować. Bot traci czas, nic nie zyskując.
Odpowiedzi 404 i błędy serwera – każda odpowiedź 404, 500 czy 503 to strata budżetu. Błędne adresy powinny być naprawiane lub przekierowane.
Strony bez linków wewnętrznych – strony "osierocone", do których nic nie prowadzi, są crawlowane rzadko lub w ogóle nie zostają zaindeksowane.

Jak optymalizować crawl budget?

Robots.txt

Zablokuj Googlebotowi dostęp do sekcji, które nie powinny być indeksowane: panele admina, wyniki wyszukiwania wewnętrznego, strony logowania, wersje do wydruku. Blokada w robots.txt zatrzymuje bota przed wejściem i oszczędza budżet.

Canonical i noindex

Strony z parametrami URL oznacz tagiem canonical wskazującym na wersję kanoniczną lub dodaj noindex. Bot wie, że nie musi ich osobno indeksować, i skupia budżet na ważnych podstronach.

Sitemap XML

Umieść w sitemapie tylko strony, które chcesz zaindeksować. To lista priorytetów dla bota – nie wrzucaj tam stron z noindex, stron błędów ani parametrycznych duplikatów.

Szybkość serwera

Im szybciej odpowiada serwer, tym więcej stron Googlebot może odwiedzić w ramach crawl rate limit. Wdrożenie cache (np. Varnish, Redis) i CDN bezpośrednio przekłada się na liczbę crawlowanych podstron.

Linkowanie wewnętrzne

Dobrze zaplanowana struktura linków kieruje bota do najważniejszych podstron. Strony z wieloma linkami wewnętrznymi są crawlowane częściej. Strony bez żadnych linków mogą nie zostać zaindeksowane nigdy.

Naprawa błędów 4xx/5xx

Każda odpowiedź 404 czy 500 to strata budżetu. Regularnie sprawdzaj raport pokrycia w Google Search Console i naprawiaj błędne adresy lub przekierowuj je (301) na właściwe podstrony.

Jak sprawdzić crawl budget w Google Search Console?

Google Search Console udostępnia raport Statystyki crawlowania (Ustawienia → Statystyki crawlowania). Znajdziesz tam:

Łączną liczbę żądań crawlowania z ostatnich 3 miesięcy
Średni czas pobierania strony przez Googlebota
Podział na typy zasobów: HTML, JavaScript, CSS, obrazy
Odpowiedzi według kodu HTTP – 200, 301, 404, 500

Jeśli widzisz, że bot traci czas na crawlowanie plików CSS, JS lub setek stron z odpowiedzią 404 – masz gotową listę elementów do optymalizacji.

Parametry URL a crawl budget – jak je kontrolować?

Parametry URL to jeden z największych pożeraczy budżetu w sklepach i katalogach. Masz trzy narzędzia do ich opanowania:

<!-- 1. Canonical na stronach z parametrami -->
<!-- Na stronie /produkty/?sort=cena wskazuje na: -->
<link rel="canonical" href="https://twojadomena.pl/produkty/" />

<!-- 2. Noindex na stronach filtrów -->
<meta name="robots" content="noindex, follow">

<!-- 3. Blokada w robots.txt -->
Disallow: /*?sort=
Disallow: /*?page=
Disallow: /*?kolor=

Masz duży serwis i obawiasz się problemów z crawl budgetem? Bezpłatna wycena

Crawl budget