Status 410 za bolji crawl budžet i brisanje sadržaja iz Guglovog indeksa

Svi smo nekad naleteli na stranicu 404. Znate i sami situaciju: klikćete unutrašnje linkove na sajtu i odjednom dobijete stranicu koja sadrži poruku: došlo je do greške, tražena stranica nije pronađena, pokušajte ponovo ili se vratite na početnu.

primer strane 404

Poruka koja sačeka korisnika kada se otvori strana 404

404ke su OK. Potpuno prirodna posledica upravljanja sadržajem na netu. Ispravljanje ovih stranica (i linkova) je deo opšte higijene sajta. Jednom mesečno proverite da li se na sajtu negde provukla greška i jednostavno sredite problem.

Strane 404 i SEO

Gde je onda problem kada pričamo o SEO-u i stranama 404. Pa u sledećem: Po prirodi status 404 govori: sadržaj trenutno nije dostupan, molimo vas da pokušate ponovo malo kasnije. I to je upravo ono što radi Google. On redovno posećuje stranice, pa čak i one koje su mu vratile odgovor: sadržaja nema, ja sam strana 404.

To je loše za vaš crawl budžet (količinu URL-ova koje Gugl analizira kada poseti vaš sajt). Ako imate nov sajt onda je broj 404ki nizak (ispod 30). Ali šta ako ste kupili stari domen koji je imao puno sadržaja i vi niste nakon kupovine domene uradili redirekcije. Pa Google će verovatno nastaviti da posećuje veliki broj tih starih URL-ova za koje vi niste ni svesni da postoje. Možda ste kupili nov domen, ali ste do sada radili redizajn sajta i niste uradili redirekcije starih linkova koje je imao prvi sajt. Pa i u tom slučaju će Google pokušavati da crawluje jedan deo tih starih linkova.

Na kraju svega, Google troši crawl budžet na nebitne stvari umesto da prolazi kroz ono što je vama bitno, kroz sveže strane vašeg sajta.

Drugi problem sa stranama 404 su dolazni linkovi. Nimalo nije poželjno da neki od dolaznih linkova vode na 404. Tako se potpuno gubi vrednost linka, a znamo da link nije lako dobiti.

Dakle, 404ke nisu naivne za SEO.

Koliko često GoogleBot posećuje strane 404

Jednostavan i besplatan način da proverite koliko često Gugl posećuje stane 404 je da analizirate log fajl sa servera. Skoro sve hosting opcije nude mogućnost da preuzmete log fajl, najčešće za prethodni mesec. Log fajl možete analizirati mnogim alatima (besplatnim ili plaćenim), ali ja od svega preporučujem stari dobri Excel.

Uvučete fajl u Excel, formatirate sadržaj tako da se lepo raspodeli u kolone (Table to Column opcija) i na kraju imenujte kolone. Od kolona najčešće imate URL sadržaja koji je imao posetu, datum i vreme posete, ko je posetio sadržaj (bot ili User agent), odziv servera (200, 301, 302, 404, 500…).

log fajl u excelu

Jednostavno filtriramo GoogleBota u log fajlu

Onda filtriramo kolonu posetioca (bota) tako što želimo da vidimo samo Gulgla. Kucam googlebot i štikliram Google Bot opcije. Potom u koloni za odziv servera biram 404. Ovim sam dobio sve URL-ove koje je posetio GoogleBot a koje su vratile odziv 404.

Malo Excel magije (pivotiranje i izrada grafikona) i dobijam sledeće.

grafik poseta stranama 404

Grafik poseta stranama 404strana od strane Gugla

Kao što vidite posete Gugla stranama koje vraćaju 404 na ovom sajtu nije zanemarljiva. Ponekada Gugl hvata i preko 40 takvih URL-ova na dan. I kao što vidite Gugl ne prestaje, već skoro svaki dan dolazi.

Status 410 - Gone

Ako ste proverili te stare URL-ove i videli ste da na njih ne dolaze linkovi, ako ste utvrdili da nema potrebe da spašavate sadžaj onda je red da kažete Guglu da prestane da dolazi na te stranice.

Na scenu stupa status 410. „Status 410 Gone“ saopštava: sadržaj nije dostupan i nikada više neće biti dostupan. E kada Gugl naiđe na URL koji mu vrati status code 410 onda on više nikada ne posećuje taj URL, a sadržaj briše iz indeksa.

Svaka tehnologija ima svoj metod saopštavanja statusa 410, ali ispod možete videti kako to jednostavno uraditi na Apache serveru preko pravila iz .htaccess koda.

RewriteRule ^strana\.html$ - [G,NC]

Ili

redirect 410 /folder/strana.html

Jednostavno i elegantno rešenje koje reguliše crawl budžet i deindeksira sadržaj koji ne želimo na Guglu.