Kako sprečiti da se vaš gated & paywalled PDF pojavi na Guglu?

Nedavno me prijateljica zamolila za pomoć. PDF koji nudi posetiocima sajta tek nakon što ostave ime i mejl se može pronaći direktno na Guglu. Kada neko pretražuje nešto blisko njenoj ponudi dobija taj "sakriveni" PDF na izvol'te. Naravno, to nije ono šta ona želi i srećom sve smo lako rešili.

Da krenem od početka.

Da bi proverili šta sve od PDF-ova sa vašeg sajta Gugl ima u indeksu onda možete jednostavno guglati sledeći upit:

filetype:pdf site:nekisajt.rs

Umesto nekisajt.rs uneste adresu vašeg sajta. Evo na primer ovaj upit daje sve PDF-ove sa Hubspota. Kliknite na link da direktno odete na Gugl ovog upita.

filetype:pdf site:netokracija.rs

Kao što vidite Gugl ima nekoliko stotina fajlova u indeksu.

Hint: ovim upitom možete guglati PDF za bilo koji sajt. Ako ste kreativni možete na pronaći puno zanimljivog sadržaja 😎

Sledi uputstvo koje vam može pomoći da rešite i sprečite problem indeksiranja vašeg paywalled & gated sadržaja.

Slučaj 1 - PDF se već nalazi na Guglu

Ako se vaš gated content već sada može naći na Guglu onda je potrebno uraditi tri stvari:

  1. Sprečiti korisnike da dođu do PDF-a
  2. Deindeksirati PDF sa Gugla
  3. Sprečiti Gugl da indeksira svaki sledeći PDF fajl.

Prva stavka se lako rešava. Obišete PDF sa servera i ponovo ga postavite samo pod drugim imenom ili u nekom drugom folderu. Kada korisnik klikne na link na rezultatima pretrage na Guglu onda će na vašem sajtu dobiti "error 404, not found". Ako želi PDF moraće da popuni vašu formu. Naravno, kada stavite PDF na novu lokaciju onda morate ažurirati taj novi URL u servisu koji šalje link do PDF-a (Mailchimp, neki WordPress plugin za gated content itd.

Deindeksiranje PDF-a sa Gugla je tehnički zahtevniji posao. Pošto PDF nema svoju stranicu ne možemo uneti meta robots noindex direktivu preko Yoast ili RankMath plugina.

Potrebno je poslati noidex preko HTTP header odziva. To se radi na sledeći način.

Ako imate Apache server onda u vašem .htaccess fajlu dodate sledeće tri linije koda:

<FilesMatch "\.(pdf)$">
Header set X-Robots-Tag "noindex, noarchive, nosnippet"
</FilesMatch\>

Ako imate Nginx onda se u vaš server config fajl dodajte sledeće:

location ~* \.(pdf)${
add_header X-Robots-Tag "noindex, noarchive, nosnippet";
}

Ove direktive javljaju Guglu (i drugim pretraživačima) da PDF fajlovi imaju noindex direktivu.

Ako imate neki drugi format fajla koji ne želite da indeksirate onda u prvoj liniji koda, u zagradi, dodate ekstenziju tog fajla nakon uspravne crte. Evo primera koji šalje noindex preko HTTP headera za .pdf, .ppt i .xls fajlove.

<FilesMatch "\.(pdf|ppt|xls)$">
Header set X-Robots-Tag "noindex, noarchive, nosnippet"
</FilesMatch>

Za potvrdu da je sve OK predlažem da otvorite Network tab u Developer Tool opcijama vašeg pregledača (Chrome, Safari, Firefox...) i pogledate šta se nalazi u X-robots odzivu tog PDF fajla.

noindex http header response

Provera X-robots HTTP odziva u Developer Tools

Nakon nekog vremena Google će doći do vašeg gated contenta, ali će dobiti noindex signal koji će uvažiti i neće indeksirati PDF.

Poslednji korak je sprečavanje Gugla da pristupa svakom narednom PDF-u kojeg ubacujete na sajt. Drugi korak to već rešava, ali je moja preporuka da u robots.txt dodate sledeće:

Disallow: /*.pdf$

Ova linija koda sprečava botove da uopšte pristupe vašim PDF-ovima.

Slučaj 2 - PDF se ne nalazi na Guglu

U ovom slučaju posao je mnogo lakši. Dovoljna je dopuna robots.txt fajla. Izmenite vaš robots.txt tako što ćete dodati:

Disallow: /*.pdf$

Kao što je ranije opisano, GoogleBot i ostali crawleri neće ni pokušati da rade popis sadržaja koji imaju .pdf ekstenziju.

Za kraj

Sve ovo nije previše komplikovano, ali ako se ne snalazite u ovim tech podešavanjima onda je najbolje da pitate nekog developera za pomoć.

Naravno, na vama ostaje da spremite kvalitetan lead magnet content koji ima smisla ponuditi kao gated PDF, a mejlovi će sami doći.

Hvala za share:

Nenad Pantelić

Nenad je stručnjak za SEO, PPC i web analitiku. Od 2009. godine kroz ruke mu je prošlo na stotine sajtova kojima je pomogao da dođu do pozicija, poseta, konverzija i profita. Piše za Netokraciju i RNIDS. Do sada je izlagao na preko dvadeset konferencija na teme digitalnog marketinga. Trenutno vodi projekat Strap Hunter. Vlasnik je kompanije Blueberry Digital.