Latinica i ćirilica na istom sajtu: SEO vodič za podešavanje hreflang taga

Na internetu postoji prilično obimna dokumentacija koja objašnjava na koji način je potrebno podesiti stranice multijezičnog sajta. Međutim, ako pokušate pronaći odgovor koja podešavanja su potrebna za sajt koji ima sadržaj na srpskom pisan ćirilicom i latinicom, onda stvari postaju dosta komplikovane.

Ovaj vodič objašnjava šta je sve potrebno uraditi tako da pretraživač (čitaj: Gugl) shvati da vi niste spamer koji duplira sadržaj, već vebmaster koji se obraća domaćoj publici na oba pisma.

Pre svega da pojasnim šta je hreflang. Hreflang je atribut koji govori Guglu koji jezik, pismo i lokacju koristite na određenoj strani. Pretraživač potom korisnicima saopšti rezultate baš na tom jeziku, u tom pismu i naravno za tu lokaciju.

Rešenje, za vas koji ne želite da čitate detalje

Na stranici sa latiničnim sadržajem unesite sledeći hreflang:

<link rel="alternate" href="http://www.imesajta.com/latinicna-strana" hreflang="sr-Latn-rs" />
<link rel="alternate" href="http://www.imesajta.com/ћирилична-страна" hreflang="sr-Cyrl-rs" />
<link rel="canonical" href="http://www.imesajta.com/latinicna-strana">

Na stranici sa ćiriličnim sadržajem unestite sledeći hreflang:

<link rel="alternate" href="http://www.imesajta.com/ћирилична-страна" hreflang="sr-Cyrl-rs"/>
<link rel="alternate" href="http://www.imesajta.com/latinicna-strana" hreflang="sr-Latn-rs"/>
<link rel="canonical" href="http://www.imesajta.com/ћирилична-страна">

Obratite pažnju na postojanje samoreferencirajućeg rel="canonical" taga. Jako je bitno da canonical referencira adresu stranice na kom je pismu tekst (npr. na ćiriličnoj strani ide ćirilični URL u canonical).

U nastavku možete pročitati više o hreflangu za srpski jezik.

U čemu je problem sa latinicom i ćirilicom?

Latiničnim pismom napišem tekst na srpskom, objavim ga i potom sutra napišem isti tekst na engleskom. Primenim sledeći hteflang i sve će biti OK.

Stranica na srpskom na adresi www.nenadpantelic.com/clanak ima hreflang.

<link rel="alternate" href="http://www.nenadpantelic.com/clanak" hreflang="sr-rs"/>
<link rel="alternate" href="http://www.nenadpantelic.com/article" hreflang="en-rs"/>
<link rel="canonical" href="http://www.nenadpantelic.com/clanak">

Stranica na engleskom na adresi www.nenadpantelic.com/article ima hreflang

<link rel="alternate" href="http://www.nenadpantelic.com/article" hreflang="en-rs"/>
<link rel="alternate" href="http://www.nenadpantelic.com/clanak" hreflang="sr-rs"/>
<link rel="canonical" href="http://www.nenadpantelic.com/article">

Ukratko hreflang="sr-rs" sugeriše da je tekst na srpskom i da je lokacija Srbija, hreflang="en-rs" da je engleski tekst i da želim da se ta stana prikazuje korisnicima koji traže engleski sadržaj u Srbiji.

Šta se dešava ako trećeg dana objavim taj isti tekst, ali na ćirilici? Nelogično je da obe stranice imaju rel="alternate" hreflang="sr-rs".

Šta kaže Gugl?

Upravo sam to pitao Džona Mjulera (JohnMu), Webmaster Trends analitičara iz Gugla koji vodi nedeljne Webmaster Hangouts Q&A sesije.

Ćao Džone, imam sajt na srpskom jeziku koji ima sadržaj na latiničnom i ćiriličnom pismu (oba zvanična pisma u Srbiji). ISO 639-1 samo definiše „sr“ (ćirilicu). Da li postoji način da primenim hreflang, i ako ne, da li će ova situacija prouzrokvati probleme sa duplim sadržajem?“

Želeo sam da saznam kako ispravno primeniti hreflang, i kako Gugl gleda na potpuno identičan sadržaj na istom jeziku pisan različitim pismom.

ISO 639-1 je standardizovana nomenklatura koja klasifikuje jezike.

Pitanje je na 21:30.


Odgovor je:

• Gugl sam bira koju će stranicu prikazati
• Nema brisanja duplikata iz indeksa (penala duplog sadržaja)
• U hreflang tagovima postoji način da se definišu pisma

Međutim nisam dobio konkretan odgovor.

(Ne)pronalaženje primera iz prakse

Bezuspešno sam gledao „source code“ većih domaćih sajtova. Politika, RTS, sajt Narodne skupštine, Vlade Republike Srbije, sajt Narodne banke Srbije. Ovi sajtovi nemaju mnogo bitnije elemente, a ne hreflang :)

Konačno, pretraga po Product forumu me dovodi do teme u kojoj je učestvovao i Miloš Leković, koji je između ostalog organizator prve SEO konferencije u regionu, IT Opena. Miloš je pronašao rešenje.

Rešenje

Potrebno je koristiti ISO-15924 međunarodni standard za označavanje pisma. Tako za ćirilicu koristimo sr-Cyrl, a za latinicu sr-Latn.

Kao što sam na početku teksta naveo, hreflang za ispravno sugersanje srpskog jezika na oba pisma je sledeći.

Na stranici sa latiničnim sadržajem unesite:

<link rel="alternate" href="http://www.imesajta.com/latinicna-strana" hreflang="sr-Latn-rs" />
<link rel="alternate" href="http://www.imesajta.com/ћирилична-страна" hreflang="sr-Cyrl-rs" />
<link rel="canonical" href="http://www.imesajta.com/latinicna-strana">

Na stranici sa ćiriličnim sadržajem unestite:

<link rel="alternate" href="http://www.imesajta.com/ћирилична-страна" hreflang="sr-Cyrl-rs"/>
<link rel="alternate" href="http://www.imesajta.com/latinicna-strana" hreflang="sr-Latn-rs"/>
<link rel="canonical" href="http://www.imesajta.com/ћирилична-страна">

Potvrda ispravnosti je došla testiranjem. Nakon par dana algoritam je validirao hreflang kao ispravan što je potvrdio i Gary Illyes iz Gugla. Zapravo Gary je dobio ovo pitanje na DIDS-u, ali nije znao precizan odgovor, tako da mu je bilo drago da pročita rezultate mog eksperimenta.

[1/2] @methode You remember the question about hreflang for same language but different scripts (alphabets) like Serbian? I tested...

— Nenad Pantelic (@NenadPantelic) March 13, 2017

[2/2] @methode I tested with ISO-15924 by putting hreflang="sr-Latn-rs" & "sr-Cyrl-rs". Indexed, works. Luck or correct implementation?

— Nenad Pantelic (@NenadPantelic) March 13, 2017

Console was happy also :) pic.twitter.com/IhtJCc1V2t

— Nenad Pantelic (@NenadPantelic) March 13, 2017

I love it when you guys test things! If search console accepted it then it should work. It uses the production validators

— Gary "鯨理" Illyes (@methode) March 13, 2017

Testirane su stranice:
www.nenadpantelic.com/o.html
www.nenadpantelic.com/o-аутору.html
Slobodno možete ući u source code i pogledati primenjena hreflang pravila.

Šta raditi sa starim <html lang=""> tagom?

Gugl odavno ne uzima u obzir <html lang=""> tag za pretragu što su i zvanično priznali tokom 2016. godine. Međutim, preporuka je da ne uklanjate ovaj tag zato što on pomaže pristupačnosti sadržaja. "Screen reader" softver iz <html lang=""> taga uzima podatke o jeziku radi boljeg izgovora i akcentovanja teksta.

Bonus materijali za primenu ćirilice

WordPress dodatak za preslovljavanje - autor Sibin Grašić.
Ćirilica i interenet - serijal tekstova RNIDS-a.
Ćirbasters 2 diskusija [VIDEO] - takođe u organizaciji RNIDS-a.

Sada nema prepreka za ćirilicu

Bogatstvo srpskog jezika između ostalog je i u činjenici da imamo dva pisma. Sada nema prepreka da favorizujemo jedno protiv drugog pravdajući se da Gugl ne podržava podešavanje hreflang taga.