Najčešći problemi sa robots.txt fajlom i kako da ih rešite Idi do glavnog sadržaja

Najčešći problemi sa robots.txt fajlom i kako da ih rešite

Robots.txt je veoma koristan i prilično moćan alat pomoću kojeg možete dati instrukcije search engine robotima na koji način želite da oni crawl-uju preko vašeg sajta. Ipak, ponekad mogu da se pojave problemi sa ovim fajlom, koji u krajnjoj instanci mogu negativno uticati čak i na vaš SEO skor. Zato ćemo mi u ovom tekstu pokazati koji su to najčešći problemi sa robots.txt fajlom i kako da ih rešite.

Šta je Robots.txt fajl?

Robots.txt koristi plain text fajl format i smešten je u root direktorijumu vašeg web sajta. Ukoliko ga smestite u poddirektorijum, search engine će ga jednostavno ignorisati.

Iako je u pitanju prilično moćan fajl, u pitanju je realtivno jednostavan dokument. Tako osnovi robots.txt fajl može biti napravljen za par minuta, korišćenjem editora kao što je notepad.

Takođe možete koristiti X-Robots-Tag HTTP header da utičete na način na koji će sadržaj biti prikazan u search engine-u.

Šta Robots.txt može da radi?

Robots.txt može da postigne razne rezultate u širokom dijapazonu tipova sadržaja:

Web stranice mogu da budu blokirane za crawl-ovanje

Takve stranice mogu i dalje da se pojavljuju u rezultatima pretrage, ali neće imati tekstualni opis. Non-html sadržaj na stranici takođe neće biti crawl-ovan.

Medijski fajlovi mogu biti blokirani za pojavljivanje u Google rezultatima pretrage

To uključuje slike, video i audio fajlove. Ako je u pitanju javni fajl, on će još uvek postojati online i moći da bude pregledan i linkovan, ali taj privatni sadržaj neće biti prikazan u Google pretragama.

Neke eksterne skripte mogu biti blokirane

Ovo znači da ako Google crawl-uje stranicu koja zahteva da se učita i neki eksterni sadržaj, Googlebot robot će videti verziju stranice kao da ne postoji taj eksterni sadržaj, što na kraju može loše uticati na ideksiranje te stranice.

Ne možete korisititi robots.txt da u potpunosti blokirate web stranicu da se pojavljuje i rezultatima Google pretrage.

Da biste to postigli, morate da koristite neke alternativne metode, kao što su dodavanje noindex meta taga u head sekciju stranice.

Neke uobičejene greške u robots.txt fajlu

  • robots.txt nije u root direktorijumu
  • loše / slabo korišćenje wildcards-a
  • noindex u robots.txt
  • blokirane skripte i css fajlovi
  • no sitemap URL

Ako se vaš web sajt ponaša neobično u rezultatima pretrage, možda treba da pogledate vaš robots.txt fajl i potražite bilo kakve greške, sintaksičke greške i pogrešno definisana pravila.

Robots.txt nije u root direktorijumu

Roboti za pretragu mogu da otkriju fajl koji je u root folderu. Iz tog razloga bi trebalo da postoji samo kosa crta (/) između ekstenzije domena vašeg sajta (.com .rs … ) i imena ‘’robots.txt’’ u URL adresi vašeg robots.txt fajla.

Ako tu postoji neki podfolder. verovatno je da vaš robots.txt fajl neće ni biti vidljiv search robotima, pa će se vaš web sajt ponašati kao da uopšte ne postoji robots.txt fajl.

Da biste popravili ovu grešku, premestite robots.txt fajl u root direktorijum.

Loše / slabo korišćenje wildcards-a

Robots.txt podržava dva wilcard karaktera:

asterisk (*) koji predstavlja bilo koji validan karakter (džoker)

dolar znak ($) koji se stavlja na kraj URL i dozvoljava vam da primenite neko pravilo samo na finalni deo URL-a, kao na primer tip ekstenzije fajla.

Dobra praksa je imati minimalistički pristup kada je u pitanju korišćenje džokera, jer one imaju potencijal da primene restrikcije na mnogo širi deo vašeg sajta.

Takođe, može se desiti da loše postavljen asterisk dovede do blokiranja pristupa robotima, što može ostaviti loše posledice po indeksiranje a ujedno i na pozicioniranje vašeg sajta u pretragama.

Da biste rešili problem sa džokerom, potrebno je da identifikujete i locirate pogrešno postavljen džoker i premestite ga ili totalno izbrišete, kako bi robots.txt mogao da se ponaša onako kao je to predviđeno.

Noindex u robots.txt fajlu

Ova greška se mnogo češće nalazi kod sajtova koji su stariiji po nekoliko godina. Google je još 1. septembra 2019. godine prestao da se povinuje noindex pravilima u robots.txt fajlovima. Ako je vaš robots.txt fajl kreiran pre tog datuma, ili sadrži noindex instrukcije, veoma je verovatno da ćete videti te stranice indeksirane u Google rezultatima pretrage.

Rešenje za ovaj problem je da primenite alternativni noindex metod. Jedna opcija je robots meta tag, koji možete da dodate u head sekciju svake web stranice koju želite da bude izostavljena od indeksiranja od strane Google-a.

Blokirane skripte i CSS fajlovi

Može se činiti logičnim da blokirate crawler da pristupi eksternim JS i CSS fajlovima. Ipak, imajte u vudu da Googlebot treba da ima pristup JS i CSS fajlovima da bi mogao ispravno da vidi vaše HTML i PHP stranice.

Ako vam se čini da Google ne vidi ispravno vaše stranice, proverite da li blokirate crawler da pristupi potrebnim eksternim fajlovima.

Jednostavno rešenje za ovaj problem jeste da iz vašeg robots.txt fajla uklonite liniju kojim se blokira taj pristup.

No sitemap URL

Od svim navedenih primera, ovaj ima najviše veze sa SEO. Možete da uključite URL vaše sitemap u vaš robots.txt fajl. Imajući u vidu da je ovo prvo mesto koje Googlebot gleda kada crawl-uje preko vašeg sajta, to olakšava crawler-u da bolje razume strukturu i stranice na vašem sajtu.

Čak iako nije u pitanju greška u klasičnom smislu, ipak je dobra praksa dodati sitemap URL u vaš robots.txt fajl, kako biste na taj način unapredili optimizaciju vašeg sajta za Google.

Kako da se oporavite od greške izazvane pogrešno konfigurisanim robots.txt fajlom?

Ako neka od pomenutih grešaka ima očigledno negativan uticaj na indeksiranje i poziciji u Googloe pretrazi, najvažnija stvar je da za početak ispravite tu grešku i uverite se da je ona ispravljena. Neki SEO alati mogu pomoći da identifikujete grešku, a zatim i proverite da li je ispravka dala željene rezultate.

U pitanju su pre svega alati poput Google Search Console i Bing Webmaster Tools.

Nakon korekcije ponovo upload-ujte ispravni sitemap fajl i zatražite da alat uradi recrawl sajta ili stranice. Nažalost ovde ne možete uticati na to koliko vremena će proteći dok Googlebot ne uradi novi crawl. Ono što možete uraditi jeste da ispravite grešku, upload-ujete sitemap i zatražite recrawl. Ukoliko ste sve uradili kako treba, trebalo bi da u narednih 7-10 dana ova izmena bude evidentirana i od strane Google-a / Bing-a.

Nenad Mihajlović


Ostavite odgovor