Šta su web crawleri? Idi do glavnog sadržaja

Šta su web crawleri?

Ako ste vlasnik web sajta, onda verovatno već znate da je važno da često dodajete nov sadržaj na svoj sajt. To je važno kako zbog vaših klijenata/čitalaca, tako i zbog SEO-a.

Da bi taj dodati sadržaj bio vidljiv vašim klijentima/čitaocima u pretrazi, on mora prvo da bude indeksiran od strane search engine-a. Da bi taj sadržaj bio indeksiran, neophodno je da ga sami submit-ujete seach engine-u, ili da sačekate da ga search engine sam otkrije.

Kada web sajt ima veliki broj stranica, onda je prilično zahtevno da sami submit-ujete sadržaj. U tom slučaju uglavnom čekate da search engine otkrije vaš novi sadržaj, nakon čega će on biti prikazan u pretrazi.

Tu na scenu stupaju web crawleri. Njihov zadatak je da skeniraju sadržaj vaše sitemap-e, u potrazi za ažuriranim sadržajem, kako bi ga zatim indeksirali.

U ovom tekstu ćemo objasniti šta su web crawleri i dati listu svih važnijih crawler botova za koje bi trebalo da znate. Ali prvo da vidimo šta su web crawleri.

Web crawler je program koji automatski skenira i čita web stranice, kako bi ih indeksirao za search engine. Drugi naziv za web crawler je takođe spider (pauk) ili bot.

Da bi search engine (npr Google) mogao da prikaže neki novi sadržaj, prvo mora da dobije sve podatke od web crawler bota. Ovaj proces se nekada dešava automatski (što zavisi od podešavanja samog crawlera ali i vašeg sajta), ili može biti direktno iniciran od strane vlasnika/administratora sajta.

Kao što znamo, mnogi faktori utiču na SEO skor nekog sajta/stranice: relevantnost sadržaja, backlinkovi, kvalitetan hosting i još mnogo toga. Ali ništa od toga ne vredi, ukoliko vaš sajt pre svega nije posetio web crawler bot i search engine nije indeksirao vaš sajt/stranicu.

Zato je veoma važno da vaš sajt bude podešen tako da dozvoljava search engine-ima da koriste svoje web crawlere na vašem sajtu.

Ipak, važno je znati da ne postoji samo jedan web crawler koji skenira sajtove za svaki search engine. Zato developeri i marketari ponekad prave listu web crawlera. Ova lista im pomaže da identifikuju različite crawlere u logovima sajtova, koje onda po potrebi mogu prihvatiti ili blokirati.

Kako radi web crawler?

Web crawler će automatski skenirati vaš web sajt/stranicu, čim dođe red na vaš sajt da ga skenira. To nekada može potrajati i nekoliko dana.

Web crawleri traže određene ključne reči koje su povezane sa vašim sajtom i indeksiraju te informacije za relevantne search engine (Google, Bing itd).

Kada neki korsnik kasnije pretražuje po nekoj ključnoj reči, na primer preko Google-a, search engine će potražiti te podatke koji su povezani sa nekim relevantim sajtom.
Skeniranje kreće od poznatog URL-a. U pitanju su već pozicionirane web stranice/sajtovi sa različitim signalima koji navode web crawlere na te stranice. Ti signali mogu biti:

  • backlinkovi: broj puta koji oni linkuju na sajt
  • posetioci: koliko sadržaja je usmereno ka toj konkretnoj stranici/sajtu
  • autoritet domena: opšti kvalitet određenog domena

Zatim oni čuvaju te podatke u indeksu nekog search engine-a. Kada korisnik inicira pretragu, algoritam će potražiti podatke iz indeksa i oni će se pojaviti na stranici rezultata search engine-a (kod Google-a poznatije kao SERP). Ovaj proces se odvija u nekoliko milisekundi, zbog čega se rezultat pretrage pojavljuje veoma brzo.

Administrator sajta može da kotroliše koji će botovi skenirati njegov sajt. Zato je važno imati listu crawlera.

Na serveru web sajta postoji robots.txt fajl koji daje instrukcije web crawler botovima vezano za skeniranje tog sajta. Dobra strana toga je što pomoću tog fajla možete kontrolisati kojim botovima želite da dozvolite skeniranje, a kojima ne želite. Jedina loša strana je što bot ne mora uvek da poštuje naredbu koju ste uneli u vaš robots.txt fajl.

Koji tipovi web crawlera postoje?

Ukoliko želite da napravite svoju listu web crawlera, onda je važno da znate da postoje tri glavna tipa crawlera:

  • in-house crawleri – ovi crawleri su napravljeni od strane neke kompanije i služe isključivo za interne potrebe te kompanije. Oni skeniraju sajt te kompanije i njihova primarna namena je da pomognu da kompanija što bolje optimizuje svoj sajt.
  • komercijalni crawleri – ovo su crawleri koji su napravljeni za određenu namenu, najčešće za analizu nekog sajta. Najčešće je u pitanju SEO analiza, pa su ti crawleri izrađeni od strane te kompanije i služe samo za tu namenu.
  • open-source crawleri – ovo su crawleri koji su napravljeni od strane raznih developera i hakera širom sveta.

Važno je da znate koji sve tipovi crawlera postoje, kako biste znali koji tip najbolje možete da iskoristite za vaše poslovne potrebe.

Lista najpoznatijih web crawlera

Kako smo već rekli, ne postoji jedan web crawler koji radi sav posao za svaki search engine. Umesto toga postoje razni web crawleri koji skeniraju vaš web sajt/stranice, za različite search engine koji su dostupni korisnicima širom sveta.

U daljem tekstu ćemo predstaviti neke od najpoznatijih web crawlera.

Googlebot

Googlebot je Google-ov generički web crawler koji je zadužen za skeniranje sajtova koji će se pojaviti u Google Search engine-u.

Iako tehnički postoje dve različite verzije Googlebot-a (Googlebot Desktop i Googlebot Smartphone (Mobile)), mnogi ova dva crawlera smatraju za jedan.

To je zbog toga što oba crawlera koriste jedinstven token (poznatili kao user agent token), upisan u robots.txt fajls svakog sajta. Googlebot usera agent je jednostavno Googlebot.

Googlebot uglavnom pristupa vašem sajtu svakih nekoliko sekundi (osim ukoliko ga iz nekog razloga niste blokirali u robots.txt fajlu vašeg sajta). Bekap skenirane stranice se čuva u objedinjenoj bazi podataka pod nazivom Google Cache. To vam omogućava da vidite i stariju verziju vašeg sajta (pre promene sadržaja).

Administratori mogu koristiti Google Search Console alat za podešavanja vezano za Googlebot.

Bingbot

Bingbot je kreiran 2010. godine od strane Microsofta da skenira i indeksira URL-ove i na taj način obezbedi da Bing search engine nudi relevantne i ažurne rezultate pretrage za korisnike Bing platforme.

Kao i kod Googlebot-a, tako i Bingbot može biti blokiran ili omogućen u robots.txt fajlu vašeg sajta. Dodatno, možete da napravite razliku između mobile-first indeksiranja i desktop crawlera.

Administratori mogu koristiti Bing Webmasters Tools za podešavanja vezano za Bingbot.

Yandex bot

Yandex Bot je crawler koji je napravljen namenski za ruski search engine pod nazivom Yandex. U pitanju je jedan od najvećih i najpopularnijih search engine-a u Rusiji.

Administrator sajta može lako dozvoliti ili blokirati ovaj crawler bot u robots.txt fajlu sajta. Dodatno, može dodati Yandex.Metrica tag na određene stranice, reindeksirati stranice u Yandex Webmaster alatu ili pokrenuti IndexNow report, koji upućuje na nove, modifikovane ili deaktivirane stranice.

Apple Bot

Apple koristi Apple Bot da skenira i indeksira web stranice za Apple-ov Siri Suggestions za Spotlite.

Apple Bot uzima u obzir više faktora kada treba da odluči koji sadržaj da istakne u Siri-u. Ti faktori uključuju user engagement, relevantnost termina u odnosu na termin koji korisnik pretražuje, broj i kvalitet linkova, signali zasnovani na lokaciji, pa čak i web dizajn neke stranice.

DuckDuckBot

DuckDuckBot je web crawler za DuckDuckGo search engine. Inače, DuckDuckGo važi za search engine koji vodi više računa o privatnosti svojih korisnika.

Administratori mogu da koriste DuckDuckBot API da bi videli da li je DuckDuckBot skenirao neki sajt. Kada skenira neki sajt, DuckDuckBot ažurira API bazu podataka sa nedavnom IP adresom i user agentom.

To pomaže administratorima da identifikuju zlonamerne botove koji pokušavaju da se umešaju sa DuckDuckBotom.

Baidu Spider

Baidu je vodeći kineski search engine i Baidu Spider je jedini web crawler ovog search engine-a.

Google je zabranjen u Kini, pa ako je vaš biznis na bilo koji način vezan za Kinu, onda je važno da omogućite da Baidu Spider skenira vaš sajt da bi on bio vidljiv i u pretrazi na Baidu-u.

Da biste identifikovali da li je Baidu Spider skenirao vaš sajt, potražite sledeće user agente: baiduspider, baiuduspider-image, baiduspider-video i sl.

Ukoliko vaš biznis nije vezan za Kinu, onda ima smisla da blokirate Baidu Spider u vašem robots.txt fajlu. To će sprečiti Baidu Spider-a da skenira vaš sajt, a ujedno i onemogućiti da se vaš sajt/stranica pojavi u Baidu search engine rezultatima pretrage.

Mi smo za vas već blokirali ovaj bot na našim shared serverima.

Sogou Spider

Sogou je kineski search engine koji je zvanično prvi search engine sa 10 milijardi indeksiranih kineskih stranica.

Isto kao i za Baidu, ako je vaš posao vezan za Kinu, onda ima smisla da omogućite Sogou Spider u svom robots.txt fajlu. U suprotnom možete ga slobodno blokirati.

Facebook External Hit

Facebook External Hit, poznat i pod nazivom Facebook Crawler, skenira HTML aplikacija ili web sajtova koji se dele na Facebook-u.

To omogućava Facebook-u da generiše preview svakog linka koji se postuje na platformi. Naziv, opis i thumbnail slika se pojavljuju zahvaljujući ovom crawleru.

Exabot

Exalead je softverska kompanija osnovana 2000-te sa sedištem u Parizu. Ova kompanija razvija search platforme za velike kompanije.

Exabot je crawler za njihov core search engine, napravljen na njihovom CloudView proizvodu.

Kao i većina search engine-a, Exalead uzima u obzir različite faktore poput backlinkova i sadržaja web strana, prilikom rangiranja. Exabot je user agent Exalead robota. Robot kreira glavni indeks koji sadrži rezultate koji će korisnici search engine-a videti.

Swiftbot

Swiftype je prilagođen search engine za vaš web sajt. On kombinuje naprednu tehnologiju pretrage, algoritama i analitičkih alata. On olakšava web profesionalcima i kompanijama da dodaju naprednu pretragu na svoj web sajt.

Ukoliko imate kompleksan sajt sa mnogo stranica, Swiftype nudi koristan interfejs da smesti i indeksira sve vaše stranice.

Swiftbot je Swiftype-ov web crawler. Ipak, za razliku od drugih botova, Swiftbot skenira samo sajtove koje njihovi klijenti žele (obično sajtovi samih klijenata).

Slurp Bot

Slurp Bot je Yahoo-ov search robot koji skenira i indeksira stranice za Yahoo.

U pitanju je crawler koji radi ne samo za Yahoo, već i za Yahoo News, Yahoo Finance i Yahoo Sports. Bez njega sve te stranice ne bi mogle da se pojave u pretrazi na Yahoo-u.
Ideksiran sadržaj doprinosi personalizovanijem korisničkom iskustvu i relevantnijim rezultatima pretrage.

Lista komercijalnih web crawlera

Kako smo već pomenuli, postoje i komercijalni web crawleri koji se koriste u vrlo specifične svrhe i obično skeniraju sajtove za potrebe SEO review-a. Bez potrebe da se u ovom tekstu detaljnije bavimo ovom vrstom crawler-a, ovde ćemo ih samo nabrojati. Vi sami procenite da li će vam i kada neki od njih biti potrebni.

  • Ahrefs Bot (blokiran na Plus shared serverima)*
  • Semrush Bot (blokiran na Plus shared serverima)*
  • Moz’s Campaign Crawler Rogerbot
  • Screaming Frog (blokiran na Plus shared serverima)*
  • Lumar (ranije poznatiji kao Deep Crawl)
  • Majestic
  • cognitiveSEO
  • Oncrawl

*Pojedini komercijalni crawleri su se pokazali kao veoma agresivni, i vrlo često znaju da opterete sajt i server, i potroše dostupne sistemske resurse, te su na našim shared hosting serverima po defaultu blokirani. Možemo ih odobriti na pojedinačnim domenima/nalozima, samo je potrebno da se javite našoj podršci i zatražite da se određeni crawler odblokira.

Da li treba da zaštitite svoj sajt od zlonamernih web crawlera?

Nemaju svi web crawleru dobru svrhu. Neki mogu da utiču loše na brzinu vašeg sajta, dok ostali mogu da pokušaju da hakuju vaš sajt ili da imaju neku drugu lošu nameru. Takođe, neki crawleri mogu čak da sruše vaš web server/web sajt.

Zato je važno da znate kako da blokirate crawlere da uđu na vaš sajt.

Pravljenjem liste web crawlera, znaćete koji crawleri se smatraju dobrim crawlerima, a koji lošim. Tako ćete moći da dozvolite one dobre, a blokirate one koji su loši.

Kako da blokirate zlonamerne web crawlere?

Sa listom koju smo vam predstavili u ovom tekstu, možete donekle sami prepoznati koji su vam web crawleri korisni, a koji mogu da budu štetni po vaš sajt. Jasno je da oni koji pomažu da se vaše web stranice indeksiraju kod velikih search engine-a, spadaju u korisne web crawlere. Komercijalni web crawleri mogu, ali ne moraju biti korisni, što može zavisiti od vaših potreba u određenom trenutku. Ukoliko su vam potrebni možete ih dozvoliti, ako nisu, možete ih blokirati.

Blokiranje i podešavanje radite u robots.txt fajlu, ali smo i mi na našim shared serverima blokirali većinu onih botova za koje se u praksi pokazalo da znaju da opterećuju servere. Ukoliko vam je izuzetno važno da neki od botova blokiranih na našim serverima, budu aktivni, javite nam se da ih aktiviramo.

Za više instrukcija na temu blokiranja loših botova, pročitajte jedan od naših ranijih tekstova na temu Kako da blokirate loše botove.

Nenad Mihajlović


Ostavite odgovor