Örvitinn

dónalegar leitarvélar

Til þess að leitarvélar eins og google og leit virki þarf að skanna innihald vefsíðna. Um slíkt sjá sérstök forrit sem kallast robots. Í grunninn til eru þetta frekar einföld forrit, þau heimsækja vefsíðu og flokka innihald hennar. Taka saman alla linka á síðunni og heimsækja svo þær síður ef þær hafa ekki verið skoðaðar nýlega. Sáralítið mál er að skrifa svona forrit og því er töluvert til af þeim.

Til þess að hafa stjórn á hegðun þessara forrita geta umsjónarmenn vefþjóna sett upp skrá sem heitir robots.txt. Allar leitarvélar eiga að byrja á því að kíkja í þessa skrá áður en þau gramsa í síðum sem serverinn hýsir. Með því að setja viðeigandi skipanir í robots.txt skrána getur maður bannað ákveðnum leitarvélum alfarið að skoða vefinn eða komið í veg fyrir að ákveðin svæði sé skönnuð.

Ég bið allar leitarvélar að sleppa því að kíkja á myndasíðurnar og láta cgi folderinn eiga sig. Einnig er ég með skipanir á aðalsíðu dagbókarinnar þar sem ég bið leitarvélar um að sleppa því að vísa á hana beint en þær mega þó (endilega) kíkja á linkana frá henni.

Undanfarið hef ég rekist á leitarvélar sem hunsa robots.txt skrána. Þegar ég verð var við slíkt athuga ég hvort ég get séð hvaða fyrirbæri eru þarna á ferð. Yfirleitt er þetta eitthvað sem ég vil ekkert vera að þjóna, eins og t.d. leitarvélar á vegum fyrirtækja sem skanna vefinn í leit að "copyright infringment". Einnig eru spammerar með leitarvélar sem leita að tölvupóstföngum á vefsíðum. Ég stilli því vefþjóninn þannig að hann einfaldlega banni þessum aðilum að skoða vefinn. Þegar þeir biðja um síður fá þeir bara 403 return code. Ég ætla ekki að eyða minni bandvídd (eða réttara sagt bandvídd CCP) í einhverja dóna.

vefmál