Slik virker søkemotoren
En søkemotor består i grove trekk av tre deler, roboten, registret og sorteringen. I tillegg er det et grensesnitt hvor du som bruker kan skrive inn søkeordene.
Ernst Larsen, 03.01.2005 16:42

Målet med dette kapitlet er ikke å lære deg de tekniske termene eller å beskrive i detalj hvordan en søkemotor virker. Som journalist og web-publisist har jeg imidlertid måttet lære meg en del grunnleggende fakta om hvordan en søkemotor fungerer. 

For det første - når du skriver inn "John Wayne" i søkemotorens søkefelt og klikker på knappen søk, så søker du ikke på alle internettsider i verden. Heldigvis, for det ville tatt mer tid enn du har til rådighet her i livet. Det du søker i da er søkemotorens register, som best kan sammenliknes med registret du finner i et hvert bibliotek, der du selv eller bibliotekaren leter gjennom bunker med registerkort som inneholder informasjon om forfatter, tittel og tema, slik at du skal slippe å gå langs kilometer med bøker for å finne det du leter etter.

Men for at et slikt register skal eksistere må biblioteket ha laget det. I søkemotorene lages dette registret av en crawler eller en robot.

ROBOTEN
Er øynene til søkemotoren. Oppgaven til roboten er å "reise rundt på internett" og hente inn informasjon. Som en turist drar den fra nettsted til nettsted og tar øyeblikksbilder av internettsidene den finner. Går du på Google f.eks. og finner en side, kan du velge om du vil gå rett til siden slik den ligger på sin egen server, eller du kan velge "Cached" og se hvordan sidene så ut akkurat den dagen søkemotoren var på besøk. Dette er et nyttig tips for å finne informasjon som ikke lenger ligger ute - for eksempel fordi den som har ansvaret for nettstedet ikke lenger ønsker at informasjonen skal være tilgjengelig.

Et annet nyttig tips for de som er interessert i "gammelt"  stoff på internett er å besøke http://web.archive.org - her ligger øyeblikksbilder av de fleste nettsider tilbake til 1996 lagret med tekst, peker og bilder intakt. Gjør deg klar for nostalgiske nettøyeblikk!

En typisk søkemotor-robot bruker to dager til seks uker mellom hvert besøk på ett nettsted. Det betyr at dagsaktuell informasjon ikke alltid er lett å finne gjennom søkemotorer. Men heldigvis finnes det unntak. De store søkemotorene gjør hyppigere søk på nettsider hvor de er programert til at det ligger nyheter. Det betyr at spesielt engelskspråklige nyhetssider, dvs. aviser og kringkastingsstasjoner blir besøkt hyppigere enn andre nettsteder.

Noen søker dypt og smalt, andre søker grunt og bredt. Alle robotene er programmert til å oppføre seg forskjellig hver gang de kommer til en ny eller oppdatert nettside. Noen er programmert til å lese all informasjonen som ligger på domenet - og sender tilbake informasjon fra hele nettstedet. Google vil f.eks. indeksere, eller registrere alle sider på et nettsted såfremt det finnes peker til dem på nettstedet. Google og Alltheweb indekserer også filer i Word, Excel, Power Point og Acrobat-format.

Andre søkemotorer går grunnere til verks. Registrerer bare et visst antall sider før de haster videre til neste nettsted. Disse vil naturlig nok ikke inneholde like mange sider som en dyptgående søkemotor, men kan inneholde informasjon fra vel så mange nettsteder.

REGISTRET
Når roboten har sendt hjem sine øyeblikksbilder tar registret over og sorterer informasjonen i en søkbar indeks. Denne indeksen er hjertet i søkemotoren. Her prøver søkemotoren å skille ut hva som er viktig og mindre viktig på sidene, i håp om å skape orden i kaoset. Men - siden de som har skapet søkemotoren og de som bruker den ikke nødvendigvis snakker samme språk, kan indeksen ikke bare være basert på språklig innhold. For at en søkemotor basert i Palo Alto i California skal kunne gjøre en vurdering av et norsk- eller finskspråklig nettsted, er det nødvendig å legge mer vekt på enkelte elementer av innholdet i en nettside enn andre.

Registreringen legger vekt på:

  • Dokument-tittel
  • Dokument-navn
  • Teksten på sidene
  • Metainformasjon (skjult info)

Legger ikke vekt på:

  • Billedfiler
  • Database-filer

SORTERINGEN
Dette er trolig den viktigste delen av søkemotoren. Her skapes brukervennligheten. Hvor relevant og godt prioritert resultat går du tilbake dersom du skriver inn ett søkeord eller en frase.

Hva bestemmer plasseringen:

  • Hyppighet av ord
  • Sidenes popularitet
  • Metainformasjon
  • Ord i pekere
  • Kombinasjon av  ord
  • Betalt topp-plassering


Slik er resultatet dersom du søker etter "miserable failiure" på Google.

BUSH FIASKO

Et morsomt fenomen er at søkestrengen "miserable failure" - "fryktelig fiasko" på norsk - på Google bringer deg rett til biografien til George W. Bush hos Det Hvite Hus. Prøv selv.

Dette er ikke som mange tror verket til ondsinnede programmerere hos Google, men en dyktig manipulering av søkemotoren gjort av andre nettbrukere. Ved å bruke frasen miserable failure som peker til biografisidene på whitehouse.gov hyppig på forskjellige nettsteder har Bush-motstandere klart å få Google til å oppfatte George W. Bush som synonymt "en fryktelig fiasko".

For å få en søkemotor til å oppfatte at dine sider handler om "Volvo Amazon" f.eks. må du med andre ord bruke ordene "Volvo Amazon" i pekere som viser til sidene. Dersom du i tillegg får andre nettsteder til å gjøre det samme, er mye gjort.

Men for at sidene virkelig skal komme høyt opp på resultatlistene til Google, Alta Vista og andre store søkemotorer er det nødvending med ytterligere optimalisering.

Sørg for at begrepet "Volvo Amazon" er i sidenes tittel, i skjult informasjon på sidene og at ordene står så ofte i sammenheng på sidene at ingen, selv ikke en engelskspråklig søkerobot født på slutten av 90-tallet er i tvil om hva som er hovedtemaet på dine nettsider.

Får du nå en million mennesker eller så til å besøke sidene, gjerne via pekere på de største søkemotorene så blinker det en topp-plassering i det fjerne.

For - ett er at sidene kommer opp på plass nummer 4.500 når du søker etter begrepet "Volvo Amazon" - det får kanskje onkelen din til å besøke sidene. Dersom du får ei topp-plassering på Google eller Alltheweb vil du garantert tiltrekke deg alle som er interessert i temaet.

BRUKERGRENSESNITTET

Alltheweb brukergrensesnitt
Et typisk brukergrensesnitt for en søkemotor er et søkefelt, en knapp for å utføre søket og eventuelt et enkelt språkvalg.

Dette vil i de fleste tilfeller være tilfredsstillende for enkle søkeoppgaver.

Men når du skal gjøre avanserte søk kan det lønne seg å klikke på pekeren "advanced search" som ofte står i nær tilknytning til søkeknappen. Her vil du finne et vell av alternativer - hvilket landområde sidene du leter etter ligger under, hvilket språk de skal være på, når de skal være fra etc.