Met een zoekmachine (engels: search engine) kun je websites vinden over een onderwerp naar keuze. Door het intoetsen van een zoekwoord of een meerdere woorden of steeds meer gewoon een vraag wordt je een lijst zoekresultaten (webpagina’s) getoond die volgens het achterliggende programma het meest relevant zijn.
In Nederlands wordt Google verreweg het meest gebruikt als zoekmachine op zeer grote achterstand gevolgd door Bing. Zoeken.nl en vinden.nl zijn feitelijk geen zoekmachines, maar meta-zoekmachines.
Meta-zoekmachines
Dit zijn webpagina’s die bij het opstellen van hun zoekresultaten gebruik van de zoekresultaten van zoekmachines (o.a. Google en Bing worden veel gebruikt).
Werking zoekmachine
Zoekmachines laten kleine programma’s de spiderbots (bij Google googlebot) het internet afspeuren (crawlen) naar pagina’s. Deze pagina’s worden vervolgens geanalyseerd, geïndexeerd en gewaardeerd door het programma. Spiderbots komen geregeld terug naar de website. Hoe vaak hangt er van af hoe goed je pagina gevonden wordt. Naarmate je pagina hoger gerankt is komt de spiderbot met een grotere regelmaat terug. Zodoende duurt het een tijd voordat aanpassingen zichtbaar worden in Google.
De analyse van een pagina bestaat onder andere uit de taal, de verwijzingen op een pagina en het aantal en soort woorden. Vervolgens worden deze gegevens in een grote database opgeslagen. Wanneer iemand dan een zoekopdracht geeft kijkt de zoekmachine in de grote database welke webpagina’s waarschijnlijk het beste beantwoorden aan de zoekopdracht. Dat tonen gebeurd op basis van een rekenformule (algoritme), die per zoekmachine verschillen. De algoritme wordt vaak aangepast. Hierover wordt vaak niet gecommuniceerd, maar bij grote updates wel. Zie voor een recente update Grote update Google-algoritme: 21 april.
Je kunt een spiderbot aangeven dat die bepaalde pagina’s niet moet bezoeken. Dat doe je via de robot.txt . Dit wil je bijvoorbeeld wanneer het intranet is of wanneer de site nog proefdraait.
ook kun je aangeven dat je niet wilt dat een spiderbot een link volgt. Aangezien links een waarde meekrijgen wil je bijvoorbeeld niet dat je disclaimer of algemene voorwaarden de beste score van je site krijgt binnen Google. Die kun je dan een