Kwebble : Blog

Label: statistiek

  • Google’s wisselende indexgrootte

    Gepubliceerd op 14 juli 2006 in Artikelen.

    Bij het onderzoek van Maurice de Kunder naar de grootte van het World naar Wide Web, is ook een schatting gemaakt van de grootte van Google’s index op 25 tot 45 miljard webpagina’s. Met de vermelding dat de grootte per dag verschillend is. Hier mijn poging om dat getal wat nauwkeuriger te bepalen.

    Na wat zoeken en proberen kwam ik erachter dat je met het vraagteken in een zoekopdracht woorden met een willekeurig karakter kunt aanvullen. Helaas geeft een zoekopdracht met alleen een vraagteken geen resultaat, maar met een beperking tot een domein werkt het wel. Bijvoorbeeld om te zoeken naar alles van .com domeinen gebruik je de zoekopdracht ? site:.com.

    Toen heb ik een programmaatje geschreven dat zo’n zoekopdracht uitvoert voor elk bestaand top-level domein en het aantal hits uit de pagina filtert. Als je dan de resultaten van al deze zoekopdrachten optelt kom je nu uit op een totaal van 35.430.687.760 pagina’s, midden in het geschatte bereik van 25 – 45 miljard.

    Overigens was het resultaat gisteren 32,8 miljard dus ook hier geldt dat in het verleden behaalde resultaten geen garantie bieden voor de toekomst. Dit wisselende resultaat zag ik al eerder toen ik een periode bijhield hoeveel hits een zoekopdracht voor ‘fileventiel’ opleverde

    • google
    • statistiek
  • Schommelingen in Google’s schatting van het aantal zoekresultaten

    Gepubliceerd op 22 mei 2006 in Artikelen. 2 reacties

    Ruime een maand geleden plaatste ik een item over de term fileventiel. Google kende dat woord nog niet dus was ik nieuwsgierig wanneer mijn artikel in Google’s zoekresultaten zou verschijnen en op welke plaats. Daarom heb ik na publicatie af en toe gezocht naar fileventiel en het aantal gevonden pagina’s en mijn plaats daarin bijgehouden.

    De volgende dag was mijn artikel toegevoegd, en stond op de eerste plaats. Tot 22 mei schommelde mijn artikel tussen de eerste en zevende plaats. Maar het totaal aan gevonden pagina’s kent een veel vreemder verloop. Hier is een grafiek, gebaseerd op de schatting van het totaal aantal pagina’s dat Google bovenaan de resultaatpagina plaatst:

    Zoekresultaten voor 'fileventiel' bij Google van 10 april tot 22 mei.

    Ik geloof nooit dat het aantal pagina’s werkelijk zo wisselt, dan zou op 15 april bijna alles verdwenen zijn en zijn er twee dagen later weer duizenden pagina’s bij. Ik kan me nog voorstellen dat na de eerste piek een aantal pagina’s weer verdwijnt, maar waarom zouden er rond 20 mei ineens weer pagina’s opduiken. Ik denk niet dat fileventiel opnieuw in het nieuws is geweest dus moet er iets anders aan de hand zijn geweest.

    Ik wil die lager gerangschikte links wel eens zien, dus op naar result page 10. Daar aangekomen blijkt het pagina 5 te zijn, want meer dan slechts 47 unieke resultaten zijn er helemaal niet! Wel zijn er nog veel meer gelijkende resultaten, in totaal 65 pagina’s, wat het totaal aantal links dat Google kent maximaal 650 maakt. En dat terwijl er bovenaan die 65′e pagina staat dat er circa 11500 gevonden resultaten zouden zijn. Die schatting heeft dus geen enkele waarde.

    Toen ben ik wat andere dingen gaan bekijken. Ik heb steeds via google.com gezocht, maar er bestaat ook een nederlandstalige versie op google.nl. Het resultaat: google.com schat dat er 11500 pagina’s zijn en google.nl 646.

    Dan wordt het nog vreemder. In dit artikel staat een link naar de zoekresultaten van Google. Om te testen of die link goed is probeer ik hem een keer, en zie daar, het resultaat is nu van 11500 gezakt naar 716 in slechts een paar minuten tijd!

    Ik blijf het volgen…

    Update, 5 juni 2006: de grafiek is bijgewerkt en daarin kun je zien dat de tweede piek van tijdelijke aard was. Vandaag staat de teller op 118 resultaten.

    • google
    • statistiek
    • test
  • Rubrieken

    • Artikelen
    • Foto's
    • Links
    • Media
    • Overheid
    • Programming
  • Recente Berichten

    • Stanford Web Applications course lectures
    • The importance of knowing Unicode
    • “If you are not paying for it, you’re not the customer; you’re the product being sold.”
    • Inzage in je gegevens bij Facebook
    • Tuning Oracle UCM 11 & Site Studio performance
  • Abonneren

    • Atom feed Artikelen
    • Atom feed Reacties
  • Archief

© Rob Schlüter - Contact