Big Daddy vous indexe
Par Laurentj le jeudi, avril 6 2006, 00:10 - Technologies Web - Lien permanent
Google a annoncé (le 1er Avril semble-t-il, mais ce n'est pas un poisson) le lancement de son nouvel indexeur, de nom de code Big Daddy.
Vous avez sûrement dû remarquer dans les statistiques de votre site la venu d'un certain navigateur appelé GoogleBot. C'est le robot indexeur de Google. Son principe est simple : il s'agit d'un programme qui fait de simples requêtes http GET vers des liens qu'il connaît. Il récupère le contenu brut de la page web, indexe son contenu, récupère les liens qui s'y trouvent et les suit.
Cette technique simple a toutefois une limite : tout ce qui est généré dynamiquement dans la page est totalement ignoré, car l'indexeur n'exécute pas le javascript. En effet, pour faire un robot indexeur qui exécute le javascript, il faut construire un arbre DOM représentant le document, et appeler un moteur Javascript. Et si on veut pouvoir suivre les liens qui sont appelé en javascript (du style, les liens <a href="javascript:window.open..."), il faut que le robot "clique" sur le lien, donc gère aussi les événements DOM.
En clair : réaliser ce genre de robot d'indexation revient à développer un "vrai" navigateur. C'est pour cela que cela n'a probablement pas été fait jusqu'à... il y a quelques jours chez Google.
Big Daddy c'est donc ça : un robot indexeur qui est aussi un vrai navigateur. Et pour cause : il est basé sur Gecko, le moteur de Firefox.
On comprend mieux maintenant certains rapprochements entre Google et Mozilla. Il ne s'agissait pas d'un GBrowser, mais d'un robot d'indexation d'un nouveau genre. J'imagine qu'ils ont du faire des traitements qui font (en trés gros) des document.getElementsByTagName("a"), et qui envoient des évènements DOM "click" sur les éléments trouvés, une fois que la page a été chargé (et donc le code JS executé).
Les conséquences ? Pour les points positifs : une indexation des contenus qui échappaient jusqu'à présent à googlebot. Pour les points négatifs : ça va être plus dur de persuader les développeurs web à rendre leur site accessible : ils vont pouvoir mettre de l'Ajax partout, faire du code crade. On ne pourra plus brandir l'argument "pense à google le plus connu des aveugles du web, si tu ne rend pas ton site un minimum accessible, tu seras moins bien référencé". Et pour cause, il est beaucoup moins aveugle maintenant 
Il doit aussi y avoir d'autres conséquences au niveau référencement. Mais je ne connais pas assez les techniques de référencement pour l'affirmer.
Mise à jour : quelques liens
- blog de Matt Cutts sur big daddy (ingénieur chez Google)
- Billet sur zdnet sur le lancement de Big Daddy
Commentaires
Autre problème : google va tenter de cliquer sur des liens qui n'en sont peut être pas : des votes, des suppressions, etc... ouch !
Un lien vers l'annonce, peut-être ?
Avantage pour l'évangélisation : "Si ton site passe mal sous Firefox, il passera mal chez Google, donc tu as meilleur temps de faire un site valide"
autre problème potentiel : les adresses email et les liens mailto manipulés en javascript pour éviter le spam... !
L'Oréal, parce que je le veau bien