e-Society - Un crawler fou !
Publi� le 26 mars 2005

En consultant de façon anodine les statistiques d'un de mes sites web, je remarque la présence d'un nouveau robot d'indexation nommé e-Society.

En allant sur la page du robot, je découvre leurs objectifs :

Les Technologies du projet de recherche "pour la Reconnaissance de la Connaissance de L'Internet" lancé en 2003 du Ministère de l'éducation japonais, de la Culture, des Sports, de la Science et la Technologie. L'iniciateur du projet est l'université de Waseda. Le but du projet est de rassembler toutes les pages web modiales de manière efficace et à appliquer le data mining aux pages web ainsi rassemblées pour découvrir la base de Connaissance. Ce qui suit sont les buts détaillés (traduit de l'engliche) :

1. R & D sur le nouveau crawler [1] de Page Web Récupérer toutes les pages web (environ 12 milliard pages) et gardez leur fraîcheur chaque mois en moyenne. (c'est pas petit comme objectif -))

2. R & D en découvrant la connaissance que l'utilisateur désire acquérir.

Parmis les principes d'indexation, on trouve :

-  Former la page supérieure, 15 Pages du site Web sont rassemblées au maximum.
-  L'intervalle de la commande de GET est 10 à 20 seconds. (2005.1 ) - Assez pour mettre votre serveur à genoux (surtout si gratuit)
-  Seulement un seul accès du crawler à votre Site Web à l'instant t.
-  Jamais d'accès au même URLs en terme de rassemblement.
-  Le crawler est basé sur INTERNET DRAFT (robots.txt, L'étiquette de Robot de META) (http://www.robotstxt.org/wc/robots.html

Sauf qu'il doit y avoir un bug, il visite une de mes pages et seulement celle-là de nombreuses fois au même moment, j'ai ainsi dans mes statistiques de visite :

(PNG)

De quoi limiter sérieusement l'accès aux utilisateurs « humains ». Je désactive temporairement ce robot. Ce code est à insérer avant l'affichage du contenu.


    $bad_content
="e-SocietyRobot";
    
$tmp=explode(",",$bad_content);
    while(list(
$id,$content)=each($tmp)) {
       if (
strpos($HTTP_USER_AGENT,$content)) {
            
header('HTTP/1.0 404 Not Found');
            exit;
       }
    }


[1] Robot d'indexation