Pour comprendre ce qu'est le web invisible, il convient de connaître la définition du web surfacique. Nous allons donc dans un premier temps parler du web surfacique. Ensuite, quand tout sera clair, alors nous commencerons la découverte du web dit invisible.
Chapitre 2: Le web surfacique ou "visible"
Le web dit surfacique ou "visible" est en fait constitué de toutes les pages indexées par les moteurs de recherche.
Petit rappel: un moteur de recherche "aspire" les pages et les indexe dans des bases de données contenues sur des servers. Lorsqu'un quelconque utilisateur effectue une recherche, il lance dans le même temps une requête sur la base de donnée.
Le plus connu et le plus utilisé des moteurs de recherche est actuellement Google. Il indexe environ 9 à 10 % du web entier. Ce sont donc ces 10% qui constituent le web visible.
Chapitre 3: Web invisible ou profond
Le web invisible ne porte pas vraiment bien son nom. C'est pour cette raison que certains préfèrent l'appeler Deep Web ou web profond pour les anglophobes Il n'est pas vraiment invisible puisque l'on peut le consulter grâce à des outils spécialisés. Je vous en présenterais quelques-un à la suite de cet article
Comme le web surfacique est constitué de toutes les pages indexées par les différents moteurs de recherche, vous aurez compris que le web invisible est constitué des pages non indexées. C'est la partie cachée du web. Peu de personnes connaissent son existence et pourtant c'est une source énorme d'information.
Des études de 2001 estiment que le web invisible est 400 à 550 fois plus volumineux que le web visible. Les sites les plus vastes du web profond sont environ 40 fois plus volumineux que le web visible entier. De plus, les adeptes de la gratuité serons ravis puisque la même étude prouve que 95 % du web profond est accessible gratuitement.
Selon des estimations ( IDC ), le web invisible multiplierait son volume total par 9 chaque année. Par ailleurs, la qualité du contenu du web profond est 3 fois plus élevée que celle du web de surface. Cela est dû au grand nombre de sites proposés par des professionnels dans chaque secteur ( agriculture, médecine, informatique... ).
Intrigué, pas vrai ? Avant de passer à la suite, je vous propose un schéma récapitulatif. C'est une coupe d'iceberg. Comme vous le savez sûrement, la partie immergée d'un iceberg est beaucoup plus volumineuse que la partie émergée. Voilà qui nous rappelle bien notre histoire sur les deux web.
De quoi est constitué le web invisible ?
Le web profond est constitué:
- De bases de données spécialisées: ce sont des informations regroupées par sujets principaux.
- De bases de données internes à des sites internet: ce sont les bases de données de sites volumineux tels que le site internet de Microsoft.
- De publications: ce sont des articles publiés.
- De sites de vente en ligne et de site de petites annonces.
- De sites de messagerie, de chat.
- De bibliothèques en ligne: ce sont les données de bibliothèques universitaires ou nationales.
Voici un tableau qui montre la couverture des différents secteurs sur le web invisible:
Ce tableau à été réalisé par Digimind grâce aux informations diffusées par Bright Planet en 2001.
Causes de non-indexation du contenu
Comme nous l'avons vu plus haut, le web invisible est constitué du contenu non indexé ou mal indexé par les moteurs de recherche conventionnels. Nous allons voir quelles sont les causes de ces mauvaises indexations ou non-indexations.
I - Le format des documents
Jusqu'en 2001, les moteurs de recherche n'indexaient pas les formats Excel, Power Point, Word, PDF, RTF... C'est seulement en été de cette même année que Google commence à indexer d'autres types de documents que le HTML.
Le Flash ne commence à être indexé qu'en 2002 par le moteur AllTheWeb.
Maintenant beaucoup de types de fichiers sont indexés alors qu'ils ne l'étaient pas il y'a quelques années. On parle de l'évolution de la visibilité du web.
II - La taille des documents
Les bases de données ou documents trop volumineux ne sont pas ou partiellement indexés. L'indexation de ces bases de données varie entre 5 et 60%. Google indexent les pages dans une limite de 505k.
III - Page protégée par un identifiant et un mot de passe
La plupart des sites d'aujourd'hui protègent tout ou bien une partie de leur contenu par un identifiant et un mot de passe ( espace membre... ). Les moteurs de recherche n'ont pas la capacité de remplir un quelconque formulaire d'inscription donc ils ne peuvent pas indexer ces pages.
IV - L'accès est interdit aux robots grâce à l'utilisation de balises méta
Certains sites sont interdits aux robots par leur administrateurs. Cela permet de restreindre l'accès du site aux seuls détenteurs du lien, inconnu des moteurs de recherche. Ou bien d'interdire l'accès à des pages payantes.
V - Pages générées dynamiquement
Les pages générées dynamiquement en PHP, c'est-à-dire les pages qui sont crées à partir d'une requête ne sont pas indexables puisque les moteurs n'ont pas la faculté d'effectuer des requêtes. Exemple de page générée dynamiquement:
Les moteurs de recherche se baladent de pages en pages en suivant les liens qui y sont inscrits. Si aucun lien ne mène aux autres pages du site, le moteur ne pourra pas la trouver. C'est une page orpheline. Quant aux pages mal liées, qui n'ont pas beaucoup de liens pointant vers elles seront mal indexées.