LES ASPIRATEURS DE TOILE

Introduction

Un aspirateur de toile (en anglais webspider) est un programme informatique permettant, à partir d'une adresse URL, d'aspirer (c'est à dire copier et sauver sur votre ordinateur) des documents pages de toile complets (avec graphiques, sons, vidéos, scripts, etc…), autorisant ainsi leur consultation en mode local, hors-connexion. Il est ainsi possible d'aspirer des portions ou la totalité complète d'un site, ainsi que des fichiers situés sur des sites externes mais reliés par liens hypertextes. La seule limitation théorique étant l'espace libre sur le disque dur où l'ensemble des documents sera sauvé.

Pourquoi aspirer un site ou des documents page de toile ?

La première raison est de pouvoir consulter le document librement sans contrainte de temps et sans les contraintes inhérentes à une connexion Internet (engorgement du trafic, lenteur du transfert des pages, etc…). S'il est vrai que " le temps c'est de l'argent ", l'aspiration des documents page de toile est une activité qui occasionnera beaucoup de gains si elle est bien menée, surtout pour des applications éducatives. Avec un aspirateur de site, il est possible de :

  • Constituer des bibliothèques de photos, de graphiques et de sons
  • Constituer des bibliothèques de sites web ou de pages de toile pour une lecture hors-connexion

Comment faire pour aspirer des documents pages de toile ?

  1. Il faut d'abord installer sur sa machine un aspirateur de toile. Il en existe plusieurs, des graticiels comme des partagiciels à prix très modiques. Ces programmes sont en général téléchargeables librement depuis Internet et peuvent être généralement trouvés sur les sites de distribution de logiciels dans la rubrique " Offline Browsers " ou " Web Tools ". La plupart sont des programmes en langue anglaise mais quelques uns existent en version française. Citons comme exemple :

  2. Il faut ensuite configurer le programme selon le contexte de la connexion et de ses propres désirs. En particulier il faudra faire attention à bien spécifier si le programme doit passer ou non par un serveur proxy ou s'il peut se connecter directement à Internet.

  3. Finalement, il faut connaître ou déterminer une URL de départ à partir duquel les liens hypertextes seront suivis par le programme pour le téléchargement des documents. Pour cela il est souvent utile, voire nécessaire, de naviguer sur le site pour voir le niveau de profondeur d'exploration requis.

Lectures supplémentaires


Retour à la page Formation