Documentation Rouen

Une année avec Google (suite)

Peut-on enseigner Google ?

mardi 3 juin 2008 par Frédéric Rabat  Format imprimable
Mis à jour le : 19/01/2010

IMG/flv/seance_rabat2.flv

Quelles notions info-documentaires envisager ?

Dans un premier temps il me fallait répertorier les caractéristiques de l’objet d’étude, construire le concept « Google » et ses attributs.

Une définition

Partons de la définition de « moteur de recherche » que propose Pascal Duplessis et Ivana Ballarini-Santonocito dans leur Petit dictionnaire des concepts info-documentaires. Disponible sur le site de Savoirs Cdi.

« Serveur spécialisé permettant l’accès sur le Web à des ressources, à partir de requêtes constituées de mots-clés ou de texte libre et selon différents paramètres. Ce type d’outil de recherche en ligne explore automatiquement et périodiquement les pages web (et non les sites) et les copie sur des serveurs dédiés. A partir de ceux-ci, des logiciels, appelés spiders ou crawlers, procèdent à une indexation sur tous les mots de la page. Ils constituent ainsi un index qui contient des liens vers les pages web répertoriées.

(...) Suite à la requête d’un utilisateur, un logiciel crée alors une page de résultats constituée de la recension de toutes les pages web répondant aux critères de cette requête. Chaque résultat présente le lien vers la page sélectionnée et l’assortit d’extraits situant les mots-clés de la requête dans le contexte de la page ciblée. A ce stade, les moteurs réagissent à nouveau de manières différentes, à partir notamment de la stratégie de présentation des résultats que proposent leurs concepteurs.

(...) Cet ordre d’apparition sur la page de résultats se révèle crucial pour certaines entreprises et secteurs influents (économie, politique, idéologie) et provoque des stratégies de placement plus ou moins répréhensibles (Voir Positionnement payant). Une typologie sommaire des moteurs d’ordonnancement des résultats fait apparaître deux principaux modes de présentation, l’un opérant au moyen d’un indice de popularité, le second par catégorisation des résultats. »

À partir de cette définition je suggère d’établir une liste de notions qui constitueront le noyau de notre projet d’apprentissage. Je propose une segmentation inspirée des trois étapes du traitement de la requête : la collecte de pages, l’indexation, le référencement/positionnement. Ce découpage correspond d’ailleurs aux étapes répertoriées par Marie-Laure Malingre et Alexandre Serres. La collecte des données et la constitution des index sur le site de l’Urfist de Rennes.

On lira également avec grand profit la description d’un stage récent de l’Urfist de Rennes (28 avril 2008), animé par Alexandre Serres et Marie-Laure Malingre, intitulé : « Moteurs de recherche : sortir de Google ». Le support du stage (en .ppt) est très complet.

A partir de cet examen préliminaire j’en déduis que les notions à aborder peuvent se décliner en : page web, serveur de données, formulaire de recherche, mots-clés, chaînes de caractères, recherche en texte intégral, « spider » (robot de collecte), robot d’indexation, calcul de densité, indice de popularité, classement des résultats, positionnement automatique, positionnement payant, économie des moteurs de recherche.

Le dispositif pédagogique

Il restait à imaginer un dispositif capable d’intégrer toutes ces dimensions tout en éveillant la curiosité des élèves (et exercer leur sens critique). Je m’orientais vers une séquence de deux heures en classe de seconde (demi-classe) et commençais l’expérimentation dés le début de l’année.

Les premières séances présentaient le modèle suivant : une progression partant d’un questionnement guidé (« maïeutique ») fait de constats et d’hypothèses destinés à progresser dans la compréhension de l’outil.

Déroulement de la première séance

- 1.simulation d’une recherche type sans autre consigne que : ex. Trouver sur le Web un document susceptible de répondre en tout ou partie à la question : Quelles sont les causes de la pollution atmosphérique ?

- 2.faire constater une unanimité quant à l’outil utilisé (remarque dans la salle informatique du Cdi, Google n’est pas en page d’accueil, aucun raccourci pointant vers cette ressource n’est visible) ;

- 3.lister les arguments invoqués par les élèves pour justifier leur choix de l’outil : plus riche, plus facile, plus complet, plus connu, plus visible, etc. En fait il est aisé de leur démontrer que d’autres moteurs sont tout aussi riches ou simple d’utilisation que Google (ex. Yahoo search, exalead, windows live, etc.). Seul demeure l’argument de la visibilité et de la notoriété de l’outil ;

- 4.faire constater des usages différents du formulaire à partir des requêtes des élèves. Des différences apparaissent : présence ou non d’articles, accentuation, segmentation, nominalisation ;

- 5.la question à se poser est donc que fait Google de nos requêtes ? Première hypothèse (première représentation-obstacle)  : Google comprend-il notre langage articulé ? Ou plus simplement quelqu’un est-il présent derrière le formulaire ?

- 6.une diapo présente alors un bêtisier des requêtes de Google pour faire rire les élèves sur nous-mêmes et nos naïvetés ;

- 7.la saisie de requêtes fantaisistes (paul u scions, 123456789, abcdefghij, 123+123, etc.) permet de prouver que le moteur ne travaille pas sur des mots mais sur des chaînes de caractères ;

- 8.à l’aide d’un diaporama le schéma fonctionnel de Google se dessine : le formulaire déclenche l’exploration d’une base de données stockées sur des serveurs (pour Google environ un million de machines !). Le contenu des ces serveurs (probablement plus de vingt milliards de pages) est le résultat provisoire d’une collecte réalisée sur d’autres serveurs du Web par des programmes informatiques (« spiders  »=robots de collecte, Googlebot dans notre cas) qui utilisent les liens hypertextes des pages Web pour évoluer sur la toile mondiale et enregistrer des copies des pages trouvées. Les pages stockées font l’objet d’un traitement informatique complexe qui les « découpe » en chaînes de caractères afin de constituer un index (liste de « mots » associée à leur origine ou localisation sur le Web= URL).

- 9.les élèves complètent alors un schéma du processus présentant des étiquettes vierges de termes.

- 10.Pour finir, quelques requêtes comparées permettent de tenter de comprendre le travail à partir du formulaire : requête avec ou sans accent, avec ou sans guillemet, avec ou sans +, avec ou sans mot (chaîne) répété, etc.

IMG/flv/seance_rabat2.flv

Déroulement de la deuxième séance

- 1.le questionnement est lancée à partir de la lecture d’une page de résultats de Google et d’une page ayant subie une coloration après une étude de suivi et d’analyse du mouvement des yeux (eye-tracking). Les couleurs révèlent le triangle d’or et quelques fixations sur la colonne de droite. Donc le positionnement-classement est primordial pour qui veut être lu sur le Web. Quels sont les critères de classement actifs derrière cette liste ? Et que signifie «  liens commerciaux » ?

- 2.évocation des modes de financement de Google (achat de mots clés, coût par clic, etc.)

- 3.examen de la partie non-commerciale de la page de résultats à partir d’une proposition d’enquête : comment expliquer l’injustice qui consiste à figurer en quatrième position ? (premier rang à perdre des lecteurs) ;

- 4.examen des quatre pages et formulation d’hypothèses de classement par les élèves.

- 5.les hypothèses qui sont avancées sont fréquemment  : calcul du nombre de visites (les élèves pensent déjà Web 2.0 ?), comptabilisation du nombre de «  mots clés » (chaînes de caractères) ;

- 6.un rapide exercice consiste à compter le nombre d’occurrences d’un mot dans une page avec la combinaison de touches Ctrl+F (recherche de chaînes). Quatre ou cinq groupes se chargent chacun d’une page à explorer. La comparaison des résultats permet de conclure que ce critère ne suffit pas à expliquer toutes les positions ;

- 7. j’attire l’attention des élèves sur la différence de poids d’un mot selon son emplacement dans la page (bandeau, entête, titre, sous-titre, intertitre, liens hypertexte, etc.) ;

- 8. pour montrer que ce critère ne peut pas être le seul critère je montre aux élèves une page réalisée par mes soins, vide de contenu mais riche de termes identiques, j’explique cette dérive du positionnement artificiel ;

- 9. pour éviter une telle manipulation il faut trouver un procédé mécanique pour identifier les pages artificielles : ce seront les pages qui ne sont jamais citées (ne font l’objet d’aucun lien) ;

- 10.le second critère examiné sera donc celui de la popularité à travers la recherche de liens entrant grâce à l’opérateur « link : » de Google qui affiche les pages ayant actualisé un lien vers une page cible ;

- 11.pour montrer que ce critère peut être détourné je montre une page artificielle qui ne présente que des liens vers la même page cible pour conclure que les pages qui citent doivent également faire l’objet de citations pour être validées et augmenter le PageRank (note de positionnement) ;

- 12.je mentionne un critère important, celui de la fréquence de mise à jour des pages afin d’insister sur le fait que Google privilégie les pages actives ;

- 13.la question ultime porte sur la nature d’une recherche de type sérieuse (scolaire) : est-on exclusivement à la recherche de pages populaires ? Les élèves concluent souvent d’eux-mêmes que notre démarche vise plutôt la pertinence. Nous concluons qu’il faut laisser leurs chances aux pages mal classées.

- 14.la lecture de l’extrait d’un texte critique met en garde les élèves contre la tendance du moteur à favoriser les sites historiques au détriment de pages présentant une pensée originale ou iconoclaste (nécessairement peu populaire).

Un bilan et des variantes

A l’issue des premières expériences menées avec ce dispositif je décidais de conserver l’entrée en matière c’est-à-dire de faire constater un usage généralisé non-questionné et de démontrer que le choix de l’outil n’est pas déterminé par un jugement portant sur la qualité réelle du moteur mais plutôt sur sa visibilité dans le monde informatique mais également dans le petit monde de l’école.

Démontrer pour convaincre

Je suis de plus en plus convaincu qu’il peut être bénéfique de démontrer aux élèves que leurs pratiques (que nos pratiques ?) sont souvent parcellaires et stéréotypées. D’ailleurs j’ai pu constater que les élèves très actifs en début de séance limitent par la suite le nombre de leurs interventions pour se concentrer sur la compréhension de l’outil. Il faut se garder toutefois de trop insister sur cet état de méconnaissance. Il m’arrive fréquemment de le questionner avec les élèves : comment expliquer que nous ne connaissions pas un outil aussi usuel ? Comment interpréter notre confiance aveugle ?

Pour la partie technique je suggère de montrer des photographies de « Data center » et de serveurs pour que la prise de conscience de la dimension physique du fonctionnement contribue à dissiper la magie de l’outil. De même une visite virtuelle du « Googleplex » fait entrer de plain-pied l’élève dans la dimension économique de la firme.

J’ai personnellement pris pour appui un diaporama destiné à gagner un temps précieux lors de la réalisation de schémas commentés ou de la présentation de données chiffrées. Il me semble que pour ce type de séance dialoguée ce support ne saurait être utilisé de manière exclusivement chronologique. Je n’ai jamais suivi le déroulement des écrans sans rompre la succession initiale pour m’adapter aux rythmes et aux évolutions des séances.

D’autres lancements

Partir de l’énigme posée par la position hégémonique de Google est une entrée en matière qui alerte les élèves et focalise leur attention.

La réflexion (et l’intérêt) peut prendre appui sur la lecture d’articles qui évoquent les mésaventures de Google en Chine : on se souvient que les autorités chinoises ont exercé des pressions pour que le moteur fasse disparaître certaines informations de ses pages de résultats (ex. la répression des mouvements étudiants de juin 1989, place Tian’anmen). Il est alors avéré (aux yeux des élèves) que la source des sources n’est pas aussi impartiale qu’il y paraît. En tout cas l’examen qui leur est proposé par la suite est justifié.

Une bonne écoute

Globalement les élèves ont accueilli très positivement ces séances. Le choix d’un questionnement qui part de nos pratiques réelles semble assez efficace. Il aura fallu insister à plusieurs reprises sur la dimension artisanale de nos recherches sur le Web pour que le dialogue se déroule dans un climat de confiance : il n’est pas question de stigmatiser de « mauvais usages » mais d’installer les éléments susceptibles d’entrevoir les possibilités et les limites de l’outil (une culture de l’information ?). En effet on peut difficilement continuer à dire aujourd’hui que Google ne permet pas de requêtes en langage naturel ou qu’il soit naïf de poser des questions au formulaire (ce qui reviendrait à exclure arbitrairement le référencement des fils de discussion des forums par exemple). Par ailleurs il semblerait que les mots interrogatifs ne soient plus comptés au nombre des « stop-words » (pour l’instant !).

Quelques pistes...

En fin d’année j’ai fait reposer une partie de la réflexion sur l’examen des pages mises « en cache » dont le lien apparaît sur la page de résultat de Google. Non seulement les chaînes de caractères sont colorées sur les pages (ce qui permet d’observer le travail du moteur) mais le préambule de Google précise les modalités et les dates de collecte. Je conseille d’ailleurs aux élèves de consulter dorénavant ces pages pour tenter de comprendre pour quelles raisons le moteur nous les propose.

Il resterait sans doute à explorer un aspect que j’ai personnellement sous-estimé. Certains élèves utilisent le formulaire de « Google images » pour des recherches scolaires qui ne le réclament pas a priori. Ces élèves exploitent le confort visuel conféré par les vignettes des résultats pour contourner la lecture plus ardue des pages de résultats standards. Il reste à imaginer d’autres séances à ajouter aux séances qui précèdent pour dévoiler les limites (et les bonheurs) de ces types de requêtes.

Un prolongement intéressant consisterait à présenter d’autres moteurs qui exploitent d’autres critères de sélection ou de présentation : Exalead et sa catégorisation a posteriori, Kvisu et la visualisation graphique des résultats (moins hiérarchique que la liste), le moteur du logiciel documentaire et l’indexation sur descripteurs (langage naturel versus langage documentaire), etc.


Documents joints

Diaporama support

3 juin 2008
Document : PDF
1.1 Mo

Webographie indicative

15 mai 2008
Document : PDF
23.6 ko

Fiche consignes

15 mai 2008
Document : PDF
214.9 ko

Forum

Accueil du site | Contact | Plan du site | | Statistiques | visites : 791565

Suivre la vie du site fr  Suivre la vie du site Éducation à l’information  Suivre la vie du site Didactique Information Documentation   ?    |    Les sites syndiqués OPML   ?

Pôle de Compétence en Documentation. Webmestre : Ghislain Chasme
Academie de Rouen

Site réalisé avec SPIP 2.0.10 + AHUNTSIC