Outils pour l’analyse de références bibliographiques

Olivier Charbonneau 2017-01-18

Les listes de diffusion par courriel sont à la fois une panacée et une épine dans le pied. D’un côté, il s’agit d’un tamtam virtuel à portée d’oreille d’une communauté de pratique qui constitue un réseau fort de cerveaux. De l’autre, ces listes sont parfois une source intarissable de pourriels. La patience est de mise lorsqu’on se gargarise de ce panaché mi-figue ni-raisin numérique…

(Ok, désolé pour toutes ces métaphores croisées, je vais blâmer cette petite neige sur Montréal pour mon « inspiration »)

Je viens de vivre un ce des moments magiques. Une question lancée sur la liste des membres de Humanistica, l’association francophone des humanités numériques/digitales, et hop, les échangent fusent. La question est pertinente, je dois avouer y avoir consacré quelques moments, aidant un collègue à se battre avec un tableur Excel pour effectuer une analyse bibliographique de listes de références. Enfin, il a publié son texte dans une revue savante:

Graziano, Vince (2016) LGBTQ Collection Assessment: Library Ownership of Resources Cited by Masters Students. College & Research Libraries, 77 (1). pp. 114-127. ISSN 0010-0870

Mais je me suis toujours demandé s’il y avait un meilleur outil qu’Excel. C’est pourquoi j’ai lu les courriels diffusés sur la liste d’Humanistica avec attention et je vous offre un sommaire des échanges ici-bas.

(Soit dit en passant: pour respecter le droit à l’anonymat des intervenants sur la liste, je me réserve le droit de taire leur identité. Par ailleurs, j’ai recours aux dispositions sur l’utilisation équitable de la Loi sur le droit d’auteur du Canada, pour des fins de critique et de compte rendu, pour diffuser le contenu desdits courriels. Si vous avez participé à l’échange et que ce billet vous pose problème, n’hésitez pas à me contacter! Je partage pour le bien de la communauté scientifique francophone étendue.)

Le cas est bien connu. Vous disposez d’une série de textes, dont chacun comporte une bibliographie. Le nombre de textes importe peu – il peut en avoir 5 ou 500. L’idée est que vous voulez analyser ou fouiller lesdites bibliographies de chacun des textes afin d’en extraire une forme d’intelligence: quels auteurs sont les plus cités? Quelles revues ou sources? Y a-t-il des sujets plus présents? Etc.

Le défi est simple. Il faut tenir compte de deux « niveaux » bibliographique. D’une part, le texte « principal ». De l’autre, sa bibliographie. Dans les deux cas, il est désirable de revenir le même format de données, la référence bibliographique, car les deux classes de documents partagent le même dictionnaire de données.

Il s’agit exactement des besoins de mon collègue et nous avons utilisé Excel par simplicité (nous avions déjà ce logiciel d’installé sur nos ordinateurs). Dans Excel, mon collègue a simplement consigné les données, puis nous avons créé un index central de tous les textes. Nous avons « nettoyé » les données avec certaines fonctions d’Excel, tels text to columns, pour transformer les données textuelles de chaque item dans la liste de référence en données un peu plus structurées. Ensuite, nous avons utilisé des fonctions de recherche, tels vlookup et count, pour créer des statistiques. Ceci dit, nous avons eu recours à des compilations manuelles (trop souvent) pour atteindre les objectifs de recherche.

Je suis ravi de savoir qu’il existe de meilleurs moyens d’atteindre cet objectif. Voici, en séquence, les outils qui furent évoqués sur la liste, dont j’ai nettoyé et allégé le texte:

Grobid https://github.com/kermitt2/grobid, dont le but est justement d’extraire des informations structurées de publications scientifiques.
gargantext.org dont il faut demander un essai: https://iscpif.fr/gargantext/your-first-map/
Haruspex, un outil en cours de développement (voir cet article: https://hal.archives-ouvertes.fr/hal-01359096), c.f. cette citation: Matthieu Quantin, Florent Laroche, Jean-Louis Kerouanton. Récit historique et objet technique : outil de valorisation mutuelle. Cahiers d’histoire du CNAM, 2016, Les musées scientifiques et techniques innovent, 5, pp.93-120. <http://technique-societe.cnam.fr/les-musees-scientifiques-et-techniques-innovent–844764.kjsp>. <hal-01359096>
Paper Machines : https://github.com/papermachines/papermachines, qui semble délaissé depuis quelques années – le site http://papermachines.org/ est inchangé depuis 3 ans.
- D’ailleurs, Sean Takats précise ce qui suit: « Paper Machines: le projet est abandonné; en plus il n’aurait pas résolu le problème de suivre l’évolution des références dans les publications scientifiques. »
Sean Takats poursuit: « Si les publications ont des bibliographies, on peut se servir du site https://anystyle.io (créé par l’un des développeurs actuels des projets Zotero et Tropy). Après l’extrait des références, on pourrait les analyser même dans une feuille de calcul — un corpus de 27 documents est assez petit et n’exige pas franchement la fouille de texte. Si vous voulez vraiment faire du text mining avec vos documents, le logiciel gensim (https://pypi.python.org/pypi/gensim) marche bien avec des données en français. (paragraphe) En principe on pourrait tirer les références Zotero directement des documents mais la fonction n’existe pas encore (https://github.com/zotero/zotero/issues/21)

En complément, une collègue propose quelques pistes additionnelles :

Vosviewer : software tool for constructing and visualizing bibliometric networks http://www.vosviewer.com/
http://www.qiqqa.com un outil doté d’un moteur de recherche sémantique puissant (thèmes, autotags…), annotation de document, lien avec BibteX, Word (mode gratuit limité).
Si vos [publications] sont dans Scopus, la fonction analyze results , ou Cited by permet de répondre à certaines de vos questions.

Bonne extraction de données bibliographiques!

P.S.: Je rêve du jour où l’on pourra naviguer sur des vagues de références bibliographiques pour découvrir les contours de champs disciplinaires… Imaginez: vous choisissez un sujet, disons l’inclusion de jeux vidéo en bibliothèque, et à partir de quelques textes savants, vous pouvez bâtir un réseau de citation dynamique et filtrer l’inclusion ou l’exclusion de textes. Cet outil pourrait être le système par lequel les étudiants du premier cycle universitaire découvrent un domaine (voire, préparent les travaux de session d’un cours) et les étudiants au deuxième cycle peaufinent leur compréhension de leur discipline.

Les outils évoqués dans ce billet en sont le début, en plus des outils commerciaux comme Web of Science, démontrent les balbutiements d’un web sémantique scientifique. Il faut oeuvrer vers des données bibliographiques liées, un chantier encore largement inachevé qui nécessite la participation d’une foule institutions vers un but commun…

Humanistica Réseaux

Ce contenu a été mis à jour le 2017-01-18 à 10 h 37 min.

:: culturelibre.ca ::

Enjeux juridiques de la transformation numérique

Outils pour l’analyse de références bibliographiques