Le Blog
Gallica
La Bibliothèque numérique
de la BnF et de ses partenaires

La recherche par proximité : une nouvelle fonctionnalité dans Gallica

6
26 novembre 2019

La recherche d’un ancêtre au nom de famille très courant vous donne des sueurs froides ? Vous manquez de temps pour éplucher les 784 pages de résultats qui s’affichent sous vos yeux ? Une fonctionnalité du moteur de recherche de Gallica va vous faire gagner un temps précieux !

Les homonymes, les patronymes courants, les termes polysémiques : ces facteurs contribuent souvent à allonger la liste des résultats pour une requête donnée dans Gallica. Une nouvelle fonctionnalité de recherche avancée permet de contourner en partie les difficultés posées par l’abondance de résultats : la recherche par proximité. Celle-ci consiste à introduire comme paramètre la distance en nombre de mots qui sépare à l’intérieur d’un texte les termes ou expressions recherchés. Il s’agit ainsi d’affiner une recherche en la limitant à un périmètre plus réduit en nombre de mots. Cela a l’air compliqué mais c’est en réalité très simple ! La preuve en exemples.

A la recherche d'une orange

Le terme "orange", qui désigne à la fois une couleur, un fruit et une ville, n'est pas sans poser quelques difficultés à qui lance une recherche dans Gallica. Dans le cas présent, c'est le fruit qui nous intéresse et la recherche par proximité va nous permettre d'affiner notre requête en associant "orange" à un second terme appartenant au même champ lexical : nous choisissons "agrume". Dans le cadre d’une recherche traditionnelle, nous n’avons d’autres choix que d’utiliser le formulaire de recherche avancée de Gallica en combinant les termes "orange" et "agrume". Cette première méthode propose 411 résultats dans lesquels "orange" et "agrume" ne sont pas nécessairement liés et où "orange" peut autant désigner le fruit que la couleur ou la ville. Un examen inévitablement chronophage de chacun de ces résultats est ainsi nécessaire. La recherche par proximité permet précisément de contourner cette difficulté en affinant considérablement le périmètre de notre recherche. Resserrée à une distance maximale de quelques mots entre les termes recherchés, celle-ci permet d’améliorer la pertinence des résultats en réduisant le "bruit".

Notre nouvel outil prend la forme d’un module de recherche dans lequel il faut remplir au minimum trois champs : le premier terme recherché, la distance maximale en nombre de mots entre les deux termes recherchés, et le second terme recherché. Le choix du nombre maximal de mots séparant les termes recherchés est un paramètre important et il est recommandé de tester plusieurs combinaisons en fonction du contexte. Il est possible de complexifier la recherche en ajoutant des lignes supplémentaires. Nous proposons ici de réduire les résultats aux documents dans lesquels 30 mots maximum séparent les termes "orange" et "agrume". Nous allons en quelque sorte tracer un cercle dont le centre serait le mot "orange" et dont le rayon serait composé de 30 mots au maximum. C’est à l’intérieur de ce cercle que nous cherchons désormais le terme "agrume".

Cette nouvelle méthode aboutit à 41 résultats, soit dix fois moins qu'avec la méthode précédente. Un examen des documents proposés confirme que nous avons bien affaire à un agrume !

On peut de la même manière utiliser cette nouvelle fonctionnalité dans le cadre de la recherche d'une personne rendue difficile par l'existence de différentes formulations possibles pour son nom : "Prénom Nom", "Nom Prénom", "Nom, Prénom" ou encore "(Nom) Prénom". Prenons pour exemple un certain Isaac Adler, pour lequel la recherche avancée traditionnelle propose 1671 résultats, dans lesquels "Isaac" et "Adler" ne sont pas nécessairement liés. Utilisons maintenant la recherche par proximité avec une distance d'un seul mot entre "Isaac" et "Adler".
 

 

Nous sommes passés à 12 résultats qui correspondent bien aux différentes formulations possibles du nom de cette personne : "Isaac Adler", "Adler Isaac" et "(Adler) Isaac.

Un Charpentier boulanger (et vice-versa)

Mettons-nous maintenant dans la peau d’un généalogiste qui enquête sur un certain Charpentier, boulanger établi rue de Moscou, dans le 8ème arrondissement de Paris, et dont nous recherchons des mentions dans la presse numérisée. Aux difficultés posées par la fréquence probable des termes "charpentier" et "boulanger", patronymes relativement courants et homonymes de noms communs, s’ajoute la multiplicité des formulations possibles pour la rue de Moscou : "rue de Moscou", "r. de Moscou" et parfois même "Moscou" tout court dans certaines sources comme les annuaires et les almanachs. En combinant les termes "charpentier", "boulanger" et "moscou" dans le formulaire de recherche avancée de Gallica et en sélectionnant "Presse et revues" comme catégorie de documents, nous obtenons 59 838 résultats. Ceux-ci contiennent bien les trois termes recherchés. Rien n’indique toutefois que ces trois termes figurent dans un seul et même article et concernent bien notre Charpentier boulanger de la rue de Moscou. Nous proposons maintenant de réduire la recherche aux documents dans le texte desquels 10 mots au maximum séparent les termes "charpentier" et "boulanger", d’une part, et "charpentier" et "moscou", d’autre part.

De 59 838 résultats avec la recherche avancée traditionnelle, nous passons à 27 grâce à cette nouvelle méthode. Ces 27 résultats sont issus de la presse quotidienne et de l’Annuaire-almanach du commerce de Paris et, dans la grande majorité des cas, concernent bien un boulanger nommé Charpentier établi rue de Moscou, à Paris !


Il ne vous reste plus qu’à chercher un Mr. Boulanger, charpentier de profession… Mais c’est une autre histoire ! (Un indice : il n’y en a pas rue de Moscou).

Le saint-patron de la recherche avancée

Notre quatrième exemple concerne une recherche de livres évoquant le quartier Saint-Michel dans le centre-ville de Bordeaux, et non celui du cinquième arrondissement de Paris. Comparons comme dans le cas précédent la recherche avancée traditionnelle et la recherche par proximité avec les termes "bordeaux" et "saint-michel". Dans le premier cas, nous obtenons 20 023 résultats, dans lesquels « saint-michel » fait autant référence aux quartiers bordelais et parisiens qu’au saint patron des boulangers et des escrimeurs.

Essayons maintenant une recherche par proximité, avec une distance maximale de 10 mots entre "saint-michel" et "bordeaux".

Le nombre de résultats tombe à 583, soit 35 fois moins qu’avec la méthode précédente, et un rapide examen des documents proposés montre qu’ils concernent pratiquement tous le quartier Saint-Michel de Bordeaux.

C’est à vous de jouer, maintenant ! N'hésitez pas à partager sur les réseaux sociaux le fruit de vos recherches avec cette nouvelle fonctionnalité.

Commentaires

Soumis par PUTIGNY le 26/11/2019

Un outil qui va pouvoir se révéler passionnant... à utiliser sans "limitation "....

Soumis par Hovart le 26/11/2019

Il y avait l'opérateur NEAR dans la recherche booléen ne, mais il ne permettait pas de préciser le degré de proximité. Et puis en dehors des bibliothécaires et documentalistes, la recherche booléenne, sur des chaînes de caractères...
Beau souci de faciliter la tâche de l'usager, et d'éviter la désespérante noyade ;-)

Soumis par Jean Marie le G... le 12/12/2019

Bonjour c est genial merci !

Soumis par Hélène Grange le 01/04/2022

Très pratique, je l'utilise souvent.
De nombreuses bases de données devraient s'en inspirer !

Ajouter un commentaire

Plain text

  • Aucune balise HTML autorisée.
  • Les adresses de pages web et de courriels sont transformées en liens automatiquement.
  • Les lignes et les paragraphes vont à la ligne automatiquement.