Présentation
Contexte
Le décuplement de la documentation accessible en ligne a transformé la recherche juridique, qui ne peut plus prétendre à l’exhaustivité, mais seulement à la pertinence des résultats obtenus. Certains observateurs appréhendent une crise des sources qui mettrait en péril l’accès au droit et son effectivité. L’organisation de l’information juridique est un enjeu capital pour la pratique du droit et dans la formation des juristes.
Les banques de données qui renferment la documentation juridique présentent un intérêt nouveau pour le développement de l’intelligence artificielle dans le domaine juridique. Elles alimentent les logiciels qui visent à modéliser ou à prédire la prise de décision en droit.
Problématique
Les banques de données ont transformé le comportement des chercheurs d’information juridique. La recherche par mots-clés dans le texte intégral (recherche plein-texte) s’est ajoutée à celle qui consistait à repérer des documents à l’aide des termes utilisés pour les classifier ou les indexer (recherche à l’aide des termes d’indexation). On observe une tendance chez les utilisateurs à privilégier la recherche à partir d’éléments factuels (par exemple, « chute trottoir glace »), négligeant la recherche à l’aide de catégories juridiques (par exemple, « responsabilité civile » ou « droit municipal »). Des documents se rapportant aux mêmes questions juridiques, quoique décrivant des faits différents, risquent d’être omis, ce qui dénote une perte de la capacité à qualifier juridiquement les faits et à raisonner par analogie.
Pendant ce temps, l’organisation de la matière du droit à des fins d’enseignement et de recherche demeure fidèle à la classification des catégories juridiques dont l’acquisition constitue toujours l’un des objectifs de la formation universitaire. Toutefois, la délimitation des domaines du droit est demeurée sensiblement la même depuis la fin du 19e siècle. Elle tend à marginaliser les catégories juridiques d’apparition récente – pensons aux lois dites sectorielles – et ne rend pas compte des nombreuses situations qui interpellent plusieurs domaines du droit – pensons à la violence familiale. Ainsi, on reproche aux facultés de droit de développer une pensée en silos. Est-il suffisant de perfectionner et de rendre plus actuelles les classifications juridiques, ou faut-il envisager d’autres présentations de la matière afin de combattre la pensée en silos?
Objectifs
Notre projet de recherche a pour objectif de développer un modèle original pour la représentation et le repérage de l’information juridique disponible en ligne. Ce modèle permettrait d’accéder à la documentation à partir d’éléments factuels ou de catégories juridiques. Il faciliterait la qualification juridique des faits, par l’association d’une ou plusieurs catégories juridiques aux termes d’indexation de nature factuelle. Il favoriserait le raisonnement par analogie qui consiste à repérer des documents se rapportant aux mêmes questions juridiques, même si les faits sont différents. Enfin, il mettrait en évidence les liens entre certains éléments factuels et une pluralité de catégories juridiques, ce qui permettrait de dépasser les silos.
Apport de l’indexation en vocabulaire contrôlé
L’indexation consiste à représenter de manière concise, sous forme de termes d’indexation, le sujet d’un document afin d’en faciliter la recherche ultérieure. Il existe deux méthodes d’indexation, soit l’indexation par extraction et l’indexation par assignation. Dans la première, les termes d’indexation sont extraits du contenu du document, généralement au moyen d’outils informatiques s’appuyant sur des traitements statistiques et linguistiques. La seconde méthode est plus subjective et, au contraire de la première, source de nouvelles informations : les termes d’indexation sont choisis par l’indexeur pour représenter les sujets dont traite le document en s’appuyant sur la langue naturelle (indexation en vocabulaire libre) ou sur un langage documentaire (indexation en vocabulaire contrôlé).
L’utilisation d’un vocabulaire contrôlé pour l’indexation permet de regrouper les synonymes et les variations orthographiques et de forme, de fournir des références pour les termes obsolètes, de distinguer les différents sens des termes polysémiques et de fournir des références hiérarchisées. L’interposition d’un vocabulaire contrôlé améliore la qualité de l’indexation autant que de la recherche. Il est étonnant que les éditeurs de banques de données juridiques n’aient pas davantage recours au vocabulaire contrôlé. Notre modèle mise, au contraire, sur cette technique éprouvée.
Apport des facettes
La classification à facettes consiste à représenter le sujet d’un document à travers plusieurs dimensions jugées essentielles, appelées facettes. Contrairement à la présentation hiérarchique simple des plans de classification traditionnels, la classification à facettes multiplie les voies de navigation vers chacun des documents dans une banque de données.
SR Ranganathan, bibliothécaire et mathématicien indien du 20e siècle, a développé la méthode analytico-synthétique permettant de décomposer un sujet en facettes. Ranganathan a défini cinq facettes dont il espérait qu’elles auraient une application universelle : la personnalité (personne ou objet), la matière (substance, propriété ou qualité), l’énergie (opération principale, processus ou action), l’espace (lieu) et le temps (date, durée ou période). Ranganathan soutenait que tout sujet de la connaissance ou encore tout sujet d’un document possède l’un ou plusieurs de ces aspects.
La classification à facettes est parfaitement adaptée à l’environnement numérique. C’est pourquoi de nombreux sites Web commerciaux, banques de données et catalogues de bibliothèque proposent des interfaces de navigation à facettes. Chaque facette contient une liste de termes accompagnés du nombre de documents qu’ils décrivent. En sélectionnant successivement plusieurs termes, l’utilisateur réduit le nombre de résultats et obtient une liste plus pertinente pour lui. Tout porte à croire que l’inclusion de facettes dans les interfaces de navigation accélère la recherche d’information, améliore la pertinence des résultats et augmente la satisfaction des utilisateurs.
Les éditeurs de banques de données ont introduit des facettes pour représenter les métadonnées des documents de la banque, par exemple l’auteur et la date (facettes-forme). Comme l’envisageait Ranganathan, notre modèle emploie les facettes pour représenter le sujet des documents (facettes-contenu).
Nous avons rapproché les facettes de Ranganathan de la classification proposée par le jurisconsulte Gaius au 2e siècle. Gaius a observé que « tout le droit que nous utilisons se rapporte soit aux personnes, soit aux biens, soit aux actions ». Notre modèle retient quatre facettes inspirées de Ranganathan et de Gaius pour décrire la situation factuelle à l’origine d’un litige : Personne, Action, Chose et Contexte. À celles-ci s’ajoutent deux classes qui représentent les catégories juridiques appliquées ou envisagées par le tribunal : Régime juridique et Sanction.
Apprenez-en davantage sur la méthodologie du projet.
Banque de données prototype
Nous avons construit une banque de données prototype nommée Gaius qui comprend près de 2 500 décisions en droit des obligations, en droit administratif et en droit du travail. L’interface de recherche propose quatre fonctions qui peuvent être combinées : la recherche par mots-clés dans le texte intégral (recherche plein-texte); la recherche par mots-clés dans les termes d’indexation seulement; la recherche par mots-clés dans tous ces champs et la recherche au sein des facettes par la sélection des termes d’indexation qui s’y retrouvent. Ainsi, l’utilisateur peut débuter sa recherche par des mots-clés, puis filtrer les résultats à l’aide des facettes.
La banque de données Gaius, qui représente notre modèle, nous a permis de tester la valeur ajoutée des facettes au moyen d’une étude d’utilisabilité.
Vous pouvez essayer l'interface de recherche pour explorer le corpus de décisions qui ont été indexées à l'aide de notre modèle.
Retombées
La banque de données Gaius demeure insuffisante pour entraîner des algorithmes d’apprentissage supervisé visant à automatiser l’indexation en vocabulaire contrôlé de décisions additionnelles. Elle pourrait toutefois être développée davantage dans ce but. Elle pourrait également soutenir le développement d’autres applications d’intelligence artificielle dans le domaine juridique.
Publication des résultats
Voyez la rubrique « Publications de l’équipe » de la bibliographie du projet.
Membres de l’équipe et remerciements
Le projet est dirigé par Michelle Cumyn, professeure à la faculté de droit de l’Université Laval (chercheuse principale) et Sabine Mas, professeure à l’École de bibliothéconomie et des sciences de l’information (EBSI) de l’Université de Montréal (cochercheuse). Michèle Hudon, professeure retraitée de l’EBSI et Günter Reiner, professeur à l’Universität der Bundeswehr Hamburg, ont collaboré au projet. David Lesieur, qui a programmé Gaius, a aussi contribué à la conception et au développement du projet.
Plus d’une vingtaine d’assistants de recherche ont participé au projet de recherche. La plupart de ces personnes sont aujourd’hui étudiants ou diplômés en sciences de l’information, en droit ou bien travaillent comme bibliothécaire, archiviste ou juriste. Sans la contribution de ces personnes ce projet n’aurait pu se concrétiser.
Nos remerciements aux auxiliaires de recherche rattachés à la faculté de droit : Christophe Achdjian, Dominique Boulanger, Oksana Burak, Sarah Jolicoeur, Ariane Joncas, Joanie Gosselin-Lepage, Justin Lee, Papa-Adama Ndour, Amélie Roy, Erin Sandberg, Charles Tremblay-Potvin, Antoine Tousignant, Forrest Wakarchuk et Iryna Zazulya.
Nos remerciements aux auxiliaires de recherche rattachés à l’EBSI : Camille Demers, Alexandre Fortier, Cécile Gaiffe, Marjorie Gauchier, Virginie Houde, Béatrice Lecomte, Claire Nigay, Cécile Pechcontal, Vicky Shank, Lan Song et Marie-Hélène Tanguay-Bérubé.
Nos remerciements à Me Danielle Blondin et à Me Véronique Abad, de la Société québécoise d’information juridique (SOQUIJ), partenaire du projet, pour leur précieuse collaboration au bon déroulement du projet.
Nos remerciements à Christine Dufour, professeure à l’EBSI, à Mohamed Maatallah, informaticien à l’EBSI et à Anne-Sophie Julien du Service de consultation statistique de l’Université Laval, pour leur contribution.
Nos remerciements au Conseil de recherches en sciences humaines du Canada (CRSH), qui nous a accordé un financement de 334 000 $ sur 5 ans pour la réalisation de ce projet.
Mille mercis aux étudiants en droit, aux juristes, aux chargés de cours, aux professeurs, aux bibliothécaires et à toutes les personnes qui nous ont accordé leur confiance et leur temps en acceptant volontairement de participer à l'étude d'utilisabilité. Sans vous, ce projet n’aurait pu se concrétiser.