Solutions
&
UNE TECHNOLOGIE INNOVATRICE
  UNE EXPERTISE LINGUISTIQUE
    UN SERVICE PERSONNALISÉ

Porte d’accès à des solutions d’avant-garde uniques basées sur l’expérience, la connaissance et la mise au point de technologies innovatrices.

Les projets R&D de NLP

Traitement des textes juridiques

Deux projets récents de NLP Technologies en collaboration avec RALI, Université de Montréal, sous la direction de Guy Lapalme, traitent des textes juridiques:
  • Automatic summarization of Legal Text (ASLI)
  • Intelligent system for Semantic processing and Automatic summarization of Legal information (ISASLI)

Résumé automatique

Des chercheurs du NLP, en collaboration avec RALI, Université de Montréal sous la direction de Atefeh Farzindar, travaillent dans le domaine du résumé automatique depuis plusieurs années.
  • Les travaux ont débuté à la fin des années 90 avec Horacio Saggion qui développé SumUM pour le résumé d'articles scientifiques.
  • SumUM a ensuite été adapté pour CATS pour résumer plusieurs documents.
  • LetSUM a initié une série de travaux sur les documents juridiques.
  • Depuis 2002, le RALI a systématiquement participé aux compétitions de Document Understanding Conference (DUC) et plus récemment de Text Analysis Conference (TAC)
  • En 2007-2008, le RALI en collaboration avec NLP Technologies, ont participé au projet ASLI dont un volet important porte sur le résumé de textes juridiques.
  • En 2009, le RALI et NLP Technologies ont poursuivi leur collaboration dans le cadre du projet ISASLI

Le système SumUM

SumUM a été développé par Horacio Saggion dans le cadre de sa thèse de doctorat (1997-2000). Horacio travaille maintenant comme Ramon y Cajal Senior Research Fellow au Department of Information and Communication Technologies de l'Universitat Pompeu Fabra à Barcelone.

SumUM génère de courts résumés (10-15 lignes) de longs documents (15-20 pages) scientifiques et techniques. SumUM produit le résumé en deux étapes: l'utilisateur reçoit d'abord un résuméindicatif, qui identifie les sujets importants du document et le système génère ensuite un résumé informatif qui élabore quelques sujets choisis par l'utilisateur.

L'entrée du système est un article scientifique en anglais, contenant les éléments structuraux suivants: titre de l'article, auteur et affiliation, introduction, sections principales, conclusion, bibliographie et remerciement. La sortie du système est un court résumé indicatif composé de phrases complètes. Ce résumé n'est pas qu'un simple extrait de phrases du texte original, il est régénéré à partir des informations trouvées. Il est de qualité comparable à celle des résumés d'auteur. Il est ensuite possible d'obtenir des informations supplémentaires sur des sujets identifiés par l'usager.
Pour la participation à l'évaluation des systèmes de génération automatique de résumés DUC 2002, Atefeh Farzindar a modifié SumUM sans en changer l'algorithme ou les patrons développés manuellement à partir de l'étude de corpus des résumés écrits par les résumeurs professionnels. Comme il est décrit dans ce document, Malgré le fait qu'il n'avait pas été développé pour le type de texte (articles de journaux) utilisé à DUC2002, SumUM s'est classé parmi les meilleurs systèmes de la compétition. Pour DUC2003, SumUM a été modifié pour participer à la compétition portant sur les résumés de documents multiples et a obtenu de très bons résultats.

Le système CATS

CATS (Cats is an Automatic Text Summarizer) a été développé par Atefeh Farzindar et Frédérik Rozon au cours de l'été 2005 pour participer à la compétition Document Understanting Conference 2005 (DUC2005). La tâche consistait à résumer, en moins de 250 mots, des groupes d'une vingtaine d'articles de journaux traitant du même sujet. Le résumé devait traiter d'un aspect particulier identifié par une question de quelques lignes. La performance de CATS, décrite dans cet article, a été excellente par rapport à l'ensemble de la trentaine de systèmes qui ont participé à la compétition.

Le système LetSUM (Legal text Summarizer)

En collaboration avec le groupe LexUM, qui faisait alors parti du Centre de recherche en droit public de la Faculté de Droit de l'Université de Montréal, Atefeh Farzindar a étudié la problématique des résumés de textes juridiques, plus particulièrement les jugements. La méthodologie repose sur l'exploitation de la structure thématique des décisions juridiques afin de constituer automatiquement une fiche de résumé augmentant la cohérence et la lisibilité du résumé. LetSUM permet aux juristes de consulter rapidement les idées clés d'un jugements pour trouver les jurisprudences pertinentes. Arefeh a soutenu sa thèse en mars 2005 et elle a fondé une entreprise NLP Technologies qui commercialise un système de gestion de documents juridiques.


Le projet ASLI: Automatic summarization of Legal Text (ASLI)

Entre juillet 2007 et juin 2008, NLP Technologies et le RALI ont collaboré au projet ASLI (Automatic Summarization of Legal Information) financé dans le cadre du programme Alliance de Precarn).

La collaboration avec le RALI portait sur deux points:
  • Des règles sémantiques du domaine juridique permettent de segmenter un jugement, d'en identifier les domaines, d'y choisir les phrases pertinentes et d'identifier la catégorie du jugement et de déterminer les citations. Il faudra en développer un modèle général de ces diverses règles en tenant compte des aspects de maintenance, de facilité de modification et d'amélioration de la performance.
  • Mise au point d'un traducteur automatique de jugements (dans un premier temps, de l'anglais vers le français). Ces traductions machine seront identifiées comme telles et ne resteront accessibles que jusqu'à ce qu'une traduction humaine ne soit disponible, ce qui arrive généralement entre 9 à 12 mois plus tard.
On peut obtenir plus d'information sur le projet:
  • Article du Forum de novembre 2007.
  • Emmanuel Chieze, Atefeh Farzindar and Guy Lapalme. Automatic Summarization and Information Extraction from Canadian Immigration Decisions. Proceedings of the Semantic Processing of Legal Texts Workshop, p. 51-57, may 2008 LREC 2008 [PDF]
  • Emmanuel Chieze, Atefeh Farzindar and Guy Lapalme. An Automatic System for Summarization and Information Extraction of Legal Information. Accepté à Semantic Processing of Legal Texts [PDF].
  • Fabrizio Gotti, Atefeh Farzindar, Guy Lapalme and Elliott Macklovitch. Automatic Translation of Court Judgments. AMTA'2008 The Eighth Conference of the Association for Machine Translation in the Americas, p. pp 1-10, Waikiki, Hawai'i, oct 2008 [PDF]
  • Atefeh Farzindar and Guy Lapalme. Machine Translation of Legal Information and Its Evaluation. Canadian AI '09: Proceedings of the 22nd Canadian Conference on Artificial Intelligence, series. Lecture Notes in Artificial Intelligence, p. 64-73, Kelowna, Canada, jun 2009 Springer-Verlag. [PDF]
  • Atefeh Farzindar. Automatic Translation Management System for Legal Texts. MT Summit XII: Proceedings of the twelfth Machine Translation Summit, p. 417-424, Ottawa, Ontario, aug 2009 [PDF]

Le projet ISASLI: Intelligent system for Semantic processing and Automatic Summarization of Legal Information (ISASLI)

Entre janvier et décembre 2009, grâce au financement accordé par Precarn, le RALI et NLP Technologies ont collaboré à l'amélioration du système de révision manuelle des résumés et sur l'exploration de méthodes statistiques de résumé qui permettront d'accélérer l'adaptation à de nouveaux domaines. Ce projet impliquait également la participation de Palomino System Innovations Inc.

La collaboration avec le RALI portait sur deux points:
  • Le développement de RevSum une interface Web d'aide à la révision de résumés automatiques qui offre une vue claire et conjointe du document original et du résumé et propose une interaction simple et rapide à l'échelle de la phrase. Cette interface est maintenant en production journalière chez NLP Technologies. Cette interface a ensuite été adaptée pour créerHexTAC servir à la création de résumés par extraction pour la compétition TAC2009.
  •  L'exploration de méthodes statistiques pour le résumé automatique de textes juridiques. Les expériences ont porté sur l'exploitation d'un corpus de 4000 paires texte-résumé pour réaliser l'apprentissage.
On peut obtenir plus d'information sur le projet:
  • Atefeh Farzindar et Mehdi Yousfi-Monod. RevSum - le logiciel Web d'aide à la révision de résumés automatiques. Présentation RALI-OLST, 23 juin 2009. [PDF]
  • Pierre-Etienne Genest, Guy Lapalme et Mehdi Yousfi-Monod. HEXTAC: the Creation of a Manual Extractive Run. Proceedings of TAC2009.[PDF]
  • Mehdi Yousfi-Monod, Atefeh Farzindar and Guy Lapalme. Supervised Machine Learning for summarizing Legal Documents. Proceedings of Canadian AI 2010, May 2010, Ottawa.