Présentation de l’analyse automatique de la morphologie tchèque

 

.

 

 

Analyse morphologique automatique du tchèque

Patrice  POGNAN

Plidam-INALCO                                                              ÚFAL-MFF UK

 

 

 L’analyse automatique de la morphologie tchèque se caractérise par une approche fondée sur le système linguistique tchèque au sein du système des langues slaves de l’Ouest.

Sur la base d’une connaissance fine de la grammaire synchronique et diachronique sont développés des algorithmes de reconnaissance de formes linguistiques. Leur succèdent des procédures de raisonnement à partir des résultats obtenus, de la connaissance des modèles de flexion et de l’exploration du texte. Ces techniques et le concept de calculabilité donnent à cette analyse des caractéristiques de type « intelligence artificielle ».

Un contrat tchèque GAČR-16-18177S et un programme Hubert Curien (PHC) Barrande 2016 ont permis la reprise de travaux plus anciens datant de la fin des années 80. Ce que je présente est un système rénové où coopèrent un programme d’analyse morphologique par reconnaissance de formes, un programme de segmentation morphématique (qui doit répondre à ma conception des racines slaves) et un programme de reconnaissance des emprunts, notamment gréco-latins. L’architecture du système est donnée dans les pages qui suivent dans une version française et dans une version tchèque. Les algorithmes développés renvoient à une présentation grammaticale des faits analysés. Des exemples tirés des textes traités illustrent le propos.

Tant les programmes que les données devront être complétés et vérifiés.

On trouvera ci-dessous une vidéo de présentation globale du système faite à l’attention de collègues de l’Université de Wrocław.

 

.

 

continuer