analyse morphologique automatique du tchèque

 

 

Analyse morphologique automatique du tchèque

Patrice  POGNAN

Plidam-INALCO                                                              ÚFAL-MFF UK

 

 

 

C’est un programme de reconnaissance des emprunts, publié en 1983 dans le « Prague Bulletin of Mathematical Linguistics » n° 40, qui a lancé ce courant de recherche. L’analyse automatique de la morphologie et de la syntaxe à destination d’un système d’indexation a été conduite depuis la fin des années 80 et pendant les années 90. Les années 2000 ont été marquées par l’introduction de phénomènes de la phonologie historique dans les processus d’analyse, puis par la description précise du système linguistique des langues slaves de l’Ouest dans lequel vient s’inscrire le système tchèque. L’ensemble débouche sur le concept de « calculabilité ».

Ces travaux ont été repris à partir de 2016 dans le cadre d’un contrat tchèque GAČR-16-18177S « Intégration des morphologies flexionnelle et dérivationnelle du tchèque » (Integrovaný přístup k derivační a flektivní morfologii češtiny) conduit par Magda Ševčíková. En plus de la reprise des programmes d’analyse de la morphologie et des emprunts, notamment gréco-latins, par reconnaissance de formes, un programme de segmentation a été initié, basé sur une conception des morphèmes qui n’est pas totalement traditionnelle.

Depuis un programme de reconnaissance de substantifs par raisonnement sur les modèles de flexion et étude textuelle a été élaboré.

Sur la base d’une connaissance fine du système linguistique synchronique et diachronique du tchèque sont développés des algorithmes de reconnaissance de formes linguistiques, de raisonnement sur les résultats et d’exploration textuelle. Ces techniques et le concept de calculabilité, développé depuis une vingtaine d’années, donnent à cette analyse des caractéristiques de type “intelligence artificielle”.

Le projet Erasmus+ PEAPL « Plateforme Européenne d’Apprentissage Personnalisé des Langues » conduit par Antonella Corvaglia s’appuiera sur ces travaux en ce qui concerne le tchèque et les langues slaves de l’Ouest. Les informations correspondantes seront présentées sur les pages de ce site.

 

continuer

 

 

 

 Automatická morfologická analýza češtiny

Patrice  POGNAN

Plidam-INALCO                                                 ÚFAL-MFF UK

 

 

 

Automatická morfologická analýza se opírá o detailní znalost českého lingvistického systému jako součásti širšího lingvistického systému západoslovanského. Na základě podrobného rozboru synchronní i diachronní mluvnice jsou rozvíjeny algoritmy rozpoznávání lingvistických forem, dále jsou odvozovány další hodnoty získávané z textu. Ty vyplývají z výsledků a ze znalosti gramatických paradigmat. Postup opírající se o vypočitatelnost češtiny nepatří pouze do oboru lingvistického zpracování jazyků, ale i do oboru umělé inteligence.

 

pokračovat