Celková architektura morfologické analýzy češtiny

.

.

français

 

Hlavní program je program morfologické analýzy s názvem „ANAMORF“. Opírá se o podrobný popis českého lingvistického systému, který je rozdělen na dvě části:

verbální část (symbolicky označena ve výsledcích jako „V“) a
nominální část (označena jako „^V“). Obsahuje lexikální kategorie jiné než sloveso.

Program „ANAMORF“ zahrnuje zatím jen nominální část. Velký důraz je kladen na přídavná jména, neboť existují pouze dvě subkategorie: přídavná jména tvrdá i přídavná jména měkká. Je to oproti četnosti typů substantiv značná výhoda. K tomu je třeba ještě dodat, že přídavná jména tvrdá se rozpoznávají poměrně jednoduše. Vyhledávání měkkých přídavných jmen je výrazně složitější. Koncovky měkkých adjektiv ukazují i na jiné kategorie. To je důvod, proč se podstatná jména slovesná analyzují dříve než měkká přídavná jména. Takové kategorie jsou „otevřené“. Na začátku programu jsou uváděny tzv. „uzavřené“ kategorie. Jedná se o malé seznamy maximálně několika desítek slov. Jsou to především spojky a předložky.

Struktura nominální části vypadá následovně:

▪ spojky a předložky
podstatná jména podle vzoru „kost“
podstatná jména slovesná
▪ přídavná jména tvrdá

▪ přídavná jména tvrdá odvozená od příčestí trpného i činného
▪ slovesná adjektiva predikativní

▪ přídavná jména měkká

▪ přídavná jména měkká odvozená od přechodníků přítomného i minulého
▪ slovesná adjektiva účelová

▪ příslovce odvozená od přídavných jmen

Každá otevřená kategorie přivolává vnější program morfematického rozboru. Tato funkce vyhledává předpony a přípony a určuje kořen podle různých strukturních šablon. Současně rozpoznává pomocí další vnější funkce slova cizího původu, pro něž je analyzována pouze sufixální část. Struktura těchto vedlejších programů bude představena později.