# Morfologická analýza

Tento notebook se zaměřuje na tvorbu jednoduchého morfologického analyzátoru. Notebook se nesoustředí na značkování všech gramatických informací, ale pouze na značkování slovních druhů. Taktéž vynechává problematiku lemmatizace. K řešení používá pouze základní funkce Pythonu, případně modul re pro regulární výrazy.

Morfologická analýza je důležitým komponentem např. v korpusové lingvistice. Podle webu [Českého národního korpusu](https://wiki.korpus.cz/doku.php/pojmy:morfologicka_analyza) se morfologická analýza skládá z přiřazení lemmat (slovníkových podob hesel) a morfologických značek ke všem slovním tvarům.

Morfologické značky nesou všechny gramatické informace, jaké lze u daného slovního tvaru určit. Přičemž tyto značky se v různých korpusech mohou výrazně lišit (srov. „pražské“ a „brněnské“ značky), případně nemusí obsahovat úplně všechny gramatické informace. Na morfologickou analýzu navazuje desambiguace (zjednoznačnění), tj. odstranění homonymie.

Pro češtinu existují např. analyzátory [majka](https://nlp.fi.muni.cz/czech-morphology-analyser/) a [MorphoDiTa](http://lindat.mff.cuni.cz/services/morphodita/info.php).

## 1 S čím budete pracovat

### 1.1 re

V tomto notebooku použijete modul re, který slouží pro práci s regulárními výrazy.

Více informací na [re](https://docs.python.org/3/library/re.html) nebo [Programiz](https://www.programiz.com/python-programming/regex).

Pro připomenutí regulárních výrazů může pomoct tento [cheatsheet](https://cheatography.com/davechild/cheat-sheets/regular-expressions/). Než výrazy implementujete do svého kódu, můžete si jejich funkčnost vyzkoušet např. na [regex101](https://regex101.com/) (nezapomeňte si v levém boxu přepnout flavor na Python).

### 1.2 string

Třída string obsahuje užitečné konstanty, které lze v určitých případech využít místo regulárních výrazů. Například při využití konstanty punctuation, která obsahuje interpunkční znaménka, tato znaménka nemusíte ručně vypisovat do regulárního výrazu. 

Více informací na [string](https://docs.python.org/3/library/string.html), příklad použití je v 8. sekci tohoto noteboku.

### 1.3 MorphoDiTa

K řešení tohoto notebooku bude třeba jak neoznačkovaný, tak označkovaný text. K označkování textu je vhodné použít morfologický analyzátor [MorphoDiTa](http://lindat.mff.cuni.cz/services/morphodita/) a výstup z něj vhodně upravit pro účely tohoto notebooku.

## 2 Instalace

### 2.1 re

Modul re je součástí tzv. The Python Standard Library (standarní knihovny Pythonu), není tedy nutné nic instalovat.

Více informací na [The Python Standard Library](https://docs.python.org/3/library/).

### 2.2 string

Třída string je také součástí The Python Standard Library, proto ji není nutné instalovat.

### 2.2 MorphoDiTa

Analyzátor MorphoDiTa je dostupný jako webová aplikace [zde](http://lindat.mff.cuni.cz/services/morphodita/). Není tedy třeba nic instalovat.

## 3 Import knihoven a modulů

Před samotným psaním programu je nutné importovat všechny knihovny a moduly, které budou potřeba k řešení. Patří mezi ně:

- modul re,
- třída string.

Spusťte následující buňku, modul re a třída string se importují.

**Poznámka:** Po každém zavření a otevření notebooku je nutné všechen kód (tj. i importování) spustit znovu. Výsledky sice zůstanou zobrazeny, obsah proměnných však v paměti nezůstává.

In [None]:
import re, string #importuj modul re a třídu string

Další sekce představuje přípravu souboru pro značkování.

Pokud si potřebujete zopakovat práci se soubory, regulárními výrazy, seznamy, či řezy, sekce zabývající se těmito tématy naleznete v notebooku o tokenizaci.

## 4 Příprava textu

Než začnete pracovat na analyzátoru, musíte si předpřipravit text, se kterým budete pracovat. Budete potřebovat dvě verze textu –⁠ jednu označkovanou a jednu neoznačkovanou. Označkovaná verze bude sloužit k výpočtu přesnosti vašeho programu. Neoznačkovanou verzi bude váš program značkovat.

Můžete použít již předpřipravený text, v tom případě následující buňky nemusíte spouštět. Pokud se rozhodnete pracovat s vlastním textem, následující informace a funkce použijete k předpřipravení textu.

### 4.1 Označkování textu

K označkování je nejjednodušší použít analyzátor MorphoDiTa. Ve webové verzi aplikace ponechte výchozí nastavení, pouze zmeňte výstup z Formatted na Vertical. Text buď můžete zkopírovat do pole Input Text nebo můžete nahrát soubor ve formátu txt do pole Input File. Klikněte na Process Input a výsledek ve formátu txt si uložte do počítače.

![MorphoDiTa nastavení](https://raw.githubusercontent.com/AiKuroyake/PLIN-programming/main/pictures/Screenshot%20from%202022-04-28%2021-20-55.jpg)

### 4.2 Úprava textu

Následující buňka otevře označkovaný text a uloží jej do proměnné txt. Aby vám buňka fungovala, ujistěte se, že jste změnili cestu k souboru a název podle toho, kde máte soubor uložený.

In [None]:
with open ('morphodita-processed.txt', 'r') as txt: #otevři soubor morphodita-processed.txt
    txt = txt.read() #ulož obsah souboru do proměnné txt

In [None]:
txt #vypiš proměnnou txt

Můžete si všimnout, že jednotlivá slova jsou oddělena novým řádkem a slovní tvar, lemma a značka se oddělují tabulátory. Pro váš morfologický analyzátor je důležitý pouze slovní tvar a slovní druh, lemma tedy vůbec nepotřebujete.

K odstranění lemmat použijte regulární výraz `\t.*\t`, který odstraní vše, co je uzavřené mezi dvěma tabulátory, tj. lemmata.

In [None]:
txt = re.sub('\t.*\t', ' ', txt) #nahraď lemmata mezerou

In [None]:
print(txt) #vypiš proměnnou txt

Aby se vám jednodušeji programovalo, rozdělte si text na jednotlivé slovní tvary. Každý tvar je na samostatném řádku, k oddělení tedy v tomto případě nepoužijete mezeru, ale znak `\n` pro nový řádek.

In [None]:
txt = txt.split('\n') #rozděl jednotlivé slovní tvary podle znaku pro nový řádek

In [None]:
txt #vypiš proměnnou txt

Ve vašem analyzátoru budete řešit pouze slovní druhy, z celé značky proto použijete pouze první pozici udávající informaci o slovním druhu (více o značkách [zde](https://wiki.korpus.cz/doku.php/seznamy:tagy#popis_jednotlivych_pozic_znacky)). Následující buňka projde předchozí seznam a z celé značky ponechá pouze první písmeno (informaci o slovním druhu), které se ke slovu připojí za lomítko. Označkované slovo tak bude vypadat např. `viděl/V`.

In [None]:
tagged = [] #vytvoř nový seznam
for tok in txt: #pro každý slovní tvar v textu
    if len(tok) > 0: #pokud má slovní tvar délku alespoň 1
        tok = tok.replace(tok[-16:], '/'+tok[-15]) #nahraď celou značku za lomítko a slovní druh
        tagged.append(tok) #přidej označkované slovo do seznamu tagged

In [None]:
print(tagged) #vypiš proměnnou tagged

### 4.3 Uložení upraveného textu

Abyste nemuseli po každém otevření notebooku buňky v předešlé sekci spouštět znovu, výstup z nich si uložte do souborů. Následující buňka uloží označkovaný text do souboru `text_tagged.txt`. Všechny slovní tvary navíc oddělí mezerou, což vám pomůže při dalším zpracování. Jméno a cestu k souboru zvolte dle vlastního uvážení.

In [None]:
with open('text_tagged.txt', 'x') as txt_tagged: #vytvoř nový soubor
    for tok in tagged: #pro každý označkovaný slovní tvar v seznamu tagged
        txt_tagged.write(tok+' ') #ulož slovní tvar do souboru a jednotlivé tvary odděl mezerou

Následující buňka uloží neoznačkovaný text do souboru `text_not_tagged.txt`. Všechny slovní tvary opět oddělí mezerou. Cestu k souboru a název opět můžete změnit.

In [None]:
with open ('text_not_tagged.txt', 'a') as txt_not_tagged: #vytvoř nový soubor
    for tok in tagged: #pro každý označkovaný slovní tvar v seznamu tagged
        txt_not_tagged.write(tok[:-2]+' ') #ulož slovní tvar bez značky do souboru a 
                                           #jednotlivé tvary odděl mezerou

## 5 Morfologický analyzátor

V této sekci budete mít za úkol naprogramovat morfologický analyzátor, který rozhodne, do jakého slovního druhu spadají slovní tvary vybraného textu.

**Úkol:** Vytvořte program, který načte data ze souboru a ke každému slovu přiřadí slovní druh.

Na konci tohoto notebooku je funkce `accuracy`, která vyhodnotí, jak je váš analyzátor přesný. Aby porovnání fungovalo, musí váš analyzátor vrátit výsledný text v seznamu, jehož prvky jsou řetězce ve formátu `slovo/slovní_druh`, např. `seznam = ['obrázek/N', 'je/V', 'hezký/A']`. Váš analyzátor musí dodržet velká a malá písmena a značky slovních druhů se musí shodovat se značkami pozičního systému. Více o značkách [zde](https://wiki.korpus.cz/doku.php/seznamy:tagy#poziceslovni_druh). Také si dejte pozor, aby délka vašeho výsledného textu (seznamu) byla stejná jako délka správně označkovaného textu.

K přiřazení slovních druhů použijte např. řezy, seznamy, regulární výrazy nebo třídu string. Úlohu je ale možné vyřešit i bez regulárních výrazů (viz modelové řešení). Projděte si vzorový text, případně text dle vašeho výběru, a na základě vašeho pozorování zkuste vytvořit vzory pro označkování slov. Snažte se dosáhnout co největší přesnosti.

Program vhodně rozdělte na funkce.

<details> 
    <summary>Pokud nevíte, jak začít, klikněte na tento text pro <b>zobrazení nápovědy</b>.</summary>
    <p><b>Nápověda:</b></p>
    <p>Vytvořte funkci, která otevře soubor s neoznačkovanými slovy a vrátí seznam těchto slov.</p>
    <p>Označkujte text. Zkuste nalézt např. interpunkci, čísla, adjektiva apod. Ke značkování použijte podmínky a slova hledejte např. podle počtu písmen ve slově, seznamu slovních tvarů, který si vytvoříte nebo regulárních výrazů.</p>
    <p>Pokud pro některé slovní druhy neumíte vytvořit jednoduchý vzor, podle kterého je můžete nalézt, značkujte je jako substantiva.</p>
    <p>Vraťte seznam s označkovanými slovními tvary.</p>
</details>

## 6 Přesnost analyzátoru

Spusťte následující dvě buňky a zjistěte, jak je váš analyzátor přesný. Při volání funkce zkontrolujte, že zadáváte správný název proměnné a platnou cestu k označkovanému souboru.

Analyzátor z modelového řešení má přesnost 50,9 % na úryvku z Malého prince. Zvládnete naprogramovat přesnější analyzátor?

přesnost = (správně označené slovní tvary / celkově označené slovní tvary) × 100 %

In [None]:
def accuracy(tagged_text, correct_text):
    """ Spočítej přesnost označkovaného textu """
    
    correct_text = open_text(correct_text) #otevři text označkovaný analyzátorem MorphoDita
    correct_count = 0 #vytvoř počítadlo správně označkovaných slovních tvarů
    
    for i in range(len(correct_text)): #pro každý slovní tvar v textu
        if tagged_text[i] == correct_text[i]: #pokud je slovní tvar správně označkovaný
            correct_count += 1 #přičti jedna k počítadlu
    
    return correct_count/len(correct_text) * 100 #vrať přesnost naprogramovaného analyzátoru

In [None]:
accuracy(tagged, 'text_tagged.txt') #spočítej přesnost naprogramovaného analyzátoru