# Morfologická analýza

V tomto notebooku naprogramujeme jednoduchý morfologický analyzátor. Budeme se soustředit pouze na značkování slovních druhů, další gramatické informace jako rod, číslo, čas apod. řešit nebudeme. K řešení použijeme pouze základní funkce Pythonu a knihovnu re pro regulární výrazy.

Morfologická analýza je důležitým komponentem např. v korpusové lingvistice. Podle webu [Českého národního korpusu](https://wiki.korpus.cz/doku.php/pojmy:morfologicka_analyza) se morfologická analýza skládá z přiřazení lemmat (slovníkových podob hesel) a morfologických značek ke všem slovním tvarům.

Morfologické značky nesou všechny gramatické informace, jaké lze u daného slovního tvaru určit. Přičemž tyto značky se v různých korpusech mohou výrazně lišit (srv. "pražské" a "brněnské" značky), případně nemusí obsahovat úplně všechny gramatické informace.

Na morfologickou analýzu navazuje desambiguace (zjednoznačnění), tj. odstranění homonymie. Tím se ale v tomto notebooku zaobírat nebudeme.

## 2 S čím budeme pracovat

### 2.1 re

V tomto notebooku použijeme modul re, který slouží pro práci s regulárními výrazy.

Více informací na [re](https://docs.python.org/3/library/re.html) nebo [Programiz](https://www.programiz.com/python-programming/regex).

Pro připomenutí regulárních výrazů vám může pomoct tento [cheatsheet](https://cheatography.com/davechild/cheat-sheets/regular-expressions/). Než výrazy implementujete do svého kódu, můžete si jejich funkčnost vyzkoušet např. na [regex101](https://regex101.com/) (nezapomeňte si v levém boxu přepnout flavor na Python).

### 2.2 Označkovaný text

V tomto notebooku budeme pracovat jak s neoznačkovaným, tak s označkovaným textem. Pro označkování textu byl použit morfologický analyzátor [MorphoDita](http://lindat.mff.cuni.cz/services/morphodita/), výstup z analyzátoru byl poté upraven pro účely tohoto notebooku.

## 3 Instalace

### 3.1 re

Modul re je součástí tzv. The Python Standard Library (standarní knihovny Pythonu), není tedy nutné nic instalovat.

Více informací na [The Python Standard Library](https://docs.python.org/3/library/).

### 3.2 MorphoDita

Pokud budete chtít, nemusíte využít předpřipravený text, ale můžete si jako vzorový text vybrat vlastní. K označkování textu použijeme analyzátor MorphoDita, který je dostupný jako webová aplikace [zde](http://lindat.mff.cuni.cz/services/morphodita/). Není tedy třeba nic instalovat.

## 4 Import knihoven a modulů

Než budeme moct začít s psaním programu, musíme importovat všechny knihovny a moduly, které budeme potřebovat. Patří mezi ně:

- re

Spusťte následující buňku, modul re se importuje.

**Poznámka:** Po každém zavření a otevření notebooku je nutné všechen kód (tj. i importování) spustit znovu. Výsledky sice zůstanou zobrazeny, obsah proměnných však v paměti nezůstává.

In [1]:
import re #importuj knihovnu re

Než začneme programovat, naučíme se, jak pomocí Pythonu pracovat se soubory. Ukážeme si přepsání obsahu souboru a přidání dalších řádků textu. Zjistíme, jak vytvořit úplně nový soubor. V další sekci si v krátkosti zopakujeme regulární výrazy. Tyto dovednosti využijeme při psaní analyzátoru.

## 5 Práce se soubory

### 5.1 Otevření souboru

K otevření souboru v Pythonu slouží metoda `open`. Požaduje dva parametry:

1. název souboru (pokud se soubor nachází ve stejné složce jako program, stačí pouze název s formátem, pokud se soubor nachází jinde, je nutné specifikovat celou cestu),
2. mód, v jakém se soubor otevře (v našem případě `r`= read = ke čtení).

Pokud si budete chtít otevření souboru vyzkoušet, zkontrolujte, že do příkazu níže zadáváte existující soubor s platnou cestou.

In [23]:
txt = open('uryvek.txt', 'r') #otevři soubor ke čtení

Všimněte si, že metoda `open` sice otevře daný soubor a uloží jej do proměnné, nevypíše ale obsah souboru.

In [2]:
txt #vypiš proměnnou txt

<_io.TextIOWrapper name='uryvek.txt' mode='r' encoding='UTF-8'>

### 5.2 Přečtení souboru

K výpisu obsahu proměnné musíme použít metodu `read`, která přečte celý soubor (případně metodu `readlines`, která čte po jednom řádku).

In [6]:
txt2 = txt.read() #přečti obsah proměnné txt2

In [7]:
txt2 #vypiš proměnnou txt2

'Zprava:\n\n      V polovině ledna se v médiích objevila zpráva, že předsedkyně Poslanecké sněmovny Markéta Pekarová Adamová shání stážistu. „Stážistce či stážistovi nabízíme aktivní zapojení do práce v oblasti mezinárodních vztahů a diplomatických aktivit předsedkyně, seznámení se s chodem kanceláře předsedkyně a také s prostorami a fungováním Poslanecké sněmovny,“ stojí v inzerátu.\n\n'

In [10]:
txt3 = txt.readlines(1) #přečti jeden řádek

In [11]:
txt3 #vypiš proměnnou txt3

['Zprava:\n']

### 5.3 Zavření souboru

K zavření souboru slouží metoda `close`. Zavírání souborů je dobrou praxí, která nám zaručí, že si nepoškodíme soubory, se kterými pracujeme. Více na [Stack Overflow](https://stackoverflow.com/questions/7395542/is-explicitly-closing-files-important).

**Poznámka:** Pokud proměnnou přepíšete, tj. proměnná již neobsahuje samotný soubor, ale např. text uložený v řetězci, zavřít soubor vám nepůjde.

In [16]:
txt.close() #zavři soubor uložený v proměnné txt

#### 5.3.1 With open

Metoda `with open` se o zavření souboru postará automaticky. Více třeba ve vláknu na [Stack Overflow](https://stackoverflow.com/questions/9282967/how-to-open-a-file-using-the-open-with-statement).

### 5.4 Zápis do již existujícího souboru

Pokud chceme do souboru i zapisovat, musíme změnit mód, ve kterém soubor otevřeme. V sekci 5.1 jsme použili mód `r` (ke čtení). Pro zápis si můžeme vybrat ze dvou módů:

1. `a` = append = další text připojí na konec souboru
2. `w` = write = přepíše existující obsah souboru

In [13]:
txt = open('uryvek.txt', 'a') #otevři soubor v módu append

Po použití těchto dvou módů můžeme použít metodu `write` k zápisu dalších řetězců do souboru.

In [14]:
txt.write('Nový text') #zapiš do souboru txt řetězec Nový text

10

In [24]:
txt.read() #přečti obsah proměnné txt

'Zprava:\n\n      V polovině ledna se v médiích objevila zpráva, že předsedkyně Poslanecké sněmovny Markéta Pekarová Adamová shání stážistu. „Stážistce či stážistovi nabízíme aktivní zapojení do práce v oblasti mezinárodních vztahů a diplomatických aktivit předsedkyně, seznámení se s chodem kanceláře předsedkyně a také s prostorami a fungováním Poslanecké sněmovny,“ stojí v inzerátu.\n\nNový text'

### 5.5 Vytvoření nového souboru

K vytvoření nového souboru neexistuje specifická funkce, použijeme metodu `open` s některým ze třech módů: `x`, `a`, `w`. 

S `a` a `w` jsme se setkali v předchozí sekci. Jejich použití od nového módu `x` = create se liší v chybových hláškách. Módy `a` a `w` vytvoří nový soubor pouze, pokud již neexistuje. Pokud soubor se stejným jménem existuje, nestane se nic, ale nedostanete ani chybovou hlášku. Oproti tomu mód `x` vytvoří nový soubor pouze pokud soubor se stejným jménem již neexistuje. Pokud takový soubor existuje, dostanete chybovou hlášku.

In [19]:
txt = open('uryvek2.txt', 'w') #vytvoř nový soubor pomocí módu write

In [20]:
txt = open('uryvek2.txt', 'a') #vytvoř nový soubor pomocí módu append (soubor již existuje, nic se nestane a
                               #a ani nedostaneme chybovou hlášku)

In [21]:
txt = open('uryvek2.txt', 'x') #vytvoř nový soubor pomocí módu create (soubor již existuje, dostaneme chybovou
                               #hlášku)

FileExistsError: [Errno 17] File exists: 'uryvek2.txt'

Přehled všech metod a módů práce se souboru naleznete např. na [Geeks for Geeks](https://www.geeksforgeeks.org/writing-to-file-in-python/).

## 6 Regulární výrazy

Regulární výrazy slouží jako vzor pro vyhledávání v textu. V Pythonu díky knihovně re a různým funkcím můžeme textové řetězce nejen vyhledávat, ale i modifikovat nebo je nahrazovat za jiné řetězce. V tokenizátoru využijeme hlavně vyhledávání, pokud budeme chtít nalézt např. interpunkci.

K vyhledávání slouží v Pythonu funkce `search`. Tato funkce požaduje dva parametry, regulární výraz a text, ve kterém se má vyhledávat.

In [1]:
sent = 'Jasno nebo skoro jasno.' #ulož tetxový řetězec do proměnné
sent2 = 'Maximální teploty 10 až 14 °C. ' #ulož textový řetězec do proměnné

In [3]:
reg = re.search(r'\d', sent) #vyhledej první číslici v textu sent

In [4]:
print(reg) #vypiš výsledek hledání

None


In [5]:
reg = re.search(r'\d', sent2) #vyhledej první číslici v textu sent2

In [6]:
print(reg) #vypiš výsledek hledání

<re.Match object; span=(18, 19), match='1'>


Pokud funkce `search` nenalezne text, který by korespondoval s regulárním výrazem, vrátí hodnotu `None`. Pokud naopak nalezne shodu, vrátí index prvního výskytu (`span`) a kolikrát se daný výraz v textu vyskytuje (`match`). V případě, že budeme chtít nalézt všechny textové řetězce, nejenom první, musíme použít funkci `findall`.

Efektivnějším způsobem, jak pracovat s regulárními výrazy, je uložit si je do proměnné. A to zejména, pokud stejné výrazy používáme na různých místech v kódu. Výraz pak v řešení změníme pouze jednou. K tomu slouží funkce `compile`.

In [7]:
pattern = re.compile(r'\d') #zkompiluj regulární výraz pro vyhledání číslic

In [8]:
reg2 = re.findall(pattern, sent2) #vyhledej všechny číslice v texti sent2

In [9]:
print(reg2) #vypiš výsledek hledání

['1', '0', '1', '4']


**Poznámka:** r ve výrazu `r'\d'` slouží v Pythonu k upřesnění, že se nejedná o běžný řetězec, ale regulární výraz. V některých případech vám regulární výrazy budou fungovat i bez r, je ale lepší jej před výrazem použít.

Další funkce naleznete v [dokumentaci ke knihovně re](https://docs.python.org/3/library/re.html), další informace a užitečné odkazy naleznete v sekci 3 tohoto notebooku.

## Příprava textu

In [2]:
with open ('data/morphodita-processed.txt', 'r') as txt:
    txt = txt.read()

In [3]:
txt

'Když\tkdyž\tJ,-------------\nmi\tjá\tPH-S3--1-------\nbylo\tbýt\tVpNS---XR-AA---\nšest\tšest`6\tCn-S1----------\nlet\trok\tNNNP2-----A----\n,\t,\tZ:-------------\nviděl\tvidět\tVpYS---XR-AA---\njsem\tbýt\tVB-S---1P-AA---\njednou\tjednou-2\tDb-------------\nnádherný\tnádherný\tAAIS1----1A----\nobrázek\tobrázek\tNNIS1-----A----\nv\tv-1\tRR--6----------\nknize\tkniha\tNNFS6-----A----\no\to-1\tRR--6----------\npralese\tprales\tNNIS6-----A----\n,\t,\tZ:-------------\nkterá\tkterý\tP4FS1----------\nse\tse_^(zvr._zájmeno/částice)\tP7-X4----------\njmenovala\tjmenovat_:T_:W\tVpQW---XR-AA---\nPříběhy\tpříběh\tNNIP1-----A----\nze\tz-1\tRV--2----------\nživota\tživot\tNNIS2-----A----\n.\t.\tZ:-------------\n\nNa\tna-1\tRR--6----------\nobrázku\tobrázek\tNNIS6-----A----\nbyl\tbýt\tVpYS---XR-AA---\nhroznýš\throznýš\tNNMS1-----A----\n,\t,\tZ:-------------\njak\tjak-3\tDb-------------\npolyká\tpolykat_:T\tVB-S---3P-AA---\nšelmu\tšelma\tNNFS4-----A----\n.\t.\tZ:-------------\n\nTohle\ttenhle\tPDNS1--

In [4]:
txt = re.sub('\t.*\t', ' ', txt)

In [5]:
print(txt)

Když J,-------------
mi PH-S3--1-------
bylo VpNS---XR-AA---
šest Cn-S1----------
let NNNP2-----A----
, Z:-------------
viděl VpYS---XR-AA---
jsem VB-S---1P-AA---
jednou Db-------------
nádherný AAIS1----1A----
obrázek NNIS1-----A----
v RR--6----------
knize NNFS6-----A----
o RR--6----------
pralese NNIS6-----A----
, Z:-------------
která P4FS1----------
se P7-X4----------
jmenovala VpQW---XR-AA---
Příběhy NNIP1-----A----
ze RV--2----------
života NNIS2-----A----
. Z:-------------

Na RR--6----------
obrázku NNIS6-----A----
byl VpYS---XR-AA---
hroznýš NNMS1-----A----
, Z:-------------
jak Db-------------
polyká VB-S---3P-AA---
šelmu NNFS4-----A----
. Z:-------------

Tohle PDNS1----------
je VB-S---3P-AA---
kopie NNFS1-----A----
kresby NNFS2-----A----
: Z:-------------
V RR--6----------
knížce NNFS6-----A----
stálo VpNS---XR-AA---
: Z:-------------
„ Z:-------------
Hroznýši NNMP1-----A----
svou P8FS4---------1
kořist NNFS4-----A----
nežvýkají VB-P---3P-NA---
, Z:-------------
polykají

In [6]:
txt = txt.split('\n')

In [7]:
txt

['Když J,-------------',
 'mi PH-S3--1-------',
 'bylo VpNS---XR-AA---',
 'šest Cn-S1----------',
 'let NNNP2-----A----',
 ', Z:-------------',
 'viděl VpYS---XR-AA---',
 'jsem VB-S---1P-AA---',
 'jednou Db-------------',
 'nádherný AAIS1----1A----',
 'obrázek NNIS1-----A----',
 'v RR--6----------',
 'knize NNFS6-----A----',
 'o RR--6----------',
 'pralese NNIS6-----A----',
 ', Z:-------------',
 'která P4FS1----------',
 'se P7-X4----------',
 'jmenovala VpQW---XR-AA---',
 'Příběhy NNIP1-----A----',
 'ze RV--2----------',
 'života NNIS2-----A----',
 '. Z:-------------',
 '',
 'Na RR--6----------',
 'obrázku NNIS6-----A----',
 'byl VpYS---XR-AA---',
 'hroznýš NNMS1-----A----',
 ', Z:-------------',
 'jak Db-------------',
 'polyká VB-S---3P-AA---',
 'šelmu NNFS4-----A----',
 '. Z:-------------',
 '',
 'Tohle PDNS1----------',
 'je VB-S---3P-AA---',
 'kopie NNFS1-----A----',
 'kresby NNFS2-----A----',
 ': Z:-------------',
 'V RR--6----------',
 'knížce NNFS6-----A----',
 'stálo VpNS---

In [8]:
tagged = []
for tok in txt:
    if len(tok) > 0:
        tok = tok.replace(tok[-16:], '/'+tok[-15])
        tagged.append(tok)

In [11]:
print(tagged[2][:-2])

bylo


In [12]:
print(tagged)

['Když/J', 'mi/P', 'bylo/V', 'šest/C', 'let/N', ',/Z', 'viděl/V', 'jsem/V', 'jednou/D', 'nádherný/A', 'obrázek/N', 'v/R', 'knize/N', 'o/R', 'pralese/N', ',/Z', 'která/P', 'se/P', 'jmenovala/V', 'Příběhy/N', 'ze/R', 'života/N', './Z', 'Na/R', 'obrázku/N', 'byl/V', 'hroznýš/N', ',/Z', 'jak/D', 'polyká/V', 'šelmu/N', './Z', 'Tohle/P', 'je/V', 'kopie/N', 'kresby/N', ':/Z', 'V/R', 'knížce/N', 'stálo/V', ':/Z', '„/Z', 'Hroznýši/N', 'svou/P', 'kořist/N', 'nežvýkají/V', ',/Z', 'polykají/V', 'ji/P', 'celou/A', './Z', 'Potom/D', 'se/P', 'nemohou/V', 'ani/J', 'hnout/V', 'a/J', 'celého/A', 'půl/N', 'roku/N', 'spí/V', 'a/J', 'tráví/V', './Z', '“/Z', 'Hodně/D', 'jsem/V', 'tehdy/D', 'přemýšlel/V', 'o/R', 'dobrodružstvích/N', 'v/R', 'džungli/N', 'a/J', 'také/D', 'se/P', 'mně/P', 'podařilo/V', 'nakreslit/V', 'pastelkou/N', 'první/C', 'kresbu/N', './Z', 'Kresbu/N', 'číslo/N', '1/C', './Z', 'Vypadala/V', 'takhle/D', ':/Z', 'Ukázal/V', 'jsem/V', 'své/P', 'veledílo/N', 'dospělým/N', 'a/J', 'ptal/V', 'jsem/

In [13]:
with open('princ_tagged.txt', 'x') as princ:
    for tok in tagged:
        princ.write(tok+' ')

In [50]:
with open ('princ.txt', 'x') as prnc:
    for tok in tagged:
        prnc.write(tok[:-3]+' ')

In [14]:
with open('princ_tagged.txt', 'r') as princ:
    princ = princ.read()

In [15]:
princ

'Když/J mi/P bylo/V šest/C let/N ,/Z viděl/V jsem/V jednou/D nádherný/A obrázek/N v/R knize/N o/R pralese/N ,/Z která/P se/P jmenovala/V Příběhy/N ze/R života/N ./Z Na/R obrázku/N byl/V hroznýš/N ,/Z jak/D polyká/V šelmu/N ./Z Tohle/P je/V kopie/N kresby/N :/Z V/R knížce/N stálo/V :/Z „/Z Hroznýši/N svou/P kořist/N nežvýkají/V ,/Z polykají/V ji/P celou/A ./Z Potom/D se/P nemohou/V ani/J hnout/V a/J celého/A půl/N roku/N spí/V a/J tráví/V ./Z “/Z Hodně/D jsem/V tehdy/D přemýšlel/V o/R dobrodružstvích/N v/R džungli/N a/J také/D se/P mně/P podařilo/V nakreslit/V pastelkou/N první/C kresbu/N ./Z Kresbu/N číslo/N 1/C ./Z Vypadala/V takhle/D :/Z Ukázal/V jsem/V své/P veledílo/N dospělým/N a/J ptal/V jsem/V se/P jich/P ,/Z nahání/V -/Z li/T jim/P má/V kresba/N strach/N ./Z Odpověděli/V mi/P :/Z „/Z Proč/D by/V klobouk/N naháněl/V strach/N ?/Z “/Z Ale/J on/P to/P nebyl/V klobouk/N ./Z Byl/V to/P hroznýš/N ,/Z jak/D zažívá/V slona/N ./Z Nakreslil/V jsem/V tedy/J vnitřek/N hroznýše/N ,/Z aby/J t

## 8 Morfologická analýza s použitím regulárních výrazů

V této sekci budete mít za úkol naprogramovat morfologický analyzátor, který pomocí regulárních výrazů rozhodne, do jakého slovního druhu spadají slovní tvary vybraného textu. Než se pustíte do programování, připomeňte si práci s knihovnou re a regulárními výrazy (užitečné odkazy jsou k dispozici v sekci 3 tohoto notebooku).

**Úkol:** Vytvořte program, který načte data ze souboru a ke každému slovu přiřadí slovní druh.

Na konci tohoto notebooku je funkce `accuracy`, která vyhodnotí, jak je váš analyzátor přesný. Dodržte formát předpřipraveného textu z předešlé sekce, aby vám porovnání fungovalo.

K přiřazení slovních druhů použijte regulární výrazy. Projděte si vzorový text, případně text dle vašeho výběru a najděte alespoň nějaké prvky, které se shodují u určitých slovních druhů. Na základě vašeho pozorování vytvořte regulární výrazy a slova označte.

Program vhodně rozdělte na funkce.

In [26]:
def open_text(text):
    """ Otevři text předpřipravený ke značkování a vrať seznam slovních tvarů. """
    
    with open(text, 'r') as txt:
        txt = txt.read()
        txt = txt.split()
        
    return txt

In [47]:
text = open_text('data/princ.txt')

In [33]:
import string, re

In [51]:
def tag_text(text):
    """  """
    
    #Regulární výrazy
    punct = re.compile(r'[„“]')
    adj = re.compile(r'ný$')
    
    #Označkovaný seznam
    tagged = []
    
    for tok in text:
        if tok in string.punctuation or re.search(punct, tok):
            tagged.append(tok+'/Z')
            
        elif re.search(adj, tok):
            tagged.append(tok+'/A')
            
        else:
            tagged.append(tok+'/N')
            
    return tagged

In [52]:
tagged = tag_text(text)

In [53]:
tagged

['Když/N',
 'mi/N',
 'bylo/N',
 'šest/N',
 'let/N',
 ',/Z',
 'viděl/N',
 'jsem/N',
 'jednou/N',
 'nádherný/A',
 'obrázek/N',
 'v/N',
 'knize/N',
 'o/N',
 'pralese/N',
 ',/Z',
 'která/N',
 'se/N',
 'jmenovala/N',
 'Příběhy/N',
 'ze/N',
 'života/N',
 './Z',
 'Na/N',
 'obrázku/N',
 'byl/N',
 'hroznýš/N',
 ',/Z',
 'jak/N',
 'polyká/N',
 'šelmu/N',
 './Z',
 'Tohle/N',
 'je/N',
 'kopie/N',
 'kresby/N',
 ':/Z',
 'V/N',
 'knížce/N',
 'stálo/N',
 ':/Z',
 '„/Z',
 'Hroznýši/N',
 'svou/N',
 'kořist/N',
 'nežvýkají/N',
 ',/Z',
 'polykají/N',
 'ji/N',
 'celou/N',
 './Z',
 'Potom/N',
 'se/N',
 'nemohou/N',
 'ani/N',
 'hnout/N',
 'a/N',
 'celého/N',
 'půl/N',
 'roku/N',
 'spí/N',
 'a/N',
 'tráví/N',
 './Z',
 '“/Z',
 'Hodně/N',
 'jsem/N',
 'tehdy/N',
 'přemýšlel/N',
 'o/N',
 'dobrodružstvích/N',
 'v/N',
 'džungli/N',
 'a/N',
 'také/N',
 'se/N',
 'mně/N',
 'podařilo/N',
 'nakreslit/N',
 'pastelkou/N',
 'první/N',
 'kresbu/N',
 './Z',
 'Kresbu/N',
 'číslo/N',
 '1/N',
 './Z',
 'Vypadala/N',
 'takhle/N',
 

Spusťte následující dvě buňky a zjistěte, jak je váš analyzátor přesný.

accuracy = (correctly predicted class / total testing class) × 100%

Aby porovnání fungovalo, musí váš analyzátor vrátit výsledný text v seznamu, jehož prvky jsou řetězce ve formátu `slovo/slovní_druh`, např. `seznam = ['obrázek/N', 'je/V', 'hezký/A']`. Váš analyzátor musí dodržet velká a malá písmena a značky slovních druhů se musí shodovat se značkami pozičního systému. Více o značkách [zde](https://wiki.korpus.cz/doku.php/seznamy:tagy#poziceslovni_druh). Také si dejte pozor, aby délka vašeho výsledného textu (potažmo seznamu) byla stejná jako délka správně označkovaného textu.

In [49]:
def accuracy(tagged_text, correct_text):
    """ aaa """
    
    correct_text = open_text(correct_text)
    correct_count = 0
    
    for i in range(len(correct_text)):
        if tagged_text[i] == correct_text[i]:
            correct_count += 1
    
    return correct_count/len(correct_text) * 100

In [54]:
accuracy(tagged, 'data/princ_tagged.txt')

35.55070883315158