# Tokenizace

V tomto notebooku si v několika krocích vytvoříte program pro tokenizaci textu. Budete k tomu potřebovat pouze základní metody Pythonu a modul re pro regulární výrazy.

Tokenizace je jedním z běžných problémů zpracování přirozeného jazyka. S tokenizací se setkáte v korpusech, v syntéze řeči, během strojového učení apod. Jedná se o rozdělení textu na menší části, přičemž tyto části, kterým se říká tokeny, mohou být věty, slova, či jinak definované řetězce. Jelikož se jedná o běžnou součást NLP (zpracování přirozeného jazyka; z anglického Natural Language Processing), mohli byste předpokládat, že tokenizace patří mezi dobře popsané problémy, který není třeba řešit. Jak ale uvidíte dále, s tokenizací to není tak jednoduché a záleží na tom, pro co data zpracováváte a jak definujete samotné tokeny.

## 1 Problémy tokenizace

Pokud se zaměříte na tokenizaci slov, musíte se rozhodnout, jak budete ke slovům přistupovat. Pokud narazíte na slovní spojení „Jižní Amerika“, budete jej tokenizovat jako dvě různá slova „Jižní“ a „Amerika“, nebo zvolíte variantu „Jižní Amerika“, jelikož tato dvě slova tvoří pojmenovanou entitu? Jak v anglickém textu budete tokenizovat „don't“? Přikloníte se k variantě „don't“, „do“ a „n't“, „do“ a „not“, nebo k úplně jiné variantě? Pokud narazíte na slovo „překladatel-tlumočník“, rozhodnete se ho ponechat se spojovníkem nebo rozdělit do slov „překladatel“ a „tlumočník“?  A co slovo „dvou-“ ve spojení „dvou‑ až třílůžkový pokoj“? Jak budete nakládat s daty, čísly, zkratkami, internetovými adresami, interpunkcí apod.?

Seznam by mohl dále pokračovat. Z předchozích příkladů můžete vidět, že problémů definice tokenu je spousta, přičemž žádý z uvedených příkladů nemá jedno správné řešení, všechna uvedená řešení by byla vhodná v různých kontextech.

V tomto notebooku nebude důležité vyřešit všechny tyto problémy. Zaměřte se pouze na ty, které lze jednoduše podchytit a které se vyskytují v textu, jenž budete tokenizovat.

## 2 S čím budete pracovat

### 2.1 re

V tomto notebooku použijete modul re, který slouží pro práci s regulárními výrazy.

Více informací na [re](https://docs.python.org/3/library/re.html) nebo [Programiz](https://www.programiz.com/python-programming/regex).

Pro připomenutí regulárních výrazů vám může pomoct tento [cheatsheet](https://cheatography.com/davechild/cheat-sheets/regular-expressions/). Než výrazy implementujete do svého kódu, můžete si jejich funkčnost vyzkoušet např. na [regex101](https://regex101.com/) (nezapomeňte si v levém boxu přepnout flavor na Python).

## 3 Instalace

Modul re je součástí tzv. The Python Standard Library (standardní knihovny Pythonu), není tedy nutné nic instalovat.

Více informací na [The Python Standard Library](https://docs.python.org/3/library/).

## 4 Import knihoven a modulů

Než budete moct začít s psaním programu, musíte importovat všechny knihovny a moduly, které budete potřebovat. Patří mezi ně:

- re

Spusťte následující buňku, modul re se importuje.

**Poznámka:** Po každém zavření a otevření notebooku je nutné všechen kód (tj. i importování) spustit znovu.

In [1]:
import re #importuj knihovnu re

## 5 Nejjednodušší tokenizátor

Nejjednodušší tokenizátor v Pythonu lze naprogramovat na třech řádcích díky metodě `split`. Text se poté rozdělí na slova pomocí mezer.

Nejprve je nutné vyzvat uživatele k zadání textu.

In [2]:
text = input('Zadejte text pro tokenizaci: ') #vyzvi uživatele k zadání textu

Zadejte text pro tokenizaci:        V polovině ledna se v médiích objevila zpráva, že předsedkyně Poslanecké sněmovny Markéta Pekarová Adamová shání stážistu. „Stážistce či stážistovi nabízíme aktivní zapojení do práce v oblasti mezinárodních vztahů a diplomatických aktivit předsedkyně, seznámení se s chodem kanceláře předsedkyně a také s prostorami a fungováním Poslanecké sněmovny,“ stojí v inzerátu.


Text se poté tokenizuje pomocí metody `split`. Pokud této metodě není specifikováno, podle čeho má text rozdělit, použije k rozdělení slov mezeru. V tomto případě je toto chování vhodné, parametry metody tedy zůstanou prázdné.

In [3]:
text = text.split() #rozděl text pomocí mezer

Tokenizovaný text následně lze vypsat.

**Poznámka:** Následujícím způsobem můžete text vypsat v prostředí Jupyter Notebook nebo v terminálu. Pokud budete programovat v jiných prostředích a tento způsob vám nebude fungovat, použijte standardní `print(text)`.

In [4]:
text #vypiš proměnnou text

['V',
 'polovině',
 'ledna',
 'se',
 'v',
 'médiích',
 'objevila',
 'zpráva,',
 'že',
 'předsedkyně',
 'Poslanecké',
 'sněmovny',
 'Markéta',
 'Pekarová',
 'Adamová',
 'shání',
 'stážistu.',
 '„Stážistce',
 'či',
 'stážistovi',
 'nabízíme',
 'aktivní',
 'zapojení',
 'do',
 'práce',
 'v',
 'oblasti',
 'mezinárodních',
 'vztahů',
 'a',
 'diplomatických',
 'aktivit',
 'předsedkyně,',
 'seznámení',
 'se',
 's',
 'chodem',
 'kanceláře',
 'předsedkyně',
 'a',
 'také',
 's',
 'prostorami',
 'a',
 'fungováním',
 'Poslanecké',
 'sněmovny,“',
 'stojí',
 'v',
 'inzerátu.']

Jak si můžete všimnout, text se tokenizoval, dokonce metoda `split` zbavila text počátečních mezer. Hlavní problém je ale s interpunkcí. Ve vašem tokenizátoru určitě nebudete chtít mít interpunkci jako součást předchozího slova, samotná metoda `split` vám tedy nebude stačit.

V případě tokenizace není ideální ani uložení textu do proměnné přes metodu `input`. Zejména v případě, kdy budete chtít tokenizovat dlouhé texty, se vám bude hodit jiný přístup, abyste text nemuseli kopírovat a následně jej vkládat.

To stejné platí o přístupu k výslednému tokenizovanému textu. Může být výhodné jej nechat v proměnné a dále ho zpracovávat, měli byste ale také být schopni výstup uložit do souboru.

Než budete upravovat váš tokenizátor, naučíte se, jak pomocí Pythonu pracovat se soubory. Uvidíte přepsání obsahu souboru a přidání dalších řádků textu. Zjistíte, jak vytvořit úplně nový soubor. V další sekci si v krátkosti zopakujete regulární výrazy.

## 6 Práce se soubory

### 6.1 Otevření souboru

K otevření souboru v Pythonu slouží metoda `open`. Požaduje dva parametry:

1. název souboru (pokud se soubor nachází ve stejné složce jako program, stačí pouze název s formátem, pokud se soubor nachází jinde, je nutné specifikovat celou cestu),
2. mód, v jakém se soubor otevře (ve vašem případě `r`= read = ke čtení).

Pokud si budete chtít otevření souboru vyzkoušet, zkontrolujte, že do příkazu níže zadáváte existující soubor s platnou cestou.

In [18]:
txt = open('uryvek.txt', 'r') #otevři soubor ke čtení

Všimněte si, že metoda `open` sice otevře daný soubor a uloží jej do proměnné, nevypíše ale obsah souboru.

In [6]:
txt #vypiš proměnnou txt

<_io.TextIOWrapper name='uryvek.txt' mode='r' encoding='UTF-8'>

### 6.2 Přečtení souboru

K výpisu obsahu proměnné musíte použít metodu `read`, která přečte celý soubor (případně metodu `readlines`, která čte po jednom řádku).

In [12]:
txt2 = txt.read() #přečti obsah proměnné txt2

In [13]:
txt2 #vypiš proměnnou txt2

'Zprava:\n\n        V polovině ledna se v médiích objevila zpráva, že předsedkyně Poslanecké sněmovny Markéta Pekarová Adamová shání stážistu. „Stážistce či stážistovi nabízíme aktivní zapojení do práce v oblasti mezinárodních vztahů a diplomatických aktivit předsedkyně, seznámení se s chodem kanceláře předsedkyně a také s prostorami a fungováním Poslanecké sněmovny,“ stojí v inzerátu.\n'

In [14]:
txt3 = txt.readlines(1) #přečti jeden řádek

In [15]:
txt3 #vypiš proměnnou txt3

['Zprava:\n']

### 6.3 Zavření souboru

K zavření souboru slouží metoda `close`. Zavírání souborů je dobrou praxí, která vám zaručí, že si nepoškodíte soubory, se kterými pracujete. Více na [Stack Overflow](https://stackoverflow.com/questions/7395542/is-explicitly-closing-files-important).

**Poznámka:** Pokud proměnnou přepíšete, tj. proměnná již neobsahuje samotný soubor, ale např. text uložený v řetězci, zavřít soubor vám nepůjde.

In [14]:
txt.close() #zavři soubor uložený v proměnné txt

#### 6.3.1 With open

Metoda `with open` se o zavření souboru postará automaticky. Více třeba ve vláknu na [Stack Overflow](https://stackoverflow.com/questions/9282967/how-to-open-a-file-using-the-open-with-statement).

### 6.4 Zápis do již existujícího souboru

Pokud chcete do souboru i zapisovat, musíte změnit mód, ve kterém soubor otevřete. V sekci 6.1 byl použit mód `r` (ke čtení). Pro zápis si můžete vybrat ze dvou módů:

1. `a` = append = další text připojí na konec souboru
2. `w` = write = přepíše existující obsah souboru

In [15]:
txt = open('uryvek.txt', 'a') #otevři soubor v módu append

Po použití těchto dvou módů můžete použít metodu `write` k zápisu dalších řetězců do souboru.

In [16]:
txt.write('Nový text') #zapiš do souboru txt řetězec Nový text

9

In [19]:
txt.read() #přečti obsah proměnné txt

'Zprava:\n\n        V polovině ledna se v médiích objevila zpráva, že předsedkyně Poslanecké sněmovny Markéta Pekarová Adamová shání stážistu. „Stážistce či stážistovi nabízíme aktivní zapojení do práce v oblasti mezinárodních vztahů a diplomatických aktivit předsedkyně, seznámení se s chodem kanceláře předsedkyně a také s prostorami a fungováním Poslanecké sněmovny,“ stojí v inzerátu.\nNový text'

### 6.5 Vytvoření nového souboru

K vytvoření nového souboru neexistuje specifická funkce, použijte metodu `open` s některým ze třech módů: `x`, `a`, `w`. 

S `a` a `w` jste se setkali v předchozí podkapitole. Jejich použití od nového módu `x` = create se liší v chybových hláškách. Módy `a` a `w` vytvoří nový soubor pouze, pokud ještě neexistuje. Pokud soubor se stejným jménem existuje, nestane se nic, ale nedostanete ani chybovou hlášku. Oproti tomu mód `x` vytvoří nový soubor pouze pokud soubor se stejným jménem ještě neexistuje. Ale pokud takový soubor existuje, dostanete chybovou hlášku.

In [34]:
txt = open('uryvek2.txt', 'w') #vytvoř nový soubor pomocí módu write

In [35]:
txt = open('uryvek2.txt', 'a') #vytvoř nový soubor pomocí módu append (soubor již existuje, nic se nestane a
                               #a ani nedostaneme chybovou hlášku)

In [36]:
txt = open('uryvek2.txt', 'x') #vytvoř nový soubor pomocí módu create (soubor již existuje, dostaneme chybovou
                               #hlášku)

FileExistsError: [Errno 17] File exists: 'uryvek2.txt'

Přehled všech metod a módů práce se souboru naleznete např. na [Geeks for Geeks](https://www.geeksforgeeks.org/writing-to-file-in-python/).

## 7 Regulární výrazy

Regulární výrazy slouží jako vzor pro vyhledávání v textu. V Pythonu díky knihovně re a různým funkcím můžete textové řetězce nejen vyhledávat, ale i modifikovat nebo je nahrazovat za jiné řetězce. V tokenizátoru využijete hlavně vyhledávání, pokud budete chtít nalézt např. interpunkci.

K vyhledávání slouží v Pythonu funkce `search`. Tato funkce požaduje dva parametry, regulární výraz a text, ve kterém se má vyhledávat.

In [20]:
sent = 'Jasno nebo skoro jasno.' #ulož tetxový řetězec do proměnné
sent2 = 'Maximální teploty 10 až 14 °C. ' #ulož textový řetězec do proměnné

In [23]:
reg = re.search(r'\d', sent) #vyhledej první číslici v textu sent

In [24]:
print(reg) #vypiš proměnnou reg

None


In [25]:
reg = re.search(r'\d', sent2) #vyhledej první číslici v textu sent2

In [26]:
print(reg) #vypiš proměnnou reg

<re.Match object; span=(18, 19), match='1'>


Pokud funkce `search` nenalezne text, který by korespondoval s regulárním výrazem, vrátí hodnotu `None`. Pokud naopak nalezne shodu, vrátí index prvního výskytu (`span`) a kolikrát se daný výraz v textu vyskytuje (`match`). V případě, že budete chtít nalézt všechny textové řetězce, nejenom první, musíte použít funkci `findall`.

Efektivnějším způsobem, jak pracovat s regulárními výrazy, je uložit si je do proměnné. A to zejména, pokud stejné výrazy používáte na různých místech v kódu. Výraz pak v řešení musíte změnit pouze jednou. K tomu slouží funkce `compile`.

In [27]:
pattern = re.compile(r'\d') #zkompiluj regulární výraz pro vyhledání číslic

In [28]:
reg2 = re.findall(pattern, sent2) #vyhledej všechny číslice v texti sent2

In [29]:
print(reg2) #vypiš proměnnou reg2

['1', '0', '1', '4']


**Poznámka:** r ve výrazu `r'\d'` slouží v Pythonu k upřesnění, že se nejedná o běžný řetězec, ale regulární výraz. V některých případech vám regulární výrazy budou fungovat i bez r, je ale lepší jej před výrazem použít.

Další funkce naleznete v [dokumentaci ke knihovně re](https://docs.python.org/3/library/re.html), další informace a užitečné odkazy naleznete v sekci 3 tohoto notebooku.

## 8 Tokenizátor s použitím regulárních výrazů

V této sekci budete mít za úkol naprogramovat tokenizátor používající regulární výrazy k tokenizaci. Než se pustíte do programování, připomeňte si práci s knihovnou re a regulárními výrazy (užitečné odkazy jsou k dispozici v sekci 3 tohoto notebooku).

**Úkol:** Vytvořte program, který načte data ze souboru, tokenizuje text a výsledek uloží do nového souboru.

Pracujte buď s ukázkovým textem, nebo si najděte vlastní. Vyberte ale vhodný text, který obsahuje alespoň přímou řeč, závorky, čísla s desetinnou čárkou/tečkou, zkratky, případně další problémy, které si vyberete. Text můžete slepit i z vícero zdrojů.

Použijte regulární výrazy k nalezení těchto problémů a rozhodněte se, jak je budete řešit (např. budou závorky a uvozovky samostatné tokeny?). Váš přístup musí být konstatní pro celý text.

Program vhodně rozdělte na funkce.

<details> 
    <summary>Pokud nevíte, jak začít, klikněte na tento text pro <b>zobrazení nápovědy</b>.</summary>
    <p><b>Nápověda:</b></p>
    <p>Vytvořte funkci, která otevře soubor a uloží obsah souboru (text) do proměnné.</p>
    <p>Rozdělte text pomocí mezer a metody split na jednotlivé tokeny.</p>
    <p>Použijte regulární výrazy k nalezení interpunkce, závorek, uvozovek apod. v tokenech.</p>
    <p>K oddělení např. interpunkce od slov můžete použít řezy. Více informací o řezech naleznete třeba na <a href="https://stackoverflow.com/questions/509211/understanding-slice-notation">Stack Overflow</a>.</p>
    <p>Výsledný tokenizovaný text uložte ve vhodném formátu do nového souboru.</p>
</details>

In [None]:
""" Sem pište kód """
