# CMU Pronouncing Dictionary

V tomto úkolu si vyzkoušíme práci s grafickým rozhraním Jupyter Notebook, které je vhodné pro postupné spouštění kódu. Naučíme se importovat knihovny do Pythonu a dále s nimi pracovat. Nejdůležitější knihovnou pro nás v tomto notebooku bude NLTK. V rámci této knihovny použijeme slovník CMU Pronouncing Dictionary, pomocí kterého budeme schopni vypsat výslovnost anglické věty. Pokračovat budeme s hledáním slov, která lze vyslovit dvěma a více způsoby.

Poznámka: Kvůli možné záměně slovníku jako seřazeného seznamu slovní zásoby a slovníku jako datového typu v Pythonu se v tomto notebooku pro datové typy používají anglické názvy (tj. dictionary pro slovník, list pro seznam, tuple pro n-tici apod.).

## 1. S čím budeme pracovat

### 1.1 Jupyter Notebook

Právě se nacházíte v prostředí Jupyter Notebook. Jedná se o webovou aplikaci umožňující spouštět tzv. notebooky, dokumenty obsahující jak spustitelný kód (v našem případě v programovacím jazyce Python), tak textové prvky jako například odstavce, odkazy, obrázky, grafy, rovnice. Největší výhodou těchto notebooků je právě možnost kombinovat kód a prostý text, což umožňuje přímo komentovat jednotlivé kroky programu bez nutnosti tyto komentáře ukládat do samostatného souboru.

Více informací na [Project Jupyter](https://jupyter.org/) a [Jupyter Notebook dokumentaci](https://jupyter-notebook.readthedocs.io/en/stable/).

### 1.2 NLTK

NLTK (Natural Language Toolkit) je knihovna pro programovací jazyk Python. Knihovny jsou zaměřené na různé oblasti, například datovou vědu, strojové učení, vizualizaci dat a poskytují znovupoužitelný kód, nejčastěji ve formě funkcí. Programátor pak není nucen pokaždé vymýšlet vlastní řešení pro běžný problém, ale zakomponuje do svého programu část z nějaké knihovny, kterou potřebuje. Knihovny navíc bývají optimalizovány tak, aby výsledný kód fungoval rychleji nebo nezabíral příliš výpočetní paměti, proto v mnoha případech ani není na místě snažit se o napsání vlastního řešení, pokud známe vhodnou knihovnu pro daný problém.

Pomocí NLTK zpracováváme přirozený jazyk. Kromě užitečných funkcí na tokenizaci, tagování, parsování, stemování apod. NLTK obsahuje velké množství korpusů a lexikálních zdrojů (např. WordNety). Nevýhodou NLTK je její zaměření na angličtinu.

Více informací na [NLTK dokumentaci](https://www.nltk.org/index.html), [NLTK Wiki](https://github.com/nltk/nltk/wiki) a [NLTK Book](https://www.nltk.org/book/).

### 1.3 CMU Pronouning Dictionary

Carnegie Mellon University Pronouncing Dictionary (zkráceně CMU Dict) je slovník, který obsahuje přepis výslovnosti anglických slov. Zaměřuje se na výslovnost angličtiny Severní Ameriky. CMU Dict obsahuje kolem 134 000 slov, ke každému slovu je přiřazen alespoň jeden výslovnostní přepis. Narozdíl od běžných fonetických přepisů, na které jsme zvyklí, CMU Dict používá ARPAbet, fonetickou transkripci, která je vhodná pro zpracování na počítači. Obsahuje totiž pouze znaky ASCII. CMU Dict je navíc zabudován do knihovny NLTK, nemusíme tedy data složitě stahovat, na vše nám bude stačit Python.

Více informací na [CMU Dictionary](http://www.speech.cs.cmu.edu/cgi-bin/cmudict) a [ARPAbet](https://en.wikipedia.org/wiki/ARPABET).

### 1.4 Matplotlib

Co je to

## 2. Instalace nltk, cmu dict, apod.

Popsat pro vse zvlast

## 3. Import knihoven a modulů

Než budeme moct začít s psaním programu, musíme importovat všechny knihovny a moduly, které budeme potřebovat. Patří mezi ně:

- nltk
- re
- string
- word_tokenize
- defaultdict

Spusťte následující buňku. Knihovny a moduly se vám importují.

Poznámka: Po každém otevření notebooku je nutné kód spustit znovu.

In [3]:
import nltk, re, string
from nltk.tokenize import word_tokenize
from collections import defaultdict

## 4. Struktura slovníku CMU Dict

Nejprve si uložíme celý slovník CMU Dict do proměnné `entries`. Ke slovníku poté budeme přistupovat přes tuto proměnnou.

In [58]:
entries = nltk.corpus.cmudict.entries()

Než začneme programovat, měli bychom vědět, jak je slovník strukturovaný. 

**Úkol 1:** Pomocí příkazu `print` vypište celý slovník.

In [5]:
print(entries)

[('a', ['AH0']), ('a.', ['EY1']), ('a', ['EY1']), ...]


Slovník se nám sice nevypíše celý, ale předchozí příkaz nám pomůže vypozorovat alespoň 4 zásadní věci, které nám ulehčí programování:

1. Slovník je uložen v datovém typu list,
2. jednotlivá slova jsou uložena v datovém typu tuple,
3. výslovnost jednotlivých slov je uložena v datovém typu list,
4. slovník je seřazen podle abecedy.

Jelikož datovým typem slovníku je list, k jednotlivým slovům můžeme přistupovat i přes indexy. Následující tři úkoly se týkají indexace.

**Úkol 2:** Vypište, kolik položek má slovník celkem.

In [6]:
print(len(entries))

133737


**Úkol 3:** Vyberte si číslo z intervalu 0 až celkový počet položek a vypište slovo, které se ve slovníku nachází pod tímto indexem.

In [7]:
print(entries[4567])

('antifungal', ['AE2', 'N', 'T', 'IY2', 'F', 'AH1', 'NG', 'G', 'AH0', 'L'])


**Úkol 4:** Vypište slovo, které se nachází pod indexem 33330.

In [8]:
print(entries[33330])

('dog', ['D', 'AO1', 'G'])


Minimálně u čtvrtého úkolu se nám podařilo vypsat slovo skládající se z více než jednoho písmene. Můžeme si všimnout, že:

- Pár slovo-výslovnost je uložený v datovém typu tuple,
- slovo je vždy psáno s malými písmeny,
- výslovnost slova je uložena v datovém typu list,
- každý prvek v listu u výslovnosti odpovídá jednomu fonému,
- čísla u fonémů značí přízvuk.

## 5. Výslovnost anglické věty

Teď již víme, jak CMU Dict vypadá, a můžeme začít programovat. V této sekci napíšeme jednoduchý program, který vyzve uživatele, aby zadal anglickou větu, a poté vypíše výslovnost všech slov této věty. 

**Úkol 5:** Vyzvěte uživatele, aby zadal anglickou větu. Tuto větu uložte do proměnné `sent`. Po spuštění kódu vás notebook požádá o anglickou větu. Vyberte si libovolnou větu v angličtině, mějte ale na paměti, že ve slovníku je pouze 134 000 slov, volte proto slova běžné slovní zásoby.

V tomto řešení budeme pracovat s větou "I will meet you tomorrow."

In [7]:
sent = input('Enter an English sentence: ')

Enter an English sentence: I will meet you tomorrow.


Se zadanou větou nemůžeme pracovat jen tak, musíme ji tzv. normalizovat. Všechna velká písmena převedeme na malá, větu očistíme od interpunkce a na konec ji tokenizujeme.

Pro normalizaci vytvoříme funkci `normalize`, která bude brát parametr `sentence` (větu, kterou zadal uživatel). Vracet bude tokenizovanou větu, kterou později uložíme do proměnné.

**Úkol 6:**

1. Vytvořte funkci `normalize`, která požaduje parametr `sentence`,
2. zbavte se všech velkých písmen,
3. odstraňte interpunkci (řešení používá knihovnu `re`, ale můžete přijít i na jiný způsob bez regulárních výrazů),
4. vraťte normalizovanou větu.

In [9]:
def normalize(sentence):
    """ Remove upper-case letters and punctuation, then tokenize the text """
    
    sentence = sentence.lower() #lower-case everything
    regex = re.compile('[{}]'.format((re.escape(string.punctuation)))) #regex pattern
    sentence = regex.sub('', sentence) #remove punctuation from a string
    
    return sentence

**Úkol 7:** 

1. Normalizujte větu `sent` a uložte ji do nové proměnné `sent_norm`,
2. vypište normalizovanou větu,
3. zkontrolujte výstup, vypsat by se měl string s malými písmeny bez interpunkce.

In [9]:
sent_norm = normalize(sent) #save the normalized sentence into a variable
print(sent_norm) #print the normalized sentence

i will meet you tomorrow


**Úkol 8:**

1. Vytvořte funkci `tokenize`, která požaduje parametr `sentence`,
2. tokenizujte větu pomocí tokenizátoru `word_tokenize`, který jsme naimportovali na začátku notebooku z knihovny `NLTK`,
3. vraťte tokenizovanou větu.

In [10]:
def tokenize(sentence):
    """ Tokenize the sentence """
    
    sentence = word_tokenize(sentence) #tokenize the sentence
    
    return sentence #return the sentence

**Úkol 9:**

1. Tokenizujte větu `sent_norm` a uložte ji do nové proměnné `sent_tok`,
2. vypište tokenizovanou větu,
3. zkontrolujte výstup, vypsat by se měl list s jednotlivými slovy jako prvky listu.

In [11]:
sent_tok = tokenize(sent_norm) #save the tokenized sentence into a variable
print(sent_tok) #print the tokenized sentence

['i', 'will', 'meet', 'you', 'tomorrow']


Nyní máme větu připravenou a můžeme pro každé slovo najít výslovnost ve CMU Dict. 

**Úkol 10:**

1. Vytvořte funkci `pronunciation`, která požaduje parametr `sentence`,
2. připravte prázdnou proměnnou `pron`, kam později uložíte všechny způsoby výslovnosti všech slov v proměnné `sent_tok` (o vhodném datovém typu rozhodněte),
3. iterujte přes všechna slova ve slovníku CMU Dict, pokud se slovo nachází i v listu `sent_tok`, uložte jeho výslovnost do předpřipravené proměnné `pron` (dopředu přemýšlejte o tom, jak později vypíšete výslovnost jednotlivých slov, vhodně rozhodněte, jakým způsobem jednotlivé fonémy uložíte),
4. vraťte proměnnou `pron`, která obsahuje výslovnost jednotlivých slov.

V řešení úkolů 10 a 11 je rovnou naprogramované uložení výslovnosti s mezerami mezi fonémy a oddělením slov pomocí | (úkol navíc).

In [11]:
def pronunciation(sentence):
    """ For each word in a sentence find its pronunciation in the CMU dict """
    pron = [] #an empty list for pronunciation
    
    for entry in entries: #go through every entry in CMU Dict
        for tok in sentence: #go through every token in the tokenized sentence
            if entry[0] == tok: #if the word in CMU Dict is the same as the token in the tokenized sentence
                pron.append(' '.join(p for p in entry[1])) #save the pronunciation as a string
    
    return pron #return the pronunciation

**Úkol 11:**

1. Uložte výslovnost všech slov do proměnné `sent_pron`,
2. vypište výslovnost všech slov.

In [13]:
sent_pron = pronunciation(sent_tok) #save the pronunciation into a variable
' | '.join(tok for tok in sent_pron) #print the pronunciation of the sentence, separate words by |

'AY1 | M IY1 T | T AH0 M AA1 R OW2 | T UW0 M AA1 R OW2 | W IH1 L | W AH0 L | Y UW1'

**Úkol navíc:** V ARPAbet zápisu se fonémy oddělují mezerou. Zkuste funkci `pronunciation` a následně výpis výslovnosti všech slov upravit tak, aby jednotlivé fonémy byly odděleny mezerou. Pro slova vyberte jiný oddělovač.

V závislosti na tom, jakou větu jste zvolili, jste buď našli nebo nenašli slova, která lze vyslovit vícero způsoby. V řešení pracujeme s větou "I will meet you tomorrow.", u které si můžeme všimnout, že nesedí počet slov ve výslovnostním přepisu. Program nám našel dvě slova (tomorrow a will), která se dají vyslovit více než jedním způsobem.

V další sadě úkolů se budeme zaobírat právě tímto problémem.

## 6. Slova, která lze vyslovit vícero způsoby

V předchozí sekci jsme narazili na slova, která se dají vyslovit dvěma různými způsoby. V následujících úkolech si vyzkoušíme, jak vyhledat pouze tato specifická slova a vypsat je se všemi výslovnostními variantami. 

Procvičíme si programování s datovým typem dictionary, jelikož je to jeden z nejpřehlednějších způsobů řešení tohoto problému. Práci si usnadníme pomocí modulu `defaultdict` a porovnáme ho s běžným dictionary.

**Úkol 12:** Stejně jako v úkolu 5 požádejte uživatele o zadání anglické věty. Vstup uložte do proměnné `sent2`.

In [15]:
sent2 = input('Enter an English sentence: ')

Enter an English sentence: We are selling records tomorrow at the market.


**Úkol 13:** Normalizujte větu v `sent2`.

In [16]:
sent2 = normalize(sent2) #normalize the sentence
print(sent2)

we are selling records tomorrow at the market


**Úkol 14:** Tokenizujte normalizovanou větu `sent2`.

In [17]:
sent2 = tokenize(sent2)
print(sent2)

['we', 'are', 'selling', 'records', 'tomorrow', 'at', 'the', 'market']


V závislosti na výběru věty se může stát, že se nějaká slova budou ve větě opakovat. Našim cílem není vypsat úplně vše, ale pouze slova, která se vyslovují více než jedním způsobem, proto se můžeme zbavit duplicitních slov.

**Úkol 15:** Zbavte se opakujících se slov ve větě `sent2`.

In [18]:
sent2 = set(sent2) #convert a list to a set to get rid of duplicates
print(sent2)

{'market', 'we', 'records', 'at', 'selling', 'tomorrow', 'the', 'are'}


Nyní si připravíme funkci, která bude iterovat přes CMU Dict a hledat slova vyskytující se v naší větě. Jelikož budeme mít pro některá slova více než jednu možnou výslovnost, výsledky si uložíme do datového typu dictionary. Jako klíče použijeme slova, jejichž hodnoty budou všechny výslovnostní varianty.

Pro tuto funkci je možné využít jak standardní dictionary, tak modul defaultdict, který ulehčuje přidávání klíčů do dictionary. V řešení si ukážeme jak variantu s běžným dictionary, tak variantu s modulem defaultdict.

**Úkol 16:** 

1. Vytvořte funkci `pron_dict`, která vyžaduje parametr `sentence`,
2. připravte prázdnou proměnnou datového typu dictionary, kam uložíte výsledky prohledávání CMU Dict (případně použijte defaultdict),
3. všechna slova ve větě `sent2` vyhledejte ve CMU Dict,
4. nalezená slova uložte do dictionary jako klíče, nalezené výslovnostní varianty uložte do dictionary jako hodnoty (o vhodných datových typech pro klíče a hodnoty rozhodněte),
5. vraťte celý dictionary.

Poznámka: V tuto chvíli se nezaobírejte, kolika způsoby je možné dané slovo vyslovit, do dictionary uložte i ta slova, která mají pouze jednu výslovnostní variantu.

Řešení s běžným dictionary:

In [12]:
def pron_dict(sentence):
    """ Create a dictionary where words are keys and pronunciation is values
        dictionary solution """
    sent_matches = dict() #create an empty dictionary
    
    for tok in sentence: #go through every token in the sentence
        for entry in entries: #go through every entry in CMU Dict
            if entry[0] == tok: #if the CMU Dict's entry is the same as the token in the sentence
                if tok in sent_matches.keys(): #if the token already is in the dictionary
                    sent_matches[tok].append(entry[1]) #append the pronunciation to previous ones
                else: #if the token is not in the dictionary
                    sent_matches[tok] = [entry[1]] #create a key-value pair where key is the token
                                                   #and value is the pronunciation
    return sent_matches #return the dictionary

In [20]:
sent_pron_dict = pron_dict(sent2)
print(sent_pron_dict)

{'market': [['M', 'AA1', 'R', 'K', 'AH0', 'T'], ['M', 'AA1', 'R', 'K', 'IH0', 'T']], 'we': [['W', 'IY1']], 'records': [['R', 'AH0', 'K', 'AO1', 'R', 'D', 'Z'], ['R', 'EH1', 'K', 'ER0', 'D', 'Z'], ['R', 'IH0', 'K', 'AO1', 'R', 'D', 'Z']], 'at': [['AE1', 'T']], 'selling': [['S', 'EH1', 'L', 'IH0', 'NG']], 'tomorrow': [['T', 'AH0', 'M', 'AA1', 'R', 'OW2'], ['T', 'UW0', 'M', 'AA1', 'R', 'OW2']], 'the': [['DH', 'AH0'], ['DH', 'AH1'], ['DH', 'IY0']], 'are': [['AA1', 'R'], ['ER0']]}


Řešení s modulem defaultdict:

In [13]:
def pron_defdict(sentence):
    """ Create a dictionary where words are keys and pronunciation is values 
        defaultdict solution """
    sent_matches = defaultdict(list) #create a new defauldict object
    
    for tok in sentence: #go through every token in the sentence
        for entry in entries: #go through every entry in CMU Dict
            if entry[0] == tok: #if the CMU Dict's entry is the same as the token in the sentence
                sent_matches[tok].append(entry[1]) #append the pronunciation (value) to the token (key)
                
    return sent_matches #return the defaultdict object

In [22]:
sent_pron_defdict = pron_defdict(sent2)
print(sent_pron_defdict)

defaultdict(<class 'list'>, {'market': [['M', 'AA1', 'R', 'K', 'AH0', 'T'], ['M', 'AA1', 'R', 'K', 'IH0', 'T']], 'we': [['W', 'IY1']], 'records': [['R', 'AH0', 'K', 'AO1', 'R', 'D', 'Z'], ['R', 'EH1', 'K', 'ER0', 'D', 'Z'], ['R', 'IH0', 'K', 'AO1', 'R', 'D', 'Z']], 'at': [['AE1', 'T']], 'selling': [['S', 'EH1', 'L', 'IH0', 'NG']], 'tomorrow': [['T', 'AH0', 'M', 'AA1', 'R', 'OW2'], ['T', 'UW0', 'M', 'AA1', 'R', 'OW2']], 'the': [['DH', 'AH0'], ['DH', 'AH1'], ['DH', 'IY0']], 'are': [['AA1', 'R'], ['ER0']]})


Jak si můžeme všimnout, řešení pomocí defaultdict je o tři řádky kratší než řešení pomocí běžného dictionary. Při vytváření nového objektu defaultdict v příkazu `sent_matches = defaultdict(list)` říkáme, co se má nastavit jako defaultní hodnota pro neexistující klíče. Ve chvíli, kdy voláme klíče, které v defaultdict objektu nejsou, automaticky se vytvoří s danou defaultní hodnotou. V našem případě je to datový typ list. To nám umožňuje vynechat celou podmínku `if tok in sent_matches.keys()` ve funkci `pron_defdict` a rovnou ukládat hodnoty pomocí příkazu `sent_matches[tok].append(entry[1])`. Naproti tomu ale ve funkci `pron_dict` tato podmínka být musí, jinak by došlo k chybě `KeyError`.

**Úkol 17:** Zjistěte, kolika způsoby se dá každé slovo v dictionary vyslovit. Na výstup vypište jak slovo, tak počet jeho výslovnostních variant.

In [23]:
for key, val in sent_pron_defdict.items():
    print(key, len(val))

market 2
we 1
records 3
at 1
selling 1
tomorrow 2
the 3
are 2


V závislosti na výběru vaší anglické věty narazíte na různý počet výslovnostních variant u různých slov.

**Úkol 18:** 

1. Napište funkci `more_pron_dict` s parametrem `sent_pron`,
2. vytvořte nový dictionary, do kterého uložíte pouze ta slova, která mají dvě a více výslovnostních variant,
3. ponechte slova jako klíče a výslovnostní varianty jako hodnoty,
4. vraťte dictionary.

In [14]:
def more_pron_dict(sent_pron):
    """ Create a new dictionary and store the words we can pronounce differently there """
    pron = {}
    
    for key, val in sent_pron.items():
        if len(val) > 1:
            pron[key] = val
            
    return pron

**Úkol 19:** Nový dictionary uložte do proměnné a vypište.

In [29]:
diff_pron = more_pron_dict(sent_pron_defdict)
print(diff_pron)

{'market': [['M', 'AA1', 'R', 'K', 'AH0', 'T'], ['M', 'AA1', 'R', 'K', 'IH0', 'T']], 'records': [['R', 'AH0', 'K', 'AO1', 'R', 'D', 'Z'], ['R', 'EH1', 'K', 'ER0', 'D', 'Z'], ['R', 'IH0', 'K', 'AO1', 'R', 'D', 'Z']], 'tomorrow': [['T', 'AH0', 'M', 'AA1', 'R', 'OW2'], ['T', 'UW0', 'M', 'AA1', 'R', 'OW2']], 'the': [['DH', 'AH0'], ['DH', 'AH1'], ['DH', 'IY0']], 'are': [['AA1', 'R'], ['ER0']]}


Výpis takto můžeme nechat, došli jsme ke správnému řešení. Je ale těžké se ve výsledcích vyznat, proto upravíme výstup, aby byl přehlednější.

**Úkol 20:** Vytvořte funkci `pron_no_list` s parametrem `diff_pron`, ve které se zbavíte jednotlivých listů u výslovnostních variant. Spojte prvky listu do stringu. Např. slovo "are" tedy nebude vypadat jako `'are': [['AA1', 'R'], ['ER0']]`, ale jako `'are': ['AA1 R', 'ER0']`. Na výstupu zachovejte datový typ dictionary.

In [15]:
def pron_no_list(diff_pron):
    """ Create a new dictionary. In values store a list of strings with phones """
    pron_no_l = defaultdict(list)

    for key, val in diff_pron.items():
        for words in val:
            pron_no_l[key].append(' '.join(w for w in words))
    
    return pron_no_l

**Úkol 21:** Nový dictionary uložte do proměnné a vypište.

In [31]:
diff_pron_no_lst = pron_no_list(diff_pron)
print(diff_pron_no_lst)

defaultdict(<class 'list'>, {'market': ['M AA1 R K AH0 T', 'M AA1 R K IH0 T'], 'records': ['R AH0 K AO1 R D Z', 'R EH1 K ER0 D Z', 'R IH0 K AO1 R D Z'], 'tomorrow': ['T AH0 M AA1 R OW2', 'T UW0 M AA1 R OW2'], 'the': ['DH AH0', 'DH AH1', 'DH IY0'], 'are': ['AA1 R', 'ER0']})


V tuto chvíli dictionary výsledek vypadá mnohem lépe, k ideálnímu výstupu nám už ale zbývá pouze jeden krok. Slova budeme vypisovat ve formátu `slovo: výslovnost1 | výslovnost2 | výslovnost3`. K tomu nám bude stačit jeden for cyklus, [metoda join](https://www.geeksforgeeks.org/python-string-join-method/) a tzv. [list comprehension](https://www.geeksforgeeks.org/python-list-comprehension/).

K tomuto kroku nemusíte vymýšlet kód, následující buňku pouze spusťte a podívejte se na výsledek.

In [34]:
for key, val in diff_pron_no_lst.items():
    print(key + ': ' + ' | '.join(w for w in val))

market: M AA1 R K AH0 T | M AA1 R K IH0 T
records: R AH0 K AO1 R D Z | R EH1 K ER0 D Z | R IH0 K AO1 R D Z
tomorrow: T AH0 M AA1 R OW2 | T UW0 M AA1 R OW2
the: DH AH0 | DH AH1 | DH IY0
are: AA1 R | ER0


## 7. Slabiky

Z našeho pozorování u úkolu 4 víme, že čísla u jednotlivých fonémů značí přízvuk. Díky těmto číslům jsme ale kromě přízvuku schopni i odvodit počet slabik. V následující sadě úkolů napíšeme funkci vypisující počet slabik a poté ve slovníku vyhledáme lexikální jednotky, které mají výslovnostní varianty lišící se v počtu slabik.

**Úkol 22:**

1. Požádejte uživatele o zadání anglické věty. Vstup uložte do proměnné `sent3`,
2. normalizujte větu,
3. tokenizujte větu,
4. vytvořte dictionary s výslovnostními variantami, použijte funkci `pron_dict` nebo `pron_defdict` z řešení, dictionary dále nijak neupravujte.

Poznámka: Řešení používá funkci `pron_defdict`.


In [66]:
sent3 = input('Enter an English sentence: ')
sent3 = normalize(sent3)
sent3 = tokenize(sent3)
sent3 = pron_defdict(sent3)

Enter an English sentence: record, antifungal, market, bubble


Všimněte si, že pokud do samostatné buňky zadáte pouze proměnnou, po stisku klávesy Enter se daná proměnná vypíše.

In [67]:
sent3

defaultdict(list,
            {'record': [['R', 'AH0', 'K', 'AO1', 'R', 'D'],
              ['R', 'EH1', 'K', 'ER0', 'D'],
              ['R', 'IH0', 'K', 'AO1', 'R', 'D']],
             'antifungal': [['AE2',
               'N',
               'T',
               'AY2',
               'F',
               'AH1',
               'NG',
               'G',
               'AH0',
               'L'],
              ['AE2', 'N', 'T', 'IY2', 'F', 'AH1', 'NG', 'G', 'AH0', 'L']],
             'market': [['M', 'AA1', 'R', 'K', 'AH0', 'T'],
              ['M', 'AA1', 'R', 'K', 'IH0', 'T']],
             'bubble': [['B', 'AH1', 'B', 'AH0', 'L']]})

Nyní máme větu předpřipravenou a můžeme napsat funkci `find_syllab`, která vyhledá počet slabik. Výsledky uloží do nového dictionary, kde klíč bude hledané slovo a hodnota bude list obsahující počet slabik ke každé výslovnostní variantě.

**Úkol 23:** 

1. Vytvořte funkci `find_syllab` s parametrem `sentence_dict`,
2. deklarujte nový dictionary `syllab` (použijte buď klasický dictionary nebo defaultdict),
3. projděte všechny key-value páry v dictionary `sentence_dict`,
4. u každé výslovnostní varianty zjistěte, kolik má slabik,
5. výsledek uložte do dictionary `syllab`, kde klíč bude slovo a hodnoty budou počet slabik, např. pro slovo "record" by tedy záznam v dictionary vypadal následovně: `'record': [2, 2, 2]`,
6. vraťte dictionary `syllab`.

In [68]:
def find_syllab(sentence_dict):
    """ Find a number of syllables in words """
    syllab = defaultdict(list) #create a new defaultdict object
    pattern = re.compile('\d') #regex pattern for finding digits
    
    for key, val in sentence_dict.items(): #iterate through key-value pairs in the sentence pronunciation dictionary
        for pron in val: #for every pronunciation variant
            syllab_count = 0 #set syllables counter to 0
            for phon in pron: #for every phoneme in the pronunciation variant
                if re.search(pattern, phon): #if the phoneme contains a digit
                    syllab_count += 1 #raise the value of the syllables counter by 1
            syllab[key].append(syllab_count) #after you went through every phoneme in the pronunciation variant
                                             #append the number of syllables to the word
    
    return syllab #return the dictionary

In [69]:
syllabs = find_syllab(sent3)
print(syllabs)

defaultdict(<class 'list'>, {'record': [2, 2, 2], 'antifungal': [4, 4], 'market': [2, 2], 'bubble': [2]})


V závislosti na vámi zvolené anglické větě můžete vidět počet slabik pro dané slovo, případně počet slabik pro každou výslovnostní variantu. S největší pravděpodobností tato čísla budou stejná, znamená to tedy, že dané slovo má pokaždé stejný počet slabik. Mohli bychom se ale ptát, zda existují i slova, u kterých se kromě výslovnosti liší i počet slabik u jejich výslovnostních variant. V následující funkci bude naším cílem zjistit, jestli se taková slova ve CMU Dict vyskytují.

**Úkol 24:** V další funkci budeme pracovat s proměnnou `entries`, kterou jsme deklarovali na úplném začátku tohoto notebooku. Proměnnou `entries` vypište a připomeňte si její strukturu.

In [59]:
entries

[('a', ['AH0']), ('a.', ['EY1']), ('a', ['EY1']), ...]

Prohledat cely entries, najit jen ty, kde se lisi hodnoty seznamu

In [60]:
def test(entries):
    a = defaultdict(list)
    
    for entry in entries:
        a[entry[0]].append(entry[1])
        
    return a

In [61]:
tst = test(entries)

In [63]:
tst2 = find_syllab(tst)

In [64]:
tst2

defaultdict(list,
            {'a': [1, 1],
             'a.': [1],
             'a42128': [6],
             'aaa': [3],
             'aaberg': [2],
             'aachen': [2],
             'aachener': [3],
             'aaker': [2],
             'aalseth': [2],
             'aamodt': [2],
             'aancor': [2],
             'aardema': [3],
             'aardvark': [2],
             'aaron': [2],
             "aaron's": [2],
             'aarons': [2],
             'aaronson': [3, 3],
             "aaronson's": [3, 3],
             'aarti': [2],
             'aase': [1],
             'aasen': [2],
             'ab': [1, 2],
             'ababa': [3, 3],
             'abacha': [3],
             'aback': [2],
             'abaco': [3],
             'abacus': [3],
             'abad': [2],
             'abadaka': [4],
             'abadi': [3],
             'abadie': [3],
             'abair': [2],
             'abalkin': [3],
             'abalone': [4],
             'abalos': [3],
