# CMU Pronouncing Dictionary

V tomto úkolu si vyzkoušíme práci s grafickým rozhraním Jupyter Notebook, které je vhodné pro postupné spouštění kódu. Naučíme se importovat knihovny do Pythonu a dále s nimi pracovat. Nejdůležitější knihovnou pro nás v tomto notebooku bude nltk. V rámci této knihovny použijeme slovník CMU Pronouncing Dictionary, pomocí kterého budeme schopni vypsat výslovnost anglické věty. Pokračovat budeme s hledáním slov, která lze vyslovit dvěma a více způsoby.

Poznámka: Kvůli možné záměně slovníku jako seřazeného seznamu slovní zásoby a slovníku jako datového typu v Pythonu se v tomto notebooku pro datové typy používají anglické názvy (tj. dictionary pro slovník, list pro seznam, tuple pro n-tici apod.).

## nltk

Co je nltk.

## CMU Pronouning Dictionary

CMU Pronouncing Dictionary (zkráceně CMU Dict) je slovník, který obsahuje přepis výslovnosti anglických slov. Zaměřuje se na výslovnost angličtiny Severní Ameriky. CMU Dict obsahuje kolem 134 000 slov, ke každému slovu je přiřazen alespoň jeden výslovnostní přepis. Narozdíl od běžných fonetických přepisů, na které jsme zvyklí, CMU Dict používá ARPAbet, fonetickou transkripci, která je vhodná pro zpracování na počítači. Obsahuje totiž pouze znaky ASCII. CMU Dict je navíc zabudován do knihovny nltk, nemusíme tedy data složitě stahovat, na vše nám bude stačit Python.

## Instalace nltk, cmu dict

Popsat

## Import knihoven a modulů

Než budeme moct začít s psaním programu, musíme importovat všechny knihovny a moduly, které budeme potřebovat. Patří mezi ně:

- nltk
- re
- string
- word_tokenize
- defaultdict

In [2]:
import nltk, re, string
from nltk.tokenize import word_tokenize
from collections import defaultdict

## Struktura slovníku CMU Dict

Nejprve si uložíme celý slovník CMU Dict do proměnné `entries`. Ke slovníku poté budeme přistupovat přes tuto proměnnou.

In [3]:
entries = nltk.corpus.cmudict.entries()

Než začneme programovat, měli bychom vědět, jak je slovník strukturovaný. 

**Úkol 1:** Pomocí příkazu `print` vypište celý slovník.

In [5]:
print(entries)

[('a', ['AH0']), ('a.', ['EY1']), ('a', ['EY1']), ...]


Slovník se nám sice nevypíše celý, ale předchozí příkaz nám pomůže vypozorovat alespoň 4 zásadní věci, které nám ulehčí programování:

1. Slovník je uložen v datovém typu list,
2. jednotlivá slova jsou uložena v datovém typu tuple,
3. výslovnost jednotlivých slov je uložena v datovém typu list,
4. slovník je seřazen podle abecedy.

Jelikož datovým typem slovníku je list, k jednotlivým slovům můžeme přistupovat i přes indexy. Následující tři úkoly se týkají indexace.

**Úkol 2:** Vypište, kolik položek má slovník celkem.

In [7]:
print(len(entries))

133737


**Úkol 3:** Vyberte si číslo z intervalu 0 až celkový počet položek a vypište slovo, které se ve slovníku nachází pod tímto indexem.

In [8]:
print(entries[4567])

('antifungal', ['AE2', 'N', 'T', 'IY2', 'F', 'AH1', 'NG', 'G', 'AH0', 'L'])


**Úkol 4:** Vypište slovo, které se nachází pod indexem 33330.

In [6]:
print(entries[33330])

('dog', ['D', 'AO1', 'G'])


Minimálně u čtvrtého úkolu se nám podařilo vypsat slovo skládající se z více než jednoho písmene. Můžeme si všimnout, že:

- Pár slovo-výslovnost je uložený v datovém typu tuple,
- slovo je vždy psáno s malými písmeny,
- výslovnost slova je uložena v datovém typu list,
- každý prvek v listu u výslovnosti odpovídá jednomu fonému,
- čísla u fonémů značí přízvuk.

## Výslovnost anglické věty

Teď již víme, jak CMU Dict vypadá, a můžeme začít programovat. V této sekci napíšeme jednoduchý program, který vyzve uživatele, aby zadal anglickou větu, a poté vypíše výslovnost všech slov této věty. 

**Úkol 5:** Vyzvěte uživatele, aby zadal anglickou větu. Tuto větu uložte do proměnné `sent`. Po spuštění kódu vás notebook požádá o anglickou větu. Vyberte si libovolnou větu v angličtině, mějte ale na paměti, že ve slovníku je pouze 134 000 slov, volte proto slova běžné slovní zásoby.

V tomto řešení budeme pracovat s větou "I will meet you tomorrow."

In [10]:
sent = input("Enter an English sentence: ")

Enter an English sentence: I will meet you tomorrow.


Se zadanou větou nemůžeme pracovat jen tak, musíme ji tzv. normalizovat. Všechna velká písmena převedeme na malá, větu očistíme od interpunkce a na konec ji tokenizujeme.

Pro normalizaci vytvoříme funkci `normalize`, která bude brát parametr `sentence` (větu, kterou zadal uživatel). Vracet bude tokenizovanou větu, kterou později uložíme do proměnné.

**Úkol 6:**

1. Vytvořte funkci `normalize`, která požaduje parametr `sentence`,
2. zbavte se všech velkých písmen,
3. odstraňte interpunkci (řešení používá knihovnu `re`, ale můžete přijít i na jiný způsob bez regulárních výrazů),
4. vraťte normalizovanou větu.

In [17]:
def normalize(sentence):
    """ Remove upper-case letters and punctuation, then tokenize the text """
    
    sentence = sentence.lower() #lower-case everything
    regex = re.compile('[{}]'.format((re.escape(string.punctuation)))) #regex pattern
    sentence = regex.sub('', sentence) #remove punctuation from a string
    
    return sentence

**Úkol 7:** 

1. Normalizujte větu `sent` a uložte ji do nové proměnné `sent_norm`,
2. vypište normalizovanou větu,
3. zkontrolujte výstup, vypsat by se měl string s malými písmeny bez interpunkce.

In [19]:
sent_norm = normalize(sent) #save the normalized sentence into a variable
print(sent_norm) #print the normalized sentence

i will meet you tomorrow


**Úkol 8:**

1. Vytvořte funkci `tokenize`, která požaduje parametr `sentence`,
2. tokenizujte větu pomocí tokenizátoru `word_tokenize`, který jsme naimportovali na začátku notebooku z knihovny `nltk`,
3. vraťte tokenizovanou větu.

In [11]:
def tokenize(sentence):
    """ Tokenize the sentence """
    
    sentence = word_tokenize(sentence) #tokenize the sentence
    
    return sentence

**Úkol 9:**

1. Tokenizujte větu `sent_norm` a uložte ji do nové proměnné `sent_tok`,
2. vypište tokenizovanou větu,
3. zkontrolujte výstup, vypsat by se měl list s jednotlivými slovy jako prvky listu.

In [20]:
sent_tok = tokenize(sent_norm) #save the tokenized sentence into a variable
print(sent_tok) #print the tokenized sentence

['i', 'will', 'meet', 'you', 'tomorrow']


Nyní máme větu připravenou a můžeme pro každé slovo najít výslovnost ve CMU Dict. 

**Úkol 10:**

1. Vytvořte funkci `pronunciation`, která požaduje parametr `sentence`,
2. připravte prázdnou proměnnou `pron`, kam později uložíte všechny způsoby výslovnosti všech slov v proměnné `sent_tok` (o vhodném datovém typu rozhodněte),
3. iterujte přes všechna slova ve slovníku CMU Dict, pokud se slovo nachází i v listu `sent_tok`, uložte jeho výslovnost do předpřipravené proměnné `pron` (dopředu přemýšlejte o tom, jak později vypíšete výslovnost jednotlivých slov, vhodně rozhodněte, jakým způsobem jednotlivé fonémy uložíte),
4. vraťte proměnnou `pron`, která obsahuje výslovnost jednotlivých slov.

V řešení úkolů 10 a 11 je rovnou naprogramované uložení výslovnosti s mezerami mezi fonémy a oddělením slov pomocí | (úkol navíc).

In [21]:
def pronunciation(sentence):
    """ For each word in a sentence find its pronunciation in the CMU dict """
    pron = [] #an empty list for pronunciation
    
    for entry in entries: #for every entry in CMU Dict
        for tok in sentence: #for every token in the tokenized sentence
            if entry[0] == tok: #if the word in CMU Dict is the same as the token in the tokenized sentence
                pron.append(' '.join(p for p in entry[1])) #save the pronunciation as a string
    
    return pron

**Úkol 11:**

1. Uložte výslovnost všech slov do proměnné `sent_pron`,
2. vypište výslovnost všech slov.

In [24]:
sent_pron = pronunciation(sent_tok) #save the pronunciation into a variable
' | '.join(tok for tok in sent_pron) #print the pronunciation of the sentence, separate words by |

'AY1 | M IY1 T | T AH0 M AA1 R OW2 | T UW0 M AA1 R OW2 | W IH1 L | W AH0 L | Y UW1'

**Úkol navíc:** V ARPAbet zápisu se fonémy oddělují mezerou. Zkuste funkci `pronunciation` a následně výpis výslovnosti všech slov upravit tak, aby jednotlivé fonémy byly odděleny mezerou. Pro slova vyberte jiný oddělovač.

V závislosti na tom, jakou větu jste zvolili, jste buď našli nebo nenašli slova, která lze vyslovit vícero způsoby. V řešení pracujeme s větou "I will meet you tomorrow.", u které si můžeme všimnout, že nesedí počet slov ve výslovnostním přepisu. Program nám našel dvě slova (tomorrow a will), která se dají vyslovit více než jedním způsobem.

V další sadě úkolů se budeme zaobírat právě tímto problémem.

## Slova, která lze vyslovit vícero způsoby

V předchozí sekci jsme narazili na slova, která se dají vyslovit dvěma různými způsoby. V následujících úkolech si vyzkoušíme, jak vyhledat pouze tato specifická slova a vypsat je se všemi výslovnostními variantami. 

Procvičíme si programování s datovým typem dictionary, jelikož je to jeden z nejpřehlednějších způsobů řešení tohoto problému. Práci si usnadníme pomocí modulu `defaultdict` a porovnáme ho s běžným dictionary.

**Úkol 12:** Stejně jako v úkolu 5 požádejte uživatele o zadání anglické věty. Vstup uložte do proměnné `sent2`.

In [124]:
sent2 = 'I will record a record and then will send it to you.'

In [125]:
sent2 = normalize(sent2) #normalize the sentence

In our example above we have repeating words. In this task we do not print the sentence as a whole so we can get rid of them. The easiest way to remove duplicates is to convert a list to a set and then to a list again (so we get rid of the duplicates but keep the same data structure to work with).

In [126]:
sent2 = list(set(sent2)) #convert a list to a set and back to a list

We will prepare a dictionary to store words in. We use defaultdict.

Then we iterate over the CMU dict and search for all words in our sentence. We store the words in a dictionary where keys are the words and values are pronunciation.

Thanks to defaultdict we keep our code short and simple. We do not have to use conditions for adding elements to the dictionary. 

In [136]:
def sent2_dict(sent2):
    """ Create a dictionary where words are keys and pronunciation is values """
    sent_matches = defaultdict(list)
    
    for tok in sent2:
        for entry in entries:
            if entry[0] == tok:
                sent_matches[tok].append(entry[1])
                
    return sent_matches

In [137]:
sent_pron = sent2_dict(sent2)

We can see if there are words with more than one pronunciation in our sentence. Because we store the pronunciation in a list in dictionary values the easiest thing to do is to iterate over the dictionary and print a length of each value list.

In [140]:
for key, val in sent_pron.items():
    print(key, len(val))

then 1
i 1
you 1
to 3
will 2
and 2
a 2
it 2
record 3
send 1


As we can see, there are 5 words we can pronounce differently. Let's create another dictionary, store the words in the new dictionary and print the words with the pronunciation.

In [141]:
def more_pron_dict(sent_pron):
    """ Create a new dictionary and store the words we can pronounce differently there """
    pron = {}
    
    for key, val in sent_pron.items():
        if len(val) > 1:
            pron[key] = val
            
    return pron

In [142]:
diff_pron = more_pron_dict(sent_pron)

In [143]:
diff_pron

{'to': [['T', 'UW1'], ['T', 'IH0'], ['T', 'AH0']],
 'will': [['W', 'IH1', 'L'], ['W', 'AH0', 'L']],
 'and': [['AH0', 'N', 'D'], ['AE1', 'N', 'D']],
 'a': [['AH0'], ['EY1']],
 'it': [['IH1', 'T'], ['IH0', 'T']],
 'record': [['R', 'AH0', 'K', 'AO1', 'R', 'D'],
  ['R', 'EH1', 'K', 'ER0', 'D'],
  ['R', 'IH0', 'K', 'AO1', 'R', 'D']]}

We could leave the printing as it is or make it prettier. 

To make the printing prettier we first concantenate the separate phones of each pronunciation into a string. We create another function for this task.

In [144]:
def pron_no_list(diff_pron):
    """ Create a new dictionary. In values store a list of strings with phones """
    pron_nl = defaultdict(list)

    for key, val in diff_pron.items():
        for words in val:
            pron_nl[key].append(' '.join(w for w in words))
    
    return pron_nl

In [145]:
diff_pron_nl = pron_no_list(diff_pron)

In [146]:
diff_pron_nl

defaultdict(list,
            {'to': ['T UW1', 'T IH0', 'T AH0'],
             'will': ['W IH1 L', 'W AH0 L'],
             'and': ['AH0 N D', 'AE1 N D'],
             'a': ['AH0', 'EY1'],
             'it': ['IH1 T', 'IH0 T'],
             'record': ['R AH0 K AO1 R D',
              'R EH1 K ER0 D',
              'R IH0 K AO1 R D']})

Then we will just print the dictionary.

In [147]:
for key, val in diff_pron_nl.items():
    print(key + ': ' + ' | '.join(w for w in val))

to: T UW1 | T IH0 | T AH0
will: W IH1 L | W AH0 L
and: AH0 N D | AE1 N D
a: AH0 | EY1
it: IH1 T | IH0 T
record: R AH0 K AO1 R D | R EH1 K ER0 D | R IH0 K AO1 R D
