# Natural Language Processing with Classification and Vector Spaces

## Sentiment Analysis with Logistic Regression

## Sentiment Analysis with Naïve Bayes

## Vector Space Models

## Machine Translation and Document Search

# Natural Language Processing with Probabilistic Models

## Autocorrect

## Part of Speech Tagging and Hidden Markov Models

## Autocomplete and Language Models

## Word embeddings with neural networks

Slova je mozno kodovat nekolika ruznymi zpusoby. Asi nejzakladnejsi, je je representovat jako cisla. Tj. mame-li slovnik
s N slovy, pak kazde slovo je reprezentovano cislem od 1 do N. Tento zpusob je ne uplne stastny, protoze neni
zrejme, jaky vztah maji jednotlive cisla k sobe. Proc by napriklad zebra mela byt na konci a kun uprostred. 

Dalsi zpusob je reprezentovat slova jako vektory. Takovym zpusobem je one-hot encoding, coz je pristup jako ke 
kategorickemu kodovani. Mame-li slovnik s N slovy, pak kazde slovo je reprezentovano vektorem o delce N, kde je jedna
jednicka a vsechny ostatni hodnoty jsou nulove. Tento zpusob take neni uplne stastny, protoze vytvari velmi velke
vektory. Navic je prace s takovymi vektory vypocetne narocna.

![One Hot Encoding](./pomocne_soubory/one_hot_enc.png)

Dalsi zpusob je pouziti word embeddings, coz je opet vektorova
reprezentace slov, ale o nizsi dimenzionalite. V podsate PCA pro slova, kde jednotlive dimenze nejsou maximalni 
variance, ale spise vztahy mezi slovy. Word embeddings se pouzivaji v mnoha NLP aplikacich, jako je napriklad sentiment analysis, machine 
translation, named entity recognition, part-of-speech tagging, automatic summarization, question answering, text 
classification, document clustering, a jine. Word embeddings se vytvari pomoci metod strojoveho uceni, jako je napriklad Word2Vec, GloVe, FastText, a jine.

![One Hot Encoding](./pomocne_soubory/word_embedding.png) 

K vytvoreni word embeddings, potrebujeme corpus textu, ktery pouzijeme k trenovani modelu a dale si musime zvolit 
nejakou embedovaci metodu. Word embedding vznika v podstate jako by-produkt pri reseni nejakeho ukolu strojoveho 
uceni. Tou ulohou je prave ta embedovaci medota. Napriklad, uloha muze byt predikce nasledujiciho slova v zavislosti na
predchozich slovech. Nebo na slovech okolnich. Takovy ukol se nazyva "self-supervised learning". Znamena to, ze sice 
jako input mame neolablovany text, nicmene sama uloha je supervizovana a labely si vytvrari.

![One Hot Encoding](./pomocne_soubory/word_embedding_2.png)

Embeddingovych metod je nekolik:
- Klasicke:
    - Word2Vec
    - Continous Bag Of Words (CBOW): the model learns to predict the center word given some context words.
    - Continuous skip-gram / Skip-gram with negative sampling (SGNS): the model learns to predict the words surrounding a
     given input word.
    - GloVe: factorizes the logarithm of the corpus's word co-occurrence matrix, similar to the count matrix you’ve used 
    before.
    - FastText: based on the skip-gram model and takes into account the structure of words by representing words as 
    an n-gram of characters. It supports out-of-vocabulary (OOV) words.
- Deep Learning:
    - ELMo
    - BERT
    - GPT 2 

### Word2Vec

### Continuous Bag Of Words (CBOW) model

Cilem CBOW modelu je predikovat slovo uprosted nejakeho okna v zavislosti na okolnich slovech. Tj. mame-li vetu "I am 
happy because I am learning", pak pro slovo "happy" by mohlo mit okolni slova "I", "am", "because", "I". CBOW 
model tak predikuje "happy" na zaklade techto slov. To, jak velke okno pouzijeme pro okolni kontextova slova, je 
hyperparametr.

![One Hot Encoding](./pomocne_soubory/cbow.png)

#### Cleaning and Tokenization

- letter case : lower case
- punctuation : remove / replace with space / replace with dot
- numbers : remove / replace with special token <NUM>
- special characters : remove / replace with space
- special words : remove / replace with special token <URL>, <EMAIL>, <PHONE>, <CURRENCY>, <DATE>, <TIME>

Pro nektery pripady je vhodne specialni slova ponechat, napriklad pro sentiment analysis, kde je dulezite, zda je v 
textu smilik.

Pro cisteni textu a tokenizaci se pouzivaji knihovny jako je napriklad NLTK, Spacy, Gensim, a dalsi.

In [None]:
data = re.sub(r'[,!?;-]+', '.', corpus)
data = nltk.word_tokenize(data)
data = [ ch.lower() for ch in data if ch.isalpha() or ch == '.'  or emoji.get_emoji_regexp().search(ch) ]

#### Transforming Text to Numbers

Jedna z moznosti je vzit vsechny slova, zakodovat je jako one-hot encoding a udelat jejich prumer. Tento prumer je
potom reprezentaci contextovych slov. A to slouzi jako vstup do shallow neural network, ktera predikuje slovo 
uprosted. Velikost embeddingu je velkost vnitrni vrstvy teto site. A je to hyperparametr.  

![One Hot Encoding](./pomocne_soubory/cbow_model_architect.png)

Duvod proc to delame je by-product tenhle neuronky, tj. matice vah W_1 a W_2. To je to, co je onen embedding. Matice 
W_1 dobre popisuje kontextova slova a vytvari embed_dim representaci kontextu, matice W_2 zase dobre popisuje slovo 
uprostred. Bud se bere matice W_1 nebo W_2 jako embedding, nebo se bere prumer obou. Kazde ma sve pro a proti. 

Jak nasledne validovat, zda embedding funguje? Jsou dve skupiny evaluace: vnitrni a vnejsi. 
- Vnitrni evaluace se diva na analogie, clustering, visualizace, a dalsi. 
- Vnejsi evaluace se diva na konkretni ukoly, jako je naprikld sentiment analysis. Vyhoda je, ze rovnou testuje 
vyslednou aplikaci. Nevyhoda je, ze to trva dlouho a hure se to trouble-shootuje.

### Continuous skip-gram / Skip-gram with negative sampling (SGNS) model

### GloVe

### FastText

### ELMo

### BERT

### GPT 2

# Natural Language Processing with Sequence Models

# Natural Language Processing with Attention Models