# MVD 5. cvičení

## 1. část - TF-IDF s word embeddingy

V minulém cvičení bylo za úkol implementovat TF-IDF algoritmus nad datasetem z Kagglu. Dnešní cvičení je rozšířením této úlohy s použitím word embeddingů. Lze použít předtrénované GloVe embeddingy ze 3. cvičení, nebo si v případě zájmu můžete vyzkoušet práci s Word2Vec od Googlu (najdete [zde](https://code.google.com/archive/p/word2vec/)).

Cvičení by mělo obsahovat následující části:
- Načtení článků a embeddingů
- Výpočet document vektorů pomocí TF-IDF a word embeddingů 
    - Pro výpočet TF-IDF využijte [TfidfVectorizer](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html) z knihovny sklearn
    - Vážený průměr GloVe / Word2Vec vektorů

<center>
$
doc\_vector = \frac{1}{|d|} \sum\limits_{w \in d} TF\_IDF(w) glove(w)
$
</center>

- Dotaz bude transformován stejně jako dokument

- Výpočet relevance pomocí kosinové podobnosti
<center>
$
score(q,d) = cos\_sim(query\_vector, doc\_vector)
$
</center>

### Načtení článků

In [3]:
import spacy
import pandas
import numpy as np

lemmatizer = spacy.load('en_core_web_sm', disable=['parser', 'ner']) # NLTK


def normalize_data(db):
    # set all to lowercase
    db['text'] = db['text'].str.lower()
    db['title'] = db['title'].str.lower()

    # delete all special characters
    db['text'] = db['text'].str.replace(r'\W', ' ', regex=True)
    db['title'] = db['title'].str.replace(r'\W', ' ', regex=True)
    # delete multiple spaces
    db['text'] = db['text'].str.replace(r'\s+', ' ', regex=True)
    db['title'] = db['title'].str.replace(r'\s+', ' ', regex=True)
    return db


#data load and normalize
df = pandas.read_csv('articles.csv')
df = df[['title', 'text']]
df_norm = normalize_data(df)
df



Unnamed: 0,title,text
0,chatbots were the next big thing what happened...,oh how the headlines blared chatbots were the ...
1,python for data science 8 concepts you may hav...,if you ve ever found yourself looking up the s...
2,automated feature engineering in python toward...,machine learning is increasingly moving from h...
3,machine learning how to go from zero to hero f...,if your understanding of a i and machine learn...
4,reinforcement learning from scratch insight data,want to learn about applied artificial intelli...
...,...,...
332,you can build a neural network in javascript e...,click here to share this article on linkedin s...
333,artificial intelligence ai in 2018 and beyond ...,these are my opinions on where deep neural net...
334,spiking neural networks the next generation of...,everyone who has been remotely tuned in to rec...
335,surprise neurons are now more complex than we ...,one of the biggest misconceptions around is th...


### Načtení embeddingů

In [4]:
with open('glove.6B/glove.6B.50D.txt', encoding='utf8') as f:
    data = []
    for line in f:
        data.append(line)
word = []
word2idx = {}
vec = np.zeros((len(data),len(data[0].split(' '))-1))
for i,item in enumerate(data):
    splited = item.replace('\n','').split(' ')
    word.append(splited[0])
    vec[i,:] = np.asarray(splited[1:])
    word2idx[splited[0]] = i

print(vec[0])
print(word[0])
print(word2idx['the'])

[ 4.1800e-01  2.4968e-01 -4.1242e-01  1.2170e-01  3.4527e-01 -4.4457e-02
 -4.9688e-01 -1.7862e-01 -6.6023e-04 -6.5660e-01  2.7843e-01 -1.4767e-01
 -5.5677e-01  1.4658e-01 -9.5095e-03  1.1658e-02  1.0204e-01 -1.2792e-01
 -8.4430e-01 -1.2181e-01 -1.6801e-02 -3.3279e-01 -1.5520e-01 -2.3131e-01
 -1.9181e-01 -1.8823e+00 -7.6746e-01  9.9051e-02 -4.2125e-01 -1.9526e-01
  4.0071e+00 -1.8594e-01 -5.2287e-01 -3.1681e-01  5.9213e-04  7.4449e-03
  1.7778e-01 -1.5897e-01  1.2041e-02 -5.4223e-02 -2.9871e-01 -1.5749e-01
 -3.4758e-01 -4.5637e-02 -4.4251e-01  1.8785e-01  2.7849e-03 -1.8411e-01
 -1.1514e-01 -7.8581e-01]
the
0


### TF-IDF + Word2Vec a vytvoření doc vektorů

### Transformace dotazu a výpočet relevance

## Bonus - Našeptávání

Bonusem dnešního cvičení je našeptávání pomocí rekurentních neuronových sítí. Úkolem je vytvořit jednoduchou rekurentní neuronovou síť, která bude generovat text (character-level přístup). 

Optimální je začít po dokončení cvičení k předmětu ANS, kde se tato úloha řeší. 

Dataset pro učení vaší neuronové sítě naleznete na stránkách [Yahoo research](https://webscope.sandbox.yahoo.com/catalog.php?datatype=l&guccounter=1), lze využít např. i větší [Kaggle dataset](https://www.kaggle.com/c/yandex-personalized-web-search-challenge/data) nebo vyhledat další dataset na [Google DatasetSearch](https://datasetsearch.research.google.com/).

Vstupem bude rozepsaný dotaz a výstupem by měly být alespoň 3 dokončené dotazy.