# Aula #26 – Processamento de Linguagem Natural & Análise de Sentimento

# Word2vec

Já vimos antes que é possível transformar um texto em _features_ numéricas. Uma sofisticação do método _Bag of words_ é incorporar o contexto das palavras vizinhas nessas _features_ (é comum chamar o vetor de _features_ numéricas de _embedding_).

Imagine que nossa janela de contexto (context window) tem tamanho 5 (2 palavras _antes_ e 2 palavras _depois_ da palavra _central_).

Então, se a frase fosse `The quick brown fox jumps over the lazy dog`, teríamos as seguintes janelas:

<img src="data/nb_figs/windows_word2vec.png" width="600"/>

Para cada uma das janelas formadas, temos o vetor correspondente a elas (usando o _Bag of words_ binário - com apenas 0s e 1s; também chamado de `one-hot encoding`):

<img src="data/nb_figs/one_hot_encoding_word2vec.png" width="600"/>

Há duas arquiteturas possíveis para se obter os `embeddings` word2vec. Uma delas é chamada de `CBoW` (_Continuous Bag of Words_) e outra é chamada de `Skip gram`. Aqui, vamos focar no `Skip gram`, que considera como input o vetor da palavra central da janela, e como output, os vetores do contexto. O objetivo do algoritmo é aprender os pesos da _hidden layer_, de forma que as probabilidades finais sejam condizentes com as co-ocorrências das palavras em nosso _corpus_ de documentos.

<img src="data/nb_figs/nn_word2vec_large.png" width="800"/>

Ao final do treinamento, a matriz correspondente à _hidden layer_, com 10 mil (tamanho do vocabulário) linhas e 300 (quantidade de dimensões do _embedding_) colunas será tal que cada linha representará o embedding de uma palavra do vocabulário.

Para saber mais sobre `word2vec`, leia em:

* http://mccormickml.com/2016/04/19/word2vec-tutorial-the-skip-gram-model/
* https://nathanrooy.github.io/posts/2018-03-22/word2vec-from-scratch-with-python-and-numpy/
* https://blog.acolyer.org/2016/04/21/the-amazing-power-of-word-vectors/

## Similaridade entre ingredientes - uma aplicação do _word2vec_ a um dataset de receitas

O dataset utilizado aqui compreende os datasets de treino e teste do [Recipe Ingredients Dataset do Kaggle](https://www.kaggle.com/kaggle/recipe-ingredients-dataset).

A ideia é treinar um modelo `word2vec` usando a biblioteca [gensim](https://radimrehurek.com/gensim/index.html) e depois construirmos uma aplicação pela qual seja possível obter uma lista dos ingredientes mais similares a um determinado ingrediente. Vamos tentar?

### Leitura do dataset

In [1]:
import pandas as pd

In [2]:
df = pd.read_json('data/datasets/kaggle_recipes/recipes.json').reset_index(drop=True)

In [3]:
df.head()

Unnamed: 0,cuisine,id,ingredients
0,greek,10259,"[romaine lettuce, black olives, grape tomatoes..."
1,southern_us,25693,"[plain flour, ground pepper, salt, tomatoes, g..."
2,italian,5875,"[pimentos, sweet pepper, dried oregano, olive ..."
3,italian,17636,"[tomato sauce, shredded carrots, spinach, part..."
4,italian,36837,"[marinara sauce, goat cheese, minced garlic, s..."


## Treinamento do _word2vec_

**Tarefa:** Treine um modelo word2vec usando os dados da coluna `ingredients` (`words_list`)

Dica: Leia a documentação sobre a classe `Word2Vec`

In [5]:
from gensim.models import Word2Vec

In [4]:
?Word2Vec

Object `Word2Vec` not found.


In [6]:
words_list = df['ingredients'].tolist()

In [7]:
%%time
model = Word2Vec(words_list, size=300, window=5, min_count=1, workers=4)

CPU times: user 7.77 s, sys: 25 ms, total: 7.8 s
Wall time: 2.4 s


Podemos também salvar o modelo (**posteriormente vamos usá-lo para visualização**)

In [27]:
model.save('data/gensim.model')

### Similaridade entre vetores

Em modelos vetoriais de linguagem, em geral, utiliza-se a similaridade de cosseno como medida de similaridade entre dois vetores, já que ela captura a noção de que vetores apontando para a mesma direção são próximos.

In [8]:
from scipy.spatial.distance import cosine

In [9]:
gelato_vec = model.wv['gelato']
sorbet_vec = model.wv['sorbet']

In [10]:
def similarity_between_vec(vec1, vec2):
    return 1 - cosine(vec1, vec2)

In [11]:
similarity_between_vec(gelato_vec, sorbet_vec)

0.94631218910217285

### Termos mais comuns

Vamos ver quais são os termos mais comuns do dataset?

In [12]:
from collections import Counter

In [13]:
all_ingredients = sum(df['ingredients'].tolist(), [])

In [14]:
Counter(all_ingredients).most_common(20)

[('salt', 22534),
 ('onions', 10008),
 ('olive oil', 9889),
 ('water', 9293),
 ('garlic', 9171),
 ('sugar', 8064),
 ('garlic cloves', 7772),
 ('butter', 6078),
 ('ground black pepper', 5990),
 ('all-purpose flour', 5816),
 ('vegetable oil', 5516),
 ('pepper', 5508),
 ('eggs', 4262),
 ('soy sauce', 4120),
 ('kosher salt', 3930),
 ('green onions', 3817),
 ('tomatoes', 3812),
 ('large eggs', 3700),
 ('carrots', 3542),
 ('unsalted butter', 3474)]

### Os mais próximos

Um método legal do objeto `Word2VecKeyedVectors` é o `most_similar`, que retorna as palavras mais similares a uma determinada palavra. Note que podemos modificar a quantidade de itens retornados, colocando um valor para parâmetro `topn` (por padrão, ele é 10).

**Tarefa:** brinque até ficar satisfeito.

As relações fazem sentido?

In [15]:
?model.wv.most_similar

[0;31mSignature:[0m [0mmodel[0m[0;34m.[0m[0mwv[0m[0;34m.[0m[0mmost_similar[0m[0;34m([0m[0mpositive[0m[0;34m=[0m[0;32mNone[0m[0;34m,[0m [0mnegative[0m[0;34m=[0m[0;32mNone[0m[0;34m,[0m [0mtopn[0m[0;34m=[0m[0;36m10[0m[0;34m,[0m [0mrestrict_vocab[0m[0;34m=[0m[0;32mNone[0m[0;34m,[0m [0mindexer[0m[0;34m=[0m[0;32mNone[0m[0;34m)[0m[0;34m[0m[0m
[0;31mDocstring:[0m
Find the top-N most similar words. Positive words contribute positively towards the
similarity, negative words negatively.

This method computes cosine similarity between a simple mean of the projection
weight vectors of the given words and the vectors for each word in the model.
The method corresponds to the `word-analogy` and `distance` scripts in the original
word2vec implementation.

Parameters
----------
positive : :obj: `list` of :obj: `str`
    List of words that contribute positively.
negative : :obj: `list` of :obj: `str`
    List of words that contribute negatively.


In [16]:
model.wv.most_similar('rice')

[('meat', 0.9136514663696289),
 ('crushed garlic', 0.8827866911888123),
 ('red pepper', 0.8489529490470886),
 ('green chilies', 0.842720627784729),
 ('red capsicum', 0.8422629833221436),
 ('beans', 0.839532732963562),
 ('white rice', 0.8390321135520935),
 ('coriander', 0.8353259563446045),
 ('beef', 0.8336541056632996),
 ('chili pepper', 0.8320420980453491)]

**Tarefa:** Imprima os mais similares para os 5 ingredientes mais comuns obtidos anteriormente. 

In [17]:
for ingredient, _ in Counter(all_ingredients).most_common(5):
    print(model.wv.most_similar(ingredient))

[('sea salt', 0.6209412813186646), ('Knorr Chicken Stock Pots', 0.5803229212760925), ('jamon serrano', 0.5768339037895203), ('cherry brandy', 0.5719507932662964), ('Cavenders Greek Seasoning', 0.567180335521698), ('low fat mild Italian turkey sausage', 0.5446319580078125), ('duck drippings', 0.5384557247161865), ('chicken flavored rice', 0.5364551544189453), ('all-purpose flour', 0.5356296300888062), ('whole wheat cheese tortellini', 0.5271487832069397)]
[('yellow onion', 0.7690353393554688), ('bay leaf', 0.6858698129653931), ('red kidney beans', 0.6845734119415283), ('non fat chicken stock', 0.6810021996498108), ('chicken', 0.6734088063240051), ('frozen peas', 0.6675690412521362), ('salt free seasoning', 0.6660045385360718), ('chicken thighs', 0.6639171838760376), ('chicken broth low fat', 0.6581171154975891), ('lentils', 0.6546423435211182)]
[('extra-virgin olive oil', 0.7708823680877686), ('hillshire farms low fat sausage', 0.7361643314361572), ('roasted red peppers', 0.683533370494

## Visualização das relações entre os ingredientes

Vamos agora construir uma ferramenta que permite:

1. buscar o nome de um ingrediente
2. retornar os ingredientes mais próximos (que não são ele mesmo)

Para fazer isso, vamos usar novamente o recurso `widgets`. A função [interact](https://ipywidgets.readthedocs.io/en/stable/examples/Using%20Interact.html#Basic-interact) permite que ao digitar o nome do ingrediente, já iniciemos a busca por ele na lista de ingredientes disponível (variável `VOCAB` declarada abaixo). Ela também vai nos permitir mostrar os ingredientes disponíveis retornados pela busca e garantir que quando for selecionado um ingrediente, seja disparado o cálculo dos ingredientes mais próximos.

In [18]:
from ipywidgets import interact, widgets

In [19]:
from IPython.display import Markdown, display

def printmd(string):
    display(Markdown(string))

In [20]:
VOCAB = set(model.wv.vocab.keys())

**Tarefa:** Complete a função abaixo, que dado um ingrediente (`ingredient`), retorna os ingredientes mais similares, sem mostrar os ingredientes que contêm o nome do ingrediente de input (ou seja, `pasta` não deve retornar `farfalle pasta`, por exemplo).

In [21]:
def get_similar(ingredient):
    """Returns the most similar ingredients to a selected `ingredient`,
        excluding ingredients which contain the name of the ingredient
    """
    return [w for w, _ in model.wv.most_similar(ingredient) if ingredient not in w]

In [22]:
def show_most_similar(ingredient):
    """Print the most similar ingredients to a selected `ingredient`
    """
    if ingredient == '':
        printmd('')
    else:
        for w in get_similar(ingredient):
            printmd(f'* {w}')

In [23]:
def search_text(text):
    style = {'description_width': 'initial'}
    options = [v for v in VOCAB if text.lower() in v]
    if text in options:
        options.remove(text)
        options = [text] + sorted(options)
    dropdown_widget = widgets.Dropdown(
        options=options,
        description='Available ingredient:',
        disabled=False,
        style=style
    )
    interact(show_most_similar, ingredient=dropdown_widget)

In [24]:
w = widgets.Text(
    value='peanut butter',
    description='Type ingredient name:',
    disabled=False,
    style={'description_width': 'initial'}
)

**Tarefa:** Teste nossa recém-construída ferramenta e verifique se existem normalizações no texto que você acharia bom fazer.

In [25]:
interact(search_text, text=w);

interactive(children=(Text(value='peanut butter', description='Type ingredient name:', style=DescriptionStyle(…

**Tarefa Bônus:** Implemente um filtro por tipo de culinária (chinesa, italiana, grega etc.), para que os ingredientes exibidos como similares façam parte do tipo de culinária escolhida.