# Desafio 1

Neste primeiro desafio ache a similaridade entre as frases nos formatos tf-idf e bag of words. Faça a similaridade para cada duas frases. Dica: lembre-se de limpar a pontuação e deixar tudo em minúscula.

In [5]:
frases = ['Não é amigo aquele que alardeia a amizade: é traficante; a amizade sente-se, não se diz',
          'Eu não sou homem que recuse elogios. Amo-os; eles fazem bem à alma e até ao corpo. As melhores digestões da minha vida são as dos jantares em que sou brindado.',
          'Quem tem um amigo, mesmo que um só, não importa onde se encontre, jamais sofrerá de solidão; poderá morrer de saudades, mas não estará só. A verdadeira amizade é aquela que nos permite falar, ao amigo, de todos os seus defeitos e de todas as nossas qualidades.',
          'A amizade é um amor que nunca morre. A amizade desenvolve a felicidade e reduz o sofrimento, duplicando a nossa alegria e dividindo a nossa dor']

In [10]:
import pandas as pd
df = pd.DataFrame(frases)
df.columns = ['Frases']

In [11]:
df

Unnamed: 0,Frases
0,Não é amigo aquele que alardeia a amizade: é t...
1,Eu não sou homem que recuse elogios. Amo-os; e...
2,"Quem tem um amigo, mesmo que um só, não import..."
3,A amizade é um amor que nunca morre. A amizade...


## Pré-processamento

In [25]:
# Etapas de pré-processamento de texto - remover pontuação e deixar em minúscula
import re
import string

punc_lower = lambda x: re.sub('[%s]' % re.escape(string.punctuation), ' ', x.lower()) #retirar pontuação

corpus = df.Frases.map(punc_lower)
corpus

0    não é amigo aquele que alardeia a amizade  é t...
1    eu não sou homem que recuse elogios  amo os  e...
2    quem tem um amigo  mesmo que um só  não import...
3    a amizade é um amor que nunca morre  a amizade...
Name: Frases, dtype: object

## Stopwords

In [26]:
import nltk
nltk.download('stopwords')
from nltk.corpus import stopwords

[nltk_data] Downloading package stopwords to
[nltk_data]     /Users/LeonardoLins/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


## Cálculo de similaridade de cosseno

In [15]:
from numpy import dot
from numpy.linalg import norm

cosine = lambda v1, v2: dot(v1, v2) / (norm(v1) * norm(v2))

## Representação: vetorizador TF-IDF

In [27]:
from sklearn.feature_extraction.text import TfidfVectorizer
          
cv_tfidf = TfidfVectorizer(stop_words = stopwords.words('portuguese'))
X_tfidf = cv_tfidf.fit_transform(corpus).toarray()

dt_tfidf = pd.DataFrame(X_tfidf, columns=cv_tfidf.get_feature_names_out()).set_index(df.Frases)
dt_tfidf.head()

Unnamed: 0_level_0,alardeia,alegria,alma,amigo,amizade,amo,amor,bem,brindado,corpo,...,saudades,sente,sofrerá,sofrimento,solidão,todas,todos,traficante,verdadeira,vida
Frases,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
"Não é amigo aquele que alardeia a amizade: é traficante; a amizade sente-se, não se diz",0.399961,0.0,0.0,0.315333,0.510579,0.0,0.0,0.0,0.0,0.0,...,0.0,0.399961,0.0,0.0,0.0,0.0,0.0,0.399961,0.0,0.0
Eu não sou homem que recuse elogios. Amo-os; eles fazem bem à alma e até ao corpo. As melhores digestões da minha vida são as dos jantares em que sou brindado.,0.0,0.0,0.27735,0.0,0.0,0.27735,0.0,0.27735,0.27735,0.27735,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.27735
"Quem tem um amigo, mesmo que um só, não importa onde se encontre, jamais sofrerá de solidão; poderá morrer de saudades, mas não estará só. A verdadeira amizade é aquela que nos permite falar, ao amigo, de todos os seus defeitos e de todas as nossas qualidades.",0.0,0.0,0.0,0.353528,0.143106,0.0,0.0,0.0,0.0,0.0,...,0.224203,0.0,0.224203,0.0,0.224203,0.224203,0.224203,0.0,0.224203,0.0
"A amizade é um amor que nunca morre. A amizade desenvolve a felicidade e reduz o sofrimento, duplicando a nossa alegria e dividindo a nossa dor",0.0,0.281387,0.0,0.0,0.359212,0.0,0.281387,0.0,0.0,0.0,...,0.0,0.0,0.0,0.281387,0.0,0.0,0.0,0.0,0.0,0.0


## Representação: vetorizador bag of words

In [28]:
from sklearn.feature_extraction.text import CountVectorizer
          
cv = CountVectorizer(stop_words = stopwords.words('portuguese'))
X = cv.fit_transform(corpus).toarray()

dt = pd.DataFrame(X, columns=cv.get_feature_names_out()).set_index(df.Frases)
dt.head()

Unnamed: 0_level_0,alardeia,alegria,alma,amigo,amizade,amo,amor,bem,brindado,corpo,...,saudades,sente,sofrerá,sofrimento,solidão,todas,todos,traficante,verdadeira,vida
Frases,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
"Não é amigo aquele que alardeia a amizade: é traficante; a amizade sente-se, não se diz",1,0,0,1,2,0,0,0,0,0,...,0,1,0,0,0,0,0,1,0,0
Eu não sou homem que recuse elogios. Amo-os; eles fazem bem à alma e até ao corpo. As melhores digestões da minha vida são as dos jantares em que sou brindado.,0,0,1,0,0,1,0,1,1,1,...,0,0,0,0,0,0,0,0,0,1
"Quem tem um amigo, mesmo que um só, não importa onde se encontre, jamais sofrerá de solidão; poderá morrer de saudades, mas não estará só. A verdadeira amizade é aquela que nos permite falar, ao amigo, de todos os seus defeitos e de todas as nossas qualidades.",0,0,0,2,1,0,0,0,0,0,...,1,0,1,0,1,1,1,0,1,0
"A amizade é um amor que nunca morre. A amizade desenvolve a felicidade e reduz o sofrimento, duplicando a nossa alegria e dividindo a nossa dor",0,1,0,0,2,0,1,0,0,0,...,0,0,0,1,0,0,0,0,0,0


## Listar todas as combinações de frases

In [29]:
# Listar todas as combinações de músicas
from itertools import combinations

pairs = list(combinations(df.Frases.index, 2)) # all song index combos
pairs_0 = list(combinations(range(len(df)), 2)) # all index combos starting with (0,1)
frases_pairs = [(df.Frases[a_index], df.Frases[b_index]) for (a_index, b_index) in pairs]
frases_pairs[:5]

[('Não é amigo aquele que alardeia a amizade: é traficante; a amizade sente-se, não se diz',
  'Eu não sou homem que recuse elogios. Amo-os; eles fazem bem à alma e até ao corpo. As melhores digestões da minha vida são as dos jantares em que sou brindado.'),
 ('Não é amigo aquele que alardeia a amizade: é traficante; a amizade sente-se, não se diz',
  'Quem tem um amigo, mesmo que um só, não importa onde se encontre, jamais sofrerá de solidão; poderá morrer de saudades, mas não estará só. A verdadeira amizade é aquela que nos permite falar, ao amigo, de todos os seus defeitos e de todas as nossas qualidades.'),
 ('Não é amigo aquele que alardeia a amizade: é traficante; a amizade sente-se, não se diz',
  'A amizade é um amor que nunca morre. A amizade desenvolve a felicidade e reduz o sofrimento, duplicando a nossa alegria e dividindo a nossa dor'),
 ('Eu não sou homem que recuse elogios. Amo-os; eles fazem bem à alma e até ao corpo. As melhores digestões da minha vida são as dos janta

## Semelhança de cosseno da matriz termo-documento do TF-IDF Vectorizer

In [30]:
results = [cosine(X_tfidf[a_index], X_tfidf[b_index]) for (a_index, b_index) in pairs_0]
sorted(zip(results, frases_pairs), reverse=True)

[(0.1845461967543371,
  ('Não é amigo aquele que alardeia a amizade: é traficante; a amizade sente-se, não se diz',
   'Quem tem um amigo, mesmo que um só, não importa onde se encontre, jamais sofrerá de solidão; poderá morrer de saudades, mas não estará só. A verdadeira amizade é aquela que nos permite falar, ao amigo, de todos os seus defeitos e de todas as nossas qualidades.')),
 (0.18340605183331393,
  ('Não é amigo aquele que alardeia a amizade: é traficante; a amizade sente-se, não se diz',
   'A amizade é um amor que nunca morre. A amizade desenvolve a felicidade e reduz o sofrimento, duplicando a nossa alegria e dividindo a nossa dor')),
 (0.05140529792225965,
  ('Quem tem um amigo, mesmo que um só, não importa onde se encontre, jamais sofrerá de solidão; poderá morrer de saudades, mas não estará só. A verdadeira amizade é aquela que nos permite falar, ao amigo, de todos os seus defeitos e de todas as nossas qualidades.',
   'A amizade é um amor que nunca morre. A amizade desen

## Semelhança de cosseno da matriz termo-documento do bag of words Vectorizer

In [31]:
results = [cosine(X[a_index], X[b_index]) for (a_index, b_index) in pairs_0]
sorted(zip(results, frases_pairs), reverse=True)

[(0.3442651863295481,
  ('Não é amigo aquele que alardeia a amizade: é traficante; a amizade sente-se, não se diz',
   'A amizade é um amor que nunca morre. A amizade desenvolve a felicidade e reduz o sofrimento, duplicando a nossa alegria e dividindo a nossa dor')),
 (0.2842676218074806,
  ('Não é amigo aquele que alardeia a amizade: é traficante; a amizade sente-se, não se diz',
   'Quem tem um amigo, mesmo que um só, não importa onde se encontre, jamais sofrerá de solidão; poderá morrer de saudades, mas não estará só. A verdadeira amizade é aquela que nos permite falar, ao amigo, de todos os seus defeitos e de todas as nossas qualidades.')),
 (0.11009637651263604,
  ('Quem tem um amigo, mesmo que um só, não importa onde se encontre, jamais sofrerá de solidão; poderá morrer de saudades, mas não estará só. A verdadeira amizade é aquela que nos permite falar, ao amigo, de todos os seus defeitos e de todas as nossas qualidades.',
   'A amizade é um amor que nunca morre. A amizade desenv