<a href="https://colab.research.google.com/github/Pedrest15/Python/blob/main/Similaridade_Cosseno.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Fundamentação Teórica


Comparar a proximidade entre dois textos a partir da métrica de distância do cosseno. A expressão algébrica é:

$$d(x,y) = \frac{x \cdot y}{||x||_2\space||y||_2} =  \frac{∑_{i}^{n}x_i y_i}{\sqrt{\sum_{i}^{n}x_{i}^2}{\sqrt{\sum_{i}^{n}y_{i}^2}}} $$

Quanto mais próximo for o resultado de 1, mais similares são os textos. 

Para textos, o cálculo é feito tomando como base as frequências com que cada palavra aparece em cada um. De forma resumida, o pré-processamento necessário para aplicar o algoritmo é:

*   Criar um vetor com todas as palavras que estão presentes nos textos (sem necessidade de guardar repetições). 
*   Criar vetores com as frequências com que cada uma das palavras aparece em cada um dos textos.







Tomando por exemplo, tem-se as frases f1: "Brasil, um país tropical" e f2: "Brasil, o país do futebol". O vetor com todas as palavras é  \\
`vt = ['Brasil', 'um', 'o', 'país', 'tropical', 'do', 'futebol']` \\
Os vetores das frequências são \\
`v1 = [1, 1, 0, 1, 1, 0, 0] ` \\
e \\
`v2 = [1, 0, 1, 1, 0, 1, 1]`

#Experimento

##Carregando os textos

In [15]:
with open('MarPortuguês.txt',"r") as f:
  mar_portugues = f.read()
mar_portugues

'Mar Português\n\nÓ mar salgado, quanto do teu sal\nSão lágrimas de Portugal!\nPor te cruzarmos, quantas mães choraram,\nQuantos filhos em vão rezaram!\nQuantas noivas ficaram por casar\nPara que fosses nosso, ó mar!\n\nValeu a pena? Tudo vale a pena\nSe a alma nao é pequena.\nQuem quer passar além do Bojador\nTem que passar além da dor.\nDeus ao mar o perigo e o abismo deu,\nMas nele é que espelhou o céu.\n'

In [14]:
with open("amar-drummond.txt", "r") as f:
  amar = f.read()
amar

'Amar\n\nQue pode uma criatura senao,\nentre criaturas, amar?\namar e esquecer,\namar e malamar,\namar, desamar, amar?\nsempre e ate de olhos vidrados, amar?\n\nQue pode, pergunto, o ser amoroso,\nsozinho, em rotacao universal, senao\nrodar tambem, e amar?\namar o que o mar traz à praia,\no que ele sepulta, e o que, na brisa marinha,\né sal, ou precisao de amor, ou simples ansia?\n\nAmar solenemente as palmas do deserto,\no que é entrega ou adoracao expectante,\ne amar o inospito, o aspero,\num vaso sem flor, um chao de ferro,\ne o peito inerte, e a rua vista em sonho, e uma ave de rapina.\n\nAmar a nossa falta mesma de amor, e na secura nossa\namar a agua implicita, e o beijo tacito, e a sede infinita.\n'

In [17]:
poemas = [mar_portugues, amar]

##Fazendo contagem de frequências com CountVectorizer

O CountVectorizer não faz tratamento especial para as palavras que mais aparecem, as *stopwords*. Estratégias boa para amostras pequenas, como poemas, mas para grandes textos é preciso um tratamento mais rebuscado.

In [28]:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.metrics.pairwise import cosine_similarity

import pandas as pd

In [19]:
count_vectorizer = CountVectorizer()
vector_matrix = count_vectorizer.fit_transform(poemas)

Tabela com as frequências das palavras em cada texto

In [25]:
tokens = count_vectorizer.get_feature_names()
tokens



['abismo',
 'adoracao',
 'agua',
 'alma',
 'além',
 'amar',
 'amor',
 'amoroso',
 'ansia',
 'ao',
 'as',
 'aspero',
 'ate',
 'ave',
 'beijo',
 'bojador',
 'brisa',
 'casar',
 'chao',
 'choraram',
 'criatura',
 'criaturas',
 'cruzarmos',
 'céu',
 'da',
 'de',
 'desamar',
 'deserto',
 'deu',
 'deus',
 'do',
 'dor',
 'ele',
 'em',
 'entre',
 'entrega',
 'espelhou',
 'esquecer',
 'expectante',
 'falta',
 'ferro',
 'ficaram',
 'filhos',
 'flor',
 'fosses',
 'implicita',
 'inerte',
 'infinita',
 'inospito',
 'lágrimas',
 'malamar',
 'mar',
 'marinha',
 'mas',
 'mesma',
 'mães',
 'na',
 'nao',
 'nele',
 'noivas',
 'nossa',
 'nosso',
 'olhos',
 'ou',
 'palmas',
 'para',
 'passar',
 'peito',
 'pena',
 'pequena',
 'pergunto',
 'perigo',
 'pode',
 'por',
 'portugal',
 'português',
 'praia',
 'precisao',
 'quantas',
 'quanto',
 'quantos',
 'que',
 'quem',
 'quer',
 'rapina',
 'rezaram',
 'rodar',
 'rotacao',
 'rua',
 'sal',
 'salgado',
 'se',
 'secura',
 'sede',
 'sem',
 'sempre',
 'senao',
 'sepu

In [26]:
tokens = count_vectorizer.get_feature_names()
vector_matrix.toarray()

array([[ 1,  0,  0,  1,  2,  0,  0,  0,  0,  1,  0,  0,  0,  0,  0,  1,
         0,  1,  0,  1,  0,  0,  1,  1,  1,  1,  0,  0,  1,  1,  2,  1,
         0,  1,  0,  0,  1,  0,  0,  0,  0,  1,  1,  0,  1,  0,  0,  0,
         0,  1,  0,  4,  0,  1,  0,  1,  0,  1,  1,  1,  0,  1,  0,  0,
         0,  1,  2,  0,  2,  1,  0,  1,  0,  2,  1,  1,  0,  0,  2,  1,
         1,  3,  1,  1,  0,  1,  0,  0,  0,  1,  1,  1,  0,  0,  0,  0,
         0,  0,  0,  0,  0,  0,  0,  1,  0,  0,  1,  1,  1,  0,  1,  0,
         0,  0,  1,  1,  0,  0,  0,  1],
       [ 0,  1,  1,  0,  0, 13,  2,  1,  1,  0,  1,  1,  1,  1,  1,  0,
         1,  0,  1,  0,  1,  1,  0,  0,  0,  5,  1,  1,  0,  0,  1,  0,
         1,  2,  1,  1,  0,  1,  1,  1,  1,  0,  0,  1,  0,  1,  1,  1,
         1,  0,  1,  1,  1,  0,  1,  0,  2,  0,  0,  0,  2,  0,  1,  3,
         1,  0,  0,  1,  0,  0,  1,  0,  2,  0,  0,  0,  1,  1,  0,  0,
         0,  6,  0,  0,  1,  0,  1,  1,  1,  1,  0,  0,  1,  1,  1,  1,
         2,  1,  1,  1,

In [27]:
df = pd.DataFrame(data=vector_matrix.toarray(), index=['Mar Português', 'Amar'], columns=tokens)
df

Unnamed: 0,abismo,adoracao,agua,alma,além,amar,amor,amoroso,ansia,ao,...,tudo,um,uma,universal,vale,valeu,vaso,vidrados,vista,vão
Mar Português,1,0,0,1,2,0,0,0,0,1,...,1,0,0,0,1,1,0,0,0,1
Amar,0,1,1,0,0,13,2,1,1,0,...,0,2,2,1,0,0,1,1,1,0


In [32]:
df = pd.DataFrame(data=cosine_similarity(vector_matrix), index=['Mar Português', 'Amar'], columns=['Mar Português', 'Amar'])
df

Unnamed: 0,Mar Português,Amar
Mar Português,1.0,0.180457
Amar,0.180457,1.0


A similaridade entre os dois poemas é de 18%.

##Fazendo contagem de freqências com TfidfVectorizer

In [33]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

import pandas as pd

In [35]:
Tfidf_vect = TfidfVectorizer()
vector_matrix = Tfidf_vect.fit_transform(poemas)

tokens = Tfidf_vect.get_feature_names()
df = pd.DataFrame(data=vector_matrix.toarray(), index=['Mar Português', 'Amar'], columns=tokens)
df



Unnamed: 0,abismo,adoracao,agua,alma,além,amar,amor,amoroso,ansia,ao,...,tudo,um,uma,universal,vale,valeu,vaso,vidrados,vista,vão
Mar Português,0.112367,0.0,0.0,0.112367,0.224734,0.0,0.0,0.0,0.0,0.112367,...,0.112367,0.0,0.0,0.0,0.112367,0.112367,0.0,0.0,0.0,0.112367
Amar,0.0,0.057984,0.057984,0.0,0.0,0.753798,0.115969,0.057984,0.057984,0.0,...,0.0,0.115969,0.115969,0.057984,0.0,0.0,0.057984,0.057984,0.057984,0.0


In [36]:
df = pd.DataFrame(data=cosine_similarity(vector_matrix), index=['Mar Português', 'Amar'], columns=['Mar Português', 'Amar'])
df

Unnamed: 0,Mar Português,Amar
Mar Português,1.0,0.10555
Amar,0.10555,1.0


A similaridade entre os poemas é de 10,56%. A diferença no valor do cosseno se dá pela penalização empregada nas palavras mais recorrentes.