# Análise da Semelhança entre os parágrafos

Este arquivo busca calcular a matriz de semelhança entre os parágrafos utilizando a distância cosseno como métrica e o bag-of-words como modelo de representação do conhecimento.

Sejam u e v sentenças representadas como vetores linha bag-of-words sob o mesmo vocabulário. O ângulo entre esses dois vetores é uma medida de similaridade entre as duas sentenças. O cosseno do ângulo entre os dois vetores pode ser calculado facilmente:

$$
cos \theta = \frac{\sum u_i v_i}{|u||v|} \\
cos \theta = \frac{u}{|u|}*\frac{v^T}{|v|} \\
$$

Se criarmos uma matriz $D_{NxM}$ onde N é o numero de sentenças existentes e M é o tamanho do vocabulário existente da seguinte forma:
$$ D =
\begin{bmatrix}
    \frac{\mathbf{u_1}}{|u_1|} \\
    \frac{\mathbf{u_2}}{|u_2|} \\
    \vdots \\
    \frac{\mathbf{u_N}}{|u_N|} \\
\end{bmatrix}
$$

Portanto, o calculo de todas as semelhanças pode ser realizado através da seguinte expressão:
$
    \cos \theta = D*D^T
$

In [1]:
from database_utils import DatabaseConnector, build_dataframe

db_connector = DatabaseConnector('localhost', 'root', '12345', 'CORPUS_VIES')
retrieved_data = build_dataframe(db_connector.getDataTextAndLabel())

SELECT PARAGRAPH, POLARITY FROM PARAGRAPHS WHERE POLARITY IS NOT NULL AND trim(POLARITY) <> ""
1042  Paragraphs encountered


In [24]:
from sklearn.feature_extraction.text import CountVectorizer

sample = retrieved_data['texts'][0]
sample = sample.split()
print(sample)

cv = CountVectorizer()
v = cv.fit_transform(retrieved_data['texts'])

type(v[1])

['Os', 'candidatos', 'à', 'Presidência', 'mais', 'bem', 'posicionados', 'nas', 'pesquisas', 'arrecadaram', 'do', 'início', 'da', 'campanha', 'até', 'o', 'dia', '2', 'de', 'setembro', 'R', '185', 'milhões', 'em', 'doações', 'A', 'candidata', 'do', 'PT', 'Dilma', 'Rousseff', 'foi', 'a', 'que', 'mais', 'captou', 'R', '123', '3', 'milhões', 'quase', 'o', 'dobro', 'que', 'a', 'soma', 'de', 'seus', 'dois', 'principais', 'adversários', 'Aécio', 'Neves', 'do', 'PSDB', 'que', 'recebeu', 'R', '42', '3', 'milhões', 'e', 'Marina', 'Silva', 'do', 'PSB', 'com', 'R', '19', '5', 'milhões']


scipy.sparse.csr.csr_matrix

In [49]:
from pandas import DataFrame
import numpy as np

df = DataFrame(data = {"texts": ["Sabe quem perguntou por você?", "Diz aí", "Ninguem"]})
v = cv.fit_transform(df['texts'])

v = v.toarray()
normas = np.linalg.norm(v, axis = 1) # Calcula a norma ao longo das colunas

M

array([ 2.23606798,  1.41421356,  1.        ])

5.000000011181281