# Análise da Semelhança entre os parágrafos

Este arquivo busca calcular a matriz de semelhança entre os parágrafos utilizando a distância cosseno como métrica e o bag-of-words como modelo de representação do conhecimento.

Sejam u e v sentenças representadas como vetores linha bag-of-words sob o mesmo vocabulário. O ângulo entre esses dois vetores é uma medida de similaridade entre as duas sentenças. O cosseno do ângulo entre os dois vetores pode ser calculado facilmente:

$$
cos \theta = \frac{\sum u_i v_i}{|u||v|} \\
cos \theta = \frac{u}{|u|}*\frac{v^T}{|v|} \\
$$

Se criarmos uma matriz $D_{NxM}$ onde N é o numero de sentenças existentes e M é o tamanho do vocabulário existente da seguinte forma:
$$ D =
\begin{bmatrix}
    \frac{\mathbf{u_1}}{|u_1|} \\
    \frac{\mathbf{u_2}}{|u_2|} \\
    \vdots \\
    \frac{\mathbf{u_N}}{|u_N|} \\
\end{bmatrix}
$$

Portanto, o calculo de todas as semelhanças pode ser realizado através da seguinte expressão:
$
    \cos \theta = D*D^T
$

# Obtenção dos dados a partir do banco de dados

In [1]:
from database_utils import DatabaseConnector, build_dataframe

db_connector = DatabaseConnector('localhost', 'root', '12345', 'CORPUS_VIES')
retrieved_data = build_dataframe(db_connector.getDataTextAndLabel())

N_paragraphs = retrieved_data.shape[0]

SELECT PARAGRAPH, POLARITY FROM PARAGRAPHS WHERE POLARITY IS NOT NULL AND trim(POLARITY) <> ""
1042  Paragraphs encountered


# Montagem da matriz bag-of-words dos dados

In [45]:
from sklearn.feature_extraction.text import CountVectorizer

cv = CountVectorizer()
v = cv.fit_transform(retrieved_data['texts'])
bag_of_words_matrix = v.toarray()
N_features = bag_of_words_matrix.shape[1]

In [43]:
import numpy as np
import numpy.matlib

x1 = np.arange(9.0).reshape((3, 3))
x2 = np.array(np.arange(3.0))
x2 = np.matlib.repmat(x2, 3, 1).transpose()


M = np.multiply(x1, 2)

print(x1)
print(x2)
print(M)

[[ 0.  1.  2.]
 [ 3.  4.  5.]
 [ 6.  7.  8.]]
[[ 0.  0.  0.]
 [ 1.  1.  1.]
 [ 2.  2.  2.]]
[[  0.   2.   4.]
 [  6.   8.  10.]
 [ 12.  14.  16.]]


# Pré tratamento dos dados
Remoção da média e forçando o desvio padrão unitário

In [49]:
# Teste inicial
import numpy as np

v = np.array([[-1, 4], [-6, 10]])
m = v.mean(axis=1).reshape(2,1)
s = v.std(axis = 1).reshape(2,1)

v2 = (v - m)/s

print(v2)
print(m)
print(s)

print(v2.std(axis = 1))

[[-1.  1.]
 [-1.  1.]]
[[ 1.5]
 [ 2. ]]
[[ 2.5]
 [ 8. ]]
[ 1.  1.]


array([[ 0,  5],
       [-5, 11]])

In [53]:
import numpy as np

mean_vector = bag_of_words_matrix.mean(axis=1).reshape(N_paragraphs, 1)
std_vector = bag_of_words_matrix.std(axis=1).reshape(N_paragraphs, 1)

bag_of_words_matrix = (bag_of_words_matrix - mean_vector)/std_vector

bag_of_words_matrix.max()

78.936683487463554

# Cálculo da matriz de correlação

In [56]:
import numpy as np
import matplotlib.pyplot as plt

%matplotlib notebook
# C = np.multiply(np.corrcoef(bag_of_words_matrix), 255)
C = np.corrcoef(bag_of_words_matrix)
print(C.min())
plt.imshow(C, cmap= 'Greys_r')
plt.show()

-0.00722719278615


<IPython.core.display.Javascript object>

## Correlação entre os dados da classe positiva

In [19]:
def get_correlation_matrix(sentiment, fignum):
    from pandas import DataFrame
    from sklearn.feature_extraction.text import CountVectorizer
    import numpy as np
    import matplotlib.pyplot as plt
#     %matplotlib notebook

    data = DataFrame(data = {'texts': [t[0] for t in db_connector.getDataBySentiment(sentiment)]} )

    cv = CountVectorizer()
    bag_of_words = cv.fit_transform(data['texts']).toarray()
    corr_matrix = np.corrcoef(bag_of_words)
    plt.figure(fignum)
    plt.imshow(np.multiply(corr_matrix, 255), cmap='Greys_r')
    plt.show()
    
    return corr_matrix

In [21]:
positive_corr = get_correlation_matrix("PO", 1)
negative_corr = get_correlation_matrix("NG", 2)
neutral_corr = get_correlation_matrix("NE", 3)

SELECT PARAGRAPH FROM PARAGRAPHS WHERE POLARITY = "PO"
310  Paragraphs encountered


<IPython.core.display.Javascript object>

SELECT PARAGRAPH FROM PARAGRAPHS WHERE POLARITY = "NG"
391  Paragraphs encountered


<IPython.core.display.Javascript object>

SELECT PARAGRAPH FROM PARAGRAPHS WHERE POLARITY = "NE"
341  Paragraphs encountered


<IPython.core.display.Javascript object>