In [None]:
import matplotlib.pyplot as plt
plt.style.use('default')
import pandas as pd
import numpy as np
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.decomposition import NMF

# Aula 15: Visualização de Dados
**Objetivo da aula:** ao fim desta aula, o aluno será capaz de usar ferramentas de visualização gráfica para mostrar graficamente o conteúdo de coleções.

# Exercício 1
*Objetivo: usar um plano cartesiano para mostrar dados*

Usando um plano cartesiano (desenhe manualmente!), mostre os dados de seus colegas de turma quando os eixos são:
1. O peso e altura
1. Altura e idade

O que os gráficos mostram sobre a relação entre essas medidas?

## Carregar dados

# Exercício 2
*Objetivo: interpretar gráficos de dispersão para antever o resultado de classificadores*

O código abaixo faz a fatoração NMF de alguns elementos do IMDB dataset para um espaço de 2 tópicos.

1. O que cada ponto da figura significa
1. O que significa o eixo horizontal? E o eixo vertical?



In [None]:
df = pd.read_csv('./datasets/IMDB Dataset.csv').sample(1000)
df.head()


In [None]:
n_components = 2
vectorizer = CountVectorizer(binary=True, max_features=400, min_df=0.01, max_df=0.4)
X = vectorizer.fit_transform(list(df['review']))
print(X.shape)
nmf = NMF(n_components=n_components, init='nndsvda')
y = nmf.fit_transform(X.toarray())

# a1 = nmf.components_[:, vectorizer.vocabulary_['director']]

In [None]:
# Documentos e seus tópicos
plt.figure(figsize=(4,4))
plt.scatter(y[:,0], y[:,1], s=1)
plt.title('Distribuição de documentos por tópico')
plt.ylabel('Tópico 2')
plt.xlabel('Tópico 1')
plt.show()

# Exercício 3
*Objetivo: entender como cores podem ser usadas para mostrar características qualitativas de dispersões*

O código a seguir adiciona cores ao gráfico que fizemos anteriormente.

1. Na figura seguinte, o que significam as cores?
1. Olhando a figura, você acredita que os tópicos são características relevantes para fazer a classificação de documentos de acordo com seu sentimento?

In [None]:
# Usar cores
sent = list(df['sentiment'])
yp = np.array([y[i,:] for i in range(len(sent)) if sent[i]=='positive'])
yn = np.array([y[i,:] for i in range(len(sent)) if sent[i]=='negative'])
plt.figure(figsize=(4,4))
plt.scatter(yp[:,0], yp[:,1], s=1, c='b', alpha=0.5, label='Positive')
plt.scatter(yn[:,0], yn[:,1], s=1, c='r', alpha=0.5, label='Negative')
plt.title('Distribuição de documentos por tópico')
plt.ylabel('Tópico 2')
plt.xlabel('Tópico 1')
plt.legend()
plt.show()

# Exercício 4
*Objetivo: usar overlays para criar referências na visualização*

1. O que significa cada ponto na figura criada abaixo?
1. Parecem existir agrupamentos de palavras ou distribuições típicas?
1. A figura mostra palavras escritas em suas posições. Como isso ajuda a interpretar o gráfico?

In [None]:
# Mostrando algumas palavras em overlay
v = nmf.components_
plt.figure(figsize=(4,4))
plt.scatter(v[0,:], v[1,:], s=1, alpha=0.3, c='b')
for s in ["director", "actor", "bad", "excellent", "plot", "worst", "best"]:
    _n = vectorizer.vocabulary_[s]
    plt.text(v[0,_n], v[1,_n], s, ha='center')
plt.title('Distribuição de palavras por tópico')
plt.ylabel('Tópico 2')
plt.xlabel('Tópico 1')
plt.show()

# Exercício 5
*Objetivo: explicar a necessidade de fazer uma projeção em dimensão mais baixa*

No código abaixo, fazemos uma regressão por tópicos.

Por que, neste caso, é mais difícil visualizar as dimensões da variável `y`?

In [None]:
n_components = 60
vectorizer = CountVectorizer(binary=True, max_features=400, min_df=0.01, max_df=0.4)
X = vectorizer.fit_transform(list(df['review']))
print(X.shape)
nmf = NMF(n_components=n_components, init='nndsvda')
y = nmf.fit_transform(X.toarray())

# Exercício 6
*Objetivo: explicar a projeção PCA*

A ideia da projeção PCA é que os dados ($X$) estão distribuidos de forma que suas dimensões se correlacionam. Então, teríamos algo como:

In [None]:
x1 = np.random.random(100)

In [None]:
r=0.5
x2 = r*x1 + 0.05*np.random.randn(100)
plt.figure()
plt.scatter(x1,x2)
plt.xlabel('x1')
plt.xlabel('x2')
plt.show()

O desafio de PCA é encontrar uma projeção desses dados que permita encontrar as direções nas quais os dados mais se distribuem, e, ao mesmo tempo, garantir que as dimensões encontradas são ortogonais entre si. No caso acima, teríamos:

In [None]:
from sklearn.decomposition import PCA
pca = PCA(2)
X = np.array([x1, x2]).T
y = pca.fit_transform(X)
plt.figure()
plt.scatter(y[:,0], y[:,1])
plt.plot()

Use a applet sobre PCA em https://setosa.io/ev/principal-component-analysis/ para visualizar como PCA se comporta em várias situações.

1. Na primeira figura deste exercício, quais são as direções principais?
1. Como a projeção PCA se comporta quando mudamos o valor de $r$? Por que?

# Exercício 7
*Objetivo: aplicar a projeção PCA para reduzir dimensões*

Podemos usar PCA para reduzir a dimensionalidade de um conjunto de dados para um espaço de dimensão $n$. Para isso:
* Realizamos a projeção PCA
* Escolhemos somente as $n$ direções com maior variação dos dados

Por exemplo:

In [None]:
x1 = 0.1*np.random.randn(100)
x2 = 0.2*np.random.randn(100)
x3 = 0.3*np.random.randn(100)
x4 = 10*np.random.randn(100)
pca = PCA(2)
X = np.array([x1, x2,x3,x4]).T
y = pca.fit_transform(X)
plt.figure()
plt.scatter(y[:,0], y[:,1])
plt.plot()

Podemos visualizar os componentes principais usando:

In [None]:
print(pca.components_)

1. O que significa cada elemento da matriz em `pca.components_`?
1. Como a projeção se comporta quando alteramos os coeficientes multiplicativos de x1, x2, x3 e x4?

# Exercício 8
*Objetivo: usar a projeção PCA para visualizar espaços de tópicos de alta dimensão*

1. Usando PCA, mostre uma visualização do espaço de tópicos gerado por uma regressão em tópicos com muitos tópicos.
1. Compare essa visualização com aquela obtida por um espaço de tópicos criado com dois tópicos.

# Exercício 9
*Objetivo: usar a projeção PCA para comparar diferentes espaços vetoriais*

Podemos argumentar que NMF provavelmente retira informações importantes de nossa projeção.

Usando PCA, visualize o espaço gerado pelo `vectorizer`, isto é, mostre a projeção PCA da saída do vetorizador. Como ele se compara com o espaço gerado pelo NMF?

# Exercício 10
*Objetivo: interpretar a visualização de dados em diferentes datasets*

Escolha um outro conjunto de dados. Aplique os processos de visualização que aprendemos para visualizar a coleção de documentos e como as palavras se organizam. Após, mostre sua visualização para os colegas.


# Exercício 11
*Objetivo: analisar as possibilidades e as limitações das figuras que montamos*

Analisando as figuras que foram geradas por você e seus colegas durante esta aula, reflita:

1. Quais informações relevantes podemos extrair desse tipo de análise?
1. Quais são as limitações desta forma de análise, isto é, quais seriam informações que não podemos tirar delas?

