# Representação e Visualização de Dados

Aprendizado de Máquina é focado em criar modelos a partir de dados *(desenvolvimento data-driven)*. Por essa razão a visualização e a representação de dados são muito importantes para o modelo.

Em um problema de aprendizado **supervisionado** o conjunto de dados é constituído de um **X** e um **y**. Onde o **X** representa as observações feitas e o **y** representa o "resultado" da observação.

Em um problema de aprendizado **não supervisionado** o conjunto de dados conta apenas com as observações, **X**, e o modelo deve estabelecer o que elas significam.

## Modelos de Dados no Scikit-Learn

Os dados no scikit-learn, com algumas raras exceções, **devem ser armazenados em arrays com duas dimensões**. Essas dimensões são: [n_amostras, n_características].
  * **n_amostras**: O número de amostras que você tem no seu conjunto de dados. Cada amostra é um item a ser processado. Uma amostra pode ser um documento, foto, som, video etc...
  * **n_características**: São as características que descrevem uma amostra de uma maneira quantitativa. Ex: em um documento as palavras do texto podem ser suas características.

É desejado que o número de características para cada amostra seja fixo, mas existem modelos capazes de lidar com essas diferenças.

Então, cada amostra é uma linha no array de dados e cada características é uma coluna.

# O *Hello World* do Aprendizado de Máquina: "Dígitos Dataset"

O scikit-learn vem com alguns conjuntos de dados padrões para teste dos modelos desenvolvidos. Um conjunto de dados é um objeto no estilo dicionário do Python que contém todos os dados, e alguns metadados, sobre o conjunto de estudo.

Para a nossa oficina vamos trabalhar com o conjunto de dados que contém informações sobre dígitos escritos a mão.

## Carregando os Dados

In [None]:
from sklearn.datasets import load_digits
digits = load_digits() #Carrega o dataset na variável digits
type(digits)

In [None]:
digits.keys() #Carrega as keys do dataset

In [None]:
print digits.data.shape #Carrega os "dados" principais do dataset

In [None]:
digits.target

### Pergunta: Qual características dos dígitos esse conjuntos de dados representa?

## Visualizando as Imagens com Matplotlib

Matplotlib é uma biblioteca para plots 2D e 3D na linguagem Python. Com ela você pode gerar gráficos, histogramas, espectros, gráficos de barras e uma infinidade de outras coisas.

"Matplotlib tenta fazer coisas fáceis ainda mais fáceis e coisas difíceis possíveis."

In [None]:
digits.images.shape #Shape das imagens

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt #Importa a interface pyplot
import matplotlib.cm as cm #Importa a interface para color maps

plt.imshow(digits.images[8], cmap = cm.Greys_r) #Plotando a primeira imagem do conjunto em um mapa de cores em
                                                # escalas de cinza
plt.show() #Mostra a imagem