# Aprendizado de Máquina em 4 Passos

## 1º Passo: Preparando o conjunto de dados

O principal objetivo de um modelo de ML é desenvolver a capacidade **generalizar** um problema a partir de dados, para então, solucionar "casos" do mesmo problema nunca antes "vistos" pelo modelo.

>Se você dar ao modelo o suficiente de dados adequados, ele pode aproximar qualquer função arbitrariamente. O que matematicamente falando, ele pode aprender qualquer coisa. <cite> Pedro Domingos, The Master Algorithm </cite>

Então como podemos garantir que nosso modelo foi treinado de forma a ser capaz de generalizar nosso problema?

Utilizando uma técnica chamada de **Validação Cruzada**.

In [None]:
from sklearn.datasets import load_digits
digits = load_digits() #Carrega o dataset na variável digits

## Tarefa: Carregue os dados e os labels do conjunto de dados Dígitos.

In [None]:
X,y = digits.data, digits.target

print "Meus dados: " ,X

print "Meus labels: ", y

In [None]:
from sklearn.cross_validation import train_test_split #Importando a biblioteca de validação cruzada

X_train, X_test, y_train, y_test = train_test_split(X,y, test_size = 0.25, random_state = 42)



In [None]:
print "Meu conjunto de treino tem o tamanho de: ", X_train.shape

print "Meu conjunto de teste tem o tamanho de: ", X_test.shape

## 2º Passo: A escolha do modelo

Sabemos duas coisas principais sobre nosso problema:

1. É um problema de **classificação**.
2. É um problema de **aprendizado supervisionado**.

Com isso em mente, devemos escolher o modelo mais adequado para a solução do problema. O Scikit-Learn possui uma grande quantidade de modelos pré "moldados", bastando apenas nós os treinarmos e otimizá-los.

In [None]:
from sklearn.neighbors import KNeighborsClassifier #Importando o classificador

KNN = KNeighborsClassifier() #Criando uma instância do classificador

print KNN

## 3º Passo: Treinando o Modelo

Já modelamos nosso problema e já escolhemos nosso primeiro modelo, agora devemos treinar o classificador. Para isso vamos usar apenas o conjunto de treino no treinamento, obedecendo assim a validação cruzada. Esse tipo de validação se chama **validação cruzada *holdout* **. Pois apenas separamos o conjunto de dados em 2 partes, uma para treino e uma para teste.

In [None]:
KNN.fit(X_train,y_train)

## 4º Passo: Predizendo e Avaliando o Modelo

Um erro metodológico grave, que bastante gente comete, é o cáculo da acurácia do modelo tendo como base o conjunto total ou o conjunto de treino utilizados durante o treinamento. Esse tipo de métrica não atesta a acurácia do modelo.

O método correto para esse teste é utilizar o **conjunto de testes**, para assim atestar que o modelo se saiu bem o mal em dados "nunca antes vistos".

O Scikit-Learn também possui uma biblioteca bem extensa, com diversas métricas, para a validação do modelo.

In [None]:
from sklearn.metrics import accuracy_score

y_verdadeiro, y_predito = y_test, KNN.predict(X_test)

print "A acurácia do modelo é: ", accuracy_score(y_verdadeiro, y_predito)

Outras métricas importantes para avaliar um classificador são:
  * **Precisão**: Quando um valor verdadeiro positivo é predito, qual a frequência que a predição é correta.
  * **Recall ou Sensibilidade**: É frequência com a qual a predição é correta.
  * **F1-Score**: É a média harmônica entre Precisão e Recall.

In [None]:
from sklearn.metrics import classification_report

print classification_report(y_verdadeiro, y_predito)

Matrizes de Confusão são muito eficientes na inspeção visual dos resultados de modelo.

In [None]:
from sklearn.metrics import confusion_matrix

cmx = confusion_matrix(y_verdadeiro,y_predito)

print cmx #y = Label verdadeiro, x = label predito

In [None]:
fig = plt.figure(figsize=(8, 8))  # O tamanho da figura em polegadas
fig.subplots_adjust(left=0, right=1, bottom=0, top=1, hspace=0.05, wspace=0.05)

# plota os dígitos: cada imagem tem o tamanho de 8x8 pixels
for i in range(64):
    ax = fig.add_subplot(8, 8, i + 1, xticks=[], yticks=[])
    ax.imshow(x_teste.reshape(-1, 8, 8)[i], cmap=plt.cm.binary,
              interpolation='nearest')
    
    # Marca o a imagem com o valor predito
    if y_predito[i] == y_verdadeiro[i]:
        ax.text(0, 7, str(y_predito[i]), color='green')
    else:
        ax.text(0, 7, str(y_predito[i]), color='red')