# Classificação (Parte 02)

### Avaliando o classificador
O método mais usual de aferição da qualidade de um classificador é a aplicação de um teste em parte do conjunto utilizado originalmente para treinamento. Como a porção separada para teste já está classificada, podemos medir o percentual de acerto do classificador, verificando assim a sua qualidade. Para separar o conjunto de treino e o conjunto de testes, utilizamos a função ```train_test_split()``` presente em ```sklearn.model_selection```. Para o cálculo da acurácia, utilizamos a função ```accuracy_score()``` presente em ```sklearn.metrics```.

In [2]:
import pandas as pd
import matplotlib.pyplot as plt

df = pd.read_csv('dados/exemplo2.csv')
X = df.drop('risco', axis=1)
y = df.risco

Criaremos as variáveis ```X_train``` e ```y_train``` representando os inputs e outputs de treinamento e ```X_test```, ```y_test``` representando os inputs e outputs de teste. Na função ```train_test_split()``` passaremos como parâmetro o conjunto completo de inputs e outputs ```X``` e ```y``` juntamente com o parâmetro ```test_size``` (tamanho do conjunto de teste), que configuraremos com o valor de 0.33 (1/3). Para fixar a aleatoriedade da divisão dos conjuntos, configuraremos o parâmetro ```random_state=42```.

In [3]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=1/3, random_state=42)

Criaremos um classificador KNN configurado com ```n_neighbors=5``` e o chamaremos de ```knn```. Faremos o treinamento utilizando o conjunto de inputs ```X_train``` e o conjunto de output ```y_train``` Uma vez treinado, calcularemos a acuracidade do classificador utilizando a função ```accuracy_score()``` que recebe como parâmetros os inputs conhecidos ```y_test``` e os inputs previstos a partir de ```X_test``` através da função ```predict()```.

In [6]:
from sklearn.metrics import accuracy_score
from sklearn.neighbors import KNeighborsClassifier

knn = KNeighborsClassifier(n_neighbors=5)
knn.fit(X_train, y_train)
accuracy_score(y_test, knn.predict(X_test))

0.802158273381295

### Pré processando _inputs_
Podemos aumentar a qualidade do classificador através do tratamento dos inputs. Para classificadores baseados em cálculo de distância, obetemos resultados melhores através da normalização das variáveis de _input_. Nesse caso, temos duas variáveis que possuem escalas distintas (idade e conta corrente). Aplicando uma função de normalização, podemos aumentar significamente a qualidade da acurácia.

Para o exemplo, aplicaremos o normalizador ```MinMaxScaler```, comprimindo os dados no intervalo entre 0 e 1. Criaremos um objeto da classe ```MinMaxScaler``` chamado ```normalizador``` e utilizaremos o comando ```MinMaxScaler.fit_transform()``` para ajustar o normalizador aos dados e executar a transformação do mesmo, passando como parâmetro os inputs ```X```. 

In [7]:
from sklearn.preprocessing import MinMaxScaler

normalizador = MinMaxScaler()
X_norm = normalizador.fit_transform(X)
X_norm

array([[0.05586473, 0.06720224],
       [0.06499436, 0.09938945],
       [0.12872564, 0.11339923],
       ...,
       [0.85424954, 0.36522222],
       [0.62401886, 0.42781034],
       [0.61473291, 0.54031447]])

Para verificar se houve melhoria na qualidade do classificador, repetimos o procedimento de teste utilizando o novo conjunto de inputs ```X_norm```.

In [9]:
X_train, X_test, y_train, y_test = train_test_split(X_norm, y, test_size=0.33, random_state=42)

knn2 = KNeighborsClassifier(n_neighbors=5)
knn2.fit(X_train, y_train)

accuracy_score(y_test, knn3.predict(X_test))

0.8715151515151515

Observamos o aumento na precisão do classificador de 0.8021 para 0.8715.

### Previsões com dados normalizados
Para dados normalizados, precisamos aplicar a mesma normalização executada nos dados de treinamento, nos dados de previsão utilizando o comando ```MinMaxScaler.transform()```. Para prever o risco de um novo cliente com 18 anos e movimentação de 1000 reais, por exemplo, não podemos passar esses valores sem aplicar a normalização. 

In [10]:
X_new = [[18, 1000]]
X_new = normalizador.transform(X_new)
knn2.predict(X_new)

array(['bom'], dtype=object)