# Aula 17 - Introdução ao Aprendizado Supervisionado: Classificação - parte 1

Nesta aula vamos estudar o uso de algoritmos de **Aprendizado de Máquina Supervisionado**. Focaremos nos algoritmos utilizados para **classificação**, que é a tarefa de predizer classes (rótulos categóricos) para conjuntos de dados (numéricos ou transformados em numéricos).

In [None]:
import numpy as np
import pandas as pd

import matplotlib.pyplot as plt

from sklearn import datasets
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split

### Primeiro passo: carregar os dados e fazer Análise Exploratória

Como já fizemos a Análise Exploratória com esses dados na outras aulas, iremos pular essa etapa.

In [None]:
# Carregando os dados
iris = datasets.load_iris()

In [None]:
iris['feature_names']

In [None]:
iris.target

In [None]:
iris.target_names

In [None]:
dados = pd.DataFrame(data=iris.data, # Estamos dizendo que o dados do dataframe são o atributo data do objeto iris
                     columns = iris.feature_names) # Já o nome das colunas do dataframe serão o atrib feature_names

In [None]:
dados.head()

In [None]:
dados.describe()

In [None]:
dados.hist(figsize=(15, 10))

In [None]:
dados.boxplot(figsize=(15, 10))

### Segundo passo: separar os dados

Precisamos ter claro em nossas mentes quais são os atributos (colunas) preditivas, isto é, aquelas que usaremos para predizer um atributo alvo (coluna alvo). No nosso caso os **atributos preditivos são Comprimento de sépalas e pétalas**, e o **atributo alvo é a tipo da flor** que será predita.

Quando se trabalhar com Aprendizado de Máquina Supervisionado, além disso precisamos separar nossos dados em dois conjuntos: um **conjunto de treinamento** e um **conjunto de teste**. Fazemos isso para evitar overfitting do algoritmo.

Inicialmente vamos integrar o atributo alvo, entender e depois separar em atributos e alvos.

Existem várias estratégias para se separar dados. Vamos aplicar as principais:

(a) Escolher o tamanho dos conjuntos - 80% para treinamento e 20% para teste;

(b) Selecionar aleatoriamente os dados que irão compor o conjunto de treinamento e teste (usando um seed para garantir reprodutibilidade);

In [None]:
# vamos adicionar a coluna Target - que é o tipo de cada flor
dados['target'] = iris.target

In [None]:
print(np.unique(iris.target))

In [None]:
iris.target_names

In [None]:
dados.head(10)

In [None]:
# Vamos separar as FEATURES e LABELS:
X = dados[['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']].values
y = dados['target'].values

In [None]:
print(type(X), type(y))

In [None]:
for (z, w) in zip(X, y):
    print(f'Feature: {z}, Label: {w}')

In [None]:
# split the data into train and test sets
X_train, X_test, y_train, y_test= train_test_split(X, y,
                                                   test_size= 0.2,
                                                   random_state= 0)

In [None]:
print(f'training set size: {X_train.shape[0]} samples \ntest set size: {X_test.shape[0]} samples')

### Terceiro passo: transformar os dados 

Dependendo do algoritmo de Aprendizado de Máquina que usamos precisamos modificar os dados para que eles se adequem as premissas do algoritmo. 

Existem duas transformações de escalonamento muito utilizadas:

1) **Nomalização** (Normalization) - Também conhecido como escalonamento Min-Max no qual o range de valores da coluna irá fica de 0 (min) até 1 (max);

2) **Padronização** (Standardization) - Modifica a distribuição para que a média seja igual a zero e desvio padrão igual a 1 (o método subtrai a média de todas as entradas e dividide pelo desvio padrão); 

Quando escolher uma ou outra? Depende dos seus dados, seu problema e o algoritmo que você quer usar. Em alguns casos, escalonar ou não os dados não irá mudar a solução do problema! Ao longo do cursos iremos estudar alguns casos...

**IMPORTANTE**: independentmente do transformador escolhido, ele deve ser fitado apenas sobre os dados de treinamento. Isto é, o treinamento do escalonador deve receber apenas os dados de treinamento x_train. Após o treinamento do escalonador, ele deverá ser usado para transformar os dados x_test também. 

In [None]:
#

### Quarto passo: treinar o algoritmo 

Vamos usar o conjunto de treinamento para treinar o algoritmo escolhido.

Existem vários algoritmos possíveis. Cada algoritmo tem seus **hiperparâmetros** (parâmetros que devem ser escolhidos para melhorar a performance do algoritmo). Para entender os hiperparâmetros de cada algoritmo é necessário entender a fundo como aquele algoritmo funciona.

Aqui vamos usar um dos algoritmos mais simples existentes, o **KNN - K Nearest Neighboors**.

In [None]:
#from sklearn.preprocessing import Normalizer
from sklearn.metrics import accuracy_score, classification_report
from sklearn.neighbors import KNeighborsClassifier

In [None]:
K = 3
knn = KNeighborsClassifier(K)
knn.fit(X_train, y_train)

### <font color='red'>Como sabemos se o algoritmo está bom?</font>

### Quinto passo: testar e avaliar 

Usando agora o conjunto de teste, iremos testar o classificador criado e treinando no passo anterior.

Uma vez que realizamos um teste, precisamos avaliar o desempenho do nosso método. Diferentes hiperparâmetros e diferentes algoritmos podem ter um desempenho diferente. Apesar de sempre buscarmos o melhor desempenho, devemos levar em consideração outros aspectos para decidir o que é um desempenho aceitável. A primeira coisa a definir são as **métricas de desempenho** que podem ser comparadas entre diferentes algoritmos. 

Existem várias métricas para se medir o desempenho de um classificador: métricas de performance, métricas de tempo consumido, métricas de memória consumida, etc. Vamos focar em uma métrica de performance muito utilizada no dia a dia de trabalho: a **Matriz de Confusão** e seus índices (**Acurácia, Precisão, Recall e F1-score**).

In [None]:
y_predicoes = knn.predict(X_test)

In [None]:
y_predicoes

In [None]:
from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay

In [None]:
matriz_confusao = confusion_matrix(y_true = y_test,
                                   y_pred = y_predicoes)


In [None]:
# plotando uma figura com a matriz de confusao
figure = plt.figure(figsize=(15, 10))
disp = ConfusionMatrixDisplay(confusion_matrix = matriz_confusao, display_labels=['Setosa', 'Versicolor', 'Virginica'])
disp.plot(values_format='d') 

In [None]:
accuracy_score(y_true = y_test, y_pred = y_predicoes,) 

In [None]:
# Metricas de precisão, revocação, f1-score e acurácia.
print(classification_report(y_test, y_predicoes))