# introdução ao Scikit-Learn e avaliação do modelo

O que veremos neste caderno:

* Explicar a variável de resposta;

* Descrever as implicações de dados desbalanceados na classificação binária;

* Dividir os dados em conjuntos de treinamento e teste;

* Descrever o ajuste do modelo no scikit-learn;

* Derivar várias métricas para a classificação binária;

* Criar uma curva ROCe uma curva precision-recall.

Este caderno concluirá a análise exploratória incial e apresentará novas ferramentas para execução da avaliação do modelo.

Há vários critérios importantes para a avaliação de modelos que são considerados conhecimento padrão em ciência de dados e machine learning. Abordaremos aqui algumas das mais usadas métricas de desempenho de modelos de classificação, para construirmos uma base sólida.

## Examinando a variável de resposta e concluindo a exploração inicial

Nosso objetivo é criar um modelo preditivo que a variável de resposta seja uma flag SIM/NÃO. Esse problema se chama tarefa de **classificação binária**.

Em nossos dados rotulados, consideramos que as amostras (contas) que ficarão inadimplentes (isto é, com status **default payment next month** | falta de pagamento no próximo mês = 1) pertencem à **classe positiva**, enquanto as que ficarão pertencem à **classe negativa**.

A informação mais importante que devemos examinar com relação à resposta de um problema de classificação binária é: **QUAL É A PROPORÇÃO DA CLASSE POSITIVA?**



Antes de fazer essa verificação, precisamos carregarmos os pacotes requeridos neste caderno

In [2]:
import numpy as np                 # pacote para cálculos númericos
import pandas as pd                # pacote preparação dos dados
import matplotlib.pyplot as plt    # pacote de plotagem

# definições de renderização de plotagens
%matplotlib inline
import matplotlib as mpl           # adiciona a funcionalidade de plotagem
mpl.rcParams['figure.dpi'] = 400   # figuras em alta resolução

Agora, precisamos importar a versão limpa dos dados trabalhados no caderno anterior

In [4]:
df = pd.read_csv('C:/Users/Renato/Dropbox/pos_usp/usp_data_open/data_science/projetos_de_ciencias_de_dados_com_python/Data/Chapter_1_cleaned_data.csv')

In [5]:
# Verificando dados da importação do dataset

df.head()

Unnamed: 0,ID,LIMIT_BAL,SEX,EDUCATION,MARRIAGE,AGE,PAY_1,PAY_2,PAY_3,PAY_4,...,PAY_AMT3,PAY_AMT4,PAY_AMT5,PAY_AMT6,default payment next month,EDUCATION_CAT,graduate school,high school,others,university
0,798fc410-45c1,20000,2,2,1,24,2,2,-1,-1,...,0,0,0,0,1,university,0,0,0,1
1,8a8c8f3b-8eb4,120000,2,2,2,26,-1,2,0,0,...,1000,1000,0,2000,1,university,0,0,0,1
2,85698822-43f5,90000,2,2,2,34,0,0,0,0,...,1000,1000,1000,5000,0,university,0,0,0,1
3,0737c11b-be42,50000,2,2,1,37,0,0,0,0,...,1200,1100,1069,1000,0,university,0,0,0,1
4,3b7f77cc-dbc0,50000,1,2,1,57,-1,0,-1,0,...,10000,9000,689,679,0,university,0,0,0,1


Para encontrar a proporção da classe postiva, precisamos apenas obter a média da variável de resposta no dataset inteiro

In [6]:
df['default payment next month'].mean()

0.2217971797179718

Acima saída da taxa de inadiplência.

Também é útil verificar o número de amostras em cada classe.

In [7]:
# Balanceamento de classes da variável de resposta

df.groupby('default payment next month')['ID'].count()

default payment next month
0    20750
1     5914
Name: ID, dtype: int64

A média das contas que ficaram inadimplentes é de 22 %, o que representa 5914 contas do portfólio (de acordo com a operação **[groupby/count](https://pandas.pydata.org/docs/reference/api/pandas.core.groupby.GroupBy.count.html)**).

A proporção de amostras na classe positiva (inaimplência = 1), também chamada de **fração da classe**, é uma estatística importante.

Na classificação binária, os datasets são descritos considerando-se se eles são **balanceados** ou **desbalanceados**.

A maioria dos modelos de classificação de machine learning é projetada para operar com dados balanceados: uma divisão 50/50 entre as classes.

Na prática, raramente essa divisão (50/50) é alcançada. Assim, há vários métodos que têm como objetivo lidar com dados desbalanceados. São eles:

- **Subamostragem (undersampling)** da classe majoritária: eliminar aleatoriamente amostras da classe majoritária até as frações serem iguais (ou menos desbalanceadas);
- **Sobreamonstragem (oversampling)** da classe minoritária: adicionar aleatoiamente amostras duplicadas da classe minoritáia para atingir o mesmo objetivo;
- **Ponderação de amostragem (weighting samples)**: esse método é executado como parte da etapa de treinamento, para que a classe minoritária receba coletivamente a mesma 'ênfase' da classe majoritária no modelo ajustado. O efeito é o mesmo do oversampling).

