<a href="https://colab.research.google.com/github/rmendesl/TCC/blob/master/04_CreateModelScikit_learn.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Criando o Modelo - Supervisionado

Primeiramente, devemos distinguir 4 tipos de tarefas de aprendizagem de máquina:
* Aprendizagem supervisionada;
* Aprendizagem não-supervisionada;
* Aprendizagem semi-supervisionada;
* Aprendizagem por reforço;

Nosso modelo será o supervisionado, aprendizagem supervisionada é a tarefa de encontrar uma função a partir de dados de treinamento rotulados. O objetivo é encontrar os parâmetros ótimos que ajustem um modelo que possa prever rótulos desconhecidos em outros objetos (o conjunto de teste). Se o rótulo é um número real, a tarefa chama-se regressão. Se o rótulo vem de um conjunto finito e não ordenado, então a tarefa chama-se classificação, essa última será a nossa tarefa.

A classificação binária é uma técnica supervisionada de aprendizado de máquina, na qual o objetivo é prever rótulos de classe categóricos que sejam discretos e não monitorados, como Aprovado/Reprovado, Positivo/Negativo, Padrão/Não Padrão etc. Alguns casos de uso do mundo real para classificação estão listados abaixo : 
* Exames médicos para determinar se um paciente tem uma determinada doença ou não - a propriedade de classificação é a presença da doença. 
* Um método de teste "aprovado ou reprovado" ou controle de qualidade nas fábricas, ou seja, decidir se uma especificação foi ou não atendida - uma classificação de aprovação / não aprovação. 
* Recuperação de informações, ou seja, decidir se uma página ou um artigo deve estar no conjunto de resultados de uma pesquisa ou não - a propriedade de classificação é a relevância do artigo ou a utilidade para o usuário.

Não iremos entrar nos detalhes dos demais tipos de aprendizagem, porém, segue abaixo algumas fontes para consulta.


Fonte: https://medium.com/machina-sapiens/algoritmos-de-aprendizagem-de-m%C3%A1quina-qual-deles-escolher-67040ad68737

Fonte: https://medium.com/@categitau/in-one-of-my-previous-posts-i-introduced-machine-learning-and-talked-about-the-two-most-common-c1ac6e18df16

## Scikit-learn

A [Scikit-learn](https://scikit-learn.org/stable/index.html) é a mais popular biblioteca de aprendizado de máquina de código aberto que suporta aprendizado supervisionado e não supervisionado. Ele também fornece várias ferramentas para ajuste de modelo, pré-processamento de dados, seleção e avaliação de modelo e muitos outros utilitários.

Este projeto foi iniciado em 2007 como um projeto do Google Summer of Code por David Cournapeau. Mais tarde naquele ano, Matthieu Brucher começou a trabalhar nesse projeto como parte de sua tese. Em 2010, Fabian Pedregosa, Gael Varoquaux, Alexandre Gramfort e Vincent Michel do INRIA assumiram a liderança do projeto e fizeram o primeiro lançamento público, 1º de fevereiro de 2010. Desde então, vários lançamentos apareceram após um ciclo de 3 meses e uma próspero comunidade internacional tem liderado o desenvolvimento.

O processo de tomada de decisão e a estrutura de governança do scikit-learn são apresentados no [documento de governança.](https://scikit-learn.org/stable/governance.html#governance)

GitHub: https://github.com/scikit-learn

## Bibliotecas utilizadas

Referência para a bibioteca Pandas: https://pandas.pydata.org/docs/user_guide/index.html

Referência para a biblioteca Numpy: https://numpy.org/doc/


In [1]:
# Importando os pacotes necessários
import pandas as pd
import numpy as np

## Carregando os dados

### Montando o Drive do Google Drive

In [None]:
# Execute apenas se desejar fazer o upload do arquivo local para o seu Google Drive
from google.colab import files
files.upload()

In [None]:
# Montando o drive do seu Google Drive
from google.colab import drive
drive.mount('/content/drive', force_remount=True)

### Carregando o arquivo para o dataframe

Use apenas uma das duas opções abaixo:

1.   Carregando direto do seu Google Drive;
2.   Carregando direto do link compartilhado;

Os dados para o modelo foram salvos em um arquivo CSV durante a etapa anterior.

* `base_model.csv`

In [2]:
# Troque o caminho root_path caso seu arquivo esteja em outra pasta em seu drive
root_path = 'drive/My Drive/TCC/'
data = 'base_model.csv'



---


1. Carregando direto do seu Google Drive

In [None]:
# Carregando os dados do arquivo CSV para o dataframe
df_renovacao = pd.read_csv(root_path + data, sep='|')



---


2. Carregando direto do link compartilhado

In [6]:
# Use o link abaixo para ter acesso direto ao arquivo
link = "https://drive.google.com/uc?export=download&id=1uUHyv-ieXXNbS2SQ4n2Oj_E5N-NeVWHd"

# Carregando os dados do arquivo CSV para o dataframe
df_renovacao = pd.read_csv(link, sep='|')



---



In [7]:
# Lendo os primeiros e últimos registros do dataframe
df_renovacao

Unnamed: 0,COD_MATRICULA,REMATRICULADO,TIPO_INADIMPLENCIA,RISCO_INADIMPLENCIA,CLASSE_PAGANTE_ANT,CLASSE_PAGANTE_ATU,NOVO_FIES,PRV_ANT,PRV_ATU,LATE_COMER,NOM_SITUACAO_ALUNO,VAL_A_PAGAR,VAL_A_PAGAR_PAR,VAL_DIVIDA_MENS,VAL_DIVIDA_TOTAL,FAIXA_DE_DIVIDA,ADIMP_N_REN,CR_PER_ANT,FAIXA_APROVACAO,QTD_ACESSOS_19_2,QTD_ACESSOS_20_1,IND_INDICIO_EVASAO,CLASSIFICACAO_PROP_EVASAO,CLASSIFICACAO_PROP_RENOVACAO,ACEITE_CONTRATO,REQ_AGEND_TRANC,SAFRA
0,200701339023,0,ADIMPLENTE,SEM RISCO,MENSALISTA,MENSALISTA,NÃO,0,0,ON TIME COMER,Ativo,51.18,0.00,0.00,0.00,SEM DIVIDA,1,9.00,7 - 100%,32.0,21.0,0,1 - Alto,3 - Médio Baixo,0,0,VETERANO
1,200702198245,0,INADIMPLENTE SEM NEGOCIACAO,MEDIO RISCO,MENSALISTA,MENSALISTA,NÃO,0,0,ON TIME COMER,Ativo,0.00,0.00,3111.20,3111.20,> 1500,0,5.91,4 - 41% A 60%,48.0,48.0,0,3 - Médio Baixo,4 - Baixo,1,0,CALOURO
2,200702198679,0,INADIMPLENTE SEM NEGOCIACAO,MEDIO RISCO,MENSALISTA,MENSALISTA,NÃO,0,0,ON TIME COMER,Ativo,0.00,0.00,3238.77,3238.77,> 1500,0,5.27,3 - 21% A 40%,53.0,46.0,0,4 - Baixo,4 - Baixo,0,0,VETERANO
3,200801431011,1,ADIMPLENTE,SEM RISCO,MENSALISTA,MENSALISTA,NÃO,0,0,ON TIME COMER,Ativo,2521.12,0.00,0.00,0.00,SEM DIVIDA,0,9.89,7 - 100%,130.0,119.0,0,4 - Baixo,2 - Médio Alto,1,0,VETERANO
4,200901402225,1,ADIMPLENTE,BAIXO RISCO,MENSALISTA,MENSALISTA,NÃO,0,0,ON TIME COMER,Ativo,170.96,0.00,0.00,0.00,SEM DIVIDA,0,3.50,4 - 41% A 60%,125.0,70.0,0,00 - Não Escorado,00 - Não Escorado,1,0,VETERANO
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2138,201912030837,1,ADIMPLENTE,BAIXO RISCO,MENSALISTA,MENSALISTA,NÃO,0,0,ON TIME COMER,Ativo,534.38,0.00,0.00,0.00,SEM DIVIDA,0,7.54,7 - 100%,143.0,133.0,0,4 - Baixo,3 - Médio Baixo,1,0,VETERANO
2139,201912030853,1,ADIMPLENTE,BAIXO RISCO,PAR,PAR,NÃO,0,0,ON TIME COMER,Ativo,1157.48,5.16,0.00,5.16,SEM DIVIDA,0,6.31,5 - 61% A 80%,64.0,42.0,0,2 - Médio Alto,3 - Médio Baixo,1,0,VETERANO
2140,201912030861,0,ADIMPLENTE,MEDIO RISCO,PAR,PAR,NÃO,0,0,ON TIME COMER,Trancado,0.00,4.88,0.00,0.00,SEM DIVIDA,0,7.43,7 - 100%,154.0,109.0,1,3 - Médio Baixo,3 - Médio Baixo,1,0,VETERANO
2141,201912030934,1,INADIMPLENTE COM NEGOCIACAO,BAIXO RISCO,PAR,PAR,NÃO,0,0,ON TIME COMER,Ativo,1486.82,606.04,0.00,489.79,SEM DIVIDA,0,6.14,7 - 100%,154.0,147.0,0,4 - Baixo,3 - Médio Baixo,1,0,VETERANO


## Modelo de Classificação

Referência: https://scikit-learn.org/stable/supervised_learning.html#supervised-learning

### Separando os dados de X e y

Separando a variável alvo das demais features.

* **Variável independente**: É a medida do lado não dependente de nenhuma outra medida variável. Variável X.
* **Variável dependente**: É uma medida que dependerá do valor de outra medida variável. Variável y.

In [14]:
X = df_renovacao.drop(['COD_MATRICULA', 'REMATRICULADO'], axis=1)
y = df_renovacao['REMATRICULADO']

### Transformar as variáveis categóricas em numéricas para o modelo

Nos projetos de machine learning, uma parte importante é a engenharia de features. É muito comum ver recursos categóricos em um conjunto de dados. No entanto, nosso algoritmo de aprendizado de máquina pode apenas ler valores numéricos. É essencial codificar recursos categóricos em valores numéricos. Para isso iremos usar um método de [Category Encoders](http://contrib.scikit-learn.org/category_encoders/).

Essas são apenas algumas das maneiras diferentes de codificar recursos categóricos: 

1. LabelEncoder e OneHotEncoder 
2. OrdinalEncoder
3. TargetEncoder
4. DictVectorizer 
5. Pandas *get_dummies*

Avaliaremos o **OneHotEncoder** e o **TargetEncoder** em nosso projeto.

O Category Encoders pode já vir instalado no Goggle Colab, porém iremos realizar a instalação com o parâmetro -U. Dessa forma, caso tenha alguma atualização, ela já será aplicada.

`!pip install -U category_encoders`

Caso o pacote não esteja instalado, execute o comando abaixo primeiro:

`!pip install category_encoders`

In [None]:
!pip install -U category_encoders

#### OneHotEncoder

O OneHotEncoder é mais fácil de entender conceitualmente. Esse tipo de codificação simplesmente "*produz um recurso por categoria, cada binário*". 

Ele transforma cada valor categórico em uma nova coluna no dataset, o preenche essa nova coluna com um valor binário.

Referência: http://contrib.scikit-learn.org/category_encoders/onehot.html

In [6]:
# Importando o pacote necessário
from category_encoders.one_hot import OneHotEncoder

  import pandas.util.testing as tm


In [8]:
# Primeiro precisamos extrair as variáveis categoricas 
col_categoricas = list(df_renovacao.select_dtypes(include=['object']).columns)

# Inicializando OneHotEncoder
ohe = OneHotEncoder(cols=col_categoricas, use_cat_names=True) 

# Aplicando o OneHotEncoder nas colunas de variáveis categóricas
df_renovacao_ohe = ohe.fit_transform(df_renovacao)
df_renovacao_ohe

Unnamed: 0,COD_MATRICULA,REMATRICULADO,TIPO_INADIMPLENCIA_ADIMPLENTE,TIPO_INADIMPLENCIA_INADIMPLENTE SEM NEGOCIACAO,TIPO_INADIMPLENCIA_INADIMPLENTE COM NEGOCIACAO,RISCO_INADIMPLENCIA_SEM RISCO,RISCO_INADIMPLENCIA_MEDIO RISCO,RISCO_INADIMPLENCIA_BAIXO RISCO,RISCO_INADIMPLENCIA_ALTO RISCO,CLASSE_PAGANTE_ANT_MENSALISTA,CLASSE_PAGANTE_ANT_PROUNI,CLASSE_PAGANTE_ANT_FIES,CLASSE_PAGANTE_ANT_PAR,CLASSE_PAGANTE_ATU_MENSALISTA,CLASSE_PAGANTE_ATU_PROUNI,CLASSE_PAGANTE_ATU_FIES,CLASSE_PAGANTE_ATU_PAR,NOVO_FIES_NÃO,NOVO_FIES_SIM,PRV_ANT,PRV_ATU,LATE_COMER_ON TIME COMER,LATE_COMER_LATE COMER,NOM_SITUACAO_ALUNO_Ativo,NOM_SITUACAO_ALUNO_Trancado,NOM_SITUACAO_ALUNO_Transferido,VAL_A_PAGAR,VAL_A_PAGAR_PAR,VAL_DIVIDA_MENS,VAL_DIVIDA_TOTAL,FAIXA_DE_DIVIDA_SEM DIVIDA,FAIXA_DE_DIVIDA_> 1500,FAIXA_DE_DIVIDA_1000-1500,FAIXA_DE_DIVIDA_300-500,FAIXA_DE_DIVIDA_100-300,FAIXA_DE_DIVIDA_750-1000,FAIXA_DE_DIVIDA_500-750,ADIMP_N_REN,CR_PER_ANT,FAIXA_APROVACAO_7 - 100%,FAIXA_APROVACAO_4 - 41% A 60%,FAIXA_APROVACAO_3 - 21% A 40%,FAIXA_APROVACAO_5 - 61% A 80%,FAIXA_APROVACAO_1 - 0%,FAIXA_APROVACAO_6 - 81% A 99%,FAIXA_APROVACAO_2 - 1% A 20%,QTD_ACESSOS_19_2,QTD_ACESSOS_20_1,IND_INDICIO_EVASAO,CLASSIFICACAO_PROP_EVASAO_1 - Alto,CLASSIFICACAO_PROP_EVASAO_3 - Médio Baixo,CLASSIFICACAO_PROP_EVASAO_4 - Baixo,CLASSIFICACAO_PROP_EVASAO_00 - Não Escorado,CLASSIFICACAO_PROP_EVASAO_2 - Médio Alto,CLASSIFICACAO_PROP_RENOVACAO_3 - Médio Baixo,CLASSIFICACAO_PROP_RENOVACAO_4 - Baixo,CLASSIFICACAO_PROP_RENOVACAO_2 - Médio Alto,CLASSIFICACAO_PROP_RENOVACAO_00 - Não Escorado,CLASSIFICACAO_PROP_RENOVACAO_1 - Alto,ACEITE_CONTRATO,REQ_AGEND_TRANC,SAFRA_VETERANO,SAFRA_CALOURO
0,200701339023,0,1,0,0,1,0,0,0,1,0,0,0,1,0,0,0,1,0,0,0,1,0,1,0,0,51.18,0.00,0.00,0.00,1,0,0,0,0,0,0,1,9.00,1,0,0,0,0,0,0,32.0,21.0,0,1,0,0,0,0,1,0,0,0,0,0,0,1,0
1,200702198245,0,0,1,0,0,1,0,0,1,0,0,0,1,0,0,0,1,0,0,0,1,0,1,0,0,0.00,0.00,3111.20,3111.20,0,1,0,0,0,0,0,0,5.91,0,1,0,0,0,0,0,48.0,48.0,0,0,1,0,0,0,0,1,0,0,0,1,0,0,1
2,200702198679,0,0,1,0,0,1,0,0,1,0,0,0,1,0,0,0,1,0,0,0,1,0,1,0,0,0.00,0.00,3238.77,3238.77,0,1,0,0,0,0,0,0,5.27,0,0,1,0,0,0,0,53.0,46.0,0,0,0,1,0,0,0,1,0,0,0,0,0,1,0
3,200801431011,1,1,0,0,1,0,0,0,1,0,0,0,1,0,0,0,1,0,0,0,1,0,1,0,0,2521.12,0.00,0.00,0.00,1,0,0,0,0,0,0,0,9.89,1,0,0,0,0,0,0,130.0,119.0,0,0,0,1,0,0,0,0,1,0,0,1,0,1,0
4,200901402225,1,1,0,0,0,0,1,0,1,0,0,0,1,0,0,0,1,0,0,0,1,0,1,0,0,170.96,0.00,0.00,0.00,1,0,0,0,0,0,0,0,3.50,0,1,0,0,0,0,0,125.0,70.0,0,0,0,0,1,0,0,0,0,1,0,1,0,1,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2138,201912030837,1,1,0,0,0,0,1,0,1,0,0,0,1,0,0,0,1,0,0,0,1,0,1,0,0,534.38,0.00,0.00,0.00,1,0,0,0,0,0,0,0,7.54,1,0,0,0,0,0,0,143.0,133.0,0,0,0,1,0,0,1,0,0,0,0,1,0,1,0
2139,201912030853,1,1,0,0,0,0,1,0,0,0,0,1,0,0,0,1,1,0,0,0,1,0,1,0,0,1157.48,5.16,0.00,5.16,1,0,0,0,0,0,0,0,6.31,0,0,0,1,0,0,0,64.0,42.0,0,0,0,0,0,1,1,0,0,0,0,1,0,1,0
2140,201912030861,0,1,0,0,0,1,0,0,0,0,0,1,0,0,0,1,1,0,0,0,1,0,0,1,0,0.00,4.88,0.00,0.00,1,0,0,0,0,0,0,0,7.43,1,0,0,0,0,0,0,154.0,109.0,1,0,1,0,0,0,1,0,0,0,0,1,0,1,0
2141,201912030934,1,0,0,1,0,0,1,0,0,0,0,1,0,0,0,1,1,0,0,0,1,0,1,0,0,1486.82,606.04,0.00,489.79,1,0,0,0,0,0,0,0,6.14,1,0,0,0,0,0,0,154.0,147.0,0,0,0,1,0,0,1,0,0,0,0,1,0,1,0


#### TargetEncoder

As features são substituídas por uma mistura de probabilidade posterior do alvo, dado um valor categórico específico e a probabilidade anterior do alvo em todos os dados de treinamento.

Referência: http://contrib.scikit-learn.org/category_encoders/targetencoder.html


In [6]:
# Importando o pacote necessário
from category_encoders.target_encoder import TargetEncoder

  import pandas.util.testing as tm


In [10]:
# Primeiro precisamos extrair as variáveis categoricas 
col_categoricas = list(df_renovacao.select_dtypes(include=['object']).columns)

# Inicializando TargetEncoder
trg = TargetEncoder(cols=col_categoricas, min_samples_leaf=200) 

# Aplicando o TargetEncoder nas colunas de variáveis categóricas
df_renovacao_trg = trg.fit_transform(df_renovacao, df_renovacao['REMATRICULADO'])
df_renovacao_trg

Unnamed: 0,COD_MATRICULA,REMATRICULADO,TIPO_INADIMPLENCIA,RISCO_INADIMPLENCIA,CLASSE_PAGANTE_ANT,CLASSE_PAGANTE_ATU,NOVO_FIES,PRV_ANT,PRV_ATU,LATE_COMER,NOM_SITUACAO_ALUNO,VAL_A_PAGAR,VAL_A_PAGAR_PAR,VAL_DIVIDA_MENS,VAL_DIVIDA_TOTAL,FAIXA_DE_DIVIDA,ADIMP_N_REN,CR_PER_ANT,FAIXA_APROVACAO,QTD_ACESSOS_19_2,QTD_ACESSOS_20_1,IND_INDICIO_EVASAO,CLASSIFICACAO_PROP_EVASAO,CLASSIFICACAO_PROP_RENOVACAO,ACEITE_CONTRATO,REQ_AGEND_TRANC,SAFRA
0,200701339023,0,0.879821,0.841341,0.798360,0.788018,0.809432,0,0,0.818052,0.833734,51.18,0.00,0.00,0.00,0.880082,1,9.00,0.872274,32.0,21.0,0,0.810079,0.861240,0,0,0.824726
1,200702198245,0,0.810079,0.708661,0.798360,0.788018,0.809432,0,0,0.818052,0.833734,0.00,0.00,3111.20,3111.20,0.810079,0,5.91,0.810079,48.0,48.0,0,0.833846,0.549575,1,0,0.685841
2,200702198679,0,0.810079,0.708661,0.798360,0.788018,0.809432,0,0,0.818052,0.833734,0.00,0.00,3238.77,3238.77,0.810079,0,5.27,0.810079,53.0,46.0,0,0.850838,0.549575,0,0,0.824726
3,200801431011,1,0.879821,0.841341,0.798360,0.788018,0.809432,0,0,0.818052,0.833734,2521.12,0.00,0.00,0.00,0.880082,0,9.89,0.872274,130.0,119.0,0,0.850838,0.881517,1,0,0.824726
4,200901402225,1,0.879821,0.829988,0.798360,0.788018,0.809432,0,0,0.818052,0.833734,170.96,0.00,0.00,0.00,0.880082,0,3.50,0.810079,125.0,70.0,0,0.810079,0.810079,1,0,0.824726
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2138,201912030837,1,0.879821,0.829988,0.798360,0.788018,0.809432,0,0,0.818052,0.833734,534.38,0.00,0.00,0.00,0.880082,0,7.54,0.872274,143.0,133.0,0,0.850838,0.861240,1,0,0.824726
2139,201912030853,1,0.879821,0.829988,0.810079,0.810079,0.809432,0,0,0.818052,0.833734,1157.48,5.16,0.00,5.16,0.880082,0,6.31,0.861818,64.0,42.0,0,0.810079,0.861240,1,0,0.824726
2140,201912030861,0,0.879821,0.708661,0.810079,0.810079,0.809432,0,0,0.818052,0.810079,0.00,4.88,0.00,0.00,0.880082,0,7.43,0.872274,154.0,109.0,1,0.833846,0.861240,1,0,0.824726
2141,201912030934,1,0.810043,0.829988,0.810079,0.810079,0.809432,0,0,0.818052,0.833734,1486.82,606.04,0.00,489.79,0.880082,0,6.14,0.872274,154.0,147.0,0,0.850838,0.861240,1,0,0.824726
