# Projeto

## Bibliotecas

In [1]:
import pandas as pd
import matplotlib.pyplot as plt

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, OrdinalEncoder
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier, plot_tree
from sklearn.metrics import roc_auc_score

## Arquivos

In [2]:
caminho = '../../machine_learning_i/projeto/dados'
arquivo_principal = 'application_train.csv'
arquivo_oculto = 'application_test_student.csv'
arquivo_metadados = 'HomeCredit_columns_description.csv'

## Input

In [3]:
df = pd.read_csv(f'{caminho}/{arquivo_principal}')

df_oculto = pd.read_csv(f'{caminho}/{arquivo_oculto}')

df_metadados = pd.read_csv(f'{caminho}/{arquivo_metadados}', encoding = 'Windows-1252')

## Variáveis

In [4]:
var_expl = [
    'CNT_CHILDREN', 
    'AMT_INCOME_TOTAL', 
    'DAYS_BIRTH', 
    'DAYS_EMPLOYED',
    'NAME_EDUCATION_TYPE'
]

var_resp = 'TARGET'

## Treino e Teste

In [5]:
df_treino, df_teste = train_test_split(df, test_size = 0.15, random_state = 1)

In [6]:
x_treino = df_treino[var_expl].copy()
y_treino = df_treino[var_resp].copy()

x_teste = df_teste[var_expl].copy()
y_teste = df_teste[var_resp].copy()

x_oculto = df_oculto[var_expl].copy()

## Pré-Processamento

In [7]:
lista_ordenada = [
    'Lower secondary',
    'Secondary / secondary special', 
    'Incomplete higher',
    'Higher education', 
    'Academic degree', 
]

oe = OrdinalEncoder(categories = [lista_ordenada])

oe.fit(x_treino[['NAME_EDUCATION_TYPE']])
x_treino[['NAME_EDUCATION_TYPE']] = oe.transform(x_treino[['NAME_EDUCATION_TYPE']])
x_teste[['NAME_EDUCATION_TYPE']] = oe.transform(x_teste[['NAME_EDUCATION_TYPE']])
x_oculto[['NAME_EDUCATION_TYPE']] = oe.transform(x_oculto[['NAME_EDUCATION_TYPE']])

## Modelo e Métricas

In [8]:
modelo = DecisionTreeClassifier(
    max_leaf_nodes = 50, 
    random_state = 1
)

modelo.fit(x_treino, y_treino)

y_pred_treino = modelo.predict_proba(x_treino)[:, 1]
y_pred_teste = modelo.predict_proba(x_teste)[:, 1]

In [9]:
roc_auc_score(y_treino, y_pred_treino)

0.6325297664382544

In [10]:
roc_auc_score(y_teste, y_pred_teste)

0.614800238810388

## Previsão

In [11]:
y_pred_oculto = modelo.predict_proba(x_oculto)[:, 1]
df_oculto['Y_PRED'] = y_pred_oculto
df_oculto[['SK_ID_CURR', 'Y_PRED']].head()

Unnamed: 0,SK_ID_CURR,Y_PRED
0,149741,0.058694
1,363290,0.063528
2,436006,0.037997
3,377703,0.093862
4,188624,0.104191


# Na aula anterior...

Qual a principal diferença entre Boosting e Random Forest? 

Boosting pode ser aplicado apenas em modelos de árvore. Essa frase é verdadeira?

Por que existe uma tendência ao overfiting ao utilizar Boosting?

# Hoje!

- Utilizando o AdaBoost no projeto

- Utilizando o LightGBM no projeto

- Otimizando os hiperparâmetros no projeto

**Para vocês**: otimizem os hiperparâmetros de um dos modelos de vocês.

- Criando pipelines no projeto

- Criando pipelines avançadas.

**Para vocês**: organizem o projeto de vocês para que o pré-processamento e o modelo esteja no formato de pipeline.