# Parte 1 - Dataset e Regressão Logistica

In [121]:
import pandas as pd
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.metrics import classification_report
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier

In [122]:
df = pd.read_csv("dummy_classifier.csv")

In [123]:
#Configurando options do pandas para visualização
pd.set_option('display.max_columns', 500)

In [124]:
#Vamos comecar olhando descritivas da base, vamos notar que se trata de um dado complexo, com pouco contexto
#Esse tipo de dado é complexo para uma pessoa observar e encontrar padrões, por isso modelamos a informação
df.describe()

Unnamed: 0,atributo_0,atributo_1,atributo_2,atributo_3,atributo_4,atributo_5,atributo_6,atributo_7,atributo_8,atributo_9,atributo_10,atributo_11,atributo_12,atributo_13,atributo_14,atributo_15,atributo_16,atributo_17,atributo_18,atributo_19,target
count,100000.0,100000.0,100000.0,100000.0,100000.0,100000.0,100000.0,100000.0,100000.0,100000.0,100000.0,100000.0,100000.0,100000.0,100000.0,100000.0,100000.0,100000.0,100000.0,100000.0,100000.0
mean,-0.001655,0.689755,0.026827,0.00132,-0.553105,-0.174038,0.757099,0.004873,-0.006979,0.003128,0.002217,-0.555636,-0.138944,-0.1875,0.670982,0.00267,0.00427,0.561383,0.002828,-0.000826,0.49966
std,0.998075,1.571259,0.9693,0.998874,1.346625,0.687293,1.154179,0.995161,1.001194,1.225768,1.002002,1.191804,0.254846,1.071434,1.422104,1.086119,0.998939,1.026308,0.998737,0.998167,0.500002
min,-4.200454,-6.782857,-4.232569,-4.898426,-8.717279,-3.855368,-5.270061,-4.626742,-4.165448,-5.782206,-4.374984,-6.571926,-1.718474,-5.235896,-6.245018,-4.463408,-4.070195,-3.746395,-4.12482,-4.203595,0.0
25%,-0.67832,-0.277793,-0.680518,-0.670271,-1.370721,-0.671095,0.044893,-0.666985,-0.677943,-0.815451,-0.675081,-1.175774,-0.288409,-0.813784,-0.150797,-0.802678,-0.666931,-0.148389,-0.668469,-0.675472,0.0
50%,0.004886,0.338261,0.049479,-0.003572,-0.613865,-0.253863,0.755547,0.005094,-0.005543,0.119722,0.005905,-0.538234,-0.182211,-0.106984,0.708761,-0.063542,0.004211,0.627298,0.000173,0.000518,0.0
75%,0.671452,1.695891,0.712041,0.676975,0.250927,0.284476,1.463504,0.680065,0.669644,0.887736,0.679879,0.12348,0.002239,0.55446,1.504331,0.792885,0.676747,1.206889,0.676669,0.677282,1.0
max,4.126287,8.98917,4.181215,4.291108,5.981073,2.994331,7.562854,5.21336,4.704046,4.80529,4.707,4.827852,1.192039,3.587969,9.493749,4.989388,4.277918,5.757004,3.952875,4.670688,1.0


In [125]:
df["target"].value_counts()

0.0    50034
1.0    49966
Name: target, dtype: int64

### Separando dos dados em conjuntos de treino e teste
Vamos dividir nossos dados em dois conjuntos: Treino e Teste.
Esse processo é importante para validarmos o processo de modelagem: 
- Treinamos utilizando o conjunto de <b>Treino</b>
- Verificamos as metricas de interesse no conjunto de <b>Teste</b>
- Podemos verificar as metricas também no conjunto de Treino com o objetivo de diagnosticar <i>overfitting</i>

Para essa separação, podemos utilizar regras simples, como 80% dos dados para treino e 20% para teste.

In [126]:
X_train, X_test, y_train, y_test = train_test_split(df.drop(["target"],axis=1), #Removemos a target do conjunto de Treino
                                                   df["target"],# Target
                                                   test_size = 0.2 #Costumamos usar regras simples, como 80% treino e 20% teste
                                                   )

In [127]:
print(X_train.shape, y_train.shape, X_test.shape, y_test.shape)

(80000, 20) (80000,) (20000, 20) (20000,)


### Treinamento dos modelos
Utilizaremos o pacote [sklearn](https://scikit-learn.org/stable/) para realizar o treinamento e cálculo das métricas de avaliação.

Utilizar esse pacote nos permite seguir uma padronização, que torna a sintaxe bem simples:
- .fit(X,y) realiza o treino do modelo
- .predict(X) faz a predição do modelo. Em modelos de classificação, a saída será discreta (ex: 0 ou 1)
- .predict_proba(X) faz a predição do modelo de forma contínua, ou seja, a probabilidade de pertencer a cada uma das classes.


In [128]:
#Modelo simples utilizando Regressão Logistica
lr = LogisticRegression()
lr.fit(X_train,y_train) #Treina o modelo

train_performance = lr.predict(X_train)
test_performance = lr.predict(X_test)



In [129]:
test_performance

array([0., 0., 1., ..., 0., 0., 0.])

In [130]:
lr

LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
                   intercept_scaling=1, l1_ratio=None, max_iter=100,
                   multi_class='warn', n_jobs=None, penalty='l2',
                   random_state=None, solver='warn', tol=0.0001, verbose=0,
                   warm_start=False)

#### Os hyperparametros da Regressão Logistica
- C: Força da regularização, é uma estratégia utilizada para fazer com que o modelo se ajuste menos ao conjunto de treino e consiga generalizar melhor.
- penalty: Tipo de regularização. Pode ser l1, l2 ou elastic
Para mais informações, recomendo a leitura da [documentação](https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression)

### Utilizando o classification_report para medir performance
O método classification_report(y_verdadeiro, y_predito) recebe a predição do modelo (discreta) e os valores reais referentes a essa predição. Com esses valores, conseguimos calcular:
- Precision (Precisão): Classificados positivo (1) e realmente positivos, dividido pela quantidade de positivos previstos (o quão bem eu acerto quem eu classifico como positivo?)
- Recall (Revocação): Classificados positivo (1) e realmente positivos, dividido pelo total de positivos (Quantos positivos eu acerto no total?)
- f1-score: Forma de agregar precisão e recall.

Quando vamos calcular essas métricas, devemos definir o que é o positivo para nós. No caso de classificação, costumamos falar que o positivo é quem realiza nosso evento, ou seja, marcados como 1. Utilizando essa perspectiva, devemos observar a linha referente a classe 1 na nossa classification report.

Nota: Nada impede de mudarmos o referencial e chamar o positivo de 0, os calculos poderão ser feitos da mesma forma, porém a interpretação será diferente.

In [131]:
print(classification_report(y_train, train_performance)) #Medimos a performance no treino para bsucar overfitting.

              precision    recall  f1-score   support

         0.0       0.77      0.75      0.76     39995
         1.0       0.76      0.78      0.77     40005

    accuracy                           0.76     80000
   macro avg       0.76      0.76      0.76     80000
weighted avg       0.76      0.76      0.76     80000



In [132]:
#Medimos a performance no teste. Essa é a que vale, pois são dados desconhecidos pelo modelo
print(classification_report(y_test, test_performance)) 

              precision    recall  f1-score   support

         0.0       0.77      0.74      0.75     10039
         1.0       0.75      0.78      0.76      9961

    accuracy                           0.76     20000
   macro avg       0.76      0.76      0.76     20000
weighted avg       0.76      0.76      0.76     20000



# Parte 2 - Modelos de Árvore e Ensemble

### Modelo em árvore, note o padrão sklearn torna a sintaxe semelhante

In [133]:
tree = DecisionTreeClassifier()
tree.fit(X_train,y_train)

train_performance = tree.predict(X_train)
test_performance = tree.predict(X_test)

In [134]:
tree

DecisionTreeClassifier(class_weight=None, criterion='gini', max_depth=None,
                       max_features=None, max_leaf_nodes=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, presort=False,
                       random_state=None, splitter='best')

#### Os hyperparametros do modelo de árvore:
- criterion: Função que mede a qualidade de uma determinado corte de atributos, ou seja, o quão bem a minha regra de decisão separa minhas classes
- max_depth: Produndidade máxima da árvore
- min_samples_leaf: Mínimo de amostras para um nó folha.
    
Para mais informações sobre o modelo de árvore, recomendo a leitura da [documentação](https://scikit-learn.org/stable/modules/tree.html#tree)

In [135]:
print(classification_report(y_train, train_performance)) #Sinal de overfitting!!

              precision    recall  f1-score   support

         0.0       1.00      1.00      1.00     39995
         1.0       1.00      1.00      1.00     40005

    accuracy                           1.00     80000
   macro avg       1.00      1.00      1.00     80000
weighted avg       1.00      1.00      1.00     80000



In [136]:
print(classification_report(y_test, test_performance)) #Sinal de overfitting!!

              precision    recall  f1-score   support

         0.0       0.74      0.74      0.74     10039
         1.0       0.74      0.74      0.74      9961

    accuracy                           0.74     20000
   macro avg       0.74      0.74      0.74     20000
weighted avg       0.74      0.74      0.74     20000



### Ensemble

In [137]:
rf = RandomForestClassifier()
rf.fit(X_train,y_train)

train_performance = rf.predict(X_train)
test_performance = rf.predict(X_test)



In [138]:
rf

RandomForestClassifier(bootstrap=True, class_weight=None, criterion='gini',
                       max_depth=None, max_features='auto', max_leaf_nodes=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, n_estimators=10,
                       n_jobs=None, oob_score=False, random_state=None,
                       verbose=0, warm_start=False)

#### Os hyperparametros do modelo de árvore:
- criterion: Função que mede a qualidade de uma determinado corte de atributos, ou seja, o quão bem a minha regra de decisão separa minhas classes
- max_depth: Produndidade máxima da árvore
- min_samples_leaf: Mínimo de amostras para um nó folha.
- n_estimators: Quantidade de árvores criadas para a floresta
- bootstrap: Realizar amostragem com reposição. É importante manter em True para criarmos árvores diferentes umas das outras.
    
Para mais informações sobre o modelo de Floresta Aleatória, recomendo a leitura da [documentação](https://scikit-learn.org/stable/modules/ensemble.html#forest).

In [139]:
print(classification_report(y_train, train_performance)) #Sinal de Overfitting

              precision    recall  f1-score   support

         0.0       0.98      0.99      0.98     39995
         1.0       0.99      0.98      0.98     40005

    accuracy                           0.98     80000
   macro avg       0.98      0.98      0.98     80000
weighted avg       0.98      0.98      0.98     80000



In [140]:
print(classification_report(y_test, test_performance)) #Sinal de Overfitting

              precision    recall  f1-score   support

         0.0       0.82      0.85      0.84     10039
         1.0       0.84      0.82      0.83      9961

    accuracy                           0.83     20000
   macro avg       0.83      0.83      0.83     20000
weighted avg       0.83      0.83      0.83     20000



# Parte 3 - Ajustando Hyperparametros

### Lidando com Overfitting - Ajuste de Hyperparametros
Uma forma comum de lidar com <i>overfitting</i> é ajustando os hyperparametros de forma que controlemos o quanto o modelo consegue se ajustar em nossos dados.

O <i>overfitting</i> normalmente é causado por uma complexidade do modelo, em modelos de árvore isso quer dizer:
- Muitos estimadores (muitas árvores): Em modelos de ensemble, adicionar muitos modelos pode não agregar na previsão resultante. Muitos modelos identicos podem gerar um viés e causar <i>overfitting</i>
- Árvores muito profundas: Cada nível de profundidade da árvore cria uma regra nova para separar nossos dados, ou seja, cada folha possui menos amostras a cada nível que crescemos a árvore. Sendo assim, em treino, regras que afetam poucas amostras são muito especificas, portanto podem estar muito vínculadas ao conjunto de treino e não generalizar.

Uma forma comum de fazer a busca dos melhores hyperparametros é através do Grid Search (Busca em grade).
- Montamos uma grade contendo os hyperparametros de interesse e os respectivos valores.
- O algoritmo vai separar a nossa base em "mini conjuntos" de treino e teste para testar cada combinação da grade
- A melhor combinação (a que maximizar o acerto) será a escolhida.

Exemplo: Vamos testar uma RandomForest com 10 e 20 árvores, onde cada árvore pode ter profundidade máxima de 3 ou 4. Sendo assim, temos:

|iteração|árvores|profundidade|
| ------------- |:-------------:| -----:|
|1|10|3|
|2|20|3|
|3|10|4|
|4|20|4|

Supondo que vamos separar nossos dados em 3 subconjuntos A, B e C para testar cada combinação:
Na iteração 1 teremos

|Conjunto de treino|Conjunto de Teste|Acerto (%)|
| ------------- |:-------------:| -----:|
|A+B|C|80|
|A+C|B|90|
|B+C|A|95|

Sendo assim, essa estratégia da iteração 1 possui um acerto médio de 88.3%. Repetimos o processo até encontrar a melhor combinação.

In [141]:
X_train.shape

(80000, 20)

In [142]:
dict_rf = {
            "n_estimators":[5,10,20], #Regular o número de estimadores
            "max_depth":[2,3,4] #Regular a profundidade das árvores
          }
gs = GridSearchCV(rf, #Objeto do classificador sklearn
                  param_grid = dict_rf, #Dicionario de hyperparametros
                  cv = 3, #Validação cruzada - vezes que o algoritmo vai separar o nosso dado e testar
                  verbose = 2 #Apenas para vermos o que está acontecendo (print de textos na tela)
                 )

gs.fit(X_train,y_train) #Fit do objeto GS, uma RF será treinada com cada uma das combinações de hyperparametros do dicionario para cada valor do CV

Fitting 3 folds for each of 9 candidates, totalling 27 fits
[CV] max_depth=2, n_estimators=5 .....................................


[Parallel(n_jobs=1)]: Using backend SequentialBackend with 1 concurrent workers.


[CV] ...................... max_depth=2, n_estimators=5, total=   0.2s
[CV] max_depth=2, n_estimators=5 .....................................


[Parallel(n_jobs=1)]: Done   1 out of   1 | elapsed:    0.2s remaining:    0.0s


[CV] ...................... max_depth=2, n_estimators=5, total=   0.2s
[CV] max_depth=2, n_estimators=5 .....................................
[CV] ...................... max_depth=2, n_estimators=5, total=   0.2s
[CV] max_depth=2, n_estimators=10 ....................................
[CV] ..................... max_depth=2, n_estimators=10, total=   0.4s
[CV] max_depth=2, n_estimators=10 ....................................
[CV] ..................... max_depth=2, n_estimators=10, total=   0.4s
[CV] max_depth=2, n_estimators=10 ....................................
[CV] ..................... max_depth=2, n_estimators=10, total=   0.4s
[CV] max_depth=2, n_estimators=20 ....................................
[CV] ..................... max_depth=2, n_estimators=20, total=   0.8s
[CV] max_depth=2, n_estimators=20 ....................................
[CV] ..................... max_depth=2, n_estimators=20, total=   0.8s
[CV] max_depth=2, n_estimators=20 ....................................
[CV] .

[Parallel(n_jobs=1)]: Done  27 out of  27 | elapsed:   16.5s finished


GridSearchCV(cv=3, error_score='raise-deprecating',
             estimator=RandomForestClassifier(bootstrap=True, class_weight=None,
                                              criterion='gini', max_depth=None,
                                              max_features='auto',
                                              max_leaf_nodes=None,
                                              min_impurity_decrease=0.0,
                                              min_impurity_split=None,
                                              min_samples_leaf=1,
                                              min_samples_split=2,
                                              min_weight_fraction_leaf=0.0,
                                              n_estimators=10, n_jobs=None,
                                              oob_score=False,
                                              random_state=None, verbose=0,
                                              warm_start=False),
             iid='wa

In [143]:
rf_gs = gs.best_estimator_

In [144]:
rf_gs

RandomForestClassifier(bootstrap=True, class_weight=None, criterion='gini',
                       max_depth=4, max_features='auto', max_leaf_nodes=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, n_estimators=20,
                       n_jobs=None, oob_score=False, random_state=None,
                       verbose=0, warm_start=False)

In [145]:
test_performance = rf_gs.predict(X_test)
train_performance = rf_gs.predict(X_train)

In [146]:
print(classification_report(y_train, train_performance))

              precision    recall  f1-score   support

         0.0       0.81      0.78      0.80     39995
         1.0       0.79      0.82      0.81     40005

    accuracy                           0.80     80000
   macro avg       0.80      0.80      0.80     80000
weighted avg       0.80      0.80      0.80     80000



In [147]:
print(classification_report(y_test, test_performance)) 

              precision    recall  f1-score   support

         0.0       0.81      0.77      0.79     10039
         1.0       0.78      0.82      0.80      9961

    accuracy                           0.79     20000
   macro avg       0.79      0.79      0.79     20000
weighted avg       0.79      0.79      0.79     20000



# Parte 4 - Formas de aplicar um modelo de classificação

In [152]:
predict_proba_rf = rf_gs.predict_proba(X_test)
print(predict_proba_rf)

[[0.83099904 0.16900096]
 [0.84400216 0.15599784]
 [0.28592926 0.71407074]
 ...
 [0.58031645 0.41968355]
 [0.6637815  0.3362185 ]
 [0.81879734 0.18120266]]


In [155]:
X_test["predict_proba"] = predict_proba_rf[:,1]

In [157]:
X_test["target"] = y_test

In [158]:
X_test.head()

Unnamed: 0,atributo_0,atributo_1,atributo_2,atributo_3,atributo_4,atributo_5,atributo_6,atributo_7,atributo_8,atributo_9,atributo_10,atributo_11,atributo_12,atributo_13,atributo_14,atributo_15,atributo_16,atributo_17,atributo_18,atributo_19,predict_proba,target
97320,-0.767145,-0.333025,-0.584866,1.770461,-0.099363,-0.115322,0.29557,0.500035,-0.588367,-0.312699,-0.088776,-0.90223,-0.094666,-0.707977,0.163998,0.619729,-0.328969,0.460496,-0.365602,-0.643339,0.169001,0.0
68107,-0.924253,-4.220112,-2.718203,1.081076,0.120575,-0.940722,-1.60009,-1.01553,-1.847722,0.874642,0.93793,-1.262193,-0.073119,-1.271775,-0.481876,3.4461,0.247052,-1.895841,0.280185,0.953621,0.155998,0.0
59450,-0.16251,3.065559,1.049427,0.560586,-2.530358,-0.907176,2.322294,-0.901188,-0.134448,1.457613,-0.522467,-0.333502,-0.436918,0.936369,2.78146,-0.71527,-0.105945,0.595663,0.70411,-1.123141,0.714071,1.0
29422,-0.576252,0.604844,0.285657,-0.1916,-0.726441,-0.341828,0.38092,-1.480858,0.122126,0.71987,-0.003143,0.191535,-0.098238,0.49015,0.728078,-0.108936,-0.746725,-0.277786,0.363014,1.634629,0.643472,0.0
77971,0.321697,2.912722,0.786751,2.671572,-2.019777,-0.579406,2.424262,-0.345002,0.549287,0.541856,0.810591,-0.927847,-0.410535,0.229986,2.36143,-0.671067,-0.511379,1.386439,-1.604733,-1.292449,0.667288,1.0


In [163]:
X_test["decil"] = pd.qcut(X_test.predict_proba, q=10, labels = [1,2,3,4,5,6,7,8,9,10], retbins = False)

In [169]:
X_test.groupby("decil")["target"].agg(["sum","count"]) #Atuar de acordo com o decil da probabilidade.

Unnamed: 0_level_0,sum,count
decil,Unnamed: 1_level_1,Unnamed: 2_level_1
1,293.0,2255
2,219.0,1789
3,306.0,1964
4,456.0,2020
5,747.0,1996
6,1158.0,1978
7,1673.0,2002
8,1660.0,2006
9,1702.0,1992
10,1747.0,1998


In [171]:
X_test["predict"] = test_performance

In [174]:
X_test[X_test.predict == 1].target.count() #Atuar em todos que o modelo considera 1

10510