# Notebook de Classificação

* Este notebook terá as seguintes funções:
    1. Estabelecer uma explicação do Pré_Processador;
    2. Investigar qual o melhor modelo de classificação;
    3. Será realizada as avaliações do Modelo.

In [3]:
import pandas as pd

import sys
sys.path.append('../')
from util.pre_processamento.pre_processador import pre_processador

## Pré-Processano DataSet 
* Existirá um arquivo .MD explicando os fundamentos do Pré-processamento

In [4]:
dataset = pd.read_csv('../datasets/train.csv', index_col=0)
dataset

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...
887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


In [5]:
y = dataset['Survived']
X = dataset.drop(columns=['Survived'])

In [6]:
X = pre_processador.fit_transform(X=X)
X

Unnamed: 0_level_0,Age,Fare,Pclass_alta,Pclass_baixa,Pclass_media,Sex_female,faixa_etaria_adolescente,faixa_etaria_adulto,faixa_etaria_criança,faixa_etaria_idoso
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
1,-0.595226,-0.502445,-0.565685,0.902587,-0.510152,-0.737695,-0.422577,0.908746,-0.289727,-0.159111
2,0.631435,0.786845,1.767767,-1.107926,-0.510152,1.355574,-0.422577,0.908746,-0.289727,-0.159111
3,-0.288561,-0.488854,-0.565685,0.902587,-0.510152,1.355574,-0.422577,0.908746,-0.289727,-0.159111
4,0.401436,0.420730,1.767767,-1.107926,-0.510152,1.355574,-0.422577,0.908746,-0.289727,-0.159111
5,0.401436,-0.486337,-0.565685,0.902587,-0.510152,-0.737695,-0.422577,0.908746,-0.289727,-0.159111
...,...,...,...,...,...,...,...,...,...,...
887,-0.211895,-0.386671,-0.565685,-1.107926,1.960202,-0.737695,-0.422577,0.908746,-0.289727,-0.159111
888,-0.825225,-0.044381,1.767767,-1.107926,-0.510152,1.355574,2.366432,-1.100417,-0.289727,-0.159111
889,-0.141078,-0.176263,-0.565685,0.902587,-0.510152,1.355574,-0.422577,-1.100417,-0.289727,-0.159111
890,-0.288561,-0.044381,1.767767,-1.107926,-0.510152,-0.737695,-0.422577,0.908746,-0.289727,-0.159111


## Classificando O DataFrame

Importando modelos de Classificação

In [7]:
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC
from sklearn.ensemble import RandomForestClassifier
from xgboost import XGBClassifier

Importando o necessário para avaliação do modelo

In [8]:
from sklearn.model_selection import (
    KFold,
    cross_val_score
)

In [9]:
def avalia_modelo(classificador, quantos_fold):
    kfold = KFold(n_splits=quantos_fold)
    precision_score = cross_val_score(classificador,
                                      X,
                                      y,
                                      scoring='precision',
                                      cv=kfold)
    recall_score = cross_val_score(classificador,
                                   X,
                                   y,
                                   scoring='recall',
                                   cv=kfold)
    f1_score = cross_val_score(classificador,
                                X,
                                y,
                                scoring='f1',
                                cv=kfold)
    accuracy = cross_val_score(classificador,
                                X,
                                y,
                                scoring='accuracy',
                                cv=kfold)
    return precision_score, recall_score, f1_score, accuracy

In [10]:
for modelo in [
    (LogisticRegression,'LogisticRegression'),
    (DecisionTreeClassifier,'DecisionTreeClassifier'),
    (KNeighborsClassifier, 'KNeighborsClassifier'),
    (SVC, 'SVC'),
    (RandomForestClassifier, 'RandomForestClassifier'),
    (XGBClassifier, 'xgboost')
]:
    modelo_da_vez = modelo[0]()
    precision_score, recall_score, f1_score, accuracy = avalia_modelo(modelo_da_vez, 5)
    print(f'Modelo: {modelo[1]}')
    print(f'Médias de Cross Validation')
    print(f'Precisão : {precision_score.mean():.2f}')
    print(f'Sensibilidade : {recall_score.mean():.2f}')
    print(f'F1 :  {f1_score.mean():.2f}')
    print(f'Acurácia : {accuracy.mean():.2f}')
    print('---')

Modelo: LogisticRegression
Médias de Cross Validation
Precisão : 0.74
Sensibilidade : 0.70
F1 :  0.71
Acurácia : 0.79
---
Modelo: DecisionTreeClassifier
Médias de Cross Validation
Precisão : 0.70
Sensibilidade : 0.73
F1 :  0.72
Acurácia : 0.77
---
Modelo: KNeighborsClassifier
Médias de Cross Validation
Precisão : 0.76
Sensibilidade : 0.70
F1 :  0.73
Acurácia : 0.80
---
Modelo: SVC
Médias de Cross Validation
Precisão : 0.80
Sensibilidade : 0.64
F1 :  0.71
Acurácia : 0.80
---
Modelo: RandomForestClassifier
Médias de Cross Validation
Precisão : 0.76
Sensibilidade : 0.75
F1 :  0.76
Acurácia : 0.82
---
Modelo: xgboost
Médias de Cross Validation
Precisão : 0.77
Sensibilidade : 0.75
F1 :  0.76
Acurácia : 0.82
---


* O classificador escolhido será o XGBoost

## Identificação dos Parâmentros do Classificador

In [11]:
profundidade = -1
quantos_trabalhos = -1
quantos_threads = -1
maior = -1
kfold = KFold(n_splits=3)
for i in range(1,10):
    for j in range(1,10):
        for k in range(1,10):
            f1_score = cross_val_score(XGBClassifier(n_estimators=i, 
                                                    n_jobs=j,
                                                    max_depth=k,
                                                    ),
                                        X, y, scoring='f1', cv=kfold)
            if f1_score.mean() > maior:
                quantos_threads = j
                quantos_trabalhos = i
                profundidade = k
                maior = f1_score.mean()

print(f'Melhor F1 : {maior}')
print(f'Quantidade de Threads : {quantos_threads}')
print(f'Quantos Trabalhos: {quantos_trabalhos}')
print(f'profundidade : {profundidade}')
    

Melhor F1 : 0.7587129627782986
Quantidade de Threads : 1
Quantos Trabalhos: 9
profundidade : 8


Identificando os melhores pesos

In [12]:
classificador_final = XGBClassifier(n_estimators=quantos_trabalhos, 
                                    n_jobs=quantos_threads,
                                    max_depth=profundidade,
                                    importance_type='weight'
                                    )

precision_score, recall_score, f1_score, accuracy = avalia_modelo(classificador_final, 3)
print(f'Médias de Cross Validation')
print(f'Precisão : {precision_score.mean():.2f}')
print(f'Sensibilidade : {recall_score.mean():.2f}')
print(f'F1 :  {f1_score.mean():.2f}')
print(f'Acurácia : {accuracy.mean():.2f}')
print('---')

Médias de Cross Validation
Precisão : 0.80
Sensibilidade : 0.72
F1 :  0.76
Acurácia : 0.83
---


In [13]:
precision_score

array([0.72340426, 0.8487395 , 0.83157895])

In [14]:
recall_score

array([0.64150943, 0.7890625 , 0.73148148])

In [15]:
f1_score

array([0.68      , 0.81781377, 0.77832512])

In [16]:
accuracy

array([0.78451178, 0.84848485, 0.84848485])

In [17]:
classificador_final.fit(X, y)

In [18]:
pd.Series(classificador_final.feature_importances_, index=X.columns).sort_values()

faixa_etaria_criança        0.000000
faixa_etaria_idoso          0.000000
Pclass_media                0.008021
faixa_etaria_adolescente    0.008021
Pclass_alta                 0.013369
Sex_female                  0.024064
faixa_etaria_adulto         0.032086
Pclass_baixa                0.042781
Fare                        0.430481
Age                         0.441176
dtype: float32

In [19]:
classificador_final_gain = XGBClassifier(n_estimators=quantos_trabalhos, 
                                    n_jobs=quantos_threads,
                                    max_depth=profundidade,
                                    importance_type='gain'
                                    )

precision_score, recall_score, f1_score, accuracy = avalia_modelo(classificador_final_gain, 3)
print(f'Médias de Cross Validation')
print(f'Precisão : {precision_score.mean():.2f}')
print(f'Sensibilidade : {recall_score.mean():.2f}')
print(f'F1 :  {f1_score.mean():.2f}')
print(f'Acurácia : {accuracy.mean():.2f}')
print('---')

Médias de Cross Validation
Precisão : 0.80
Sensibilidade : 0.72
F1 :  0.76
Acurácia : 0.83
---


In [20]:
classificador_final_gain.fit(X, y)

In [21]:
pd.Series(classificador_final_gain.feature_importances_, index=X.columns).sort_values()

faixa_etaria_criança        0.000000
faixa_etaria_idoso          0.000000
faixa_etaria_adulto         0.013555
Age                         0.016501
Pclass_media                0.017843
Fare                        0.020076
faixa_etaria_adolescente    0.024990
Pclass_alta                 0.053622
Pclass_baixa                0.134350
Sex_female                  0.719062
dtype: float32

In [22]:
classificador_final_total_gain = XGBClassifier(n_estimators=quantos_trabalhos, 
                                                n_jobs=quantos_threads,
                                                max_depth=profundidade,
                                                importance_type='total_gain'
                                                )

precision_score, recall_score, f1_score, accuracy = avalia_modelo(classificador_final_total_gain, 3)
print(f'Médias de Cross Validation')
print(f'Precisão : {precision_score.mean():.2f}')
print(f'Sensibilidade : {recall_score.mean():.2f}')
print(f'F1 :  {f1_score.mean():.2f}')
print(f'Acurácia : {accuracy.mean():.2f}')
print('---')

Médias de Cross Validation
Precisão : 0.80
Sensibilidade : 0.72
F1 :  0.76
Acurácia : 0.83
---


In [23]:
classificador_final_total_gain.fit(X, y)

In [24]:
pd.Series(classificador_final_total_gain.feature_importances_, index=X.columns).sort_values()

faixa_etaria_criança        0.000000
faixa_etaria_idoso          0.000000
Pclass_media                0.003537
faixa_etaria_adolescente    0.004953
faixa_etaria_adulto         0.010747
Pclass_alta                 0.017714
Pclass_baixa                0.142026
Age                         0.179886
Fare                        0.213556
Sex_female                  0.427581
dtype: float32

In [25]:
classificador_final_cover = XGBClassifier(n_estimators=quantos_trabalhos, 
                                          n_jobs=quantos_threads,
                                          max_depth=profundidade,
                                          importance_type='cover'
                                          )

precision_score, recall_score, f1_score, accuracy = avalia_modelo(classificador_final_cover, 3)
print(f'Médias de Cross Validation')
print(f'Precisão : {precision_score.mean():.2f}')
print(f'Sensibilidade : {recall_score.mean():.2f}')
print(f'F1 :  {f1_score.mean():.2f}')
print(f'Acurácia : {accuracy.mean():.2f}')
print('---')

Médias de Cross Validation
Precisão : 0.80
Sensibilidade : 0.72
F1 :  0.76
Acurácia : 0.83
---


In [26]:
classificador_final_cover.fit(X,y)

In [27]:
pd.Series(classificador_final_cover.feature_importances_, index=X.columns).sort_values()

faixa_etaria_criança        0.000000
faixa_etaria_idoso          0.000000
faixa_etaria_adolescente    0.022537
Fare                        0.044901
Age                         0.047719
faixa_etaria_adulto         0.053918
Pclass_baixa                0.088858
Pclass_media                0.093094
Pclass_alta                 0.232541
Sex_female                  0.416432
dtype: float32

## Conclusões

---

* A identificação dos melhores parâmentros são:
    1. n_estimators = 1;
    2. n_jobs = 9;
    3. max_depth = 7.

---

* A identificação dos pesos em ordem com o investigado:
    
    1. Cover

        * Ser mulher significa muito para a Sobrevivência, mas não é o mais importante;
        * Classe alta significa bastante;
        * Outras classificações são complementares.

    2. Total Gain

        * Ser mulher significa semelhantemente alto quanto no Cover;
        * Idade e Fare significam, ou seja, os dados específicos valem mais que os agrupamentos;
        * Outras características são critérios de desempate e não servem tanto;

    3. Gain        
      
       * Muito perigoso para a classificação, pois ser mulher significa bastante na classificação, risco de Overfitting.

    4. Weight

        * Distribuição mais segura, entretanto não significou tanto como no Notebook de Análise Exploratória de Dados.

In [28]:
import pickle

with open('../deploys/classificador_cover.pkl', 'wb') as file:
    pickle.dump(classificador_final_cover, file)