In [3]:
import pandas as pd 
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier as FlorestaRandomica
import pickle
from datetime import datetime as dt 

In [4]:
df = pd.read_csv('Base/treino_08_31_00_31-10-2021.csv', dtype=np.float64)

In [5]:
features = df.drop('round_winner', axis=1)

train_feature, test_features, train_target, testing_target = \
            train_test_split(features, df['round_winner'], random_state=None)

X_train, X_test, y_train, y_test  = train_feature, test_features, train_target, testing_target 

In [6]:
inicio = dt.now()
model = FlorestaRandomica(bootstrap=True, 
                          criterion="entropy", 
                          max_features=0.4, 
                          min_samples_leaf=11,
                          min_samples_split=5, 
                          n_estimators=100)
model.fit(train_feature, train_target)
print("Total treino normal: ",dt.now() - inicio)

Total treino normal:  0:01:19.828525


In [7]:
model

In [8]:
results = model.predict(test_features)

In [33]:
model.score(test_features, testing_target)

0.8331045751633986

In [32]:
print("Model RandomForestClf \nf1_score: {}\nacc_sore: {}".format(f1_score(y_test, results), accuracy_score(y_test, results)))

Model RandomForestClf 
f1_score: 0.8333278939982376
acc_sore: 0.8331045751633986


0.8331045751633986

## Pipeline 

In [10]:
from sklearn.svm import SVC
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.pipeline import Pipeline
from sklearn.metrics import f1_score, make_scorer # utilizado para calcular a performance dos pipelines
from sklearn.decomposition import PCA 
from sklearn import set_config # utilizado para mostrar os passos do pipeline de forma visual
set_config(display='diagram') #
from sklearn.ensemble import *
from sklearn.metrics import f1_score, make_scorer
from sklearn.metrics import accuracy_score


### Pipeline com StandardScaler e SVC 

Como essa base tem algumas colunas com valores distintos penso que um PCA
pode ajudar a ter melhores features, dessa forma com os dados estaveis passo
duas estruturas, o seguindo essa estrutura:

* PCA
* StandardScaler
* SVM


![](https://miro.medium.com/max/1200/0*2-EExC6mYeEMvtrw.gif)

In [11]:
inicio = dt.now()

pipe = Pipeline([
                 ('pca', PCA(n_components=3)),
                 ('Scalar Step', StandardScaler()),
                 ('Suporte Vector Machine Step ',SVC())
                ]).fit(X_train, y_train)
print("Total treino pipe 01: ",dt.now() - inicio)

Total treino pipe 01:  0:04:34.730412


In [12]:
y_pred_svc = pipe.predict(X_test)
display(f'Resultados de y_pred: {y_pred_svc}')

display(f'Passos do pipeline (para fins ilustrativos):')
y_pred_svc


'Resultados de y_pred: [0. 1. 0. ... 1. 0. 0.]'

'Passos do pipeline (para fins ilustrativos):'

array([0., 1., 0., ..., 1., 0., 0.])

### Pipeline com StandardScaler e SVC 

Como essa base tem algumas colunas com valores distintos penso que um PCA
pode ajudar a ter melhores features, dessa forma com os dados estaveis passo
duas estruturas, o seguindo essa estrutura:

* PCA
* SVM

![](https://i.gifer.com/H7zW.gif)

In [16]:
inicio = dt.now()

pipe_pca = Pipeline([
                     ('pca', PCA(n_components=3)),
                     ('Suporte Vector Machine Step ', SVC())
                    ]).fit(X_train, y_train)

y_pred_pca = pipe_pca.predict(X_test)
display(f'Resultados de y_pred: {y_pred_pca}')

display(f'Passos do pipeline (para fins ilustrativos):')
pipe_pca
print("Total treino pipe_pca 02: ",dt.now() - inicio)

'Resultados de y_pred: [0. 1. 1. ... 1. 1. 0.]'

'Passos do pipeline (para fins ilustrativos):'

Total treino pipe_pca 02:  0:06:24.220503


## Metricas usadas 

#### PS: Vamos usar apenas f1_score e accuracy_score
![](https://miro.medium.com/max/1400/1*UVP_xb4F6J-M-xH3haz5Jw.png)

In [18]:
print("Primeiro pipeline :",f1_score(y_test, y_pred_svc))
print("Segundo pipeline :",f1_score(y_test, y_pred_pca))
print("Primeiro pipeline: ",accuracy_score(y_test, y_pred_svc))
print("Segundo pipeline: ",accuracy_score(y_test, y_pred_pca))

Primeiro pipeline : 0.6177920967847985
Segundo pipeline : 0.6548404038046333
Primeiro pipeline:  0.6200653594771242
Segundo pipeline:  0.6133986928104576


## Analise de Resultados 
F-score
F–measure, F-score ou score F1 é uma média harmônica calculada com base na precisão e na revocação. Ela pode ser obtida com base na equação:


Tabela de Metricas 

| Metrica  | Valor | Pipeline | 
|----------|-------|----------|
| f1_score | 0.61  | pipe     |
| acc_sore | 0.62  | pipe     | 
| f1_score | 0.65  | pipe_pca |
| acc_sore | 0.61  | pipe_pca | 
| f1_score | 0.83  | RnadomForest |
| acc_sore | 0.83  | RnadomForest | 

## Conclusão

Ao analisar as metricas de f1_score e acc do pipeline "pipe" e pipe_pca que teve um comportamento muito inferior do que foi observado no modelo sem Pipeline apenas usando RandomForest, com metricas accima de 0.80, dessa forma o modelo que performou melhor foi o primeiro a ser treinado.