<a href="https://colab.research.google.com/github/marciogsantana/engenharia_machine_learning/blob/main/Desafio_IGTI_M3.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Desafio IGTI Módulo 3**

---

Seleção de Modelos de Aprendizado de Máquina

### *Importando* bibliotecas


In [None]:
import pandas as pd #biblioteca para manipulação de dados
import numpy as np #biblioteca para utilizacao de vetores e matrizes
import matplotlib.pyplot as plt #bibloteca para plotar graficos

### Carregamento dos dados

In [None]:
#lendo o csv que contem as base de dados em dfs
df = pd.read_csv('/content/phpOJxGL9.csv')



In [None]:
#imprimindo as 5 primeiras linhas do df para confirmação
df.head(5)


Unnamed: 0,V1,V2,V3,V4,V5,V6,V7,V8,V9,V10,Class
0,65,Female,0.7,0.1,187,16,18,6.8,3.3,0.9,1
1,62,Male,10.9,5.5,699,64,100,7.5,3.2,0.74,1
2,62,Male,7.3,4.1,490,60,68,7.0,3.3,0.89,1
3,58,Male,1.0,0.4,182,14,20,6.8,3.4,1.0,1
4,72,Male,3.9,2.0,195,27,59,7.3,2.4,0.4,1


In [None]:
# Verificando o numero de amostras (linhas) e features (colunas) do dataset. 
print('Amostras e Features:', df.shape)


Amostras e Features: (583, 11)


In [None]:
# Verificando quais são os tipos das features
df.columns


Index(['V1', 'V2', 'V3', 'V4', 'V5', 'V6', 'V7', 'V8', 'V9', 'V10', 'Class'], dtype='object')

### Pré processamento

In [None]:
print(np.unique(df['Class']))


[1 2]


Mapeamentos das classes

In [None]:
#criando um dicionario de dados para o mapeamento
#name_to_class = {
#    1: 0,
#    2: 1,
#}

name_to_V2 = {
    'Female':0,
    'Male':1,
}

#substituindo os valores categóricos pelo mapeamento
#df['Class'] = df['Class'].map(name_to_class)
df['V2'] = df['V2'].map(name_to_V2)

#check
df.head(5)

Unnamed: 0,V1,V2,V3,V4,V5,V6,V7,V8,V9,V10,Class
0,65,0,0.7,0.1,187,16,18,6.8,3.3,0.9,1
1,62,1,10.9,5.5,699,64,100,7.5,3.2,0.74,1
2,62,1,7.3,4.1,490,60,68,7.0,3.3,0.89,1
3,58,1,1.0,0.4,182,14,20,6.8,3.4,1.0,1
4,72,1,3.9,2.0,195,27,59,7.3,2.4,0.4,1


Uma outra etapa importante do pré-processamento consiste na avaliação de dados faltantes. 



In [None]:
# Analisando o resumo da base
df.describe()


Unnamed: 0,V1,V2,V3,V4,V5,V6,V7,V8,V9,V10,Class
count,583.0,583.0,583.0,583.0,583.0,583.0,583.0,583.0,583.0,583.0,583.0
mean,44.746141,0.756432,3.298799,1.486106,290.576329,80.713551,109.910806,6.48319,3.141852,0.947064,1.286449
std,16.189833,0.429603,6.209522,2.808498,242.937989,182.620356,288.918529,1.085451,0.795519,0.318492,0.45249
min,4.0,0.0,0.4,0.1,63.0,10.0,10.0,2.7,0.9,0.3,1.0
25%,33.0,1.0,0.8,0.2,175.5,23.0,25.0,5.8,2.6,0.7,1.0
50%,45.0,1.0,1.0,0.3,208.0,35.0,42.0,6.6,3.1,0.947064,1.0
75%,58.0,1.0,2.6,1.3,298.0,60.5,87.0,7.2,3.8,1.1,2.0
max,90.0,1.0,75.0,19.7,2110.0,2000.0,4929.0,9.6,5.5,2.8,2.0


In [None]:
df.isnull().sum() #verificação de elementos faltantes

V1       0
V2       0
V3       0
V4       0
V5       0
V6       0
V7       0
V8       0
V9       0
V10      0
Class    0
dtype: int64

Os modelos implementados no sklearn recebem como entrada para a modelagam um ou mais arrays. Dessa forma, precisamos modificar o df original para que seja possível a modelagem correta. 

Para isso, vamos separar o label das amotras, armazenar o nome das featues já que os arrays não fazem isso e depois retirar a coluna de labels do df original. Em seguida, vamos converter o df para array usando o numpy!

In [None]:
#df classifiers

# armazenando os labels em um array
labels = np.array(df['Class'])

# salvando a ordem das features
feature_list_cf = list(df.columns)

# removendo a coluna de labels do df original
df = df.drop('Class', axis = 1)

# check
df.columns

Index(['V1', 'V2', 'V3', 'V4', 'V5', 'V6', 'V7', 'V8', 'V9', 'V10'], dtype='object')

In [None]:
# convertendo df para array
data = np.array(df)

### Classificação com SVM e RandomForestClassifier


In [None]:
#importar o modelo SVR e suas bibliotecas
from sklearn.svm import SVC
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import StratifiedKFold
from sklearn.model_selection import RandomizedSearchCV
from scipy.stats import uniform
from scipy.stats import randint
from sklearn.metrics import f1_score, make_scorer


### 1o. SVC com Random Search

In [None]:
#definindo o tipo de validacao cruzada e o numero de folds
cv_strat = StratifiedKFold(n_splits = 10)

#definindo a estrategia de score a partir da metrica f1
f1 = make_scorer(f1_score)

#definindo hiperparâmetros
distributions = dict(kernel = ['sigmoid', 'poly', 'rbf'], 
                     C = uniform(loc=1, scale=10))

#instânciando meu classificador
classifier = SVC()

#instanciando e modelando o grid search com os hiperparametros e a validação definidas.
random_cv = RandomizedSearchCV(classifier, distributions, cv = cv_strat, scoring = f1, random_state = 54, n_iter = 5)
random_cv.fit(data, labels)

RandomizedSearchCV(cv=StratifiedKFold(n_splits=10, random_state=None, shuffle=False),
                   error_score=nan,
                   estimator=SVC(C=1.0, break_ties=False, cache_size=200,
                                 class_weight=None, coef0=0.0,
                                 decision_function_shape='ovr', degree=3,
                                 gamma='scale', kernel='rbf', max_iter=-1,
                                 probability=False, random_state=None,
                                 shrinking=True, tol=0.001, verbose=False),
                   iid='deprecated', n_iter=5, n_jobs=None,
                   param_distributions={'C': <scipy.stats._distn_infrastructure.rv_frozen object at 0x7ffacdf1ae90>,
                                        'kernel': ['sigmoid', 'poly', 'rbf']},
                   pre_dispatch='2*n_jobs', random_state=54, refit=True,
                   return_train_score=False, scoring=make_scorer(f1_score),
                   verbose=0)

In [None]:
#vamos olhar para todos os resultados encontrados!
print('Resumo de todos os resultados encontrados:\n\n', random_cv.cv_results_)

Resumo de todos os resultados encontrados:

 {'mean_fit_time': array([0.01511762, 0.06898134, 0.53582306, 0.62159181, 0.00688508]), 'std_fit_time': array([0.00252594, 0.01146963, 0.30060178, 0.28510738, 0.00040019]), 'mean_score_time': array([0.00200369, 0.00163147, 0.00162094, 0.00157762, 0.00170379]), 'std_score_time': array([1.09734386e-04, 1.28327566e-04, 1.83431144e-04, 6.12644827e-05,
       4.58341720e-05]), 'param_C': masked_array(data=[5.201829671407738, 1.0251668829378993,
                   6.182827281674762, 10.689362067194862,
                   5.4431572971725455],
             mask=[False, False, False, False, False],
       fill_value='?',
            dtype=object), 'param_kernel': masked_array(data=['rbf', 'poly', 'poly', 'poly', 'sigmoid'],
             mask=[False, False, False, False, False],
       fill_value='?',
            dtype=object), 'params': [{'C': 5.201829671407738, 'kernel': 'rbf'}, {'C': 1.0251668829378993, 'kernel': 'poly'}, {'C': 6.182827281674762, 'k

In [None]:
#vamos olhar para os melhores resultados encontrados pelo Grid Search
print('Melhor resultado f1:', random_cv.best_score_)
print('\n\nMelhor configuração de hiperparâmetros:', random_cv.best_params_)
print( '\n\nConfigurações de todos os hiperparâmetros do melhor estimado encontrado pelo GridSearch: \n', random_cv.best_estimator_)

Melhor resultado f1: 0.832818081808181


Melhor configuração de hiperparâmetros: {'C': 5.201829671407738, 'kernel': 'rbf'}


Configurações de todos os hiperparâmetros do melhor estimado encontrado pelo GridSearch: 
 SVC(C=5.201829671407738, break_ties=False, cache_size=200, class_weight=None,
    coef0=0.0, decision_function_shape='ovr', degree=3, gamma='scale',
    kernel='rbf', max_iter=-1, probability=False, random_state=None,
    shrinking=True, tol=0.001, verbose=False)


2o. Random Forest com Random Search

In [None]:
from scipy.stats import randint

In [None]:
#definindo o tipo de validacao cruzada e o numero de folds
cv_strat = StratifiedKFold(n_splits = 10)

#definindo a estrategia de score a partir da metrica f1
f1 = make_scorer(f1_score)

#definindo hiperparâmetros
distributions1 = dict(n_estimators = randint(10, 1000),
                      bootstrap = [True, False],
                      criterion = ['gini', 'entropy'])

#instânciando meu classificador
classifier1 = RandomForestClassifier(random_state=54)

#instanciando e modelando o grid search com os hiperparametros e a validação definidas.
random_cv1 = RandomizedSearchCV(classifier1, distributions1, cv = cv_strat, scoring = f1, random_state = 54, n_iter = 5)
random_cv1.fit(data, labels)

RandomizedSearchCV(cv=StratifiedKFold(n_splits=10, random_state=None, shuffle=False),
                   error_score=nan,
                   estimator=RandomForestClassifier(bootstrap=True,
                                                    ccp_alpha=0.0,
                                                    class_weight=None,
                                                    criterion='gini',
                                                    max_depth=None,
                                                    max_features='auto',
                                                    max_leaf_nodes=None,
                                                    max_samples=None,
                                                    min_impurity_decrease=0.0,
                                                    min_impurity_split=None,
                                                    min_samples_leaf=1,
                                                    min_samples_s...
                     

In [None]:
#vamos olhar para todos os resultados encontrados!
print('Resumo de todos os resultados encontrados:\n\n', random_cv1.cv_results_)

Resumo de todos os resultados encontrados:

 {'mean_fit_time': array([2.23637841, 1.83381484, 1.79951355, 1.28574142, 1.76156077]), 'std_fit_time': array([0.03395478, 0.01022222, 0.02750288, 0.0156154 , 0.01410828]), 'mean_score_time': array([0.11198997, 0.09125595, 0.10843649, 0.06589072, 0.09002848]), 'std_score_time': array([0.01876396, 0.012752  , 0.00958552, 0.00745456, 0.01110043]), 'param_bootstrap': masked_array(data=[False, False, True, False, False],
             mask=[False, False, False, False, False],
       fill_value='?',
            dtype=object), 'param_criterion': masked_array(data=['entropy', 'entropy', 'gini', 'entropy', 'entropy'],
             mask=[False, False, False, False, False],
       fill_value='?',
            dtype=object), 'param_n_estimators': masked_array(data=[908, 747, 913, 528, 718],
             mask=[False, False, False, False, False],
       fill_value='?',
            dtype=object), 'params': [{'bootstrap': False, 'criterion': 'entropy', 'n_est

In [None]:
#vamos olhar para os melhores resultados encontrados pelo Grid Search
print('Melhor resultado f1:', random_cv1.best_score_)
print('\n\nMelhor configuração de hiperparâmetros:', random_cv1.best_params_)
print( '\n\nConfigurações de todos os hiperparâmetros do melhor estimado encontrado pelo GridSearch: \n', random_cv1.best_estimator_)

Melhor resultado f1: 0.7958475474585391


Melhor configuração de hiperparâmetros: {'bootstrap': True, 'criterion': 'gini', 'n_estimators': 913}


Configurações de todos os hiperparâmetros do melhor estimado encontrado pelo GridSearch: 
 RandomForestClassifier(bootstrap=True, ccp_alpha=0.0, class_weight=None,
                       criterion='gini', max_depth=None, max_features='auto',
                       max_leaf_nodes=None, max_samples=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, n_estimators=913,
                       n_jobs=None, oob_score=False, random_state=54, verbose=0,
                       warm_start=False)
