# Seleção de Modelos de Aprendizado de Máquina - Desafio

## Objetivos

Exercitar os seguintes conceitos trabalhados no Módulo:
- Nesse desafio, vamos trabalhar os conceitos vistos sobre métricas de desempenho, técnicas de validação e sintonia de hiperparâmetros.
- Vamos olhar para o fluxo completo de seleção de um modelo de aprendizado.

## Enunciado

Nesse desafio, vamos fazer um apanhado geral de tudo que foi visto no módulo. Vamos usar a tarefa de classificação para validar um modelo, vamos otimizar os hiperparâmetros
desse modelo e vamos avaliar o resultado encontrado de acordo com algumas métricas de
desempenho vistas durante o módulo.

## Atividades

Vamos desempenhar as seguintes atividades:
1. Baixar o arquivo com os dados no link https://www.openml.org/d/1480. O formato do arquivo deve ser CSV.
2. Obter informações relativas a número de features e amostras.
3. Verificar a necessidade de tratamento de dados categóricos e valores faltantes.
4. Modelar o SVC e o Random Forest Classifier, com Random Search para sintonia de
hiperparâmetros e validação cruzada estratificada, usando as parametrizações adequadas
abaixo.

## Importando a biblioteca a ser usada

### Informações sobre o dataset
Indian Liver Patient Dataset
This data set contains 416 liver patient records and 167 non liver patient records.The data set was collected from north east of Andhra Pradesh, India. The class label divides the patients into 2 groups (liver patient or not). This data set contains 441 male patient records and 142 female patient records.

#### Attribute Information
- V1. Age of the patient. Any patient whose age exceeded 89 is listed as being of age "90".
- V2. Gender of the patient
- V3. Total Bilirubin
- V4. Direct Bilirubin
- V5. Alkphos Alkaline Phosphatase
- V6. Sgpt Alanine Aminotransferase
- V7. Sgot Aspartate Aminotransferase
- V8. Total Proteins
- V9. Albumin
- V10. A/G Ratio Albumin and Globulin Ratio

In [1]:
# Biblioteca para análise de dados
import pandas as pd

In [2]:
# Lendo o conjunto de dados
df_ilpd = pd.read_csv("/content/ilpd_dataset.csv")

In [3]:
# Verificando os dados
df_ilpd.head(6)

Unnamed: 0,V1,V2,V3,V4,V5,V6,V7,V8,V9,V10,Class
0,65,Female,0.7,0.1,187,16,18,6.8,3.3,0.9,1
1,62,Male,10.9,5.5,699,64,100,7.5,3.2,0.74,1
2,62,Male,7.3,4.1,490,60,68,7.0,3.3,0.89,1
3,58,Male,1.0,0.4,182,14,20,6.8,3.4,1.0,1
4,72,Male,3.9,2.0,195,27,59,7.3,2.4,0.4,1
5,46,Male,1.8,0.7,208,19,14,7.6,4.4,1.3,1


## Análise Exploratória dos dados

In [4]:
# Amostras e Features/Características
print("Número de Amostras e Features:", df_ilpd.shape)

Número de Amostras e Features: (583, 11)


In [5]:
# Informações sobre o conjunto de dados
df_ilpd.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 583 entries, 0 to 582
Data columns (total 11 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   V1      583 non-null    int64  
 1   V2      583 non-null    object 
 2   V3      583 non-null    float64
 3   V4      583 non-null    float64
 4   V5      583 non-null    int64  
 5   V6      583 non-null    int64  
 6   V7      583 non-null    int64  
 7   V8      583 non-null    float64
 8   V9      583 non-null    float64
 9   V10     583 non-null    float64
 10  Class   583 non-null    int64  
dtypes: float64(5), int64(5), object(1)
memory usage: 50.2+ KB


In [6]:
# Visão geral dos dados
df_ilpd.describe()

Unnamed: 0,V1,V3,V4,V5,V6,V7,V8,V9,V10,Class
count,583.0,583.0,583.0,583.0,583.0,583.0,583.0,583.0,583.0,583.0
mean,44.746141,3.298799,1.486106,290.576329,80.713551,109.910806,6.48319,3.141852,0.947064,1.286449
std,16.189833,6.209522,2.808498,242.937989,182.620356,288.918529,1.085451,0.795519,0.318492,0.45249
min,4.0,0.4,0.1,63.0,10.0,10.0,2.7,0.9,0.3,1.0
25%,33.0,0.8,0.2,175.5,23.0,25.0,5.8,2.6,0.7,1.0
50%,45.0,1.0,0.3,208.0,35.0,42.0,6.6,3.1,0.947064,1.0
75%,58.0,2.6,1.3,298.0,60.5,87.0,7.2,3.8,1.1,2.0
max,90.0,75.0,19.7,2110.0,2000.0,4929.0,9.6,5.5,2.8,2.0


Note que não temos dados faltantes no nosso dataset.

In [7]:
# Valores da feature "Class"
df_ilpd["Class"].value_counts()

1    416
2    167
Name: Class, dtype: int64

## Pré-processamento do dados

In [8]:
# Criando um dicionário de mapeamento das classes
#name_to_class = {
#    1:0,
#    2:1
#}

# Substituindo os valores pelo mapeamento
#df_ilpd["Class"] = df_ilpd["Class"].map(name_to_class)

# Verificando a transformação
#df_ilpd.head(6)

In [9]:
# Tratando os dados categóricos Female e Male com Ordinal Encoding
from sklearn.preprocessing import OrdinalEncoder

In [10]:
# Ordinal Encoder
oe = OrdinalEncoder()
V2 = oe.fit_transform(df_ilpd[["V2"]]);

In [11]:
df_ilpd["V2"] = V2

# Verificando 
df_ilpd.head(5)

Unnamed: 0,V1,V2,V3,V4,V5,V6,V7,V8,V9,V10,Class
0,65,0.0,0.7,0.1,187,16,18,6.8,3.3,0.9,1
1,62,1.0,10.9,5.5,699,64,100,7.5,3.2,0.74,1
2,62,1.0,7.3,4.1,490,60,68,7.0,3.3,0.89,1
3,58,1.0,1.0,0.4,182,14,20,6.8,3.4,1.0,1
4,72,1.0,3.9,2.0,195,27,59,7.3,2.4,0.4,1


In [12]:
# Verificando os valores na coluna V2
df_ilpd["V2"].value_counts()

1.0    441
0.0    142
Name: V2, dtype: int64

In [13]:
# Biblioteca para manipulação de vetores
import numpy as np

In [14]:
# Armazenando nosso dataset em um Array
## Armazenando os labels em um array
labels = np.array(df_ilpd["Class"])

## Salvando a ordem das features
feature_list = list(df_ilpd.columns)

In [15]:
## Removendo a coluna labels do dataset original
df_ilpd = df_ilpd.drop("Class", axis=1)

## Checando
df_ilpd.head(5)

Unnamed: 0,V1,V2,V3,V4,V5,V6,V7,V8,V9,V10
0,65,0.0,0.7,0.1,187,16,18,6.8,3.3,0.9
1,62,1.0,10.9,5.5,699,64,100,7.5,3.2,0.74
2,62,1.0,7.3,4.1,490,60,68,7.0,3.3,0.89
3,58,1.0,1.0,0.4,182,14,20,6.8,3.4,1.0
4,72,1.0,3.9,2.0,195,27,59,7.3,2.4,0.4


In [16]:
## Convertendo nosso dataset para um array
data = np.array(df_ilpd)

## Sintonia de Hiperparâmetros

In [17]:
# Bibliotecas para Sintonia de Hiperparâmetros + Bibliotecas com os modelos usados
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC
from sklearn.model_selection import StratifiedKFold
from sklearn.model_selection import  RandomizedSearchCV
from scipy.stats import uniform
from scipy.stats import randint
from sklearn.metrics import f1_score, make_scorer

### Modelo SVC

In [18]:
# Definindo o tipo de validação cruzada e o numero de folds
cv_strat = StratifiedKFold(n_splits=10)

# Definindo a estrategia de score a partir da metrica f1
f1 = make_scorer(f1_score)

# Definindo os hiperparametros
distributions = dict(dict(kernel = ['sigmoid','poly', 'rbf'],
                          C = uniform(loc=1, scale=10)))

# Instanciando o modelo de classifacao
clf_SVC = SVC()

# Instanciando e modelando o Random Search com os hiperparametros e a validação definida
random_cv = RandomizedSearchCV(clf_SVC, distributions, cv = cv_strat, scoring = f1, random_state = 246, n_iter = 5)
random_cv.fit(data, labels)

RandomizedSearchCV(cv=StratifiedKFold(n_splits=10, random_state=None, shuffle=False),
                   error_score=nan,
                   estimator=SVC(C=1.0, break_ties=False, cache_size=200,
                                 class_weight=None, coef0=0.0,
                                 decision_function_shape='ovr', degree=3,
                                 gamma='scale', kernel='rbf', max_iter=-1,
                                 probability=False, random_state=None,
                                 shrinking=True, tol=0.001, verbose=False),
                   iid='deprecated', n_iter=5, n_jobs=None,
                   param_distributions={'C': <scipy.stats._distn_infrastructure.rv_frozen object at 0x7f2063407b90>,
                                        'kernel': ['sigmoid', 'poly', 'rbf']},
                   pre_dispatch='2*n_jobs', random_state=246, refit=True,
                   return_train_score=False, scoring=make_scorer(f1_score),
                   verbose=0)

In [19]:
# Resultados encontrados
print('Resumo de todos os resultados encontrados:\n\n', random_cv.cv_results_)

Resumo de todos os resultados encontrados:

 {'mean_fit_time': array([0.00709534, 0.00666368, 0.01392193, 0.01430273, 0.00691035]), 'std_fit_time': array([0.00051374, 0.00041396, 0.0022706 , 0.00376817, 0.0002858 ]), 'mean_score_time': array([0.00134909, 0.0012032 , 0.00160546, 0.00136886, 0.00127282]), 'std_score_time': array([1.94019914e-04, 6.55267083e-05, 3.32166229e-04, 1.12348147e-04,
       9.37372715e-05]), 'param_C': masked_array(data=[5.7964928843375905, 8.35800949412717,
                   6.893808746119847, 10.26616641957681,
                   5.761150364828128],
             mask=[False, False, False, False, False],
       fill_value='?',
            dtype=object), 'param_kernel': masked_array(data=['sigmoid', 'sigmoid', 'rbf', 'rbf', 'sigmoid'],
             mask=[False, False, False, False, False],
       fill_value='?',
            dtype=object), 'params': [{'C': 5.7964928843375905, 'kernel': 'sigmoid'}, {'C': 8.35800949412717, 'kernel': 'sigmoid'}, {'C': 6.89380874611

In [20]:
# Melhores resultados encontrados
print('Melhor resultado f1 (best_score_):', random_cv.best_score_)
print('\n\nMelhor configuração de hiperparâmetros (best_params_):', random_cv.best_params_)
print( '\n\nConfigurações de todos os hiperparâmetros do melhor estimado encontrado pelo RandomSearch (best_estimator_): \n', random_cv.best_estimator_)

Melhor resultado f1 (best_score_): 0.832818081808181


Melhor configuração de hiperparâmetros (best_params_): {'C': 6.893808746119847, 'kernel': 'rbf'}


Configurações de todos os hiperparâmetros do melhor estimado encontrado pelo RandomSearch (best_estimator_): 
 SVC(C=6.893808746119847, break_ties=False, cache_size=200, class_weight=None,
    coef0=0.0, decision_function_shape='ovr', degree=3, gamma='scale',
    kernel='rbf', max_iter=-1, probability=False, random_state=None,
    shrinking=True, tol=0.001, verbose=False)


### Modelo Random Forest

In [21]:
# Definindo o tipo de validacao cruzada e o numero de folds
cv_strat = StratifiedKFold(n_splits = 10)

# Definindo a estrategia de score a partir da metrica f1
f1 = make_scorer(f1_score)

# Definindo hiperparametros
distributions1 = dict(n_estimators = randint(10, 1000),
                      bootstrap = [True, False],
                      criterion = ['gini', 'entropy'])

# Instanciando o modelo de classificacao
clf_RF = RandomForestClassifier(random_state = 54)

#instanciando e modelando o grid search com os hiperparametros e a validação definidas.
random_cv1 = RandomizedSearchCV(clf_RF, distributions1, cv = cv_strat, scoring = f1, random_state = 246, n_iter = 5)
random_cv1.fit(data, labels)

RandomizedSearchCV(cv=StratifiedKFold(n_splits=10, random_state=None, shuffle=False),
                   error_score=nan,
                   estimator=RandomForestClassifier(bootstrap=True,
                                                    ccp_alpha=0.0,
                                                    class_weight=None,
                                                    criterion='gini',
                                                    max_depth=None,
                                                    max_features='auto',
                                                    max_leaf_nodes=None,
                                                    max_samples=None,
                                                    min_impurity_decrease=0.0,
                                                    min_impurity_split=None,
                                                    min_samples_leaf=1,
                                                    min_samples_s...
                     

In [22]:
# Melhores resultados encontrados
print('Melhor resultado f1 (best_score_):', random_cv1.best_score_)
print('\n\nMelhor configuração de hiperparâmetros (best_params_):', random_cv1.best_params_)
print( '\n\nConfigurações de todos os hiperparâmetros do melhor estimado encontrado pelo RandomSearch (best_estimator_): \n', random_cv1.best_estimator_)

Melhor resultado f1 (best_score_): 0.8055201589876226


Melhor configuração de hiperparâmetros (best_params_): {'bootstrap': True, 'criterion': 'entropy', 'n_estimators': 74}


Configurações de todos os hiperparâmetros do melhor estimado encontrado pelo RandomSearch (best_estimator_): 
 RandomForestClassifier(bootstrap=True, ccp_alpha=0.0, class_weight=None,
                       criterion='entropy', max_depth=None, max_features='auto',
                       max_leaf_nodes=None, max_samples=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, n_estimators=74,
                       n_jobs=None, oob_score=False, random_state=54, verbose=0,
                       warm_start=False)
