## Desafio Módulo 3

In [None]:
import pandas as pd
import numpy as np
import time

#Técnicas
from sklearn.svm import SVC
from sklearn.ensemble import RandomForestClassifier

#Strati e grid
from sklearn.model_selection import StratifiedKFold
from sklearn.model_selection import RandomizedSearchCV
from scipy.stats import uniform
from scipy.stats import randint

#para lista aleatória
from random import sample

#Métricas
from sklearn.metrics import f1_score, make_scorer

#visualização
from plotly.offline import iplot
import plotly.graph_objects as go
import cufflinks as cf

##### Carregando base

In [2]:
df = pd.read_csv('phpOJxGL9.csv')
print(df.shape)
df.head()

(583, 11)


Unnamed: 0,V1,V2,V3,V4,V5,V6,V7,V8,V9,V10,Class
0,65,Female,0.7,0.1,187,16,18,6.8,3.3,0.9,1
1,62,Male,10.9,5.5,699,64,100,7.5,3.2,0.74,1
2,62,Male,7.3,4.1,490,60,68,7.0,3.3,0.89,1
3,58,Male,1.0,0.4,182,14,20,6.8,3.4,1.0,1
4,72,Male,3.9,2.0,195,27,59,7.3,2.4,0.4,1


### Visualizando histograma das variáveis

In [10]:
df.iplot(kind='hist',
         title = 'Histograma')

### 1. O objetivo dessa base é avaliar se uma pessoa vai ser um paciente hepático ou não. A feature que determina a classe nessa base é a “V7”.

######  <p style="background-color:green;color:white;font-size:1.3em"> R1: Falso. A feature que determina a classe é "class" </p> 

### 2. Sobre as informações de número de features e amostras, marque a alternativa CORRETA.

In [3]:
df.shape

(583, 11)

######  <p style="background-color:green;color:white;font-size:1.3em"> R2: A base conta com 583 amostras e 11 features incluindo o atributo da classe. </p> 

### 3. Essa base conta com 3 atributos categóricos. Precisamos fazer o pré processamento desses atributos para que todos sejam numéricos.

In [7]:
print('Types:\n', df.dtypes)
df.head()

Types:
 V1         int64
V2        object
V3       float64
V4       float64
V5         int64
V6         int64
V7         int64
V8       float64
V9       float64
V10      float64
Class      int64
dtype: object


Unnamed: 0,V1,V2,V3,V4,V5,V6,V7,V8,V9,V10,Class
0,65,Female,0.7,0.1,187,16,18,6.8,3.3,0.9,1
1,62,Male,10.9,5.5,699,64,100,7.5,3.2,0.74,1
2,62,Male,7.3,4.1,490,60,68,7.0,3.3,0.89,1
3,58,Male,1.0,0.4,182,14,20,6.8,3.4,1.0,1
4,72,Male,3.9,2.0,195,27,59,7.3,2.4,0.4,1


######  <p style="background-color:green;color:white;font-size:1.3em"> R3: Falso. Apenas a coluna V2 é categórica (Female e Male) </p> 

#### Tratamento de dados categóricos - Mapeamento da coluna V2

In [8]:
#criando um dicionario de dados para o mapeamento
name_to_class = {
    'Female': 0,
    'Male': 1
}

#substituindo os valores categóricos pelo mapeamento
df['V2'] = df['V2'].map(name_to_class)

#check
df.head(5)

Unnamed: 0,V1,V2,V3,V4,V5,V6,V7,V8,V9,V10,Class
0,65,0,0.7,0.1,187,16,18,6.8,3.3,0.9,1
1,62,1,10.9,5.5,699,64,100,7.5,3.2,0.74,1
2,62,1,7.3,4.1,490,60,68,7.0,3.3,0.89,1
3,58,1,1.0,0.4,182,14,20,6.8,3.4,1.0,1
4,72,1,3.9,2.0,195,27,59,7.3,2.4,0.4,1


### 4. A base não tem dados faltantes.

In [9]:
df.isnull().sum()

V1       0
V2       0
V3       0
V4       0
V5       0
V6       0
V7       0
V8       0
V9       0
V10      0
Class    0
dtype: int64

######  <p style="background-color:green;color:white;font-size:1.3em"> R4: Verdadeiro </p> 

## Questões 5, 6, 7 e 8

##### Separando base em features e labels

In [11]:
# armazenando os labels em um array
labels = np.array(df['Class'])

# salvando a ordem das features
feature_list = list(df.columns)

# removendo a coluna de labels do df original
df = df.drop('Class', axis = 1)

# check
df.columns

Index(['V1', 'V2', 'V3', 'V4', 'V5', 'V6', 'V7', 'V8', 'V9', 'V10'], dtype='object')

In [12]:
# convertendo df para array
data = np.array(df)

### Parametrização SVC
    a. Bibliotecas para importação:
        i. from sklearn.ensemble import RandomForestClassifier
        ii. from sklearn.svm import SVC
        iii. from sklearn.model_selection import StratifiedKFold
        iv. from sklearn.model_selection import RandomizedSearchCV
        v. from scipy.stats import uniform
        vi. from scipy.stats import randint
        vii. from sklearn.metrics import f1_score, make_scorer
        
    b. Kfold estratificado com 10 conjuntos.
    
    c. Métrica de avaliação f1:
        i. f1 = make_scorer(f1_score)
        
    d. Parâmetro de kernel:
        i. Sigmoidal e RBF.
        
    e. Parâmetro de regularização C:
        ii. Distribuição uniforme variando entre 1 e 10
        
    f. Random_state = 42.
    
    g. Número de iterações = 5.

In [13]:
#definindo hiperparâmetros
#d. Parâmetro de kernel:
    #i. Sigmoidal e RBF
hiperparam = {'kernel':('sigmoid', 'rbf'), 
              'C': uniform(0, 10)}#uniform(0, 10)  uniform(loc=0, scale=10) 

#b. Kfold estratificado com 10 conjuntos.
cv_strat = StratifiedKFold(n_splits = 10)

#instânciando meu classificador
classifier = SVC()

#c. Métrica de avaliação f1:
 #   i. f1 = make_scorer(f1_score)
f1 = make_scorer(f1_score)

#instanciando e modelando o grid search com os hiperparametros e a validação definidas.
grid_cv = RandomizedSearchCV(classifier, hiperparam, cv = cv_strat, scoring = f1, random_state = 42, n_iter = 5)
grid_cv.fit(data, labels)

RandomizedSearchCV(cv=StratifiedKFold(n_splits=10, random_state=None, shuffle=False),
                   estimator=SVC(), n_iter=5,
                   param_distributions={'C': <scipy.stats._distn_infrastructure.rv_frozen object at 0x000001F589126C18>,
                                        'kernel': ('sigmoid', 'rbf')},
                   random_state=42, scoring=make_scorer(f1_score))

In [14]:
#vamos olhar para todos os resultados encontrados!
print('Resumo de todos os resultados encontrados:\n\n', grid_cv.cv_results_)

Resumo de todos os resultados encontrados:

 {'mean_fit_time': array([0.00398705, 0.00688341, 0.00319076, 0.0033973 , 0.00539269]), 'std_fit_time': array([0.00044586, 0.00053697, 0.0003992 , 0.00048734, 0.0004933 ]), 'mean_score_time': array([0.00100541, 0.00099623, 0.00089598, 0.00089891, 0.00099237]), 'std_score_time': array([1.52076669e-05, 4.29186555e-06, 2.98678289e-04, 2.99667079e-04,
       1.26703493e-05]), 'param_C': masked_array(data=[3.745401188473625, 1.834347898661638,
                   5.986584841970366, 4.458327528535912,
                   0.5808361216819946],
             mask=[False, False, False, False, False],
       fill_value='?',
            dtype=object), 'param_kernel': masked_array(data=['sigmoid', 'rbf', 'sigmoid', 'sigmoid', 'rbf'],
             mask=[False, False, False, False, False],
       fill_value='?',
            dtype=object), 'params': [{'C': 3.745401188473625, 'kernel': 'sigmoid'}, {'C': 1.834347898661638, 'kernel': 'rbf'}, {'C': 5.98658484197036

In [16]:
print('Melhor resultado f1 (best_score_):', grid_cv.best_score_)
print('\n\nMelhor configuração de hiperparâmetros (best_params_):', grid_cv.best_params_)

print( '\n\nConfigurações de todos os hiperparâmetros do melhor estimado encontrado pelo RandomizedSearchCV: \n', grid_cv.best_estimator_)

Melhor resultado f1 (best_score_): 0.832818081808181


Melhor configuração de hiperparâmetros (best_params_): {'C': 1.834347898661638, 'kernel': 'rbf'}


Configurações de todos os hiperparâmetros do melhor estimado encontrado pelo RandomizedSearchCV: 
 SVC(C=1.834347898661638)


### 5. Sobre o best_score_ encontrado durante a otimização do SVC, marque a alternativa CORRETA.

######  <p style="background-color:green;color:white;font-size:1.3em"> R5: O valor da f1 encontrado foi aproximadamente 0.83.  </p> 

In [18]:
print('Melhor resultado f1 (best_score_):', grid_cv.best_score_)

Melhor resultado f1 (best_score_): 0.832818081808181


### 6. O best_params_ encontrado durante a otimização do SVC indica que a melhor combinação de parâmetros usa um kernel RBF.

######  <p style="background-color:green;color:white;font-size:1.3em"> R6: Verdadeiro.  </p> 

In [19]:
print('\n\nMelhor configuração de hiperparâmetros (best_params_):', grid_cv.best_params_)



Melhor configuração de hiperparâmetros (best_params_): {'C': 1.834347898661638, 'kernel': 'rbf'}


### 7. O best_params_ encontrado durante a otimização do SVC indica que C encontrado é aproximadamente 5.

######  <p style="background-color:green;color:white;font-size:1.3em"> R7: Falso. É aproximadamento 1.83 </p> 

### 8. A melhor combinação de best_params_ encontrado durante a otimização do SVC é:

######  <p style="background-color:green;color:white;font-size:1.3em"> R8: Kernel RBF com C = 1.834. </p> 

## Questões 9, 10, 11 e 12

###  Random Forest
    a. Faça a instanciação do Random Forest fixando o random_state = 42:
        i. RandomForestClassifier(random_state = 42)

    b. Kfold estratificado com 10 conjuntos.

    c. Métrica de avaliação f1:
        i. f1 = make_scorer(f1_score)

    d. Parâmetro do número de árvores (n_estimators):
        i. Distribuição aleatória inteira de valores entre 100 e 200.

    e. Parâmetro Bootstrap:
        i. Verdadeiro e Falso.
 
    f. Parâmetro Criterion:
        i. Gini e Entropy.

    g. Random_state = 42.
        h. Número de iterações = 5.

In [20]:
#definindo hiperparâmetros
hiperparam = {'n_estimators': randint(100, 200), #sample(range(100, 200), 100)
              "bootstrap": [True, False],
              "criterion": ["gini", "entropy"]}


#b. Kfold estratificado com 10 conjuntos.
cv_strat = StratifiedKFold(n_splits = 10)

#instânciando meu classificador
classifier = RandomForestClassifier(random_state = 42)

#c. Métrica de avaliação f1:
 #   i. f1 = make_scorer(f1_score)
f1 = make_scorer(f1_score)

#instanciando e modelando o grid search com os hiperparametros e a validação definidas.
grid_cv = RandomizedSearchCV(classifier, hiperparam, cv = cv_strat, scoring = f1, random_state = 42, n_iter = 5)
grid_cv.fit(data, labels)

RandomizedSearchCV(cv=StratifiedKFold(n_splits=10, random_state=None, shuffle=False),
                   estimator=RandomForestClassifier(random_state=42), n_iter=5,
                   param_distributions={'bootstrap': [True, False],
                                        'criterion': ['gini', 'entropy'],
                                        'n_estimators': <scipy.stats._distn_infrastructure.rv_frozen object at 0x000001F58912EDD8>},
                   random_state=42, scoring=make_scorer(f1_score))

In [21]:
#vamos olhar para todos os resultados encontrados!
print('Resumo de todos os resultados encontrados:\n\n', grid_cv.cv_results_)

Resumo de todos os resultados encontrados:

 {'mean_fit_time': array([0.23174908, 0.16443772, 0.22001247, 0.16948035, 0.24401445]), 'std_fit_time': array([0.02440545, 0.01731156, 0.06899941, 0.00698406, 0.02657929]), 'mean_score_time': array([0.011269  , 0.0093724 , 0.01386657, 0.00996327, 0.01217237]), 'std_score_time': array([0.00167287, 0.00048855, 0.00587413, 0.00117652, 0.00096831]), 'param_bootstrap': masked_array(data=[True, True, True, True, False],
             mask=[False, False, False, False, False],
       fill_value='?',
            dtype=object), 'param_criterion': masked_array(data=['entropy', 'gini', 'gini', 'gini', 'gini'],
             mask=[False, False, False, False, False],
       fill_value='?',
            dtype=object), 'param_n_estimators': masked_array(data=[192, 171, 182, 174, 199],
             mask=[False, False, False, False, False],
       fill_value='?',
            dtype=object), 'params': [{'bootstrap': True, 'criterion': 'entropy', 'n_estimators': 192

In [22]:
print('Melhor resultado f1:', grid_cv.best_score_)
print('\n\nMelhor configuração de hiperparâmetros:', grid_cv.best_params_)

print( '\n\nConfigurações de todos os hiperparâmetros do melhor estimado encontrado pelo GridSearch: \n', grid_cv.best_estimator_)

Melhor resultado f1: 0.8019647527623143


Melhor configuração de hiperparâmetros: {'bootstrap': True, 'criterion': 'gini', 'n_estimators': 171}


Configurações de todos os hiperparâmetros do melhor estimado encontrado pelo GridSearch: 
 RandomForestClassifier(n_estimators=171, random_state=42)


### 9. Sobre o best_score_ encontrado durante a otimização do Random Forest, marque a alternativa CORRETA.

In [23]:
print('Melhor resultado f1:', grid_cv.best_score_)

Melhor resultado f1: 0.8019647527623143


######  <p style="background-color:green;color:white;font-size:1.3em"> R9: O valor da f1 encontrado foi aproximadamente 0.80. </p> 

### 10. O best_params_ encontrado durante a otimização do Random Forest indica que a melhor combinação de parâmetros usa Boostrap True.

In [24]:
print('\n\nMelhor configuração de hiperparâmetros:', grid_cv.best_params_)



Melhor configuração de hiperparâmetros: {'bootstrap': True, 'criterion': 'gini', 'n_estimators': 171}


######  <p style="background-color:green;color:white;font-size:1.3em"> R10: Verdadeiro --- 'bootstrap': True </p> 

### 11. O best_params_ encontrado durante a otimização do Random Forest indica que a melhor combinação de parâmetros usa Criterion Entropy.

In [25]:
print('\n\nMelhor configuração de hiperparâmetros:', grid_cv.best_params_)



Melhor configuração de hiperparâmetros: {'bootstrap': True, 'criterion': 'gini', 'n_estimators': 171}


######  <p style="background-color:green;color:white;font-size:1.3em"> R11: Falso --- 'criterion': 'gini'  </p> 

### 12. O best_params_ encontrado durante a otimização do Random Forest indica que a melhor combinação de parâmetros conta com quantos estimadores?

In [27]:
print('\n\nMelhor configuração de hiperparâmetros:', grid_cv.best_params_)



Melhor configuração de hiperparâmetros: {'bootstrap': True, 'criterion': 'gini', 'n_estimators': 171}


######  <p style="background-color:green;color:white;font-size:1.3em"> R12: n_estimators: 171   </p> 

### 13. Suponha que nossas duas opções para solução do problema sejam o SVC e o Random Forest que foram modelados anteriormente. Além disso, não é possível rodar o experimento novamente com outros parâmetros. Marque a alternativa que justifica de forma CORRETA a escolha do modelo mais adequado.

######  <p style="background-color:green;color:white;font-size:1.3em"> R13: O SVC é o modelo que deveria ser escolhido já que ele apresenta uma f1 maior.  </p> 

### 14. Como os dois modelos apresentaram resultados semelhantes de f1, e considerando apenas essa métrica, podemos entender que a capacidade de generalização dos modelos deve ser semelhante na prática.

######  <p style="background-color:green;color:white;font-size:1.3em"> R14: Verdadeiro.  </p> 

### 15. Os resultados encontrados do random search para o SVC e o Random Forest representam a melhor configuração possível desses modelos para solução do problema proposto.