# Desafio 3
## Enunciado
1. Baixar o arquivo com os dados no link https://www.openml.org/d/1480. O
formato do arquivo deve ser CSV.
2. Obter informações relativas a número de features e amostras.
3. Verificar a necessidade de tratamento de dados categóricos e valores faltantes.
4. Modelar o SVC e o Random Forest Classifier, com Random Search para sintonia de hiperparâmetros e validação cruzada estratificada, usando as
parametrizações abaixo
5. Parametrização SVC:
* a. Bibliotecas para importação:  
    i. from sklearn.ensemble import RandomForestClassifier  
    ii. from sklearn.svm import SVC  
    iii. from sklearn.model_selection import StratifiedKFold  
    iv. from sklearn.model_selection import RandomizedSearchCV  
    v. from scipy.stats import uniform  
    vi. from scipy.stats import randint  
    vii. from sklearn.metrics import f1_score, make_scorer
* b. Kfold estratificado com 10 conjuntos.
* c. Métrica de avaliação f1:  
    i. f1 = make_scorer(f1_score)
* d. Parâmetro de kernel:  
    i. Sigmoidal e RBF.  
* e. Parâmetro de regularização C:  
    i. Distribuição uniforme variando entre 1 e 10
* f. Random_state = 42.
* g. Número de iterações = 5.
6. Avaliar o resultado da modelagem usando as métricas:
* a. best_score_
* b. best_params_
* c. best_estimator_
7. Repetir o processo usando o Random Forest:
* a. Faça a instanciação do Random Forest fixando o random_state = 42:  
    i. RandomForestClassifier(random_state = 42)
* b. Kfold estratificado com 10 conjuntos.
* c. Métrica de avaliação f1:  
    i. f1 = make_scorer(f1_score)
* d. Parâmetro do número de árvores:  
    i. Distribuição aleatória inteira de valores entre 100 e 200.
* e. Parâmetro Bootstrap:  
    i. Verdadeiro e Falso.
* f. Parâmetro Criterion:  
    i. Gini e Entropy.
* g. Random_state = 42.
* h. Número de iterações = 5.
8. Avaliar o resultado da modelagem usando as métricas:
* a. best_score_
* b. best_params_
* c. best_estimator_

**Dataset**: Indian Liver Patient Dataset  
**Source**: [OpenML](https://www.openml.org/d/1480)

## Configurações iniciais:


In [None]:
import pandas as pd
import numpy as np

patients = pd.read_csv('https://raw.githubusercontent.com/victoraccete/ML-bootcamp/master/Mod_3/datasets/patient.csv')
print(patients.columns) 
patients.head()

Index(['V1', 'V2', 'V3', 'V4', 'V5', 'V6', 'V7', 'V8', 'V9', 'V10', 'Class'], dtype='object')


Unnamed: 0,V1,V2,V3,V4,V5,V6,V7,V8,V9,V10,Class
0,65,Female,0.7,0.1,187,16,18,6.8,3.3,0.9,1
1,62,Male,10.9,5.5,699,64,100,7.5,3.2,0.74,1
2,62,Male,7.3,4.1,490,60,68,7.0,3.3,0.89,1
3,58,Male,1.0,0.4,182,14,20,6.8,3.4,1.0,1
4,72,Male,3.9,2.0,195,27,59,7.3,2.4,0.4,1


V1. Age of the patient. Any patient whose age exceeded 89 is listed as being of age "90".  
V2. Gender of the patient  
V3. Total Bilirubin  
V4. Direct Bilirubin  
V5. Alkphos Alkaline Phosphatase  
V6. Sgpt Alanine Aminotransferase  
V7. Sgot Aspartate Aminotransferase  
V8. Total Proteins  
V9. Albumin  
V10. A/G Ratio Albumin and Globulin Ratio  

## Perguntas
### Pergunta 1
O objetivo dessa base é avaliar se uma pessoa vai ser um paciente hepático ou não. A feature que determina a classe nessa base é a “V7”.

---

( ) Falso  
( ) Verdadeiro

**R: Falso, a feature é a coluna 'class'.**

### Pergunta 2
Sobre as informações de número de features e amostras, marque a alternativa CORRETA.

---

( ) A base conta com 583 features e 11 amostras excluindo o atributo da classe.  
( ) A base conta com 583 amostras e 11 features incluindo o atributo da classe.  
( ) A base conta com 583 features e 11 amostras incluindo o atributo da classe.  
( ) A base conta com 583 amostras e 11 features excluindo o atributo da classe.

In [None]:
patients.shape

(583, 11)

**R: A base conta com 583 amostras e 11 features incluindo o atributo da classe.**

### Pergunta 3
Essa base conta com 3 atributos categóricos. Precisamos fazer o pré processamento desses atributos para que todos sejam numéricos.

---

( ) Verdadeiro  
( ) Falso

In [None]:
patients.dtypes

V1         int64
V2        object
V3       float64
V4       float64
V5         int64
V6         int64
V7         int64
V8       float64
V9       float64
V10      float64
Class      int64
dtype: object

**R: Falso. Não há 3 atributos categóricos. Há apenas V2 (sexo) e Class, que apesar de estar categorizado como 0 ou 1, é categórico.**

### Pergunta 4
A base não tem dados faltantes.

---

( ) Falso  
( ) Verdadeiro

In [None]:
patients.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 583 entries, 0 to 582
Data columns (total 11 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   V1      583 non-null    int64  
 1   V2      583 non-null    object 
 2   V3      583 non-null    float64
 3   V4      583 non-null    float64
 4   V5      583 non-null    int64  
 5   V6      583 non-null    int64  
 6   V7      583 non-null    int64  
 7   V8      583 non-null    float64
 8   V9      583 non-null    float64
 9   V10     583 non-null    float64
 10  Class   583 non-null    int64  
dtypes: float64(5), int64(5), object(1)
memory usage: 50.2+ KB


**R: Verdadeiro. Podemos ver que temos 583 amostras e em todas as colunas temos 583 valores não-nulos.**

### Pergunta 5
Sobre o best_score_ encontrado durante a otimização do SVC, marque a alternativa CORRETA.

---

( ) O valor da f1 encontrado foi aproximadamente 0.76.  
( ) O valor da f1 encontrado foi aproximadamente 0.73.  
( ) O valor da f1 encontrado foi aproximadamente 0.93.  
( ) O valor da f1 encontrado foi aproximadamente 0.83.

Fazendo o pre-processamento dos dados:

In [None]:
patients['V2'] = patients['V2'].map({'Female': 0, 'Male': 1})

patients.head()

Unnamed: 0,V1,V2,V3,V4,V5,V6,V7,V8,V9,V10,Class
0,65,0,0.7,0.1,187,16,18,6.8,3.3,0.9,1
1,62,1,10.9,5.5,699,64,100,7.5,3.2,0.74,1
2,62,1,7.3,4.1,490,60,68,7.0,3.3,0.89,1
3,58,1,1.0,0.4,182,14,20,6.8,3.4,1.0,1
4,72,1,3.9,2.0,195,27,59,7.3,2.4,0.4,1


In [None]:
# .values returns a numpy array
features = patients.drop(labels=['Class'], axis=1).values
labels = patients.iloc[:, -1].values
print(features.shape)
print(labels.shape)

(583, 10)
(583,)


In [None]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC
from sklearn.model_selection import StratifiedKFold
from sklearn.model_selection import RandomizedSearchCV
from scipy.stats import uniform
from scipy.stats import randint
from sklearn.metrics import f1_score, make_scorer

Criando o SVC de acordo com o enunciado:

In [None]:
stratified_cv = StratifiedKFold(n_splits = 10)
f1 = make_scorer(f1_score)

distributions = dict(
    kernel = ['sigmoid', 'rbf'], 
    C = uniform(loc=0, scale=10),
    )

svc_clf = SVC()

svc_random_search = RandomizedSearchCV(svc_clf, distributions, cv = stratified_cv, 
                               scoring = f1, random_state = 42, n_iter = 5)
svc_random_search.fit(features, labels)

RandomizedSearchCV(cv=StratifiedKFold(n_splits=10, random_state=None, shuffle=False),
                   error_score=nan,
                   estimator=SVC(C=1.0, break_ties=False, cache_size=200,
                                 class_weight=None, coef0=0.0,
                                 decision_function_shape='ovr', degree=3,
                                 gamma='scale', kernel='rbf', max_iter=-1,
                                 probability=False, random_state=None,
                                 shrinking=True, tol=0.001, verbose=False),
                   iid='deprecated', n_iter=5, n_jobs=None,
                   param_distributions={'C': <scipy.stats._distn_infrastructure.rv_frozen object at 0x7fae8c7b4d68>,
                                        'kernel': ['sigmoid', 'rbf']},
                   pre_dispatch='2*n_jobs', random_state=42, refit=True,
                   return_train_score=False, scoring=make_scorer(f1_score),
                   verbose=0)

In [None]:
print('R: {0:.2f}'.format(svc_random_search.best_score_))

R: 0.83


**R: 0.83**

### Pergunta 6
O best_params_ encontrado durante a otimização do SVC indica que a melhor combinação de parâmetros usa um kernel RBF.  

---
( ) Falso  
( ) Verdadeiro

In [None]:
svc_random_search.best_params_

{'C': 1.834347898661638, 'kernel': 'rbf'}

**R Verdadeiro.**

### Pergunta 7
O best_params_ encontrado durante a otimização do SVC indica que C encontrado é aproximadamente 5.

---
( ) Falso  
( ) Verdadeiro

In [None]:
svc_random_search.best_params_

{'C': 1.834347898661638, 'kernel': 'rbf'}

**R: Falso. O C encontrado é de aproximadaemnte 1.834**

### Pergunta 8
A melhor combinação de best_params_ encontrado durante a otimização do SVC é:

--- 
a) Kernel RBF com C = 4.979.  
b) Kernel Sigmoid com C = 1.834.  
c) Kernel RBF com C = 1.834.  
d) Kernel Sigmoid com C = 4.979.

In [None]:
svc_random_search.best_params_

{'C': 1.834347898661638, 'kernel': 'rbf'}

**R: Kernel RBF com C = 1.834**

### Pergunta 9
Sobre o best_score_ encontrado durante a otimização do Random Forest, marque a alternativa CORRETA.

--- 
( ) O valor da f1 encontrado foi aproximadamente 0.83.  
( ) O valor da f1 encontrado foi aproximadamente 0.80.  
( ) O valor da f1 encontrado foi aproximadamente 0.90.  
( ) O valor da f1 encontrado foi aproximadamente 0.78.

Criando o Random Forest Classifier de acordo com as especificações do enunciado:

In [None]:
stratified_cv = StratifiedKFold(n_splits=10)
f1 = make_scorer(f1_score)
distributions = dict(n_estimators = randint(100, 200),
                      bootstrap = [True, False],
                      criterion = ['gini', 'entropy'])

rf_clf = RandomForestClassifier(random_state=42)

rf_random_search = RandomizedSearchCV(rf_clf, distributions, cv=stratified_cv, 
                               scoring=f1, random_state=42, n_iter=5)
rf_random_search.fit(features, labels)

RandomizedSearchCV(cv=StratifiedKFold(n_splits=10, random_state=None, shuffle=False),
                   error_score=nan,
                   estimator=RandomForestClassifier(bootstrap=True,
                                                    ccp_alpha=0.0,
                                                    class_weight=None,
                                                    criterion='gini',
                                                    max_depth=None,
                                                    max_features='auto',
                                                    max_leaf_nodes=None,
                                                    max_samples=None,
                                                    min_impurity_decrease=0.0,
                                                    min_impurity_split=None,
                                                    min_samples_leaf=1,
                                                    min_samples_s...
                     

In [None]:
rf_random_search.best_score_

0.8019647527623143

**R: 0.80**

### Pergunta 10
O best_params_ encontrado durante a otimização do Random Forest indica que a melhor combinação de parâmetros usa Boostrap True.

---
( ) Falso  
( ) Verdadeiro

In [None]:
rf_random_search.best_params_

{'bootstrap': True, 'criterion': 'gini', 'n_estimators': 171}

**R: Verdadeiro.**

### Pergunta 11
O best_params_ encontrado durante a otimização do Random Forest indica que a melhor combinação de parâmetros usa Criterion Entropy.

---
( ) Verdadeiro  
( ) Falso

**R: Falso. Ele indica que é 'Gini'**

### Pergunta 12
O best_params_ encontrado durante a otimização do Random Forest indica que a melhor combinação de parâmetros conta com quantos estimadores?

---
( ) n_estimators: 179  
( ) n_estimators: 171  
( ) n_estimators: 181  
( ) n_estimators: 189

**R: 171**

### Pergunta 13
Suponha que nossas duas opções para solução do problema sejam o SVC e o Random Forest que foram modelados anteriormente. Além disso, não é possível rodar o experimento novamente com outros parâmetros. Marque a alternativa que justifica de forma CORRETA a escolha do modelo mais adequado.

---
**(X) O SVC é o modelo que deveria ser escolhido já que ele apresenta uma f1 maior.**   
() O Random Forest é o modelo que deveria ser escolhido já que ele apresenta uma f1 menor.  
() O SVC deveria ser escolhido já que ele usa um kernel melhor.  
() O Random Forest deveria ser escolhido já que ele conta com um número alto de estimadores.

### Pergunta 14
Como os dois modelos apresentaram resultados semelhantes de f1, e considerando apenas essa métrica, podemos entender que a capacidade de generalização dos modelos deve ser semelhante na prática.

---
**(X) Verdadeiro**  
() Falso

### Pergunta 15
Os resultados encontrados do random search para o SVC e o Random Forest representam a melhor configuração possível desses modelos para solução do problema proposto.

---
**(X) Falso**    
() Verdadeiro