# Projeto: Seleção de Modelos de Machine Learning para Interpretação de Dados de Pacientes
<hr>

#### Explorando dados para analisar dataset sobre pacientes diganosticados ou não com doenças hepáticas <br>

In [1]:
import pandas as pd
import numpy as np
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC
from sklearn.model_selection import StratifiedKFold
from sklearn.model_selection import RandomizedSearchCV
from scipy.stats import uniform
from scipy.stats import randint
from sklearn.metrics import f1_score, make_scorer

In [2]:
df = pd.read_csv('dataset.csv')

> #### Iniciando exploração dos dados

In [3]:
df.head()

Unnamed: 0,id,V1,V2,V3,V4,V5,V6,V7,V8,V9,V10,Class
0,1,65,Female,0.7,0.1,187,16,18,6.8,3.3,0.9,1
1,2,62,Male,10.9,5.5,699,64,100,7.5,3.2,0.74,1
2,3,62,Male,7.3,4.1,490,60,68,7.0,3.3,0.89,1
3,4,58,Male,1.0,0.4,182,14,20,6.8,3.4,1.0,1
4,5,72,Male,3.9,2.0,195,27,59,7.3,2.4,0.4,1


In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 583 entries, 0 to 582
Data columns (total 12 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   id      583 non-null    int64  
 1   V1      583 non-null    int64  
 2   V2      583 non-null    object 
 3   V3      583 non-null    float64
 4   V4      583 non-null    float64
 5   V5      583 non-null    int64  
 6   V6      583 non-null    int64  
 7   V7      583 non-null    int64  
 8   V8      583 non-null    float64
 9   V9      583 non-null    float64
 10  V10     583 non-null    float64
 11  Class   583 non-null    int64  
dtypes: float64(5), int64(6), object(1)
memory usage: 54.8+ KB


In [5]:
df.shape

(583, 12)

> #### Respondendo às perguntas

### Pergunta 1:
O objetivo dessa base é avaliar se uma pessoa vai ser um paciente hepático ou não. A feature que determina a classe nessa base é a “V7”.

In [6]:
df['V7'].head()

Unnamed: 0,V7
0,18
1,100
2,68
3,20
4,59


### Pergunta 2:
Sobre as informações de número de features e amostras, marque a alternativa CORRETA.

In [7]:
df.shape

(583, 12)

A base conta com 583 amostras e 11 features incluindo o atributo da classe.

### Pergunta 3:
Essa base conta com 3 atributos categóricos. Precisamos fazer o pré processamento desses atributos para que todos sejam numéricos.

In [8]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 583 entries, 0 to 582
Data columns (total 12 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   id      583 non-null    int64  
 1   V1      583 non-null    int64  
 2   V2      583 non-null    object 
 3   V3      583 non-null    float64
 4   V4      583 non-null    float64
 5   V5      583 non-null    int64  
 6   V6      583 non-null    int64  
 7   V7      583 non-null    int64  
 8   V8      583 non-null    float64
 9   V9      583 non-null    float64
 10  V10     583 non-null    float64
 11  Class   583 non-null    int64  
dtypes: float64(5), int64(6), object(1)
memory usage: 54.8+ KB


Falso

### Pergunta 4:
A base não tem dados faltantes.


In [9]:
df.isna().sum()

Unnamed: 0,0
id,0
V1,0
V2,0
V3,0
V4,0
V5,0
V6,0
V7,0
V8,0
V9,0


Verdadeiro

### Pergunta 5:
Sobre o best_score_ encontrado durante a otimização do SVC, marque a alternativa CORRETA.

In [10]:
# Realizando antes o mapeamento do dataset solicitado no enunciado do desafio
def map_gender(df, V2):
    df[V2] = df[V2].replace({'Female': 0, 'Male': 1})
    return df
df = map_gender(df, 'V2')


  df[V2] = df[V2].replace({'Female': 0, 'Male': 1})


In [11]:
X = df.drop(columns=['id', 'Class'])
y = df['Class']

cv = StratifiedKFold(n_splits=10)

# f1
f1 = make_scorer(f1_score)

# Parametro do kernel
param_dist = {
    'kernel': ['sigmoid', 'poly', 'rbf'],
    'C': uniform(1, 10)
}

# SVC
svc = SVC(random_state=5762)

random_search = RandomizedSearchCV(
    svc,
    param_distributions=param_dist,
    n_iter=5,
    scoring=f1,
    cv=cv,
    random_state=5762
)

random_search.fit(X, y)

# Resultados
print("O valor da f1 encontrado foi aproximadamente", round(random_search.best_score_,2))
print("Melhores parâmetros:", random_search.best_params_)
print("Melhor estimador:", random_search.best_estimator_)

O valor da f1 encontrado foi aproximadamente 0.83
Melhores parâmetros: {'C': 3.996689355015553, 'kernel': 'poly'}
Melhor estimador: SVC(C=3.996689355015553, kernel='poly', random_state=5762)


### Pergunta 6:
O best_params_ encontrado durante a otimização do SVC indica que a melhor combinação de parâmetros usa um kernel RBF.

Falso

### Pergunta 7:
O best_params_ encontrado durante a otimização do SVC indica que C encontrado é aproximadamente 5.

Falso

### Pergunta 8:
A melhor combinação de best_params_ encontrado durante a otimização do SVC é:

Kernel Poly com C = 3.996

### Pergunta 9:
Sobre o best_score_ encontrado durante a otimização do Random Forest, marque a alternativa CORRETA.

In [12]:
X = df.drop(columns=['id', 'Class'])
y = df['Class']

cv = StratifiedKFold(n_splits=10)

# f1
f1 = make_scorer(f1_score)

# Parametro do kernel
param_dist = {
    'n_estimators': randint(10, 1000),
    'bootstrap': [True, False],
    'criterion': ['gini', 'entropy']
}

# SVC
rf = RandomForestClassifier(random_state = 5762)

random_search = RandomizedSearchCV(
    rf,
    param_distributions=param_dist,
    n_iter=5,
    scoring=f1,
    cv=cv,
    random_state=5762
)

random_search.fit(X, y)

# Resultados
print("O valor da f1 encontrado foi aproximadamente", round(random_search.best_score_,2))
print("Melhores parâmetros:", random_search.best_params_)
print("Melhor estimador:", random_search.best_estimator_)

O valor da f1 encontrado foi aproximadamente 0.8
Melhores parâmetros: {'bootstrap': True, 'criterion': 'gini', 'n_estimators': 488}
Melhor estimador: RandomForestClassifier(n_estimators=488, random_state=5762)


### Pergunta 10:
O best_params_ encontrado durante a otimização do Random Forest indica que a melhor combinação de parâmetros usa Boostrap True.


Verdadeiro

### Pergunta 11:
O best_params_ encontrado durante a otimização do Random Forest indica que a melhor combinação de parâmetros usa Criterion Entropy.


Falso

### Pergunta 12:
O best_params_ encontrado durante a otimização do Random Forest indica que a melhor combinação de parâmetros conta com quantos estimadores?


n_estimators: 488

### Pergunta 13:
Suponha que nossas duas opções para solução do problema sejam o SVC e o Random Forest que foram modelados anteriormente. Além disso, não é possível rodar o experimento novamente com outros parâmetros. Marque a alternativa que justifica de forma CORRETA a escolha do modelo mais adequado.

  O SVC é o modelo que deveria ser escolhido já que ele apresenta uma f1 maior.


### Pergunta 14:
 Como os dois modelos apresentaram resultados semelhantes de f1, podemos entender que a capacidade de generalização dos modelos deve ser semelhante na prática. Nesse caso, não faz sentido a análise de outras métricas para validação dos modelos.

Falso

### Pergunta 15:
Os modelos treinados apresentam resultados de f1 semelhantes por se tratarem de modelos com estrutura de implementação semelhantes, são ambos modelos de árvores de decisão. Nesse caso, sempre que treinarmos um modelo de árvore, a tendência é que o resultado de f1 seja próximo aos encontrados nesse desafio.


Falso