# Escolher um Modelo de Machine Learning

No **Scikit-Learn**, os modelos de ML são chamados como *estimators*:

* `Classification Estimator` → prever uma **categoria**.

* `Regression Estimator` → prever um **número**.

## Qual *estimator* escolher?

![Logo](./img/ml_map.svg)
[Link p/ imagem interativa](https://scikit-learn.org/stable/machine_learning_map.html).

---

## Modelos de Regressão 

In [1]:
import pandas as pd
from sklearn.datasets import fetch_california_housing # importa dataset "desconstruído"

california_housing = fetch_california_housing() # atribuí dataset "desconstruído" à um dicionário

california_housing # visualiza dicionário que contém o dataset "desconstruído"

{'data': array([[   8.3252    ,   41.        ,    6.98412698, ...,    2.55555556,
           37.88      , -122.23      ],
        [   8.3014    ,   21.        ,    6.23813708, ...,    2.10984183,
           37.86      , -122.22      ],
        [   7.2574    ,   52.        ,    8.28813559, ...,    2.80225989,
           37.85      , -122.24      ],
        ...,
        [   1.7       ,   17.        ,    5.20554273, ...,    2.3256351 ,
           39.43      , -121.22      ],
        [   1.8672    ,   18.        ,    5.32951289, ...,    2.12320917,
           39.43      , -121.32      ],
        [   2.3886    ,   16.        ,    5.25471698, ...,    2.61698113,
           39.37      , -121.24      ]], shape=(20640, 8)),
 'target': array([4.526, 3.585, 3.521, ..., 0.923, 0.847, 0.894], shape=(20640,)),
 'frame': None,
 'target_names': ['MedHouseVal'],
 'feature_names': ['MedInc',
  'HouseAge',
  'AveRooms',
  'AveBedrms',
  'Population',
  'AveOccup',
  'Latitude',
  'Longitude'],
 'DESCR': 

In [2]:
# Controi as fetures em um df
california_housing_df = pd.DataFrame(california_housing["data"], columns = california_housing["feature_names"])
# Uni ao df o target
california_housing_df["MedHouseVal"] = california_housing["target"]

california_housing_df.head() # visualiza o df (dataset construído)

Unnamed: 0,MedInc,HouseAge,AveRooms,AveBedrms,Population,AveOccup,Latitude,Longitude,MedHouseVal
0,8.3252,41.0,6.984127,1.02381,322.0,2.555556,37.88,-122.23,4.526
1,8.3014,21.0,6.238137,0.97188,2401.0,2.109842,37.86,-122.22,3.585
2,7.2574,52.0,8.288136,1.073446,496.0,2.80226,37.85,-122.24,3.521
3,5.6431,52.0,5.817352,1.073059,558.0,2.547945,37.85,-122.25,3.413
4,3.8462,52.0,6.281853,1.081081,565.0,2.181467,37.85,-122.25,3.422


In [3]:
# Analizar df
print(california_housing_df.info())
print(california_housing_df.isna().sum())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20640 entries, 0 to 20639
Data columns (total 9 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   MedInc       20640 non-null  float64
 1   HouseAge     20640 non-null  float64
 2   AveRooms     20640 non-null  float64
 3   AveBedrms    20640 non-null  float64
 4   Population   20640 non-null  float64
 5   AveOccup     20640 non-null  float64
 6   Latitude     20640 non-null  float64
 7   Longitude    20640 non-null  float64
 8   MedHouseVal  20640 non-null  float64
dtypes: float64(9)
memory usage: 1.4 MB
None
MedInc         0
HouseAge       0
AveRooms       0
AveBedrms      0
Population     0
AveOccup       0
Latitude       0
Longitude      0
MedHouseVal    0
dtype: int64


In [4]:
import numpy as np 
np.random.seed(42) # garante uniformidade aos geradores NumPy

# Divide os dados (df) em features (x) e target (y)
x = california_housing_df.drop("MedHouseVal", axis = 1)
y = california_housing_df["MedHouseVal"]

from sklearn.model_selection import train_test_split

# Divide novamente os dados (x e y) em treino e teste
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size = 0.2)

## Ridge Regression

[Documentação](https://scikit-learn.org/stable/modules/linear_model.html#ridge-regression).

In [5]:
from sklearn.linear_model import Ridge # importa o modelo de regressão Ridge

model = Ridge() # instancia o modelo com hiper-parâmetros padrões

# O método ajusta o modelo aos dados de treino x_train (variáveis independentes) e y_train (variável alvo)
model.fit(x_train, y_train)

# Retornam o coeficiente de determinação (R²)
# O R² mostra quanto da variação do y é explicada pelo modelo
print(f"R² do treino: {model.score(x_train, y_train) * 100:.2f}%")
print(f"R² do teste: {model.score(x_test, y_test) * 100:.2f}%")

R² do treino: 61.26%
R² do teste: 57.59%


### Como o modelo funciona?

A **Regressão Ridge** é uma versão da regressão linear que incorpora regularização para evitar overfitting. Enquanto a regressão linear busca a melhor reta que explica a relação entre variáveis, ela pode se ajustar demais aos dados de treino, o que prejudica a performance com dados novos.

Para resolver isso, a Ridge aplica a penalização `L2`, que adiciona uma punição ao uso de coeficientes muito altos. Isso faz com que o modelo não apenas minimize o erro, mas também mantenha os coeficientes controlados, resultando em previsões mais estáveis e generalizáveis.

Essa penalização é regulada pelo parâmetro `alpha`: quanto maior, mais o modelo restringe os coeficientes.

No exemplo citado, o modelo Ridge é treinado com dados de treino e avaliado com `score()`, que retorna o `R²`, indicando o quanto da variação da variável alvo é explicada pelo modelo.

## Ensembles

[Documentação](https://scikit-learn.org/stable/modules/ensemble.html#).

* ### Random Forest Regressor 

[Documentação](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestRegressor.html#sklearn.ensemble.RandomForestRegressor).

In [9]:
# Importa modelo supervisionado para regressão, baseado no conjunto (ensemble) de várias árvores de decisão
from sklearn.ensemble import RandomForestRegressor

# Instancia modelo com os hiper-parâmetros padrões
# Cria vários decision trees e faz a média dos resultados p/ melhorar a performance e reduzir overfitting
model = RandomForestRegressor()

model.fit(x_train, y_train) # treina o modelo com a partir dos dados de treino

# Imprime o R² do modelo 
print(f"R² do modelo 'Random Forest Regressor' no treino: {model.score(x_train, y_train):.2f}")
print(f"R² do modelo 'Random Forest Regressor' no teste: {model.score(x_test, y_test):.2f}") 

R² do modelo 'Random Forest Regressor' no treino: 0.97
R² do modelo 'Random Forest Regressor' no teste: 0.81


### Como o modelo funciona?

O **Random Forest Regressor** é um modelo de aprendizado de máquina supervisionado utilizado para prever valores numéricos. Ele funciona criando várias **árvores de decisão** independentes, onde cada uma é treinada com subconjuntos aleatórios dos dados. Essas árvores fazem previsões separadas, e o modelo final calcula a média das respostas para gerar uma previsão mais estável e precisa. Essa abordagem reduz o risco de overfitting comum em árvores individuais.

Para avaliar a performance do modelo, uma das métricas mais usadas é o `R²` (coeficiente de determinação). Ele indica o quanto da variação dos dados reais é explicada pelas previsões do modelo. Um R² igual a 1 representa uma previsão perfeita; um valor próximo de 0 indica que o modelo não consegue explicar os dados melhor do que simplesmente usar a média; e valores negativos significam que o modelo está pior do que uma simples média.

## Modelos de Classificação

In [11]:
heart_disease_df = pd.read_csv("./dataset/heart-disease.csv") # lê o CSV e converte-o em um df
heart_disease_df.head() # visualiza as 5 primeiras linhas do df

Unnamed: 0,age,sex,cp,trestbps,chol,fbs,restecg,thalach,exang,oldpeak,slope,ca,thal,target
0,63,1,3,145,233,1,0,150,0,2.3,0,0,1,1
1,37,1,2,130,250,0,1,187,0,3.5,0,0,2,1
2,41,0,1,130,204,0,0,172,0,1.4,2,0,2,1
3,56,1,1,120,236,0,1,178,0,0.8,2,0,2,1
4,57,0,0,120,354,0,1,163,1,0.6,2,0,2,1


In [13]:
# Divide os dados em features (x) e target (y)
x = heart_disease_df.drop("target", axis = 1)
y = heart_disease_df["target"]

In [15]:
# Divide as features e target em treino e teste
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size = 0.2)

## Linear SCV 

[Documentação](https://scikit-learn.org/stable/modules/generated/sklearn.svm.LinearSVC.html#sklearn.svm.LinearSVC).

In [17]:
# Importa o modelo "LinearSVC" que contém um kernel linear
from sklearn.svm import LinearSVC

clf = LinearSVC() # instancia o modelo com os hiper/parâmetros padrões

clf.fit(x_train, y_train) # treina o modelo com os dados de treino

# Calcula e exibe a acurácia do modelo
print(f"Acurácia do modelo 'LinearSVC': {clf.score(x_test, y_test) * 100:.2f}%")

Acurácia do modelo 'LinearSVC': 93.44%


### Como o modelo funciona?

O modelo **LinearSVC** é uma versão linear do algoritmo de **Support Vector Machine (SVM)**, usado para classificar dados em duas ou mais categorias. Ele funciona encontrando uma linha (ou plano, no caso de mais dimensões) que separa as `classes` da melhor forma possível, ou seja, com a maior margem entre os pontos de uma classe e da outra. Essa margem é como um "colchão de segurança" entre os dados, ajudando o modelo a ser mais robusto e generalizar melhor para novos exemplos.

Durante o treinamento, o **LinearSVC** busca esse limite de separação ideal analisando os dados de entrada `x_train` e os rótulos `y_train`. Depois, ao receber novos dados, ele usa essa fronteira para prever a qual classe cada exemplo pertence.

Por ser linear, ele é mais rápido e funciona bem quando os dados são separáveis por uma linha (ou plano), especialmente quando os dados estão previamente padronizados.

<details>
    <summary>Mais detalhes 👇</summary>
    <h3>O que são <b>classes</b>?</h3>
    <p>Classes são os possíveis "resultados" que o modelo pode atribuir a uma entrada.<br>Elas são definidas com base nos rótulos <code>y_train</code> que você fornece durante o treinamento.</p>
    <h3>O que é <b>generalizar</b>?</h3>
    <p>Significa que o modelo consegue fazer boas previsões em dados novos. Porém um modelo que memoriza os dados de treino em vez de aprender padrões não generaliza bem. Ele acerta muito no treino, mas erra bastante nos testes — isso se chama <code>overfitting</code></p>
</details>

* ## Random Forest Classifier

[Documentação](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html#sklearn.ensemble.RandomForestClassifier).

In [20]:
from sklearn.ensemble import RandomForestClassifier # importa o modelo "RandomForestClassifier"

clf = RandomForestClassifier() # instancia o modelo com os hiper-parâmetros padrões

clf.fit(x_train, y_train) # treina o modelo com os dados de entrada (x_train) e os rótulos (y_train)

# Avalia o desempenho do modelo com os dados de teste e imprime sua acurácia em %
print(f"Acurácia do modelo 'Random Forest Classifier': {clf.score(x_test, y_test) * 100:.2f}%")

Acurácia do modelo 'Random Forest Classifier': 78.69%


### Como o modelo funciona?

O **Random Forest Classifier** é um modelo de aprendizado de máquina baseado em um conjunto (ou floresta) de `árvores de decisão`. Em vez de treinar apenas uma árvore, ele treina várias árvores diferentes e, na hora de prever, ele faz uma "votação" (média) entre elas para decidir a classe mais provável.

Essa abordagem torna o modelo mais robusto e preciso, pois reduz o risco de `overfitting` e melhora a capacidade de `generalização`. Cada árvore aprende de forma ligeiramente diferente porque o **Random Forest** usa amostragem aleatória dos dados e das variáveis — isso gera diversidade entre as árvores. 