### 11. Técnicas de Seleção de Modelos

#### 11.1. Importância da seleção de modelos
A seleção de modelos é crucial em machine learning porque permite escolher o modelo que melhor se adapta aos dados e ao problema específico. A escolha do modelo certo pode melhorar significativamente a performance e a generalização do modelo.

#### 11.2. Divisão de Dados: Treino, Validação e Teste
Dividir os dados em conjuntos de treino, validação e teste é fundamental para avaliar a performance dos modelos de forma justa e para evitar overfitting.

##### 11.2.1. Divisão simples em treino e teste

In [79]:
from sklearn.model_selection import train_test_split
import numpy as np

# Exemplo de dados
X = np.random.rand(100, 5)
y = np.random.randint(0, 2, 100)

# Divisão em treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print(X_train.shape, X_test.shape)

(80, 5) (20, 5)


##### 11.2.2. Divisão com Validação

In [80]:
from sklearn.model_selection import train_test_split
import numpy as np

# Exemplo de dados
X = np.random.rand(100, 5)
y = np.random.randint(0, 2, 100)

# Divisão em treino, validação e teste
X_train, X_temp, y_train, y_temp = train_test_split(X, y, test_size=0.4, random_state=42)
X_val, X_test, y_val, y_test = train_test_split(X_temp, y_temp, test_size=0.5, random_state=42)

print(X_train.shape, X_val.shape, X_test.shape)

(60, 5) (20, 5) (20, 5)


#### 11.3. Técnicas de Validação Cruzada
A validação cruzada é uma técnica robusta para avaliar a performance do modelo e garantir que ele generalize bem.

##### 11.3.1. K-Fold Cross Validation
Divide os dados em k subconjuntos (folds) e realiza o treinamento e validação k vezes, usando um fold diferente para validação a cada vez.

In [81]:
from sklearn.model_selection import KFold, cross_val_score
from sklearn.ensemble import RandomForestClassifier
import numpy as np

# Exemplo de dados
X = np.random.rand(100, 5)
y = np.random.randint(0, 2, 100)

# Aplicar K-Fold Cross Validation
kf = KFold(n_splits=5, random_state=42, shuffle=True)
model = RandomForestClassifier()

scores = cross_val_score(model, X, y, cv=kf)
print(scores)

[0.7  0.45 0.55 0.6  0.55]


##### 11.3.2. Stratified K-Fold Cross Validation
Similar ao K-Fold, mas mantém a proporção das classes em cada fold, útil para dados desbalanceados.

In [82]:
from sklearn.model_selection import StratifiedKFold, cross_val_score
from sklearn.ensemble import RandomForestClassifier
import numpy as np

# Exemplo de dados
X = np.random.rand(100, 5)
y = np.random.randint(0, 2, 100)

# Aplicar Stratified K-Fold Cross Validation
skf = StratifiedKFold(n_splits=5, random_state=42, shuffle=True)
model = RandomForestClassifier()

scores = cross_val_score(model, X, y, cv=skf)
print(scores)

[0.6  0.4  0.45 0.5  0.6 ]


#### 11.4. Grid Search e Random Search
Técnicas para encontrar os melhores hiperparâmetros para um modelo.

##### 11.4.1. Grid Search
Explora todas as combinações possíveis de hiperparâmetros em uma grade predefinida.

In [83]:
from sklearn.model_selection import GridSearchCV
from sklearn.ensemble import RandomForestClassifier
import numpy as np

# Exemplo de dados
X = np.random.rand(100, 5)
y = np.random.randint(0, 2, 100)

# Definir parâmetros para Grid Search
param_grid = {
    'n_estimators': [10, 50, 100],
    'max_depth': [None, 10, 20],
    'min_samples_split': [2, 5, 10]
}

# Aplicar Grid Search
model = RandomForestClassifier(random_state=42)
grid_search = GridSearchCV(model, param_grid, cv=5)
grid_search.fit(X, y)

print(grid_search.best_params_)

{'max_depth': None, 'min_samples_split': 5, 'n_estimators': 100}


##### 11.4.2. Random Search
Explora uma amostra aleatória das combinações possíveis de hiperparâmetros.

In [84]:
from sklearn.model_selection import RandomizedSearchCV
from sklearn.ensemble import RandomForestClassifier
import numpy as np

# Exemplo de dados
X = np.random.rand(100, 5)
y = np.random.randint(0, 2, 100)

# Definir parâmetros para Random Search
param_dist = {
    'n_estimators': [10, 50, 100, 200],
    'max_depth': [None, 10, 20, 30],
    'min_samples_split': [2, 5, 10]
}

# Aplicar Random Search
model = RandomForestClassifier(random_state=42)
random_search = RandomizedSearchCV(model, param_distributions=param_dist, n_iter=10, cv=5, random_state=42)
random_search.fit(X, y)

print(random_search.best_params_)

{'n_estimators': 10, 'min_samples_split': 5, 'max_depth': 30}


#### 11.5. Avaliação de Modelos
Avaliar a performance dos modelos utilizando métricas apropriadas para o problema em questão.

##### 11.5.1. Acurácia, Precisão, Recall e F1-Score

In [85]:
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score
import numpy as np

# Exemplo de predições
y_true = np.array([0, 1, 0, 1, 0, 1, 0, 1, 0, 1])
y_pred = np.array([0, 1, 0, 0, 0, 1, 0, 1, 1, 1])

# Calcular métricas
accuracy = accuracy_score(y_true, y_pred)
precision = precision_score(y_true, y_pred)
recall = recall_score(y_true, y_pred)
f1 = f1_score(y_true, y_pred)

print(f"Acurácia: {accuracy}")
print(f"Precisão: {precision}")
print(f"Recall: {recall}")
print(f"F1-Score: {f1}")

Acurácia: 0.8
Precisão: 0.8
Recall: 0.8
F1-Score: 0.8


matplotlib
imblearn
sklearn
patsy
numpy
gensim
pandas
nltk