# Regressão Ridge e Lasso

Ambos os modelos são técnicas de regressão linear regularizada. A regressão Ridge aplica uma penalização L2, enquanto a Lasso aplica uma penalização L1.

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.linear_model import Ridge, Lasso
from sklearn.metrics import mean_squared_error

In [None]:
# Gerando dados
np.random.seed(42)
X = 2 * np.random.rand(100, 1)
y = 4 + 3 * X + np.random.randn(100, 1)

In [None]:
# Divisão dos dados
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Modelos Ridge e Lasso
ridge = Ridge(alpha=1.0)
lasso = Lasso(alpha=0.1)

# Treinando os modelos
ridge.fit(X_train, y_train)
lasso.fit(X_train, y_train)

In [None]:
# Predição
y_pred_ridge = ridge.predict(X_test)
y_pred_lasso = lasso.predict(X_test)

# Avaliando o desempenho
mse_ridge = mean_squared_error(y_test, y_pred_ridge)
mse_lasso = mean_squared_error(y_test, y_pred_lasso)

print(f"MSE Ridge: {mse_ridge:.2f}")
print(f"MSE Lasso: {mse_lasso:.2f}")

In [None]:
# Plotando os resultados
plt.scatter(X_test, y_test, color="blue", label="Dados Reais")
plt.plot(X_test, y_pred_ridge, color="red", label="Ridge")
plt.plot(X_test, y_pred_lasso, color="green", label="Lasso")
plt.xlabel("X")
plt.ylabel("y")
plt.legend()
plt.title("Regressão Ridge vs Lasso")
plt.show()

- Ridge e Lasso adicionam uma penalização à função de custo para controlar o ajuste do modelo.
- Ridge (L2) reduz os coeficientes, mas não os zera.
- Lasso (L1) pode zerar coeficientes, realizando seleção de features.

# Processo de Escolha de Modelo: Validação Cruzada

A validação cruzada, como k-fold cross-validation, ajuda a evitar overfitting, dividindo o conjunto de dados em k partes e avaliando o modelo em diferentes subconjuntos.

In [None]:
from sklearn.model_selection import cross_val_score
from sklearn.linear_model import LinearRegression

In [None]:
# Modelo de Regressão Linear
model = LinearRegression()

# Validação Cruzada com 5 folds
scores = cross_val_score(model, X, y, cv=5, scoring='neg_mean_squared_error')
rmse_scores = np.sqrt(-scores)

print(f"RMSE médio: {rmse_scores.mean():.2f}")
print(f"Desvio Padrão do RMSE: {rmse_scores.std():.2f}")

- Utilizamos cross_val_score com 5 folds para calcular o erro médio.
- A métrica utilizada foi o RMSE (Root Mean Squared Error).

# Métricas de Avaliação: Precisão, Recall e Curva ROC

In [None]:
from sklearn.metrics import confusion_matrix, precision_score, recall_score, roc_curve, auc
import matplotlib.pyplot as plt

In [None]:
# Dados de exemplo
y_true = [1, 0, 1, 1, 0, 0, 1, 0, 1, 1]  # Valores reais
y_pred = [1, 0, 1, 0, 0, 0, 1, 1, 0, 1]  # Previsões do modelo

# Matriz de Confusão
cm = confusion_matrix(y_true, y_pred)
print("Matriz de Confusão:")
print(cm)

In [None]:
# Calculando Precisão e Recall
precision = precision_score(y_true, y_pred)
recall = recall_score(y_true, y_pred)

print(f"Precisão: {precision:.2f}")
print(f"Recall: {recall:.2f}")

# Curva ROC
fpr, tpr, thresholds = roc_curve(y_true, y_pred)
roc_auc = auc(fpr, tpr)

In [None]:

# Plotando a Curva ROC
plt.plot(fpr, tpr, color='blue', label=f'AUC = {roc_auc:.2f}')
plt.plot([0, 1], [0, 1], color='red', linestyle='--')
plt.xlabel('Taxa de Falsos Positivos (FPR)')
plt.ylabel('Taxa de Verdadeiros Positivos (TPR)')
plt.title('Curva ROC')
plt.legend()
plt.show()

- A matriz de confusão mostra os valores de TP, FP, TN e FN.
- Precisão é a proporção de verdadeiros positivos em relação ao total de positivos preditos.
- Recall é a proporção de verdadeiros positivos em relação ao total de positivos reais.
- A Curva ROC mostra a relação entre a taxa de verdadeiros positivos e falsos positivos.

# Interpolação e Regressão Logística para Problemas Binários

Usaremos a regressão logística para um exemplo de classificação binária.

In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

In [None]:
# Dados de exemplo
X_binary = np.array([[1], [2], [3], [4], [5], [6], [7], [8], [9], [10]])
y_binary = np.array([0, 0, 0, 0, 0, 1, 1, 1, 1, 1])

# Modelo de Regressão Logística
log_reg = LogisticRegression()
log_reg.fit(X_binary, y_binary)

In [None]:
# Predição
y_pred_log = log_reg.predict(X_binary)
accuracy = accuracy_score(y_binary, y_pred_log)

print(f"Acurácia da Regressão Logística: {accuracy:.2f}")

# Plotando a função sigmoide
X_range = np.linspace(0, 11, 100).reshape(-1, 1)
y_prob = log_reg.predict_proba(X_range)[:, 1]

In [None]:
plt.plot(X_range, y_prob, color='green', label='Probabilidade de Classe 1')
plt.scatter(X_binary, y_binary, color='blue', label='Dados Reais')
plt.xlabel('Feature')
plt.ylabel('Probabilidade')
plt.legend()
plt.title('Regressão Logística')
plt.show()

- A regressão logística usa a função sigmoide para prever a probabilidade de uma observação pertencer à classe positiva.
- O gráfico mostra a curva sigmoide ajustada aos dados.