EJERCICIO 3.1

REGRESIÓN LINEAL (EJEMPLO SINTÉTICO)

In [None]:
# Generar datos sintéticos para regresión lineal
np.random.seed(42)
X = 2.5 * np.random.randn(100, 1) + 1.5  # 100 muestras
y = 1.7 * X.squeeze() + 0.8 + np.random.randn(100) * 2.0  # Relación aproximada

# Convertir a DataFrame para visualizar
df_reg = pd.DataFrame({
    "X": X.squeeze(),
    "y": y
})

# Separar datos en train/test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Crear y entrenar modelo
lin_reg = LinearRegression()
lin_reg.fit(X_train, y_train)

# Predicciones en test
y_pred = lin_reg.predict(X_test)

# Métrica de evaluación
mse = mean_squared_error(y_test, y_pred)
rmse = np.sqrt(mse)

print("Coeficiente beta_0 (intercept):", lin_reg.intercept_)
print("Coeficiente beta_1 (pendiente):", lin_reg.coef_)
print("MSE:", mse)
print("RMSE:", rmse)

# Visualización
plt.scatter(X_test, y_test, label="Datos reales")
plt.plot(X_test, y_pred, color='red', label="Predicción")
plt.xlabel("X")
plt.ylabel("y")
plt.title("Regresión Lineal (Datos Sintéticos)")
plt.legend()
plt.show()

EJERCICIO 3.2

CLASIFICACIÓN BINARIA CON REGRESIÓN LOGÍSTICA

In [None]:
# Usaremos el dataset Iris pero lo simplificaremos a clasificación binaria
# (ejemplo: Iris Versicolor vs. Iris Virginica).

iris = load_iris()
X = iris.data
y = iris.target

# Filtramos para quedarnos solo con las clases 1 (versicolor) y 2 (virginica)
# y con algunas variables para simplificar (ej. columnas 0 y 1: sepal length y sepal width)
mask = (y != 0)  # tomamos solo las clases 1 y 2
X_bin = X[mask, :2]  # primeras 2 características
y_bin = y[mask]

# Convertimos las clases 1 y 2 a 0 y 1 para usarlas en regresión logística
y_bin = np.where(y_bin == 1, 0, 1)

X_train, X_test, y_train, y_test = train_test_split(X_bin, y_bin, test_size=0.3, random_state=42)

log_reg = LogisticRegression()
log_reg.fit(X_train, y_train)

y_pred_bin = log_reg.predict(X_test)

accuracy = accuracy_score(y_test, y_pred_bin)
print("Accuracy en test:", accuracy)

# Curva ROC y AUC
y_probas = log_reg.predict_proba(X_test)[:, 1]  # Probabilidad de clase positiva
fpr, tpr, thresholds = roc_curve(y_test, y_probas)
auc_value = roc_auc_score(y_test, y_probas)

print("AUC:", auc_value)

plt.plot(fpr, tpr, label=f"ROC (AUC = {auc_value:.2f})")
plt.plot([0, 1], [0, 1], linestyle='--', color='gray')
plt.xlabel("False Positive Rate")
plt.ylabel("True Positive Rate")
plt.title("Curva ROC - Clasificación Binaria (Iris vs. Iris)")
plt.legend()
plt.show()

EJERCICIO 3.3

Validación Cruzada (Cross-Validation) para un modelo de regresión lineal

In [None]:
# con un dataset real (ejemplo: California Housing en sklearn).

from sklearn.datasets import fetch_california_housing
from sklearn.model_selection import cross_val_score

housing = fetch_california_housing()
X_housing = housing.data
y_housing = housing.target

model = LinearRegression()
scores = cross_val_score(model, X_housing, y_housing, scoring="neg_mean_squared_error", cv=5)
rmse_scores = np.sqrt(-scores)

print("Scores MSE (negativo):", scores)
print("Scores RMSE:", rmse_scores)
print("RMSE promedio:", rmse_scores.mean())
print("Desviación estándar:", rmse_scores.std())

EJERCICIO 3.4

(Opcional) Intentar distintas métricas de evaluación en clasificación

In [None]:
# Ej.: Precision, Recall, F1-score
from sklearn.metrics import precision_score, recall_score, f1_score

iris = load_iris()
X = iris.data
y = iris.target

# Filtramos para quedarnos solo con las clases 1 (versicolor) y 2 (virginica)
# y con algunas variables para simplificar (ej. columnas 0 y 1: sepal length y sepal width)
mask = (y != 0)  # tomamos solo las clases 1 y 2
X_bin = X[mask, :2]  # primeras 2 características
y_bin = y[mask]

# Convertimos las clases 1 y 2 a 0 y 1 para usarlas en regresión logística
y_bin = np.where(y_bin == 1, 0, 1)

X_train, X_test, y_train, y_test = train_test_split(X_bin, y_bin, test_size=0.3, random_state=42)

log_reg = LogisticRegression()
log_reg.fit(X_train, y_train)

y_pred_bin = log_reg.predict(X_test)

precision = precision_score(y_test, y_pred_bin)
recall = recall_score(y_test, y_pred_bin)
f1 = f1_score(y_test, y_pred_bin)

print("Precision:", precision)
print("Recall:", recall)
print("F1-score:", f1)