# Solucionario

Este cuaderno contiene las soluciones a los ejercicios planteados.

---

# 1. Introducción a Machine Learning con Scikit-Learn

`scikit-learn` proporciona herramientas simples y eficientes para minería de datos y análisis de datos.

## 1.1 Regresión Lineal Simple
Intentaremos predecir una variable continua $y$ a partir de una variable $x$.

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

# Generar datos sintéticos
np.random.seed(0)
X = 2.5 * np.random.randn(100) + 1.5   # Array de 100 valores
res = 0.5 * np.random.randn(100)       # Ruido
y = 2 + 0.3 * X + res                  # y = 2 + 0.3x + ruido

# Reshape para sklearn (necesita matriz 2D para X)
X = X.reshape(-1, 1)

# Dividir en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print(f"Entrenamiento: {X_train.shape}, Prueba: {X_test.shape}")

## 1.2 Entrenamiento del Modelo

In [None]:
model = LinearRegression()
model.fit(X_train, y_train)

print(f"Intercepto: {model.intercept_}")
print(f"Coeficiente (pendiente): {model.coef_[0]}")

## 1.3 Predicción y Evaluación

In [None]:
y_pred = model.predict(X_test)

mse = mean_squared_error(y_test, y_pred)
print(f"Error Cuadrático Medio (MSE): {mse}")

# Visualización
plt.scatter(X_test, y_test, color='black', label='Datos reales')
plt.plot(X_test, y_pred, color='blue', linewidth=3, label='Predicción')
plt.legend()
plt.show()

## 1.4 Clasificación con Iris Dataset
Usaremos el famoso dataset Iris para clasificar tipos de flores.

In [None]:
from sklearn.datasets import load_iris
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

iris = load_iris()
X, y = iris.data, iris.target

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Clasificador K-Nearest Neighbors
clf = KNeighborsClassifier(n_neighbors=3)
clf.fit(X_train, y_train)

y_pred = clf.predict(X_test)
print(f"Accuracy: {accuracy_score(y_test, y_pred)}")

## 1.5 Ejercicio: Clustering
Usa `sklearn.cluster.KMeans` para agrupar el dataset `blobs` generado abajo en 3 clusters.

In [None]:
from sklearn.datasets import make_blobs
X, _ = make_blobs(n_samples=300, centers=3, cluster_std=0.60, random_state=0)

# Visualizar datos crudos
plt.scatter(X[:,0], X[:,1])
plt.show()

# TO-DO: Implementar KMeans
# kmeans = ...
# kmeans.fit(X)
# y_kmeans = kmeans.predict(X)