# 09.01 - Introducción a Scikit-Learn

**Autor:** Miguel Angel Vazquez Varela  
**Nivel:** Intermedio  
**Tiempo estimado:** 45 min

---

## ¿Qué aprenderemos?

- Qué es Scikit-Learn y su API de estimadores
- El flujo de trabajo básico en Machine Learning
- Preprocesamiento de datos (Escalado y Codificación)
- División de datos en entrenamiento (train) y prueba (test)
- Entrenamiento de un primer modelo básico

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import sklearn

print(f"scikit-learn version: {sklearn.__version__}")

---

## 1. El flujo de trabajo de Scikit-Learn

Scikit-Learn utiliza una API consistente basada en objetos llamados **Estimadores**. El proceso suele seguir estos pasos:

1. **Seleccionar** la clase del modelo.
2. **Instanciar** el modelo con hiperparámetros.
3. **Organizar** los datos en matriz de características `X` y vector objetivo `y`.
4. **Ajustar** el modelo a los datos con `.fit()`.
5. **Predecir** sobre nuevos datos con `.predict()`.

---

## 2. Preparación de los datos

Para este ejemplo utilizaremos el dataset `diamonds` incluido en Seaborn, donde intentaremos predecir el **precio** de un diamante basándonos en sus características.

In [None]:
df = sns.load_dataset('diamonds')
df.head()

### Preprocesamiento: Variables Categóricas

Los modelos de Scikit-Learn solo entienden números. Necesitamos convertir variables como `cut`, `color` o `clarity`.

In [None]:
from sklearn.preprocessing import LabelEncoder

# Simplificamos el ejemplo codificando las columnas categóricas
le = LabelEncoder()
for col in ['cut', 'color', 'clarity']:
    df[col] = le.fit_transform(df[col])

df.head()

---

## 3. División Train-Test

Nunca debemos evaluar el modelo con los mismos datos que usamos para entrenar.

In [None]:
from sklearn.model_selection import train_test_split

X = df.drop('price', axis=1)
y = df['price']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print(f"Muestras totales: {len(df)}")
print(f"Muestras entrenamiento: {len(X_train)}")
print(f"Muestras prueba: {len(X_test)}")

---

## 4. Entrenamiento del modelo

Usaremos un modelo de regresión básico para predecir el precio.

In [None]:
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_absolute_error, r2_score

# 1. Instanciar
model = RandomForestRegressor(n_estimators=100, random_state=42)

# 2. Ajustar (este paso puede tardar unos segundos)
model.fit(X_train, y_train)

# 3. Predecir
y_pred = model.predict(X_test)

---

## 5. Evaluación

Visualicemos qué tan cerca están nuestras predicciones de la realidad.

In [None]:
print(f"R2 Score: {r2_score(y_test, y_pred):.4f}")
print(f"MAE: {mean_absolute_error(y_test, y_pred):.2f}$")

plt.figure(figsize=(10, 6))
plt.scatter(y_test, y_pred, alpha=0.3)
plt.plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], '--r', lw=2)
plt.xlabel('Precio Real')
plt.ylabel('Predicción')
plt.title('Real vs Predicción de Precio')
plt.show()