<a href="https://colab.research.google.com/github/dtoralg/IE_Calidad_ML/blob/main/Ejercicios/Manual_Practico_Machine_Learning_COMENTADO.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Manual Pr√°ctico de Machine Learning con Python

Este cuaderno contiene una gu√≠a completa para aprender y practicar los principales conceptos y t√©cnicas de Machine Learning con Python. Est√° organizado por bloques tem√°ticos. Cada bloque incluye:

- Una **explicaci√≥n breve**
- Un **ejemplo ejecutable**
- Un **ejercicio pr√°ctico guiado**
- Una **reflexi√≥n sobre para qu√© sirve y cu√°ndo se usa**

> **Sigue el orden o navega por el √≠ndice seg√∫n tus intereses.**


### üéì Consejo importante para aprender Machine Learning

No intentes memorizar el c√≥digo.

üëâ **Tu objetivo no es recordar cada funci√≥n o par√°metro, sino entender qu√© hace cada bloque**.

- ¬øPor qu√© se usa `ReLU` en una capa oculta?
- ¬øQu√© significa `categorical_crossentropy` y cu√°ndo se usa?
- ¬øPor qu√© usamos `softmax` en la salida para clasificaci√≥n multiclase?

Estas preguntas valen m√°s que repetir c√≥digo de memoria.

#### üí° Recomendaciones:

- Si no recuerdas la sintaxis: **b√∫scala o usa ejemplos anteriores**.
- Si ves una funci√≥n nueva: **lee su descripci√≥n** o prueba con `help(funci√≥n)` o `Shift + Tab` en Jupyter.
- Si algo no funciona: **imprime variables, revisa formas (`.shape`), ejecuta por partes**.
- Si te bloqueas: **comparte lo que est√°s intentando hacer, no solo el error**.

**Aprender a programar es como aprender a hablar otro idioma: necesitas pr√°ctica, contexto y repetici√≥n. La memoria vendr√° despu√©s.**

## 1. Carga y Exploraci√≥n de Datos

### ¬øQu√© es?

Cargar y explorar datos es el primer paso de cualquier proceso de an√°lisis. Aqu√≠ es donde obtenemos una primera impresi√≥n de c√≥mo est√°n estructurados los datos, qu√© tipo de variables tenemos, si hay valores nulos, columnas irrelevantes, etc.

Esto se conoce tambi√©n como **ETL (Extract, Transform, Load)** en entornos m√°s profesionales.



### 1.1 Cargar un archivo CSV

**C√≥digo de ejemplo:**  
Cargamos un dataset desde un archivo CSV local o una URL.


In [None]:
import pandas as pd

# Cargar archivo desde local
df = pd.read_csv("datos_calidad.csv")  # Carga un archivo CSV en un DataFrame de pandas
# Tambi√©n se puede usar una URL si el archivo est√° en l√≠nea
# df = pd.read_csv("https://ruta-al-archivo/dataset.csv")

df.head()  # Muestra las primeras filas del DataFrame

**Ejercicio guiado:**  
Cambia el nombre del archivo anterior por otro CSV disponible en tu equipo o entorno, y muestra las 10 primeras filas usando `.head(10)`.

En Colab, puedes hacer click en la barra lateral izquierda, en el icono "Archivos" y subir ah√≠ tus datos desde el PC o desde Drive para que est√©n disponibles en este entorno. Cuando reinicies el entorno desaparecer√°n.

Una vez tengas el archivo subido, te recomiendo hacer click derecho > "Copiar Ruta". Por ejemplo, tendr√≠as `pd.read_csv("/content/sample_data/mnist_train_small.csv
")`



**¬øPara qu√© sirve?**  
Este paso es fundamental para poder trabajar con datos reales. Sin esta carga inicial no es posible iniciar ning√∫n an√°lisis, ni visualizaciones ni modelos.


### 1.2 Exploraci√≥n inicial del dataset

In [None]:
# Ver forma del dataset
print("Dimensiones:", df.shape)

# Tipos de datos
print(df.dtypes)

# Resumen estad√≠stico
df.describe()

**Explicaci√≥n:**  
- `.shape` nos dice cu√°ntas filas y columnas hay.
- `.dtypes` muestra el tipo de cada columna.
- `.describe()` da estad√≠sticas b√°sicas como media, desviaci√≥n, m√≠nimo y m√°ximo para columnas num√©ricas.


### 1.3 Comprobaci√≥n de valores faltantes

In [None]:
# Comprobar nulos por columna
df.isnull().sum().sort_values(ascending=False).head(10) # Nos devuelve las 10 columnas con m√°s valores faltantes del DataFrame

**¬øPara qu√© sirve?**  
Muchas funciones y modelos no admiten valores nulos, por lo que es importante identificarlos y decidir si se imputan (rellenan) o se eliminan.


### 1.4 Eliminar columnas irrelevantes

In [None]:
# Supongamos que hay una columna 'ID' que no aporta valor predictivo
if 'ID' in df.columns:  # Lista los nombres de las columnas
    df = df.drop(columns=['ID'])

**Ejercicio guiado:**  
Busca si tu dataset contiene columnas como identificadores, fechas de carga u observaciones constantes y elim√≠nalas del an√°lisis ya que no aportan capacidad predictiva y pueden inferir errores en tus modelos (relaciones esp√∫reas).


## 2. Preparaci√≥n de Datos

Antes de entrenar cualquier modelo, es fundamental preparar los datos correctamente.  
Este proceso incluye:

- **Escalar y normalizar** los datos num√©ricos
- **Codificar** variables categ√≥ricas
- Aplicar t√©cnicas de **feature engineering**
- Preparar los datos para evitar fugas de informaci√≥n y mejorar la generalizaci√≥n


### 2.1 Escalado de variables num√©ricas

In [None]:
from sklearn.preprocessing import StandardScaler

# Selecci√≥n de columnas num√©ricas
num_cols = df.select_dtypes(include='number').columns  # Lista los nombres de las columnas num√©ricas.

# Escalado est√°ndar
scaler = StandardScaler()  # Escalador para normalizar los datos (media=0, desviaci√≥n=1)
df_scaled = df.copy() # Copiamos el DataFrame inicial para no alterarlo
df_scaled[num_cols] = scaler.fit_transform(df[num_cols])  # Ajusta el modelo y transforma los datos

df_scaled.head()  # Muestra las primeras filas del DataFrame

**¬øPor qu√© escalar?**  
Muchos modelos (KNN, Regresi√≥n Log√≠stica, Redes Neuronales) son sensibles a la escala de las variables.  
El `StandardScaler` transforma cada variable para que tenga media 0 y desviaci√≥n est√°ndar 1.


### 2.2 Codificaci√≥n de variables categ√≥ricas

In [None]:
from sklearn.preprocessing import LabelEncoder

# Suponemos que 'Estado' es la variable objetivo
if 'Estado' in df.columns:  # Lista los nombres de las columnas
    le = LabelEncoder()  # Codificador para convertir categor√≠as en n√∫meros
    df['Estado_cod'] = le.fit_transform(df['Estado'])  # Ajusta el modelo y transforma los datos
    print("Clases:", list(le.classes_)) # Comprobamos el resultado con print
    df[['Estado', 'Estado_cod']].head()  # Muestra las primeras filas del DataFrame

**¬øPara qu√© sirve?**  
Muchos modelos de machine learning necesitan que las variables categ√≥ricas est√©n en formato num√©rico.  
`LabelEncoder` convierte etiquetas como `"OK"`, `"KO"` en `0`, `1`.


### 2.3 Ingenier√≠a de caracter√≠sticas (Feature Engineering)

In [None]:
# Crear una nueva variable: relaci√≥n entre temperatura y presi√≥n
df['Temp_Pres_ratio'] = df['Temperatura'] / df['Presion'] # Creamos una nueva variable en df lamada Temp_Pres_Ratio
df[['Temperatura', 'Presion', 'Temp_Pres_ratio']].head()  # Muestra las primeras filas del DataFrame

**¬øPara qu√© sirve?**  
A veces, relaciones entre variables aportan m√°s valor predictivo que las variables originales por separado.


### 2.4 Eliminar columnas constantes o duplicadas

In [None]:
# Eliminar columnas con un √∫nico valor
for col in df.columns:  # Lista los nombres de las columnas
    if df[col].nunique() == 1: # Si la columna tiene 1 solo valor √∫nico
        df = df.drop(columns=[col]) # Alteramos df para que no contenga esa columna

**¬øPara qu√© sirve?**  
Las columnas que no cambian no aportan informaci√≥n y pueden dificultar el entrenamiento o inflar el tama√±o del modelo innecesariamente.


## 3. Modelos Supervisados

### 3.1 Regresi√≥n Lineal

In [None]:
from sklearn.linear_model import LinearRegression

# Simular datos de ejemplo
X_simple = df[["Temperatura"]]
y_simple = df["Presion"]

# Modelo
model_lr = LinearRegression()
model_lr.fit(X_simple, y_simple)  # Entrena el modelo con los datos de entrenamiento
y_pred_lr = model_lr.predict(X_simple)  # Realiza predicciones sobre los datos de prueba


**¬øPara qu√© sirve?**  
La regresi√≥n lineal permite predecir un valor num√©rico continuo.  
Es √∫til como modelo de referencia y tambi√©n para interpretar relaciones lineales entre variables.


### 3.2 Regresi√≥n Log√≠stica

In [None]:
from sklearn.linear_model import LogisticRegression

# Asumimos que Estado_cod es binaria (0/1)
X_log = df_scaled[num_cols]
y_log = df["Estado_cod"]

model_log = LogisticRegression(max_iter=1000) # Podemos seleccionar el numero m√°ximo de iteraciones
model_log.fit(X_log, y_log)  # Entrena el modelo con los datos
y_pred_log = model_log.predict(X_log)  # Realiza predicciones sobre los datos de prueba

**¬øPara qu√© sirve?**  
Clasifica instancias en dos clases (binaria) de forma simple pero efectiva.  
Suele ser el modelo base para comparar con otros m√°s complejos.


### 3.3 √Årbol de Decisi√≥n

In [None]:
from sklearn.tree import DecisionTreeClassifier

model_dt = DecisionTreeClassifier(max_depth=4)
model_dt.fit(X_train_log, y_train_log)  # Entrena el modelo con los datos de entrenamiento
y_pred_dt = model_dt.predict(X_test_log)  # Realiza predicciones sobre los datos de prueba

**¬øPara qu√© sirve?**  
Los √°rboles son f√°ciles de interpretar y permiten entender reglas de decisi√≥n.  
Son √∫tiles cuando hay relaciones no lineales entre las variables.


### 3.4 Random Forest

In [None]:
from sklearn.ensemble import RandomForestClassifier

model_rf = RandomForestClassifier(n_estimators=100, random_state=42)
model_rf.fit(X_train_log, y_train_log)  # Entrena el modelo con los datos de entrenamiento
y_pred_rf = model_rf.predict(X_test_log)  # Realiza predicciones sobre los datos de prueba

**¬øPara qu√© sirve?**  
Es un ensemble de √°rboles que mejora la robustez y generalizaci√≥n del modelo.  
Muy usado en la industria por su rendimiento y facilidad de uso.

Cuando el modelo lo permite, es recomendable fijar `random_state` para que el resultado sea repetible.



### 3.5 K-Nearest Neighbors (KNN)

In [None]:
from sklearn.neighbors import KNeighborsClassifier

model_knn = KNeighborsClassifier(n_neighbors=5)
model_knn.fit(X_train_log, y_train_log)  # Entrena el modelo con los datos de entrenamiento
y_pred_knn = model_knn.predict(X_test_log)  # Realiza predicciones sobre los datos de prueba

**¬øPara qu√© sirve?**  
Clasifica en base a los vecinos m√°s cercanos.  
Muy intuitivo y efectivo en datasets peque√±os y bien escalados.


## 4. Modelos No Supervisados

Los modelos no supervisados aprenden a partir de datos **sin etiquetas**. Se utilizan para:
- Explorar la estructura interna de los datos
- Agrupar observaciones similares
- Reducir la dimensionalidad para visualizaci√≥n o mejora de modelos supervisados


### 4.1 K-Means - Agrupamiento no supervisado

In [None]:
from sklearn.cluster import KMeans

# Aplicar KMeans con 2 grupos
kmeans = KMeans(n_clusters=2, random_state=42)
clusters = kmeans.fit_predict(X)

# Graficar los clusters, en el caso de que X tenga 2 variables.
plt.scatter(X[:, 0], X[:, 1], c=labels, cmap='Set2')
plt.scatter(kmeans.cluster_centers_[:, 0], kmeans.cluster_centers_[:, 1],
            c='black', s=200, alpha=0.7, marker='X', label='Centroides')
plt.title("Clusters detectados por K-Means")
plt.xlabel("Variable 1")
plt.ylabel("Variable 2")
plt.legend()
plt.grid(True)
plt.show()

**¬øPara qu√© sirve?**  
K-Means permite **agrupar observaciones similares** sin necesidad de etiquetas.  
Se usa en segmentaci√≥n de clientes, an√°lisis exploratorio y detecci√≥n de patrones no etiquetados.


### 4.1 PCA - An√°lisis de Componentes Principales

In [None]:
from sklearn.decomposition import PCA
import matplotlib.pyplot as plt

# Aplicar PCA para reducir a 2 dimensiones
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X_log)  # Ajusta el modelo y transforma los datos

# Visualizar resultado
plt.scatter(X_pca[:, 0], X_pca[:, 1], c=y_log, cmap='coolwarm', alpha=0.7)
plt.xlabel("Componente 1")
plt.ylabel("Componente 2")
plt.title("Visualizaci√≥n PCA (2D)")
plt.grid(True)
plt.show()  # Muestra el gr√°fico generado

**¬øPara qu√© sirve?**  
PCA transforma las variables originales en un nuevo conjunto de variables **no correlacionadas**, que capturan la mayor parte de la varianza.
Se usa para visualizaci√≥n, compresi√≥n o preprocesamiento antes de modelos.


## 5. Evaluaci√≥n de Modelos

Evaluar el rendimiento de un modelo es tan importante como entrenarlo.  
Dependiendo del tipo de problema (clasificaci√≥n o regresi√≥n), usaremos diferentes m√©tricas:

- Clasificaci√≥n: precisi√≥n, recall, F1, matriz de confusi√≥n, ROC, AUC
- Regresi√≥n: MAE, MSE, RMSE, R¬≤


### 5.1 Matriz de Confusi√≥n

In [None]:
from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay  # Calcula la matriz de confusi√≥n

cm = confusion_matrix(y_test_log, y_pred_rf)  # Calcula la matriz de confusi√≥n
disp = ConfusionMatrixDisplay(confusion_matrix=cm)  # Calcula la matriz de confusi√≥n
disp.plot(cmap='Blues')
plt.title("Matriz de Confusi√≥n")
plt.show()  # Muestra el gr√°fico generado

**¬øPara qu√© sirve?**  
Muestra el n√∫mero de aciertos y errores para cada clase.  
Ideal para saber **qu√© clases se confunden entre s√≠**.


### 5.2 Precisi√≥n, Recall, F1 Score, Accuracy

In [None]:
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

print("Accuracy:", accuracy_score(y_test_log, y_pred_rf))
print("Precisi√≥n:", precision_score(y_test_log, y_pred_rf))
print("Recall:", recall_score(y_test_log, y_pred_rf))
print("F1 Score:", f1_score(y_test_log, y_pred_rf))

**¬øCu√°ndo usar cada una?**
- `Precisi√≥n`: cu√°ntos de los positivos predichos eran correctos
- `Recall`: cu√°ntos de los positivos reales fueron capturados
- `F1`: equilibrio entre precisi√≥n y recall
- `Accuracy`: proporci√≥n de aciertos totales (menos √∫til si hay clases desbalanceadas)


### 5.3 Curva ROC y AUC

In [None]:
from sklearn.metrics import roc_curve, auc

y_prob = model_rf.predict_proba(X_test_log)[:, 1]
fpr, tpr, thresholds = roc_curve(y_test_log, y_prob)
roc_auc = auc(fpr, tpr)

plt.plot(fpr, tpr, label=f"AUC = {roc_auc:.2f}")
plt.plot([0, 1], [0, 1], linestyle='--')
plt.xlabel("Tasa de falsos positivos")
plt.ylabel("Tasa de verdaderos positivos")
plt.title("Curva ROC")
plt.legend()
plt.grid(True)
plt.show()  # Muestra el gr√°fico generado

**¬øPara qu√© sirve?**  
Mide la capacidad del modelo para distinguir entre clases.  
Cuanto m√°s se acerque el AUC a 1, mejor.


### 5.4 MAE, MSE, RMSE, R¬≤

In [None]:
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score
import numpy as np

# Usamos el modelo de regresi√≥n lineal de antes
mae = mean_absolute_error(y_simple, y_pred_lr)
mse = mean_squared_error(y_simple, y_pred_lr)
rmse = np.sqrt(mse)
r2 = r2_score(y_simple, y_pred_lr)

print(f"MAE: {mae:.2f}")
print(f"MSE: {mse:.2f}")
print(f"RMSE: {rmse:.2f}")
print(f"R¬≤: {r2:.2f}")

**¬øQu√© mide cada m√©trica?**
- `MAE`: error absoluto medio
- `MSE`: error cuadr√°tico medio (penaliza m√°s errores grandes)
- `RMSE`: ra√≠z cuadrada del MSE (en mismas unidades que la variable)
- `R¬≤`: porcentaje de variabilidad explicada por el modelo


## 6. T√©cnicas de Optimizaci√≥n y Regularizaci√≥n

Estas t√©cnicas ayudan a mejorar el rendimiento y la generalizaci√≥n del modelo, especialmente cuando los datos son complejos o limitados.


### 6.1 Regularizaci√≥n L1 y L2

In [None]:
from sklearn.linear_model import LogisticRegression

# L1 (Lasso)
model_l1 = LogisticRegression(penalty='l1', solver='liblinear')
model_l1.fit(X_train_log, y_train_log)  # Entrena el modelo con los datos de entrenamiento

# L2 (Ridge)
model_l2 = LogisticRegression(penalty='l2')
model_l2.fit(X_train_log, y_train_log)  # Entrena el modelo con los datos de entrenamiento

**¬øPara qu√© sirve?**  
- `L1`: fuerza coeficientes a cero (selecci√≥n de variables)
- `L2`: reduce la magnitud de los coeficientes (reduce overfitting)


### 6.2 B√∫squeda de hiperpar√°metros con GridSearchCV

In [None]:
from sklearn.model_selection import GridSearchCV  # B√∫squeda exhaustiva de hiperpar√°metros con validaci√≥n cruzada

param_grid = {
    'n_estimators': [50, 100],
    'max_depth': [3, 5, 10]
}

grid = GridSearchCV(RandomForestClassifier(), param_grid, cv=5, scoring='f1_macro')  # B√∫squeda exhaustiva de hiperpar√°metros con validaci√≥n cruzada
grid.fit(X_train_log, y_train_log)

print("Mejores par√°metros:", grid.best_params_)
print("Mejor score F1 Macro:", grid.best_score_)

**¬øPara qu√© sirve?**  
Permite probar muchas combinaciones de hiperpar√°metros y seleccionar la mejor autom√°ticamente.


### 6.3 RandomizedSearchCV (alternativa r√°pida a GridSearch)

In [None]:
from sklearn.model_selection import RandomizedSearchCV  # B√∫squeda aleatoria de hiperpar√°metros con validaci√≥n cruzada

from scipy.stats import randint

param_dist = {
    'n_estimators': randint(50, 150),
    'max_depth': randint(3, 10)
}

random_search = RandomizedSearchCV(RandomForestClassifier(), param_distributions=param_dist, n_iter=10, cv=5, random_state=42)  # B√∫squeda aleatoria de hiperpar√°metros con validaci√≥n cruzada
random_search.fit(X_train_log, y_train_log)

print("Mejores par√°metros:", random_search.best_params_)

### 6.4 Rebalanceo de clases con SMOTE

In [None]:
from imblearn.over_sampling import SMOTE  # T√©cnica para balancear clases generando ejemplos sint√©ticos
from collections import Counter

smote = SMOTE(random_state=42)  # T√©cnica para balancear clases generando ejemplos sint√©ticos
X_train_sm, y_train_sm = smote.fit_resample(X_train_log, y_train_log)

print("Distribuci√≥n original:", Counter(y_train_log))
print("Distribuci√≥n balanceada:", Counter(y_train_sm))

**¬øPara qu√© sirve?**  
Genera muestras sint√©ticas para la clase minoritaria y evita el sobreajuste a la clase mayoritaria.


## 6. Redes Neuronales: desde MLP hasta LSTM y CNN

Las redes neuronales permiten modelar relaciones no lineales complejas.  
En esta secci√≥n las construiremos de forma progresiva:

1. Red Neuronal Multicapa b√°sica (MLP)
2. MLP m√°s profunda con Dropout y activaci√≥n ReLU
3. Red LSTM (para series temporales)
4. Red Convolucional (CNN, para datos con estructura espacial)
5. Uso de EarlyStopping para evitar overfitting


### 6.1 Red Neuronal Multicapa (MLP) B√°sica

#### Funciones de activaci√≥n m√°s comunes para MLP

**ReLU (`relu`)**  
- f(x) = max(0, x)  
- Muy usada en capas ocultas  
- R√°pida y evita saturaci√≥n

**Sigmoid (`sigmoid`)**  
- f(x) = 1 / (1 + exp(-x))  
- Salida entre 0 y 1  
- √ötil en clasificaci√≥n binaria (salida)

**Softmax (`softmax`)**  
- Devuelve probabilidades que suman 1  
- Usada en clasificaci√≥n multiclase (salida)

**Lineal (`linear`)**  
- f(x) = x  
- Se usa en regresi√≥n (salida continua)


### 6.1.1 Red Neuronal Multicapa para Regresi√≥n


#### Funciones de p√©rdida m√°s comunes para regresi√≥n

- **`mean_squared_error` (MSE)**  
  Penaliza fuertemente los errores grandes. Es la m√°s usada por defecto.  
  `model.compile(optimizer='adam', loss='mean_squared_error')`

- **`mean_absolute_error` (MAE)**  
  M√°s robusta a outliers. Penaliza todos los errores por igual.  
  `model.compile(optimizer='adam', loss='mean_absolute_error')`

- **`huber_loss`**  
  Combina MSE y MAE: usa MSE para errores peque√±os y MAE para errores grandes.  
  `model.compile(optimizer='adam', loss='huber_loss')`

Este bloque muestra c√≥mo usar una red neuronal para predecir valores num√©ricos continuos (por ejemplo: precio, temperatura, producci√≥n, etc.), en lugar de clasificar clases.

¬∑ √öltima capa: solo tiene 1 neurona

¬∑ Activaci√≥n final: sin activaci√≥n (linear)

¬∑ Funci√≥n de p√©rdida: usamos mean_squared_error en lugar de categorical_crossentropy

In [None]:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense  # Capa densamente conectada (fully connected), t√≠pica en MLP

# Crear un modelo secuencial: las capas se a√±aden en orden, una tras otra
model_reg = Sequential()

# Primera capa oculta con 64 neuronas y activaci√≥n ReLU
# input_shape define el n√∫mero de variables de entrada
model_reg.add(Dense(64, activation='relu', input_shape=(X_train_reg.shape[1],)))

# Segunda capa oculta con 32 neuronas y activaci√≥n ReLU
model_reg.add(Dense(32, activation='relu'))

# Capa de salida con 1 sola neurona (predicci√≥n escalar continua)
# No se usa funci√≥n de activaci√≥n ‚Üí salida lineal (ideal para regresi√≥n)
model_reg.add(Dense(1))

# Compilar el modelo:
# - Optimizador: Adam, muy usado por su estabilidad y buen rendimiento
# - P√©rdida: mean_squared_error (error cuadr√°tico medio, t√≠pico en regresi√≥n)
# - M√©trica: mean_absolute_error para tener una idea clara del error medio en unidades originales
model_reg.compile(optimizer='adam', loss='mean_squared_error', metrics=['mae'])

# Entrenar el modelo:
# - validation_split=0.2: reserva el 20% de los datos de entrenamiento para validaci√≥n interna
# - epochs=100: n√∫mero de pasadas completas sobre los datos
# - batch_size=32: n√∫mero de muestras que se procesan antes de actualizar los pesos
# - verbose=0: no muestra el progreso durante el entrenamiento (usa 1 o 2 si se quiere visualizar)
history_reg = model_reg.fit(X_train_reg, y_train_reg,
                            validation_split=0.2,
                            epochs=100,
                            batch_size=32,
                            verbose=0)

print("Entrenamiento completado.")


### 6.2.2 Red Neuronal Multicapa para Clasificaci√≥n


#### Funciones de p√©rdida m√°s comunes en clasificaci√≥n

**`binary_crossentropy`**  
- Para clasificaci√≥n binaria (2 clases)  
- Calcula el error entre la clase real y la probabilidad predicha  
- Recuerda usar la funcion de activaci√≥n `sigmoid` en la capa de salida
- `model.compile(optimizer='adam', loss='binary_crossentropy')`

**`categorical_crossentropy`**  
- Para clasificaci√≥n multiclase con one-hot encoding  
- Se usa cuando la salida tiene varias clases y est√° codificada como vector  
- `model.compile(optimizer='adam', loss='categorical_crossentropy')`

**`sparse_categorical_crossentropy`**  
- Igual que `categorical_crossentropy`, pero con etiquetas como enteros en lugar de one-hot  
- M√°s c√≥moda si no usas `to_categorical()`  
- `model.compile(optimizer='adam', loss='sparse_categorical_crossentropy')`

**C√≥digo explicado paso a paso:**

In [None]:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense  # Crea una capa densa (fully connected)
from tensorflow.keras.utils import to_categorical

# Codificamos las etiquetas enteras como vectores one-hot (necesario para usar softmax + categorical_crossentropy)
y_train_cat = to_categorical(y_train_log)
y_test_cat = to_categorical(y_test_log)

# Crear el modelo secuencial: se a√±aden las capas en orden, una tras otra
model_basic = Sequential()

# Primera (y √∫nica) capa oculta con 16 neuronas y activaci√≥n ReLU
# input_shape define el n√∫mero de caracter√≠sticas de entrada
model_basic.add(Dense(16, activation='relu', input_shape=(X_train_log.shape[1],)))

# Capa de salida con 2 neuronas (porque tenemos 2 clases) y activaci√≥n softmax
# Softmax convierte las salidas en probabilidades que suman 1
model_basic.add(Dense(2, activation='softmax'))

# Compilar el modelo:
# - Optimizador Adam ajusta autom√°ticamente los pesos
# - categorical_crossentropy porque usamos one-hot encoding
# - M√©trica de evaluaci√≥n: accuracy
model_basic.compile(optimizer='adam', loss='categorical_crossentropy', metrics=['accuracy'])

# Entrenar el modelo
# - validation_split=0.2: usa el 20% de los datos para validaci√≥n
# - epochs=100: n√∫mero de veces que se recorren todos los datos de entrenamiento
# - batch_size=32: n√∫mero de muestras usadas antes de actualizar los pesos
# - verbose=0: silencia la salida (puedes usar 1 o 2 para ver el progreso)
history_basic = model_basic.fit(X_train_log, y_train_cat,
                                validation_split=0.2,
                                epochs=100,
                                batch_size=32,
                                verbose=0)

print("Entrenamiento terminado.")


**¬øQu√© hace este modelo?**

- Toma las variables como entrada (X)
- Usa una capa con 16 neuronas y activaci√≥n ReLU
- Devuelve una predicci√≥n por clase (softmax)

Puedes probar aumentando las neuronas o cambiando el optimizador (el mas comun es `adam`) para encontrar el mejor resultado.

### 6.2 MLP profunda con Dropout

In [None]:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Dropout

# Crear modelo secuencial (las capas se apilan en orden)
model_deep = Sequential()

# Primera capa densa con 64 neuronas y activaci√≥n ReLU
# input_shape indica el n√∫mero de variables de entrada (caracter√≠sticas)
model_deep.add(Dense(64, activation='relu', input_shape=(X_train_log.shape[1],)))

# Dropout apaga aleatoriamente el 30% de las neuronas durante el entrenamiento
# Esto ayuda a prevenir overfitting (que el modelo memorice demasiado los datos)
model_deep.add(Dropout(0.3))

# Segunda capa oculta con 32 neuronas y activaci√≥n ReLU
model_deep.add(Dense(32, activation='relu'))

# Capa de salida con softmax para clasificaci√≥n multiclase
# El n√∫mero de neuronas depende del n√∫mero de clases (columnas de y_train_cat)
model_deep.add(Dense(y_train_cat.shape[1], activation='softmax'))

# Compilar el modelo:
# - optimizador: Adam (ajusta los pesos autom√°ticamente)
# - funci√≥n de p√©rdida: categorical_crossentropy (clasificaci√≥n multiclase con one-hot)
# - m√©trica: accuracy (porcentaje de aciertos)
model_deep.compile(optimizer='adam', loss='categorical_crossentropy', metrics=['accuracy'])

# Entrenamiento del modelo:
# - validation_split: usa el 20% de los datos como validaci√≥n
# - epochs: n√∫mero de iteraciones completas sobre el conjunto de datos
# - verbose=0: no muestra la salida del entrenamiento (se puede usar 1 o 2 para ver el progreso)
history_deep = model_deep.fit(X_train_log, y_train_cat, validation_split=0.2, epochs=50, verbose=0)


**¬øQu√© mejora esta red respecto a la anterior?**

- Tiene m√°s capas y m√°s neuronas.
- `Dropout` apaga aleatoriamente neuronas durante el entrenamiento (evita que el modelo memorice demasiado).
- Es m√°s robusta y generaliza mejor. Reduce el riesgo de overfitting


### 6.3 LSTM - Red para Series Temporales

In [None]:
import numpy as np
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import LSTM, Dense
from tensorflow.keras.utils import to_categorical

# Simulamos datos secuenciales: 100 muestras, cada una con 10 pasos de tiempo y 5 variables por paso
X_seq = np.random.rand(100, 10, 5)  # Forma: (n_muestras, pasos_temporales, n_variables)

# Etiquetas aleatorias binarias (0 o 1), codificadas como one-hot para clasificaci√≥n binaria
y_seq = to_categorical(np.random.randint(0, 2, 100))

# Crear modelo secuencial
model_lstm = Sequential()  # Modelo lineal: capa tras capa en orden

# A√±adir una capa LSTM con 32 neuronas
# Esta capa recibe secuencias de 10 pasos con 5 caracter√≠sticas cada uno
model_lstm.add(LSTM(32, input_shape=(10, 5)))

# Capa de salida con softmax para clasificaci√≥n binaria (2 clases ‚Üí one-hot)
model_lstm.add(Dense(2, activation='softmax'))

# Compilar el modelo usando funci√≥n de p√©rdida multiclase
model_lstm.compile(optimizer='adam', loss='categorical_crossentropy', metrics=['accuracy'])

# Entrenar el modelo con los datos secuenciales simulados
model_lstm.fit(X_seq, y_seq, epochs=10, verbose=0)

print("Modelo LSTM entrenado para datos secuenciales.")

**¬øCu√°ndo usar LSTM?**

- Cuando tienes secuencias temporales: sensores en el tiempo, texto, series temporales
- El modelo "recuerda" estados anteriores


### 6.4 CNN - Red Convolucional para Im√°genes o Datos Espaciales

In [None]:
from tensorflow.keras.layers import Conv2D, MaxPooling2D, Flatten, Dense
from tensorflow.keras.utils import to_categorical
import numpy as np
from tensorflow.keras.models import Sequential

# Simular im√°genes (100 muestras de 28x28 p√≠xeles con 1 canal ‚Üí im√°genes escala de grises)
X_img = np.random.rand(100, 28, 28, 1)
y_img = to_categorical(np.random.randint(0, 3, 100))  # Crea etiquetas aleatorias en 3 clases (codificadas one-hot)

# Crear el modelo secuencial
model_cnn = Sequential()  # Modelo secuencial: las capas se a√±aden en orden lineal

# Capa convolucional 2D: extrae caracter√≠sticas espaciales (bordes, texturas, etc.)
model_cnn.add(Conv2D(32, kernel_size=(3, 3), activation='relu', input_shape=(28, 28, 1)))

# Capa de max pooling: reduce la dimensionalidad espacial manteniendo lo m√°s relevante
model_cnn.add(MaxPooling2D(pool_size=(2, 2)))

# Capa Flatten: convierte la salida 2D anterior en un vector 1D para conectarla a capas densas
model_cnn.add(Flatten())

# Capa oculta totalmente conectada (fully connected)
model_cnn.add(Dense(64, activation='relu'))

# Capa de salida con softmax: devuelve una probabilidad para cada una de las 3 clases
model_cnn.add(Dense(3, activation='softmax'))

# Compilar el modelo con p√©rdida para clasificaci√≥n multiclase
model_cnn.compile(optimizer='adam', loss='categorical_crossentropy', metrics=['accuracy'])

# Entrenar el modelo con los datos simulados
model_cnn.fit(X_img, y_img, epochs=10, verbose=0)

print("Modelo CNN entrenado para datos con estructura espacial.")

**¬øPara qu√© sirve?**

- Para im√°genes, series espectrales, o cualquier dato con estructura bidimensional
- Detecta patrones locales con filtros convolucionales


### 6.5 Uso de EarlyStopping para evitar overfitting

In [None]:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense
from tensorflow.keras.callbacks import EarlyStopping  # Detiene el entrenamiento si no mejora en validaci√≥n

# Crear un callback de EarlyStopping:
# - monitor: m√©trica que se vigila (val_loss = p√©rdida en el conjunto de validaci√≥n)
# - patience: n¬∫ de √©pocas que se permite sin mejora antes de detener el entrenamiento
# - restore_best_weights: restaura los pesos del modelo con mejor rendimiento
early_stop = EarlyStopping(monitor='val_loss',
                           patience=5,
                           restore_best_weights=True)

# Definir un modelo secuencial simple con 2 capas ocultas y softmax en salida
model_es = Sequential([
    Dense(64, activation='relu', input_shape=(X_train_log.shape[1],)),  # Primera capa oculta
    Dense(32, activation='relu'),                                       # Segunda capa oculta
    Dense(y_train_cat.shape[1], activation='softmax')                   # Capa de salida (multiclase)
])

# Compilar el modelo:
# - Optimizador: Adam
# - P√©rdida: categorical_crossentropy (porque estamos usando codificaci√≥n one-hot)
# - M√©trica: accuracy
model_es.compile(optimizer='adam', loss='categorical_crossentropy', metrics=['accuracy'])

# Entrenar el modelo:
# - validation_split=0.2: usa el 20% para validaci√≥n interna
# - epochs=100: m√°ximo de √©pocas (EarlyStopping puede detener antes)
# - batch_size=32: muestras usadas por iteraci√≥n
# - callbacks: ejecuta EarlyStopping si no mejora la p√©rdida de validaci√≥n
# - verbose=0: no imprime el progreso (usa 1 si quieres ver m√°s)
model_es.fit(X_train_log, y_train_cat,
             validation_split=0.2,
             epochs=100,
             batch_size=32,
             callbacks=[early_stop],
             verbose=0)

print("Entrenamiento con EarlyStopping finalizado.")

**¬øQu√© hace EarlyStopping?**

- Supervisa el rendimiento en validaci√≥n
- Si no mejora durante varias √©pocas (`patience`), detiene el entrenamiento
- Ahorra tiempo y evita sobreajuste


## 7. Buenas pr√°cticas de programaci√≥n y consejos para aprender Machine Learning

Aprender a programar y resolver problemas de Machine Learning lleva tiempo. Estos consejos te ayudar√°n a desarrollar buenos h√°bitos desde el inicio y evitar errores comunes.


### 7.1 Estructura y claridad en tu c√≥digo

- Escribe tu c√≥digo en bloques l√≥gicos separados por secciones.
- Usa nombres de variables descriptivos (`X_train`, `y_test`, `modelo_rf`, etc).
- Deja comentarios claros explicando qu√© hace cada bloque.
- Elimina c√≥digo muerto o duplicado que no se est√© usando.


### 7.2 Prueba tu c√≥digo por partes

- No intentes resolver todo en una sola celda o paso.
- Ejecuta paso a paso: primero carga de datos, luego separaci√≥n, luego modelo...
- Si algo falla, imprime los shapes de tus variables y revisa el contenido con `.head()`.


### 7.3 Aprende a leer documentaci√≥n

- Usa `Shift + Tab` en notebooks o `help(funci√≥n)` para ver qu√© hace un m√©todo.
- Lee la documentaci√≥n oficial de Scikit-learn, Pandas, Seaborn y Keras.
- Copia ejemplos peque√±os y prueba cambiando par√°metros.


### 7.4 Reutiliza tus propios c√≥digos y este manual como plantillas

- Guarda notebooks que ya te han funcionado.
- Usa una plantilla para cargar datos, otra para entrenar modelos, otra para gr√°ficas.
- Esto te permitir√° resolver ejercicios m√°s r√°pido en el futuro y te dar√° confianza.


### 7.5 Ten paciencia y repite lo b√°sico muchas veces

- No intentes dominar todos los modelos a la vez.
- Domina primero uno (RandomForest o Regresi√≥n Log√≠stica) y eval√∫alo bien.
- El aprendizaje real viene de repetir un problema con distintos datasets y estructuras.
