# Preparación y División del Conjunto de Datos
En esta notebook, vamos a explorar los pasos necesarios para preparar y dividir un conjunto de datos para su uso en modelos de Machine Learning.

## 1. Introducción
La preparación y división del conjunto de datos es un paso crucial en el proceso de Machine Learning. Nos aseguramos de que los datos estén en un formato adecuado y se dividan correctamente para evitar sobreajuste y evaluar de manera justa el rendimiento del modelo.

## 2. Cargar Librerías
Primero, vamos a cargar las librerías necesarias.

In [1]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split, KFold
from sklearn.metrics import accuracy_score

## 3. Cargar el Conjunto de Datos
Vamos a cargar un conjunto de datos de ejemplo. En este caso, utilizaremos el famoso conjunto de datos `Iris`.

In [2]:
from sklearn.datasets import load_iris
data = load_iris()
df = pd.DataFrame(data.data, columns=data.feature_names)
df['target'] = data.target
df.head()

## 4. Preparación del Conjunto de Datos
En esta sección, limpiaríamos y transformaríamos los datos si fuera necesario. Dado que `Iris` es un conjunto de datos limpio, este paso será mínimo.

In [3]:
# No se requiere limpieza en el conjunto de datos Iris
df.isnull().sum()  # Verificar valores nulos

## 5. División del Conjunto de Datos
Vamos a dividir el conjunto de datos en conjuntos de entrenamiento y prueba.

In [4]:
X = df.drop('target', axis=1)
y = df['target']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
X_train.shape, X_test.shape

## 6. Validación Cruzada (K-fold)
La validación cruzada es una técnica utilizada para evaluar la capacidad de generalización de un modelo. Vamos a implementar la validación cruzada K-fold.

In [5]:
kf = KFold(n_splits=5)
for train_index, val_index in kf.split(X_train):
    X_kf_train, X_kf_val = X_train.iloc[train_index], X_train.iloc[val_index]
    y_kf_train, y_kf_val = y_train.iloc[train_index], y_train.iloc[val_index]
    
    # Aquí entrenaríamos el modelo y evaluaríamos en el conjunto de validación
    # Por simplicidad, omitimos el entrenamiento en este ejemplo

## 7. Evaluación del Modelo
Finalmente, evaluamos el rendimiento del modelo utilizando el conjunto de prueba.

In [6]:
# Ejemplo simple de evaluación con un modelo de clasificación
from sklearn.ensemble import RandomForestClassifier

model = RandomForestClassifier(random_state=42)
model.fit(X_train, y_train)
y_pred = model.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print(f'Accuracy: {accuracy}')

## Ejercicios Prácticos
A continuación, se presentan algunos ejercicios prácticos para que puedas aplicar lo aprendido.

### Ejercicio 1: Cargar y Preparar un Nuevo Conjunto de Datos
1. Busca un conjunto de datos público que te interese (por ejemplo, en Kaggle o UCI Machine Learning Repository).
2. Cárgalo en un DataFrame de pandas.
3. Realiza una limpieza básica de los datos (elimina nulos, transforma variables si es necesario).
4. Describe brevemente el conjunto de datos y los pasos de preparación realizados.

### Ejercicio 2: División del Conjunto de Datos
1. Divide el conjunto de datos que cargaste en el ejercicio 1 en conjuntos de entrenamiento y prueba (80% - 20%).
2. Imprime las dimensiones de los conjuntos de entrenamiento y prueba.

### Ejercicio 3: Validación Cruzada
1. Implementa la validación cruzada K-fold (con k=5) en el conjunto de datos de entrenamiento.
2. Entrena un modelo simple (por ejemplo, una regresión logística) en cada fold y evalúa su rendimiento.
3. Calcula el promedio de las métricas de rendimiento obtenidas en cada fold.

### Ejercicio 4: Evaluación del Modelo
1. Entrena un modelo de clasificación (por ejemplo, un árbol de decisión) utilizando el conjunto de datos de entrenamiento completo.
2. Evalúa el modelo en el conjunto de prueba.
3. Calcula y reporta las métricas de evaluación (por ejemplo, accuracy, precision, recall).