# **Preparación de los Datos**
La preparación de los datos es una etapa crucial antes de entrenar los modelos de machine learning. En esta fase, transformamos los datos en un formato adecuado para el modelado. Esto incluye el manejo de valores nulos, la codificación de variables categóricas, el escalado de las variables numéricas y la división de los datos en conjuntos de entrenamiento y prueba.

El objetivo principal de esta fase es garantizar que los datos estén limpios, bien estructurados y listos para ser utilizados por los modelos de machine learning en la siguiente etapa.


### Cargar el Dataset y Crear la Carpeta de Trabajo
Primero, nos aseguramos de que la carpeta `data` exista para almacenar los conjuntos de datos preparados. Luego, cargamos el dataset original (`ML_cars.csv`) que contiene las características y precios de los vehículos. Esta carga es necesaria para iniciar la limpieza y transformación de los datos.


In [12]:
import os
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

# Crear la carpeta 'data' si no existe
if not os.path.exists('data'):
    os.makedirs('data')

# 1. Cargar el dataset
df = pd.read_csv(r"C:/Users/Usuario/Desktop/PROYECTO_M6/Data/ML_cars.csv")

### Manejo de Valores Nulos
Uno de los primeros pasos en la preparación de los datos es manejar los valores nulos en las columnas numéricas. Los valores nulos pueden causar problemas durante el entrenamiento del modelo, por lo que los reemplazamos con la mediana de cada columna numérica. La mediana es robusta frente a outliers y asegura que los valores sean razonables para continuar con el análisis.

In [13]:
# 2. Manejo de valores nulos (solo columnas numéricas)
numeric_cols = df.select_dtypes(include=['float64', 'int64']).columns
df[numeric_cols] = df[numeric_cols].fillna(df[numeric_cols].median())

### Codificación de Variables Categóricas
Muchas variables en el dataset son categóricas, como el tipo de combustible o la carrocería del vehículo. Para que los modelos de machine learning puedan procesar estas variables, utilizamos la técnica de **One-Hot Encoding**, que convierte cada categoría en una nueva columna binaria (0 o 1). Esto permite que las variables categóricas sean tratadas de manera adecuada durante el entrenamiento del modelo.

In [14]:
# 3. Codificación de variables categóricas
df_encoded = pd.get_dummies(df, drop_first=True)

### Escalado de Variables Numéricas
El escalado de las variables numéricas es un paso importante, ya que garantiza que todas las características estén en la misma escala. Utilizamos **StandardScaler**, que transforma los valores de las variables numéricas para que tengan una media de 0 y una desviación estándar de 1. Esto es particularmente útil para modelos que son sensibles a la magnitud de las variables, como la regresión lineal o los algoritmos basados en distancias.

In [15]:
# 4. Escalado de variables numéricas
scaler = StandardScaler()
numeric_cols_encoded = df_encoded.select_dtypes(include=['float64', 'int64']).columns
df_encoded[numeric_cols_encoded] = scaler.fit_transform(df_encoded[numeric_cols_encoded])

### Separar las Características (X) y la Variable Objetivo (y)

Dividimos el dataset en dos partes:
- **X**: Las características del vehículo (todas las variables excepto el precio).
- **y**: El precio del vehículo, que será la variable objetivo para predecir.

Esta separación es esencial para entrenar los modelos, ya que les permitirá aprender cómo las características se relacionan con el precio.


In [16]:
# 5. Separar las características (X) y la variable objetivo (y)
X = df_encoded.drop('price', axis=1)
y = df_encoded['price']

### División en Conjuntos de Entrenamiento y Prueba
Para evaluar el rendimiento de los modelos, dividimos los datos en un **conjunto de entrenamiento** (80%) y un **conjunto de prueba** (20%). El conjunto de entrenamiento se utiliza para entrenar el modelo, mientras que el conjunto de prueba se reserva para evaluar su rendimiento en datos no vistos, lo que nos permite medir la capacidad de generalización del modelo.

In [17]:
# 6. División en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

### Guardar los Conjuntos de Datos Preparados
Una vez que los datos han sido procesados y divididos, guardamos los conjuntos de entrenamiento y prueba en archivos CSV. Esto nos permitirá reutilizar estos conjuntos en la fase de modelado, sin necesidad de volver a preparar los datos en cada ejecución. Los archivos generados se almacenan en la carpeta `data`.

In [18]:
# 7. Guardar los conjuntos en archivos CSV dentro de la carpeta 'data'
X_train.to_csv('data/X_train.csv', index=False)
X_test.to_csv('data/X_test.csv', index=False)
y_train.to_csv('data/y_train.csv', index=False)
y_test.to_csv('data/y_test.csv', index=False)

print("Preparación de datos completa.")

Preparación de datos completa.


## **Conclusión de la Preparación de los Datos**

Con la preparación de los datos completa, hemos manejado los valores nulos, transformado las variables categóricas, escalado las variables numéricas y dividido los datos en conjuntos de entrenamiento y prueba. Los datos están ahora listos para ser utilizados en la fase de modelado, donde construiremos y evaluaremos los modelos de machine learning para predecir el precio de los vehículos.
