
# **Evaluación Formativa: Preparación de Datos - DUOC FM**

## **¿Qué vas a lograr con este desafío?**
Vas a enfrentarte a un dataset real, sin procesar, y tu misión será transformarlo en un conjunto de datos limpio, coherente, enriquecido y listo para entrenar un modelo de Machine Learning.

**Este desafío no es solo técnico, sino reflexivo.**  
Debes cuestionar cada decisión, argumentar con fundamentos y aprovechar herramientas como ChatGPT *sin dejar que piense por ti*.

---

## **Indicaciones generales**
- **No se entregan soluciones ni funciones listas**, salvo el código de apertura del dataset.
- Cada sección contiene preguntas, pasos sugeridos y espacio para justificar.
- Puedes consultar fuentes externas, documentación y ChatGPT como apoyo, pero **tu razonamiento debe quedar registrado**.

---

## **Carga del dataset**

Usa el siguiente código para cargar el dataset base. Siéntete libre de cambiarlo por otra versión del mismo (año, fuente, formato) si quieres ampliar el desafío.

```python
import pandas as pd

url = "tripdata_2024.parquet"
df = pd.read_parquet(url)
df.head()
```



Has recibido un conjunto de datos reales con registros de viajes en taxi de la ciudad de Nueva York. Este dataset no está limpio ni documentado de forma completa. Además, algunos datos están mal tipificados y no todos los códigos están explicados dentro del archivo.

Tu tarea es actuar como analista de datos, reconstruyendo no solo el contenido y estructura del dataset, sino también su significado. Deberás entregar un diccionario de datos completo, preciso y justificado, como si fueras parte de un equipo técnico que necesita dejar este recurso listo para futuros análisis y modelamientos.







**Pregunta inicial:**  
> ¿Qué ves que te llame la atención? ¿Qué crees que no está bien desde ya?



## **1. Diagnóstico y análisis exploratorio**

Antes de transformar, primero observa.

### Actividad:
- Explora la estructura del DataFrame
- Identifica variables numéricas, categóricas y temporales
- Revisa si hay datos faltantes o inconsistencias

### Preguntas para ti:
- ¿Qué columnas parecen más útiles? ¿Cuáles menos?
- ¿Dónde ves valores sospechosos?
- ¿Qué tipo de errores pueden afectar el análisis?
- ¿Cómo podrías detectar outliers sin saber sus rangos válidos?

*(Puedes usar métodos como `.info()`, `.describe()`, `.value_counts()`, `.isnull().sum()` y visualizaciones simples.)*

## Propuesta opcional:
*Usa histplot, boxplot, countplot o pairplot para observar la forma, dispersión y rarezas.*

## Razón pedagógica:
*A veces los outliers, valores nulos o codificaciones erradas son más visibles en una gráfica que en un .describe().*


In [None]:
### Comencemos :)


## **2. Decisiones de imputación**

No basta con rellenar: debes tomar decisiones conscientes.

### Actividad:
- Detecta columnas con valores nulos o atípicos.
- Aplica al menos 2 métodos de imputación distintos y compara sus efectos.
- Reflexiona sobre lo que cada método está asumiendo sobre tus datos.

### Preguntas para ti:
- ¿Qué pierde el dataset al imputar?
- ¿Qué variable puede distorsionarse más por un mal método?
- ¿Cuándo vale más eliminar una fila que rellenarla?

*(Recuerda: imputar es una reconstrucción de la realidad. ¿Qué realidad estás creando?)*


In [None]:
### Comencemos :)


## **3. Codificación de variables categóricas**

### Actividad:
- Identifica al menos 2 columnas categóricas.
- Aplica dos métodos diferentes de codificación (Label, One-Hot, Binary, etc.).
- Justifica cuál elegirías y por qué.

### Preguntas para ti:
- ¿Tu codificación introduce un orden que no existe?
- ¿Qué tipo de modelo usarás y cómo influye eso en tu decisión?
- ¿Estás usando codificación “por costumbre” o por análisis?

*(Puedes usar la documentación de `pandas.get_dummies()` o `sklearn.preprocessing`.)*


In [None]:
### Comencemos :)


## **4. Normalización y escalado**

### Actividad:
- Elige al menos 2 variables numéricas.
- Prueba con distintos escaladores y visualiza cómo cambian las distribuciones.
- Evalúa si eso es necesario para el tipo de modelo que planeas usar.

### Preguntas para ti:
- ¿Qué escalador cambia menos la distribución?
- ¿Qué pasa si escalas variables con muchos outliers?
- ¿Es necesario escalar si usarás un modelo basado en árboles?

*(Puedes comparar StandardScaler, MinMaxScaler, RobustScaler, etc.)*

## Propuesta opcional:
*Mostrar un antes y después con histogramas o boxplots (sns.histplot, sns.boxplot) para cada escalador.*

## Razón pedagógica:
*Ayuda a entender cómo afecta cada método la forma de los datos.*

In [None]:
### Comencemos :)


## **5. Creación de nuevas variables**

### Actividad:
- Crea al menos 3 variables nuevas usando combinaciones, fechas, ubicaciones u otras fuentes externas. (Debes usar almenos una fuente externa)
- Evalúa si aportan valor predictivo real o si solo aumentan el ruido.

### Preguntas para ti:
- ¿Tu variable agrega información no contenida en las demás?
- ¿Se puede medir su aporte al modelo?
- ¿Es fácil de explicar para alguien que no sabe de datos?

### Propuesta opcional:
*Comparar visualmente cómo se distribuyen las nuevas variables o si ayudan a separar clases (con scatterplots, heatmaps, etc.).*

### Razón pedagógica:
* Las nuevas variables no deben "verse bonitas", sino ser útiles o interpretables.*

In [None]:
### Comencemos :)


## **6. Análisis descriptivo final**

### Actividad:
- Vuelve a hacer el análisis exploratorio del inicio (`describe`, `info`, visualizaciones).
- Compara contra la versión original del dataset.

### Preguntas para ti:
- ¿El dataset ahora es más claro, más útil, más balanceado?
- ¿Qué variable fue más transformada? ¿Cuál mantuviste intacta, y por qué?


In [None]:
### Comencemos :)


## **7. Revisión cruzada con IA**

### Actividad:
- Copia todo tu pipeline (en código o en texto) y consúltalo con ChatGPT.
- Analiza las sugerencias que te entrega.

### Preguntas para ti:
- ¿En qué coincides y en qué discrepas?
- ¿Qué harías distinto luego de leer sus observaciones?
- ¿Te diste cuenta de algún sesgo o error no detectado?

*(Esta etapa es clave: pensar con la IA, no dejar que piense por ti.)*


In [None]:
### Comencemos :)


## **8. Dataset final listo para modelar**

Tu DataFrame limpio y transformado debe quedar como `df_final`.

Este dataset debe:
- Estar libre de nulos o incoherencias
- Tener variables bien codificadas y/o escaladas
- Tener variables nuevas justificadas
- Estar alineado con el problema predictivo que elegiste
- Debe tener un diccionario en un archivo PDF que contenga la conversión y su descripción de columnas y variables.

Puedes guardar tu resultado con:

```python
df_final.to_csv("dataset_preparado.csv", index=False)
```
