# Práctica 1a: Limpieza de datos (ZMM Monterrey)
## Enfoque en calidad de datos

## Objetivo
El archivo **`ubermty.xlsx`** contiene información sobre viajes en taxi y Uber en la Zona Metropolitana de Monterrey (ZMM). Al ser datos registrados por usuarios a través de una aplicación, es común encontrar inconsistencias (valores atípicos, faltantes, duplicados o registros imposibles) que pueden distorsionar cualquier análisis.

El propósito de esta práctica es limpiar y asegurar la calidad de la base para que pueda utilizarse en un estudio sobre patrones de viaje en la ZMM. Se espera que las decisiones de limpieza se fundamenten en criterios lógicos y cuantitativos, y que puedas justificar cada regla aplicada.


## Actividades

La base de datos incluye las siguientes variables:

- **id**: identificador único de cada viaje.  
- **pickup_datetime**: fecha y hora en que se activó el taxímetro.  
- **dropoff_datetime**: fecha y hora en que se desactivó el taxímetro.  
- **dropoff_longitude**: longitud geográfica del lugar donde se desactivó el taxímetro.  
- **dropoff_latitude**: latitud geográfica del lugar donde se desactivó el taxímetro.  
- **trip_duration**: duración del viaje en segundos.  
- **dist_meters**: distancia recorrida durante el viaje en metros.  
- **wait_sec**: tiempo que el vehículo estuvo completamente detenido durante el viaje (en segundos).  

> Sugerencia: además de estas variables, es útil crear variables derivadas para detectar inconsistencias, por ejemplo:  
> - velocidad promedio (km/h) = distancia / duración  
> - proporción de espera = wait_sec / trip_duration


Analiza estas variables para:

1. **Inspección inicial y medidas numéricas (obligatorio)**  
   - Revisa tipos de datos, valores faltantes y duplicados.  
   - Utiliza medidas descriptivas para sustentar tus decisiones: mínimos, máximos, media, mediana y percentiles (por ejemplo 1%, 5%, 95%, 99%).  
   - Calcula al menos una variable derivada (por ejemplo, velocidad promedio en km/h) para identificar anomalías.

2. **Identificar inconsistencias**  
   Busca valores atípicos, registros faltantes o cualquier otra anomalía que comprometa la calidad de los datos. Ejemplos:
   - distancias o duraciones excesivamente grandes o cercanas a cero  
   - velocidad promedio demasiado baja o demasiado alta (según criterios cuantitativos)  
   - viajes con wait_sec > trip_duration 
   - fechas/hora con orden imposible (dropoff antes de pickup), si se presentara  

3. **Eliminar o corregir observaciones erróneas (con criterios claros)**  
   Aplica reglas explícitas para descartar o corregir registros inconsistentes.  
   - Justifica cada regla con datos (por ejemplo, apoyándote en percentiles o en rangos razonables).  
   - Si corriges valores (en lugar de eliminarlos), explica la lógica.

4. **Justificar y documentar decisiones**  
   Documenta los criterios utilizados y reporta el impacto:
   - número de filas iniciales vs finales  
   - cuántas observaciones se eliminaron por cada regla (puedes crear una tabla-resumen)

5. **Visualización**  
   Crea un gráfico que ilustre la distribución de las distancias (`dist_meters`) después de la limpieza. Puedes usar:
   - histograma (recomendado)  
   - boxplot (opcional, como complemento)  

> **Extra (opcional):** compara la distribución de distancias **antes vs después** de la limpieza y comenta las diferencias.


## Uso de IA Generativa (para profundizar)

Se espera que utilices una herramienta de IA Generativa (por ejemplo, ChatGPT, Copilot, Claude, Gemini u otra similar) no para resolver directamente la práctica, sino para **ir más allá de lo que se pide**.

Puedes usarla para:
- Explorar interpretaciones adicionales de los resultados.
- Proponer visualizaciones alternativas o métricas complementarias.
- Reflexionar sobre posibles extensiones del análisis.

Comparte el *prompt* utilizado y la respuesta o resultado obtenido.

## Entregable
Guarda y exporta este notebook en formato html o (o "Imprime" como pdf) y compártelo en la plataforma del curso.

## Rúbrica
- *Preparación y calidad de datos (20%)*: inspección inicial, manejo de datos faltantes, coherencia de los datos, estructura adecuada para un análisis.
- *Uso de medidas numéricas y transformaciones (20%)*: uso de medidas descriptivas, creación de variables o correcciones conceptuales
- *Visualización y comunicación gráfica (20%)*: visualizaciones adecuadas al objetivo.
- *Criterio analítico y justificación (20%)*: decisiones razonadas y criterios explícitos.
- *Extensión del análisis con IA Generativa (20%)*: uso de la IA para ir más allá de lo solicitado, mediante un prompt que muestre una reflexión crítica de los objetivos.


**Datos (descarga directa):**  
`https://github.com/adan-rs/amd/raw/main/data/ubermty.xlsx`
