# Imputación de datos

En este cuaderno trabajaremos con un conjunto de datos de viajes en taxi que incluye información como la distancia del viaje, tiempos de recogida y de llegada, condiciones del tráfico y clima, número de pasajeros, duración, etc.
El objetivo habitual de estos datos puede ser predecir la tarifa del viaje (Fare Amount), aunque también se utilizan para analizar patrones y relaciones entre variables.

##  Instalación de Seaborn
```python
%pip install seaborn
```
### Explicación
- `%pip install seaborn` es un **comando mágico** de Jupyter que instala la librería Seaborn dentro del entorno activo de Python.
- Seaborn se utiliza para **visualizaciones** estadísticas y se integra bien con pandas y matplotlib.
- Esta celda se ejecuta **una sola vez** para asegurarse de que la librería esté instalada.

In [None]:
%pip install seaborn

### Algunos recursos de Seaborn y graficación en python:
- [Tutorial de Seaborn](https://www.geeksforgeeks.org/python-seaborn-tutorial/)
- [Galeria de gráficas en Python](https://python-graph-gallery.com/)

## Importaciones de Librerías
- **numpy**: Librería para manejo de arreglos y funciones matemáticas de bajo nivel.
- **pandas**: Librería principal para manipulación de datos (estructuras DataFrame, etc.).
- **seaborn**: Librería de visualización que se basa en matplotlib, con estilo y funciones estadísticas predefinidas.

In [18]:
import numpy as np 
import pandas as pd 
import seaborn as sns

## Lectura del CSV
- **pd.read_csv("taxi_trip_pricing.csv")** lee el archivo CSV llamado `taxi_trip_pricing.csv` y lo carga en un **DataFrame** llamado `data`.
- El CSV contiene las variables descritas en la sección de Markdown siguiente.

In [4]:
data=pd.read_csv("taxi_trip_pricing.csv")

## Sobre el Conjunto de Datos

### Descripción del Conjunto de Datos

Este conjunto de datos está diseñado para predecir las tarifas de viajes en taxi en función de varios factores, como la distancia, la hora del día, las condiciones del tráfico y más. 
## Variables

- **Distance** (en kilómetros): La longitud del viaje.
- **Pickup Time**: La hora de inicio del viaje.
- **Dropoff Time**: La hora de finalización del viaje.
- **Traffic Condition**: Indicador categórico del tráfico (ligero, medio, intenso).
- **Passenger Count**: Número de pasajeros en el viaje.
- **Weather Condition**: Datos categóricos sobre el clima (despejado, lluvia, nieve).
- **Trip Duration** (en minutos): Duración total del viaje.
- **Fare Amount** (objetivo): El costo del viaje (en USD).


## Vista de las primeras filas
```python
data.head()
```
- Muestra las **primeras 5 filas** del DataFrame `data`.
- Útil para verificar que los datos se hayan cargado correctamente y ver la **estructura** y **nombres de columnas**.

In [None]:
data.head()

## Vista de las últimas filas
```python
data.tail()
```
- Muestra las **últimas 5 filas** del DataFrame `data`.
- Permite chequear que no existan problemas al final del archivo o datos raros al cierre del dataset.

In [None]:
data.tail()

## Información del DataFrame
- **data.info()** detalla:
  - Número de filas y columnas.
  - Tipo de cada columna (int, float, object, etc.).
  - Cuántos **valores no nulos** hay en cada columna (útil para detectar missing values).


In [None]:
data.info()

## Conteo de valores nulos
- **data.isna()** genera un DataFrame booleano donde True/False indica si el valor es nulo.
- **.sum()** cuenta cuántos valores nulos hay **por columna**.
- Esto sirve para ver la magnitud de datos faltantes en cada variable.

In [None]:
data.isna().sum()

## Imputación simple con la moda
### Explicación
- Se **itera** sobre cada columna del DataFrame `data`:
  1. Se calcula la **moda** con `data[column].mode()[0]` (la moda es el valor más frecuente).
  2. Se **imputa** (reemplaza) los valores nulos con ese valor de moda usando `fillna(..., inplace=True)`.
- Finalmente, se vuelve a **imprimir** `data.isna().sum()` para corroborar que **no queden** valores nulos.
- Es un método muy simple de imputación, útil para datos categóricos; con datos numéricos puede distorsionar la distribución, pero es una forma rápida de “rellenar” huecos.

In [None]:
for column in data.columns:
    mode_value = data[column].mode()[0]  
    data[column].fillna(mode_value, inplace=True)
    
print(data.isna().sum())

## Visualización con Pairplot (Seaborn)
- **sns.pairplot(data)** crea un **grid de gráficas** de dispersión (scatter) y distribuciones (histogramas) para cada par de columnas numéricas.
- Es una forma rápida de **explorar** relaciones entre variables y distribuciones univariadas.
- Esto puede servir para buscar correlaciones visuales, outliers, etc.
- Ten en cuenta que si hay muchas columnas, el pairplot será muy grande e incluso lento de renderizar.

In [None]:
sns.pairplot(data)

## Subconjunto de Datos según Condiciones
A continuación, se añaden **ejemplos** de cómo obtener subconjuntos de datos de acuerdo a condiciones específicas de las variables. Esto se hace mediante **filtrado** en pandas.

## Filtrar por Distancia
```python
# Ejemplo: Crear un DataFrame con viajes cuya distancia sea mayor a 10 km.
largos = data[data['Distance'] > 10]
largos.head()
```
- `largos = data[data['Distance'] > 10]` filtra todas las filas de `data` donde la columna 'Distance' sea mayor que 10.
- Se asigna ese subconjunto a la variable `largos`.
- `largos.head()` mostrará las 5 primeras filas del subconjunto filtrado.

In [None]:
# Ejemplo: Crear un DataFrame con viajes cuya distancia sea mayor a 10 km.
largos = data[data['Distance'] > 10]
largos.head()

## Filtrar por Condiciones Categóricas (Tráfico)
```python
# Ejemplo: Crear un DataFrame con viajes en hora pico donde el tráfico sea intenso.
trafico_intenso = data[data['Traffic Condition'] == 'intenso']
trafico_intenso.head()
```
### Explicación
- Se verifica la columna `'Traffic Condition'` buscando aquellos registros donde sea igual a `'intenso'`.
- Asigna ese subconjunto a `trafico_intenso`.
- Útil para aislar casos con un alto nivel de tráfico.

In [None]:
# Ejemplo: Crear un DataFrame con viajes donde el tráfico sea intenso.
trafico_intenso = data[data['Traffic Condition'] == 'intenso']
trafico_intenso.head()

## Filtrar con Múltiples Condiciones
```python
# Ejemplo: Viajes con Distance > 5 km y Fare Amount > 20 USD
subconjunto = data[(data['Distance'] > 5) & (data['Fare Amount'] > 20)]
subconjunto.head()
```
### Explicación
- Usa **operadores lógicos**: `&` para `AND`, `|` para `OR`, `~` para NOT.
- Filtra filas que cumplan con **ambas** condiciones:
  1. `Distance` mayor de 5 km.
  2. `Fare Amount` mayor de 20.
- Asigna el resultado a `subconjunto` y muestra sus primeras filas.

In [None]:
# Ejemplo: Viajes con Distance > 5 km y Fare Amount > 20 USD
subconjunto = data[(data['Distance'] > 5) & (data['Fare Amount'] > 20)]
subconjunto.head()

## Conclusión
En este Notebook:
- Se instala y carga **seaborn**.
- Se importan **numpy** y **pandas**.
- Se **lee** el CSV `taxi_trip_pricing.csv` y se exploran los datos (head, tail, info, valores nulos).
- Se **imputan** valores nulos usando la **moda** de cada columna.
- Se realiza un **pairplot** para visualizar la relación entre las variables.
- **Celdas adicionales** demuestran cómo filtrar datos en pandas para crear **subconjuntos** basados en condiciones.

Con estas herramientas, puedes:
1. Explorar datos iniciales.
2. Limpiar valores nulos de forma sencilla (aunque en la práctica podrías usar otros métodos de imputación).
3. Visualizar correlaciones con seaborn.
4. Filtrar filas bajo determinadas condiciones para análisis más detallados.