# Taller Práctico: Limpieza de Datos con Pandas y Polars

## Objetivo
En este taller, aprenderás a realizar tareas fundamentales de limpieza de datos utilizando dos de las librerías más potentes en Python: **Pandas** y **Polars**. El objetivo es que entiendas las diferencias y similitudes entre ambas, y cómo manejar datasets del mundo real que suelen estar "sucios" (valores faltantes, tipos de datos incorrectos, duplicados, etc.).

## 1. Selección del Dataset
Para realizar esta práctica, necesitarás descargar un dataset de Kaggle. Te propongo las siguientes opciones (elige una):

1.  **Used Cars Dataset**: Contiene información sobre coches de segunda mano. Es ideal porque suele tener columnas con texto "sucio" (e.g., precios con símbolos de moneda, kilometraje con unidades) y valores nulos.
    *   *Búsqueda en Kaggle*: "Used Cars Dataset" (ej. el de Austin Reese).
2.  **Netflix Movies and TV Shows**: Contiene metadatos de contenido de Netflix. Perfecto para practicar limpieza de cadenas de texto (directores, actores) y manejo de fechas.
    *   *Búsqueda en Kaggle*: "Netflix Movies and TV Shows".
3.  **San Francisco Building Permits**: Un dataset más grande y "desordenado", con muchos valores nulos y tipos de datos mezclados.
    *   *Búsqueda en Kaggle*: "San Francisco Building Permits".

**Instrucciones:**
1.  Descarga el archivo CSV de tu elección desde Kaggle.
2.  Colócalo en la misma carpeta que este notebook (o en una subcarpeta `data/`).
3.  Renómbralo a algo sencillo, por ejemplo: `dataset.csv`.


## 2. Instalación e Importación de Librerías
Asegúrate de tener instaladas las librerías necesarias. Descomenta la siguiente línea si necesitas instalarlas.

In [1]:
# !pip install pandas polars matplotlib seaborn

In [2]:
import pandas as pd
import polars as pl
import numpy as np

## 3. Carga de Datos

### 3.1 Cargar con Pandas
Carga el dataset utilizando Pandas y muestra las primeras 5 filas.

In [3]:
# Tu código aquí (Pandas)
df_pandas = pd.read_csv('dataset.csv') # Ajusta el nombre del archivo
df_pandas.head()

FileNotFoundError: [Errno 2] No such file or directory: 'dataset.csv'

### 3.2 Cargar con Polars
Realiza la misma operación utilizando Polars.

In [None]:
# Tu código aquí (Polars)
df_polars = pl.read_csv('dataset.csv') # Ajusta el nombre del archivo
df_polars.head()

## 4. Inspección General del Dataset

Antes de limpiar, debemos conocer los datos.
**Tarea:** Muestra la información general (tipos de datos, columnas) y estadísticas descriptivas básicas.

In [None]:
# Pandas: info() y describe()
print("--- Pandas Info ---")
# ...

print("\n--- Pandas Describe ---")
# ...

In [None]:
# Polars: describe() y glimpse() (si prefieres)
print("--- Polars Describe ---")
# ...

## 5. Manejo de Valores Faltantes (Nulls/NaNs)

Los datos reales raramente están completos.
**Tarea:**
1.  Cuenta cuántos valores nulos hay por columna.
2.  Decide una estrategia para una columna importante con nulos (e.g., rellenar con la media, moda, o un valor fijo como "Desconocido", o eliminar las filas).
3.  Aplica esa estrategia.

In [None]:
# --- PANDAS ---
# 1. Contar nulos

# 2. Rellenar o eliminar (Ejemplo: rellenar columna 'X' con la media)
# df_pandas['columna'] = df_pandas['columna'].fillna(valor)


In [None]:
# --- POLARS ---
# 1. Contar nulos (null_count)

# 2. Rellenar o eliminar (fill_null, drop_nulls)
# df_polars = df_polars.with_columns(pl.col('columna').fill_null(valor))


## 6. Manejo de Duplicados

**Tarea:** Verifica si existen filas totalmente duplicadas y elimínalas.

In [None]:
# --- PANDAS ---
# Verificar y eliminar duplicados


In [None]:
# --- POLARS ---
# Verificar y eliminar duplicados (unique)


## 7. Transformación de Datos y Limpieza de Strings

A menudo, los números vienen como texto (e.g., "$1,000", "50 kg") o las fechas no tienen el formato correcto.

**Tarea (Ejemplo Genérico):**
1.  Selecciona una columna de tipo string que debería ser numérica o fecha.
2.  Limpia el string (quita símbolos como '$', 'kg', ',').
3.  Convierte la columna al tipo correcto (int, float, o datetime).

*Nota: Si elegiste el dataset de coches, la columna de 'precio' o 'kilometraje' es ideal para esto.*

In [None]:
# --- PANDAS ---
# Ejemplo: df_pandas['precio'] = df_pandas['precio'].str.replace('$', '').astype(float)



In [None]:
# --- POLARS ---
# Ejemplo:
# df_polars = df_polars.with_columns(
#     pl.col('precio').str.replace('$', '').cast(pl.Float64)
# )


## 8. Conclusiones y Comparativa

Escribe brevemente tus conclusiones:
- ¿Qué librería te pareció más intuitiva?
- ¿Notaste alguna diferencia de velocidad (si el dataset era grande)?
- ¿Qué dificultades encontraste en la limpieza?

## 9. Guardar el Dataset Limpio
Finalmente, guarda el dataset limpio en un nuevo archivo CSV.

In [None]:
# Pandas
# df_pandas.to_csv('dataset_limpio_pandas.csv', index=False)

# Polars
# df_polars.write_csv('dataset_limpio_polars.csv')