# 🧼 Limpieza de Datos con Pandas

Este notebook muestra cómo limpiar un archivo de datos con errores comunes como nulos, duplicados, tipos incorrectos, y más.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

## 1. Crear DataFrame con errores comunes

In [None]:
data = {
    ' Fecha ': ['2023-01-01', '2023-01-02', '2023-01-03', np.nan, '2023-01-05'],
    ' Producto ': ['  Manzana', 'Pera ', 'manzana', 'Plátano', 'Uva'],
    'Cantidad': [10, 15, None, 5, 12],
    'Precio': [1.5, 2.0, 1.5, -1.0, 2.5],
    'Cliente': ['Juan', 'María', 'juan', 'Luis', None]
}
df = pd.DataFrame(data)
df

## 2. Limpieza paso a paso

In [None]:
# Renombrar columnas
df.columns = df.columns.str.strip().str.lower()

# Limpiar texto
df['producto'] = df['producto'].str.strip().str.lower()
df['cliente'] = df['cliente'].str.strip().str.lower()

# Convertir fecha
df['fecha'] = pd.to_datetime(df['fecha'], errors='coerce')

# Rellenar valores nulos
df['cantidad'] = df['cantidad'].fillna(0)
df['cliente'] = df['cliente'].fillna('desconocido')

# Corregir precios negativos
df = df[df['precio'] > 0]

# Crear columna total
df['total'] = df['cantidad'] * df['precio']

df

## 3. Agrupación por producto

In [None]:
resumen = df.groupby('producto').agg({
    'cantidad': 'sum',
    'total': 'sum'
}).sort_values(by='total', ascending=False)
resumen

## 4. Visualización de productos más vendidos

In [None]:
resumen['total'].plot(kind='bar', figsize=(8,5), title='Total Vendido por Producto', ylabel='USD', xlabel='Producto', color='skyblue')
plt.grid(True)
plt.tight_layout()
plt.show()