# 🧠 Día 3 – Manipulación Avanzada con Pandas
Este notebook cubre técnicas avanzadas para manipular y limpiar datos usando Pandas. Es fundamental para poder trabajar con datasets reales.


In [4]:
import pandas as pd
import numpy as np

## 📥 Cargar dataset de ejemplo
Puedes usar tu archivo `ventas.csv` u otro dataset similar. Simularemos uno si no tienes otro.

In [7]:
# Simulación de datos si no hay archivo disponible

df = pd.DataFrame({
    'producto': ['A', 'B', 'C', 'A', 'C', 'B', 'A'],
    'precio': [100, 150, 200, 120, 180, np.nan, 130],
    'cantidad': [5, 10, 3, np.nan, 8, 2, 6],
    'categoria': ['x', 'y', 'x', 'y', 'x', 'y', 'x']
})
df

Unnamed: 0,producto,precio,cantidad,categoria
0,A,100.0,5.0,x
1,B,150.0,10.0,y
2,C,200.0,3.0,x
3,A,120.0,,y
4,C,180.0,8.0,x
5,B,,2.0,y
6,A,130.0,6.0,x


## 🧼 Limpieza de datos
### 1. Ver valores nulos

In [6]:
df.isnull().sum()

producto     0
precio       1
cantidad     1
categoria    0
dtype: int64

### 2. Rellenar valores nulos con `.fillna()`

In [8]:
df['precio'] = df['precio'].fillna(df['precio'].mean())
df['cantidad'] = df['cantidad'].fillna(0)
df

Unnamed: 0,producto,precio,cantidad,categoria
0,A,100.0,5.0,x
1,B,150.0,10.0,y
2,C,200.0,3.0,x
3,A,120.0,0.0,y
4,C,180.0,8.0,x
5,B,146.666667,2.0,y
6,A,130.0,6.0,x


### 3. Crear columna de ingreso total usando `.apply()`

In [9]:
df['ingreso'] = df.apply(lambda row: row['precio'] * row['cantidad'], axis=1)
df

Unnamed: 0,producto,precio,cantidad,categoria,ingreso
0,A,100.0,5.0,x,500.0
1,B,150.0,10.0,y,1500.0
2,C,200.0,3.0,x,600.0
3,A,120.0,0.0,y,0.0
4,C,180.0,8.0,x,1440.0
5,B,146.666667,2.0,y,293.333333
6,A,130.0,6.0,x,780.0


### 4. Agrupaciones con `.groupby()`

In [10]:
df.groupby('categoria')['ingreso'].sum()

categoria
x    3320.000000
y    1793.333333
Name: ingreso, dtype: float64

### 5. Mapear valores con `.map()` (ejemplo de etiquetas)
Vamos a renombrar las categorías.

In [11]:
df['categoria'] = df['categoria'].map({'x': 'básico', 'y': 'premium'})
df

Unnamed: 0,producto,precio,cantidad,categoria,ingreso
0,A,100.0,5.0,básico,500.0
1,B,150.0,10.0,premium,1500.0
2,C,200.0,3.0,básico,600.0
3,A,120.0,0.0,premium,0.0
4,C,180.0,8.0,básico,1440.0
5,B,146.666667,2.0,premium,293.333333
6,A,130.0,6.0,básico,780.0


### 6. Exportar DataFrame limpio
Guarda el archivo como `ventas_limpio.csv`

In [18]:
import os

# Subir dos niveles desde el notebook y luego entrar a 'data'
ruta_data = os.path.join('..', '..', 'data')

# Crear la carpeta si no existe
os.makedirs(ruta_data, exist_ok=True)

# Guardar el archivo limpio ahí
df.to_csv(os.path.join(ruta_data, 'ventas_limpio.csv'), index=False)

print("✅ Archivo guardado correctamente en: IA/data/ventas_limpio.csv")


✅ Archivo guardado correctamente en: IA/data/ventas_limpio.csv
