# üõ†Ô∏è M√≥dulo 7 ‚Äî Pandas: Operaciones y Transformaciones

En este notebook aprender√°s a transformar datos de forma profesional con Pandas:

- Operaciones columna a columna
- Operaciones vectorizadas
- `apply`, `map`, `replace`
- Operaciones fila a fila (`axis=1`)
- Tratamiento de valores nulos (`fillna`, `dropna`)
- Funciones agregadas (`agg`, `transform`)

---

## 1Ô∏è‚É£ Dataset de ejemplo

In [1]:
import pandas as pd
import numpy as np

df = pd.DataFrame({
    'producto': ['A','B','C','D','E'],
    'precio': [10, 20, 5, 8, np.nan],
    'unidades': [100, 50, 30, 80, 60]
})
df

Unnamed: 0,producto,precio,unidades
0,A,10.0,100
1,B,20.0,50
2,C,5.0,30
3,D,8.0,80
4,E,,60


---
## 2Ô∏è‚É£ Operaciones columna a columna (vectorizadas)

Crear una columna `total`:

In [2]:
df['total'] = df['precio'] * df['unidades']
df

Unnamed: 0,producto,precio,unidades,total
0,A,10.0,100,1000.0
1,B,20.0,50,1000.0
2,C,5.0,30,150.0
3,D,8.0,80,640.0
4,E,,60,


---
## 3Ô∏è‚É£ Operaciones elemento a elemento

Incrementar el precio un 10%:

In [None]:
# puedes sobreescribir columna, o crear una columna nueva
df['precio_incrementado'] = df['precio'] * 1.10
df[['producto','precio','precio_incrementado']]


Unnamed: 0,producto,precio,precio_incrementado
0,A,10.0,11.0
1,B,20.0,22.0
2,C,5.0,5.5
3,D,8.0,8.8
4,E,,


---
## 4Ô∏è‚É£ `apply` ‚Üí aplicar funciones complejas

Aplicar una funci√≥n a una columna:

In [4]:
df['precio_clasificacion'] = df['precio'].apply(lambda x: 'alto' if x >= 10 else 'bajo')
df[['producto','precio','precio_clasificacion']]

Unnamed: 0,producto,precio,precio_clasificacion
0,A,10.0,alto
1,B,20.0,alto
2,C,5.0,bajo
3,D,8.0,bajo
4,E,,bajo


### `apply` fila a fila (`axis=1`)
Calcular margen unitario:

In [None]:
# recorremos el DF fila por fila (o por columna, con axis=0)
df['margen'] = df.apply(lambda fila: fila['precio'] - 2, axis=1)
df[['producto','precio','margen']]

Unnamed: 0,producto,precio,margen
0,A,10.0,8.0
1,B,20.0,18.0
2,C,5.0,3.0
3,D,8.0,6.0
4,E,,


---
## 5Ô∏è‚É£ `map` y `replace`

Convertir c√≥digos a etiquetas:

In [None]:
# apply le pasa una lambda. Map lo que hace es mapear valores
categorias = { 'A':'premium', 'B':'normal', 'C':'normal', 'D':'lowcost', 'E':'lowcost' }
df['tipo'] = df['producto'].map(categorias)
df[['producto','tipo']]

Unnamed: 0,producto,tipo
0,A,premium
1,B,normal
2,C,normal
3,D,lowcost
4,E,lowcost


`replace` tambi√©n permite sustituir valores:

In [7]:
# tecnica de sanitizacion para sustituir valores.
# Se pueden hacer replace condicionales, con funciones lambda, etc
df['precio_reemplazo'] = df['precio'].replace({np.nan: 0})
df[['precio','precio_reemplazo']]

Unnamed: 0,precio,precio_reemplazo
0,10.0,10.0
1,20.0,20.0
2,5.0,5.0
3,8.0,8.0
4,,0.0


---
## 6Ô∏è‚É£ Tratamiento de nulos

Ver qu√© valores faltan:

In [8]:
df.isna()

Unnamed: 0,producto,precio,unidades,total,precio_incrementado,precio_clasificacion,margen,tipo,precio_reemplazo
0,False,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False,False
4,False,True,False,True,True,False,True,False,False


In [9]:
df.fillna(df['precio'].mean())

Unnamed: 0,producto,precio,unidades,total,precio_incrementado,precio_clasificacion,margen,tipo,precio_reemplazo
0,A,10.0,100,1000.0,11.0,alto,8.0,premium,10.0
1,B,20.0,50,1000.0,22.0,alto,18.0,normal,20.0
2,C,5.0,30,150.0,5.5,bajo,3.0,normal,5.0
3,D,8.0,80,640.0,8.8,bajo,6.0,lowcost,8.0
4,E,10.75,60,10.75,10.75,bajo,10.75,lowcost,0.0


Eliminar filas con nulos:

In [10]:
df.dropna()

Unnamed: 0,producto,precio,unidades,total,precio_incrementado,precio_clasificacion,margen,tipo,precio_reemplazo
0,A,10.0,100,1000.0,11.0,alto,8.0,premium,10.0
1,B,20.0,50,1000.0,22.0,alto,18.0,normal,20.0
2,C,5.0,30,150.0,5.5,bajo,3.0,normal,5.0
3,D,8.0,80,640.0,8.8,bajo,6.0,lowcost,8.0


---
## 7Ô∏è‚É£ Agregaciones (`agg`)

Obtener estad√≠sticas m√∫ltiples a la vez:

In [None]:
# En el ej usa funciones propias del DF (mean, min, max)
# Tambien prod√≠an usarse funciones lambda
df.agg({'precio':['mean','min','max'], 'unidades':['sum','mean']})

Unnamed: 0,precio,unidades
mean,10.75,64.0
min,5.0,
max,20.0,
sum,,320.0


---
## 8Ô∏è‚É£ Transformaciones (`transform`)

`transform` devuelve una Serie del mismo tama√±o que la entrada.

In [13]:
df['unidades_norm'] = df['unidades'].transform(lambda x: (x - x.mean()) / x.std())
df[['unidades','unidades_norm']]

Unnamed: 0,unidades,unidades_norm
0,100,1.33242
1,50,-0.518163
2,30,-1.258396
3,80,0.592187
4,60,-0.148047


---
## 9Ô∏è‚É£ Ejercicio pr√°ctico

### üß© Objetivos
Usando el DataFrame `df`:

1. Completa los nulos de `precio` con la media
2. Crea una columna `valor_total = precio * unidades`
3. Crea una columna `categoria_precio`:
   - 'alto' si precio ‚â• 15
   - 'medio' si precio entre 8 y 14
   - 'bajo' si precio < 8
4. Normaliza la columna `unidades` con `transform`
5. Usa `agg` para obtener media y varianza de `precio` y `unidades`

Escribe tu soluci√≥n abajo:

In [31]:
df2 = pd.DataFrame({
    'producto': ['A','B','C','D','E'],
    'precio': [10, 20, 5, 8, np.nan],
    'unidades': [100, 50, 30, 80, 60]
})

print("//-- Datos ini: --//")
print(df2)
print()

print("1. Datos nulos:")
print(df2.isna())
print("1.-- Datos nulos corregidos con la media:")
df2 = df2.fillna(df['precio'].mean())
print(df2)
print()

print("2. Nueva columna 'valor_total':")
df2['valor_total'] = df2['precio'] * df2['unidades']
print(df2)
print()

print("3. Nueva columna 'categoria_precio':")
#fnMay8 = lambda x: 'medio' if x >= 8 else 'bajo'
#fnCat = lambda x: 'alto' if x >= 15 else fnMay8(x)
fnCat = lambda x: 'alto' if x >= 15 else ('medio' if x >= 8 else 'bajo')
df2['categoria_precio'] = df2['precio'].apply(fnCat)
print(df2)
print()

print("4. Normalizar columna 'unidades':")
fnNorm = lambda x: (x - x.mean()) / x.std()
df2['unidades_norm'] = df2['unidades'].transform(fnNorm)
print(df2)
print()

print("5. Media y varianza de 'precio' y 'unidades':")
dfAgg = df2.agg({'precio':['mean','var'], 'unidades':['mean', 'var']})
print(dfAgg)
print()

print("//-- Datos fin: --//")
print(df2)
print()



//-- Datos ini: --//
  producto  precio  unidades
0        A    10.0       100
1        B    20.0        50
2        C     5.0        30
3        D     8.0        80
4        E     NaN        60

1. Datos nulos:
   producto  precio  unidades
0     False   False     False
1     False   False     False
2     False   False     False
3     False   False     False
4     False    True     False
1.-- Datos nulos corregidos con la media:
  producto  precio  unidades
0        A   10.00       100
1        B   20.00        50
2        C    5.00        30
3        D    8.00        80
4        E   10.75        60

2. Nueva columna 'valor_total':
  producto  precio  unidades  valor_total
0        A   10.00       100       1000.0
1        B   20.00        50       1000.0
2        C    5.00        30        150.0
3        D    8.00        80        640.0
4        E   10.75        60        645.0

3. Nueva columna 'categoria_precio':
  producto  precio  unidades  valor_total categoria_precio
0        A

---
## ‚úÖ Soluci√≥n (oculta)

<details>
<summary>Mostrar soluciones</summary>

```python
df['precio'] = df['precio'].fillna(df['precio'].mean())
```

```python
df['valor_total'] = df['precio'] * df['unidades']
```

```python
df['categoria_precio'] = df['precio'].apply(
    lambda x: 'alto' if x>=15 else ('medio' if x>=8 else 'bajo')
)
```

```python
df['unidades_norm'] = df['unidades'].transform(lambda x: (x-x.mean())/x.std())
```

```python
df.agg({'precio':['mean','var'], 'unidades':['mean','var']})
```
</details>