# üß© M√≥dulo 7 ‚Äî Pandas: Agrupaciones y `groupby`

En este notebook aprender√°s a hacer an√°lisis avanzado con `groupby`, incluyendo:

- Agrupaciones b√°sicas
- M√∫ltiples agregaciones
- Transformaciones
- Filtrado de grupos
- Tablas din√°micas (`pivot_table`)
- Multi√≠ndice

---

## 1Ô∏è‚É£ Dataset de ejemplo

In [4]:
import pandas as pd
import numpy as np

df = pd.DataFrame({
    'categoria': ['A','A','B','B','B','C','C'],
    'producto': ['p1','p2','p3','p4','p5','p6','p7'],
    'ventas': [100, 150, 200, 50, 120, 80, 60],
    'coste': [60, 90, 120, 30, 70, 40, 20]
})
df

Unnamed: 0,categoria,producto,ventas,coste
0,A,p1,100,60
1,A,p2,150,90
2,B,p3,200,120
3,B,p4,50,30
4,B,p5,120,70
5,C,p6,80,40
6,C,p7,60,20


---
## 2Ô∏è‚É£ Agrupaciones b√°sicas

Ventas totales por categor√≠a:

In [5]:
df.groupby('categoria')['ventas'].sum()

categoria
A    250
B    370
C    140
Name: ventas, dtype: int64

Promedio de ventas por categor√≠a:

In [6]:
df.groupby('categoria')['ventas'].mean()

categoria
A    125.000000
B    123.333333
C     70.000000
Name: ventas, dtype: float64

---
## 3Ô∏è‚É£ Agrupaciones m√∫ltiples

Obtener estad√≠sticas combinadas:

In [7]:
df.groupby('categoria').agg({'ventas':['sum','mean'], 'coste':['sum','mean']})

Unnamed: 0_level_0,ventas,ventas,coste,coste
Unnamed: 0_level_1,sum,mean,sum,mean
categoria,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
A,250,125.0,150,75.0
B,370,123.333333,220,73.333333
C,140,70.0,60,30.0


Resumen estad√≠stico por grupo:

In [8]:
df.groupby('categoria')['ventas'].describe()

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
categoria,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
A,2.0,125.0,35.355339,100.0,112.5,125.0,137.5,150.0
B,3.0,123.333333,75.055535,50.0,85.0,120.0,160.0,200.0
C,2.0,70.0,14.142136,60.0,65.0,70.0,75.0,80.0


---
## 4Ô∏è‚É£ Transformaciones (`transform`)

Calcular ventas normalizadas por categor√≠a:

In [9]:
df['ventas_norm'] = df.groupby('categoria')['ventas'].transform(lambda x: (x - x.mean())/x.std())
df[['categoria','producto','ventas','ventas_norm']]

Unnamed: 0,categoria,producto,ventas,ventas_norm
0,A,p1,100,-0.707107
1,A,p2,150,0.707107
2,B,p3,200,1.021466
3,B,p4,50,-0.977054
4,B,p5,120,-0.044412
5,C,p6,80,0.707107
6,C,p7,60,-0.707107


---
## 5Ô∏è‚É£ Filtrado de grupos (`filter`)

Ejemplo: seleccionar solo categor√≠as con ventas totales ‚â• 200:

In [13]:
def muestra(X):
    print(X)
    return True
df.groupby('categoria').filter(muestra)

  categoria producto  ventas  coste  ventas_norm
0         A       p1     100     60    -0.707107
1         A       p2     150     90     0.707107
  categoria producto  ventas  coste  ventas_norm
2         B       p3     200    120     1.021466
3         B       p4      50     30    -0.977054
4         B       p5     120     70    -0.044412
  categoria producto  ventas  coste  ventas_norm
5         C       p6      80     40     0.707107
6         C       p7      60     20    -0.707107


Unnamed: 0,categoria,producto,ventas,coste,ventas_norm
0,A,p1,100,60,-0.707107
1,A,p2,150,90,0.707107
2,B,p3,200,120,1.021466
3,B,p4,50,30,-0.977054
4,B,p5,120,70,-0.044412
5,C,p6,80,40,0.707107
6,C,p7,60,20,-0.707107


In [None]:
# filtro y me quedo con los grupos que tienen una venta superior a 200 por categoria
df.groupby('categoria').filter(lambda g: g['ventas'].sum() >= 200)

Unnamed: 0,categoria,producto,ventas,coste,ventas_norm
0,A,p1,100,60,-0.707107
1,A,p2,150,90,0.707107
2,B,p3,200,120,1.021466
3,B,p4,50,30,-0.977054
4,B,p5,120,70,-0.044412


In [None]:
# vuelvo a agrupar para sumar las ventas de los grupos filtrados
df.groupby('categoria').filter(lambda g: g['ventas'].sum() >= 200).groupby('categoria')['ventas'].sum()

categoria
A    250
B    370
Name: ventas, dtype: int64

---
## 6Ô∏è‚É£ Tablas din√°micas (pivot table)


In [None]:
# obtenemos una vista a la anterior, como tabla dinamia -> es una manera sencillad de agrupar
pd.pivot_table(df, values='ventas', index='categoria', aggfunc='sum')

Unnamed: 0_level_0,ventas
categoria,Unnamed: 1_level_1
A,250
B,370
C,140


Pivot table con varias funciones:

In [17]:
pd.pivot_table(df, values=['ventas','coste'], index='categoria', aggfunc=['sum','mean'])

Unnamed: 0_level_0,sum,sum,mean,mean
Unnamed: 0_level_1,coste,ventas,coste,ventas
categoria,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
A,150,250,75.0,125.0
B,220,370,73.333333,123.333333
C,60,140,30.0,70.0


---
## 7Ô∏è‚É£ multi-√≠ndice

Agrupar por categor√≠a y producto:

In [18]:
multi = df.groupby(['categoria','producto'])['ventas'].sum()
multi

categoria  producto
A          p1          100
           p2          150
B          p3          200
           p4           50
           p5          120
C          p6           80
           p7           60
Name: ventas, dtype: int64

Convertir multi-√≠ndice en columnas (reset index):

In [19]:
multi.reset_index()

Unnamed: 0,categoria,producto,ventas
0,A,p1,100
1,A,p2,150
2,B,p3,200
3,B,p4,50
4,B,p5,120
5,C,p6,80
6,C,p7,60


---
## 8Ô∏è‚É£ Ejercicio pr√°ctico

Usando `df`:

### üß© Objetivos
1. Calcula ventas totales por categor√≠a
2. Calcula el margen como `ventas - coste` y obt√©n media por categor√≠a
3. Normaliza `coste` por categor√≠a usando `transform`
4. Haz un `filter` para quedarte solo con categor√≠as cuyo *promedio de ventas* > 100
5. Construye una `pivot_table` que muestre el total de ventas y coste por categor√≠a

Escribe tu soluci√≥n aqu√≠:

In [None]:
import pandas as pd
import numpy as np

dfEj = pd.DataFrame({
    'categoria': ['A','A','B','B','B','C','C'],
    'producto': ['p1','p2','p3','p4','p5','p6','p7'],
    'ventas': [100, 150, 200, 50, 120, 80, 60],
    'coste': [60, 90, 120, 30, 70, 40, 20]
})

print("//-- Datos ini: --//")
print(dfEj)
print()


//-- Datos ini: --//
  categoria producto  ventas  coste
0         A       p1     100     60
1         A       p2     150     90
2         B       p3     200    120
3         B       p4      50     30
4         B       p5     120     70
5         C       p6      80     40
6         C       p7      60     20


---
## ‚úÖ Soluci√≥n (oculta)
<details>
<summary>Mostrar soluciones</summary>

```python
df.groupby('categoria')['ventas'].sum()
```

```python
df['margen'] = df['ventas'] - df['coste']
df.groupby('categoria')['margen'].mean()
```

```python
df['coste_norm'] = df.groupby('categoria')['coste'].transform(lambda x: (x-x.mean())/x.std())
```

```python
df.groupby('categoria').filter(lambda g: g['ventas'].mean() > 100)
```

```python
pd.pivot_table(df, values=['ventas','coste'], index='categoria', aggfunc='sum')
```
</details>