# Data Aggregation and Group Operations


In [1]:
import numpy as np
import pandas as pd


Para entrar en este capitulo no perdamos de vista ésta idea **DIVIDIR - APLICAR - COMBINAR**

**Dividir:**  Separar los datos según una o mas claves.<br>
**Aplicar:**  Ejecutar una función sobre cada grupo.<br>
**Combinar:** Reunir los resultados en un nuevo objeto.<br>

Así Pandas ejecuta las operaciones de grupos mediante el método de <span style="color:blue">**.groupby( )**</span>

In [2]:
data = { 'Nombre' : ['Juan', 'Ana', 'Luis', 'Laura', 'Pedro', 'Carla'],
         'Ciudad': ['Madrid', 'Barcelona', 'Madrid', 'Valencia', 'Barcelona', 'Madrid'],
         'Edad': [25, 33, 30, 28, 45, 38],
         'Puntuacion': [80, 90, 85, 88, 75, 91],
         'Categoria' : ['A','A','B','A','B','B']

}
df = pd.DataFrame(data)
df

Unnamed: 0,Nombre,Ciudad,Edad,Puntuacion,Categoria
0,Juan,Madrid,25,80,A
1,Ana,Barcelona,33,90,A
2,Luis,Madrid,30,85,B
3,Laura,Valencia,28,88,A
4,Pedro,Barcelona,45,75,B
5,Carla,Madrid,38,91,B


In [4]:
#Calcular la media de edad por ciudad
grouped = df["Edad"].groupby(df["Ciudad"])
#grouped.groups
grouped.mean()





Ciudad
Barcelona    39.0
Madrid       31.0
Valencia     28.0
Name: Edad, dtype: float64

**Dividir:**  grouped = df["Edad"].groupby(df["Ciudad"]) -> creamos los grupos por "Ciudad".<br>
**Aplicar:**  grouped.mean() -> Calculamos el promedio dentro de cada grupo.<br>
**Combinar:**  obtenemos una Series indexada por los valores únicos de "Ciudad", con sus promedios correspondientes.<br>

¡Ojito! <br>
.groups = Muestra cómo pandas separó los datos (diccionario con índices).<br>
.mean(), .sum(), .count() = Muestra los resultados de cálculos sobre cada grupo.

"Un DataFrame se puede agrupar por sus filas ( axis="index") o columnas ( axis="columns"). Una vez hecho esto, se aplica una función a cada grupo, generando un nuevo valor. Finalmente, los resultados de todas esas aplicaciones de función se combinan en un objeto resultante. La forma del objeto resultante suele depender del procesamiento de los datos."

  ![  ](image.png)

Cositas útiles!!<br>
**Seleccionar una columna o un subconjunto de columnas**

In [None]:
#df.groupby(["Ciudad"])[["Edad"]].mean()
df.groupby(["Ciudad", "Categoria"])[["Edad"]].mean()

**Transform** 

El resultado que devuelve es del mismo tamaño que la entrada.<br>
Cada valor de la columna transformada mantiene la alineacion con las filas originales. <br>
Ideal para cuando uno quiere reemplazar valosres o crear nuevas columnas sin perder la forma del DataFrame. <br>

Entonces  <span style="color:blue">**.transform()**</span> si uno necesita que cada fila conserve su posición y alineación pero con valores transformados.

In [3]:
#df.groupby(['Categoria', 'Ciudad'])['Puntuacion'].mean() # sin usar .transform()
df['Puntuacion_promedio_categoria'] = df.groupby(['Categoria', 'Ciudad'])['Puntuacion'].transform('mean')
df

Unnamed: 0,Nombre,Ciudad,Edad,Puntuacion,Categoria,Puntuacion_promedio_categoria
0,Juan,Madrid,25,80,A,80.0
1,Ana,Barcelona,33,90,A,90.0
2,Luis,Madrid,30,85,B,88.0
3,Laura,Valencia,28,88,A,88.0
4,Pedro,Barcelona,45,75,B,75.0
5,Carla,Madrid,38,91,B,88.0


**Tablas dinámicas**

Os queremos felicitar queridos internautas han llegado casi al final del mini curso, ahora por último hablaremos de tablas dinámicas. <br> 

La tabla dinámica organiza la información en forma de tabla, permitiendo:<br>
a) Agrupar por filas y columnas. <br>
b) Aplicar funciones estadísticas (media, suma, conteo, etc.). <br>
c) Comparar categorías fácilmente.

En Pandas se implementa con <span style="color:blue">**.pivot_table()**</span>, lo que hace es tomar los datos del DataFrame original y los reorganiza en una tabla completamente nueva, donde los valores están resumidos según las reglas de agrupación y la función de agregación especificadas


In [5]:
#Promedio de las puntuaciones agrupadas por ciudad y por categoría
tabla_dinamica = df.pivot_table(
    index='Ciudad',
    columns='Categoria',
    values='Puntuacion',
    aggfunc='mean'
)
tabla_dinamica

Categoria,A,B
Ciudad,Unnamed: 1_level_1,Unnamed: 2_level_1
Barcelona,90.0,75.0
Madrid,80.0,88.0
Valencia,88.0,


**¿Tenés la duda existencial de cuando ocupar groupby o pivot_table?** No te preocupes te explicamos a continuación. <br>

<span style="color:blue">**.groupby()**</span><br>

Sirve para agrupar datos y luego calcular estadísticas (promedio, suma, conteo, etc.), si querés hacer varios pasos como agrupar, calcular, volver a ordenar, renombrar columnas, etc. es recomendable este metodo, pero ¡ojo! el resultado no siempre es tan “presentable”, porque te devuelve índices múltiples o estructuras menos legibles. <br>

<span style="color:blue">**.pivot_table()**</span><br>

Sirve para resumir y mostrar datos de una manera clara, como en Excel,directamente te devuelve una tabla lista para análisis o presentación, no está pensado tanto para seguir encadenando cálculos, sino para visualizar bien los resultados.