<a href="https://colab.research.google.com/github/yshungria-uniandes/Data-Science-Fundamentals-/blob/main/Agrupaci%C3%B3n_de_Datos_con_Pandas_%E2%80%93_GroupBy_y_M%C3%A9todos_de_Agregraci%C3%B3n.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Agrupación de Datos con Pandas – GroupBy y Métodos de Agregración


La agrupación de datos es una de las capacidades más poderosas y útiles que ofrece Pandas para el análisis de datos. El método groupby de Pandas permite dividir los datos en grupos basados en uno o más criterios, y luego aplicar funciones de agregación, transformación o filtrado a cada grupo individualmente. Este capítulo cubrirá en detalle el funcionamiento de groupby, sus aplicaciones, y métodos de agregación, junto con ejemplos prácticos para facilitar la comprensión.



## La Teoría detrás de GroupBy (Concepto de Agrupación)

Agrupar datos implica dividir un conjunto de datos en partes más pequeñas basadas en una o más características comunes. Este proceso facilita el análisis agregado y específico de cada grupo. Por ejemplo, en un conjunto de datos de ventas, podrías querer agrupar las ventas por producto, tienda o período de tiempo para analizar patrones específicos.



## Etapas del GroupBy

El proceso de groupby en Pandas generalmente implica tres etapas:

División (Splitting): Dividir el DataFrame en grupos según un criterio dado.

Aplicación (Applying): Aplicar una función a cada grupo de manera independiente.

Combinación (Combining): Combinar los resultados de las funciones aplicadas en una estructura de datos.

Este proceso se conoce como el «paradigma Split-Apply-Combine».



## Uso Básico del Método groupby

El método groupby de Pandas se utiliza para dividir un DataFrame en grupos según uno o más criterios y aplicar funciones de agregación a estos grupos. Sintaxis Básica:

In [3]:
import pandas as pd

# Crear un DataFrame de ejemplo
data = {
    'Producto': ['Manzanas', 'Naranjas', 'Bananas', 'Manzanas', 'Naranjas', 'Bananas'],
    'Ventas': [50, 30, 20, 60, 40, 30],
    'Tienda': ['A', 'A', 'A', 'B', 'B', 'B']
}
df = pd.DataFrame(data)

# Agrupar por columna 'Producto'
grouped = df.groupby('Producto')

In [4]:
print(grouped)

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7df3a4f2b2e0>


## Aplicaciones Comunes de groupby

1. Agregación (Aggregation): La agregación implica aplicar una función que resuma los datos de cada grupo. Las funciones de agregación comunes incluyen sum, mean, count, min, max, etc.


In [5]:
# Suma de ventas por producto
ventas_por_producto = grouped['Ventas'].sum()
print(ventas_por_producto)

# Promedio de ventas por producto
promedio_ventas_por_producto = grouped['Ventas'].mean()
print(promedio_ventas_por_producto)

# Número de ventas por producto
conteo_ventas_por_producto = grouped['Ventas'].count()
print(conteo_ventas_por_producto)

Producto
Bananas      50
Manzanas    110
Naranjas     70
Name: Ventas, dtype: int64
Producto
Bananas     25.0
Manzanas    55.0
Naranjas    35.0
Name: Ventas, dtype: float64
Producto
Bananas     2
Manzanas    2
Naranjas    2
Name: Ventas, dtype: int64


 2. Transformación (Transformation): La transformación implica aplicar una función a cada elemento de un grupo, produciendo un DataFrame del mismo tamaño que el original. Las funciones de transformación comunes incluyen apply, transform, etc.

In [6]:
# Calcular el porcentaje de ventas de cada producto en su tienda
df['Porcentaje'] = grouped['Ventas'].transform(lambda x: x / x.sum() * 100)
print(df)

   Producto  Ventas Tienda  Porcentaje
0  Manzanas      50      A   45.454545
1  Naranjas      30      A   42.857143
2   Bananas      20      A   40.000000
3  Manzanas      60      B   54.545455
4  Naranjas      40      B   57.142857
5   Bananas      30      B   60.000000



3. Filtrado (Filtering): El filtrado implica aplicar una condición a cada grupo y devolver un subconjunto del DataFrame que cumple con esa condición.

In [7]:
# Filtrar productos con ventas totales mayores a 50
filtro = grouped.filter(lambda x: x['Ventas'].sum() > 50)
print(filtro)

   Producto  Ventas Tienda  Porcentaje
0  Manzanas      50      A   45.454545
1  Naranjas      30      A   42.857143
3  Manzanas      60      B   54.545455
4  Naranjas      40      B   57.142857


## Métodos de Agregación en Detalle

1. sum(): La función sum calcula la suma de los valores en cada grupo.


In [8]:
# Suma de ventas por tienda
ventas_por_tienda = df.groupby('Tienda')['Ventas'].sum()
print(ventas_por_tienda)

Tienda
A    100
B    130
Name: Ventas, dtype: int64


2. mean(): La función mean calcula el promedio de los valores en cada grupo.


In [9]:
# Promedio de ventas por tienda
promedio_ventas_por_tienda = df.groupby('Tienda')['Ventas'].mean()
print(promedio_ventas_por_tienda)

Tienda
A    33.333333
B    43.333333
Name: Ventas, dtype: float64


3. count(): La función count cuenta el número de valores no nulos en cada grupo.


In [10]:
# Número de ventas por tienda
conteo_ventas_por_tienda = df.groupby('Tienda')['Ventas'].count()
print(conteo_ventas_por_tienda)

Tienda
A    3
B    3
Name: Ventas, dtype: int64


4. min() y max(): Las funciones min y max encuentran el valor mínimo y máximo en cada grupo, respectivamente.


In [11]:
# Ventas mínimas y máximas por tienda
ventas_minimas_por_tienda = df.groupby('Tienda')['Ventas'].min()
ventas_maximas_por_tienda = df.groupby('Tienda')['Ventas'].max()
print(ventas_minimas_por_tienda)
print(ventas_maximas_por_tienda)

Tienda
A    20
B    30
Name: Ventas, dtype: int64
Tienda
A    50
B    60
Name: Ventas, dtype: int64


5. std() y var(): Las funciones std y var calculan la desviación estándar y la varianza de los valores en cada grupo.

In [12]:
# Desviación estándar de las ventas por tienda
desviacion_estandar_ventas = df.groupby('Tienda')['Ventas'].std()
print(desviacion_estandar_ventas)

# Varianza de las ventas por tienda
varianza_ventas = df.groupby('Tienda')['Ventas'].var()
print(varianza_ventas)

Tienda
A    15.275252
B    15.275252
Name: Ventas, dtype: float64
Tienda
A    233.333333
B    233.333333
Name: Ventas, dtype: float64


## Agrupación por Múltiples Columnas

Pandas permite agrupar por múltiples columnas, lo que facilita el análisis jerárquico de los datos. Ejemplo:



In [13]:
# Agrupar por 'Producto' y 'Tienda'
grouped_multi = df.groupby(['Producto', 'Tienda'])

# Suma de ventas por producto y tienda
ventas_por_producto_y_tienda = grouped_multi['Ventas'].sum()
print(ventas_por_producto_y_tienda)

# Promedio de ventas por producto y tienda
promedio_ventas_por_producto_y_tienda = grouped_multi['Ventas'].mean()
print(promedio_ventas_por_producto_y_tienda)

Producto  Tienda
Bananas   A         20
          B         30
Manzanas  A         50
          B         60
Naranjas  A         30
          B         40
Name: Ventas, dtype: int64
Producto  Tienda
Bananas   A         20.0
          B         30.0
Manzanas  A         50.0
          B         60.0
Naranjas  A         30.0
          B         40.0
Name: Ventas, dtype: float64


### Uso de agg() para Aplicar Múltiples Funciones

El método agg permite aplicar múltiples funciones de agregación a las columnas agrupadas de un DataFrame. Ejemplo:

In [14]:
# Aplicar múltiples funciones de agregación a 'Ventas' agrupadas por 'Producto'
agg_result = df.groupby('Producto')['Ventas'].agg(['sum', 'mean', 'count'])
print(agg_result)

          sum  mean  count
Producto                  
Bananas    50  25.0      2
Manzanas  110  55.0      2
Naranjas   70  35.0      2


### Agregación Personalizada con apply()

El método apply permite aplicar funciones personalizadas a cada grupo, proporcionando una gran flexibilidad en el análisis de datos. Ejemplo:

In [15]:
# Calcular el rango (max - min) de ventas por producto
rango_ventas_por_producto = df.groupby('Producto')['Ventas'].apply(lambda x: x.max() - x.min())
print(rango_ventas_por_producto)

Producto
Bananas     10
Manzanas    10
Naranjas    10
Name: Ventas, dtype: int64
