 # **<font color="DarkBlue">Agregación de datos y operaciones grupales 🐼 </font>**

<p align="center">
<img src="https://pandas.pydata.org/static/img/pandas_mark.svg" width="50">
</p>


https://pandas.pydata.org/

 # **<font color="DarkBlue">Agrupación, groupby</font>**

<p align="justify">Hadley Wickham, autor de muchos paquetes populares para el lenguaje de programación R, acuñó el término "dividir-aplicar-combinar" para describir las operaciones de agrupación.
<br><br>
Este proceso consta de tres etapas: primero, los datos contenidos en un objeto de pandas, como una serie, un DataFrame u otro tipo de objeto, se dividen en grupos basados en una o más claves que se especifiquen. Esta división se realiza sobre un eje particular del objeto, por ejemplo, un DataFrame puede agruparse por sus filas (<code>axis="index"</code>) o por sus columnas (<code>axis="columns"</code>).
<br><br>
 Una vez que los datos se han dividido, se aplica una función a cada grupo, generando un nuevo valor para cada uno.
 <br><br>
 Finalmente, los resultados de la aplicación de estas funciones se combinan para formar un nuevo objeto de resultados. La estructura del objeto resultante dependerá del tipo de operación que se realice sobre los datos.</p>


👀 Ejemplo:

<p align="justify">
🚀 Supongamos que tenemos un DataFrame con datos de ventas de una tienda. Cada venta está asociada a un producto, su categoría, y el monto de la venta. Queremos agrupar las ventas por categoría de productos y calcular la suma total y el promedio de ventas por cada categoría.



In [None]:
import pandas as pd
import plotly.express as px

In [None]:
# Crear DataFrame de ventas

ventas = pd.DataFrame({
    'Producto': ['Laptop', 'Smartphone', 'Camiseta', 'Pantalones', 'Televisor', 'Zapatillas'],
    'Categoría': ['Electrónica', 'Electrónica', 'Ropa', 'Ropa', 'Electrónica', 'Ropa'],
    'Monto de Venta': [1200, 800, 250, 400, 1500, 600]
})


In [None]:
ventas

Unnamed: 0,Producto,Categoría,Monto de Venta
0,Laptop,Electrónica,1200
1,Smartphone,Electrónica,800
2,Camiseta,Ropa,250
3,Pantalones,Ropa,400
4,Televisor,Electrónica,1500
5,Zapatillas,Ropa,600


In [None]:
# Agrupar por categoría y calcular la venta total por categoría

ventas_por_categoria = ventas.groupby('Categoría')['Monto de Venta'].sum()
ventas_por_categoria

Unnamed: 0_level_0,Monto de Venta
Categoría,Unnamed: 1_level_1
Electrónica,3500
Ropa,1250


<p align="justify">
El método <code>groupby()</code> agrupa las filas del DataFrame según la columna Categoría

In [None]:
ventas_por_categoria = ventas.groupby('Categoría')['Monto de Venta'].sum()
ventas_por_categoria

Unnamed: 0_level_0,Monto de Venta
Categoría,Unnamed: 1_level_1
Electrónica,3500
Ropa,1250


In [None]:
px.bar(ventas.groupby('Categoría')['Monto de Venta'].sum())

In [None]:
px.bar(ventas.groupby('Categoría')['Monto de Venta'].sum(),
       template="gridon",
       color = ventas.groupby('Categoría')['Monto de Venta'].sum().index,
       title="Ventas totales por categoría",
       labels={"color":"Categoría", "value":"Monto de venta"})

<p align="justify">
El parámetro <code>as_index = False</code> agrupa las filas del DataFrame según la columna Categoría, pero la columna Categoría ahora no es un indice, sino que es otra columna más.

In [None]:
ventas_por_categoria = ventas.groupby('Categoría', as_index=False)['Monto de Venta'].sum()
ventas_por_categoria

Unnamed: 0,Categoría,Monto de Venta
0,Electrónica,3500
1,Ropa,1250


In [None]:
px.bar(ventas_por_categoria,
       x="Categoría",
       y="Monto de Venta",
       template="gridon",
       color = "Categoría",
       title="Ventas totales por categoría",
       )

<p align="justify">
Ahora utilizamos <code>agg()</code> para aplicar varias funciones de agregación, en este caso

- <code>sum()</code> para calcular el total de ventas por categoría y
- <code>mean()</code> para calcular el promedio de ventas.


In [None]:
# Agrupar por categoría y calcular estadísticas

ventas_por_categoria = ventas.groupby('Categoría').agg(Total_Ventas = ('Monto de Venta', 'sum'),
                                                       Promedio_Ventas=('Monto de Venta', 'mean')
)


In [None]:
ventas_por_categoria

Unnamed: 0_level_0,Total_Ventas,Promedio_Ventas
Categoría,Unnamed: 1_level_1,Unnamed: 2_level_1
Electrónica,3500,1166.666667
Ropa,1250,416.666667


In [None]:
# Redondear Promedio_Ventas a dos decimales

ventas_por_categoria['Promedio_Ventas'] = ventas_por_categoria['Promedio_Ventas'].round(2)


In [None]:
ventas_por_categoria

Unnamed: 0_level_0,Total_Ventas,Promedio_Ventas
Categoría,Unnamed: 1_level_1,Unnamed: 2_level_1
Electrónica,3500,1166.67
Ropa,1250,416.67


In [None]:
ventas_por_categoria.reset_index(inplace=True)
ventas_por_categoria

Unnamed: 0,Categoría,Total_Ventas,Promedio_Ventas
0,Electrónica,3500,1166.67
1,Ropa,1250,416.67


In [None]:
fig = px.bar(ventas_por_categoria,
             x = "Categoría",
             y = "Total_Ventas",
             template="gridon",
             color="Categoría",
             title="Ventas totales por categoría con promedio")

fig.add_scatter(x = ventas_por_categoria['Categoría'],
                y = ventas_por_categoria['Promedio_Ventas'],
                mode='lines',
                name='Promedio')

fig.show()


👀 Otro ejemplo:

<p align="justify">
🚀 Supongamos que tienes un conjunto de datos de ventas de una empresa que opera en distintas regiones y vende diferentes productos. Se analizará el promedio de ventas, el total de ventas y la venta máxima de cada producto en cada región.




In [None]:
# Datos

data = {
    'Region': ['Norte', 'Norte', 'Norte', 'Sur', 'Sur', 'Sur', 'Este', 'Este', 'Oeste', 'Oeste'],
    'Producto': ['A', 'B', 'C', 'A', 'B', 'C', 'A', 'B', 'A', 'C'],
    'Ventas': [5000, 6000, 7000, 4000, 3500, 3000, 5500, 6200, 4300, 7800]
}


In [None]:
df = pd.DataFrame(data)
df

Unnamed: 0,Region,Producto,Ventas
0,Norte,A,5000
1,Norte,B,6000
2,Norte,C,7000
3,Sur,A,4000
4,Sur,B,3500
5,Sur,C,3000
6,Este,A,5500
7,Este,B,6200
8,Oeste,A,4300
9,Oeste,C,7800


In [None]:
# Agrupar por región y producto

grouped = df.groupby(['Region', 'Producto'])

In [None]:
# Operaciones de agregación

agg_df = grouped.agg(
    Total_Ventas=('Ventas', 'sum'),
    Promedio_Ventas=('Ventas', lambda x: round(x.mean(), 2)), # Función lambda
    Ventas_Maximas=('Ventas', 'max')
).reset_index()  # Restablecer el índice para evitar conflictos al agregar columnas


In [None]:
agg_df

Unnamed: 0,Region,Producto,Total_Ventas,Promedio_Ventas,Ventas_Maximas
0,Este,A,5500,5500.0,5500
1,Este,B,6200,6200.0,6200
2,Norte,A,5000,5000.0,5000
3,Norte,B,6000,6000.0,6000
4,Norte,C,7000,7000.0,7000
5,Oeste,A,4300,4300.0,4300
6,Oeste,C,7800,7800.0,7800
7,Sur,A,4000,4000.0,4000
8,Sur,B,3500,3500.0,3500
9,Sur,C,3000,3000.0,3000


In [None]:
px.bar(agg_df,
       x = "Region",
       y = "Total_Ventas",
       color = "Producto",
       text = "Total_Ventas",
       title="Ventas totales por región y producto",
       template="gridon",
       labels={"Total_Ventas":"Total ventas en $"})

In [None]:
px.sunburst(agg_df,
            path=['Region', 'Producto'],
            values='Total_Ventas',
            color='Producto',
            title="Ventas totales por región y producto",
            template="gridon")

 ## **<font color="DarkBlue">Seleccionando una columna o un subconjunto de columnas</font>**

👀 Otro ejemplo:

<p align="justify">
🚀 Supongamos que tienes un DataFrame con información de ventas por producto, región y categoría, y deseas agrupar los datos para obtener el total de ventas por región y categoría, seleccionando solo algunas columnas relevantes para este análisis.



In [None]:
# Datos

data = {
    'Producto': ['Producto A', 'Producto B', 'Producto C', 'Producto D', 'Producto E', 'Producto F'],
    'Categoria': ['Electrónica', 'Electrónica', 'Muebles', 'Muebles', 'Electrónica', 'Muebles'],
    'Region': ['Norte', 'Sur', 'Norte', 'Sur', 'Norte', 'Sur'],
    'Ventas': [1000, 1500, 700, 1300, 1200, 900],
    'Costo': [400, 600, 300, 500, 500, 300]
}


In [None]:
df = pd.DataFrame(data)
df

Unnamed: 0,Producto,Categoria,Region,Ventas,Costo
0,Producto A,Electrónica,Norte,1000,400
1,Producto B,Electrónica,Sur,1500,600
2,Producto C,Muebles,Norte,700,300
3,Producto D,Muebles,Sur,1300,500
4,Producto E,Electrónica,Norte,1200,500
5,Producto F,Muebles,Sur,900,300


<p align="justify">
El DataFrame contiene productos, su categoría, la región donde fueron vendidos, las ventas y los costos.

In [None]:
# Agrupar por 'Categoria' y 'Region', y seleccionar solo las columnas 'Ventas' y 'Costo' para hacer la suma

grouped = df.groupby(['Categoria', 'Region'])[['Ventas', 'Costo']].sum()


<p align="justify">
Aquí estamos agrupando el DataFrame por dos columnas: Categoria y Region. Luego seleccionamos un subconjunto de columnas, Ventas y Costo, para calcular la suma total de ventas y costos por cada combinación de categoría y región.

In [None]:
grouped

Unnamed: 0_level_0,Unnamed: 1_level_0,Ventas,Costo
Categoria,Region,Unnamed: 2_level_1,Unnamed: 3_level_1
Electrónica,Norte,2200,900
Electrónica,Sur,1500,600
Muebles,Norte,700,300
Muebles,Sur,2200,800


<p align="justify">
Este enfoque es útil cuando quieres realizar análisis específicos en un subconjunto de columnas, sin involucrar todas las columnas del DataFrame.



 ## **<font color="DarkBlue">Agrupando con diccionarios y series</font>**

👀 Ejemplo:

<p align="justify">
🚀 Supongamos que tienes un DataFrame que contiene información de productos, regiones, ventas y descuentos aplicados, y quieres agrupar las ventas por región y producto, aplicando un descuento específico según el producto usando un diccionario o serie.


In [None]:
# Datos

data = {
    'Producto': ['Producto A', 'Producto B', 'Producto C', 'Producto D', 'Producto E'],
    'Region': ['Norte', 'Sur', 'Norte', 'Sur', 'Norte'],
    'Ventas': [1000, 1500, 700, 1300, 1200],
}


In [None]:
df = pd.DataFrame(data)
df

Unnamed: 0,Producto,Region,Ventas
0,Producto A,Norte,1000
1,Producto B,Sur,1500
2,Producto C,Norte,700
3,Producto D,Sur,1300
4,Producto E,Norte,1200


In [None]:
# Diccionario de descuentos por producto

descuentos = {
    'Producto A': 0.10,  # 10% de descuento
    'Producto B': 0.15,  # 15% de descuento
    'Producto C': 0.05,  # 5% de descuento
    'Producto D': 0.20,  # 20% de descuento
    'Producto E': 0.10   # 10% de descuento
}


<p align="justify">
Hemos creado un diccionario que asigna un descuento a cada producto.

In [None]:
# Crear una serie a partir del diccionario de descuentos

serie_descuentos = pd.Series(descuentos)
serie_descuentos.name = 'Descuentos'

<p align="justify">
Convertimos el diccionario en una serie de Pandas para poder aplicar los descuentos de manera eficiente utilizando el método <code>map().

In [None]:
serie_descuentos

Unnamed: 0,Descuentos
Producto A,0.1
Producto B,0.15
Producto C,0.05
Producto D,0.2
Producto E,0.1


In [None]:
# Aplicar los descuentos al DataFrame utilizando groupby

df['Descuento'] = df['Producto'].map(serie_descuentos)
df['Ventas con Descuento'] = df['Ventas'] * (1 - df['Descuento'])


<p align="justify">
Utilizamos <code>map()</code> para crear una nueva columna llamada Descuento, que contiene el porcentaje de descuento para cada producto. Luego calculamos las ventas con descuento aplicando la fórmula Ventas * (1 - Descuento).

In [None]:
df

Unnamed: 0,Producto,Region,Ventas,Descuento,Ventas con Descuento
0,Producto A,Norte,1000,0.1,900.0
1,Producto B,Sur,1500,0.15,1275.0
2,Producto C,Norte,700,0.05,665.0
3,Producto D,Sur,1300,0.2,1040.0
4,Producto E,Norte,1200,0.1,1080.0


In [None]:
# Agrupar por 'Region' y 'Producto', y sumar las 'Ventas' y las 'Ventas con Descuento'

grouped = df.groupby(['Region', 'Producto'])[['Ventas', 'Ventas con Descuento']].sum()


<p align="justify">
Finalmente, agrupamos los datos por Region y Producto, y sumamos las columnas Ventas y Ventas con Descuento para cada combinación de región y producto

In [None]:
grouped

Unnamed: 0_level_0,Unnamed: 1_level_0,Ventas,Ventas con Descuento
Region,Producto,Unnamed: 2_level_1,Unnamed: 3_level_1
Norte,Producto A,1000,900.0
Norte,Producto C,700,665.0
Norte,Producto E,1200,1080.0
Sur,Producto B,1500,1275.0
Sur,Producto D,1300,1040.0


 ## **<font color="DarkBlue">Agrupando con funciones</font>**

👀 Ejemplo:

<p align="justify">
🚀 Supongamos que tienes un DataFrame con información sobre las ventas de diferentes productos en varias regiones y deseas calcular el total de ventas y el promedio de ventas por producto y región. Además, aplicaremos una función personalizada para determinar el rendimiento de cada producto basado en sus ventas.



In [None]:
# Datos

data = {
    'Producto': ['Producto A', 'Producto B', 'Producto A', 'Producto C', 'Producto B', 'Producto C', 'Producto A', 'Producto C'],
    'Region': ['Norte', 'Sur', 'Norte', 'Norte', 'Sur', 'Sur', 'Norte', 'Sur'],
    'Ventas': [2000, 1500, 3000, 4000, 2500, 1500, 3500, 2000],
}


In [None]:
df = pd.DataFrame(data)
df

Unnamed: 0,Producto,Region,Ventas
0,Producto A,Norte,2000
1,Producto B,Sur,1500
2,Producto A,Norte,3000
3,Producto C,Norte,4000
4,Producto B,Sur,2500
5,Producto C,Sur,1500
6,Producto A,Norte,3500
7,Producto C,Sur,2000


In [None]:
# Función personalizada para evaluar el rendimiento

def evaluar_rendimiento(ventas):
    if ventas.sum() > 8000:
        return 'Alto'
    elif ventas.sum() > 4000:
        return 'Medio'
    else:
        return 'Bajo'


<p align="justify">
Definimos la función evaluar_rendimiento, que evalúa el rendimiento total de las ventas de un producto y lo clasifica como "Alto", "Medio" o "Bajo" según las sumas de ventas.

In [None]:
# Agrupar por 'Producto' y 'Region', y calcular el total y el promedio de ventas

grouped = df.groupby(['Producto', 'Region']).agg(
    Total_Ventas=('Ventas', 'sum'),
    Promedio_Ventas=('Ventas', 'mean'),
    Rendimiento=('Ventas', evaluar_rendimiento)  # Aplicar la función personalizada
).reset_index()


In [None]:
grouped.Promedio_Ventas = grouped.Promedio_Ventas.round(2)

In [None]:
grouped

Unnamed: 0,Producto,Region,Total_Ventas,Promedio_Ventas,Rendimiento
0,Producto A,Norte,8500,2833.33,Alto
1,Producto B,Sur,4000,2000.0,Bajo
2,Producto C,Norte,4000,4000.0,Bajo
3,Producto C,Sur,3500,1750.0,Bajo


 ## **<font color="DarkBlue">Agrupando por niveles del índice</font>**

👀 Ejemplo:

<p align="justify">
🚀 Supongamos que tienes un DataFrame que contiene datos de ventas por producto en diferentes años. Primero, crearemos un índice jerárquico y luego agruparemos por niveles de índice.



In [None]:
# Datos

data = {
    'Producto': ['Producto A', 'Producto A', 'Producto B', 'Producto B', 'Producto C', 'Producto C'],
    'Año': [2021, 2022, 2021, 2022, 2021, 2022],
    'Ventas': [1500, 2000, 3000, 2500, 4000, 3500]
}



In [None]:
df = pd.DataFrame(data)
df

Unnamed: 0,Producto,Año,Ventas
0,Producto A,2021,1500
1,Producto A,2022,2000
2,Producto B,2021,3000
3,Producto B,2022,2500
4,Producto C,2021,4000
5,Producto C,2022,3500


In [None]:
# Configurar un índice jerárquico

df.set_index(['Producto', 'Año'], inplace=True)


<p align="justify">
Usamos <code>set_index()</code> para establecer un índice jerárquico con Producto y Año. Esto nos permite trabajar con múltiples niveles de índice.

In [None]:
df

Unnamed: 0_level_0,Unnamed: 1_level_0,Ventas
Producto,Año,Unnamed: 2_level_1
Producto A,2021,1500
Producto A,2022,2000
Producto B,2021,3000
Producto B,2022,2500
Producto C,2021,4000
Producto C,2022,3500


In [None]:
# Agrupar por el nivel del índice 'Producto' y sumar las ventas

grouped = df.groupby(level='Producto').sum()


Utilizamos <code>groupby(level='Producto')</code> para agrupar el DataFrame por el nivel del índice correspondiente al Producto. Luego, aplicamos <code>sum()</code> para calcular el total de ventas de cada producto

In [None]:
grouped

Unnamed: 0_level_0,Ventas
Producto,Unnamed: 1_level_1
Producto A,3500
Producto B,5500
Producto C,7500


<p align="justify">
Puedes aplicar diversas funciones de agregación, como <code>mean(), max(), min()</code>, etc., para obtener diferentes estadísticas por grupo.







 # **<font color="DarkBlue">Agregaciones</font>**

<p align="justify">
Nombre de la función y Descripción:<br><br>
<ul>
    <li><strong>any, all:</strong> Devuelve True si alguno (uno o más valores) o todos los valores que no sean NA son "veraces".</li>
    <li><strong>count:</strong> Número de valores distintos de NA.</li>
    <li><strong>cummin, cummax:</strong> Mínimo y máximo acumulado de valores no NA.</li>
    <li><strong>cumsum:</strong> Suma acumulada de valores no NA.</li>
    <li><strong>cumprod:</strong> Producto acumulativo de valores distintos de NA.</li>
    <li><strong>first, last:</strong> Primer y último valor que no sea NA.</li>
    <li><strong>mean:</strong> Media de valores no NA.</li>
    <li><strong>median:</strong> Mediana aritmética de valores distintos de NA.</li>
    <li><strong>min, max:</strong> Mínimo y máximo de valores no NA.</li>
    <li><strong>nth:</strong> Recuperar el valor que aparecería en la posición n con los datos en orden ordenado.</li>
    <li><strong>ohlc:</strong> Calcular cuatro estadísticas de "apertura-máximo-mínimo-cierre" para datos similares a series temporales.</li>
    <li><strong>prod:</strong> Producto de valores distintos de NA.</li>
    <li><strong>quantile:</strong> Calcular cuantil de muestra.</li>
    <li><strong>rank:</strong> Rangos ordinales de valores distintos de NA, como llamar Series.rank.</li>
    <li><strong>size:</strong> Calcular tamaños de grupo y devolver el resultado como una serie.</li>
    <li><strong>sum:</strong> Suma de valores distintos de NA.</li>
    <li><strong>std, var:</strong> Desviación estándar y varianza de la muestra.</li>
</ul>
</p>


 # **<font color="DarkBlue">Tablas dinámicas y tabulación cruzada</font>**

<p align="justify">
Una tabla dinámica es una herramienta de resumen de datos que se encuentra con frecuencia en programas de hojas de cálculo y otro software de análisis de datos.
<br><br>
 Podemos agregar una tabla de datos mediante una o más claves, organizando los datos en un rectángulo con algunas de las claves de grupo a lo largo de las filas y otras a lo largo de las columnas. Las tablas dinámicas con pandas son posibles gracias a la función groupby, combinada con operaciones de remodelación que utilizan indexación jerárquica.
 <br><br>
 DataFrame también tiene un método pivot_table y también hay una función pivot_table de nivel superior.

👀 Ejemplo:

<p align="justify">
🚀 Aquí hay un ejemplo de cómo usar groupby y pivot_table en un contexto de análisis de ventas. Este ejemplo se centra en un conjunto de datos de ventas de productos y muestra cómo agrupar los datos y luego usar una tabla dinámica para resumir la información.



In [None]:
# Datos

data = {
    'Fecha': ['2023-01-01', '2023-01-01', '2023-01-02', '2023-01-02', '2023-01-03', '2023-01-03'],
    'Producto': ['A', 'B', 'A', 'B', 'A', 'B'],
    'Cantidad': [10, 5, 8, 7, 15, 6],
    'Precio': [100, 200, 100, 200, 100, 200]
}


In [None]:
df = pd.DataFrame(data)
df

Unnamed: 0,Fecha,Producto,Cantidad,Precio
0,2023-01-01,A,10,100
1,2023-01-01,B,5,200
2,2023-01-02,A,8,100
3,2023-01-02,B,7,200
4,2023-01-03,A,15,100
5,2023-01-03,B,6,200


In [None]:
# Usar groupby para calcular las ventas totales por producto

df['Ventas Totales'] = df['Cantidad'] * df['Precio']
ventas_por_producto = df.groupby('Producto')['Ventas Totales'].sum().reset_index()


In [None]:
ventas_por_producto

Unnamed: 0,Producto,Ventas Totales
0,A,3300
1,B,3600


In [None]:
# Usar pivot_table para obtener una tabla dinámica

tabla_dinamica = df.pivot_table(
    values='Ventas Totales',
    index='Fecha',
    columns='Producto',
    aggfunc='sum',
    fill_value=0
)


<p align="justify">
Se crea una tabla dinámica usando pivot_table para resumir las Ventas Totales, con Fecha como índice y Producto como columnas, usando la función de agregación sum.
<br><br>
Se especifica fill_value=0 para rellenar los valores vacíos con cero.


In [None]:
tabla_dinamica

Producto,A,B
Fecha,Unnamed: 1_level_1,Unnamed: 2_level_1
2023-01-01,1000,1000
2023-01-02,800,1400
2023-01-03,1500,1200


<br>
<br>
<p align="center"><b>
💗
<font color="DarkBlue">
Hemos llegado al final de nuestro colab de Pandas, a seguir codeando...
</font>
</p>