 # **<font color="DarkBlue">Agregación de datos y operaciones grupales 🐼 </font>**

<p align="center">
<img src="https://pandas.pydata.org/static/img/pandas_mark.svg" width="50">
</p>


https://pandas.pydata.org/

 # **<font color="DarkBlue">Agregaciones</font>**

<p align="justify">
<ul>
    <li><strong>any, all:</strong> Devuelve True si alguno (uno o más valores) o todos los valores que no sean NA son "veraces".</li>
    <li><strong>count:</strong> Número de valores distintos de NA.</li>
    <li><strong>cummin, cummax:</strong> Mínimo y máximo acumulado de valores no NA.</li>
    <li><strong>cumsum:</strong> Suma acumulada de valores no NA.</li>
    <li><strong>cumprod:</strong> Producto acumulativo de valores distintos de NA.</li>
    <li><strong>first, last:</strong> Primer y último valor que no sea NA.</li>
    <li><strong>mean:</strong> Media de valores no NA.</li>
    <li><strong>median:</strong> Mediana aritmética de valores distintos de NA.</li>
    <li><strong>min, max:</strong> Mínimo y máximo de valores no NA.</li>
    <li><strong>nth:</strong> Recuperar el valor que aparecería en la posición n con los datos en orden ordenado.</li>
    <li><strong>ohlc:</strong> Calcular cuatro estadísticas de "apertura-máximo-mínimo-cierre" para datos similares a series temporales.</li>
    <li><strong>prod:</strong> Producto de valores distintos de NA.</li>
    <li><strong>quantile:</strong> Calcular cuantil de muestra.</li>
    <li><strong>rank:</strong> Rangos ordinales de valores distintos de NA, como llamar Series.rank.</li>
    <li><strong>size:</strong> Calcular tamaños de grupo y devolver el resultado como una serie.</li>
    <li><strong>sum:</strong> Suma de valores distintos de NA.</li>
    <li><strong>std, var:</strong> Desviación estándar y varianza de la muestra.</li>
</ul>
</p>


In [None]:
import pandas as pd
import plotly.express as px

<p align="justify">
Ahora vamos a ver un ejemplo más complejo que utiliza groupby en un DataFrame de ventas, con varias columnas adicionales para hacer un análisis más detallado.
<br><br>
En este caso, el DataFrame incluye información sobre los productos vendidos, la categoría, la región de la venta y el mes, además del monto de la venta y la cantidad vendida.



In [None]:
# Generando un dataframe de ejemplo

ventas = pd.DataFrame({
    'Producto': ['Laptop', 'Smartphone', 'Camiseta', 'Pantalones', 'Televisor', 'Zapatillas',
                 'Laptop', 'Smartphone', 'Camiseta', 'Pantalones', 'Televisor', 'Zapatillas'],
    'Categoría': ['Electrónica', 'Electrónica', 'Ropa', 'Ropa', 'Electrónica', 'Ropa',
                  'Electrónica', 'Electrónica', 'Ropa', 'Ropa', 'Electrónica', 'Ropa'],
    'Región': ['Norte', 'Sur', 'Norte', 'Sur', 'Este', 'Oeste', 'Norte', 'Sur', 'Este', 'Oeste', 'Norte', 'Sur'],
    'Mes': ['Enero', 'Enero', 'Enero', 'Febrero', 'Febrero', 'Febrero', 'Enero', 'Febrero', 'Enero', 'Febrero', 'Enero', 'Febrero'],
    'Monto de Venta': [1200, 800, 250, 400, 1500, 600, 1300, 900, 300, 450, 1600, 650],
    'Cantidad Vendida': [3, 5, 10, 7, 2, 8, 4, 6, 9, 5, 3, 7]
})


In [None]:
ventas

Unnamed: 0,Producto,Categoría,Región,Mes,Monto de Venta,Cantidad Vendida
0,Laptop,Electrónica,Norte,Enero,1200,3
1,Smartphone,Electrónica,Sur,Enero,800,5
2,Camiseta,Ropa,Norte,Enero,250,10
3,Pantalones,Ropa,Sur,Febrero,400,7
4,Televisor,Electrónica,Este,Febrero,1500,2
5,Zapatillas,Ropa,Oeste,Febrero,600,8
6,Laptop,Electrónica,Norte,Enero,1300,4
7,Smartphone,Electrónica,Sur,Febrero,900,6
8,Camiseta,Ropa,Este,Enero,300,9
9,Pantalones,Ropa,Oeste,Febrero,450,5


In [None]:
# Agrupar por 'Categoría', 'Región' y 'Mes' y calcular el monto total de ventas y la cantidad total vendida
ventas_por_categoria_region_mes = ventas.groupby(['Categoría', 'Región', 'Mes']).agg(
    Ventas_Totales=('Monto de Venta', 'sum'),
    Cantidad_Total=('Cantidad Vendida', 'sum')
).reset_index()

ventas_por_categoria_region_mes

Unnamed: 0,Categoría,Región,Mes,Ventas_Totales,Cantidad_Total
0,Electrónica,Este,Febrero,1500,2
1,Electrónica,Norte,Enero,4100,10
2,Electrónica,Sur,Enero,800,5
3,Electrónica,Sur,Febrero,900,6
4,Ropa,Este,Enero,300,9
5,Ropa,Norte,Enero,250,10
6,Ropa,Oeste,Febrero,1050,13
7,Ropa,Sur,Febrero,1050,14


<p align="justify">
Este resultado muestra el monto total de ventas y la cantidad total vendida para cada combinación de categoría, región y mes.







In [None]:
px.bar(ventas_por_categoria_region_mes,
       x='Mes',
       y='Ventas_Totales',
       color='Región',
       facet_col='Categoría',
       title='Ventas Totales por Categoría, Región y Mes',
       labels={'Ventas_Totales': 'Monto de Ventas',
               'Mes': 'Mes',
               'Región': 'Región'},
       template='gridon',
       barmode='stack'  # Gráfica apilada
)

In [None]:
# Definir el orden de los meses

mes_order = ["Enero", "Febrero"]

In [None]:
px.bar(ventas_por_categoria_region_mes,
       x='Mes',
       y='Ventas_Totales',
       color='Región',
       facet_col='Categoría',
       title='Ventas Totales por Categoría, Región y Mes',
       labels={'Ventas_Totales': 'Monto de Ventas', 'Mes': 'Mes', 'Región': 'Región'},
       barmode='stack',  # Gráfica apilada
       template='gridon',
       text='Ventas_Totales',
       category_orders={'Mes': mes_order}  # Ordenar el eje x por el orden deseado
)

 ## **<font color="DarkBlue">Count</font>**

<p align="justify">
Vamos a crear un ejemplo donde usamos la agregación count() para contar cuántas veces se vende un producto dentro de cada categoría, región y mes. Esta técnica es útil para obtener una frecuencia de ventas en lugar de sumar el monto total o la cantidad vendida.
<br><br>
En este caso, vamos a crear un DataFrame similar al anterior, pero el objetivo será contar el número de transacciones (o filas) que ocurren para cada combinación de Categoría, Región y Mes.





In [None]:
# Agrupar los datos usando count() para contar transacciones

transacciones_por_categoria_region_mes = ventas.groupby(['Categoría', 'Región', 'Mes']).agg(
    Total_Transacciones=('Producto', 'count')
).reset_index()


In [None]:
transacciones_por_categoria_region_mes

Unnamed: 0,Categoría,Región,Mes,Total_Transacciones
0,Electrónica,Este,Febrero,1
1,Electrónica,Norte,Enero,3
2,Electrónica,Sur,Enero,1
3,Electrónica,Sur,Febrero,1
4,Ropa,Este,Enero,1
5,Ropa,Norte,Enero,1
6,Ropa,Oeste,Febrero,2
7,Ropa,Sur,Febrero,2


In [None]:
px.bar(
    transacciones_por_categoria_region_mes,
    x='Mes',
    y='Total_Transacciones',
    color='Región',
    facet_col='Categoría',
    title='Número de Transacciones por Categoría, Región y Mes',
    labels={'Total_Transacciones': 'Número de Transacciones', 'Mes': 'Mes', 'Región': 'Región'},
    barmode='stack',
    template='gridon',
    text='Total_Transacciones',
    category_orders={'Mes': mes_order}
)

<p align="justify">
Esta visualización muestra cómo varía la cantidad de transacciones en cada mes, por categoría y por región. El conteo de transacciones permite analizar la frecuencia de ventas, destacando patrones de demanda y popularidad por zona y tipo de producto.








 ## **<font color="DarkBlue">Cumsum</font>**

<p align="justify">
Para este ejemplo, usaremos la función cumsum() para calcular la suma acumulativa de las ventas en cada combinación de categoría, región y mes.
<br><br>
Esto nos permite ver cómo se acumulan las ventas a lo largo del tiempo, lo cual puede ser útil para identificar tendencias de crecimiento en ventas de cada producto en distintas regiones.



In [None]:
ventas = pd.DataFrame({
    'Producto': ['Laptop', 'Smartphone', 'Camiseta', 'Pantalones', 'Televisor', 'Zapatillas',
                 'Laptop', 'Smartphone', 'Camiseta', 'Pantalones', 'Televisor', 'Zapatillas'],
    'Categoría': ['Electrónica', 'Electrónica', 'Ropa', 'Ropa', 'Electrónica', 'Ropa',
                  'Electrónica', 'Electrónica', 'Ropa', 'Ropa', 'Electrónica', 'Ropa'],
    'Región': ['Norte', 'Sur', 'Norte', 'Sur', 'Este', 'Oeste', 'Norte', 'Sur', 'Este', 'Oeste', 'Norte', 'Sur'],
    'Mes': ['Enero', 'Enero', 'Enero', 'Febrero', 'Febrero', 'Febrero', 'Enero', 'Febrero', 'Enero', 'Febrero', 'Enero', 'Febrero'],
    'Monto de Venta': [1200, 800, 250, 400, 1500, 600, 1300, 900, 300, 450, 1600, 650],
    'Cantidad Vendida': [3, 5, 10, 7, 2, 8, 4, 6, 9, 5, 3, 7]
})


In [None]:
# Ordenar por Categoría, Región y Mes

ventas = ventas.sort_values(by=['Categoría', 'Región', 'Mes'])

In [None]:
# Calcular la suma acumulativa de 'Monto de Venta' por Categoría y Región

ventas['Venta_Acum'] = ventas.groupby(['Categoría', 'Región'])['Monto de Venta'].cumsum()
ventas


Unnamed: 0,Producto,Categoría,Región,Mes,Monto de Venta,Cantidad Vendida,Venta_Acum
4,Televisor,Electrónica,Este,Febrero,1500,2,1500
0,Laptop,Electrónica,Norte,Enero,1200,3,1200
6,Laptop,Electrónica,Norte,Enero,1300,4,2500
10,Televisor,Electrónica,Norte,Enero,1600,3,4100
1,Smartphone,Electrónica,Sur,Enero,800,5,800
7,Smartphone,Electrónica,Sur,Febrero,900,6,1700
8,Camiseta,Ropa,Este,Enero,300,9,300
2,Camiseta,Ropa,Norte,Enero,250,10,250
5,Zapatillas,Ropa,Oeste,Febrero,600,8,600
9,Pantalones,Ropa,Oeste,Febrero,450,5,1050


In [None]:
px.bar(
    ventas,
    x='Mes',
    y='Monto de Venta',
    color='Región',
    facet_col='Categoría',
    title='Suma Acumulativa de Ventas por Categoría y Región',
    labels={'Venta_Acum': 'Monto de Venta Acumulado', 'Mes': 'Mes'},
    category_orders={'Mes': ['Enero', 'Febrero']},
    template='gridon',
    text='Venta_Acum',
    barmode='stack'  # Modo apilado para sumar acumulativamente las regiones dentro de cada mes
)


 ## **<font color="DarkBlue">Mean</font>**

<p aling="justify">
Para este ejemplo, usaremos la función mean() para calcular el promedio de las ventas (Monto de Venta) para cada combinación de categoría, región y mes.
<br><br>
Este enfoque permite observar las ventas promedio de productos en distintas regiones y categorías, lo cual puede ser útil para identificar diferencias en el valor de las ventas entre regiones.



In [None]:
ventas = pd.DataFrame({
    'Producto': ['Laptop', 'Smartphone', 'Camiseta', 'Pantalones', 'Televisor', 'Zapatillas',
                 'Laptop', 'Smartphone', 'Camiseta', 'Pantalones', 'Televisor', 'Zapatillas'],
    'Categoría': ['Electrónica', 'Electrónica', 'Ropa', 'Ropa', 'Electrónica', 'Ropa',
                  'Electrónica', 'Electrónica', 'Ropa', 'Ropa', 'Electrónica', 'Ropa'],
    'Región': ['Norte', 'Sur', 'Norte', 'Sur', 'Este', 'Oeste', 'Norte', 'Sur', 'Este', 'Oeste', 'Norte', 'Sur'],
    'Mes': ['Enero', 'Enero', 'Enero', 'Febrero', 'Febrero', 'Febrero', 'Enero', 'Febrero', 'Enero', 'Febrero', 'Enero', 'Febrero'],
    'Monto de Venta': [1200, 800, 250, 400, 1500, 600, 1300, 900, 300, 450, 1600, 650],
    'Cantidad Vendida': [3, 5, 10, 7, 2, 8, 4, 6, 9, 5, 3, 7]
})

ventas

Unnamed: 0,Producto,Categoría,Región,Mes,Monto de Venta,Cantidad Vendida
0,Laptop,Electrónica,Norte,Enero,1200,3
1,Smartphone,Electrónica,Sur,Enero,800,5
2,Camiseta,Ropa,Norte,Enero,250,10
3,Pantalones,Ropa,Sur,Febrero,400,7
4,Televisor,Electrónica,Este,Febrero,1500,2
5,Zapatillas,Ropa,Oeste,Febrero,600,8
6,Laptop,Electrónica,Norte,Enero,1300,4
7,Smartphone,Electrónica,Sur,Febrero,900,6
8,Camiseta,Ropa,Este,Enero,300,9
9,Pantalones,Ropa,Oeste,Febrero,450,5


In [None]:
# Calcular el promedio de 'Monto de Venta' por Categoría, Región y Mes

ventas_promedio = ventas.groupby(['Categoría', 'Región', 'Mes'])['Monto de Venta'].mean().reset_index()
ventas_promedio['Monto de Venta'] = ventas_promedio['Monto de Venta'].round(2)
ventas_promedio

Unnamed: 0,Categoría,Región,Mes,Monto de Venta
0,Electrónica,Este,Febrero,1500.0
1,Electrónica,Norte,Enero,1366.67
2,Electrónica,Sur,Enero,800.0
3,Electrónica,Sur,Febrero,900.0
4,Ropa,Este,Enero,300.0
5,Ropa,Norte,Enero,250.0
6,Ropa,Oeste,Febrero,525.0
7,Ropa,Sur,Febrero,525.0


In [None]:
px.bar(
    ventas_promedio,
    x='Mes',
    y='Monto de Venta',
    color='Región',
    facet_col='Categoría',
    title='Promedio de Ventas por Categoría, Región y Mes',
    template='gridon',
    text='Monto de Venta',
    labels={'Monto de Venta': 'Monto de Venta Promedio', 'Mes': 'Mes'},
    category_orders={'Mes': ['Enero', 'Febrero']}
)

<p align="justify">
Este gráfico permite visualizar el promedio de ventas en cada región y categoría por mes, facilitando la identificación de regiones con promedios de ventas más altos o bajos en cada categoría y mes.








 ## **<font color="DarkBlue">Rank</font>**

<p align="justify">
Usaremos la función rank() para asignar un ranking a los valores de las ventas en cada combinación de categoría, región y mes.
<br><br>
Esto nos ayudará a ver cómo se clasifican las ventas dentro de cada grupo, permitiendo identificar los productos, regiones o meses con el mejor desempeño según el valor de las ventas.



In [None]:
# Calcular el ranking de 'Monto de Venta' por Categoría, Región y Mes

ventas['Rank_Ventas'] = ventas.groupby(['Categoría', 'Región', 'Mes'])['Monto de Venta'].rank(method='min', ascending=False)
ventas

Unnamed: 0,Producto,Categoría,Región,Mes,Monto de Venta,Cantidad Vendida,Rank_Ventas
0,Laptop,Electrónica,Norte,Enero,1200,3,3.0
1,Smartphone,Electrónica,Sur,Enero,800,5,1.0
2,Camiseta,Ropa,Norte,Enero,250,10,1.0
3,Pantalones,Ropa,Sur,Febrero,400,7,2.0
4,Televisor,Electrónica,Este,Febrero,1500,2,1.0
5,Zapatillas,Ropa,Oeste,Febrero,600,8,1.0
6,Laptop,Electrónica,Norte,Enero,1300,4,2.0
7,Smartphone,Electrónica,Sur,Febrero,900,6,1.0
8,Camiseta,Ropa,Este,Enero,300,9,1.0
9,Pantalones,Ropa,Oeste,Febrero,450,5,2.0


<br>
<br>
<p align="center"><b>
💗
<font color="DarkBlue">
Hemos llegado al final de nuestro colab de Pandas, a seguir codeando...
</font>
</p>