In [None]:
import pandas as pd

# Crear un DataFrame de ejemplo
data = {
    'Producto': ['A', 'B', 'A', 'B', 'A', 'C', 'C'],
    'Vendedor': ['Juan', 'Ana', 'Juan', 'Ana', 'Pedro', 'Juan', 'Pedro'],
    'Ventas': [100, 150, 200, 100, 300, 250, 200]
}

df = pd.DataFrame(data)

df

Unnamed: 0,Producto,Vendedor,Ventas
0,A,Juan,100
1,B,Ana,150
2,A,Juan,200
3,B,Ana,100
4,A,Pedro,300
5,C,Juan,250
6,C,Pedro,200


In [None]:
# Agrupar por Producto y sumar las ventas
grouped = df.groupby('Producto')["Ventas"].sum()
grouped

Unnamed: 0_level_0,Ventas
Producto,Unnamed: 1_level_1
A,600
B,250
C,450


In [None]:
# Agrupar por Vendedor y Producto y sumar las ventas
grouped = df.groupby(["Vendedor","Producto"])["Ventas"].sum()
grouped

Unnamed: 0_level_0,Unnamed: 1_level_0,Ventas
Vendedor,Producto,Unnamed: 2_level_1
Ana,B,250
Juan,A,300
Juan,C,250
Pedro,A,300
Pedro,C,200


## Ejemplo de Pivot Table:

Continuando con el ejemplo anterior, supongamos que ahora queremos ver las ventas agrupadas por Producto y Vendedor.

In [None]:
# Crear una pivot table
pivot = df.pivot_table(values='Ventas', index='Producto', columns='Vendedor', aggfunc='sum')

pivot

Vendedor,Ana,Juan,Pedro
Producto,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,,300.0,300.0
B,250.0,,
C,,250.0,200.0


# Caso de Estudio
## Análisis de Ventas por Región y Producto


In [None]:
import pandas as pd

# Crear un DataFrame de ejemplo
data = {
    'Región': ['Norte', 'Sur', 'Este', 'Oeste', 'Norte', 'Sur', 'Este', 'Oeste', 'Norte', 'Sur'],
    'Producto': ['A', 'A', 'B', 'B', 'C', 'C', 'A', 'A', 'B', 'B'],
    'Ventas': [150, 200, 300, 250, 400, 150, 100, 200, 350, 300]
}

df = pd.DataFrame(data)
print("Datos originales:")
print(df)


Datos originales:
  Región Producto  Ventas
0  Norte        A     150
1    Sur        A     200
2   Este        B     300
3  Oeste        B     250
4  Norte        C     400
5    Sur        C     150
6   Este        A     100
7  Oeste        A     200
8  Norte        B     350
9    Sur        B     300


# Análisis con **`groupby`**
Primero, utilizamos groupby para agrupar las ventas por región y luego sumar las ventas para cada producto en cada región.

In [None]:
# Agrupar por Región y Producto, luego sumar las ventas
grouped = df.groupby(['Región', 'Producto']).sum()

print("\nVentas agrupadas por Región y Producto:")
grouped



Ventas agrupadas por Región y Producto:


Unnamed: 0_level_0,Unnamed: 1_level_0,Ventas
Región,Producto,Unnamed: 2_level_1
Este,A,100
Este,B,300
Norte,A,150
Norte,B,350
Norte,C,400
Oeste,A,200
Oeste,B,250
Sur,A,200
Sur,B,300
Sur,C,150


# **Análisis con `pivot_table`**
Ahora, utilizamos pivot_table para crear una tabla que muestre las ventas de diferentes productos en cada región.

In [None]:
# Crear una pivot table para comparar las ventas de diferentes productos en cada región
pivot = df.pivot_table(values='Ventas', index='Región', columns='Producto', aggfunc='sum')

print("\nPivot Table de Ventas por Región y Producto:")
pivot



Pivot Table de Ventas por Región y Producto:


Producto,A,B,C
Región,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Este,100.0,300.0,
Norte,150.0,350.0,400.0
Oeste,200.0,250.0,
Sur,200.0,300.0,150.0


## **Conclusiones del Caso 1**

**Ventas por Región:**

El análisis groupby nos permitió ver que en la región Norte, el producto C es el más vendido, mientras que en la región Sur, los productos A y B tienen un rendimiento similar.

**Comparación de Productos:**

La tabla dinámica (pivot table) mostró que el producto B tiene un rendimiento más uniforme en todas las regiones, mientras que el producto A tiene ventas más concentradas en las regiones Sur y Este.

# groupby
**Propósito:** La función groupby se utiliza para agrupar filas de un DataFrame según los valores de una o más columnas.

Luego, puedes aplicar una función de agregación (como sum, mean, count, etc.) para calcular estadísticas de cada grupo.

## Cómo funciona:

* Divide el DataFrame en grupos según los valores de una o más columnas.
* Aplica una función de agregación a cada grupo.
* Combina los resultados en un nuevo DataFrame.

# pivot_table
**Propósito:** pivot_table se utiliza para reorganizar y resumir los datos en un formato de tabla dinámica, similar a las tablas dinámicas en Excel.

Puedes agrupar los datos por múltiples niveles y realizar múltiples agregaciones.

## Cómo funciona:

* Define una o más columnas para ser las filas (index) y columnas (columns) de la tabla resultante.
* Especifica una función de agregación (como sum, mean, count, etc.) para calcular los valores de la tabla.
* Combina los resultados en una tabla que resume los datos de manera más estructurada.

# Diferencias clave:
## Resultado:

* **groupby:** El resultado es un DataFrame o Serie con las agregaciones aplicadas, basado en los grupos formados.
* **pivot_table:** El resultado es una tabla más estructurada (con filas y columnas bien definidas) que permite ver las relaciones entre diferentes variables de manera cruzada.

##Flexibilidad:

* **pivot_table:** Es más flexible para organizar los datos y permite trabajar con más de una dimensión al mismo tiempo.

* **groupby:** Es más sencillo y directo para agregaciones lineales, pero menos flexible para visualizar múltiples dimensiones de los datos.