# Día 2: Agregaciones y filtros

### Objetivos

*   Agrupar datos por una o mas columnas
*   Calcular totales, promedios y conteos
*   Filtrar resultados con condiciones

In [1]:
import pandas as pd

In [2]:
df = pd.read_csv('datos_simulados.csv')
df.head()

Unnamed: 0,fecha,producto,cantidad,precio_unitario
0,2024-01-01,Manzana,10.0,5
1,2024-01-02,Plátano,20.0,3
2,2024-01-03,Manzana,,5
3,,Manzana,15.0,5
4,2024-01-05,,10.0,3


In [3]:
# Vamos a eliminar los duplicados y nulos
df.drop_duplicates(inplace=True)

df['cantidad'] = df['cantidad'].fillna(0)

df['producto'] = df['producto'].fillna('Producto desconocido')

In [5]:
df.head()

Unnamed: 0,fecha,producto,cantidad,precio_unitario
0,2024-01-01,Manzana,10.0,5
1,2024-01-02,Plátano,20.0,3
2,2024-01-03,Manzana,0.0,5
3,,Manzana,15.0,5
4,2024-01-05,Producto desconocido,10.0,3


### Parte 1: Agrupar y agregar

*   Total de ventasa de ventas por producto
*   Promedio de unidades por producto
*   Total de ingresos por producto (vamos a crear columna)

#### Método groupby:

El .groupby()método de Pandas es una herramienta fundamental para el análisis de datos, ya que permite operaciones similares a las de la cláusula SQL GROUP BY. Facilita una estrategia de "dividir-aplicar-combinar" para analizar y transformar conjuntos de datos.

Dividir: El groupby()método divide un DataFrame en grupos según los valores únicos en una o más columnas especificadas.

Aplicar: Se aplica una función (por ejemplo, agregación, transformación o filtración) independientemente a cada uno de estos grupos creados

Combinar: Los resultados de aplicar la función a cada grupo se combinan luego en una nueva Serie o DataFrame, dependiendo de la operación realizada.

Operaciones comunes con groupby(): Agregación: Cálculo de estadísticas de resumen para cada grupo (por ejemplo, sum(), mean(), count(), min(), max()).

In [6]:
# Total de ventas por producto

total_ventas_por_producto = df.groupby('producto')['cantidad'].sum()
total_ventas_por_producto

Unnamed: 0_level_0,cantidad
producto,Unnamed: 1_level_1
Manzana,25.0
Plátano,20.0
Producto desconocido,10.0


In [7]:
# Promedio de unidades por producto

promedio_unidades_por_producto = df.groupby('producto')['cantidad'].mean()
promedio_unidades_por_producto

Unnamed: 0_level_0,cantidad
producto,Unnamed: 1_level_1
Manzana,8.333333
Plátano,20.0
Producto desconocido,10.0


In [10]:
# Total de ingresos por producto (crear una columna)

df['total'] = df['cantidad'] * df['precio_unitario']
total_ingresos_por_producto = df.groupby('producto')['total'].sum()
total_ingresos_por_producto

Unnamed: 0_level_0,total
producto,Unnamed: 1_level_1
Manzana,125.0
Plátano,60.0
Producto desconocido,30.0


In [11]:
df.head()

Unnamed: 0,fecha,producto,cantidad,precio_unitario,total
0,2024-01-01,Manzana,10.0,5,50.0
1,2024-01-02,Plátano,20.0,3,60.0
2,2024-01-03,Manzana,0.0,5,0.0
3,,Manzana,15.0,5,75.0
4,2024-01-05,Producto desconocido,10.0,3,30.0


In [12]:
ventas_por_fecha = df.groupby('fecha')['total'].sum()
ventas_por_fecha

Unnamed: 0_level_0,total
fecha,Unnamed: 1_level_1
2024-01-01,50.0
2024-01-02,60.0
2024-01-03,0.0
2024-01-05,30.0


### Parte 2: Filtrar y ordenar

*   Top 2 productod mas vendidos por cantidad
*   Productos con ingresos mayores a $100

En Pandas, el método principal para ordenar valores dentro de un DataFrame o una Serie es sort_values(). Este método permite ordenar por una o más columnas (para DataFrames) o por los propios valores (para Series).

Parámetros clave de sort_values():
by:
Especifica las columnas por las que se ordenará. Para una sola columna, pase el nombre de la columna como una cadena. Para varias columnas, pase una lista de nombres de columnas. El orden de las columnas en la lista determina la prioridad de ordenación.

ascending:
Un booleano o una lista de booleanos (predeterminado True). Si es True<nombre de la columna>, se ordena en orden ascendente; si es <nombre de la Falsecolumna>, se ordena en orden descendente. Al ordenar por varias columnas, puede proporcionar una lista de booleanos para especificar diferentes órdenes de ordenación para cada columna.


In [13]:
# Top 2 prodcutos mas vendidos por cantidad

top_2_productos_mas_vendidos = total_ventas_por_producto.sort_values(ascending=False).head(2)
top_2_productos_mas_vendidos


Unnamed: 0_level_0,cantidad
producto,Unnamed: 1_level_1
Manzana,25.0
Plátano,20.0


In [14]:
# Productos con ingresos mayores a 100

productos_con_ingresos_mayores_a_100 = total_ingresos_por_producto[total_ingresos_por_producto > 100]
productos_con_ingresos_mayores_a_100

Unnamed: 0_level_0,total
producto,Unnamed: 1_level_1
Manzana,125.0
