# Importaciones

In [None]:
# Importamos las bibliotecas necesarias para la manipulación de datos y la visualización
import pandas as pd
import matplotlib.pyplot as plt

In [None]:
# Cargamos los datos desde archivos CSV en DataFrames de pandas
df_pizzas = pd.read_csv(r'Datawarehouse\pizzas_normales.csv')
df_especiales = pd.read_csv(r'Datawarehouse\pizzas_especiales.csv')

# EDA (Análisis Exploratorio de Datos)

In [None]:
# Mostramos información general sobre el DataFrame 'df_pizzas' para entender la estructura y el contenido
df_pizzas.info()

In [None]:
# Agrupamos los datos por 'codigo' y 'nombre', y sumamos las 'unidades_total' para cada combinación
top_pizzas_unidades = df_pizzas.groupby(['codigo', 'nombre'])['unidades_total'].sum().reset_index()

In [None]:
# Ordenamos los resultados de mayor a menor según la columna 'unidades_total'
top_pizzas_unidades = top_pizzas_unidades.sort_values(by='unidades_total', ascending=False)

## Top 4 Pizzas más vendidas

In [None]:
# Filtramos las pizzas para obtener solo las cuatro más vendidas
pizzas_top = df_pizzas[df_pizzas['codigo'].isin(top_pizzas_unidades['codigo'].head(4))]

# Agrupamos las ventas por 'nombre' y 'mes' para obtener los datos de ventas mensuales
ventas_por_mes = pizzas_top[['nombre', 'mes', 'unidades_total']].groupby(['nombre', 'mes']).sum().reset_index()

# Obtenemos listas únicas de productos y meses
productos = ventas_por_mes['nombre'].unique()

# Ordenamos los meses correctamente
orden_meses = ['January', 'February', 'March', 'April', 'May']
ventas_por_mes['mes'] = pd.Categorical(ventas_por_mes['mes'], categories=orden_meses, ordered=True)

In [None]:
# Configuramos el gráfico de barras para las pizzas más vendidas por mes
plt.figure(figsize=(10, 6))

# Iteramos sobre cada producto para graficar las barras
ancho_barra = 0.2  # Ancho de cada barra
for i, producto in enumerate(productos):
    ventas_producto = ventas_por_mes[ventas_por_mes['nombre'] == producto].sort_values('mes')
    posiciones_x = [pos + i * ancho_barra for pos in range(len(ventas_producto))]
    plt.bar(posiciones_x, ventas_producto['unidades_total'], width=ancho_barra, label=producto)

# Personalizamos el gráfico
plt.xlabel('Mes')
plt.ylabel('Unidades Vendidas')
plt.title('Unidades Vendidas de Pizzas Más Populares por Mes')
plt.xticks([pos + (len(productos) / 2 - 0.5) * ancho_barra for pos in range(len(orden_meses))], orden_meses)
plt.legend()

# Mostramos el gráfico
plt.tight_layout()
plt.show()

## Proporción respecto al Total (Top 50)

In [None]:
# Calculamos la suma de 'unidades_total' para cada pizza
pizzas_unidades = df_pizzas.groupby(['codigo', 'nombre'])['unidades_total'].sum().reset_index()

# Filtramos las pizzas para obtener las 50 más vendidas
pizzas_unidades = pizzas_unidades[pizzas_unidades['codigo'].isin(top_pizzas_unidades['codigo'].head(50))]

In [None]:
# Calculamos el porcentaje de cada pizza respecto al total de unidades vendidas
pizzas_unidades['porcentaje'] = (pizzas_unidades['unidades_total'] / pizzas_unidades['unidades_total'].sum()) * 100

# Ordenamos los porcentajes de mayor a menor para visualización
pizzas_unidades = pizzas_unidades.sort_values(by='porcentaje', ascending=False)

# Creamos el gráfico de barras horizontales apiladas
plt.figure(figsize=(10, 6))
plt.barh(pizzas_unidades['nombre'], pizzas_unidades['porcentaje'], color=['b', 'g', 'r', 'c'])

# Personalizamos el gráfico
plt.xlabel('Proporción respecto al Total')
plt.ylabel('Tipos de Pizza')
plt.title('Proporciones de Pizzas respecto al Total (Top 50)')
plt.xlim(0, 20)  # Establecemos límites para el eje x
plt.grid(True, axis='x')  # Mostramos líneas de la cuadrícula en el eje x
plt.tight_layout()

# Mostramos el gráfico
plt.show()

## Total de unidades por mes

In [None]:
# Calculamos la suma de 'unidades_total' para cada mes
unidades_totales_mes = df_pizzas.groupby('mes')['unidades_total'].sum().reset_index()

# Ordenamos los meses correctamente
orden_meses = ['January', 'February', 'March', 'April', 'May', 'June']
unidades_totales_mes['mes'] = pd.Categorical(unidades_totales_mes['mes'], categories=orden_meses, ordered=True)

# Ordenamos el DataFrame por los meses categóricos
unidades_totales_mes = unidades_totales_mes.sort_values('mes')

In [None]:
# Creamos el gráfico de barras para las unidades totales por mes
plt.figure(figsize=(8, 6))
plt.bar(unidades_totales_mes['mes'], unidades_totales_mes['unidades_total'], color='skyblue')

# Personalizamos el gráfico
plt.xlabel('Mes')
plt.ylabel('Unidades Totales')
plt.title('Unidades Totales por Mes')
plt.xticks(rotation=45)  # Rotamos las etiquetas del eje x para mejor visualización si es necesario

# Mostramos el gráfico
plt.tight_layout()
plt.show()