In [0]:
import plotly.graph_objects as go
import plotly.express as px
import pandas as pd
import matplotlib as plt
import seaborn as sns
import seaborn.objects as so
import dataframe_image as di

In [0]:
#di.export(vendas_por_tempo,"tempo.xlsx",max_cols=-1,max_rows=-1)
#vendas_semanal.to_csv('vendas_semanal.csv', index=False)

# Proyecto de Analisis Exploratoria

## Base de Datos

In [0]:
df = pd.read_excel("DataModelPizzaSales.xlsx")
df.head()

### Eliminacion de colunas innecesarias

In [0]:
del df ['pizza_id']
del df ['order_id']
del df ['order_details_id']
display(df)

## Informe sobre Valores e Espacios Vacios

In [0]:
df.info()

Filas (**RangeIndex**): 48,620 registros (de 0 a 48,619). Cada fila representa un pedido de pizza.

Columnas (**Data columns**): 9 columnas.

Descripción de las columnas:

**quantity:** Cantidad de pizzas pedidas.

**order_date:** Fecha del pedido.

**order_time:** Hora del pedido.

**unit_price:** Precio unitario de cada pizza.

**total_price:** Valor total del pedido.

**pizza_size:** Tamaño de la pizza (por ejemplo: pequeña, mediana, grande).

**pizza_category:** Tipo de pizza (por ejemplo: Margarita, Pepperoni).

**pizza_ingredients:** Ingredientes de la pizza.

**pizza_name:** Nombre de la pizza.

## Informe General Simple

In [0]:
df.describe()

### Análisis del resumen estadístico
**1. quantity (cantidad de pizzas):**

Promedio (mean): La mayoría de los pedidos incluyen solo 1 pizza, con un promedio de 1,02.

**Mínimo (min):** El pedido más pequeño tiene 1 pizza.

**Máximo (max):** El pedido más grande tiene 4 pizzas.

**Desviación estándar (std):** 
Baja variación en las cantidades (0,14), lo que indica que los pedidos con más de 1 pizza son poco comunes.

**2. order_date (fecha del pedido):**
Los pedidos cubren desde 2015-01-01 hasta 2015-12-31, representando todo el año.

La mediana (50%) ocurre el 2015-06-28, lo que muestra una distribución uniforme de los pedidos a lo largo del tiempo.

**3. unit_price (precio unitario de cada pizza):**

**Promedio (mean):**
El precio promedio por pizza es 16,49.

**Rango intercuartílico (IQR):**

25% de las pizzas cuestan hasta 12,75.

50% (mediana) cuestan 16,50.

75% cuestan hasta 20,25.

**Máximo (max):** La pizza más cara cuesta 35,95.

**Desviación estándar (std):** 
Hay una variación moderada en los precios (3,62).

**4. total_price (valor total del pedido):**

**Promedio (mean):** 
El valor promedio de un pedido es 16,82, lo que confirma que la mayoría de los pedidos incluyen solo una pizza.

**Máximo (max):** 
El pedido más costoso tiene un valor total de 83,00, indicando que pedidos más grandes o pizzas más caras son poco comunes.

**Desviación estándar (std):**
El total varía más que el precio unitario (4,44), debido a la influencia de pedidos de mayor cantidad o precios altos.

**Conclusiones iniciales**

Predominan los pedidos individuales (cantidad promedio ≈ 1).

Precios consistentes: La mayoría de los precios están entre 12,75 y 20,25.

Pedidos altos son raros: Solo unos pocos alcanzan el máximo de 83,00.

Los datos cubren todo el año 2015, ideales para análisis de tendencias estacionales.

In [0]:
informe_general = df.agg({"quantity":["max","min","mean","sum"],"unit_price":["max","min","mean"],"total_price":["max","min","mean","sum"]}).reset_index()
display(informe_general)

## Cantidad de Sabores de Pizza

In [0]:
df["pizza_name"].unique()

## Desajuste entre Popularidad y Rentabilidad

### Lista de pizzas mas Rentables 

In [0]:
df_grupo = df.groupby(["pizza_name"]).sum(numeric_only=True).sort_values("total_price",ascending=False).reset_index()
display(df_grupo)

### Lista de Pizzas mas Vendidas

In [0]:
df_grupo2 = df.groupby(["pizza_name"]).sum(numeric_only=True).sort_values("quantity",ascending=False).reset_index()
display(df_grupo2)

### Desajuste entre Popularidad y Rentabilidad

Durante el análisis de las ventas de la pizzería, uno de los principales hallazgos fue que la pizza más vendida no es la que genera más ganancias para la empresa. Este es un punto crucial, ya que sugiere un desajuste entre la demanda de los clientes y la estrategia de precios o el costo de producción de los productos.

**1. Pizza Más Vendida**

La pizza **The Classic Deluxe Pizza** fue la más vendida durante el período analizado, con una cantidad significativa de pedidos. Esto indica que existe una fuerte preferencia por este producto entre los clientes, lo que, en un primer momento, podría sugerir que es un artículo exitoso para el negocio.

**2. Pizza Más Rentable**

Sin embargo, al analizar el margen de ganancia por pizza, observamos que la pizza **The Thai Chicken Pizza**, a pesar de tener un volumen de ventas menor, genera más ganancia debido a su precio de venta más alto. Esto puede ser atribuido a una combinación de factores, como ingredientes más baratos o una estrategia de precios que maximiza la rentabilidad sin afectar significativamente la demanda.

**3. Implicaciones para la Estrategia de Negocio**

Este desajuste tiene implicaciones importantes:

**Precios y Costos de Producción:** Puede ser necesario revisar la estrategia de precios o buscar maneras de reducir el costo de producción de la pizza más vendida. Un análisis más profundo de los costos de cada ingrediente y el tiempo de preparación puede revelar oportunidades para aumentar el margen de ganancia de esta pizza.

**Promociones y Marketing:** Aunque la pizza **The Classic Deluxe Pizza** es la más popular, podría ser interesante enfocar los esfuerzos de marketing para promover la pizza **The Thai Chicken Pizza** (o las otras con mayor rentabilidad), quizás ofreciendo combinaciones, promociones o destacando sus cualidades en los canales de comunicación.

**Revisión del Portafolio de Productos:** La empresa debe evaluar si la variedad de pizzas ofrecidas está equilibrada entre opciones que atraen a los clientes y aquellas que generan márgenes más altos. Se pueden hacer ajustes en el menú para maximizar las ganancias sin sacrificar la satisfacción del cliente.

**4. Recomendaciones**

Análisis Costo-Beneficio: Considerar el costo de producción y la rentabilidad de cada pizza para optimizar el menú.
Promociones Dirigidas: Crear promociones para aumentar las ventas de pizzas más rentables, como combos o descuentos en pizzas específicas.
Segmentación de Clientes: Identificar el perfil de los consumidores que más compran la pizza **The Classic Deluxe Pizza** y entender si sería posible aumentar la venta de las más rentables a ese público.


## Análisis de la Estacionalidad

In [0]:
vendas_ano = df.groupby(["order_date"]).sum(numeric_only=True).reset_index()
display(vendas_ano)

In [0]:
fig1 = px.line(vendas_ano, x="order_date", y="total_price",title="Venta Anual")
fig1.show()

### Patrones generales:

Hay una variación diaria significativa en los valores, con fluctuaciones entre aproximadamente 2000 y 4000 a lo largo del año.

Los picos más altos y más bajos son esporádicos, lo que indica eventos excepcionales de aumento y disminución.

**Tendencias temporales:**

El gráfico muestra varias oscilaciones periódicas, lo que podría indicar estacionalidad o variaciones relacionadas con días laborales frente a fines de semana.

Hay un pico notable alrededor de julio y otro en noviembre, que podrían estar relacionados con campañas estacionales, feriados o promociones.

**Valores atípicos (outliers):**

Algunos valores exceden claramente el rango promedio, como los picos en julio y noviembre.

In [0]:
vendas_por_mes = vendas_ano.resample('ME', on='order_date').sum().reset_index()
display(vendas_por_mes)

In [0]:
fig_por_mes = px.line(vendas_por_mes, y="total_price",x="order_date")
fig_por_mes.show()

**Patrones Sazonales Identificados:***

**Alta Temporada (Septiembre a Marzo):** Se observa un aumento en las ventas y los ingresos durante estos meses, lo que sugiere una mayor demanda. Esto puede estar relacionado con factores como un clima más cálido, las vacaciones escolares y eventos locales que fomentan salir de casa.

**Baja Temporada (Abril a Agosto):** En estos meses, hay una reducción en las ventas y los ingresos, lo que indica menor movimiento. Las temperaturas más bajas y la ausencia de feriados largos pueden contribuir a esta disminución.

**Meses Destacados:**

**Julio:** Registró el mayor volumen de ventas (4.392 unidades) y el mayor ingreso (CLP 72.557,90). Este pico puede estar asociado con las vacaciones escolares y eventos locales que aumentan la actividad en la ciudad.

**Octubre:** Presentó el menor volumen de ventas (3.883 unidades) y el menor ingreso (CLP 64.027,60). La ausencia de feriados largos y el clima más suave pueden haber contribuido a esta caída.

In [0]:
vendas_semanal = vendas_ano.resample('W', on='order_date').sum()
display(vendas_semanal)

In [0]:
fig_por_semana = px.line(vendas_semanal, y="total_price")
fig_por_semana.show()

**1. Mayores Picos de Ventas**

**Semana con mayor venta:**

**29 de noviembre de 2015:** 19,753.90.

**Otros picos significativos:**

**5 de julio de 2015:** 17,509.50.

**17 de mayo de 2015:** 17,139.70.

**13 de septiembre de 2015:** 16,717.00.

Estas semanas reflejan las ventas más altas de la pizzería, generalmente coincidiendo con períodos de mayor movimiento.

**2. Semanas con Menores Ventas**

**Semana con menor venta:**

**3 de enero de 2016:** 7,244.25.

**Otras semanas con caída en las ventas:**

**27 de diciembre de 2015:** 11,427.85.

**20 de diciembre de 2015:** 15,971.00.

## Ventas Por Categoria

In [0]:
vendas_por_categoria = df.groupby(["order_date","pizza_name","pizza_category","pizza_size","pizza_ingredients","unit_price"]).sum(numeric_only=True).reset_index()
display(vendas_por_categoria)


In [0]:
fig4 = px.scatter(vendas_por_categoria, x="order_date", y="total_price",color="pizza_size",facet_row="pizza_size",height=600)
fig4.show()

In [0]:
fig5 = px.scatter(vendas_por_categoria, x="order_date", y="total_price",color="pizza_name",facet_row="pizza_size",height=600)
fig5.show()

## Analisando Outliers

In [0]:
fig2 = px.box(vendas_ano, y="total_price",points="all")
fig2.show()

## Análisis de Correlación

In [0]:
df_variaves = df.groupby(["unit_price"]).sum(numeric_only=True).reset_index()
df_transformado = pd.get_dummies(df_variaves,dtype=float)
display(df_transformado)
df_correlacao = df_transformado.corr()
df_correlacao

In [0]:
figco = px.imshow(df_correlacao, text_auto=True)
figco.show()

Lo que tienes aquí es una matriz de correlación entre tres variables: **unit_price (precio unitario)**, **quantity (cantidad)** y **total_price (precio total)**. La matriz de correlación muestra la fuerza y la dirección de la relación lineal entre estas variables.

Vamos a interpretar cada valor de esta matriz de correlación:

**unit_price vs. quantity:** El valor de -0.088219 sugiere una correlación muy débil y negativa. Esto indica que, en general, no hay una relación lineal significativa entre el precio unitario y la cantidad. Cuando el precio unitario aumenta, la cantidad vendida no parece verse afectada de manera lineal, o la relación es muy pequeña.

**unit_price vs. total_price:** El valor de 0.040577 sugiere una correlación muy débil y positiva. Esto indica que el precio unitario tiene una relación muy débil con el precio total, lo cual es esperado, ya que el precio total depende tanto del precio unitario como de la cantidad. Dado que la correlación es positiva, esto sugiere que, en cierta medida, un aumento en el precio unitario puede llevar a un aumento en el precio total, pero la relación no es fuerte.

**quantity vs. total_price:** El valor de 0.966924 indica una fuerte correlación positiva. Esto significa que la cantidad vendida tiene una relación muy fuerte con el precio total, lo cual tiene sentido, ya que el precio total es simplemente el producto del precio unitario y la cantidad. Cuando la cantidad vendida aumenta, el precio total también tiende a aumentar de manera proporcional.

**Resumen e Implicaciones:**

**Precio unitario y cantidad:** La relación débil entre estas dos variables sugiere que el volumen de ventas no es muy sensible al precio unitario. Esto puede indicar que la pizzería tiene una base de clientes que no modifica mucho su compra en función del precio, o que el precio está en un punto donde no hay mucha variación en las ventas debido al precio.

**Precio unitario y precio total:** Aunque la correlación es débil, sugiere que, a medida que el precio unitario aumenta, el precio total tiende a aumentar un poco. Sin embargo, como la relación no es fuerte, otros factores, como la cantidad, tienen un impacto más significativo en el precio total.

**Cantidad y precio total:** La fuerte correlación positiva entre estas dos variables confirma que, en gran medida, el precio total está determinado por la cantidad de productos vendidos. Esto es esperado, ya que el precio total es el producto del precio unitario por la cantidad.

Con base en estas correlaciones, la pizzería puede considerar optimizar la estrategia de ventas enfocándose más en la cantidad de pizzas vendidas (por ejemplo, promociones para aumentar las ventas) y analizar la sensibilidad de los clientes al precio unitario, para entender si vale la pena ajustar los precios o ofrecer más opciones.

In [0]:
df_variavesj = df.groupby(["unit_price","pizza_category","pizza_size"]).sum(numeric_only=True).reset_index()
df_transformadoj = pd.get_dummies(df_variavesj,dtype=float)
display(df_transformadoj)
df_correlacaoj = df_transformadoj.corr()
df_correlacaoj

In [0]:
figcoj = px.imshow(df_correlacaoj, text_auto=True,aspect="auto",height=900,width=1000)
figcoj.show()

In [0]:
df_variaves2 = df.groupby(["unit_price","pizza_category"]).sum(numeric_only=True).reset_index()
df_transformado2 = pd.get_dummies(df_variaves2,dtype=float)
display(df_transformado2)
df_correlacao2 = df_transformado2.corr()
df_correlacao2

In [0]:
figco2 = px.imshow(df_correlacao2, text_auto=True,aspect="auto",width=800)
figco2.show()

In [0]:
df_variaves3 = df.groupby(["unit_price","pizza_size"]).sum(numeric_only=True).reset_index()
df_transformado3 = pd.get_dummies(df_variaves3,dtype=float)
display(df_transformado3)
df_correlacao3 = df_transformado3.corr()
df_correlacao3

In [0]:
figco3 = px.imshow(df_correlacao3, text_auto=True,aspect="auto")
figco3.show()

In [0]:
**Correlación con Categorías de Pizza**

Las variables que representan las categorías de pizza (pizza_category_Chicken, pizza_category_Classic, pizza_category_Supreme, pizza_category_Veggie) muestran cómo cada categoría influye en variables clave como quantity, total_price y unit_price. Analicemos cada una:


**1. pizza_category_Chicken:**


**Correlación con quantity (0.576) y total_price (0.573):**

La relación moderada positiva indica que las pizzas de esta categoría son populares y contribuyen significativamente al volumen de ventas y los ingresos.

**Correlación cercana a cero con unit_price (0.0003):**

El precio unitario de estas pizzas parece ser consistente y poco variable.

**Relaciones negativas con otras categorías:**

Las correlaciones negativas con pizza_category_Classic (-0.240), Supreme (-0.148) y Veggie (-0.213) sugieren que los pedidos de estas categorías pueden ser excluyentes (los clientes tienden a elegir una u otra).

**2. pizza_category_Classic:**

**Correlación negativa con quantity (-0.207) y total_price (-0.249):**

Sugiere que esta categoría tiene menor volumen de ventas y contribuye menos a los ingresos.

**Correlación moderada negativa con pizza_category_Veggie (-0.564):**

Puede indicar que estas dos categorías compiten directamente, siendo menos elegidas juntas.

**Correlación positiva con pizza_size_XL y XXL (0.211):**

Las pizzas Classic pueden ser más populares en tamaños grandes.

**3. pizza_category_Supreme:**

**Correlación débil positiva con quantity (0.136) y total_price (0.153):**

Las pizzas Supreme tienen ventas moderadas, pero su contribución a los ingresos es limitada.

**Correlación positiva con pizza_size_S (0.131):**

Esta categoría puede ser más popular en tamaños pequeños.

**4. pizza_category_Veggie:**

**Correlación negativa con quantity (-0.238) y total_price (-0.207):**

Aparentemente, es una de las categorías menos populares.

**Correlación negativa con casi todas las variables de tamaño y categorías:**

Puede sugerir que esta categoría es de nicho, posiblemente elegida por un público específico.
Análisis Detallado: Correlación con Tamaños de Pizza
Las variables que representan los tamaños (pizza_size_L, pizza_size_M, pizza_size_S, pizza_size_XL, pizza_size_XXL) ayudan a entender las preferencias de los clientes y su relación con los precios y las ventas.

**1. pizza_size_L (Large):**

**Correlación positiva con unit_price (0.342) y total_price (0.270):**

Este tamaño es bien aceptado y contribuye de manera significativa a los ingresos.

**Correlación negativa con pizza_size_S y pizza_size_M (-0.469):**

Hay una sustitución entre tamaños grandes y pequeños/medianos.

**Correlación con pizza_category_Veggie (0.125):**

Ligera preferencia por pizzas Veggie en este tamaño.

**2. pizza_size_M (Medium):**

**Correlación baja o neutra con otras variables:**

Este tamaño parece no destacarse en ventas o ingresos.

**Correlación negativa con otros tamaños (-0.440 con pizza_size_L, por ejemplo):**

Sugiere que hay sustitución directa entre los tamaños mediano y grande.

**3. pizza_size_S (Small):**

**Correlación negativa con unit_price (-0.513) y total_price (-0.193):**

Los tamaños pequeños tienen precios bajos y contribuyen menos a los ingresos.

**Correlación positiva con pizza_category_Supreme (0.131):**

Las pizzas Supreme parecen más populares en este tamaño.

**4. pizza_size_XL (Extra Large):**

**Correlación positiva con unit_price (0.296):**

Los tamaños más grandes tienen precios unitarios más altos.

**Correlación positiva con pizza_category_Classic (0.211):**

Esta categoría parece preferida en este tamaño.

**5. pizza_size_XXL (Extra Extra Large):**

**Correlación muy alta con unit_price (0.649):**

Este tamaño tiene el precio más alto por unidad, contribuyendo de forma relevante a los ingresos.

**Correlación negativa con quantity (-0.189):**

Indica menor volumen de ventas, posiblemente por ser un tamaño premium.

**Conclusiones:**

**Categorías de pizza:**

Las pizzas Chicken lideran las ventas, mientras que Classic y Veggie tienen menor impacto en los ingresos.
Las elecciones de categoría pueden variar según los tamaños preferidos por los clientes.
Tamaños de pizza:

Los tamaños grandes (L, XL, XXL) generan mayores ingresos, pero los tamaños pequeños son importantes para categorías específicas como Supreme.
Introducir promociones en tamaños medianos podría atraer clientes que optan por L o S.