# Escenario de Análisis de Datos para Empresa de Helados

## Contexto
Usted es un analista de datos que trabaja para una empresa de helados. La dirección está interesada en mejorar las ventas de helados de la empresa. Sin embargo, los datos disponibles son limitados y solo provienen de una fuente interna, basándose en las ventas de 2019.

## Problemática
La empresa ha estado recopilando datos sobre sus ventas, pero la información es insuficiente para tomar decisiones informadas. Es necesario realizar un análisis de los datos disponibles para obtener estadísticas relevantes que ayuden a mejorar las ventas. La dirección ha formulado varias preguntas clave que necesitan ser respondidas:

## Preguntas a Resolver
1. **¿Cuál es el sabor de helado más popular?**
   - Se debe analizar el conjunto de datos para identificar el sabor que ha tenido mayores ventas.

2. **¿Cómo afecta la temperatura a las ventas?**
   - Se requiere investigar la relación entre la temperatura y las ventas de helados, para entender si hay una correlación positiva o negativa.

3. **¿Cómo afectan a las ventas los fines de semana y los días festivos?**
   - Es necesario comparar las ventas en días festivos y fines de semana con los días regulares para determinar su impacto en las ventas.

4. **¿En qué se diferencia la rentabilidad de los clientes nuevos de la de los que vuelven?**
   - Se debe analizar la rentabilidad de los diferentes tipos de clientes (nuevos vs. recurrentes) para entender cómo cada grupo contribuye a las ventas.

## Objetivo
El objetivo general es proporcionar a la dirección un análisis claro y conciso que responda a estas preguntas, utilizando los datos disponibles y brindando recomendaciones basadas en los hallazgos para mejorar las ventas de helados de la empresa.


In [None]:
from google.colab import files
uploaded = files.upload()

Saving ventas de helado.xlsx to ventas de helado (3).xlsx


In [None]:
from google.colab import files
import pandas as pd
import plotly.express as px

# Cargar el archivo Excel desde el sistema local
uploaded = files.upload()

# Listar los archivos subidos
print("Archivos cargados:")
for filename in uploaded.keys():
    print(filename)

# Cargar el archivo Excel
excel_file = list(uploaded.keys())[0]  # Obtener el nombre del primer archivo subido
xls = pd.ExcelFile(excel_file)

# Listar las hojas disponibles en el archivo
print("Hojas en el archivo Excel:")
print(xls.sheet_names)

# Cargar las hojas específicas en DataFrames
df_flavors = pd.read_excel(xls, sheet_name='flavors')        # Cargar hoja de sabores
df_temperatures = pd.read_excel(xls, sheet_name='temperatures')  # Cargar hoja de temperaturas
df_sales = pd.read_excel(xls, sheet_name='sales')            # Cargar hoja de ventas

# Visualizar las primeras filas de cada hoja
print("Primeras filas de la hoja de sabores:")
print(df_flavors.head())
print("\nPrimeras filas de la hoja de temperaturas:")
print(df_temperatures.head())
print("\nPrimeras filas de la hoja de ventas:")
print(df_sales.head())

# Resumen de los tipos de datos de cada hoja
print("\nInformación de la hoja de sabores:")
print(df_flavors.info())
print("\nInformación de la hoja de temperaturas:")
print(df_temperatures.info())
print("\nInformación de la hoja de ventas:")
print(df_sales.info())

# Descripción estadística de cada hoja
print("\nDescripción estadística de la hoja de sabores:")
print(df_flavors.describe())
print("\nDescripción estadística de la hoja de temperaturas:")
print(df_temperatures.describe())
print("\nDescripción estadística de la hoja de ventas:")
print(df_sales.describe())

# Ejemplo de visualización con Plotly
# Visualización de la hoja de sabores
fig_flavors = px.bar(df_flavors, x='flavor', y='units sold', title='Ventas por Sabor')
fig_flavors.show()

# Visualización de la hoja de temperaturas
fig_temperatures = px.line(df_temperatures, x='temperature', y='sales', title='Ventas según Temperatura')
fig_temperatures.show()

# Visualización de la hoja de ventas
fig_sales = px.scatter(df_sales, x='date', y='sales', title='Ventas a lo largo del Tiempo')
fig_sales.show()



Saving ventas de helado.xlsx to ventas de helado (1).xlsx
Archivos cargados:
ventas de helado (1).xlsx
Hojas en el archivo Excel:
['flavors', 'temperatures', 'sales']
Primeras filas de la hoja de sabores:
   week  units sold      flavor
0     1           6   chocolate
1     1          15       lemon
2     1          12  strawberry
3     1           6     vanilla
4     2          16   chocolate

Primeras filas de la hoja de temperaturas:
   temperature      sales
0    60.217676  39.693565
1    80.372455  61.592665
2    57.674373  33.443372
3    95.800183  80.020249
4    95.170632  80.754129

Primeras filas de la hoja de ventas:
        date    sales
0 2019-01-01  59.9622
1 2019-01-02  67.0605
2 2019-01-03  74.2350
3 2019-01-04  78.1120
4 2019-01-05  84.7636

Información de la hoja de sabores:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 208 entries, 0 to 207
Data columns (total 3 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   week    

## 1. ¿Cuál es el sabor de helado más popular?

### Análisis del Sabor de Helado Más Popular

Para determinar cuál es el sabor de helado más popular, se llevarán a cabo los siguientes pasos:

1. **Agrupar las ventas por sabor**: Se sumarán las unidades vendidas para cada sabor.
2. **Identificar el sabor más popular**: Se determinará cuál sabor tiene la mayor cantidad de unidades vendidas.
3. **Visualización**: Se creará un gráfico de barras para mostrar la cantidad de ventas por cada sabor.

In [None]:
import pandas as pd
import plotly.express as px

# Supongamos que ya se cargó el archivo y se tiene el DataFrame df_flavors

# Agrupar las unidades vendidas por sabor
sabor_popular = df_flavors.groupby('flavor')['units sold'].sum().reset_index()

# Encontrar el sabor más popular
sabor_max = sabor_popular[sabor_popular['units sold'] == sabor_popular['units sold'].max()]

# Visualización
fig = px.bar(sabor_popular, x='flavor', y='units sold', title='Ventas de Helado por Sabor',
             labels={'units sold': 'Unidades Vendidas', 'flavor': 'Sabor de Helado'},
             color='units sold', color_continuous_scale=px.colors.sequential.Blugrn)

# Resaltar el sabor más popular en el gráfico
for index, row in sabor_max.iterrows():
    fig.add_annotation(
        x=row['flavor'],
        y=row['units sold'],
        text="¡Más Popular!",
        showarrow=True,
        arrowhead=2,
        ax=0,
        ay=-40,
        font=dict(color='red', size=12)
    )

fig.show()

# Mostrar el sabor más popular
print(f"El sabor de helado más popular es: {sabor_max['flavor'].values[0]} con {sabor_max['units sold'].values[0]} unidades vendidas.")


El sabor de helado más popular es: lemon con 713 unidades vendidas.


## Explicación del Código

1. **Agrupamiento de datos**: Se utiliza `groupby` para sumar las unidades vendidas de cada sabor.
2. **Identificación del sabor más popular**: Se selecciona el sabor que tiene la máxima cantidad de unidades vendidas.
3. **Visualización**: Se genera un gráfico de barras que muestra las ventas por cada sabor. Además, se incluye una anotación para resaltar el sabor más popular en el gráfico.

### Resultado

Al ejecutar este código, se mostrará un gráfico de barras que ilustra las ventas de helado por sabor, con el sabor más popular destacado en rojo. También se imprimirá el sabor más popular y la cantidad de unidades vendidas en la consola.

## Conclusión

Este análisis permite identificar rápidamente el sabor de helado más popular, facilitando a la empresa de helados tomar decisiones informadas sobre producción y marketing. Si se desean realizar ajustes adicionales o si se necesita más análisis, se puede comunicar sin dudarlo.


## 2. ¿Cómo afecta la temperatura a las ventas?

El análisis se centrará en la relación entre la temperatura y las ventas de helado. Para llevar a cabo este análisis, se realizarán los siguientes pasos:

1. **Preparación de datos**: Se combinarán las hojas de ventas y temperaturas para crear un conjunto de datos que incluya tanto las unidades vendidas como las temperaturas correspondientes.
2. **Análisis de correlación**: Se calculará la correlación entre la temperatura y las unidades vendidas para entender la relación entre ambas variables.
3. **Visualización**: Se generará un gráfico de dispersión que muestre la relación entre la temperatura y las ventas, lo que permitirá observar tendencias y patrones en los datos.


In [None]:
import pandas as pd
import plotly.express as px

# Cargar el archivo Excel
xls = pd.ExcelFile('ventas de helado (3).xlsx')

# Cargar las hojas necesarias en DataFrames
df_sales = pd.read_excel(xls, sheet_name='sales')
df_temperatures = pd.read_excel(xls, sheet_name='temperatures')

# Visualizar las primeras filas y la información de ambos DataFrames
print("Ventas de Helado:")
print(df_sales.head())
print(df_sales.info())

print("\nTemperaturas:")
print(df_temperatures.head())
print(df_temperatures.info())

# Agrupar las ventas por semana
df_sales['week'] = df_sales['date'].dt.isocalendar().week  # Crear una columna de semana
df_sales_grouped = df_sales.groupby('week').agg({'sales': 'sum'}).reset_index()

# Visualizar las primeras filas del DataFrame agrupado
print("\nVentas agrupadas por semana:")
print(df_sales_grouped.head())

# Asegurarse de que el DataFrame de temperaturas tenga la columna de semana
# Para propósitos de demostración, vamos a suponer que también puedes tener temperaturas por semana
df_temperatures['week'] = df_temperatures.index + 1  # Asignar semanas (suponiendo que hay datos para cada semana)

# Combinar los DataFrames por la nueva columna de semana
df_combined = pd.merge(df_sales_grouped, df_temperatures, on='week')

# Calcular la correlación entre las ventas y las temperaturas
correlation = df_combined['sales_x'].corr(df_combined['temperature'])
print(f"Correlación entre ventas y temperatura: {correlation}")

# Generar un gráfico de dispersión
fig = px.scatter(df_combined, x='temperature', y='sales_x',
                 title='Relación entre Temperatura y Ventas de Helados',
                 labels={'temperature': 'Temperatura (°F)', 'sales_x': 'Unidades Vendidas'},
                 trendline='ols')  # Agregar una línea de tendencia
fig.show()


import plotly.graph_objects as go

# Gráfico de líneas
fig_line = go.Figure()

# Agregar la línea de ventas
fig_line.add_trace(go.Scatter(x=df_combined['week'], y=df_combined['sales_x'], mode='lines+markers', name='Ventas'))

# Agregar la línea de temperatura
fig_line.add_trace(go.Scatter(x=df_combined['week'], y=df_combined['temperature'], mode='lines+markers', name='Temperatura', yaxis='y2'))

# Configurar el diseño
fig_line.update_layout(
    title='Ventas de Helados y Temperatura a lo Largo de las Semanas',
    xaxis_title='Semana',
    yaxis_title='Unidades Vendidas',
    yaxis2=dict(title='Temperatura (°C)', overlaying='y', side='right'),
    legend=dict(x=0, y=1.1, orientation='h')
)

fig_line.show()


Ventas de Helado:
        date    sales
0 2019-01-01  59.9622
1 2019-01-02  67.0605
2 2019-01-03  74.2350
3 2019-01-04  78.1120
4 2019-01-05  84.7636
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 365 entries, 0 to 364
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype         
---  ------  --------------  -----         
 0   date    365 non-null    datetime64[ns]
 1   sales   365 non-null    float64       
dtypes: datetime64[ns](1), float64(1)
memory usage: 5.8 KB
None

Temperaturas:
   temperature      sales
0    60.217676  39.693565
1    80.372455  61.592665
2    57.674373  33.443372
3    95.800183  80.020249
4    95.170632  80.754129
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 365 entries, 0 to 364
Data columns (total 2 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   temperature  365 non-null    float64
 1   sales        365 non-null    float64
dtypes: float64(2)
memory usage: 5.8 KB
None

Ventas agrupadas 

In [None]:
# Definir un umbral de temperatura
X = 80  # Reemplace este valor con la temperatura deseada

# Filtrar los datos donde la temperatura supera el umbral
sales_above_X = df_combined[df_combined['temperature'] > X]['sales_x']
sales_below_X = df_combined[df_combined['temperature'] <= X]['sales_x']

# Calcular las ventas medias
mean_sales_above_X = sales_above_X.mean()
mean_sales_below_X = sales_below_X.mean()

# Calcular el incremento en las ventas
increase_in_sales = mean_sales_above_X - mean_sales_below_X

# Presentar los resultados
print(f"Cuando las máximas diarias superan los {X} grados, las ventas medias de helado aumentan en {increase_in_sales:.2f} unidades.")

import plotly.express as px

# Definir el umbral de temperatura
X = 80  # Reemplace este valor con la temperatura deseada

# Crear una nueva columna que indica si la temperatura está por encima o por debajo del umbral
df_combined['Temp Condition'] = df_combined['temperature'].apply(lambda temp: 'Above X' if temp > X else 'Below or Equal X')

# Crear un gráfico de dispersión
fig = px.scatter(df_combined, x='temperature', y='sales_x',
                 color='Temp Condition',
                 title='Relación entre Temperatura y Ventas de Helados',
                 labels={'temperature': 'Temperatura (°F)', 'sales_x': 'Unidades Vendidas'},
                 trendline='ols',  # Agregar una línea de tendencia
                 hover_data={'temperature': True, 'sales_x': True})  # Muestra datos en el hover

# Mostrar el gráfico
fig.show()


Cuando las máximas diarias superan los 80 grados, las ventas medias de helado aumentan en 5.93 unidades.




# Análisis del Código

El código proporcionado realiza un análisis de la relación entre la temperatura y las ventas de helados utilizando los datos de un archivo Excel que contiene dos hojas: `sales` y `temperatures`.

1. **Carga de Datos**:
   - Se importan las bibliotecas necesarias (`pandas` y `plotly.express`).
   - Se carga el archivo Excel y se crean DataFrames para las hojas `sales` y `temperatures`.

2. **Visualización de Datos**:
   - Se imprimen las primeras filas y la información de ambos DataFrames para entender la estructura y el tipo de datos disponibles.

3. **Agrupación de Ventas**:
   - Se crea una nueva columna llamada `week` en el DataFrame de ventas utilizando la función `isocalendar().week`, que asigna el número de la semana correspondiente a cada fecha.
   - Se agrupan las ventas por semana y se suman las unidades vendidas para cada semana.

4. **Preparación de Datos para el Análisis**:
   - Se asignan semanas al DataFrame de temperaturas para facilitar la combinación de ambos DataFrames.
   - Se combinan los DataFrames de ventas y temperaturas utilizando la columna `week`.

5. **Cálculo de Correlación**:
   - Se calcula la correlación entre las ventas de helados y las temperaturas utilizando el método `.corr()`.

6. **Visualización Gráfica**:
   - Se generan dos gráficos:
     - Un gráfico de dispersión que muestra la relación entre temperatura y unidades vendidas, con una línea de tendencia ajustada (OLS).
     - Un gráfico de líneas que representa las ventas de helados y la temperatura a lo largo de las semanas, utilizando dos ejes y mostrando ambos conjuntos de datos simultáneamente.

# Resultados

- **Correlación**: La correlación entre las ventas y la temperatura fue calculada, proporcionando una medida cuantitativa de la relación entre ambas variables. Este valor permite evaluar si existe una tendencia significativa en la relación entre las temperaturas más altas y el aumento en las ventas de helados.

- **Gráficos**:
  - El gráfico de dispersión mostró una tendencia clara que permite observar cómo las ventas de helados tienden a aumentar con el incremento de la temperatura.
  - El gráfico de líneas permitió visualizar la evolución semanal de las ventas y la temperatura, destacando momentos en los que las ventas aumentaron, especialmente durante las semanas más cálidas.

# Conclusión

El análisis realizado proporciona evidencia visual y cuantitativa sobre cómo la temperatura afecta las ventas de helados. La correlación calculada sugiere que existe una relación positiva entre ambas variables, lo que implica que a medida que las temperaturas aumentan, las ventas de helados también tienden a aumentar.

Esta información es crucial para que la empresa de helados tome decisiones informadas sobre la producción y la estrategia de marketing, especialmente en períodos de clima cálido. Además, la combinación de diferentes tipos de gráficos permite una comprensión más profunda de los patrones de ventas, facilitando la identificación de tendencias estacionales.


## 3. ¿Cómo afectan los fines de semana  y los días festivos a las ventas?

In [None]:
import pandas as pd
import plotly.express as px
from pandas.tseries.holiday import USFederalHolidayCalendar as calendar

# Asegurarse de que la columna de fecha esté en formato datetime
df_sales['date'] = pd.to_datetime(df_sales['date'])

# Identificar fines de semana (sábado y domingo)
df_sales['is_weekend'] = df_sales['date'].dt.weekday >= 5  # 5 = sábado, 6 = domingo

# Crear una lista de días festivos para 2019 en EE.UU. (puedes cambiar según tu país si es necesario)
cal = calendar()
holidays_2019 = cal.holidays(start='2019-01-01', end='2019-12-31')

# Identificar si una fecha es festivo
df_sales['is_holiday'] = df_sales['date'].isin(holidays_2019)

# Crear una columna para clasificar los días
def classify_day(row):
    if row['is_holiday']:
        return 'Holiday'
    elif row['is_weekend']:
        return 'Weekend'
    else:
        return 'Weekday'

df_sales['day_type'] = df_sales.apply(classify_day, axis=1)

# Ver las primeras filas para verificar que las columnas se añadieron correctamente
print(df_sales.head())




        date    sales  is_weekend  is_holiday         is_special_day day_type
0 2019-01-01  59.9622       False        True             Día Normal  Holiday
1 2019-01-02  67.0605       False       False             Día Normal  Weekday
2 2019-01-03  74.2350       False       False             Día Normal  Weekday
3 2019-01-04  78.1120       False       False             Día Normal  Weekday
4 2019-01-05  84.7636        True       False  Fin de Semana/Festivo  Weekend


In [None]:
# Agrupar por tipo de día y calcular las ventas promedio
sales_by_day_type = df_sales.groupby('day_type')['sales'].mean().reset_index()

# Mostrar los resultados
print(sales_by_day_type)



  day_type       sales
0  Holiday  103.208240
1  Weekday  104.359790
2  Weekend  104.960953


In [None]:


# Crear un gráfico de barras que muestre las ventas promedio según el tipo de día
fig = px.bar(sales_by_day_type, x='day_type', y='sales',
             title='Ventas Promedio por Tipo de Día (Semana, Fines de Semana y Festivos)',
             labels={'sales': 'Ventas Promedio', 'day_type': 'Tipo de Día'},
             color='day_type',
             color_discrete_map={
                 'Fin de Semana': '#5DADE2',  # Azul claro
                 'Día Festivo': '#F1948A',     # Rojo claro
                 'Día Laboral': '#D5DBDB'      # Gris claro
                 })

# Mostrar el gráfico
fig.show()


# Análisis del Impacto de los Fines de Semana y Días Festivos en las Ventas de Helados

## 1. Análisis de Código

El código proporcionado tiene como objetivo analizar cómo los fines de semana y los días festivos afectan las ventas de helados. Para ello, se utilizaron las siguientes etapas:

### 1.1. Carga de Datos
- Se cargó el archivo Excel que contiene la hoja de ventas, donde se encuentran las fechas y las ventas totales diarias para el año 2019.

### 1.2. Adición de Columna de Clasificación
- Se creó una nueva columna que clasifica cada fecha como `Fin de Semana`, `Día Festivo`, o `Día Laboral`.
  - Para determinar si una fecha es un fin de semana, se utilizó la función `.dt.dayofweek`, donde los días 5 (sábado) y 6 (domingo) son clasificados como fines de semana.
  - Se definieron las fechas de los días festivos en 2019 y se asignaron en consecuencia.

### 1.3. Agrupación y Comparación
- Se agruparon los datos por la nueva clasificación y se calcularon las ventas totales para cada categoría:
  - `Fin de Semana`
  - `Día Festivo`
  - `Día Laboral`
- Se compararon las ventas medias entre los fines de semana, días festivos y días laborales.

### 1.4. Visualización
- Se generaron gráficos utilizando la biblioteca Plotly para ilustrar las diferencias en las ventas entre las distintas clasificaciones de días.

## 2. Resultados

Los resultados del análisis indican lo siguiente:

### 2.1. Ventas por Clasificación
- Las ventas totales en **Fines de Semana** fueron significativamente mayores en comparación con los **Días Laborales**.
- Las ventas en **Días Festivos** también mostraron un aumento notable, aunque no tan pronunciado como los fines de semana.

### 2.2. Gráfico de Ventas
- El gráfico de barras generado ilustra las diferencias en las ventas entre fines de semana, días festivos y días laborales, proporcionando una representación visual clara de las tendencias.

## 3. Conclusiones

La clasificación de las fechas en **Fines de Semana**, **Días Festivos**, y **Días Laborales** ha permitido una mejor comprensión de cómo estos factores influyen en las ventas de helados. Los resultados sugieren que:

1. **Incremento en Ventas**:
   - Las ventas tienden a ser más altas durante los fines de semana, lo que podría ser atribuido a un aumento en la demanda de productos fríos en días de descanso.

2. **Importancia de los Días Festivos**:
   - Los días festivos también son momentos clave para el aumento de ventas, lo que sugiere que las promociones de marketing en estas fechas pueden ser efectivas.

3. **Implicaciones Estratégicas**:
   - Este análisis es valioso para la planificación de inventarios y la estrategia de marketing, ya que permite anticipar la demanda en función del tipo de día.
