<a href="https://colab.research.google.com/github/Auusi/ProyectoBigData1/blob/main/proyect.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

##Conectar Drive

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


### Carga de datos y limpieza del dataframe.

In [None]:
import plotly.graph_objects as go
import os
import pandas as pd
import plotly.express as px
from geopy.geocoders import Nominatim
import numpy as np


In [None]:
ruta_de_archivos = '/content/drive/MyDrive/AAAUPSO'



ruta_de_archivos = '/content/drive/MyDrive/AAAUPSO'  # Definimos una variable "ruta_de_archivos" que almacena la ruta de la carpeta donde se encuentran los archivos a usar
archivos = os.listdir(ruta_de_archivos)  # La función os.listdir() obtiene una lista de los nombres de los archivos y son almacenados en la variable "archivos"

dataframes= {} # Creamos un diccionario vacío que se utilizará para almacenar DataFrames procesados más adelante

for archivo in archivos: # Recorremos cada archivo dentro de "archivos"
    if archivo.endswith('.csv'):  # Asegurarse de que solo se consideren archivos CSV
        mes = archivo.split('_')[3].split('.')[0]  # Obtener el nombre del archivo sin la extensión
        ruta_completa = os.path.join(ruta_de_archivos, archivo)  # Ruta completa al archivo         # ruta_completa = ruta_de_archivos + '/' + archivo
        df = pd.read_csv(ruta_completa)  # Cargar el archivo CSV en un DataFrame
        df_ventas = df.copy()

        df_ventas['Cantidad Pedida'] = pd.to_numeric(df_ventas['Cantidad Pedida'], errors='coerce')  #El errors= 'coerce' transforma los valores no numericos a NaN'
        df_ventas['Precio Unitario'] = pd.to_numeric(df_ventas['Precio Unitario'], errors='coerce')


        df_ventas = df_ventas.loc[~df_ventas['Cantidad Pedida'].isna()]
        df_ventas = df_ventas.loc[~df_ventas['Precio Unitario'].isna()]

        df_ventas = df_ventas.dropna()  # Elimino todos los Nan y me quedo solo con los valores numericos

        df_ventas['Cantidad Pedida'] = df_ventas['Cantidad Pedida'].astype(int)  # Transformo todos los valores numericos al tipo de dato int
        df_ventas['Precio Unitario'] = df_ventas['Precio Unitario'].astype(float)

        dataframes[mes] = df_ventas  # Agregar el DataFrame al diccionario usando el nombre del mes

#variable meses con los nombres en orden para poder ciclar en orden anual los dataframes
meses = ['Enero', 'Febrero', 'Marzo', 'Abril', 'Mayo', 'Junio',
        'Julio', 'Agosto', 'Septiembre', 'Octubre', 'Noviembre', 'Diciembre']

In [None]:
def extraer_datos(datos):
  datos['Fecha de Pedido'] = pd.to_datetime(datos['Fecha de Pedido'])
  datos['Hora'] = datos['Fecha de Pedido'].dt.hour
  datos['Dia'] = datos['Fecha de Pedido'].dt.day
  return datos

## 1. Comportamiento de las ventas en los distintos meses:


### ● ¿Cómo variaron las ventas a lo largo de los diferentes meses?


In [None]:
# Creo listas para almacenar los totales de ventas y los nombres de los meses
totales_ventas = []


for mes in meses:
    dataframe_mes = dataframes[mes]
    dataframe_mes = extraer_datos(dataframe_mes)

    total_ventas_mes = dataframe_mes['Cantidad Pedida'].sum()
    totales_ventas.append(total_ventas_mes)


# Creo el objeto figura con el gráfico de barras
fig = go.Figure()

fig.add_trace(go.Bar(
    x=meses,
    y=totales_ventas,
    marker=dict(color=totales_ventas, colorscale = 'RdYlGn', colorbar=dict(title="Total de ventas", x=1.0, thickness=15)),  # Color y barra de colores
    text=totales_ventas,
    textposition='auto',  # Muestro el valor encima de las barras

))

# Configuro los ejes y los títulos
fig.update_layout(
    title="Total de ventas por mes",
    xaxis=dict(title="Mes"),
    yaxis=dict(title="Total de ventas"),
)

fig.show()

### ● ¿Hubo algún mes que se destacó en términos de ventas?


Diciembre

### ● ¿Cuál es el ingreso total generado por mes?

In [None]:
ingreso_total_meses=[]
for mes in meses:
    dataframe_mes = dataframes[mes]
    ingresos_mes = dataframe_mes['Precio Unitario'].sum()
    ingreso_total_meses.append(ingresos_mes)

In [None]:
# Crea un gráfico de barras en Plotly
fig = go.Figure(data=[go.Bar(x=meses, y=ingreso_total_meses)])

# Personaliza el diseño del gráfico si es necesario
fig.update_layout(title='Ingresos Totales por Mes', xaxis_title='Meses', yaxis_title='Ingresos Totales')

# Muestra el gráfico
fig.show()

##2. Optimización de la publicidad y patrón de ventas por hora:


###● ¿Cuál es el momento ideal del día para presentar la publicidad y aumentar la probabilidad de compra?


In [None]:
Horas = list(range(24))

# Creo el objeto figura
fig = go.Figure()

for mes in meses:
    dataframe_mes = dataframes[mes]
    dataframe_mes = extraer_datos(dataframe_mes)  # Reemplaza esto con el procesamiento que necesites
    Ventas_por_hora = dataframe_mes.groupby('Hora')['Cantidad Pedida'].sum()



    # Agrego al objeto figura un gráfico de línea con las horas y las ventas por hora
    fig.add_trace(go.Scatter(
        x=Horas,
        y=Ventas_por_hora,
        mode='lines',
        name=mes,
        line=dict(width=2,shape='spline'),
    ))

# Configuro los ejes y los títulos
fig.update_layout(
    title="Unidades vendidas por hora en diferentes meses",
    xaxis=dict(title="Hora", tickvals=Horas),
    yaxis=dict(title="Unidades vendidas", side="left"),
    legend=dict(y=0.3, yanchor='bottom'),
)

fig.show()

###● ¿Cómo cambian los patrones de ventas por hora a lo largo del año?


In [None]:
Horas = list(range(24))

# Creo el objeto figura
fig = go.Figure()
horas_analizadas = [19, 12, 16]

for hora in horas_analizadas:
    total_productos_vendidos = []

    for mes in meses:
        dataframe_mes = dataframes[mes]
        dataframe_mes = extraer_datos(dataframe_mes)  # Reemplaza esto con el procesamiento que necesites

        ventas_hora = dataframe_mes[dataframe_mes['Hora'] == hora]

        # Calcular la cantidad total de productos vendidos para la hora actual
        total_productos_vendidos.append(ventas_hora['Cantidad Pedida'].sum())

    # Agrego al objeto figura un gráfico de línea con las horas y las ventas por hora
    fig.add_trace(go.Scatter(
        x=meses,
        y=total_productos_vendidos,
        mode='lines',
        name=f'{hora} horas',
        line=dict(width=2, shape='spline'),
    ))

# Configuro los ejes y los títulos
fig.update_layout(
    title="Unidades vendidas por hora",
    xaxis=dict(title="Meses", tickvals=Horas),
    yaxis=dict(title="Unidades vendidas", side="left"),
    legend=dict(y=0.3, yanchor='bottom'),
)

fig.show()

###● ¿Hay modificaciones en los patrones de ventas durante las horas de mayor actividad en los distintos meses?

En las horas de mayor actividad (12 y 19) se puede observar una correlacion casi directa durante todo el año, con una minima discrepancia entre los meses de febrero y abril

## 3. Distribución de ventas por ubicación:


### ● ¿En qué ciudades se han registrado las mayores ventas?


In [None]:
resumen_por_ciudad = pd.DataFrame(columns=["Ciudad", "Cantidad Pedida"])
for mes in meses:
    dataframe_mes = dataframes[mes]

    # Divide la columna "Dirección de Envío" en función de las comas y extrae la ciudad
    direccion_split = dataframe_mes["Dirección de Envio"].str.split(',')
    dataframe_mes["Ciudad"] = direccion_split.str[1].str.strip()

    # Realiza un groupby por ciudad y suma la columna "Cantidad Pedida" para el mes actual
    resumen_mes = dataframe_mes.groupby("Ciudad")["Cantidad Pedida"].sum().reset_index()

    resumen_por_ciudad = pd.concat([resumen_por_ciudad, resumen_mes], ignore_index=True)

resumen_anual = resumen_por_ciudad.groupby("Ciudad")["Cantidad Pedida"].sum().reset_index()

La siguiente celda a veces hay que ejecutarla varias veces debido a un error con el tiempo de respuesta

In [147]:
resumen_anual["Cantidad Pedida"] = pd.to_numeric(resumen_anual["Cantidad Pedida"])


# Crea un objeto geocoder de Nominatim
geolocator = Nominatim(user_agent="mi_aplicacion")

# Inicializa listas vacías para latitud y longitud
latitudes = []
longitudes = []

# Utiliza geopy para obtener las coordenadas de las ciudades
for ciudad in resumen_anual['Ciudad']:
    location = geolocator.geocode(ciudad)

    if location:
        latitudes.append(location.latitude)
        longitudes.append(location.longitude)
    else:
        # Si no se encuentra la ubicación, puedes manejarlo de alguna manera adecuada
        latitudes.append(None)
        longitudes.append(None)



fig = px.scatter_geo(
    resumen_anual,
    lon=longitudes,
    lat=latitudes,
    text='Ciudad',  # Columna para etiquetas de texto en las burbujas
    size='Cantidad Pedida',  # Tamaño de las burbujas basado en la cantidad pedida
    color='Cantidad Pedida',  # Color de las burbujas basado en la cantidad pedida
    color_continuous_scale='inferno',  # Escala de colores
    opacity=0.7,
    hover_name='Ciudad',  # Información que se muestra al pasar el cursor sobre las burbujas
    projection='mercator',  # Tipo de proyección
 )

# Configurar el diseño del mapa
fig.update_geos(
    lonaxis_range=[-130, -60],  # Ajusta los límites de longitud según tus datos
    lataxis_range=[24, 50],     # Ajusta los límites de latitud según tus datos
    showcoastlines=True,
    coastlinecolor="Black",
    showland=True,
    landcolor="white",

)

# Configurar el diseño general del gráfico
fig.update_layout(
    title='Cantidad Pedida por Ciudades',
    geo=dict(
        showocean=True,
        oceancolor="LightBlue",
    ),
    coloraxis_colorbar=dict(title='Cantidad Pedida'),
)

# Mostrar el mapa de burbujas
fig.show()



### ● ¿Cómo se comparan las ventas en diferentes estados o regiones?



In [None]:

resumen_por_estado = pd.DataFrame(columns=["Estado", "Cantidad Pedida"])
for mes in meses:
    dataframe_mes = dataframes[mes]

    # Divide la columna "Dirección de Envío" en función de las comas y extrae la ciudad
    direccion_split = dataframe_mes["Dirección de Envio"].str.split(',')
    dataframe_mes["Estado"] = direccion_split.str[2].str.strip()

    # Realiza un groupby por estado y suma la columna "Cantidad Pedida" para el mes actual
    resumen_mes = dataframe_mes.groupby("Estado")["Cantidad Pedida"].sum().reset_index()

    resumen_por_estado = pd.concat([resumen_por_estado, resumen_mes], ignore_index=True)

    resumen_anual = resumen_por_estado.groupby("Estado")["Cantidad Pedida"].sum().reset_index()


In [None]:

resumen_anual[['Abreviatura', 'Código Postal']] = resumen_anual['Estado'].str.split(' ', 1, expand=True)
resumen_agrupado = resumen_anual.groupby('Abreviatura')['Cantidad Pedida'].sum().reset_index()
fig = px.choropleth(resumen_agrupado, locations='Abreviatura', locationmode="USA-states", scope="usa", color='Cantidad Pedida', color_continuous_scale='RdYlGn',title='Total Sales by State')
fig.show()


In a future version of pandas all arguments of StringMethods.split except for the argument 'pat' will be keyword-only.



####Para los estados probamos con muchas API gratuitas que les das el Codigo postal y te devuelve las cordenadas,la que mejor funciono fue OpenStreetMap; Aun asi hay algunos CP que no los encontro.
Dejamos comentado una alternativa con esa opcion:

In [None]:
#-------------------------------------------------------------------

# def obtener_coordenadas(codigo_postal):
#     # URL de la API de Nominatim (OpenStreetMap)
#     url = f"https://nominatim.openstreetmap.org/search?postalcode={codigo_postal}&countrycodes=US&format=json&limit=1"

#     response = requests.get(url)

#     if response.status_code == 200:
#         data = response.json()
#         if data:
#             lat = float(data[0]['lat'])
#             lon = float(data[0]['lon'])
#             return lat, lon
#     return None

# latitudes = []
# longitudes = []
# codigos_postales = [estado.split()[1] for estado in resumen_anual['Estado']]

# # Utiliza la función para obtener las coordenadas
# for codigo_postal in codigos_postales:
#     coordenadas = obtener_coordenadas(codigo_postal)
#     if coordenadas:
#         latitudes.append(coordenadas[0])
#         longitudes.append(coordenadas[1])
#     else:
#         latitudes.append(None)
#         longitudes.append(None)

# # Agrega las coordenadas al DataFrame
# resumen_anual['Latitud'] = latitudes
# resumen_anual['Longitud'] = longitudes

# # Visualiza el DataFrame con las coordenadas
# print(resumen_anual)


# resumen_anual["Cantidad Pedida"] = pd.to_numeric(resumen_anual["Cantidad Pedida"])
# # Crear el gráfico de dispersión
# fig = go.Figure()

# fig.add_trace(
#     go.Scattergeo(
#         lon=resumen_anual['Longitud'],
#         lat=resumen_anual['Latitud'],
#         text=resumen_anual['Estado'],
#         mode='markers',
#         marker=dict(
#             size=resumen_anual['Cantidad Pedida'] / 1000,
#             opacity=0.7,
#             colorscale='Viridis',
#             color=resumen_anual['Cantidad Pedida'],
#             colorbar=dict(title='Cantidad Pedida')
#         )
#     )
# )

# fig.update_geos(
#     projection_type="mercator",
#     showcoastlines=True,
#     coastlinecolor="Black",
#     showland=True,
#     landcolor="white",
# )

# fig.update_layout(
#     title='Cantidad Pedida por Estados',
#     geo=dict(
#         scope="world",  # Ajusta el alcance del mapa a Estados Unidos
#         showocean=True,
#         oceancolor="LightBlue",
#     )
# )

# # Muestra el mapa
# fig.show()

### ● ¿Existe variación en las ventas por estado a lo largo de los meses?


In [None]:
resumen_total = pd.DataFrame(columns=["Mes", "Estado", "Cantidad Pedida"])

# Recorre los DataFrames correspondientes a cada mes
for mes in meses:
    dataframe_mes = dataframes[mes]
    # Divide la columna "Dirección de Envío" en función de las comas y extrae la ciudad
    direccion_split = dataframe_mes["Dirección de Envio"].str.split(',')
    dataframe_mes["Estado"] = direccion_split.str[2].str.strip()

    # Agrega la columna de "Mes" al dataframe_mes
    dataframe_mes["Mes"] = mes

    # Concatena el dataframe_mes al DataFrame resumen_total
    resumen_total = pd.concat([resumen_total, dataframe_mes], ignore_index=True)


resumen_total['Mes'] = pd.Categorical(resumen_total['Mes'], categories=meses, ordered=True) #hago la columnna mes una columna categorizada segun los meses,
                                                                                            #sino el groupby ordena los meses en orden alfabetico
resumen_total = resumen_total.groupby(["Estado","Mes"])["Cantidad Pedida"].sum().reset_index()


In [None]:
resumen_total['Cantidad Pedida'] = pd.to_numeric(resumen_total['Cantidad Pedida'], errors='coerce')

fig = go.Figure()

for estado in resumen_total['Estado'].unique():  # Itera a través de cada estado UNICO en la columna "Estado" del DataFrame resumen_total
    df_estado = resumen_total[resumen_total['Estado'] == estado]   #Crea un nuevo DataFrame llamado "df_estado" con filas correspondientes al ESTADO ACTUAL
    fig.add_trace(
        go.Scatter(
            x=meses,
            y=[estado] * len(df_estado),
            # Define la coordenada "y" de los puntos de dispersión para el estado actual
            # Hace que todos los puntos de un mismo estado estén en la misma línea horizontal en el gráfico
            # La variable "y" es una lista que contiene "estado" repetido "len(df_estado)" veces.
            # Esto garantiza que todos los puntos de dispersión de un mismo estado tengan la misma coordenada "y",
            # lo que los coloca en la misma línea horizontal en el gráfico.

            mode='markers',
            marker=dict(
                size=df_estado['Cantidad Pedida']/100,
                opacity=0.8,
                line=dict(width=0.5, color='DarkSlateGrey')
            ),
            name=estado
        )
    )


# Personalizar el diseño del gráfico
fig.update_layout(
    title='Diferencia de Ventas por Mes y Estado',
    xaxis=dict(title='Mes'),
    yaxis=dict(title='Estado'),
    showlegend=True
)


# Mostrar el gráfico
fig.show()

##4. Análisis del producto más vendido:


###● ¿Cuál es el producto más vendido en general y en cada mes?


In [None]:
meses_mas_vendidos = []
productos_mas_vendidos = []
cantidades_mas_vendidas = []


for mes in meses:
    dataframe_mes = dataframes[mes]

    # Agrupar el DataFrame por "Producto" y sumar las cantidades pedidas
    ventas_por_producto = dataframe_mes.groupby("Producto")["Cantidad Pedida"].sum()

    # Encontrar el producto más vendido en este mes
    producto_mas_vendido = ventas_por_producto.idxmax()
    cantidad_mas_vendida = ventas_por_producto.max()

    # Agregar los resultados a las listas
    meses_mas_vendidos.append(mes)
    productos_mas_vendidos.append(producto_mas_vendido)
    cantidades_mas_vendidas.append(cantidad_mas_vendida)

In [None]:
# fig = go.Figure()

# fig.add_trace(go.Scatter(
#     x=meses_mas_vendidos,
#     y=cantidades_mas_vendidas,
#     text=[''] * len(meses_mas_vendidos),  # Lista de cadenas vacías para ocultar el texto en el gráfico
#     hovertext=productos_mas_vendidos,  # Texto personalizado para el hover
#     fill='tozeroy',
#     mode='lines',  # Usar solo líneas
#     line=dict(color='blue'),
#     hoverinfo='x+y+text',  # Información que se muestra al pasar el mouse (incluye 'text')
# ))

# # Personalizar el diseño del gráfico
# fig.update_layout(
#     title='Cantidades Vendidas por Mes del Producto mas vendido',
#     xaxis=dict(title='Meses'),
#     yaxis=dict(title='Cantidad Vendida'),
# )

# # Mostrar el gráfico
# fig.show()



# Define el color para los marcadores
marker_color = 'dodgerblue'

fig = go.Figure()

fig.add_trace(go.Scatter(
    x=meses_mas_vendidos,
    y=cantidades_mas_vendidas,
    text=[''] * len(meses_mas_vendidos),
    hovertext=productos_mas_vendidos,
    fill='tozeroy',
    mode='lines+markers',  # Usar líneas y marcadores
    line=dict(color=marker_color, width=3),  # Aplicar el color definido y aumentar el grosor de las líneas
    marker=dict(size=10, color=marker_color, line=dict(width=2, color='white')),  # Personalizar los marcadores
    hoverinfo='x+y+text',
))

# Personalizar el diseño del gráfico
fig.update_layout(
    title='Cantidades Vendidas por Mes del Producto más Vendido',
    xaxis=dict(title='Meses', showgrid=False),  # Ocultar las líneas de la cuadrícula en el eje x
    yaxis=dict(title='Cantidad Vendida', showgrid=False),  # Ocultar las líneas de la cuadrícula en el eje y
    plot_bgcolor='white',  # Cambiar el fondo del gráfico a blanco
    paper_bgcolor='white',  # Cambiar el fondo del papel a blanco
    showlegend=False,  # Ocultar la leyenda
)

# Añadir una sombra debajo de la curva
fig.update_shapes(dict(xref='x', yref='y', type='line', x0=meses_mas_vendidos[0], x1=meses_mas_vendidos[-1], y0=0, y1=0, line=dict(color='rgba(0,0,0,0.2)', width=5)))

# Mostrar el gráfico
fig.show()

###● ¿Qué factores crees que han contribuido al éxito de ese producto en particular?

Uno de los factores es que las baterias AAA son un articulo desechable que es normal que se renueve frecuentemente,
tambien el bajo precio en comparacion con otros articulos contribuye a la cantidad de ventas.

##5. Tendencia ventas:


###● ¿Existe alguna tendencia o patrón en las ventas que se repita a lo largo de los días en los diferentes meses?


In [None]:


Dias = list(range(1, 32))

# Crear una matriz de datos para las ventas por día en diferentes meses
data = []

for mes in meses:
    dataframe_mes = dataframes[mes]
    Ventas_por_dia = dataframe_mes.groupby('Dia')['Cantidad Pedida'].sum().tolist()
    data.append(Ventas_por_dia)

# Crear un gráfico de heatmap
fig = go.Figure(data=go.Heatmap(
    z=data,
    x=Dias,
    y=meses,
    customdata=data,  # Establecer los datos personalizados como la misma matriz de datos
    hovertemplate='Día: %{x}<br>Mes: %{y}<br>Cantidad Pedida: %{customdata}<extra></extra>',
    colorscale='Viridis',  # Puedes elegir otra escala de colores
))

# Configurar el diseño del gráfico
fig.update_layout(
    title="Unidades vendidas por Día en diferentes meses",
)

fig.show()

In [None]:


dataFrameAnio = pd.DataFrame()

for mes in meses:
    dataframe_mes = dataframes[mes]
    dataframe_mes = dataframe_mes.sort_values(by=['Dia'])
    # Concatenar los dataframes
    dataFrameAnio = pd.concat([dataFrameAnio, dataframe_mes], ignore_index=True)

#Función para calcular el día de la semana
def calcular_dia_semana(fecha_pedido):
    return fecha_pedido.strftime("%A")

 #Aplicar la función para calcular el día de la semana y agregarlo como una nueva columna
dataFrameAnio['Dia de la Semana'] = dataFrameAnio['Fecha de Pedido'].apply(calcular_dia_semana)


## La sintaxis básica de strftime es la siguiente:
##  fecha_hora.strftime(formato)

# fecha_hora: Es el objeto de fecha y hora que deseas formatear.
# formato: Es una cadena de caracteres que define el formato en el que deseas que se muestre la fecha y la hora.
# Dentro del formato, se utilizan códigos de formato que representan diferentes partes de la fecha y la hora. Aquí tienes algunos ejemplos de códigos de formato comunes:

# %Y: Año con siglo como número decimal (ejemplo: 2023).
# %m: Mes como número decimal (01, 02, ..., 12).
# %d: Día del mes como número decimal (01, 02, ..., 31).
# %H: Hora (00, 01, ..., 23) en formato de 24 horas.
# %M: Minutos (00, 01, ..., 59).
# %S: Segundos (00, 01, ..., 59).
# %A: Nombre completo del día de la semana (por ejemplo, "Monday" para lunes).
# %B: Nombre completo del mes (por ejemplo, "January" para enero).

###● ¿Cómo varían las ventas a lo largo de los diferentes días de la semana?


In [None]:
ventas_por_dia_semana = dataFrameAnio.groupby('Dia de la Semana')['Cantidad Pedida'].sum()

# Crear un gráfico de pastel
fig = go.Figure(data=[go.Pie(labels=ventas_por_dia_semana.index, values=ventas_por_dia_semana,)])

# Configurar el diseño del gráfico
fig.update_layout(
    title='Distribución de Ventas por Día de la Semana',
)

# Mostrar el gráfico
fig.show()

###● ¿Se observa alguna diferencia significativa en las ventas entre los días laborables y los fines de semana?

No.

##6. Impacto de eventos especiales en las ventas:


###● ¿Se ha observado algún aumento o disminución significativa en las ventas en días cercanos a eventos especiales, como días festivos?


In [None]:


# Filtrar las fechas de interés (días festivos y días circundantes)
fechas_interesantes = pd.date_range(start='2019-06-27', end='2019-07-04', freq='D')  # Cambia las fechas según tus días festivos y establece la frecuencia 'D' para días

# Filtrar el DataFrame para incluir solo las filas correspondientes a las fechas de interés
ventas_interesantes = dataFrameAnio[dataFrameAnio['Fecha de Pedido'].dt.floor('D').isin(fechas_interesantes)]

ventas_interesantes = ventas_interesantes.groupby(ventas_interesantes['Fecha de Pedido'].dt.date)['Cantidad Pedida'].sum().reset_index()



In [None]:
# Filtrar las fechas de interés (días festivos y días circundantes)

fechas_interesantes2 = pd.date_range(start='2019-12-18', end='2019-12-25', freq='D')  # Cambia las fechas según tus días festivos y establece la frecuencia 'D' para días

# Filtrar el DataFrame para incluir solo las filas correspondientes a las fechas de interés
ventas_interesantes2 = dataFrameAnio[dataFrameAnio['Fecha de Pedido'].dt.floor('D').isin(fechas_interesantes2)]

ventas_interesantes2 = ventas_interesantes2.groupby(ventas_interesantes2['Fecha de Pedido'].dt.date)['Cantidad Pedida'].sum().reset_index()



In [None]:
import plotly.graph_objs as go

# Crear un gráfico de líneas para la primera semana
fig_semana1 = go.Figure()
fig_semana1.add_trace(go.Scatter(x=ventas_interesantes['Fecha de Pedido'], y=ventas_interesantes['Cantidad Pedida'], mode='lines', name='Semana 1', marker_color='blue'))
fig_semana1.update_layout(
    title='Variación de Ventas Previo al 4 de Julio',
    xaxis=dict(title='Fecha de Pedido'),
    yaxis=dict(title='Cantidad Pedida'),
)

# Crear un gráfico de líneas para la segunda semana
fig_semana2 = go.Figure()
fig_semana2.add_trace(go.Scatter(x=ventas_interesantes2['Fecha de Pedido'], y=ventas_interesantes2['Cantidad Pedida'], mode='lines', name='Semana 2', marker_color='orange'))
fig_semana2.update_layout(
    title='Variación de Ventas Previo Navidad',
    xaxis=dict(title='Fecha de Pedido'),
    yaxis=dict(title='Cantidad Pedida'),
)

# Mostrar los gráficos por separado
fig_semana1.show()
fig_semana2.show()

###● ¿Qué eventos específicos han tenido un impacto notable en el comportamiento de las ventas y cómo se manifestó ese impacto?

##Pregunta Adicional



###Además de las preguntas mencionadas anteriormente, te invito a pensar en una pregunta adicional que podría ser relevante para analizar los datos de ventas mensuales. Esta pregunta debe estar basada en la información que se proporciona en los conjuntos de datos. Puede estar relacionada con tendencias, comparaciones, patrones o cualquier otro aspecto que despierte tu interés. Trata de ser creativo/a y pensar en cómo podrías explorar aún más estos datos!

In [None]:

def asignar_estacion(mes):
    if mes in ['Enero', 'Febrero', 'Marzo']:
        return 'Verano'
    elif mes in ['Abril', 'Mayo', 'Junio']:
        return 'Otoño'
    elif mes in ['Julio', 'Agosto', 'Septiembre']:
        return 'Invierno'
    else:
        return 'Primavera'

# Crear un DataFrame para almacenar los datos de estaciones y meses
estaciones_meses = pd.DataFrame(columns=['Estacion', 'Mes', 'Cantidad Pedida'])

# Recorre los DataFrames por mes y agrupa los datos por estación y mes
for mes in meses:
    dataframe_mes = dataframes[mes]
    dataframe_mes['Estacion'] = dataframe_mes['Mes'].apply(asignar_estacion)
    estacion_data = dataframe_mes.groupby(['Estacion', 'Mes'])['Cantidad Pedida'].sum().reset_index()
    estaciones_meses = estaciones_meses.append(estacion_data, ignore_index=True)

# Agrupa los datos por estación y mes para obtener la suma total de cantidades pedidas
estaciones_meses_totales = estaciones_meses.groupby(['Estacion', 'Mes'])['Cantidad Pedida'].sum().reset_index()


In [140]:

# Diccionario que asigna colores a cada estación
colores_estaciones = {
    'Invierno': 'lightblue',
    'Otoño': 'brown',
    'Primavera': 'lightgreen',
    'Verano': 'orange',
}

# Asigna un color a cada fila en el DataFrame basado en la columna 'Estacion'
estaciones_meses_totales['Color'] = estaciones_meses_totales['Estacion'].map(colores_estaciones)

# Crear el gráfico Sunburst
fig = px.sunburst(
    estaciones_meses_totales,
    path=['Estacion', 'Mes'],  # Jerarquía de datos, primero Estacion y luego Mes
    values='Cantidad Pedida',  # Valores para determinar el tamaño de las secciones
    color='Estacion',  # Utiliza la columna de colores personalizada
    color_discrete_map=colores_estaciones,  # Mapea las estaciones a colores
)

# Configurar el diseño del gráfico
fig.update_layout(
    title='Cantidad Pedida por Estación y Mes',
)

fig.update_traces(
    hovertemplate='<b>Cantidad Pedida:</b> %{value}<extra></extra>',
)

# Ocultar la barra de colores y la referencia
fig.update_coloraxes(showscale=False)

# Mostrar el gráfico Sunburst
fig.show()