<a href="https://colab.research.google.com/github/NandoGi/Supermarket_Sales_Analysis/blob/main/Supermarket_Sales_Analysis_Grupo_FED.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#**PROBLEMA DE NEGOCIO**


---




##Una cadena de Supermercados Online que opera en Brasil quiere obtener insights sobre la venta de sus productos. Para hacer esto, usted, como científico de datos, deberá analizar los pedidos de sus clientes y mostrar gráficamente las respuestas de las siguientes preguntas de negocio:

### **Preguntas**

1. ¿Cuáles son las ventas totales por año? ¿Y qué año tuvo mejor desempeño?

2. ¿Cuáles son los 7 productos que más ganancias mostraron durante todo el período?

3. Si separamos las ventas totales por año y por regiones ¿Qué insight podemos obtener de nuestras ventas?

4. ¿Cuál es el método de envío más utilizado por los clientes del Supermercado? ¿Es proporcional para B2B y B2C?

5. ¿Cuáles son las ventas totales por trimestre en el estado de São Paulo?

6. ¿Existe otro insight que puedas proporcionar?

**Conformación del equipo de trabajo:**
 1. Elvis Donayre
 2. Danko Valderrama
 3. Fernando Gamarra

#**Paso 1. Iniciamos con la Configuración del Ambiente**


---




**Paso 1.1 Se verifica las versiones a utilizar sobre el lenguaje Paython y librerias**

In [237]:
#Este comando muestra la versión de python en el que se desarrolla el proyecto.
!python -V
print('------------')
#Este comondad muestra el nombre y la version de la librería pandas.
!pip show pandas | grep 'Name\|Version'
print('------------')
#Este comondad muestra el nombre y la version de la librería matplotlib.
!pip show matplotlib | grep 'Name\|Version'

Python 3.10.12
------------
Name: pandas
Version: 1.5.3
------------
Name: matplotlib
Version: 3.7.1


**Paso 1.1 Se importa las librerias que se aplicaran en el proyecto**

In [238]:
#Se importa la libreria pandas para el tratamiento de los datos
import pandas as pd
#Se importa la libreria matplotlib para generación de gráficas
import matplotlib.pyplot as plt
#Se importa el modulo matplolib.dates para formatear las variables tipo fecha
import matplotlib.dates as mdates
#Se establecen las variables globales
global df_ventas, df_ventas_limpio
#Se importa libreria plotly
import plotly.graph_objs as go
import plotly.express as px
import numpy as np

#**Paso 2. Obtención y Tratamiento de Datos**


---




**Paso 2.1 Obtención y status de base de datos**

In [239]:
df_ventas = pd.read_csv("https://docs.google.com/spreadsheets/d/e/2PACX-1vSAUZKNITdjsQgqRsQhPZU57Y9lkfjc0zV-eo37rHlxyRVAq6xir4v9y0UFrjOWYRm69H5W4a95b-Y-/pub?gid=624505982&single=true&output=csv")
print('------------')
print('Información:')
print(df_ventas.info())
print('------------')
print('Duplicados:')
print(df_ventas.duplicated().sum())
print('------------')
print('Registros de prueba:')
print((df_ventas['nombre_cliente'] == 'prueba').sum())
print('------------')
print('Registros con ganancia<=0:')
print((df_ventas['total_ganancia'] <= 0).sum())

------------
Información:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8954 entries, 0 to 8953
Data columns (total 17 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   fecha_pedido           8954 non-null   object 
 1   fecha_envio            8954 non-null   object 
 2   modo_envio             8954 non-null   object 
 3   nombre_cliente         8952 non-null   object 
 4   segmento_cliente       8954 non-null   object 
 5   ciudad                 8954 non-null   object 
 6   estado                 8954 non-null   object 
 7   region                 8954 non-null   object 
 8   departamento_producto  8954 non-null   object 
 9   tipo_producto          8954 non-null   object 
 10  precio_base            8954 non-null   float64
 11  precio_unit_sin_desc   8954 non-null   float64
 12  descuento              8954 non-null   float64
 13  precio_unit_venta      8954 non-null   float64
 14  cantidad_pedido        8954 no

**Paso 2.2 Limpieza de base de datos**

In [240]:
#Ejecutando limpieza
def obtencion_datos():
  global df_ventas, df_ventas_limpio
#Cambio del tipo de variable de objeto a tipo Datetime para las columnas identificadas como fecha_pedido y fecha_envio.
  df_ventas['fecha_pedido'] = pd.to_datetime(df_ventas['fecha_pedido'], format='%Y-%m-%d')
  df_ventas['fecha_envio'] = pd.to_datetime(df_ventas['fecha_envio'], format='%Y-%m-%d')
#Se genera una copia de la base de datos
  df_ventas_limpio = df_ventas.copy()
#Para la siguiente accion se eliminan los duplicados.
  df_ventas_limpio = df_ventas_limpio.drop_duplicates()
#Asi mismo se procede a eliminar en la columna "nombre_cliente" todo los registros que se identifican como 'prueba'.
  df_ventas_limpio = df_ventas_limpio[df_ventas_limpio['nombre_cliente'] != 'prueba']
#Se eliminan los registros con valores nulos en la columna 'nombre_cliente'.
  df_ventas_limpio.dropna(subset=['nombre_cliente'], inplace= True)
#Luego se aplica el filtro para obtener solo los registros de la columna 'total_ganancia' mayores a cero..
  df_ventas_limpio = df_ventas_limpio[df_ventas_limpio['total_ganancia'] > 0]
#Se reordena el indece de la base de datos.
  df_ventas_limpio = df_ventas_limpio.reset_index(drop=True)
#impresion en consola sobre el status de la base datos.
  print('Información:')
  print(df_ventas_limpio.info())
  print('------------')
  print('Duplicados:')
  print(df_ventas_limpio.duplicated().sum())
  print('------------')
  print('Registros de prueba:')
  print((df_ventas_limpio['nombre_cliente'] == 'prueba').sum())
  print('------------')
  print('Registros con ganancia<=0:')
  print((df_ventas_limpio['total_ganancia'] <= 0).sum())
#llamado a la funcion para el tratamiento de datos.
obtencion_datos()

Información:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7210 entries, 0 to 7209
Data columns (total 17 columns):
 #   Column                 Non-Null Count  Dtype         
---  ------                 --------------  -----         
 0   fecha_pedido           7210 non-null   datetime64[ns]
 1   fecha_envio            7210 non-null   datetime64[ns]
 2   modo_envio             7210 non-null   object        
 3   nombre_cliente         7210 non-null   object        
 4   segmento_cliente       7210 non-null   object        
 5   ciudad                 7210 non-null   object        
 6   estado                 7210 non-null   object        
 7   region                 7210 non-null   object        
 8   departamento_producto  7210 non-null   object        
 9   tipo_producto          7210 non-null   object        
 10  precio_base            7210 non-null   float64       
 11  precio_unit_sin_desc   7210 non-null   float64       
 12  descuento              7210 non-null   float64   

#**Paso 3. Requerimiento informativo de insights sobre la venta de los productos**


---




##**Requerimiento 1: ¿Cuáles son las ventas totales por año? ¿Y qué año tuvo mejor desempeño?**

In [241]:
# @title Código Pregunta 1
def pregunta1():
    global df_ventas_limpio

    df_ventas_año = df_ventas_limpio[['fecha_pedido', 'total_venta']].copy()
    df_ventas_año['año'] = df_ventas_año['fecha_pedido'].dt.year
    df_ventas_año.drop('fecha_pedido', axis=1, inplace=True)
    df_ventas_año = df_ventas_año.groupby(['año']).sum().reset_index()

    ventas_2021 = df_ventas_año[df_ventas_año['año'] == 2021]['total_venta'].values[0]
    ventas_2022 = df_ventas_año[df_ventas_año['año'] == 2022]['total_venta'].values[0]
    variacion_p = int(((ventas_2022 - ventas_2021) / ventas_2021) * 100)

    texto = f"En <span style='color:#0077b6e; font-weight:bold;'>2022</span>, las ventas en el Supermercado<br>subieron aproximadamente <span style='color:#0077b6e; font-weight:bold;'>{variacion_p}%</span><br>comparado con el año anterior."

    fig = go.Figure()

    fig.add_trace(go.Bar(
        x=df_ventas_año['año'],
        y=df_ventas_año['total_venta'],
        marker_color=['#CDDBF3', '#CDDBF3', '#CDDBF3', '#0077b6'],  # Colores por año
        text=df_ventas_año['total_venta'].apply(lambda x: f"${x:,.2f}"),
        textposition='outside',
        width=0.8
    ))
    # Filtrar solo los años con datos
    years_with_data = df_ventas_año['año'].tolist()

    fig.update_layout(
        width=1500,
        height=600,
        margin=dict(r=500),
        title='Ventas totales por año 2019-2022',
        annotations=[
            dict(
                x=1.60,
                y=1.00,
                xref='paper',
                yref='paper',
                text=texto,
                showarrow=False,
                font=dict(size=20),
                align="left",
                bgcolor="rgba(255, 255, 255, 0.7)",
                bordercolor="#888",
                borderwidth=0,
                borderpad=5,
                width=500,
                height=180
            )
        ],
        xaxis=dict(title='', tickmode='array', tickvals=years_with_data),
        yaxis=dict(title='', showticklabels=False),
        title_font=dict(size=26, color='black', family='Arial',),
        showlegend=False
    )

    fig.show()

In [242]:
pregunta1()

##**Requerimiento 2: ¿Cuáles son los 7 productos que más ganancias mostraron durante todo el período?**

In [243]:
# @title Código Pregunta 2
def pregunta2():
    global df_ventas_limpio
    df_top_ganancias = df_ventas_limpio[['tipo_producto', 'total_ganancia']].copy()
    df_top_ganancias = df_top_ganancias.groupby('tipo_producto').agg({'total_ganancia':'sum'}).sort_values(by=['total_ganancia'], ascending=True).reset_index()
    df_top_ganancias = df_top_ganancias.tail(7)

    # Texto adicional al lado derecho de las barras
    texto_electronicos = f"Los datos indican que los productos que generan mayor<br>ganancia son el departamento <span style='color:#dd8506; font-weight:bold;'>Electrónicos.</span>"


    # Texto adicional con la suma de ganancias de productos de limpieza
    productos_limpieza = df_top_ganancias[df_top_ganancias['tipo_producto'].isin(['Detergente para ropas', 'Bolsas de basura'])]
    suma_productos_limpieza = str(round(productos_limpieza['total_ganancia'].sum()))
    suma_productos_limpieza = suma_productos_limpieza[:3]
    texto_limpieza = f"Podemos notar también que el departamento<br>de productos de <span style='color:green; font-weight:bold;'>Limpieza.</span> tiene 2 productoscon buen<br>margen de ganancia, totalizando <span style='color:blue; font-weight:bold;'>${suma_productos_limpieza}</span> durante el<br>periodo analizado."



    # Crear el gráfico con Plotly Graph Objects
    fig = go.Figure()

    fig.add_trace(go.Bar(
        x=df_top_ganancias['total_ganancia'],
        y=df_top_ganancias['tipo_producto'],
        orientation='h',
        marker=dict(
            color=[
                '#dd8506' if producto in ['Lámparas LED', 'Laptops', 'Cámaras digitales', 'Smartphones'] else
                'gray' if producto == 'Jeans' else
                'green' if producto in ['Detergente para ropas', 'Bolsas de basura'] else
                '#0C8040'  # Color por defecto
                for producto in df_top_ganancias['tipo_producto']
            ]
        ),
        text=df_top_ganancias['total_ganancia'].apply(lambda x: f"${x:,.2f}"),
        textposition='auto'
    ))

    texto_combinado = f"{texto_electronicos}<br><br>{texto_limpieza}"

    fig.update_layout(
        width=1600,  # Cambiar el ancho a 800 pixeles
        height=600,  # Cambiar la altura a 600 pixeles
        margin=dict(r=600),
        title='Top 7 Tipos de Producto con mayor ganancia periodo (2019-2022)',
        title_font=dict(size=26, color='black', family='Arial',),
        showlegend=False,
        annotations=[
            dict(
                x=1.65,
                y=0.50,
                xref='paper',
                yref='paper',
                text=texto_combinado,
                showarrow=False,
                font=dict(size=18),
                align="left",
                bgcolor="rgba(255, 255, 255, 0.7)",
                bordercolor="#ffffff",
                borderwidth=1,
                borderpad=10,
                width=510,
                height=160
            )
        ]

    )

    fig.show()




In [244]:
pregunta2()

##**Requerimiento 3: Si separamos las ventas totales por año y por regiones ¿Qué insight podemos obtener de nuestras ventas?**

In [245]:
# @title Código Pregunta 3
def pregunta3():
    global df_ventas, df_ventas_limpio
    df_ventas_año_region = df_ventas_limpio.copy()
    df_ventas_año_region = df_ventas_año_region[['fecha_pedido','region','total_venta']].copy()
    df_ventas_año_region['año'] = pd.DatetimeIndex(df_ventas_año_region['fecha_pedido']).year
    df_ventas_año_region.drop("fecha_pedido", axis=1, inplace=True)
    df_ventas_año_region = pd.pivot_table(df_ventas_año_region, values='total_venta', index=['año', 'region'], aggfunc='sum').reset_index()
    df_ventas_año_region['año'] = df_ventas_año_region['año'].astype(int)
    df_ventas_año_region = df_ventas_año_region.sort_values(by='total_venta', ascending=False)
    df_ventas_año_region["total_venta"] = round(df_ventas_año_region["total_venta"] / 1e3 , 2)

    # Filtrar las regiones Sureste, Noreste y Centro-Oeste desde 2019
    regiones_interes = ['Sureste', 'Noreste', 'Centro-Oeste']
    ventas_interes = df_ventas_año_region[(df_ventas_año_region['region'].isin(regiones_interes)) & (df_ventas_año_region['año'] >= 2019)]

    # Calcular la suma total de las ventas de estas regiones
    suma_ventas_interes = ventas_interes['total_venta'].sum()

    # Calcular la suma total de todas las ventas desde 2019
    suma_total_ventas = df_ventas_año_region[df_ventas_año_region['año'] >= 2019]['total_venta'].sum()

    # Calcular el porcentaje
    porcentaje_ventas_interes = round((suma_ventas_interes / suma_total_ventas) * 100)


    texto1= f"<span style='color:black; font-weight:bold;'>{porcentaje_ventas_interes}%</span> de las ventas en el Supermercado que están<br>concentradas en las regiones <span style='color:black; font-weight:bold;'>Sureste, Noreste</span> y<br><span style='color:black; font-weight:bold;'>Centro-Oeste</span> desde el 2019."

    fig = go.Figure()

    for region in df_ventas_año_region['region'].unique():
        data_region = df_ventas_año_region[df_ventas_año_region['region'] == region]
        fig.add_trace(go.Bar(x=data_region['año'], y=data_region['total_venta'], name=region, text=data_region['total_venta'], textposition='inside', width=0.5))

    if len(df_ventas_año_region) > 0:
      fig.update_xaxes(tickvals=df_ventas_año_region['año'].unique())

    fig.update_layout(
        width=1500,  # Cambiar el ancho a 800 pixeles
        height=600,  # Cambiar la altura a 600 pixeles
        title='Ventas del Supermercado por región (2019-2022)',
        title_font=dict(size=26, color='black', family='Arial',),
        margin=dict(r=500),
        #xaxis=dict(title='Año'),
        #yaxis=dict(title='Ventas'),
        barmode='stack',
                 annotations=[
            dict(
                x=1.60,
                y=0.50,
                xref='paper',
                yref='paper',
                text=texto1,
                showarrow=False,
                font=dict(size=16),
                align="left",
                bgcolor="rgba(255, 255, 255, 0.7)",
                bordercolor="#ffffff",
                borderwidth=1,
                borderpad=10,
                width=510,
                height=160
            )
        ]
    )

    fig.show()

In [246]:
pregunta3()

##**Requerimiento 4: ¿Cuál es el método de envío más utilizado por los clientes del Supermercado? ¿Es proporcional para B2B y B2C?**

In [247]:
# @title Código Pregunta 4
def pregunta4():
    global df_ventas, df_ventas_limpio

    # Copia de dataframe limpio y disminución de columnas a "modo_envio" y "segmento_cliente":
    df_modo_envio = df_ventas_limpio[["modo_envio","segmento_cliente"]].copy()

    # Dataframe tabla cruzada:
    df_modo_envio = pd.crosstab(index=df_modo_envio["modo_envio"], columns=df_modo_envio['segmento_cliente']).sort_values('B2B')

    # Resetear el índice para convertir 'modo_envio' en una columna:
    df_modo_envio.reset_index(inplace=True)

    # Cálculo del total de entregas estándar (B2C y B2B)
    total_entrega_estandar_B2C = df_modo_envio['B2C'][df_modo_envio['modo_envio'] == 'Entrega estándar'].values[0]
    total_entrega_estandar_B2B = df_modo_envio['B2B'][df_modo_envio['modo_envio'] == 'Entrega estándar'].values[0]
    total_entrega_estandar = total_entrega_estandar_B2C + total_entrega_estandar_B2B

    # Cálculo del total de todos los tipos de envío (B2C y B2B)
    total_todos_los_tipos_B2C = df_modo_envio['B2C'].sum()
    total_todos_los_tipos_B2B = df_modo_envio['B2B'].sum()
    total_todos_los_tipos = total_todos_los_tipos_B2C + total_todos_los_tipos_B2B

    # Calcula el porcentaje general de la entrega estándar sobre todos los tipos de envío
    porcentaje_EntregaEstandar = int((total_entrega_estandar / total_todos_los_tipos) * 100)

    texto1 =f"La <span style='color:#0077b6; font-weight:bold;'>Entrega estándar</span> es el método de envío preferido<br>por los clientes del Supermercado, representa<br>aproximadamente <span style='color:#0077b6; font-weight:bold;'>{porcentaje_EntregaEstandar}%</span> de los pedidos,<br>no hay diferencia entre segmentos."

    fig = go.Figure()

    colores = ['#0077b6', '#CDDBF3']

    fig.add_trace(go.Bar(
        y=df_modo_envio['modo_envio'],
        x=df_modo_envio['B2B'],
        name='B2B',
        orientation='h',
        marker=dict(color=colores[0]),
        text=df_modo_envio['B2B']  # Agrega el texto en las barras para B2B
    ))

    fig.add_trace(go.Bar(
        y=df_modo_envio['modo_envio'],
        x=df_modo_envio['B2C'],
        name='B2C',
        orientation='h',
        marker=dict(color=colores[1]),
        hoverinfo='x',
        text=df_modo_envio['B2C']  # Agrega el texto en las barras para B2C
    ))

    fig.update_layout(
        width=1600,  # Cambiar el ancho a 800 pixeles
        height=600,  # Cambiar la altura a 600 pixeles
        barmode='stack',
        title='Comparación de modos de envío por segmento de cliente',
        title_font=dict(size=26, color='black', family='Arial',),
        margin=dict(r=500),
        #xaxis=dict(title='Cantidad'),
        #yaxis=dict(title='Modo de Envío'),
         annotations=[
            dict(
                x=1.55,
                y=0.50,
                xref='paper',
                yref='paper',
                text=texto1,
                showarrow=False,
                font=dict(size=16),
                align="left",
                bgcolor="rgba(255, 255, 255, 0.7)",
                bordercolor="#ffffff",
                borderwidth=1,
                borderpad=10,
                width=510,
                height=160
            )
        ]


    )

    fig.show()

In [248]:
pregunta4()

##**Requerimiento 5: ¿Cuáles son las ventas totales por trimestre en el estado de São Paulo?**

In [249]:
# @title Código Pregunta 5
def pregunta5():
    global df_ventas, df_ventas_limpio, df_ventas_sp
    # Crear una copia de df_ventas_limpio
    df_ventas_sp = df_ventas_limpio.copy()
    # Filtrar los registros con valor 'São Paulo' en la columna 'estado'
    df_ventas_sp = df_ventas_sp[df_ventas_sp['estado'] == 'São Paulo'][['fecha_pedido', 'total_venta']]
    # Hacer 'fecha_pedido' el nuevo índice
    df_ventas_sp.set_index('fecha_pedido', inplace=True)
    df_ventas_sp = df_ventas_sp.resample('Q').agg('sum')
    df_ventas_sp["total_venta"] = round(df_ventas_sp["total_venta"] / 1e3 , 2)
    df_ventas_sp.reset_index(inplace=True)

    # Agrupa por año y encuentra el índice del valor máximo de 'total_venta' para cada año
    idx_max = df_ventas_sp.groupby(df_ventas_sp.fecha_pedido.dt.year)['total_venta'].idxmax()

    # Crea una nueva columna en el DataFrame que es True si el índice está en idx_max y False en caso contrario
    df_ventas_sp['punto_a_marcar'] = df_ventas_sp.index.isin(idx_max)


    fig = go.Figure()

    # Trama principal de las ventas
    fig.add_trace(
        go.Scatter(
            x=df_ventas_sp['fecha_pedido'],
            y=df_ventas_sp['total_venta'],
            mode='lines',
            line=dict(color='blue'),
            name='Ventas por trimestre',
        )
    )

    # Agregar marcadores para los puntos máximos de ventas por año
    for i in range(len(df_ventas_sp)):
        if df_ventas_sp['punto_a_marcar'].iloc[i]:
            fig.add_trace(
                go.Scatter(
                    x=[df_ventas_sp['fecha_pedido'].iloc[i]],
                    y=[df_ventas_sp['total_venta'].iloc[i]],
                    mode='markers',
                    marker=dict(symbol='circle-open', size=10, color='black'),
                    showlegend=False,
                )
            )

            # Agregar etiquetas con números en los puntos máximos
            fig.add_annotation(
                x=df_ventas_sp['fecha_pedido'].iloc[i],
                y=df_ventas_sp['total_venta'].iloc[i],
                text = f"<span style='color:blue; font-weight:bold;'>$ {df_ventas_sp['total_venta'].iloc[i]}mil</span> (4° Trimestre {df_ventas_sp['fecha_pedido'].iloc[i].year})",
                showarrow=True,
                arrowhead=2,
                ax=0,
                ay=-40,
            )

     # Obtener años y meses únicos para etiquetas debajo de cada mes
    years = df_ventas_sp['fecha_pedido'].dt.year.unique()
    months = df_ventas_sp['fecha_pedido'].dt.month.unique()


    # Actualizar el diseño del gráfico
    fig.update_layout(
        width=1500,  # Cambiar el ancho a 800 pixeles
        height=600,  # Cambiar la altura a 600 pixeles
        title={'text': "Ventas por trimestre en el estado de São Paulo"},
        title_font=dict(size=20, color='black', family='Arial',),
        xaxis=dict(
            tickmode='array',
            tickvals=df_ventas_sp['fecha_pedido'],
            ticktext=["Mar", "Jun", "Set", "Dic"] * 4,
            tickangle=0,
            showticklabels=True,
            title='',
        ),
        yaxis=dict(
            title='',
        ),
        hovermode='x',
        showlegend=False,
    )

    fig.add_annotation(
        x=0.01,
        y=1.10,
        xref="paper",
        yref="paper",
        text="De 2019 a 2022 (en miles de dólares)",
        showarrow=False,
        font=dict(size=16, color='gray', family='Arial'),
        align="center"
      )


    # Mostrar el gráfico
    fig.show()

In [250]:
pregunta5()



#**Paso 4. Propuestas**

In [251]:
 # @title TOP ventas ciudades
def top_ventas_ciudades():
    global df_ventas_limpio
    df_top_ventas = df_ventas_limpio[['ciudad', 'total_venta']].copy()
    df_top_ventas = df_top_ventas.groupby('ciudad').agg({'total_venta':'sum'}).sort_values(by=['total_venta'], ascending=False).reset_index()
    df_top_ventas = df_top_ventas.tail(10)

    fig = px.bar(df_top_ventas, x='ciudad', y='total_venta', title='Top 10 Ciudades por Total de Ventas')
    fig.update_xaxes(title='Ciudades')
    fig.update_yaxes(title='Total de Ventas')

    # Añadir texto a la derecha del gráfico
    texto_derecha = "<span style='color:grey; font-weight:bold;'>Las 3 ciudades que registran mayor ventas son Vespasiano, Barretos e Itaguai. La diferencia\
  de altura de las 3 barras principales no es muy notable, lo que sugiere una fuerte<br>presencia de la venta de productos online en estos espacios.</span>"

    fig.add_annotation(
        x=1.0,  # Ajusta la posición en el eje x
        y=1.2,   # Ajusta la posición en el eje y
        xref="paper",
        yref="paper",
        text=texto_derecha,
        showarrow=False,
        align="left",
        font=dict(size=13),
    )

    fig.update_layout(
        margin=dict(t=150),  # Ajusta el margen superior para mover el gráfico hacia abajo
    )

    fig.show()

top_ventas_ciudades()


In [252]:
 # @title TOP 10 ciudades con mayor cantidad de clientes
def clientes_ciudad():
    df_top_ganancias = df_ventas_limpio[['ciudad', 'nombre_cliente']].copy()
    df_top_ganancias = df_top_ganancias.groupby('ciudad').count().sort_values(by=['nombre_cliente'], ascending=True).reset_index()
    df_top_ganancias = df_top_ganancias.tail(10)

    # Invertir el orden de las ciudades
    ciudades_ordenadas = df_top_ganancias['ciudad'].tolist()[::-1]

    fig = px.bar(df_top_ganancias, x='ciudad', y='nombre_cliente',
                 title='Top 10 ciudades con mayoria de clientes',
                 category_orders={'ciudad': ciudades_ordenadas})
    fig.update_xaxes(title='Ciudades')
    fig.update_yaxes(title='Numero de clientes')
 # Añadir texto a la derecha del gráfico
    texto_derecha = "<span style='color:grey; font-weight:bold;'>La ciudad de Sao Paulo presenta mayor cantida de clientes, por lo que se tiene que mantener los\
  esfuerzos de fidelización y realizar campañas con buenas ofertas<br>en las ciudades como Manaus y Goiania.</span>"

    fig.add_annotation(
        x=0.95,  # Ajusta la posición en el eje x
        y=1.2,   # Ajusta la posición en el eje y
        xref="paper",
        yref="paper",
        text=texto_derecha,
        showarrow=False,
        align="left",
        font=dict(size=13),
    )

    fig.update_layout(
        margin=dict(t=150),  # Ajusta el margen superior para mover el gráfico hacia abajo
    )
    fig.show()


In [253]:
clientes_ciudad()

In [254]:
 # @title Descuentos
def Descuentos():
    # Crear una nueva columna 'con_descuento' que indica si hubo descuento o no
    df_ventas_limpio['con_descuento'] = df_ventas_limpio['descuento'].apply(lambda x: 'Con Descuento' if x > 0 else 'Sin Descuento')

    # Crear una nueva columna 'ganancia' de ejemplo (reemplázala con tus datos reales)
    df_ventas_limpio['ganancia'] = df_ventas_limpio['total_ganancia']

    # Seleccionar las columnas deseadas para el análisis
    df_top_ganancias = df_ventas_limpio[['tipo_producto', 'con_descuento', 'ganancia']]

    # Realizar la agrupación y calcular la mediana de la sumatoria del total
    agrupacion = df_top_ganancias.groupby(['tipo_producto', 'con_descuento']).agg({'ganancia': 'sum'}).groupby('con_descuento')['ganancia'].median().reset_index()

    # Filtrar y seleccionar los 10 productos con mayor ganancia en cada grupo
    top_ganancia_con_descuento = df_top_ganancias[df_top_ganancias['con_descuento'] == 'Con Descuento'].nlargest(10, 'ganancia')
    top_ganancia_sin_descuento = df_top_ganancias[df_top_ganancias['con_descuento'] == 'Sin Descuento'].nlargest(10, 'ganancia')

    # Visualizar las medianas con un gráfico de tipo "pie"
    fig = px.pie(agrupacion, values='ganancia', names='con_descuento', title='Proporción de Mediana de la Sumatoria del Total con/sin Descuento')

    # Añadir texto al gráfico
    texto_anotacion = "<span style='color:grey; font-weight:bold;'>Hay una brecha de diferencias importantes con respecto a las ganancias de los productos sin descuento\
  vs con descuento.<br>Esto indica que se debe revisar factores como la calidad y la relación entre descuento y calidad del producto.</span>"

    fig.add_annotation(
        x=0.5,  # Ajusta la posición en el eje x
        y=-0.2,  # Ajusta la posición en el eje y
        xref="paper",
        yref="paper",
        text=texto_anotacion,
        showarrow=False,
        align="center",
        font=dict(size=12),
    )

    fig.show()



In [255]:
Descuentos()

In [256]:
 # @title TOP Clientes
def pregunta_top():
    # Crear una copia del DataFrame original
    df_ventas_total = df_ventas_limpio.copy()

    # Obtener el top de nombre_cliente por total_venta
    top_clientes = df_ventas_total.groupby('nombre_cliente')['total_venta'].sum().reset_index()
    top_clientes = top_clientes.sort_values(by='total_venta', ascending=False).head(10)

    # Formatear el texto para mostrar en las barras
    top_clientes['texto_barras'] = '$' + (top_clientes['total_venta'] // 1000).astype(str) + 'mil'

    fig = px.bar(top_clientes, x='nombre_cliente', y='total_venta', text='texto_barras', title='Top 10 Clientes por Total de Ventas')
    fig.update_xaxes(title='Nombre del Cliente')
    fig.update_yaxes(title='Total de Ventas')

    texto_derecha = "<span style='color:grey; font-weight:bold;'>Maria Luisa Almeida se presenta como el cliente que ha genarado mayor ingresos por las compras efectuadas\
  a la tienda online, por consiguiente<br>se tiene que proporsionar mayores beneficios para el cliente destacado y asi mismo un reconocimiento publicitario.</span>"

    fig.add_annotation(
        x=0.85,  # Ajusta la posición en el eje x
        y=1.2,   # Ajusta la posición en el eje y
        xref="paper",
        yref="paper",
        text=texto_derecha,
        showarrow=False,
        align="left",
        font=dict(size=13),
    )

    fig.update_layout(
        margin=dict(t=150),  # Ajusta el margen superior para mover el gráfico hacia abajo
    )
    fig.show()



In [257]:
pregunta_top()

In [258]:
 # @title Cantidad de pedidos por dia
def pregunta6():
    # Crear una copia del DataFrame original
    df_dias = df_ventas_limpio.copy()

    # Asumiendo que df es tu DataFrame
    df_dias['fecha_pedido'] = pd.to_datetime(df_dias['fecha_pedido'])
    df_dias['dia_semana'] = df_dias['fecha_pedido'].dt.day_name()

    # Mapeo de los nombres en inglés a español
    nombres_dias_espanol = {
        'Monday': 'Lunes',
        'Tuesday': 'Martes',
        'Wednesday': 'Miércoles',
        'Thursday': 'Jueves',
        'Friday': 'Viernes',
        'Saturday': 'Sábado',
        'Sunday': 'Domingo'
    }

    # Aplicar el mapeo de nombres de días al DataFrame
    df_dias['dia_semana'] = df_dias['dia_semana'].map(nombres_dias_espanol)

    # Crear un DataFrame con la cuenta de pedidos por día de la semana
    df_dias_count = df_dias['dia_semana'].value_counts().reset_index()
    df_dias_count.columns = ['dia_semana', 'cantidad_pedidos']

    fig = px.bar(
        df_dias_count,
        x='cantidad_pedidos',
        y='dia_semana',
        orientation='h',
        text='cantidad_pedidos',
        labels={'cantidad_pedidos': 'Cantidad de pedidos'},
        color='dia_semana'  # Asignar colores diferentes a cada día
    )

    fig.update_layout(
        width=1200,
        height=800,
        title='Cantidad de pedidos por día de la semana',
        title_font=dict(size=26, color='black', family='Arial',),
    )

    texto_derecha = "<span style='color:grey; font-weight:bold;'>El día lunes se presenta como el dia con mayor demananda en cuestión de pedidos esto sirve como alerta para\
  mantener al operativo y<br>a losgistica que los fines de cada semana se debe contar con el stock suficiente para el requerimiento de los dias lunes.</span>"

    fig.add_annotation(
        x=1.0,  # Ajusta la posición en el eje x
        y=1.1,   # Ajusta la posición en el eje y
        xref="paper",
        yref="paper",
        text=texto_derecha,
        showarrow=False,
        align="left",
        font=dict(size=13),
    )

    fig.update_layout(
        margin=dict(t=150),  # Ajusta el margen superior para mover el gráfico hacia abajo
    )

    fig.show()

In [259]:
pregunta6()

In [260]:
 # @title Cantidad de pedidos por mes
def pregunta8():
    # Crear una copia del DataFrame original
    df_dias = df_ventas_limpio.copy()

    # Asumiendo que df es tu DataFrame
    df_dias['fecha_pedido'] = pd.to_datetime(df_dias['fecha_pedido'])
    df_dias['mes'] = df_dias['fecha_pedido'].dt.strftime('%B')  # Obtener el nombre del mes en inglés

    # Mapeo de nombres de meses en inglés a español
    nombres_meses_espanol = {
        'January': 'Enero',
        'February': 'Febrero',
        'March': 'Marzo',
        'April': 'Abril',
        'May': 'Mayo',
        'June': 'Junio',
        'July': 'Julio',
        'August': 'Agosto',
        'September': 'Septiembre',
        'October': 'Octubre',
        'November': 'Noviembre',
        'December': 'Diciembre'
    }

    # Aplicar el mapeo de nombres de meses al DataFrame
    df_dias['mes'] = df_dias['mes'].map(nombres_meses_espanol)

    # Crear un DataFrame con la cuenta de pedidos por mes
    df_meses_count = df_dias['mes'].value_counts().reset_index()
    df_meses_count.columns = ['mes', 'cantidad_pedidos']

    colores_meses = {
            'Enero': 'gray',
            'Febrero': 'gray',
            'Marzo': 'gray',
            'Abril': 'gray',
            'Mayo': 'gray',
            'Junio': 'gray',
            'Julio': 'gray',
            'Agosto': 'gray',
            'Septiembre': 'green',
            'Octubre': 'gray',
            'Noviembre': 'green',
            'Diciembre': 'green'
        }

    fig = px.bar(
            df_meses_count,
            x='cantidad_pedidos',
            y='mes',
            orientation='h',
            text='cantidad_pedidos',
            labels={'cantidad_pedidos': 'Cantidad de pedidos'},
            color='mes',  # Variable para asignar colores diferentes
            color_discrete_map=colores_meses  # Asignar colores a cada mes
        )

    fig.update_layout(
            width=1200,
            height=800,
            title='Cantidad de pedidos por mes',
            title_font=dict(size=26, color='black', family='Arial',),
        )
    texto_derecha = "<span style='color:grey; font-weight:bold;'>Los dos ultimos meses del año nos confirman que por las fechas festivas de fin de año siempre hay un alza\
  considerable en las ventas y<br>siguiendo esta linea debemos preveer en base a los indicadores de periodos anteriores el abastecimiento real y proyectarnos<br>en que productos\
  pueden seguir creciendo aun mas sobre los indicadores actuales.</span>"

    fig.add_annotation(
        x=1.05,  # Ajusta la posición en el eje x
        y=1.2,   # Ajusta la posición en el eje y
        xref="paper",
        yref="paper",
        text=texto_derecha,
        showarrow=False,
        align="left",
        font=dict(size=13),
    )

    fig.update_layout(
        margin=dict(t=230),  # Ajusta el margen superior para mover el gráfico hacia abajo
    )

    fig.show()

In [261]:
pregunta8()

#**Paso 5. Machine Learning: Facebook Prophet.**

In [262]:
from prophet import Prophet

In [263]:
df_venta_total_dia = df_ventas_limpio[['fecha_pedido','total_venta']].sort_values('fecha_pedido').reset_index()
df_venta_total_dia.drop(['index'], axis = 1, inplace = True)
# 'fecha_pedido' a datetime:
df_venta_total_dia['fecha_pedido'] = pd.to_datetime(df_venta_total_dia['fecha_pedido'])
# Columna combinada 'year_month'
df_venta_total_dia['year_month'] = df_venta_total_dia['fecha_pedido'].dt.to_period('M')
# Agrupar por 'year_month' y sumar 'total_venta'
df_venta_total_mes = df_venta_total_dia.groupby('year_month')['total_venta'].sum().reset_index()

# Modificación columnas para algoritmo de Facebook Prophet
df_fb = df_venta_total_mes[['year_month','total_venta']].rename(columns = {'year_month': 'ds', 'total_venta': 'y'})
df_fb = df_fb.sort_values('ds')

df_fb['ds'] = df_fb['ds'].dt.to_timestamp()

# división en datos de entrenamiento y test
train_data = df_fb.iloc[:len(df_fb)-10]
test_data = df_fb.iloc[len(df_fb)-10:]

##**Entrenamiento del modelo**

In [264]:
model = Prophet()
model.fit(train_data)
future = model.make_future_dataframe(periods = 10, freq = 'MS')
forecast = model.predict(future)

INFO:prophet:Disabling weekly seasonality. Run prophet with weekly_seasonality=True to override this.
INFO:prophet:Disabling daily seasonality. Run prophet with daily_seasonality=True to override this.
DEBUG:cmdstanpy:input tempfile: /tmp/tmp5s1aepx3/aqfdme7c.json
DEBUG:cmdstanpy:input tempfile: /tmp/tmp5s1aepx3/dv0pmpcc.json
DEBUG:cmdstanpy:idx 0
DEBUG:cmdstanpy:running CmdStan, num_threads: None
DEBUG:cmdstanpy:CmdStan args: ['/usr/local/lib/python3.10/dist-packages/prophet/stan_model/prophet_model.bin', 'random', 'seed=59770', 'data', 'file=/tmp/tmp5s1aepx3/aqfdme7c.json', 'init=/tmp/tmp5s1aepx3/dv0pmpcc.json', 'output', 'file=/tmp/tmp5s1aepx3/prophet_modelrx0rxlz2/prophet_model-20231127233135.csv', 'method=optimize', 'algorithm=newton', 'iter=10000']
23:31:35 - cmdstanpy - INFO - Chain [1] start processing
INFO:cmdstanpy:Chain [1] start processing
23:31:35 - cmdstanpy - INFO - Chain [1] done processing
INFO:cmdstanpy:Chain [1] done processing


In [265]:
forecast = pd.DataFrame({'Date': forecast[-10:]['ds'], 'Pred': forecast[-10:]['yhat'] })
forecast = forecast.set_index('Date')
forecast.index.freq = "MS"
forecast

Unnamed: 0_level_0,Pred
Date,Unnamed: 1_level_1
2022-03-01,130538.607851
2022-04-01,128826.928047
2022-05-01,134471.370043
2022-06-01,135753.119807
2022-07-01,125208.249536
2022-08-01,123934.868593
2022-09-01,208663.907666
2022-10-01,140391.060174
2022-11-01,228740.04149
2022-12-01,246339.3562


##**Evaluación del modelo**

In [266]:
test_data_fb = df_venta_total_mes[['year_month','total_venta']]
test_data_fb = test_data_fb.sort_values('year_month')
test_data_fb = test_data_fb[len(test_data_fb)-10:]

test_data_fb['Prophet_Predictions'] = forecast['Pred'].values

# agregar columna year_month tipo texto a test_data_fb
test_data_fb['year_month_str'] = test_data_fb['year_month'].astype(str)

a = test_data_fb[['total_venta','Prophet_Predictions']]
fig = px.line(a, x = test_data_fb['year_month_str'], y = a.columns, template = 'plotly_dark', title = 'Predicción con Modelo Facebook Prophet')
fig.show()

In [267]:
from sklearn import metrics

def evaluacion_modelo(y_true, y_pred):

  def mean_absolute_percentage_error(y_true, y_pred):
    y_true, y_pred = np.array(y_true), np.array(y_pred)
    return np.mean(np.abs((y_true - y_pred) / y_true)) * 100

  print('Evaluación del Modelo:-')
  print(f'MSE is : {metrics.mean_squared_error(y_true, y_pred)}')
  print(f'MAE is : {metrics.mean_absolute_error(y_true, y_pred)}')
  print(f'RMSE is : {np.sqrt(metrics.mean_squared_error(y_true, y_pred))}')
  print(f'MAPE is : {mean_absolute_percentage_error(y_true, y_pred)}')
  print(f'R2 is : {metrics.r2_score(y_true, y_pred)}', end='\n\n')

In [268]:
evaluacion_modelo(test_data_fb['total_venta'], test_data_fb['Prophet_Predictions'])

Evaluación del Modelo:-
MSE is : 700739800.4968141
MAE is : 22011.776878781468
RMSE is : 26471.490333882113
MAPE is : 15.095553551184555
R2 is : 0.7412527008130085



##**Predicción de Ventas para los próximos 12 meses**

In [269]:
future = model.make_future_dataframe(periods = 22, freq = 'MS')
forecast = model.predict(future)

forecast = pd.DataFrame({'Date': forecast[-12:]['ds'], 'Pred': forecast[-12:]['yhat'] })

forecast = forecast.set_index('Date')

forecast.index.freq = "MS"

forecast = forecast.reset_index()

In [270]:
# Adecuar "df_venta_total_mes" a "forecast" para graficar
df_venta_total_mes = df_venta_total_mes[['year_month','total_venta']].rename(columns = {'year_month': 'Date', 'total_venta': 'Pred'})
df_venta_total_mes['Date'] = df_venta_total_mes['Date'].dt.to_timestamp()

# Crear el trazo para los datos hasta diciembre de 2022
trace1 = go.Scatter(
    x=df_venta_total_mes['Date'],  # O la columna de fechas correspondiente
    y=df_venta_total_mes['Pred'],  # O la columna de predicciones correspondiente
    mode='lines',
    name='Ventas hasta Diciembre 2022',
    line=dict(color='blue')  # Puedes elegir el color que prefieras
)

# Crear el trazo para los datos a partir de enero de 2023
trace2 = go.Scatter(
    x=forecast['Date'],  # O la columna de fechas correspondiente
    y=forecast['Pred'],  # O la columna de predicciones correspondiente
    mode='lines',
    name='Predicción Ventas año 2023',
    line=dict(color='red')  # Puedes elegir un color diferente para resaltar esta sección
)

# Figura con ambos trazos
fig = go.Figure(data=[trace1, trace2])

# Layout con títulos y demás configuraciones
fig.update_layout(
    title='Predicción de Ventas Mensuales para el año 2023 con Modelo Facebook Prophet',
    xaxis_title='Mes',
    yaxis_title='Ventas en miles de dólares',
    template='plotly_dark'
)

fig.show()

# Predicción en detalle
fig = px.line(forecast, x='Date', y='Pred', template='plotly_dark', title='Detalle Predicciones por Mes Año 2023')
fig.show()