In [2]:
# Imports principales para el proyecto
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import sklearn
import streamlit as st
import holidays

In [3]:
# Cargar los datos de ventas y competencias desde data/raw/entrenamiento
ventas_path = '../data/raw/entrenamiento/ventas.csv'
competencia_path = '../data/raw/entrenamiento/competencia.csv'

# Cargar los archivos CSV en DataFrames
ventas_df = pd.read_csv(ventas_path)
competencia_df = pd.read_csv(competencia_path)

# Mostrar las primeras filas para verificar
print("Ventas:")
print(ventas_df.head())
print("\nCompetencia:")
print(competencia_df.head())

Ventas:
        fecha producto_id                            nombre categoria  \
0  2021-10-25    PROD_001          Nike Air Zoom Pegasus 40   Running   
1  2021-10-25    PROD_002              Adidas Ultraboost 23   Running   
2  2021-10-25    PROD_003               Asics Gel Nimbus 25   Running   
3  2021-10-25    PROD_004  New Balance Fresh Foam X 1080v12   Running   
4  2021-10-25    PROD_005                Nike Dri-FIT Miler   Running   

         subcategoria  precio_base  es_estrella  unidades_vendidas  \
0  Zapatillas Running          115         True                  6   
1  Zapatillas Running          135         True                 10   
2  Zapatillas Running           85        False                  2   
3  Zapatillas Running           75        False                  2   
4        Ropa Running           35        False                  2   

   precio_venta  ingresos  
0        118.36    710.16  
1        136.82   1368.20  
2         84.93    169.86  
3         75.42    1

In [4]:
ventas_df.head()

Unnamed: 0,fecha,producto_id,nombre,categoria,subcategoria,precio_base,es_estrella,unidades_vendidas,precio_venta,ingresos
0,2021-10-25,PROD_001,Nike Air Zoom Pegasus 40,Running,Zapatillas Running,115,True,6,118.36,710.16
1,2021-10-25,PROD_002,Adidas Ultraboost 23,Running,Zapatillas Running,135,True,10,136.82,1368.2
2,2021-10-25,PROD_003,Asics Gel Nimbus 25,Running,Zapatillas Running,85,False,2,84.93,169.86
3,2021-10-25,PROD_004,New Balance Fresh Foam X 1080v12,Running,Zapatillas Running,75,False,2,75.42,150.84
4,2021-10-25,PROD_005,Nike Dri-FIT Miler,Running,Ropa Running,35,False,2,35.87,71.74


In [5]:
competencia_df.head()

Unnamed: 0,fecha,producto_id,Amazon,Decathlon,Deporvillage
0,2021-10-25,PROD_001,82.96,111.88,97.43
1,2021-10-25,PROD_002,112.56,108.61,115.58
2,2021-10-25,PROD_003,79.79,78.44,80.11
3,2021-10-25,PROD_004,72.6,67.29,74.45
4,2021-10-25,PROD_005,37.71,33.6,33.07


In [4]:
# Informe de calidad de datos para ventas_df
print('--- INFORME DE CALIDAD DE DATOS: ventas_df ---')

# Tipos de variables
print('Tipos de variables:')
print(ventas_df.dtypes)
print('\n')

# Nulos por columna
print('Nulos por columna:')
print(ventas_df.isnull().sum())
print('\n')

# Duplicados
duplicados = ventas_df.duplicated().sum()
print(f'Registros duplicados: {duplicados}')
print('\n')

# Estadísticas descriptivas
print('Estadísticas descriptivas:')
print(ventas_df.describe(include='all').transpose())
print('\n')

# Resumen final
print('Resumen final:')
print(f"Filas totales: {ventas_df.shape[0]}")
print(f"Columnas totales: {ventas_df.shape[1]}")
print(f"Nulos totales: {ventas_df.isnull().sum().sum()}")
print(f"Duplicados totales: {duplicados}")

--- INFORME DE CALIDAD DE DATOS: ventas_df ---
Tipos de variables:
fecha                 object
producto_id           object
nombre                object
categoria             object
subcategoria          object
precio_base            int64
es_estrella             bool
unidades_vendidas      int64
precio_venta         float64
ingresos             float64
dtype: object


Nulos por columna:
fecha                0
producto_id          0
nombre               0
categoria            0
subcategoria         0
precio_base          0
es_estrella          0
unidades_vendidas    0
precio_venta         0
ingresos             0
dtype: int64


Registros duplicados: 0


Estadísticas descriptivas:
                    count unique                       top  freq        mean  \
fecha                3552    148                2021-10-25    24         NaN   
producto_id          3552     24                  PROD_001   148         NaN   
nombre               3552     24  Nike Air Zoom Pegasus 40   148      

In [5]:
# Informe de calidad de datos para competencia_df
print('--- INFORME DE CALIDAD DE DATOS: competencia_df ---')

# Tipos de variables
print('Tipos de variables:')
print(competencia_df.dtypes)
print('\n')

# Nulos por columna
print('Nulos por columna:')
print(competencia_df.isnull().sum())
print('\n')

# Duplicados
duplicados_comp = competencia_df.duplicated().sum()
print(f'Registros duplicados: {duplicados_comp}')
print('\n')

# Estadísticas descriptivas
print('Estadísticas descriptivas:')
print(competencia_df.describe(include='all').transpose())
print('\n')

# Resumen final
print('Resumen final:')
print(f"Filas totales: {competencia_df.shape[0]}")
print(f"Columnas totales: {competencia_df.shape[1]}")
print(f"Nulos totales: {competencia_df.isnull().sum().sum()}")
print(f"Duplicados totales: {duplicados_comp}")

--- INFORME DE CALIDAD DE DATOS: competencia_df ---
Tipos de variables:
fecha            object
producto_id      object
Amazon          float64
Decathlon       float64
Deporvillage    float64
dtype: object


Nulos por columna:
fecha           0
producto_id     0
Amazon          0
Decathlon       0
Deporvillage    0
dtype: int64


Registros duplicados: 0


Estadísticas descriptivas:
               count unique         top freq        mean         std    min  \
fecha           3552    148  2021-10-25   24         NaN         NaN    NaN   
producto_id     3552     24    PROD_001  148         NaN         NaN    NaN   
Amazon        3552.0    NaN         NaN  NaN  118.623407  156.095628  16.85   
Decathlon     3552.0    NaN         NaN  NaN  111.412182  148.508132  15.45   
Deporvillage  3552.0    NaN         NaN  NaN  118.894628  160.216448  16.77   

                  25%     50%       75%       max  
fecha             NaN     NaN       NaN       NaN  
producto_id       NaN     NaN       

In [6]:
# Convertir la columna 'fecha' a tipo datetime en ambos dataframes
ventas_df['fecha'] = pd.to_datetime(ventas_df['fecha'], errors='coerce')
competencia_df['fecha'] = pd.to_datetime(competencia_df['fecha'], errors='coerce')
print('Conversion de fecha a datetime realizada en ventas_df y competencia_df')

Conversion de fecha a datetime realizada en ventas_df y competencia_df


In [9]:
ventas_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3552 entries, 0 to 3551
Data columns (total 10 columns):
 #   Column             Non-Null Count  Dtype         
---  ------             --------------  -----         
 0   fecha              3552 non-null   datetime64[ns]
 1   producto_id        3552 non-null   object        
 2   nombre             3552 non-null   object        
 3   categoria          3552 non-null   object        
 4   subcategoria       3552 non-null   object        
 5   precio_base        3552 non-null   int64         
 6   es_estrella        3552 non-null   bool          
 7   unidades_vendidas  3552 non-null   int64         
 8   precio_venta       3552 non-null   float64       
 9   ingresos           3552 non-null   float64       
dtypes: bool(1), datetime64[ns](1), float64(2), int64(2), object(4)
memory usage: 253.3+ KB


In [10]:
ventas_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3552 entries, 0 to 3551
Data columns (total 10 columns):
 #   Column             Non-Null Count  Dtype         
---  ------             --------------  -----         
 0   fecha              3552 non-null   datetime64[ns]
 1   producto_id        3552 non-null   object        
 2   nombre             3552 non-null   object        
 3   categoria          3552 non-null   object        
 4   subcategoria       3552 non-null   object        
 5   precio_base        3552 non-null   int64         
 6   es_estrella        3552 non-null   bool          
 7   unidades_vendidas  3552 non-null   int64         
 8   precio_venta       3552 non-null   float64       
 9   ingresos           3552 non-null   float64       
dtypes: bool(1), datetime64[ns](1), float64(2), int64(2), object(4)
memory usage: 253.3+ KB


In [7]:
# Integrar ventas_df y competencia_df en un nuevo dataframe df usando fecha y producto_id como claves
df = pd.merge(ventas_df, competencia_df, how='inner' , on=['fecha', 'producto_id'] )
print('Integración realizada. Shape del nuevo dataframe df:', df.shape)
df.head()

Integración realizada. Shape del nuevo dataframe df: (3552, 13)


Unnamed: 0,fecha,producto_id,nombre,categoria,subcategoria,precio_base,es_estrella,unidades_vendidas,precio_venta,ingresos,Amazon,Decathlon,Deporvillage
0,2021-10-25,PROD_001,Nike Air Zoom Pegasus 40,Running,Zapatillas Running,115,True,6,118.36,710.16,82.96,111.88,97.43
1,2021-10-25,PROD_002,Adidas Ultraboost 23,Running,Zapatillas Running,135,True,10,136.82,1368.2,112.56,108.61,115.58
2,2021-10-25,PROD_003,Asics Gel Nimbus 25,Running,Zapatillas Running,85,False,2,84.93,169.86,79.79,78.44,80.11
3,2021-10-25,PROD_004,New Balance Fresh Foam X 1080v12,Running,Zapatillas Running,75,False,2,75.42,150.84,72.6,67.29,74.45
4,2021-10-25,PROD_005,Nike Dri-FIT Miler,Running,Ropa Running,35,False,2,35.87,71.74,37.71,33.6,33.07


## Análisis exploratorio completo del dataframe integrado (df)

In [8]:
# Gráfico de líneas temporales por año con suma de unidades vendidas y marcando Black Fridays
import matplotlib.dates as mdates
import holidays
import seaborn as sns
import matplotlib.pyplot as plt

us_holidays = holidays.US()

# Extraer año, mes, día
df['año'] = df['fecha'].dt.year
df['mes'] = df['fecha'].dt.month
df['dia'] = df['fecha'].dt.day

# Black Friday: último viernes de noviembre
def get_black_friday(year):
    nov = pd.date_range(start=f'{year}-11-01', end=f'{year}-11-30', freq='D')
    fridays = nov[nov.weekday == 4]
    return fridays[-1] if len(fridays) > 0 else None

# Limitar a los primeros 3 años para gráfico
years_to_plot = sorted(df['año'].unique())[:3]

black_fridays = {year: get_black_friday(year) for year in years_to_plot}

fig, axes = plt.subplots(len(years_to_plot), 1, figsize=(12, 5 * len(years_to_plot)), sharex=False)

if len(years_to_plot) == 1:
    axes = [axes]

for i, year in enumerate(years_to_plot):
    ax = axes[i]
    data_year = df[df['año'] == year].groupby('fecha')['unidades_vendidas'].sum().reset_index()
    sns.lineplot(data=data_year, x='fecha', y='unidades_vendidas', ax=ax)
    ax.set_title(f'Suma de unidades vendidas por fecha - {year}')
    ax.xaxis.set_major_locator(mdates.MonthLocator())
    ax.xaxis.set_major_formatter(mdates.DateFormatter('%b'))
    # Marcar Black Friday
    bf = black_fridays[year]
    if bf is not None:
        ax.axvline(bf, color='red', linestyle='--', label='Black Friday')
        ax.legend()

plt.tight_layout()
plt.show()


: 

In [7]:
# Gráfico de suma de unidades vendidas por día de la semana
df['dia_semana'] = df['fecha'].dt.day_name()
ventas_por_dia = df.groupby('dia_semana')['unidades_vendidas'].sum().reindex(['Monday','Tuesday','Wednesday','Thursday','Friday','Saturday','Sunday'])

plt.figure(figsize=(10,6))
sns.barplot(x=ventas_por_dia.index, y=ventas_por_dia.values, palette='viridis')
plt.title('Suma de unidades vendidas por día de la semana')
plt.ylabel('Unidades vendidas')
plt.xlabel('Día de la semana')
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

: 

In [15]:
# Gráfico de suma de unidades vendidas por categoría
ventas_por_categoria = df.groupby('categoria')['unidades_vendidas'].sum().sort_values(ascending=False)

plt.figure(figsize=(10,6))
sns.barplot(x=ventas_por_categoria.index, y=ventas_por_categoria.values, palette='crest')
plt.title('Suma de unidades vendidas por categoría')
plt.ylabel('Unidades vendidas')
plt.xlabel('Categoría')
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

: 

In [None]:
# Gráfico de suma de unidades vendidas por subcategoría
ventas_por_subcat = df.groupby('subcategoria')['unidades_vendidas'].sum().sort_values(ascending=False)

plt.figure(figsize=(12,6))
sns.barplot(x=ventas_por_subcat.index, y=ventas_por_subcat.values, palette='flare')
plt.title('Suma de unidades vendidas por subcategoría')
plt.ylabel('Unidades vendidas')
plt.xlabel('Subcategoría')
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

In [4]:
# Gráfico de los top productos por unidades vendidas
top_productos = df.groupby('nombre')['unidades_vendidas'].sum().sort_values(ascending=False).head(10)

plt.figure(figsize=(12,6))
sns.barplot(x=top_productos.index, y=top_productos.values, palette='mako')
plt.title('Top 10 productos por unidades vendidas')
plt.ylabel('Unidades vendidas')
plt.xlabel('Producto')
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

NameError: name 'df' is not defined

In [5]:
# Análisis de la densidad de distribución de los precios propios vs precios de Amazon
plt.figure(figsize=(10,6))
sns.kdeplot(df['precio_venta'], label='Precio venta propio', fill=True, color='blue')
sns.kdeplot(df['Amazon'], label='Precio Amazon', fill=True, color='orange')
plt.title('Densidad de distribución de precios: propio vs Amazon')
plt.xlabel('Precio')
plt.ylabel('Densidad')
plt.legend()
plt.tight_layout()
plt.show()

: 

In [4]:
# Asegurar que df esté definido y recargar si es necesario
try:
    df
except NameError:
    ventas_path = '../data/raw/entrenamiento/ventas.csv'
    competencia_path = '../data/raw/entrenamiento/competencia.csv'
    ventas_df = pd.read_csv(ventas_path)
    competencia_df = pd.read_csv(competencia_path)
    ventas_df['fecha'] = pd.to_datetime(ventas_df['fecha'], errors='coerce')
    competencia_df['fecha'] = pd.to_datetime(competencia_df['fecha'], errors='coerce')
    df = pd.merge(ventas_df, competencia_df, on=['fecha', 'producto_id'], how='inner')
    print('Dataframes recargados e integrados correctamente.')

Dataframes recargados e integrados correctamente.


In [14]:
import holidays
print(holidays.__version__)


0.84
