In [15]:
#%pip install seaborn


In [16]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from dateutil import parser

In [17]:
df = pd.read_csv("../Datas/Data_ID_normalizado.csv", encoding="utf-8")
df.head()

Unnamed: 0,id_transaccion,id_producto,nombre_producto,precio,id_tienda,nombre_tienda,categoria_tienda,ciudad,fecha
0,1,63,Salsa Bufalo,23.1,6,City Market,Premium,CANCUN,2025-10-27
1,2,32,,9.49,5,Chedraui,Autoservicio,PUEBLA,2025-12-27
2,3,77,Cereal Choco Krispis,53.36,2,Sam's Club,Mayoreo,PUEBLA,2025-11-09
3,4,45,Mix de Nueces Member's Mark,88.14,7,La Comer,Premium,CANCUN,2025-10-27
4,5,42,Yoghurt Griego Yoplait,28.32,1,Walmart,Autoservicio,GDL,2025-09-03


Lo primero que debemos normalizar son las fechas, ya que los precios pueden ser estacionarios y eso haria que los precios varien durante el tiempo

In [18]:

df['fecha'] = df['fecha'].apply(lambda x: parser.parse(x, fuzzy=True) if pd.notna(x) else pd.NaT)

mask = df['fecha'].isna()

# luego dateutil SOLO para las fallidas
df.loc[mask, 'fecha'] = (
    df.loc[mask, 'fecha']
    .apply(lambda x: parser.parse(x, fuzzy=True) if pd.notna(x) else pd.NaT)
)

df[df['fecha'].isna()].head(5)

Unnamed: 0,id_transaccion,id_producto,nombre_producto,precio,id_tienda,nombre_tienda,categoria_tienda,ciudad,fecha


Ahora hacemos una inspeccion rapida con ```.describe() e .info()``` para ver el estado de nuestro data set

In [19]:
print (df.describe(), df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1030000 entries, 0 to 1029999
Data columns (total 9 columns):
 #   Column            Non-Null Count    Dtype         
---  ------            --------------    -----         
 0   id_transaccion    1030000 non-null  int64         
 1   id_producto       1030000 non-null  int64         
 2   nombre_producto   1013293 non-null  object        
 3   precio            1013461 non-null  object        
 4   id_tienda         1030000 non-null  int64         
 5   nombre_tienda     1030000 non-null  object        
 6   categoria_tienda  1030000 non-null  object        
 7   ciudad            1013246 non-null  object        
 8   fecha             1030000 non-null  datetime64[ns]
dtypes: datetime64[ns](1), int64(3), object(5)
memory usage: 70.7+ MB
       id_transaccion   id_producto     id_tienda  \
count    1.030000e+06  1.030000e+06  1.030000e+06   
mean     5.150005e+05  5.050971e+01  5.503348e+00   
min      1.000000e+00  1.000000e+00  1.0000

Esto nos dice bastantes cosas, la primera de ellas es que tanto los productos, tiendas y precios tienen datos vacios, por lo que hay que normalizarlos primero, para ello vamos a hacer un merge en base al catalogo que ya tenemos anteriormente

In [23]:
#Primero cargamos nuestros catalogos
catalogo_producto = pd.read_csv("../Catalogos/Catalogo_productos.csv", encoding="utf-8")
catalogo_tienda = pd.read_csv("../Catalogos/Catalogo_tiendas.csv", encoding="utf-8")

In [24]:
#Ahora les vamos a hacer un mapeo sobre los ID para identificar cuales debemos corregir
mapeo_producto = catalogo_producto.set_index('id_producto')['producto'].to_dict()
mapeo_tiendas = catalogo_tienda.set_index('id_tienda')['tienda'].to_dict()

In [25]:
#Ahora lo que vamos a hacer es que nuestros ID ya estan normalizados,
#pero puede que los productos no, asi que vamos a eliminar toda la columna de productos 
#y tienda y vamos a hacer un merge con nuestros catalogos, ya que los ID ya estan corregidos
df.drop(columns=['nombre_producto', 'nombre_tienda'], inplace=True, errors='ignore')
df.head()

Unnamed: 0,id_transaccion,id_producto,precio,id_tienda,categoria_tienda,ciudad,fecha
0,1,63,23.1,6,Premium,CANCUN,2025-10-27
1,2,32,9.49,5,Autoservicio,PUEBLA,2025-12-27
2,3,77,53.36,2,Mayoreo,PUEBLA,2025-11-09
3,4,45,88.14,7,Premium,CANCUN,2025-10-27
4,5,42,28.32,1,Autoservicio,GDL,2025-09-03


In [26]:
#Eliminadas las columnas ahora hacemos un merge
# Mege de productos
df = pd.merge(df, 
              catalogo_producto[['id_producto', 'producto']], 
              on='id_producto', 
              how='left').rename(columns={'producto': 'nombre_producto'})

# Merge de Tiendas
df = pd.merge(df, 
              catalogo_tienda[['id_tienda', 'tienda']], 
              on='id_tienda', 
              how='left').rename(columns={'tienda': 'nombre_tienda'})

df.head()

Unnamed: 0,id_transaccion,id_producto,precio,id_tienda,categoria_tienda,ciudad,fecha,nombre_producto,nombre_tienda
0,1,63,23.1,6,Premium,CANCUN,2025-10-27,Salsa Bufalo,City Market
1,2,32,9.49,5,Autoservicio,PUEBLA,2025-12-27,Agua Epura 1L,Chedraui
2,3,77,53.36,2,Mayoreo,PUEBLA,2025-11-09,Cereal Choco Krispis,Sam's Club
3,4,45,88.14,7,Premium,CANCUN,2025-10-27,Mix de Nueces Member's Mark,La Comer
4,5,42,28.32,1,Autoservicio,GDL,2025-09-03,Yoghurt Griego Yoplait,Walmart


In [27]:
#Para que queden en el orden correcto reorganizamos las columas
orden_ideal = [
    'id_transaccion', 
    'id_producto', 
    'nombre_producto',  
    'precio', 
    'id_tienda', 
    'nombre_tienda',     
    'categoria_tienda', 
    'ciudad', 
    'fecha'
]

# Aplicas el orden
df = df[orden_ideal]

print (df.info())
df.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1030000 entries, 0 to 1029999
Data columns (total 9 columns):
 #   Column            Non-Null Count    Dtype         
---  ------            --------------    -----         
 0   id_transaccion    1030000 non-null  int64         
 1   id_producto       1030000 non-null  int64         
 2   nombre_producto   1030000 non-null  object        
 3   precio            1013461 non-null  object        
 4   id_tienda         1030000 non-null  int64         
 5   nombre_tienda     1030000 non-null  object        
 6   categoria_tienda  1030000 non-null  object        
 7   ciudad            1013246 non-null  object        
 8   fecha             1030000 non-null  datetime64[ns]
dtypes: datetime64[ns](1), int64(3), object(5)
memory usage: 70.7+ MB
None


Unnamed: 0,id_transaccion,id_producto,nombre_producto,precio,id_tienda,nombre_tienda,categoria_tienda,ciudad,fecha
0,1,63,Salsa Bufalo,23.1,6,City Market,Premium,CANCUN,2025-10-27
1,2,32,Agua Epura 1L,9.49,5,Chedraui,Autoservicio,PUEBLA,2025-12-27
2,3,77,Cereal Choco Krispis,53.36,2,Sam's Club,Mayoreo,PUEBLA,2025-11-09
3,4,45,Mix de Nueces Member's Mark,88.14,7,La Comer,Premium,CANCUN,2025-10-27
4,5,42,Yoghurt Griego Yoplait,28.32,1,Walmart,Autoservicio,GDL,2025-09-03


Ya con esto solo queda por normalizar la ciudad y los precio. 

Para ello primero debemos de saber que los precios estan relacionados con el producto, el mes, la tienda y la ciudad.

In [33]:
#Primero vamos a eliminar errores de notacion del precio
# Convertir a string, quitar texto, convertir a numérico
df['precio'] = (
    df['precio'].astype(str)
    .str.replace('pesos', '', case=False, regex=False)
    .str.replace('$', '', regex=False)
    .str.strip()
)

# Convertir a numérico (los que no puedan se volverán NaN)
df['precio'] = pd.to_numeric(df['precio'], errors='coerce')

In [35]:
#Antes de sacar un promedio de precios con el cual rellenarlo debemos eliminar los outliers.
#La agrupacion sera Producto, Ciudad, Precio. Donde el precio sea el promedio
def identificar_outliers_por_grupo(df, columna_precio, grupo):
    
    #Identifica outliers usando el método IQR por grupo
    
    # Calcular Q1, Q3 e IQR por grupo
    Q1 = df.groupby(grupo)[columna_precio].transform(lambda x: x.quantile(0.25))
    Q3 = df.groupby(grupo)[columna_precio].transform(lambda x: x.quantile(0.75))
    IQR = Q3 - Q1
    
    # Definir límites (1.5*IQR es el estándar, puedes ajustar)
    limite_inferior = Q1 - 1.5 * IQR
    limite_superior = Q3 + 1.5 * IQR
    
    # Marcar outliers
    es_outlier = (df[columna_precio] < limite_inferior) | (df[columna_precio] > limite_superior)
    return es_outlier

    #Ahora debemos sacar el promedio sin los outliers, ya que los outliers los vamos a rellenar con promedio
def calcular_promedio_sin_outliers(df, columna_precio, grupo):

    # Primero identificar outliers
    df['es_outlier'] = identificar_outliers_por_grupo(df, columna_precio, grupo)
    
    # Crear copia sin outliers para calcular promedios
    df_sin_outliers = df[~df['es_outlier']].copy()
    
    # Calcular promedio por grupo sin outliers
    promedio_sin_outliers = df_sin_outliers.groupby(grupo)[columna_precio].mean()
    
    return promedio_sin_outliers, df

# Aplicar para producto-ciudad
grupo = ['id_producto', 'ciudad']
promedios_sin_outliers, df = calcular_promedio_sin_outliers(df, 'precio', grupo)
    

In [36]:
#Ahora debemos rellenar tanto vacios como outliers
# Crear columna de precio limpio
df['precio_limpio'] = df['precio'].copy()

# 1. Para cada grupo (producto-ciudad), rellenar NaN con promedio sin outliers
for idx, row in df[df['precio'].isna()].iterrows():
    clave = (row['id_producto'], row['ciudad'])
    if clave in promedios_sin_outliers:
        df.at[idx, 'precio_limpio'] = promedios_sin_outliers[clave]

# 2. Reemplazar outliers con el promedio sin outliers
for idx, row in df[df['es_outlier']].iterrows():
    clave = (row['id_producto'], row['ciudad'])
    if clave in promedios_sin_outliers:
        df.at[idx, 'precio_limpio'] = promedios_sin_outliers[clave]

# 3. Si aún hay NaN (grupo sin datos suficientes), usar promedio solo por producto
promedio_producto = df.groupby('id_producto')['precio_limpio'].transform('mean')
df['precio_limpio'] = df['precio_limpio'].fillna(promedio_producto)

In [None]:
Antes de hacer el catalogo vamos a ver cuantas ciudades tenemos

In [None]:
#Ahora vamos a crear nuestro catalogo donde cada producto va a estar desglozado en su ciudad y por la tienda

import os
import pandas as pd
import numpy as np

# ============================================
# 1. DEFINIR RUTAS (AJUSTA SEGÚN TU ESTRUCTURA)
# ============================================
# Ruta base del proyecto (sube 1 nivel desde notebooks/)
base_path = os.path.dirname(os.getcwd())  # Sube a PCD2026-EAR-FORK

# Rutas completas
catalogos_path = os.path.join(base_path, 'Catalogos')
notebooks_path = os.path.join(base_path, 'notebooks')
datas_path = os.path.join(base_path, 'Datas')

# Crear carpeta Catalogos si no existe
os.makedirs(catalogos_path, exist_ok=True)

# ============================================
# 2. CARGAR DATOS (si no están ya cargados)
# ============================================
# Si necesitas cargar datos limpios desde Datas/
# df = pd.read_csv(os.path.join(datas_path, 'Data_nombre_normalizado.csv'))

# Asumo que ya tienes df cargado con:
# - precios limpios en 'precio_limpio'
# - ciudades normalizadas
# - productos y tiendas normalizados

# ============================================
# 3. CREAR CATÁLOGO COMPLETO DESGLOSADO
# ============================================
print("Creando catálogo desglosado...")

# Primero, asegurémonos de que tenemos todas las combinaciones posibles
# Obtener listas únicas de productos, ciudades y tiendas
productos_unicos = df[['id_producto', 'nombre_producto']].drop_duplicates()
ciudades_unicas = df['ciudad'].dropna().unique()
tiendas_unicas = df[['id_tienda', 'nombre_tienda', 'categoria_tienda']].drop_duplicates()

# Crear un DataFrame con todas las combinaciones posibles
combinaciones = []

for _, prod in productos_unicos.iterrows():
    for ciudad in ciudades_unicas:
        tiendas_ciudad = df[(df['ciudad'] == ciudad) & (df['id_producto'] == prod['id_producto'])]['id_tienda'].unique()
        
        for _, tienda in tiendas_unicas.iterrows():
            # Verificar si esta combinación tiene datos
            tiene_datos = df[
                (df['id_producto'] == prod['id_producto']) &
                (df['ciudad'] == ciudad) &
                (df['id_tienda'] == tienda['id_tienda'])
            ]
            
            combinaciones.append({
                'id_producto': prod['id_producto'],
                'nombre_producto': prod['nombre_producto'],
                'ciudad': ciudad,
                'id_tienda': tienda['id_tienda'],
                'nombre_tienda': tienda['nombre_tienda'],
                'categoria_tienda': tienda['categoria_tienda'],
                'tiene_datos': len(tiene_datos) > 0
            })

combinaciones_df = pd.DataFrame(combinaciones)

# ============================================
# 4. CALCULAR PRECIOS PARA CADA COMBINACIÓN
# ============================================
# Agrupar datos por producto-ciudad-tienda
precios_agrupados = df.groupby(['id_producto', 'ciudad', 'id_tienda']).agg({
    'precio_limpio': ['mean', 'median', 'std', 'min', 'max', 'count'],
    'nombre_producto': 'first',
    'nombre_tienda': 'first',
    'categoria_tienda': 'first'
}).round(2)

# Aplanar columnas
precios_agrupados.columns = ['_'.join(col).strip() if col[1] else col[0] for col in precios_agrupados.columns.values]
precios_agrupados = precios_agrupados.reset_index()

# Renombrar
precios_agrupados = precios_agrupados.rename(columns={
    'precio_limpio_mean': 'precio_promedio',
    'precio_limpio_median': 'precio_mediano',
    'precio_limpio_std': 'desviacion_estandar',
    'precio_limpio_min': 'precio_minimo',
    'precio_limpio_max': 'precio_maximo',
    'precio_limpio_count': 'numero_registros',
    'nombre_producto_first': 'nombre_producto',
    'nombre_tienda_first': 'nombre_tienda',
    'categoria_tienda_first': 'categoria_tienda'
})

# ============================================
# 5. COMBINAR CON TODAS LAS COMBINACIONES
# ============================================
# Hacer merge para tener todas las combinaciones, incluso sin datos
catalogo_completo = pd.merge(
    combinaciones_df,
    precios_agrupados,
    on=['id_producto', 'ciudad', 'id_tienda', 'nombre_producto', 'nombre_tienda', 'categoria_tienda'],
    how='left'
)

# Para combinaciones sin datos, calcular precios de referencia
# Precio promedio nacional del producto
precio_nacional_producto = df.groupby('id_producto')['precio_limpio'].median().reset_index()
precio_nacional_producto = precio_nacional_producto.rename(columns={'precio_limpio': 'precio_nacional_referencia'})

# Precio promedio por ciudad del producto
precio_ciudad_producto = df.groupby(['id_producto', 'ciudad'])['precio_limpio'].median().reset_index()
precio_ciudad_producto = precio_ciudad_producto.rename(columns={'precio_limpio': 'precio_ciudad_referencia'})

# Precio promedio por categoría de tienda
precio_categoria_producto = df.groupby(['id_producto', 'categoria_tienda'])['precio_limpio'].median().reset_index()
precio_categoria_producto = precio_categoria_producto.rename(columns={'precio_limpio': 'precio_categoria_referencia'})

# Combinar todas las referencias
catalogo_completo = pd.merge(catalogo_completo, precio_nacional_producto, on='id_producto', how='left')
catalogo_completo = pd.merge(catalogo_completo, precio_ciudad_producto, on=['id_producto', 'ciudad'], how='left')
catalogo_completo = pd.merge(catalogo_completo, precio_categoria_producto, on=['id_producto', 'categoria_tienda'], how='left')

# Crear columna de precio sugerido (prioridad: datos reales > ciudad > categoría > nacional)
def calcular_precio_sugerido(row):
    if not pd.isna(row['precio_promedio']):
        return row['precio_mediano']
    elif not pd.isna(row['precio_ciudad_referencia']):
        return row['precio_ciudad_referencia']
    elif not pd.isna(row['precio_categoria_referencia']):
        return row['precio_categoria_referencia']
    else:
        return row['precio_nacional_referencia']

catalogo_completo['precio_sugerido'] = catalogo_completo.apply(calcular_precio_sugerido, axis=1)

# Clasificar el tipo de precio
def clasificar_tipo_precio(row):
    if not pd.isna(row['precio_promedio']):
        return 'Real (con datos)'
    elif not pd.isna(row['precio_ciudad_referencia']):
        return 'Estimado (basado en ciudad)'
    elif not pd.isna(row['precio_categoria_referencia']):
        return 'Estimado (basado en categoría tienda)'
    else:
        return 'Estimado (precio nacional)'

catalogo_completo['tipo_precio'] = catalogo_completo.apply(clasificar_tipo_precio, axis=1)

# ============================================
# 6. ORDENAR Y FORMATEAR
# ============================================
# Ordenar por producto, ciudad, tienda
catalogo_completo = catalogo_completo.sort_values(['nombre_producto', 'ciudad', 'nombre_tienda'])

# Seleccionar y ordenar columnas finales
columnas_finales = [
    'id_producto',
    'nombre_producto',
    'ciudad',
    'id_tienda',
    'nombre_tienda',
    'categoria_tienda',
    'tiene_datos',
    'tipo_precio',
    'precio_sugerido',
    'precio_promedio',
    'precio_mediano',
    'precio_minimo',
    'precio_maximo',
    'desviacion_estandar',
    'numero_registros',
    'precio_ciudad_referencia',
    'precio_categoria_referencia',
    'precio_nacional_referencia'
]

catalogo_completo = catalogo_completo[columnas_finales]

# ============================================
# 7. EXPORTAR A CATALOGOS/
# ============================================
# Ruta completa del archivo
ruta_catalogo = os.path.join(catalogos_path, 'catalogo_precios.csv')

# Exportar
catalogo_completo.to_csv(ruta_catalogo, index=False, encoding='utf-8-sig')

# ============================================
# 8. CREAR VERSIÓN RESUMEN (OPCIONAL)
# ============================================
# Resumen por producto-ciudad
resumen_ciudad = df.groupby(['id_producto', 'nombre_producto', 'ciudad']).agg({
    'precio_limpio': ['mean', 'median', 'min', 'max', 'std'],
    'id_tienda': 'nunique'
}).round(2)

resumen_ciudad.columns = ['_'.join(col).strip() for col in resumen_ciudad.columns.values]
resumen_ciudad = resumen_ciudad.reset_index()
resumen_ciudad = resumen_ciudad.rename(columns={
    'precio_limpio_mean': 'precio_promedio_ciudad',
    'precio_limpio_median': 'precio_mediano_ciudad',
    'precio_limpio_min': 'precio_minimo_ciudad',
    'precio_limpio_max': 'precio_maximo_ciudad',
    'precio_limpio_std': 'desviacion_ciudad',
    'id_tienda_nunique': 'tiendas_disponibles'
})

ruta_resumen = os.path.join(catalogos_path, 'resumen_precios_por_ciudad.csv')
resumen_ciudad.to_csv(ruta_resumen, index=False, encoding='utf-8-sig')

# ============================================
# 9. ESTADÍSTICAS FINALES
# ============================================
print("\n" + "="*50)
print("EXPORTACIÓN COMPLETADA")
print("="*50)
print(f"Catálogo principal guardado en: {ruta_catalogo}")
print(f"Resumen por ciudad guardado en: {ruta_resumen}")
print("\nESTADÍSTICAS DEL CATÁLOGO:")
print(f"- Total de productos: {len(productos_unicos)}")
print(f"- Total de ciudades: {len(ciudades_unicas)}")
print(f"- Total de tiendas: {len(tiendas_unicas)}")
print(f"- Combinaciones totales: {len(catalogo_completo)}")
print(f"- Combinaciones con datos reales: {catalogo_completo['tiene_datos'].sum()}")
print(f"- Combinaciones estimadas: {len(catalogo_completo) - catalogo_completo['tiene_datos'].sum()}")
print("="*50)

# Mostrar primeras filas del catálogo
print("\nPRIMERAS 5 FILAS DEL CATÁLOGO:")
print(catalogo_completo.head())