In [1]:
import pandas as pd

In [9]:
df = pd.read_csv("ciudades_normalizados.csv")
df

Unnamed: 0,id_transaccion,id_producto,nombre_producto,id_tienda,nombre_tienda,categoria_tienda,ciudad,fecha,precio_normalizado,ciudad_normalizada
0,1,63,Salsa Bufalo,6,City Market,Premium,CANCUN,2025-10-27,23.10,CANCUN
1,2,32,Agua Epura 1L,5,Chedraui,Autoservicio,PUEBLA,2025-12-27,9.49,PUEBLA
2,3,77,Cereal Choco Krispis,2,Sam's Club,Mayoreo,PUEBLA,2025-11-09,53.36,PUEBLA
3,4,45,Mix de Nueces Member's Mark,7,La Comer,Premium,CANCUN,2025-10-27,88.14,CANCUN
4,5,42,Yoghurt Griego Yoplait,1,Walmart,Autoservicio,GDL,2025-09-03,28.32,GUADALAJARA
...,...,...,...,...,...,...,...,...,...,...
1029995,1029996,90,Tortillas Tía Rosa,7,La Comer,Premium,GDL,2025-09-30,25.64,GUADALAJARA
1029996,1029997,100,Detergente Ariel 1kg,3,Bodega Aurrera,Descuento,GDL,2025-10-28,179.65,GUADALAJARA
1029997,1029998,42,Yoghurt Griego Yoplait,9,Tienda 3B,Descuento,GUADALAJARA,2025-03-30,32.12,GUADALAJARA
1029998,1029999,26,Crema Alpura,6,City Market,Premium,GDL,2025-10-30,39.91,GUADALAJARA


In [11]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1030000 entries, 0 to 1029999
Data columns (total 10 columns):
 #   Column              Non-Null Count    Dtype  
---  ------              --------------    -----  
 0   id_transaccion      1030000 non-null  int64  
 1   id_producto         1030000 non-null  int64  
 2   nombre_producto     1030000 non-null  object 
 3   id_tienda           1030000 non-null  int64  
 4   nombre_tienda       1030000 non-null  object 
 5   categoria_tienda    1030000 non-null  object 
 6   ciudad              1013246 non-null  object 
 7   fecha               1030000 non-null  object 
 8   precio_normalizado  1013461 non-null  float64
 9   ciudad_normalizada  1013246 non-null  object 
dtypes: float64(1), int64(3), object(6)
memory usage: 78.6+ MB


## Con lo anterior ya confirmamos que los precios siguen sin normalizar, procedemos a normalizarlos

### Vamos a revisar precios

En este paso eliminamos la basura visual ($ , espacios) y transformamos a float (decimal) primero, ya que es el paso intermedio necesario para detectar nulos.

In [16]:
# Filtramos el producto usando la columna 'nombre_producto'
producto_objetivo = "Pepsi 600ml"

df_pepsi = df[df['nombre_producto'].str.contains(producto_objetivo, case=False, na=False)].copy()

print(f"Total de registros encontrados para '{producto_objetivo}': {len(df_pepsi)}")

Total de registros encontrados para 'Pepsi 600ml': 10143


In [17]:
# Agrupamos por ciudad normalizada y nombre de tienda
# Calculamos el promedio, el precio más bajo y el más alto
resumen_precios = df_pepsi.groupby(['ciudad_normalizada', 'nombre_tienda'])['precio_normalizado'].agg(['mean', 'min', 'max'])

# Renombramos las columnas para que el reporte sea profesional
resumen_precios.columns = ['Precio Promedio', 'Precio Mínimo', 'Precio Máximo']

# Ordenamos los resultados por ciudad para facilitar la comparación
resumen_precios = resumen_precios.sort_index()

# Mostramos el resultado final
resumen_precios

Unnamed: 0_level_0,Unnamed: 1_level_0,Precio Promedio,Precio Mínimo,Precio Máximo
ciudad_normalizada,nombre_tienda,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
CANCUN,Bodega Aurrera,15.399492,14.01,16.99
CANCUN,Chedraui,15.419307,14.01,16.98
CANCUN,City Market,15.462523,14.0,16.94
CANCUN,Costco,15.56764,14.05,16.98
CANCUN,La Comer,15.416804,14.02,17.0
CANCUN,Oxxo,15.514369,14.01,16.99
CANCUN,Sam's Club,15.40798,14.02,16.99
CANCUN,Soriana,15.470825,14.02,16.99
CANCUN,Tienda 3B,15.468705,14.03,17.0
CANCUN,Walmart,15.531832,14.01,16.98


creamos un catalogo

In [18]:
# Agrupamos por las 3 columnas principales
# Usamos 'precio_normalizado' que ya limpiamos anteriormente
reporte_global = df.groupby(['nombre_producto', 'ciudad_normalizada', 'nombre_tienda'])['precio_normalizado'].agg(['mean', 'min', 'max'])

# Renombramos las columnas para que el CSV sea fácil de entender para otros
reporte_global.columns = ['precio_promedio', 'precio_minimo', 'precio_maximo']

# Ordenamos alfabéticamente por producto y ciudad
reporte_global = reporte_global.sort_index()

# Mostramos una vista previa de los primeros 10 registros
reporte_global.head(10)

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,precio_promedio,precio_minimo,precio_maximo
nombre_producto,ciudad_normalizada,nombre_tienda,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Aceite Capullo,CANCUN,Bodega Aurrera,47.374098,42.08,51.85
Aceite Capullo,CANCUN,Chedraui,47.032547,42.01,51.99
Aceite Capullo,CANCUN,City Market,46.79005,42.1,51.98
Aceite Capullo,CANCUN,Costco,47.28101,42.04,51.89
Aceite Capullo,CANCUN,La Comer,47.263541,42.09,51.98
Aceite Capullo,CANCUN,Oxxo,46.776276,42.03,51.95
Aceite Capullo,CANCUN,Sam's Club,47.153832,42.01,51.98
Aceite Capullo,CANCUN,Soriana,46.943147,42.03,51.97
Aceite Capullo,CANCUN,Tienda 3B,46.929313,42.07,51.94
Aceite Capullo,CANCUN,Walmart,46.950488,42.12,51.94


In [19]:
# Convertimos el índice en columnas normales y guardamos
reporte_global.reset_index().to_csv('Reporte_Precios_Por_Producto.csv', index=False, encoding='utf-8-sig')

print("¡El reporte global ha sido generado y guardado como 'Reporte_Precios_Por_Producto.csv'!")

¡El reporte global ha sido generado y guardado como 'Reporte_Precios_Por_Producto.csv'!


-----
## Preparación de la Columna de Tiempo

Convertiremos la columna fecha (que está en formato YYYY-MM-DD) a un objeto de tiempo y extraeremos el nombre del mes.

In [20]:
# 1. Convertir a formato datetime
df['fecha'] = pd.to_datetime(df['fecha'])

# 2. Extraer el número o nombre del mes
# Usamos el número (1-12) para que al ordenar el CSV los meses salgan en orden cronológico
df['mes'] = df['fecha'].dt.month 

# Opcional: Crear una columna con el nombre del mes para que sea más legible
# df['nombre_mes'] = df['fecha'].dt.month_name()

## Cálculo del Promedio General por Producto
Antes de ver los meses, necesitamos saber cuánto cuesta cada producto en promedio en todo el año (sin importar ciudad o tienda).

In [21]:
# Calculamos el promedio anual de cada producto
promedio_anual_prod = df.groupby('nombre_producto')['precio_normalizado'].mean().rename('promedio_general_producto')

# Unimos este promedio al DataFrame original para tenerlo como referencia en cada fila
df = df.merge(promedio_anual_prod, on='nombre_producto')

## Agrupación Final (Producto, Ciudad, Tienda y Mes)
Ahora creamos la tabla que te interesa, cruzando todas las dimensiones.

In [22]:
# Agrupamos por todas las capas solicitadas
reporte_mensual = df.groupby(['nombre_producto', 'promedio_general_producto', 'ciudad_normalizada', 'nombre_tienda', 'mes'])['precio_normalizado'].mean().reset_index()

# Renombramos la columna del resultado del groupby
reporte_mensual = reporte_mensual.rename(columns={'precio_normalizado': 'promedio_mensual_tienda'})

# Ordenamos para que sea fácil de leer
reporte_mensual = reporte_mensual.sort_values(by=['nombre_producto', 'mes', 'ciudad_normalizada'])

reporte_mensual.head(10)

Unnamed: 0,nombre_producto,promedio_general_producto,ciudad_normalizada,nombre_tienda,mes,promedio_mensual_tienda
0,Aceite Capullo,46.958187,CANCUN,Bodega Aurrera,1,46.870526
12,Aceite Capullo,46.958187,CANCUN,Chedraui,1,46.936111
24,Aceite Capullo,46.958187,CANCUN,City Market,1,47.014545
36,Aceite Capullo,46.958187,CANCUN,Costco,1,47.264211
48,Aceite Capullo,46.958187,CANCUN,La Comer,1,46.33
60,Aceite Capullo,46.958187,CANCUN,Oxxo,1,46.4525
72,Aceite Capullo,46.958187,CANCUN,Sam's Club,1,48.308
84,Aceite Capullo,46.958187,CANCUN,Soriana,1,47.814
96,Aceite Capullo,46.958187,CANCUN,Tienda 3B,1,48.047647
108,Aceite Capullo,46.958187,CANCUN,Walmart,1,47.335217


In [23]:
# Guardar el reporte con codificación para Excel
reporte_mensual.to_csv('Reporte_Mensual_Precios_2025.csv', index=False, encoding='utf-8-sig')

print("¡Reporte temporal generado con éxito!")

¡Reporte temporal generado con éxito!


## Diagnóstico de Datos Faltantes (Nulos)
Identificar huecos en columnas clave como precio_normalizado o ciudad_normalizada es vital para asegurar que los promedios mensuales que calculamos sean precisos.

In [24]:
# Sumamos todos los valores verdaderos (True) de la función isna()
nulos_por_columna = df.isnull().sum()

# Lo mostramos como un porcentaje para entender la gravedad
porcentaje_nulos = (df.isnull().sum() / len(df)) * 100

# Combinamos ambos en una tablita
tabla_nulos = pd.DataFrame({'Total Nulos': nulos_por_columna, 'Porcentaje (%)': porcentaje_nulos})
print(tabla_nulos)

                           Total Nulos  Porcentaje (%)
id_transaccion                       0        0.000000
id_producto                          0        0.000000
nombre_producto                      0        0.000000
id_tienda                            0        0.000000
nombre_tienda                        0        0.000000
categoria_tienda                     0        0.000000
ciudad                           16754        1.626602
fecha                                0        0.000000
precio_normalizado               16539        1.605728
ciudad_normalizada               16754        1.626602
mes                                  0        0.000000
promedio_general_producto            0        0.000000


In [25]:
# Mostramos solo las filas donde el precio es nulo
df_vacios = df[df['precio_normalizado'].isnull()]

print("Muestra de filas con precios nulos:")
df_vacios[['nombre_producto', 'nombre_tienda', 'fecha']].head(10)

Muestra de filas con precios nulos:


Unnamed: 0,nombre_producto,nombre_tienda,fecha
80,Ketchup Heinz,Chedraui,2025-01-23
294,Sardinas La Sirena,Tienda 3B,2025-09-03
299,Detergente Ariel 1kg,Costco,2025-06-24
309,Chocolate Milky Way,Walmart,2025-04-03
320,Choco Milk,Tienda 3B,2025-10-11
367,Vino Tinto Casillero del Diablo,Sam's Club,2025-09-01
520,Mix de Nueces Member's Mark,Sam's Club,2025-08-09
550,Cacahuates Hot Nuts,Soriana,2025-11-16
618,Vino Tinto Casillero del Diablo,City Market,2025-08-22
622,Queso Oaxaca Lala,Costco,2025-06-20


## Relleno Inteligente por Mes
Utilizaremos la función transform de Pandas. Esta función calcula el promedio del grupo (Producto/Mes) y lo "reparte" de vuelta a las filas originales, llenando solo donde falta el dato.

In [26]:
# 1. Asegúrate de tener la columna 'mes' creada (como hicimos en el paso 13)
# 2. Aplicamos la imputación agrupada
df['precio_normalizado'] = df['precio_normalizado'].fillna(
    df.groupby(['nombre_producto', 'mes'])['precio_normalizado'].transform('mean')
)

# 3. Verificamos si aún quedan nulos
# (Podrían quedar si un producto NO tuvo ningún registro de precio en todo un mes)
print(f"Nulos después de la imputación estacional: {df['precio_normalizado'].isnull().sum()}")

Nulos después de la imputación estacional: 0


In [27]:
# Agrupamos con los datos ya imputados
reporte_final_estacional = df.groupby(
    ['nombre_producto', 'ciudad_normalizada', 'nombre_tienda', 'mes']
)['precio_normalizado'].agg(['mean', 'min', 'max']).reset_index()

# Guardamos el resultado final definitivo
reporte_final_estacional.to_csv('Analisis_Precios_2025_Final.csv', index=False, encoding='utf-8-sig')

print("¡Reporte final guardado! Los datos faltantes fueron corregidos siguiendo la tendencia mensual.")

¡Reporte final guardado! Los datos faltantes fueron corregidos siguiendo la tendencia mensual.


--------

Rellenamos los preios faltantes con promedios mensuales agruapos por ciudad mes y tienda

In [33]:
import pandas as pd

# 1. Cargar el archivo original que tiene los nulos
df = pd.read_csv('ciudades_normalizados.csv')

# Asegurar que las columnas necesarias existan
df['fecha'] = pd.to_datetime(df['fecha'])
df['mes'] = df['fecha'].dt.month

# --- PROCESO DE RELLENO JERÁRQUICO ---
# Aplicamos el promedio de lo más específico a lo más general

# Capa 1: Misma Ciudad, Misma Tienda, Mismo Producto, Mismo Mes
df['precio_normalizado'] = df['precio_normalizado'].fillna(
    df.groupby(['nombre_producto', 'ciudad_normalizada', 'nombre_tienda', 'mes'])['precio_normalizado'].transform('mean')
)

# Capa 2: Misma Ciudad, Mismo Producto, Mismo Mes (Por si la tienda no tiene datos ese mes)
df['precio_normalizado'] = df['precio_normalizado'].fillna(
    df.groupby(['nombre_producto', 'ciudad_normalizada', 'mes'])['precio_normalizado'].transform('mean')
)

# Capa 3: Mismo Producto, Mismo Mes (Nacional - Por si la ciudad no tiene datos ese mes)
df['precio_normalizado'] = df['precio_normalizado'].fillna(
    df.groupby(['nombre_producto', 'mes'])['precio_normalizado'].transform('mean')
)

# Capa 4: Promedio Anual del Producto (Último recurso)
df['precio_normalizado'] = df['precio_normalizado'].fillna(
    df.groupby('nombre_producto')['precio_normalizado'].transform('mean')
)

# 2. Guardar el archivo original ya sin nulos
# Lo guardamos con un nombre nuevo para que compares, o puedes usar el mismo para sobrescribir
df.to_csv('ciudades_normalizados_rellenado.csv', index=False, encoding='utf-8-sig')

print("¡Proceso completado!")
print(f"Nulos restantes: {df['precio_normalizado'].isnull().sum()}")

¡Proceso completado!
Nulos restantes: 0


In [32]:
reporte_maestro = df.groupby(
    ['nombre_producto', 'ciudad_normalizada', 'nombre_tienda', 'mes']
)['precio_normalizado'].agg(['mean', 'min', 'max', 'count']).reset_index()

reporte_maestro.to_csv('Reporte_Final_2025.csv', index=False, encoding='utf-8-sig')
print("Archivo guardado correctamente.")

Archivo guardado correctamente.


In [34]:
# Cargamos el archivo que acabamos de guardar
df_limpio = pd.read_csv('ciudades_normalizados_rellenado.csv')

# Sumamos los nulos
conteo_nulos = df_limpio.isnull().sum()

print("--- Conteo de Nulos por Columna ---")
print(conteo_nulos)

--- Conteo de Nulos por Columna ---
id_transaccion            0
id_producto               0
nombre_producto           0
id_tienda                 0
nombre_tienda             0
categoria_tienda          0
ciudad                16754
fecha                     0
precio_normalizado        0
ciudad_normalizada    16754
mes                       0
dtype: int64
