In [1]:
#%pip install seaborn


In [2]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from dateutil import parser

In [3]:
df = pd.read_csv("../Datas/Data_ID_normalizado.csv", encoding="utf-8")
df.head()

Unnamed: 0,id_transaccion,id_producto,nombre_producto,precio,id_tienda,nombre_tienda,categoria_tienda,ciudad,fecha
0,1,63,Salsa Bufalo,23.1,6,City Market,Premium,CANCUN,2025-10-27
1,2,32,,9.49,5,Chedraui,Autoservicio,PUEBLA,2025-12-27
2,3,77,Cereal Choco Krispis,53.36,2,Sam's Club,Mayoreo,PUEBLA,2025-11-09
3,4,45,Mix de Nueces Member's Mark,88.14,7,La Comer,Premium,CANCUN,2025-10-27
4,5,42,Yoghurt Griego Yoplait,28.32,1,Walmart,Autoservicio,GDL,2025-09-03


Lo primero que debemos normalizar son las fechas, ya que los precios pueden ser estacionarios y eso haria que los precios varien durante el tiempo

In [4]:

df['fecha'] = df['fecha'].apply(lambda x: parser.parse(x, fuzzy=True) if pd.notna(x) else pd.NaT)

mask = df['fecha'].isna()

# luego dateutil SOLO para las fallidas
df.loc[mask, 'fecha'] = (
    df.loc[mask, 'fecha']
    .apply(lambda x: parser.parse(x, fuzzy=True) if pd.notna(x) else pd.NaT)
)

df[df['fecha'].isna()].head(5)

Unnamed: 0,id_transaccion,id_producto,nombre_producto,precio,id_tienda,nombre_tienda,categoria_tienda,ciudad,fecha


Ahora hacemos una inspeccion rapida con ```.describe() e .info()``` para ver el estado de nuestro data set

In [5]:
print (df.describe(), df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1030000 entries, 0 to 1029999
Data columns (total 9 columns):
 #   Column            Non-Null Count    Dtype         
---  ------            --------------    -----         
 0   id_transaccion    1030000 non-null  int64         
 1   id_producto       1030000 non-null  int64         
 2   nombre_producto   1013293 non-null  object        
 3   precio            1013461 non-null  object        
 4   id_tienda         1030000 non-null  int64         
 5   nombre_tienda     1030000 non-null  object        
 6   categoria_tienda  1030000 non-null  object        
 7   ciudad            1013246 non-null  object        
 8   fecha             1030000 non-null  datetime64[ns]
dtypes: datetime64[ns](1), int64(3), object(5)
memory usage: 70.7+ MB
       id_transaccion   id_producto     id_tienda  \
count    1.030000e+06  1.030000e+06  1.030000e+06   
mean     5.150005e+05  5.050971e+01  5.503348e+00   
min      1.000000e+00  1.000000e+00  1.0000

Esto nos dice bastantes cosas, la primera de ellas es que tanto los productos, tiendas y precios tienen datos vacios, por lo que hay que normalizarlos primero, para ello vamos a hacer un merge en base al catalogo que ya tenemos anteriormente

In [6]:
#Primero cargamos nuestros catalogos
catalogo_producto = pd.read_csv("../Catalogos/Catalogo_productos.csv", encoding="utf-8")
catalogo_tienda = pd.read_csv("../Catalogos/Catalogo_tiendas.csv", encoding="utf-8")

In [7]:
#Ahora les vamos a hacer un mapeo sobre los ID para identificar cuales debemos corregir
mapeo_producto = catalogo_producto.set_index('id_producto')['producto'].to_dict()
mapeo_tiendas = catalogo_tienda.set_index('id_tienda')['tienda'].to_dict()

In [8]:
#Ahora lo que vamos a hacer es que nuestros ID ya estan normalizados,
#pero puede que los productos no, asi que vamos a eliminar toda la columna de productos 
#y tienda y vamos a hacer un merge con nuestros catalogos, ya que los ID ya estan corregidos
df.drop(columns=['nombre_producto', 'nombre_tienda'], inplace=True, errors='ignore')
df.head()

Unnamed: 0,id_transaccion,id_producto,precio,id_tienda,categoria_tienda,ciudad,fecha
0,1,63,23.1,6,Premium,CANCUN,2025-10-27
1,2,32,9.49,5,Autoservicio,PUEBLA,2025-12-27
2,3,77,53.36,2,Mayoreo,PUEBLA,2025-11-09
3,4,45,88.14,7,Premium,CANCUN,2025-10-27
4,5,42,28.32,1,Autoservicio,GDL,2025-09-03


In [9]:
#Eliminadas las columnas ahora hacemos un merge
# Mege de productos
df = pd.merge(df, 
              catalogo_producto[['id_producto', 'producto']], 
              on='id_producto', 
              how='left').rename(columns={'producto': 'nombre_producto'})

# Merge de Tiendas
df = pd.merge(df, 
              catalogo_tienda[['id_tienda', 'tienda']], 
              on='id_tienda', 
              how='left').rename(columns={'tienda': 'nombre_tienda'})

df.head()

Unnamed: 0,id_transaccion,id_producto,precio,id_tienda,categoria_tienda,ciudad,fecha,nombre_producto,nombre_tienda
0,1,63,23.1,6,Premium,CANCUN,2025-10-27,Salsa Bufalo,City Market
1,2,32,9.49,5,Autoservicio,PUEBLA,2025-12-27,Agua Epura 1L,Chedraui
2,3,77,53.36,2,Mayoreo,PUEBLA,2025-11-09,Cereal Choco Krispis,Sam's Club
3,4,45,88.14,7,Premium,CANCUN,2025-10-27,Mix de Nueces Member's Mark,La Comer
4,5,42,28.32,1,Autoservicio,GDL,2025-09-03,Yoghurt Griego Yoplait,Walmart


In [10]:
#Para que queden en el orden correcto reorganizamos las columas
orden_ideal = [
    'id_transaccion', 
    'id_producto', 
    'nombre_producto',  
    'precio', 
    'id_tienda', 
    'nombre_tienda',     
    'categoria_tienda', 
    'ciudad', 
    'fecha'
]

# Aplicas el orden
df = df[orden_ideal]

print (df.info())
df.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1030000 entries, 0 to 1029999
Data columns (total 9 columns):
 #   Column            Non-Null Count    Dtype         
---  ------            --------------    -----         
 0   id_transaccion    1030000 non-null  int64         
 1   id_producto       1030000 non-null  int64         
 2   nombre_producto   1030000 non-null  object        
 3   precio            1013461 non-null  object        
 4   id_tienda         1030000 non-null  int64         
 5   nombre_tienda     1030000 non-null  object        
 6   categoria_tienda  1030000 non-null  object        
 7   ciudad            1013246 non-null  object        
 8   fecha             1030000 non-null  datetime64[ns]
dtypes: datetime64[ns](1), int64(3), object(5)
memory usage: 70.7+ MB
None


Unnamed: 0,id_transaccion,id_producto,nombre_producto,precio,id_tienda,nombre_tienda,categoria_tienda,ciudad,fecha
0,1,63,Salsa Bufalo,23.1,6,City Market,Premium,CANCUN,2025-10-27
1,2,32,Agua Epura 1L,9.49,5,Chedraui,Autoservicio,PUEBLA,2025-12-27
2,3,77,Cereal Choco Krispis,53.36,2,Sam's Club,Mayoreo,PUEBLA,2025-11-09
3,4,45,Mix de Nueces Member's Mark,88.14,7,La Comer,Premium,CANCUN,2025-10-27
4,5,42,Yoghurt Griego Yoplait,28.32,1,Walmart,Autoservicio,GDL,2025-09-03


Ya con esto solo queda por normalizar la ciudad y los precio. 

Para ello primero debemos de saber que los precios estan relacionados con el producto, el mes, la tienda y la ciudad.

In [None]:
# Exporta el DataFrame con nombres y fechas normalizados
output_path = "../Datas/Data_nombre_normalizado.csv"
df.to_csv(output_path, index=False, encoding="utf-8")
print(f"Exportado a: {output_path} ({df.shape[0]} filas, {df.shape[1]} columnas)")