In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from dateutil import parser

In [2]:
df = pd.read_csv("../Datas/2. Data_nombre_normalizado.csv", encoding="utf-8")
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1030000 entries, 0 to 1029999
Data columns (total 9 columns):
 #   Column            Non-Null Count    Dtype 
---  ------            --------------    ----- 
 0   id_transaccion    1030000 non-null  int64 
 1   id_producto       1030000 non-null  int64 
 2   nombre_producto   1030000 non-null  object
 3   precio            1013461 non-null  object
 4   id_tienda         1030000 non-null  int64 
 5   nombre_tienda     1030000 non-null  object
 6   categoria_tienda  1030000 non-null  object
 7   ciudad            1013246 non-null  object
 8   fecha             1030000 non-null  object
dtypes: int64(3), object(6)
memory usage: 70.7+ MB


In [3]:
#funcion para nomralizar precios
def normalizar_precios(precio):
    if isinstance(precio, str):
        precio = precio.strip()  # Eliminar espacios al inicio y final
        precio = precio.replace("$", "")  # Eliminar el símbolo de peso
        precio = precio.replace("pesos", "")  # Eliminar la palabra "pesos"
        precio = precio.replace(",", ".")  # Eliminar comas por puntos si es necesario
        try:
            return float(precio)
        except ValueError:
            return np.nan  # Retornar NaN si no se puede convertir a float
    return np.nan  # Retornar NaN si no es una cadena

df['precio_normalizado'] = df['precio'].apply(normalizar_precios)

In [4]:
#Guardar el dataframe con la nueva columna elminando la columna precio original
df = df.drop(columns=['precio'])
df.to_csv("../Datas/3. Data_precios_normalizado2.csv", index=False, encoding="utf-8")

In [5]:
#importar el nuevo csv pero con la columna de precios normalizados
df = pd.read_csv("../Datas/Data_precios_normalizado2.csv", encoding="utf-8", dtype={"precio_normalizado": float})

In [6]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1030000 entries, 0 to 1029999
Data columns (total 9 columns):
 #   Column              Non-Null Count    Dtype  
---  ------              --------------    -----  
 0   id_transaccion      1030000 non-null  int64  
 1   id_producto         1030000 non-null  int64  
 2   nombre_producto     1030000 non-null  object 
 3   id_tienda           1030000 non-null  int64  
 4   nombre_tienda       1030000 non-null  object 
 5   categoria_tienda    1030000 non-null  object 
 6   ciudad              1013246 non-null  object 
 7   fecha               1030000 non-null  object 
 8   precio_normalizado  1013461 non-null  float64
dtypes: float64(1), int64(3), object(5)
memory usage: 70.7+ MB


## Normalizar nombres de ciudades

In [8]:
df = pd.read_csv("../Datas/3. Data_precios_normalizado2.csv", encoding="utf-8")
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1030000 entries, 0 to 1029999
Data columns (total 9 columns):
 #   Column              Non-Null Count    Dtype  
---  ------              --------------    -----  
 0   id_transaccion      1030000 non-null  int64  
 1   id_producto         1030000 non-null  int64  
 2   nombre_producto     1030000 non-null  object 
 3   id_tienda           1030000 non-null  int64  
 4   nombre_tienda       1030000 non-null  object 
 5   categoria_tienda    1030000 non-null  object 
 6   ciudad              1013246 non-null  object 
 7   fecha               1030000 non-null  object 
 8   precio_normalizado  1013461 non-null  float64
dtypes: float64(1), int64(3), object(5)
memory usage: 70.7+ MB


In [9]:
#Imprimir campos unicos de la columna ciudad
df['ciudad'].unique()

array(['CANCUN', 'PUEBLA', 'GDL', 'CDMX', 'MTY', nan, 'CD MX', 'cdmx',
       'cancun', 'CACUN', '  GDL  ', 'PUUEBLA', 'Puebla', '  CDMX  ',
       '  CANCUN  ', 'PUEBjA', 'GL', 'PUE', '  MTY  ', 'gdl', 'MTY ',
       'mty', 'puebla', '  PUEBLA  ', 'GDL ', 'MY', 'Ciudad de Mexico',
       'rUEBLA', 'MTYY', 'GGDL', 'UEBLA', 'MMTY', 'GDLL', 'Q.Roo',
       'Monterrey', 'CDMMX', 'PUELA', 'Cancun', 'wDL', 'PUEBvA', 'Gdl',
       'Mty', 'QRoo', 'PUEEBLA', 'CDzX', 'jDL', 'CCDMX', 'MONTERREY',
       'PUEBL', 'PUEBLA ', 'DF', 'CDMXX', 'CDMg', 'CAN0UN', 'GUADALAJARA',
       'MT', 'CDX', 'CAANCUN', 'CoMX', 'Cancún', 'CDwX', 'Cdmx', 'CDDMX',
       'CANoUN', 'CIUDAD MEXICO', 'PUEB3A', 'Mty.', 'GD', 'CANCUNN',
       '7TY', 'MkY', 'PUEBLLA', 'CANCU', 'Pue', 'CANCN', 'PnEBLA', 'C8MX',
       'PUEBuA', 'CANCÚN', 'PPUEBLA', 'PUEB7A', 'PcEBLA', 'CaNCUN', 'M1Y',
       'CCANCUN', 'G8L', 'DL', 'MTTY', 'Guadalajara', 'eDL', 'PEBLA',
       'PUEBBLA', 'aDMX', 'PUEBdA', 'mDMX', '0DL', 'CNCUN', ' GDL', 'G

In [10]:
#Normalizar manualmente espeficiando valores para cada ciudad
def normalizar_ciudad(row):
    ciudad = row['ciudad']

    if ciudad is None:
        return None
    
    if pd.isna(ciudad):
        return None

    ciudad = ciudad.strip().upper()

    # ======================
    # CANCÚN
    # ======================
    if ciudad in [
        'CANCUN', 'CANCUNN', 'CANCU', 'CANCN', 'ANCUN', 'CANUN',
        'CANCuN', 'CANoUN', 'CAN0UN', 'CAN1UN', 'CAN2UN', 'CAN3UN',
        'CAN4UN', 'CAN5UN', 'CAN7UN', 'CAN8UN', 'CAN9UN',
        'CAANCUN', 'CCANCUN', '1ANCUN', '0ANCUN',
        'CANCÚN', 'CANCUN ', ' CANCUN',
        'CiNCUN', 'CyNCUN', 'CsNCUN', 'CwNCUN', 'CxNCUN',
        'CAoCUN', 'CAeCUN', 'CAqCUN', 'CAxCUN', 'CA5CUN','CANPUN','CANCCUN','MANCUN','CINCUN','CACUN',
        'CANCLN','CAQCUN','CBNCUN','CANCDN', 'CNCUN', 'C6NCUN', 'CANCKN', 'CANAUN', 'CANCUUN',
        'CANJUN', 'CANIUN', 'CAOCUN', 'CANC8N', 'CA7CUN', 'CAECUN', 'ZANCUN', 'CYNCUN', 'CASCUN',
        'CGNCUN', 'CANNCUN', 'CSNCUN', 'CANCSN', 'CANCZN', 'CANMUN', 'CA3CUN', 'SANCUN', 'C2NCUN',
        'CANXUN', '3ANCUN', 'CANFUN', 'CAUCUN', 'CANTUN', 'CA9CUN', 'C0NCUN', 'CAPCUN', 'CXNCUN',
        'CANKUN', 'CWNCUN', 'CQNCUN', 'CANCU0', 'OANCUN', 'CAHCUN', 'CAVCUN', 'C8NCUN', 'CVNCUN',
        'CANCUK', 'CANCWN', 'CANCU5', 'CANC7N', 'CANCUX', 'CANRUN', 'CANCU4', 'CANCKN', 'CANAUN',
        'WDMX', 'CANCUUN', 'CANJUN', 'CANIUN', 'CAOCUN', 'CANC8N', 'CANCSN', 'CANCZN', 'CANMUN',
        'CA3CUN', 'SANCUN', 'C2NCUN', 'CANXUN', '3ANCUN', 'CANFUN', 'CAUCUN', 'CANTUN', 'CA9CUN',
        'C0NCUN', 'CAPCUN', 'CXNCUN', 'CANKUN', 'CWNCUN', 'CQNCUN', 'CANCU0', 'OANCUN', 'CAHCUN',
        'CAVCUN', 'C8NCUN', 'CVNCUN', 'CANCUK', 'CANCWN', 'CANCU5', 'CANC7N', 'CANCUX', 'CANRUN',
        'CANCU4', 'CANCBN', 'CANCPN', 'CANGUN', 'CANCNN', 'CANCCN', 'CANCUT', 'CANCUB', 'CANCYUN',
        'CANCUZ', 'CANCQN', 'CANTUN', 'CANCUL', 'CANCXN', 'CANCGN', 'CANCUZ', 'CANCUB', 'CANCUD',
        'CANCUC', 'CANCU7', 'CANCUV', 'CANCUU', 'CANC2N', 'CANC5N', 'CANCFN', 'CANCUS', 'CANCUJ',
        'CANCU9', 'CANCPN', 'CANCEN', 'CANCUM', 'CANCFN', 'CANCON', 'CANCHN', 'CANC0N', 'CARCUN',
        'CABCUN', 'CAICUN', 'CAGCUN', 'CMNCUN', 'CRNCUN', 'CPNCUN', 'CALCUN', 'CAMCUN', 'CJNCUN',
        'CAWCUN', 'CAXCUN', 'CATCUN', 'CASGUN', 'JANCUN', 'LANCUN', 'VANCUN', 'IANCUN', 'QANCUN',
        'UANCUN', 'CANUUN', '7ANCUN', 'KANCUN', '5ANCUN', 'YANCUN', 'WANCUN', 'GANCUN', 'AANCUN',
        'FANCUN', 'DANCUN', 'BANCUN', 'PANCUN', 'CANCUR', 'CANCUV', 'CANYUN', 'CANCUF', 'CANCUP',
        'CANOUN', 'CXNCUN', 'C8NCUN', 'CVNCUN', 'CVNCUN', 'C0NCUN', 'C3NCUN', 'C7NCUN', 'CLNCUN', 
        'CMNCUN', 'CRNCUN', 'CPNCUN', 'C2NCUN', 'CADCUN', 'CANCAN', 'HANCUN', 'C4NCUN', 'CANCJN', 
        'CA2CUN', 'CAJCUN', 'CANBUN', 'CANSUN', 'CANCU8', 'CANZUN', 'CTNCUN', 'CANCTN', 'CDNCUN',
        'CANWUN', 'CANCYN', 'CANCUA', 'CANCUG', 'CANCUW', 'CANCUH', 'CANCU2', 'CAYCUN', 'CAACUN', 
        'CA0CUN', 'CAKCUN'
    ]:
        return 'CANCUN'

    # ======================
    # PUEBLA
    # ======================
    if ciudad in [
        'PUEBLA', 'PUUEBLA', 'PUEEBLA', 'PPUEBLA', 'PUEBBLA',
        'PUEBLLA', 'PUEBL', 'PUEBLAA', 'PUEBL3',
        'PUEB7A', 'PUEB3A', 'PUEB8A', 'PUEB9A',
        'PrEBLA', 'PUjBLA', 'PUEaLA', 'P7EBLA', 'PqEBLA',
        'PnEBLA', 'PcEBLA', 'PoEBLA', 'PgEBLA', 'PfEBLA',
        'PUELA', 'PUBLA', 'PEBLA', 'UEBLA','PUEBA','PUEFA','PUEBJA','PUE','RUEBLA','PUEOLA',
        'PUEBUA','PUE8LA','PUEBYA','PUEBOA','PUEGLA','PHEBLA','PUEBAA','7UEBLA', 'PUEBVA', 'PNEBLA',
        'PCEBLA', 'POEBLA', 'PUEBDA', 'CUEBLA', 'PREBLA', 'PUJBLA', 'PUEALA', 'PQEBLA', 'PUERLA',
        '6UEBLA', 'PUZBLA', 'PGEBLA', 'PUEBAA', 'PUZBLA', '3UEBLA', 'PFEBLA', 'PUEBL9', 'PUOBLA',
        'PUBBLA', 'PUSBLA', 'PUGBLA', 'PUETLA', 'PUEBMA', 'PUEFLA', 'PVEBLA', 'PUE2LA', 'OUEBLA',
        'PUEBHA', 'PUEYLA', 'PXEBLA', 'P5EBLA', 'PUEXLA', 'PUYBLA', 'PUDBLA', 'PUECLA', 'PUEELA',
        'PUEZLA', 'PU0BLA', 'MTC', 'PU6BLA', 'YUEBLA', 'PU9BLA', 'PPEBLA', 'P8EBLA', 'PUEMLA',
        'PUHBLA', 'PUJBLA', 'PUKBLA', 'PU7BLA', 'PU5BLA', 'PUCBLA', 'PURBLA', 'PUSBLA', 'PUTBLA',
        'PUVBLA', 'PUE5LA', 'PUEELA', 'PUQBLA', 'PUYBLA', 'PU3BLA', 'PUXBLA', 'PUENLA', 'PUEZLA',
        'PU0BLA', 'PUXBLA', 'PUVBLA', 'PUEELA', 'PUEJLA', 'PUFBLA', 'PUPBLA', 'PUEMLA', 'PUEDLA',
        'PUKBLA', 'PU8BLA', 'PWEBLA', 'PUXBLA', 'PUEDLA', 'PUXBLA', 'PUENLA', 'PUELLA', 'PUHECLA',
        'PUCBLA', 'PIEBLA', 'PUEB1A', 'PUEBKA', 'PUEBL5', 'PUEBL9', 'PUEBL2', 'PUEBL0', 'PUEBL1',
        'PUEBL6', 'PUEBIA', 'PUEBQA', 'PUEB1A', 'PUEB5A', 'PUEB6A', 'PUEBL1', 'PUEBL2', 'PUEBL5',
        'PUEBL6', 'PUEBL9', 'PUEBL0', 'PUEBLI', 'PUEBLD', 'PUEBLQ', 'PUEBRA', 'PUEBTA', 'PUEBLY',
        'PUEBLS', 'PUEBLO', 'PUEBLM', 'PUEBLR', 'PUEBLW', 'PUEBSA', 'PUEBLH', 'PUEBLC', 'PUEBLN',
        'PUEBNA', 'PUEBZA', 'PTEBLA', 'PSEBLA', 'PKEBLA', 'PEEBLA', 'PQEBLA', 'PJEBLA', 'PZEBLA',
        'HUEBLA', 'FUEBLA', 'TUEBLA', 'SUEBLA', 'JUEBLA', 'KUEBLA', 'AUEBLA', 'WUEBLA', 'ZUEBLA',
        'MUEBLA', 'NUEBLA', 'IUEBLA', '0UEBLA', 'OUEBLA', 'YUEBLA', '8UEBLA', '9UEBLA', '3UEBLA',
        'EUEBLA', '2UEBLA', '5UEBLA', 'BUEBLA', 'PUNBLA', 'PULBLA', 'PUEBLB', 'PUUBLA', 'PUEHLA',
        'PUEBPA', 'PUEBLV', 'P4EBLA', 'PUE1LA', 'PUE4LA', 'PUABLA', 'P9EBLA', 'PUMBLA', 'PUEWLA',
        'PU4BLA', 'PUEB0A', 'PUEBLK', 'PUE9LA', 'PUEILA', 'PUESLA', 'PU1BLA'
    ]:
        return 'PUEBLA'

    # ======================
    # GUADALAJARA / JALISCO
    # ======================
    if ciudad in [
        'GDL', 'GDL ', ' GD L', 'GL', 'DL',
        'GGDL', 'GDLL', 'GDDL', 'G8L', 'G0L', 'G6L',
        'GUADALAJARA', 'Guadalajara', 'GoL', 'wDL',
        'jDL', 'eDL', 'yDL', 'xDL', 'qDL', 'WDL', 'JDL', 'EDL', '0DL', 'GOL', 'GD0', 'GD', 'GD8',
        'G7L', 'YDL', 'G9L', 'GLL', 'GDI', '3DL', 'GDZ', 'GDE', 'GRL', 'GTL', 'GDT', 'GTY', 'GDO',
        'GDY', 'GDM', 'GBL', 'GHL', 'GNL', 'GPL', 'GKL', 'GWL', 'GVL', 'GSL', 'GGL', 'GCL', 'GJL',
        'GEL', 'GQL', 'GML', 'G2L', 'SDL', 'GD2', 'GD7', 'GD1', 'GD3', 'GD4', 'GD5', 'GD6', 'GDS',
        'GDK', 'GDR', 'GDX', 'GDW', 'GDA', 'GDQ', 'GDP', 'GDF', 'GDD', 'GDB', 'GDC', 'GDU', 'GDV',
        'GDN', 'UDL', 'ADL', 'RDL', 'HDL', 'ZDL', 'FDL', 'IDL', 'LDL', 'MDL', 'NDL', 'PDL', 'BDL',
        'VDL', 'DDL', '1DL', '2DL', '4DL', '5DL', '6DL', '8DL', '9DL', 'G1L',
        'G3L', 'G4L', 'G5L', 'GFL', 'GXL', 'QDL', 'XDL', 'TDL', 'GIL', 'GUL', 'GAL', 'GZL', 'KDL'
    ]:
        return 'GUADALAJARA'

    # ======================
    # CIUDAD DE MÉXICO
    # ======================
    if ciudad in [
        'CDMX', 'CD MX', 'CDMXX', 'CDMMX', 'CDDMX',
        'CDX', 'CDlX', 'CDzX', 'CDvX', 'CDwX',
        'CDgX', 'CD4X', 'CDcX', 'CD8X',
        'DF', 'DMX', 'CMX', 'CoMX',
        'CIUDAD DE MEXICO', 'CIUDAD MEXICO','CDM8','CHMX','CDNX','CDQX','CQMX','CDDX','CCDMX','MDMX','C8MX',
        'CDZX', 'CDMG', 'COMX', 'CDWX', 'ADMX', '5DMX', 'CDM', 'CDLX', 'CDRX', 'WDMX', 'CDVX',
        'ODMX', 'MTY.', 'YDMX', 'TDMX', 'SDMX', 'BDMX', 'JDMX', 'CSMX', 'CDM1', 'CDSX', '0DMHX',
        'CDMI', 'CDML', 'CDTX', 'CDMA', 'CDMU', 'CDMS', 'CDMR', 'CDMC', 'CDMO', 'CDMJ', 'CDMD',
        'CDMN', 'CDMY', 'CDMK', 'CDME', 'CDMH', 'CDMV', 'CDMW', 'CDMY', 'CDMZ', 'CD5X', 'CD0X',
        'CD1X', 'CD3X', 'CD6X', 'CD7X', 'CD9X', 'CDM3', 'CDM4', 'CDM5', 'CDAX', 'CDBX', 'CDEX',
        'CDIX', 'CDJX', 'CDKX', 'CDOX', 'CDUX', 'CDXX', 'CDYX', 'CDIX', 'CDHX', 'CDWX', 'CDSX',
        'CHJMX', 'CHMX', 'CJMX', 'CXMX', 'C6MX', 
        'C7MX', 'C1MX', 'C4MX', 'C5MX',
        'CIMX', 'CRMX', 'CMMX', 'CNMX', 'CLMX', 'CBMX', 'CYMX', 'CUMX', 'CTMX', 'CZMX',
        'CGMX', 'CCMX', 'CFMX', 'CEMX', 'CKMX', 'PDMX', 'ZDMX', 'LDMX', 'FDMX', '8DMHX', '2DMX',
        'ADMIN', 'CBMX', '0DMX', 'CDMA', 'CDMB', 'CDMC', 'CDMD', 'CDME', 'CDMF', 'CDMG', 'CDMH',
        'CDMI', 'CDMJ', 'CDMK', 'CDML', 'CDMN', 'CDMO', 'CDMS', 'CDMT', 'CDMU', 'CDMV', 'CDMW',
        'CDMY', 'CDMZ', 'CDM1', 'CDM3', 'CDM4', 'CDM5', 'CDSX','CDGX', '4DMX', 'GDMX', 'CAMX', 'C3MX',
        'C2MX', '8DMX', 'CDCX', 'HDMX', 'C9MX'

    ]:
        return 'CDMX'

    # ======================
    # MONTERREY / NUEVO LEÓN
    # ======================
    if ciudad in [
        'MTY', 'MTY ', 'Mty', 'mty', 'MTYY', 'MMTY',
        'MT', 'MY', 'MkY', 'M1Y', 'M8Y', 'M9Y',
        'MONTERREY', 'Monterrey','MTY','MTTY', 'MTY.', 'GYL', 'DTY', 'MAY', 'MCY', 'STY', '7TY',
        'MKY', 'MTF', 'MT5', 'MXY', 'MT1', 'MTR', 'MZY', 'ITY', 'UTY', 'QTY', 'KTY', 'MTG', 'MTH',
        'MTW', 'NTY', 'VTY', 'JTY', 'MTT', 'MTM', 'MT7', 'MT2', 'MTJ', 'ATY', 'TTY', 'WTY', 'MTV',
        'MTP', 'MTA', 'MTZ', 'MT3', 'MT4', 'MT6', 'MT8', 'MT9', 'MTL', 'MTO', 'MTI', 'MTD', 'MTQ',
        'MTE', 'MTU', 'MTN', 'M0Y', 'M2Y', 'M3Y', 'M4Y', 'M5Y', 'M6Y', 'M7Y', 'MGY', 'MIY', 'MJY',
        'MLY', 'MMY', 'MOY', 'MPY', 'MQY', 'MVY', 'MWY', 'MBY', 'MUY', 'MDY', 'MDL', '1TY', '2TY',
        '3TY', '4TY', '5TY', '6TY', '8TY', '9TY', '0TY', 'ETY', 'BTY', 'HTY', 'ZTY', 'YTY', 'FTY',
        'MFY', 'MHY', 'MSY', 'MTS', 'TY'
    ]:
        return 'MONTERREY'

    # ======================
    # QUINTANA ROO
    # ======================
    if ciudad in [
        'Q.Roo', 'QRoo','Q.ROO', 'QROO'
    ]:
        return 'QUINTANA ROO'

    return ciudad

df['ciudad_normalizada'] = df.apply(normalizar_ciudad, axis=1)

In [11]:
df['ciudad_normalizada'].unique()

array(['CANCUN', 'PUEBLA', 'GUADALAJARA', 'CDMX', 'MONTERREY', None,
       'QUINTANA ROO'], dtype=object)

In [12]:
print(range(df['ciudad_normalizada'].nunique()))

range(0, 6)


In [14]:
# Exportar el DataFrame con precios y ciudades normalizados
import os

def exportar_df_normalizado(df, output_dir="../Datas", nombre_base="4. ciudades_normalizados", ext=".csv"):
    output_path = os.path.join(output_dir, f"{nombre_base}{ext}")
    df.to_csv(output_path, index=False, encoding="utf-8")
    return output_path

output_path = exportar_df_normalizado(df)
print(f"Exportado a: {output_path} ({df.shape[0]} filas, {df.shape[1]} columnas)")

Exportado a: ../Datas\4. ciudades_normalizados.csv (1030000 filas, 10 columnas)
