In [4]:
import pandas as pd
from pathlib import Path

In [11]:
import pandas as pd
import hashlib
import unicodedata

# üéØ Funci√≥n para generar ID hash base36 de 6 caracteres
def generar_id_hash(texto):
    h = hashlib.md5(texto.encode('utf-8')).hexdigest()
    base10 = int(h, 16)
    base36 = ''
    chars = '0123456789ABCDEFGHIJKLMNOPQRSTUVWXYZ'
    while base10 > 0:
        base10, i = divmod(base10, 36)
        base36 = chars[i] + base36
    return base36[:6].upper().zfill(6)

# üîß Normaliza (quita tildes, espacios y convierte a min√∫sculas)
def normalizar(texto):
    texto = str(texto).lower().strip()
    texto = unicodedata.normalize('NFKD', texto).encode('ascii', 'ignore').decode('utf-8')
    return texto

# üóÇ Ruta del CSV
ruta_csv = r'H:\git\proyecto grupal 2\Yelp-Gmaps-Proyecto-DS\data\raw\departamento salubridad NY\rows2.csv'
df = pd.read_csv(ruta_csv)

# üîç Extraer nombres √∫nicos
nombres_originales = df['nombre'].dropna().drop_duplicates().sort_values().reset_index(drop=True)

# üßº Guardar los nombres normalizados (min√∫sculas + sin acento)
nombres_minusculas = nombres_originales.apply(lambda x: normalizar(x))

# üîê Generar los IDs hash desde los nombres normalizados
ids_hash = nombres_minusculas.apply(generar_id_hash)

# üß± Construir la tabla dimensi√≥n con los nombres ya en min√∫sculas
dim_nombres = pd.DataFrame({
    'id_nombre': ids_hash,
    'nombre': nombres_minusculas  # AQU√ç se guardan ya en min√∫sculas
})

# üíæ Guardar
ruta_salida = r'H:\git\proyecto grupal 2\Yelp-Gmaps-Proyecto-DS\data\processed\dim\dim_nombre_restaurante.csv'
dim_nombres.to_csv(ruta_salida, index=False, encoding='utf-8-sig')

print(f"‚úÖ Nombres guardados en min√∫sculas y IDs generados correctamente.\nüìÅ Archivo listo en:\n{ruta_salida}")



‚úÖ Nombres guardados en min√∫sculas y IDs generados correctamente.
üìÅ Archivo listo en:
H:\git\proyecto grupal 2\Yelp-Gmaps-Proyecto-DS\data\processed\dim\dim_nombre_restaurante.csv


  df = pd.read_csv(ruta_csv)


In [1]:
# -*- coding: utf-8 -*-
# Script DEDICADO a la limpieza, normalizaci√≥n y an√°lisis de duplicados
# de nuestra tabla de dimensi√≥n de nombres de restaurantes. ¬°Vamos a dejarla impecable!

# --- Importaciones Esenciales ---
# Cargamos nuestras herramientas principales
import pandas as pd           # Nuestro caballo de batalla para manejar datos
import numpy as np            # Para operaciones num√©ricas y el √∫til NaN (Not a Number)
import re                     # Expresiones regulares, ¬°geniales para buscar patrones en texto!
import unicodedata            # Para manejar caracteres especiales y acentos
import logging                # Nuestro diario de a bordo para saber qu√© hace el script
from pathlib import Path      # Para manejar rutas de archivo de forma moderna y compatible
import sys                    # Para poder detener el script si algo va muy mal
from io import StringIO       # Para capturar info() en logs (opcional pero √∫til)

# --- Configuraci√≥n de Logging (Nuestro Diario de a Bordo) ---
# Configuramos c√≥mo queremos ver los mensajes mientras corre el script.
logging.basicConfig(
    level=logging.INFO, # Mostraremos mensajes informativos, de advertencia y errores.
    format='%(asctime)s [%(levelname)s] %(name)s.%(funcName)s: %(message)s', # Formato detallado
    datefmt='%Y-%m-%d %H:%M:%S' # Formato de fecha y hora local
)
log = logging.getLogger(__name__) # Creamos un logger espec√≠fico para este script.

# --- Definici√≥n de Rutas (El Mapa del Tesoro) ---
# Centralizamos todas las rutas aqu√≠ para encontrarlas f√°cil.
try:
    # 1. RUTA_BASE: La carpeta principal de nuestro proyecto.
    #    *** ¬°OJO! Revisa que esta ruta sea correcta en TU computadora. ***
    RUTA_BASE = Path(r"H:\git\proyecto grupal 2\Yelp-Gmaps-Proyecto-DS").resolve()

    # 2. Subcarpetas est√°ndar (las creamos si no existen m√°s abajo).
    RUTA_PROCESSED = RUTA_BASE / "data" / "processed" # Donde van nuestros datos limpios.
    RUTA_DIM = RUTA_PROCESSED / "dim"                # Donde van nuestras tablas de dimensi√≥n.

    # 3. Ruta a la Dimensi√≥n de Nombres (¬°Nuestro objetivo!)
    #    Este es el archivo que vamos a leer y LUEGO sobreescribir con la versi√≥n limpia.
    #    *** ¬°Aseg√∫rate de que el nombre del archivo sea el correcto! ***
    RUTA_DIM_NOMBRES = (RUTA_DIM / "dim_nombre_restaurante_limpia.csv").resolve()
    # Si se llama diferente, aj√∫stalo aqu√≠:
    # RUTA_DIM_NOMBRES = (RUTA_DIM / "dim_nombre_restaurante.csv").resolve()

    # 4. Ruta para el Reporte de Duplicados que generaremos.
    RUTA_REPORTE_DUPLICADOS = (RUTA_PROCESSED / "posibles_duplicados_nombres.csv").resolve()

    # 5. Crear las carpetas si no existen (¬°as√≠ no falla el guardado!)
    RUTA_PROCESSED.mkdir(parents=True, exist_ok=True)
    RUTA_DIM.mkdir(parents=True, exist_ok=True)

except Exception as e:
    log.exception(f"¬°Error cr√≠tico! No pudimos definir o resolver las rutas. Revisa la RUTA_BASE: {e}")
    sys.exit(1) # Detenemos el script si no podemos ni definir las rutas.

# --- Funciones de Limpieza y Normalizaci√≥n ---

def normalizar_nombre_restaurante(nombre: str) -> str | None:
    """
    Nuestra funci√≥n "pulidora" de nombres. Intenta estandarizar al m√°ximo
    para encontrar duplicados que se escriben diferente.

    Args:
        nombre (str): El nombre original del restaurante.

    Returns:
        str or None: El nombre normalizado, o None si no es v√°lido.
    """
    # Si no es texto o es nulo, no podemos hacer nada.
    if pd.isna(nombre) or not isinstance(nombre, str):
        return None

    try:
        # 1. A min√∫sculas y quitamos espacios al inicio/final.
        nombre_norm = nombre.lower().strip()

        # 2. Quitar comillas comunes al inicio/final (simples, dobles, triples).
        nombre_norm = re.sub(r'^["\']{1,3}|["\']{1,3}$', '', nombre_norm).strip()

        # 3. Quitar caracteres especiales comunes al inicio (ej. $1 Pizza -> 1 Pizza).
        #    Hay que tener cuidado para no quitar algo importante.
        nombre_norm = re.sub(r'^[#$*%\+\?¬ø!¬°\-_]+', '', nombre_norm).strip()

        # 4. Normalizaci√≥n Unicode: Adi√≥s acentos y caracteres "raros".
        nombre_norm = unicodedata.normalize('NFKD', nombre_norm).encode('ASCII', 'ignore').decode('utf-8')

        # 5. Eliminar sufijos comunes de negocios y tipos de lugar.
        #    Usamos \b para asegurar que sean palabras completas (ej. no quitar "inc" de "zinc").
        sufijos_comunes = [
            r'\bllc\b', r'\bltd\b', r'\binc\b', r'\bcorp\b', r'\bcorporation\b',
            r'\brestaurant\b', r'\bcafe\b', r'\bpizzeria\b', r'\bgrill\b',
            r'\bbar\b', r'\bdeli\b', r'\bexpress\b', r'\bkitchen\b',
            r'\bthe\b' # "the" como palabra suelta.
        ]
        for sufijo in sufijos_comunes:
            # flags=re.IGNORECASE para que no importe si es LLC o llc.
            nombre_norm = re.sub(sufijo, '', nombre_norm, flags=re.IGNORECASE)

        # 6. Manejo de Puntuaci√≥n: Quitamos casi todo, pero intentamos mantener ap√≥strofes internos (como en Joe's).
        nombre_norm = nombre_norm.replace("'", "__APOSTROPHE__") # Reemplazo temporal.
        # Quitamos todo lo que NO sea letra, n√∫mero, espacio o nuestro placeholder.
        nombre_norm = re.sub(r'[^\w\s__APOSTROPHE__]+', '', nombre_norm.replace('_',' '))
        nombre_norm = nombre_norm.replace("__APOSTROPHE__", "'") # Lo restauramos.

        # 7. Normalizar espacios: M√∫ltiples espacios se vuelven uno, y quitamos inicio/final.
        nombre_norm = re.sub(r'\s+', ' ', nombre_norm).strip()

        # 8. Filtrar nombres que claramente no son v√°lidos o son ruido.
        placeholders_ruido = {'name', '#name?', '', 'test'}
        # Si el nombre normalizado est√° en la lista, o si consiste SOLO en s√≠mbolos como * o #...
        if nombre_norm in placeholders_ruido or re.match(r'^[\*#]+$', nombre_norm):
            return None # ... lo consideramos inv√°lido.

        # Si sobrevivi√≥ a todo y no est√° vac√≠o, ¬°lo devolvemos!
        return nombre_norm if nombre_norm else None

    except Exception as e:
        # Si algo falla en el proceso, avisamos y devolvemos el original.
        log.warning(f"Error normalizando el nombre '{nombre}': {e}")
        return nombre

def identificar_y_reportar_duplicados(df_dim: pd.DataFrame, ruta_reporte: Path) -> pd.DataFrame:
    """
    Esta funci√≥n es nuestro detective de duplicados.
    1. A√±ade la columna 'nombre_normalizado' al DataFrame.
    2. Busca grupos de nombres normalizados que tengan M√ÅS DE UN 'id_nombre' diferente.
    3. Guarda un reporte en CSV con estos grupos sospechosos.
    4. Devuelve el DataFrame con la columna 'nombre_normalizado' (la quitaremos despu√©s).

    Args:
        df_dim (pd.DataFrame): DataFrame de la dimensi√≥n de nombres (ya con limpieza b√°sica).
        ruta_reporte (Path): D√≥nde guardar el reporte de duplicados.

    Returns:
        pd.DataFrame: El mismo DataFrame pero con la columna 'nombre_normalizado' a√±adida.
    """
    log.info("Iniciando normalizaci√≥n y b√∫squeda de posibles duplicados...")
    col_nombre = 'nombre'; col_id = 'id_nombre'; col_norm = 'nombre_normalizado'
    col_flag = 'permiso_temporal' # Para incluir en el reporte

    # Verificaci√≥n r√°pida: ¬øTenemos las columnas necesarias?
    if not all(c in df_dim.columns for c in [col_nombre, col_id]):
        log.error(f"¬°Faltan columnas '{col_nombre}' o '{col_id}'! No podemos buscar duplicados.")
        # A√±adimos la columna normalizada como vac√≠a para no romper el flujo
        df_dim[col_norm] = None
        return df_dim

    # Aplicamos la normalizaci√≥n a toda la columna 'nombre'
    log.info(f"Aplicando funci√≥n de normalizaci√≥n a '{col_nombre}'...")
    df_dim[col_norm] = df_dim[col_nombre].apply(normalizar_nombre_restaurante)
    nulos_norm = df_dim[col_norm].isnull().sum()
    if nulos_norm > 0:
        log.warning(f"{nulos_norm} nombres resultaron nulos/vac√≠os tras normalizar (ser√°n ignorados en la detecci√≥n).")

    # ¬°La b√∫squeda! Agrupamos por nombre normalizado y filtramos los grupos
    # donde haya m√°s de un id_nombre √∫nico. Usamos dropna para ignorar los nulos.
    duplicados_agrupados = df_dim.dropna(subset=[col_norm, col_id])\
                               .groupby(col_norm)\
                               .filter(lambda grupo: grupo[col_id].nunique() > 1)

    if duplicados_agrupados.empty:
        log.info("¬°Buenas noticias! No se encontraron grupos con IDs potencialmente duplicados por nombre normalizado.")
        # Podr√≠amos borrar un reporte viejo aqu√≠ si quisi√©ramos.
    else:
        num_grupos = duplicados_agrupados[col_norm].nunique()
        log.warning(f"¬°Ojo! Encontramos {num_grupos} grupos de nombres que parecen ser el mismo restaurante pero tienen IDs diferentes.")
        # Preparamos el reporte para que sea f√°cil de revisar
        columnas_reporte = [col_norm, col_nombre, col_id]
        if col_flag in duplicados_agrupados.columns: # Incluir el flag si existe
            columnas_reporte.append(col_flag)
        reporte = duplicados_agrupados[columnas_reporte].sort_values(by=[col_norm, col_nombre])
        try:
            # Guardamos el reporte
            reporte.to_csv(ruta_reporte, index=False, encoding='utf-8-sig')
            log.info(f"Reporte de duplicados potenciales guardado en: {ruta_reporte}")
        except Exception as e:
            log.exception(f"¬°Error! No se pudo guardar el reporte de duplicados: {e}")

    log.info("Normalizaci√≥n e identificaci√≥n de duplicados completada.")
    # Devolvemos el DataFrame original con la columna normalizada a√±adida temporalmente
    return df_dim

def guardar_dimension(dim_df: pd.DataFrame, ruta_dim: Path):
    """
    Guarda nuestro DataFrame de dimensi√≥n final en formato CSV.
    Se asegura de que la columna de flag exista y tenga el tipo correcto.
    Asume que las columnas ya est√°n seleccionadas y ordenadas como queremos.

    Args:
        dim_df (pd.DataFrame): El DataFrame de dimensi√≥n listo para guardar.
        ruta_dim (Path): La ruta completa del archivo CSV de salida.
    """
    log.info(f"Guardando dimensi√≥n final ({len(dim_df)} filas) en: {ruta_dim}")
    if dim_df is None or dim_df.empty:
        log.warning("El DataFrame de dimensi√≥n est√° vac√≠o, no se guardar√°.")
        return

    # Doble chequeo y correcci√≥n del tipo de 'permiso_temporal'
    col_flag = 'permiso_temporal'
    if col_flag not in dim_df.columns:
        log.warning(f"A√±adiendo columna '{col_flag}' faltante con default=False antes de guardar.")
        dim_df[col_flag] = False
    try:
        # Forzar a booleano nullable de Pandas para consistencia
        dim_df[col_flag] = dim_df[col_flag].astype('boolean')
    except Exception as e:
        log.warning(f"No se pudo convertir '{col_flag}' a booleano, guardando como objeto: {e}")
        # Como fallback, aseguramos que no haya NaNs problem√°ticos para CSV
        dim_df[col_flag] = dim_df[col_flag].fillna(False)

    try:
        # Guardamos el archivo CSV. index=False es importante. utf-8-sig ayuda con Excel.
        dim_df.to_csv(ruta_dim, index=False, encoding='utf-8-sig')
        log.info(f"¬°Dimensi√≥n guardada exitosamente!")
    except Exception as e:
        # ¬°Si esto falla, es un problema!
        log.exception(f"¬°ERROR CR√çTICO! No se pudo guardar la dimensi√≥n en '{ruta_dim}': {e}")


# --- Funci√≥n Principal de Limpieza (Nuestro Orquestador) ---
def main_limpieza_dim_nombres():
    """
    Orquesta todo el proceso: Carga la dimensi√≥n, aplica limpieza b√°sica,
    normaliza nombres, reporta duplicados, ordena y guarda la versi√≥n final.
    """
    log.info("================================================")
    log.info("=== INICIO Limpieza Dimensi√≥n Nombres Restaurante ===")
    log.info("================================================")

    # 1. Cargar Dimensi√≥n Existente
    # -------------------------------
    log.info(f"Paso 1: Cargando dimensi√≥n desde: {RUTA_DIM_NOMBRES}")
    if not RUTA_DIM_NOMBRES.is_file():
        log.critical(f"¬°Abortando! No se encontr√≥ el archivo de dimensi√≥n: {RUTA_DIM_NOMBRES}")
        sys.exit(1) # Salimos si no existe el archivo que queremos limpiar
    try:
        # Le decimos a Pandas que trate IDs y nombres como texto al cargar, y el flag como objeto por ahora
        dtype_map = {'id_nombre': str, 'nombre': str, 'permiso_temporal': object}
        # keep_default_na=False ayuda a leer valores booleanos que podr√≠an estar como texto 'True'/'False'
        dim_nombres = pd.read_csv(RUTA_DIM_NOMBRES, dtype=dtype_map, keep_default_na=False)
        log.info(f"Dimensi√≥n cargada: {dim_nombres.shape[0]} filas, {dim_nombres.shape[1]} columnas.")
    except Exception as e:
        log.exception(f"¬°Error cr√≠tico al cargar la dimensi√≥n! {e}")
        sys.exit(1)
    if dim_nombres.empty:
        log.warning("La dimensi√≥n est√° vac√≠a. No hay nada que limpiar. Saliendo.")
        return # Terminamos si no hay datos

    # 2. Limpieza B√°sica Previa (¬°M√°s Robusta!)
    # -----------------------------------------
    log.info("Paso 2: Realizando limpieza b√°sica inicial...")
    original_rows = len(dim_nombres) # Guardamos el n√∫mero inicial de filas

    # 2a. Asegurar columna y tipo 'permiso_temporal'
    col_flag = 'permiso_temporal'
    if col_flag not in dim_nombres.columns:
        dim_nombres[col_flag] = False # La creamos si no existe
        log.warning(f"Columna '{col_flag}' no exist√≠a, se a√±adi√≥ con valor False.")
    # Convertimos a booleano de forma segura, manejando varios formatos de texto/n√∫mero
    map_bool = {'true': True, 'false': False, '1': True, '0': False, '1.0': True, '0.0': False,
                True: True, False: False, np.nan: False, None: False, '': False, 'nan': False}
    dim_nombres[col_flag] = dim_nombres[col_flag].astype(str).str.lower().map(map_bool).fillna(False).astype('boolean')
    log.info(f"Columna '{col_flag}' asegurada como tipo Boolean (soporta nulos si los hubiera).")

    # 2b. Eliminar filas con IDs o Nombres inv√°lidos/vac√≠os/ruidosos ANTES de quitar duplicados
    log.info("Filtrando filas con IDs o nombres inv√°lidos/vac√≠os/ruidosos...")
    # Quitar nulos expl√≠citos
    dim_nombres.dropna(subset=['id_nombre', 'nombre'], inplace=True)
    # Quitar los que quedaron como strings vac√≠os despu√©s de cargar/convertir
    dim_nombres = dim_nombres[dim_nombres['nombre'].astype(str).str.strip() != '']
    dim_nombres = dim_nombres[dim_nombres['id_nombre'].astype(str).str.strip() != '']
    # Filtrar IDs que no sigan el formato NOM + 6 Hexadecimales
    dim_nombres = dim_nombres[dim_nombres['id_nombre'].astype(str).str.match(r'^NOM[A-F0-9]{6}$')]
    # Filtrar nombres que parezcan solo ruido (s√≠mbolos/placeholders)
    placeholders_ruido = ['#NAME?', 'NAME', 'TEST']
    dim_nombres = dim_nombres[~dim_nombres['nombre'].astype(str).str.match(r'^[#\*$%\?¬ø!¬°\-_<>",\s]+$')] # Solo s√≠mbolos/espacios
    dim_nombres = dim_nombres[~dim_nombres['nombre'].astype(str).str.upper().isin(placeholders_ruido)]
    rows_dropped_invalid = original_rows - len(dim_nombres)
    if rows_dropped_invalid > 0:
        log.info(f"Eliminadas {rows_dropped_invalid} filas con IDs/nombres inv√°lidos/vac√≠os/ruidosos.")
    original_rows = len(dim_nombres) # Actualizamos el contador para el siguiente paso

    # 2c. Eliminar duplicados por nombre (ignorando may√∫sculas/min√∫sculas y espacios extra)
    log.info("Eliminando duplicados por 'nombre' (insensible a may√∫s/min√∫s, sin espacios extra)...")
    # Creamos una columna temporal con el nombre limpio para comparar
    dim_nombres['nombre_clean_temp'] = dim_nombres['nombre'].astype(str).str.strip().str.lower()
    # Eliminamos duplicados basados en esta columna limpia, manteniendo la √öLTIMA aparici√≥n
    # (consistente con c√≥mo los ETLs podr√≠an haber actualizado el flag permiso_temporal)
    dim_nombres.drop_duplicates(subset=['nombre_clean_temp'], keep='last', inplace=True, ignore_index=True)
    # Eliminamos la columna temporal que ya no necesitamos
    dim_nombres.drop(columns=['nombre_clean_temp'], inplace=True)
    rows_dropped_duplicates = original_rows - len(dim_nombres)
    if rows_dropped_duplicates > 0:
        log.info(f"Eliminados {rows_dropped_duplicates} duplicados por 'nombre' (limpio, case-insensitive).")

    # Volvemos a verificar si nos quedamos sin datos despu√©s de limpiar
    if dim_nombres.empty:
        log.warning("La dimensi√≥n qued√≥ vac√≠a tras la limpieza b√°sica. No se puede continuar.")
        return

    # 3. Normalizar Nombres y Reportar Duplicados Potenciales
    # -------------------------------------------------------
    # Esta funci√≥n A√ëADE la columna 'nombre_normalizado' temporalmente para el an√°lisis.
    log.info("Paso 3: Normalizando nombres y generando reporte de duplicados...")
    dim_con_norm = identificar_y_reportar_duplicados(dim_nombres.copy(), RUTA_REPORTE_DUPLICADOS)
    # Usamos una copia por si la funci√≥n modificara algo inesperadamente.

    # 4. Ordenar Alfab√©ticamente
    # ---------------------------
    log.info("Paso 4: Ordenando la dimensi√≥n alfab√©ticamente por 'nombre'...")
    col_orden = 'nombre'
    if col_orden in dim_con_norm.columns:
        dim_con_norm.sort_values(
            by=col_orden,
            inplace=True,
            ignore_index=True, # Resetea el √≠ndice final a 0, 1, 2...
            na_position='last', # Por si alg√∫n nombre qued√≥ nulo (no deber√≠a pasar)
            key=lambda col: col.astype(str).str.lower() # Orden case-insensitive
        )
        log.info("Dimensi√≥n ordenada.")
    else:
        log.warning(f"No se pudo ordenar, falta la columna '{col_orden}'.")

    # 5. Preparar para Guardar (¬°Quitando la columna normalizada!)
    # -----------------------------------------------------------
    log.info("Paso 5: Preparando DataFrame final para guardar...")
    col_a_quitar = 'nombre_normalizado'
    if col_a_quitar in dim_con_norm.columns:
        # Creamos el DataFrame final SIN la columna normalizada
        dim_a_guardar = dim_con_norm.drop(columns=[col_a_quitar])
        log.info(f"Columna '{col_a_quitar}' eliminada para el archivo final.")
    else:
        dim_a_guardar = dim_con_norm # Si no exist√≠a, usamos el DF tal cual
        log.warning(f"Columna '{col_a_quitar}' no encontrada para eliminar.")

    # Reordenamos las columnas que S√ç queremos guardar
    cols_dim_final = ['id_nombre', 'nombre', 'permiso_temporal']
    # Seleccionamos solo esas columnas en ese orden (si existen)
    dim_final_guardar = dim_a_guardar[[col for col in cols_dim_final if col in dim_a_guardar.columns]]
    log.info(f"Columnas finales seleccionadas para guardar: {dim_final_guardar.columns.tolist()}")

    # 6. Guardar la Dimensi√≥n Limpia y Ordenada
    # -----------------------------------------
    log.info("Paso 6: Guardando la dimensi√≥n final...")
    # Llamamos a nuestra funci√≥n de guardado pas√°ndole el DF ya preparado
    guardar_dimension(dim_final_guardar, RUTA_DIM_NOMBRES) # Sobreescribimos el archivo original

    # --- Fin del Proceso ---
    log.info("================================================")
    log.info("=== Limpieza Dimensi√≥n Nombres Completada ===")
    # Informamos si se gener√≥ el reporte de duplicados
    if RUTA_REPORTE_DUPLICADOS.is_file(): # Verificamos si existe
        log.info(f"=== Reporte de posibles duplicados generado en: {RUTA_REPORTE_DUPLICADOS} ===")
        log.info("=== ¬°Revisa ese archivo para decidir c√≥mo unificar los IDs! ===")
    else:
        log.info("=== No se gener√≥ reporte de duplicados (probablemente no se encontraron). ===")
    log.info("================================================")


# --- Punto de Entrada ---
if __name__ == "__main__":
    # Esto asegura que main_limpieza_dim_nombres() solo se ejecute
    # cuando corres este script directamente.
    main_limpieza_dim_nombres()

2025-04-19 12:34:00 [INFO] __main__.main_limpieza_dim_nombres: === INICIO Limpieza Dimensi√≥n Nombres Restaurante ===
2025-04-19 12:34:00 [INFO] __main__.main_limpieza_dim_nombres: Paso 1: Cargando dimensi√≥n desde: H:\git\proyecto grupal 2\Yelp-Gmaps-Proyecto-DS\data\processed\dim\dim_nombre_restaurante_limpia.csv
2025-04-19 12:34:00 [INFO] __main__.main_limpieza_dim_nombres: Dimensi√≥n cargada: 49322 filas, 3 columnas.
2025-04-19 12:34:00 [INFO] __main__.main_limpieza_dim_nombres: Paso 2: Realizando limpieza b√°sica inicial...
2025-04-19 12:34:01 [INFO] __main__.main_limpieza_dim_nombres: Columna 'permiso_temporal' asegurada como tipo Boolean (soporta nulos si los hubiera).
2025-04-19 12:34:01 [INFO] __main__.main_limpieza_dim_nombres: Filtrando filas con IDs o nombres inv√°lidos/vac√≠os/ruidosos...
2025-04-19 12:34:01 [INFO] __main__.main_limpieza_dim_nombres: Eliminadas 1 filas con IDs/nombres inv√°lidos/vac√≠os/ruidosos.
2025-04-19 12:34:01 [INFO] __main__.main_limpieza_dim_nombre