In [11]:
import pandas as pd
import hashlib
import unicodedata

# 🎯 Función para generar ID hash base36 de 6 caracteres
def generar_id_hash(texto):
    h = hashlib.md5(texto.encode('utf-8')).hexdigest()
    base10 = int(h, 16)
    base36 = ''
    chars = '0123456789ABCDEFGHIJKLMNOPQRSTUVWXYZ'
    while base10 > 0:
        base10, i = divmod(base10, 36)
        base36 = chars[i] + base36
    return base36[:6].upper().zfill(6)

# 🔧 Normaliza (quita tildes, espacios y convierte a minúsculas)
def normalizar(texto):
    texto = str(texto).lower().strip()
    texto = unicodedata.normalize('NFKD', texto).encode('ascii', 'ignore').decode('utf-8')
    return texto

# 🗂 Ruta del CSV
ruta_csv = r'H:\git\proyecto grupal 2\Yelp-Gmaps-Proyecto-DS\data\raw\departamento salubridad NY\rows2.csv'
df = pd.read_csv(ruta_csv)

# 🔍 Extraer nombres únicos
nombres_originales = df['nombre'].dropna().drop_duplicates().sort_values().reset_index(drop=True)

# 🧼 Guardar los nombres normalizados (minúsculas + sin acento)
nombres_minusculas = nombres_originales.apply(lambda x: normalizar(x))

# 🔐 Generar los IDs hash desde los nombres normalizados
ids_hash = nombres_minusculas.apply(generar_id_hash)

# 🧱 Construir la tabla dimensión con los nombres ya en minúsculas
dim_nombres = pd.DataFrame({
    'id_nombre': ids_hash,
    'nombre': nombres_minusculas  # AQUÍ se guardan ya en minúsculas
})

# 💾 Guardar
ruta_salida = r'H:\git\proyecto grupal 2\Yelp-Gmaps-Proyecto-DS\data\processed\dim\dim_nombre_restaurante.csv'
dim_nombres.to_csv(ruta_salida, index=False, encoding='utf-8-sig')

print(f"✅ Nombres guardados en minúsculas y IDs generados correctamente.\n📁 Archivo listo en:\n{ruta_salida}")



✅ Nombres guardados en minúsculas y IDs generados correctamente.
📁 Archivo listo en:
H:\git\proyecto grupal 2\Yelp-Gmaps-Proyecto-DS\data\processed\dim\dim_nombre_restaurante.csv


  df = pd.read_csv(ruta_csv)


In [None]:
""" 
Revisamos duplicados en la dimensión de nombre de restaurante y eliminamos los duplicados.
"""
import pandas as pd


ruta_original = r'H:\git\proyecto grupal 2\Yelp-Gmaps-Proyecto-DS\data\processed\dim\dim_nombre_restaurante_actualizada.csv'

ruta_limpia = r'H:\git\proyecto grupal 2\Yelp-Gmaps-Proyecto-DS\data\processed\dim\dim_nombre_restaurante_limpia.csv'

df = pd.read_csv(ruta_original)

df_limpio = df.drop_duplicates(subset='nombre', keep='first')

df_limpio.to_csv(ruta_limpia, index=False, encoding='utf-8-sig')

print(f"Dimensión limpia guardada sin duplicados en:\n{ruta_limpia}")
print(f"Se eliminaron {len(df) - len(df_limpio)} duplicados.")