## Lectura y limpieza de datos

### Conjunto de Entretenimiento  

In [None]:
import pandas as pd 
import os
import numpy as np 
import re
import unicodedata
import nltk
from nltk.corpus import stopwords

# Aseguramos que las stopwords estén disponibles
try:
    stopwords.words('spanish')
except LookupError:
    nltk.download('stopwords')

# Ruta de lectura
ruta = "../data"
archivo = os.path.join(ruta, "Rest-Mex_2025_train.csv") 

with open(archivo, 'r', encoding='utf-8', errors='replace') as f:
    Data = pd.read_csv(f)

# Arreglamos problemas de codificación
def arregla_mojibake(texto):
    try:
        return texto.encode('latin1').decode('utf-8')
    except:
        return texto

Data['Title'] = Data['Title'].fillna('').apply(arregla_mojibake)
Data['Review'] = Data['Review'].fillna('').apply(arregla_mojibake)

# Creamos columna base con texto leído y concatenado
Data['Texto_Leido'] = (Data['Title'] + ' ' + Data['Review']).str.strip()

# Función de limpieza profunda para modelos clásicos
stopwords_es = set(stopwords.words('spanish'))

def limpiar_texto(texto):
    texto = texto.lower()
    # Quitamos acentos
    texto = unicodedata.normalize('NFD', texto)
    texto = ''.join([char for char in texto if unicodedata.category(char) != 'Mn'])
    # Eliminamos caracteres no alfabéticos
    texto = re.sub(r'[^a-zñü\s]', '', texto)
    palabras = texto.split()
    palabras = [p for p in palabras if p not in stopwords_es]
    return ' '.join(palabras).strip()

# Generamos columna limpia
Data['Texto_Limpio'] = Data['Texto_Leido'].apply(limpiar_texto)

# Eliminamos columnas originales
Data = Data.drop(columns=['Title', 'Review'])

# Guardamos el resultado procesado
Data.to_csv(os.path.join(ruta, "Train_Limpio.csv"), index=False, encoding='utf-8')

print("✅ Datos procesados y guardados como 'Train_Limpio.csv' ")


✅ Datos procesados y guardados como 'Rest-Mex_2025_preprocesado.csv'


In [6]:
Data['Texto_Limpio'][30]

'alma michoacan asi michoacan alma mexico janitzio alma michoacansin duda sitio exponencial cultura purepecha verdad imagino maria felix rodaba pelicula maclovia sitio imagino aun belleza epoca siga conservandode pueblos magicos existen mexico duda favoritosi van ir dia muertos vale pena ir lugar noche velan toda noche altares estan media noche culminaciones economico tipo turismo lleno riqueza cultural duda encantara presumir amigos facebook colorido lugar'

In [7]:
Data['Texto_Leido'][30]

'El alma de Michoacán Así como Michoacán es alma de México, Janitzio es el alma de Michoacán.Sin duda un sitio exponencial de la cultura purepecha, de verdad me imagino cuando María Félix rodaba su película de Maclovia en este sitio y me imagino aún la belleza de esa época se siga conservando.De los pueblos mágicos que existen en México sin duda este, es mi favorito.Si van a ir para día de muertos vale la pena ir a este lugar muy noche porque como se velan toda la noche, los altares están hasta media noche en su culminación.Es muy económico este tipo de turismo y lleno de riqueza cultural sin duda les encantará presumir a sus amigos en Facebook todo el colorido de este lugar.'

### Conjunto de Prueba

In [23]:
import pandas as pd 
import os
import numpy as np 
import re
import unicodedata
import nltk
from nltk.corpus import stopwords

# Aseguramos stopwords
try:
    stopwords.words('spanish')
except LookupError:
    nltk.download('stopwords')

# Ruta de archivo
ruta = "../data"
archivo_test = os.path.join(ruta, "Rest-Mex_2025_test.xlsx") 

# Lectura del archivo Excel
Data_test = pd.read_excel(archivo_test)

# Función para corregir codificación
def arregla_mojibake(texto):
    try:
        return texto.encode('latin1').decode('utf-8')
    except:
        return texto

# Aplicamos corrección
Data_test['Title'] = Data_test['Title'].fillna('').apply(arregla_mojibake)
Data_test['Review'] = Data_test['Review'].fillna('').apply(arregla_mojibake)

# Concatenamos texto leído
Data_test['Texto_Leido'] = (
    Data_test['Title'].astype(str) + ' ' + Data_test['Review'].astype(str)
).str.strip()

# Stopwords y limpieza
stopwords_es = set(stopwords.words('spanish'))

def limpiar_texto(texto):
    texto = texto.lower()
    texto = unicodedata.normalize('NFD', texto)
    texto = ''.join([c for c in texto if unicodedata.category(c) != 'Mn'])
    texto = re.sub(r'[^a-zñü\s]', '', texto)
    palabras = texto.split()
    palabras = [p for p in palabras if p not in stopwords_es]
    return ' '.join(palabras).strip()

# Generamos columna limpia
Data_test['Texto_Limpio'] = Data_test['Texto_Leido'].apply(limpiar_texto)

# Seleccionamos columnas finales
Data_test_final = Data_test[['ID', 'Texto_Leido', 'Texto_Limpio']]


# Guardamos el resultado procesado
Data_test_final.to_csv(os.path.join(ruta, "Test_Limpio.csv"), index=False, encoding='utf-8')

print("✅ Datos de prueba procesados y guardados como 'Test_Limpio.csv'")


✅ Datos de prueba procesados y guardados como 'Test_Limpio.csv'


In [22]:
print(Data_test['Texto_Leido'][3])
print(Data_test['Texto_Limpio'][3])


Gran desayuno y almuerzo Mi esposa y yo fuimos allí dos veces. Una vez para el almuerzo y una vez para el desayuno. Este pequeño lugar sirven una comida increíble. Estaba a una corta distancia a pie desde nuestro hotel Villa Vera. Teníamos tacos de pollo, empanadas de cerdo,...champiñones, huevos rancheros, y el café. Sin duda recomiendo este lugar.Más
gran desayuno almuerzo esposa alli dos veces vez almuerzo vez desayuno pequeno lugar sirven comida increible corta distancia pie hotel villa vera teniamos tacos pollo empanadas cerdochampinones huevos rancheros cafe duda recomiendo lugarmas
