### Lectura y limpieza de datos 

In [12]:
import pandas as pd 
import os
import numpy as np
import re
from nltk.corpus import stopwords
import nltk
try:
    stopwords.words('spanish')
except LookupError:
    nltk.download('stopwords')

ruta = "../data"
archivo = os.path.join(ruta, "Rest-Mex_2025_train.csv") 

with open(archivo, 'r', encoding='utf-8', errors='replace') as f:
    Data = pd.read_csv(f)

#Arreglamos la mala lectura de los acentos debido a la codificación
def arregla_mojibake(texto):
    try:
        return texto.encode('latin1').decode('utf-8')
    except:
        return texto  # Si falla la conversión, deja el texto igual

Data['Title'] = Data['Title'].fillna('').apply(arregla_mojibake)
Data['Review'] = Data['Review'].fillna('').apply(arregla_mojibake)

stopwords_es = set(stopwords.words('spanish'))

def limpiar_texto(texto):
    texto = texto.lower()
    texto = re.sub(r'[^a-zA-ZáéíóúÁÉÍÓÚñÑüÜ\s]', '', texto)
    palabras = texto.split()
    palabras = [palabra for palabra in palabras if palabra not in stopwords_es]
    return ' '.join(palabras).strip()

Data['Texto_Limpio'] = (Data['Title'].fillna('') + ' ' + Data['Review'].fillna('')).apply(limpiar_texto)

In [13]:
print(Data['Texto_Limpio'][30])

alma michoacán así michoacán alma méxico janitzio alma michoacánsin duda sitio exponencial cultura purepecha verdad imagino maría félix rodaba película maclovia sitio imagino aún belleza época siga conservandode pueblos mágicos existen méxico duda favoritosi van ir día muertos vale pena ir lugar noche velan toda noche altares media noche culminaciónes económico tipo turismo lleno riqueza cultural duda encantará presumir amigos facebook colorido lugar


### Representacion TF-iDF

In [14]:
from sklearn.feature_extraction.text import TfidfVectorizer # type: ignore

def Representacion_TF_IDF(dataframe):
    """
    Recibe un DataFrame con la columna 'Texto_Limpio'.
    Retorna la matriz TF-IDF.
    """
    textos = dataframe['Texto_Limpio'].fillna("").values
    
    vectorizer = TfidfVectorizer(
        max_features=2500,
        ngram_range=(1, 2),
        token_pattern=r'(?u)\b[^\d\W]+\b'
    )
    
    X_tfidf = vectorizer.fit_transform(textos)
    
    print(f"Matriz TF-IDF generada con forma: {X_tfidf.shape}")
    return X_tfidf, vectorizer

X_tfidf, vectorizer = Representacion_TF_IDF(Data)

Matriz TF-IDF generada con forma: (208051, 2500)
