# Preprocesamiento de Texto

- Limpieza básica de texto:

Convertir todo a minúsculas.

Eliminar caracteres especiales, números y puntuación.

Quitar espacios en blanco innecesarios.

- Eliminación de palabras vacías (stopwords):

Quitar palabras comunes que no aportan significado (e.g., "el", "la", "y").

- Normalización de texto:

Lematización o stemming para reducir palabras a su raíz.

- Tokenización:

Dividir el texto en palabras individuales.

- Eliminación opcional de palabras irrelevantes:

Quitar palabras específicas que no son útiles para tu caso de uso (e.g., nombres de negocios, palabras repetidas).

Preparar el Entorno

In [2]:
import pandas as pd
import re
import nltk
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer

# Descargar recursos necesarios de NLTK
nltk.download('stopwords')
nltk.download('wordnet')
nltk.download('omw-1.4')

[nltk_data] Downloading package stopwords to /home/carla/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to /home/carla/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package omw-1.4 to /home/carla/nltk_data...
[nltk_data]   Package omw-1.4 is already up-to-date!


True

Configurar Stopwords y Lematizador

In [3]:
# Configurar stopwords y lematizador
stop_words = set(stopwords.words('english'))  # Cambiar a 'spanish' si trabajas con español
lemmatizer = WordNetLemmatizer()

Crear Funciones de Preprocesamiento

Función 1: Limpieza Básica

In [4]:
def clean_text(text):
    """
    Realiza una limpieza básica del texto:
    - Convierte a minúsculas.
    - Elimina caracteres especiales, números y puntuación.
    """
    text = text.lower()  # Convertir a minúsculas
    text = re.sub(r'[^a-zA-Z\s]', '', text)  # Eliminar caracteres no alfabéticos
    return text


Función 2: Eliminar Stopwords

In [5]:
def remove_stopwords(text):
    """
    Elimina palabras vacías (stopwords) del texto.
    """
    words = text.split()  # Tokenizar
    words = [word for word in words if word not in stop_words]  # Filtrar
    return ' '.join(words)  # Reconstruir el texto


Función 3: Lematización

In [6]:
def lemmatize_text(text):
    """
    Aplica lematización a cada palabra del texto.
    """
    words = text.split()  # Tokenizar
    words = [lemmatizer.lemmatize(word) for word in words]  # Lematizar
    return ' '.join(words)  # Reconstruir el texto


Aplicar las Funciones Paso a Paso

In [8]:
# Leer archivo limpio
reviews = pd.read_csv('reviews_cleaned.csv')

In [9]:
# Aplicar limpieza básica
reviews['cleaned_text'] = reviews['review_text'].apply(clean_text)

In [10]:
# Eliminar stopwords
reviews['no_stopwords_text'] = reviews['cleaned_text'].apply(remove_stopwords)

In [11]:
# Aplicar lematización
reviews['processed_text'] = reviews['no_stopwords_text'].apply(lemmatize_text)

In [12]:
# Verificar los resultados
print(reviews[['review_text', 'processed_text']].head())

                                         review_text  \
0  The salads were lackluster though with well wr...   
1  Love this place. Great little restaurant, with...   
2  A classy restaurant to match the charm of the ...   
3                     Great atmosphere and good food   
4                                          Good food   

                                      processed_text  
0  salad lackluster though well written descripti...  
1  love place great little restaurant unique dish...  
2  classy restaurant match charm inn make reserva...  
3                         great atmosphere good food  
4                                          good food  


Guardar el Archivo Procesado

In [13]:
# Guardar el archivo procesado
output_path = 'reviews_preprocessed.csv'
reviews.to_csv(output_path, index=False)
print(f"Archivo preprocesado guardado como: {output_path}")

Archivo preprocesado guardado como: reviews_preprocessed.csv
