# Extracción de features a partir de variables de texto

Podemos extraer mucha información de las variables de texto para utilizarlas como características predictivas en modelos de machine learning.
Las técnicas que se describen en este capítulo pertenecen al campo del *Procesamiento del Lenguaje Natural (NLP)*, una rama de la lingüística y la informática que se ocupa de la interacón entre los ordenadores y el lenguaje humano; en otras palabras, cómo programar computadoras para que comprendan el lenguaje humano.
El NLP incluye muchas técnicas para entender la sintaxis, la semántica y el discurso del texto.
Hacer justicia a este campo requeriría un libro completo, pero aquí nos centraremos en las técnicas más útiles para extraer rápidamente características de textos cortos, con el fin de complementar nuestros modelos predictivos.

In [None]:
## Configuración Inicial ##

import re
import pandas as pd
import nltk
from pathlib import Path
from nltk.corpus import stopwords
from nltk.stem.snowball import SnowballStemmer
from nltk.tokenize import word_tokenize

# --- CONFIGURACIÓN DE ENTORNO Y RUTAS ---
# Usamos pathlib para ser consistentes con el notebook 'ej1'
PROJECT_ROOT = Path.cwd()
NLTK_DATA_DIR = PROJECT_ROOT / "nltk_data"

# Crear directorio local si no existe
NLTK_DATA_DIR.mkdir(exist_ok=True)

# Añadir esta ruta a la lista de búsqueda de NLTK
# Esto asegura que Python busque aquí antes de intentar descargar de nuevo
nltk.data.path.append(str(NLTK_DATA_DIR))

# Descargar recursos necesarios en la carpeta local (silencioso)
print(f"Verificando recursos NLTK en: {NLTK_DATA_DIR} ...")
try:
    nltk.download('punkt_tab', download_dir=str(NLTK_DATA_DIR), quiet=True)
    nltk.download('stopwords', download_dir=str(NLTK_DATA_DIR), quiet=True)
    print("✓ Recursos configurados correctamente.")
except Exception as e:
    print(f"Error descargando recursos: {e}")

In [None]:
# --- CONSTANTES GLOBALES (Best Practices) ---

# 1. Compilar Regex: Lo hacemos una sola vez para mejorar el rendimiento
# Esta expresión mantiene solo letras (a-z) y espacios.
REGEX_SOLO_LETRAS = re.compile(r'[^a-zA-Z\s]')

# 2. Inicializar Stemmer
STEMMER = SnowballStemmer('english')

# 3. Cargar Stop Words como un 'set' (búsqueda instantánea O(1))
STOP_WORDS = set(stopwords.words('english'))

print(f"Total de stop words cargadas: {len(STOP_WORDS)}")
print(f"Ejemplos: {list(STOP_WORDS)[:10]}")

# --- FUNCIÓN PRINCIPAL DE LIMPIEZA ---
def limpiar_y_stemming(texto: str) -> str:
    """
    Preprocesa un texto para NLP.
    
    Pasos:
    1. Elimina caracteres no alfabéticos.
    2. Convierte a minúsculas.
    3. Tokeniza (divide en palabras de forma inteligente).
    4. Elimina stopwords.
    5. Aplica stemming.
    
    Args:
        texto (str): El texto original (review).
        
    Returns:
        str: Texto procesado y unido nuevamente.
    """
    # Validación: si no es texto (ej. NaN), retornar vacío
    if not isinstance(texto, str):
        return ""
    
    # 1. Eliminar puntuación y números usando regex pre-compilado
    texto_limpio = REGEX_SOLO_LETRAS.sub('', texto)

    # 2. Convertir a minúsculas
    texto_minusculas = texto_limpio.lower()
    
    # 3. Tokenizar (word_tokenize maneja mejor la puntuación que .split())
    tokens = word_tokenize(texto_minusculas)
    
    # 4. Eliminar stop words y 5. Aplicar stemming
    # Usamos list comprehension que es más eficiente que el bucle for tradicional
    tokens_procesados = [
        STEMMER.stem(token) 
        for token in tokens 
        if token not in STOP_WORDS and len(token) > 1
    ]
    
    # Unir las palabras de nuevo en un solo string
    return ' '.join(tokens_procesados)csv_file = "IMDB Dataset.csv"

if Path(csv_file).exists():
    df = pd.read_csv(csv_file)
    print(f"Dataset cargado: {df.shape[0]} filas, {df.shape[1]} columnas.")
else:
    print(f"⚠️ ADVERTENCIA: No se encontró '{csv_file}'. Generando datos de prueba.")
    # Datos dummy para que el notebook sea reproducible incluso sin el CSV
    df = pd.DataFrame({
        'review': [
            "One of the other reviewers has mentioned that after watching just 1 Oz episode you'll be hooked.",
            "A wonderful little production. <br /><br />The filming technique is very unassuming.",
            "Phil the Alien is one of those quirky films where the humour is based around the oddness.",
            "Basically there's a family where a little boy (Jake) thinks there's a zombie in his closet."
        ],
        'sentiment': ['positive', 'positive', 'positive', 'negative']
    })

df.head()

In [None]:
csv_file = "IMDB Dataset.csv"

if Path(csv_file).exists():
    df = pd.read_csv(csv_file)
    print(f"Dataset cargado: {df.shape[0]} filas, {df.shape[1]} columnas.")
else:
    print(f"⚠️ ADVERTENCIA: No se encontró '{csv_file}'. Generando datos de prueba.")
    # Datos dummy para que el notebook sea reproducible incluso sin el CSV
    df = pd.DataFrame({
        'review': [
            "One of the other reviewers has mentioned that after watching just 1 Oz episode you'll be hooked.",
            "A wonderful little production. <br /><br />The filming technique is very unassuming.",
            "Phil the Alien is one of those quirky films where the humour is based around the oddness.",
            "Basically there's a family where a little boy (Jake) thinks there's a zombie in his closet."
        ],
        'sentiment': ['positive', 'positive', 'positive', 'negative']
    })

df.head()# Demostración del proceso con un solo ejemplo
# Usamos un índice seguro (el primero disponible)
indice_ejemplo = 2 if len(df) > 2 else 0
texto_original = df['review'].iloc[indice_ejemplo]

print("--- 1. Texto Original ---")
print(texto_original)

# Aplicamos la función que definimos arriba
texto_final = limpiar_y_stemming(texto_original)

print("\n--- 2. Texto Procesado (Limpieza + Stemming) ---")
print(texto_final)

In [None]:
# Aplicamos la función a toda la columna 'review'
print("Iniciando preprocesamiento masivo...")

# .apply() es eficiente, pero para datasets gigantes (>1GB) consideraríamos librerías como swifter
df['review_limpia'] = df['review'].apply(limpiar_y_stemming)

print("¡Preprocesamiento completado!")

# Mostramos resultado final comparativo
pd.set_option('display.max_colwidth', 100)
display(df[['review', 'review_limpia']].head())