## Importaciones

**re:** expresiones regulares.

**unicodedata:** da acceso a la base de datos de caracteres Unicode. Su función principal es trabajar con las propiedades de los caracteres, especialmente para normalizarlos. Un uso muy común es para eliminar acentos y diacríticos 

**ntlk:** siglas de Natural Language Toolkit. Una de las bibliotecas más famosas y completas para el PLN. Sirve para análisis de texto y lingüística  computacional, como tokenización, POS tagging, lematización y derivación (stemming), análisis de sentimiento.

In [1]:
import re
import unicodedata
import nltk
# import spacy

## Descargar "paquetes de datos"

NLTK los necesita para poder realizar ciertas tareas.

- **punkt:** contiene modelos pre-entrenados que le enseñan a NLTK a realizar la tokenización. Permite dividir un texto en una lista de oraciones, y luego esas oracoines en una lista de palabras, signos de puntuación, etc.

- **punkt_tab:** es un archivo de datos interno del que depende punkt.

- **stopwords:** descarga una lista de empty words para múltiples idiomas. Filtra y elimina estas palabras comunes para que el análisis se centre en palabras que realmente importan.

- **wordnet:** es una enorme base de datos léxica del inglés similar a un diccionario o tesauro (obra de referencia que lista palabras agrupadas según la similitud de su significado) muy avanzado. Agrupa las palabras en conjuntos de sinónimos llamados synsets. Se usa para lematización (reducir una palabra a su forma base), encontrar sinónimos y antónimos, entender las relaciones semánticas entre palabras.

In [None]:
# Descargar recursos la primera vez
nltk.download("punkt")
nltk.download("punkt_tab")
nltk.download("stopwords")
nltk.download("wordnet")

# Cargar el modelo de español de spaCy
# nlp = spacy.load("es_core_news_sm")

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\Aleex\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping tokenizers\punkt.zip.
[nltk_data] Downloading package punkt_tab to
[nltk_data]     C:\Users\Aleex\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping tokenizers\punkt_tab.zip.
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\Aleex\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\stopwords.zip.
[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\Aleex\AppData\Roaming\nltk_data...


True

## Importación de herramientas

Importan herramientas específicas de NLTK para preparar y limpiar texto antes de analizarlo.

In [3]:
from nltk.corpus import stopwords # Lista de empty words
from nltk.tokenize import word_tokenize # Función de word_tokenize
from nltk.stem import WordNetLemmatizer # Clase WordNetLemmatizer

In [4]:
# Texto de ejemplo
# "¡Hola! Me gustan los programas de Inteligenciia Artificial, especialmente en 2025!"
# "Yo no sé... ¿quizás los programas de I.A. (Inteligencia Artificial) corrían mejor en 2025?"
texto = "Los autos son más RÁPIDOS que las bicicletas, pero las bicicletas son más ecológicas."

# 1. Pasar a minúsculas
texto = texto.lower()

# 2. Eliminar puntuación
texto = re.sub(r"[^\w\s]", "", texto) # re.sub(patron, reemplazo, cadena)
# [^\w\s] el ^ indica que se busque todo lo que no esté dentro de los corchetes

# 3. Eliminar acentos, diéresis, diacríticos
texto = "".join(
    c for c in unicodedata.normalize("NFD", texto)
    if unicodedata.category(c) != "Mn"
) # separador.join(cadena) une los elementos de una cadena

print(texto)


los autos son mas rapidos que las bicicletas pero las bicicletas son mas ecologicas


## Eliminar tildes, diéresis, diacríticos

`unicodedata.normalize("NFD", texto)`
    Función que normaliza el texto a su Forma de Descomposición Normal, es decir, separa cada caracter acentuado en dos partes: la letra base y el diacrítico.

`if unicodedata.category(c) != "Mn"`
    Recorre cada uno de los caracteres del texto descompuesto. Revisa a qué categoría Unicode pertenece cada caracter, donde la categoría Mn corresponde a Mark, Nonspacing (marcas sin espaciado), que es precisamente la categoría de los acentos, tildes y diéresis. Entonces la condición significa: "quédate con este carácter únicamente si NO es un acento/diacrítico".

In [5]:
cadena = "pingüino"
cadena = unicodedata.normalize("NFD", cadena)
print([i for i in cadena])

for i in cadena:
    print(unicodedata.category(i))
    
print(texto.split())

['p', 'i', 'n', 'g', 'u', '̈', 'i', 'n', 'o']
Ll
Ll
Ll
Ll
Ll
Mn
Ll
Ll
Ll
['los', 'autos', 'son', 'mas', 'rapidos', 'que', 'las', 'bicicletas', 'pero', 'las', 'bicicletas', 'son', 'mas', 'ecologicas']


## Tokenizar

Toma la cadena de texto y la divide en una lista de sus componentes individuales.

`language="spanish"` le indica a la función que debe usar las reglas gramaticales y de puntuación del idioma español. Esto le ayuda a manejar correctamente cosas como los signos de apertura, que no existen en el inglés.

In [6]:
# 4. Tokenizar
tokens = word_tokenize(texto, language="spanish")
print(tokens)

['los', 'autos', 'son', 'mas', 'rapidos', 'que', 'las', 'bicicletas', 'pero', 'las', 'bicicletas', 'son', 'mas', 'ecologicas']


## Empty words

Da un conjunto de palabras vacías del español.

In [7]:
# 5. Eliminar stopwords (en español)
stop_words = set(stopwords.words("spanish"))
print(stop_words)
tokens = [t for t in tokens if t not in stop_words]
print(tokens)

{'habíais', 'estarán', 'fui', 'durante', 'estuvieseis', 'erais', 'sentidas', 'fueses', 'hemos', 'nosotras', 'seríamos', 'ellas', 'suyas', 'esos', 'estado', 'fuera', 'fuese', 'para', 'es', 'estuviéramos', 'me', 'teníamos', 'estad', 'serías', 'la', 'entre', 'hubimos', 'sois', 'sean', 'estabais', 'hubo', 'tuviese', 'tienes', 'estéis', 'e', 'algo', 'tuviesen', 'tuvierais', 'él', 'hube', 'estando', 'era', 'estará', 'fuésemos', 'habidos', 'estábamos', 'estaremos', 'tuvieras', 'tuvieron', 'ella', 'tuyas', 'había', 'quien', 'estemos', 'será', 'tengas', 'tuvieseis', 'una', 'nosotros', 'está', 'tuviera', 'estamos', 'estadas', 'tiene', 'eres', 'tuvieran', 'hubiesen', 'se', 'vosotros', 'sería', 'como', 'porque', 'teniendo', 'que', 'hay', 'tenida', 'tienen', 'muy', 'hubieseis', 'estaríamos', 'fuimos', 'fuisteis', 'ni', 'estuvo', 'habías', 'mías', 'tuyos', 'tuvimos', 'otras', 'suya', 'un', 'soy', 'has', 'tendrías', 'vuestro', 'sintiendo', 'eso', 'le', 'habríamos', 'por', 'qué', 'tenga', 'habrías', '

## Lematización

Convierte cada palabra de la lista tokens a su forma base. 

`lemmatizer = WordNetLemmatizer()` crea una instancia del lematizador de WordNet.

`lemmatizer.lemmatize(t)` aplica la función de lematización a cada palabra (t). El lematizador busca la palabra en su diccionario (WordNet) y la devuelve en su forma raíz.

In [8]:
# 6. Lematización
lemmatizer = WordNetLemmatizer()
tokens = [lemmatizer.lemmatize(t) for t in tokens]

print("Texto normalizado:", tokens)

Texto normalizado: ['auto', 'ma', 'rapidos', 'bicicletas', 'bicicletas', 'ma', 'ecologicas']


In [9]:
# La cadena de prueba
complicado1 = "Yo no sé... ¿quizás la I.A. (Inteligencia Artificial) es el futuro-2.0?"

print("--- MÉTODO 1: TOKENIZAR PRIMERO ---")

# 1. Tokenizar el texto original
tokens = nltk.word_tokenize(complicado1, language="spanish")
print(f"Paso 1 - Tokens iniciales: {tokens}\n")

# 2. Limpiar la lista de tokens
tokens_limpios = []
for token in tokens:
    # Pasar a minúsculas
    token_limpio = token.lower()
    
    # Quitar acentos
    token_limpio = "".join(
        c for c in unicodedata.normalize("NFD", token_limpio)
        if unicodedata.category(c) != "Mn"
    )
    
    # Nos quedamos con tokens que no son solo puntuación y tienen contenido
    # (Esto conserva "i.a." y "futuro-2.0" pero elimina "..." o "?")
    if token_limpio.isalnum() or '.' in token_limpio or '-' in token_limpio:
        if len(token_limpio) > 1 or token_limpio.isalnum():
             tokens_limpios.append(token_limpio)

print(f"Paso 2 - Tokens finales limpios: {tokens_limpios}\n")

--- MÉTODO 1: TOKENIZAR PRIMERO ---
Paso 1 - Tokens iniciales: ['Yo', 'no', 'sé', '...', '¿quizás', 'la', 'I.A', '.', '(', 'Inteligencia', 'Artificial', ')', 'es', 'el', 'futuro-2.0', '?']

Paso 2 - Tokens finales limpios: ['yo', 'no', 'se', '...', 'la', 'i.a', 'inteligencia', 'artificial', 'es', 'el', 'futuro-2.0']



In [10]:
print("--- MÉTODO 2: TOKENIZAR AL FINAL ---")

# 1. Pasar a minúsculas
texto_limpio = complicado1.lower()

# 2. Eliminar puntuación
texto_limpio = re.sub(r"[^\w\s]", "", texto_limpio)

# 3. Eliminar acentos
texto_limpio = "".join(
    c for c in unicodedata.normalize("NFD", texto_limpio)
    if unicodedata.category(c) != "Mn"
)
print(f"Paso 1 - Texto completamente limpio: '{texto_limpio}'\n")


# 4. Tokenizar el texto ya limpio
tokens_finales = nltk.word_tokenize(texto_limpio, language="spanish")
print(f"Paso 2 - Tokens resultantes: {tokens_finales}\n")

--- MÉTODO 2: TOKENIZAR AL FINAL ---
Paso 1 - Texto completamente limpio: 'yo no se quizas la ia inteligencia artificial es el futuro20'

Paso 2 - Tokens resultantes: ['yo', 'no', 'se', 'quizas', 'la', 'ia', 'inteligencia', 'artificial', 'es', 'el', 'futuro20']



## El Orden Recomendado (Más Robusto)

La lógica es:

Tokenizar: Divide el texto crudo en sus componentes básicos.

Limpiar y Filtrar: Recorre la lista de tokens y elimina los que no sirven (puntuación, stopwords).

Normalizar: Aplica la lematización a los tokens de palabras que quedaron.

In [None]:
texto1 = "Yo no sé... ¿quizás los programas de I.A. (Inteligencia Artificial) corrían mejor en 2025?"

# Paso 1: Tokenizar el texto1 original
# Esto preserva la estructura antes de que la limpieza la destruya.
tokens = word_tokenize(texto1, language="spanish")

# Paso 2: Pre-cargar las stopwords y el lematizador
# Es más eficiente hacerlo una sola vez fuera del bucle.
stop_words = set(stopwords.words("spanish"))
lemmatizer = WordNetLemmatizer()

# Paso 3: Limpiar y normalizar la lista de tokens
tokens_limpios_y_lematizados = []
for token in tokens:
    # 3a: Pasar a minúsculas
    token = token.lower()

    # 3b: Eliminar acentos
    token = "".join(
        c for c in unicodedata.normalize("NFD", token)
        if unicodedata.category(c) != "Mn"
    )

    # 3c: Filtrar tokens que son puntuación O stopwords
    # Nos quedamos solo con tokens alfabéticos que no sean stopwords.
    if token.isalpha() and token not in stop_words:
        # 3d: Lematizar el token que pasó todos los filtros
        token_lematizado = lemmatizer.lemmatize(token)
        tokens_limpios_y_lematizados.append(token_lematizado)


print("Texto1 original:", texto1)
print("\nTokens iniciales:", tokens)
print("\nTexto final normalizado:", tokens_limpios_y_lematizados)

Texto1 original: Yo no sé... ¿quizás los programas de I.A. (Inteligencia Artificial) corrían mejor en 2025?

Tokens iniciales: ['Yo', 'no', 'sé', '...', '¿quizás', 'los', 'programas', 'de', 'I.A', '.', '(', 'Inteligencia', 'Artificial', ')', 'corrían', 'mejor', 'en', '2025', '?']

Texto final normalizado: ['programas', 'inteligencia', 'artificial', 'corrian', 'mejor']
