# Clase Práctica de NLP: De Cero a Embeddings

En esta clase práctica aplicaremos los conceptos de procesamiento de texto, vectorización y embeddings utilizando SpaCy y Scikit-Learn.

**Objetivos:**
1.  Preprocesar texto crudo.
2.  Convertir texto a vectores (TF-IDF).
3.  Encontrar documentos similares.
4.  Explorar el significado semántico con Embeddings.

---

## Configuración Inicial
Ejecuta la siguiente celda para descargar los modelos necesarios.

In [None]:
!python -m spacy download es_core_news_sm
!python -m spacy download es_core_news_md

In [None]:
import spacy
import es_core_news_sm
import es_core_news_md
import numpy as np
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
from sklearn.decomposition import TruncatedSVD
import matplotlib.pyplot as plt

## Ejercicios Adicionales: Práctica Detallada

Vamos a profundizar antes de pasar a la vectorización. Realiza los siguientes mini-ejercicios.


In [None]:
texto_ejercicio = """
El procesamiento de lenguaje natural (NLP) es una rama de la inteligencia artificial.
Ayuda a las computadoras a entender, interpretar y manipular el lenguaje humano.
¿Podrá la IA escribir novelas completas algún día?
"""

doc_ejercicio = nlp(texto_ejercicio)
print(texto_ejercicio)


In [None]:
# Ejercicio A: Contar Tokens Reales
# Cuenta cuántos tokens hay en el texto EXCLUYENDO puntuación y espacios en blanco.
# Pista: Usa token.is_punct y token.is_space

def contar_tokens_reales(doc):
    contador = 0
    # TODO: Tu código aquí
    return contador

print(f"Tokens reales: {contar_tokens_reales(doc_ejercicio)}")


In [None]:
# Ejercicio B: Extraer Sustantivos
# Devuelve una lista con todos los sustantivos (NOUN) del texto.
# Pista: Usa token.pos_

def extraer_sustantivos(doc):
    sustantivos = []
    # TODO: Tu código aquí
    return sustantivos

print(f"Sustantivos: {extraer_sustantivos(doc_ejercicio)}")


In [None]:
# Ejercicio C: Extraer Verbos (Lemas)
# Devuelve una lista con los LEMAS de todos los verbos (VERB y AUX) del texto.

def extraer_verbos(doc):
    verbos_lemas = []
    # TODO: Tu código aquí
    return verbos_lemas

print(f"Verbos (Lemas): {extraer_verbos(doc_ejercicio)}")


In [None]:
# Ejercicio D: Pipeline de Limpieza Avanzado
# 1. Tokenizar
# 2. Filtrar Stop Words, Puntuación y Espacios
# 3. Devolver lista de LEMAS en minúsculas

def limpiar_texto_avanzado(texto):
    doc = nlp(texto)
    tokens_limpios = []
    # TODO: Tu código aquí
    return tokens_limpios

print(f"Texto Limpio: {limpiar_texto_avanzado(texto_ejercicio)}")


## Ejercicio 1: Limpieza y Vectorización (Nivel Básico)

**Tarea:**
1.  Carga el modelo pequeño de español (`es_core_news_sm`).
2.  Define una función `preprocesar(texto)` que:
    *   Tokenice el texto.
    *   Elimine Stop Words y puntuación.
    *   Devuelva una lista de lemas (en minúsculas).
3.  Aplica esta función a la lista de frases proporcionada.
4.  Usa `TfidfVectorizer` para convertir las frases procesadas en una matriz numérica.

**Pista:** Recuerda que `token.pos_ != 'PUNCT'` ayuda a filtrar puntuación.

In [None]:
# Datos de prueba
frases = [
    "La inteligencia artificial está transformando el mundo.",
    "El aprendizaje automático es una rama de la inteligencia artificial.",
    "Me gusta comer pizza con piña los fines de semana.",
    "Los sistemas de IA aprenden de los datos."
]

# 1. Cargar modelo
# nlp = ...

# 2. Definir función de preprocesamiento
def preprocesar(texto):
    # doc = nlp(texto)
    # tokens_limpios = [token.lemma_.lower() for token in doc if ...]
    # return " ".join(tokens_limpios)
    pass

# 3. Procesar las frases
# frases_limpias = ...
# print(frases_limpias)

# 4. Vectorizar con TF-IDF
# vectorizer = ...
# matriz_tfidf = ...
# print(matriz_tfidf.shape)
# print(vectorizer.get_feature_names_out())

## Ejercicio 2: Buscador de Similitud (Nivel Intermedio)

**Tarea:**
1.  Usa la matriz TF-IDF del ejercicio anterior.
2.  Define una nueva frase de consulta (query): `"La IA cambia la sociedad"`.
3.  Preprocesa y vectoriza esta query usando el *mismo* vectorizador (usa `.transform()`, no `.fit_transform()`).
4.  Calcula la **Similitud Coseno** entre la query y todas las frases originales.
5.  Muestra cuál es la frase más similar.

**Reto Extra (Opcional):** Aplica LSA (`TruncatedSVD`) con 2 componentes para reducir la dimensionalidad antes de comparar.

In [None]:
query = "La IA cambia la sociedad"

# 1. Preprocesar query
# query_limpia = ...

# 2. Vectorizar query
# query_vec = vectorizer.transform([query_limpia])

# 3. Calcular similitud
# similitudes = cosine_similarity(..., ...)

# 4. Mostrar resultados
# for i, sim in enumerate(similitudes[0]):
#     print(f"Frase: {frases[i]} | Similitud: {sim:.4f}")

## Ejercicio 3: Explorando Significados con Embeddings (Nivel Avanzado)

**Tarea:**
1.  Carga el modelo mediano (`es_core_news_md`) que sí tiene vectores.
2.  Define una lista de palabras: `["perro", "gato", "coche", "moto", "manzana", "banana", "ordenador"]`.
3.  Obtén los vectores (embeddings) de cada palabra.
4.  Calcula la similitud entre pares de palabras (ej: perro vs gato, perro vs coche).
5.  (Visualización) Usa PCA para reducir los vectores a 2 dimensiones y grafícalos en un plano cartesiano.

**Pregunta:** ¿Se agrupan las palabras por conceptos (animales, vehículos, comida)?

In [None]:
# 1. Cargar modelo con vectores
# nlp_md = ...

palabras = ["perro", "gato", "coche", "moto", "manzana", "banana", "ordenador"]

# 2. Obtener vectores
# vectores = [nlp_md(p).vector for p in palabras]

# 3. Calcular similitudes (ejemplo)
# token1 = nlp_md("perro")
# token2 = nlp_md("gato")
# print(token1.similarity(token2))

# 4. Visualización con PCA
# pca = PCA(n_components=2)
# vectores_2d = pca.fit_transform(vectores)

# plt.figure(figsize=(8,6))
# for i, palabra in enumerate(palabras):
#     plt.scatter(vectores_2d[i, 0], vectores_2d[i, 1])
#     plt.text(vectores_2d[i, 0]+0.02, vectores_2d[i, 1]+0.02, palabra)
# plt.show()