#
# Universidad EAFIT 
# 2025-2
#
# Lab – Clase 01 (Parte 3): Representación de texto y vectorización

Este notebook contiene ejemplos prácticos de preprocesamiento y representación clásica de texto para la clase 01 del curso de NLP Aplicado.

## ejemplos
- Aplicar técnicas de preprocesamiento: tokenización, stopwords, lematización.
- Representar texto con Bag of Words (BoW) y TF-IDF.
- Calcular similitud entre documentos.
- Visualizar con PCA.


In [None]:
# Instalación de librerías necesarias
!pip install nltk scikit-learn matplotlib seaborn --quiet

In [None]:
import nltk
nltk.download('punkt')
nltk.download('stopwords')
nltk.download('wordnet')
nltk.download('omw-1.4')
nltk.download('reuters')

## 1. Carga de un corpus de ejemplo

In [None]:
from nltk.corpus import reuters
import random

# Tomamos una muestra de documentos
docs_ids = reuters.fileids()
sample_ids = random.sample(docs_ids, 10)
documents = [reuters.raw(doc_id) for doc_id in sample_ids]
documents[:2]

## 2. Preprocesamiento del texto
- Tokenización
- Eliminación de stopwords
- Lematización

In [None]:
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from nltk.stem import WordNetLemmatizer
import string

stop_words = set(stopwords.words('english'))
lemmatizer = WordNetLemmatizer()

def preprocess(doc):
    tokens = word_tokenize(doc.lower())
    tokens = [t for t in tokens if t.isalpha() and t not in stop_words]
    tokens = [lemmatizer.lemmatize(t) for t in tokens]
    return ' '.join(tokens)

processed_docs = [preprocess(doc) for doc in documents]
processed_docs[:2]

## 3. Representación del texto: BoW y TF-IDF

In [None]:
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer

vectorizer_bow = CountVectorizer(max_features=100)
X_bow = vectorizer_bow.fit_transform(processed_docs)

vectorizer_tfidf = TfidfVectorizer(max_features=100)
X_tfidf = vectorizer_tfidf.fit_transform(processed_docs)

X_bow.toarray()[:2]

## 4. Similitud entre documentos

In [None]:
from sklearn.metrics.pairwise import cosine_similarity

sim_matrix = cosine_similarity(X_tfidf)
import seaborn as sns
import matplotlib.pyplot as plt

plt.figure(figsize=(8,6))
sns.heatmap(sim_matrix, annot=True, cmap='Blues')
plt.title("Similitud Coseno entre Documentos")
plt.show()

## 5. Visualización con PCA

In [None]:
from sklearn.decomposition import PCA

pca = PCA(n_components=2)
X_pca = pca.fit_transform(X_tfidf.toarray())

plt.figure(figsize=(8,6))
plt.scatter(X_pca[:,0], X_pca[:,1], c='blue')
plt.title("Proyección PCA de Documentos (TF-IDF)")
plt.xlabel("PC1")
plt.ylabel("PC2")
plt.grid(True)
plt.show()