Actividad 7 – Ejercicios de Representación de Texto

Ejercicio 1

In [7]:
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer

corpus_es = [
    "Me encantó la película, los actores fueron increíbles",
    "No me gustó la película, el guion fue muy malo",
    "La actuación fue excelente, pero la historia era predecible",
    "Película aburrida, me dormí a la mitad",
    "¡Maravillosa! Recomiendo esta película a todos mis amigos",
    "El guion estaba mal escrito, pero la actuación salvó la película",
    "Demasiado larga y lenta, no la volvería a ver",
    "Me gustó mucho, los efectos especiales fueron impresionantes",
    "No es mala, pero esperaba algo más emocionante",
    "Una obra maestra del cine español, increíble dirección"
]

def primeros_tokens_indices(vectorizer, n=10):
    vocab = vectorizer.vocabulary_
    return sorted(vocab.items(), key=lambda kv: kv[1])[:n]

# --- CountVectorizer crudo ---
cv = CountVectorizer()
X_cv = cv.fit_transform(corpus_es)
print("=== Ejercicio 1 - CountVectorizer (crudo) ===")
print("Dimensiones:", X_cv.shape)
print("Primeros 10 tokens+índices:", primeros_tokens_indices(cv, 10))
print()

# --- TF-IDF crudo ---
tfidf = TfidfVectorizer()
X_tfidf = tfidf.fit_transform(corpus_es)
print("=== Ejercicio 1 - TF-IDF (crudo) ===")
print("Dimensiones:", X_tfidf.shape)
print("Primeros 10 tokens+índices:", primeros_tokens_indices(tfidf, 10))


=== Ejercicio 1 - CountVectorizer (crudo) ===
Dimensiones: (10, 57)
Primeros 10 tokens+índices: [('aburrida', 0), ('actores', 1), ('actuación', 2), ('algo', 3), ('amigos', 4), ('cine', 5), ('del', 6), ('demasiado', 7), ('dirección', 8), ('dormí', 9)]

=== Ejercicio 1 - TF-IDF (crudo) ===
Dimensiones: (10, 57)
Primeros 10 tokens+índices: [('aburrida', 0), ('actores', 1), ('actuación', 2), ('algo', 3), ('amigos', 4), ('cine', 5), ('del', 6), ('demasiado', 7), ('dirección', 8), ('dormí', 9)]


In [8]:
# Stopwords en español (LISTA)
spanish_stopwords = [
    "a","acá","ahí","al","algo","algunas","algunos","allá","alli","ante","antes","aqui","así",
    "aún","cada","como","con","contra","cual","cuales","cuando","de","del","desde","donde",
    "dos","el","ella","ellas","ellos","en","entre","era","erais","eran","eras","eres","es",
    "esa","esas","ese","eso","esos","esta","estaba","estaban","estamos","estan","estar",
    "estas","este","esto","estos","estoy","fue","fueron","han","hasta","hay","la","las","le",
    "les","lo","los","más","me","mi","mis","muy","ni","no","nos","nosotros","o","otra","otros",
    "para","pero","poco","por","porque","que","se","sea","ser","si","sí","sin","sobre","su",
    "sus","tal","también","tan","te","tenemos","tiene","tienen","toda","todo","todos","tu",
    "tus","un","una","uno","unos","usted","ustedes","y","ya"
]

# --- CountVectorizer pre ---
cv2 = CountVectorizer(
    lowercase=True,
    strip_accents='unicode',
    stop_words=spanish_stopwords
)
X_cv2 = cv2.fit_transform(corpus_es)
print("=== Ejercicio 2 - CountVectorizer (preprocesado) ===")
print("Dimensiones:", X_cv2.shape)
print("Primeros 10 tokens+índices:", primeros_tokens_indices(cv2, 10))
print()

# --- TF-IDF pre ---
tfidf2 = TfidfVectorizer(
    lowercase=True,
    strip_accents='unicode',
    stop_words=spanish_stopwords
)
X_tfidf2 = tfidf2.fit_transform(corpus_es)
print("=== Ejercicio 2 - TF-IDF (preprocesado) ===")
print("Dimensiones:", X_tfidf2.shape)
print("Primeros 10 tokens+índices:", primeros_tokens_indices(tfidf2, 10))


=== Ejercicio 2 - CountVectorizer (preprocesado) ===
Dimensiones: (10, 39)
Primeros 10 tokens+índices: [('aburrida', 0), ('actores', 1), ('actuacion', 2), ('amigos', 3), ('cine', 4), ('demasiado', 5), ('direccion', 6), ('dormi', 7), ('efectos', 8), ('emocionante', 9)]

=== Ejercicio 2 - TF-IDF (preprocesado) ===
Dimensiones: (10, 39)
Primeros 10 tokens+índices: [('aburrida', 0), ('actores', 1), ('actuacion', 2), ('amigos', 3), ('cine', 4), ('demasiado', 5), ('direccion', 6), ('dormi', 7), ('efectos', 8), ('emocionante', 9)]


### Conclusiones

En el ejercicio 1, al usar el texto sin procesar, la matriz quedó con un vocabulario de aproximadamente 57 términos, en el que se incluían artículos, pronombres y otras palabras poco útiles. CountVectorizer mostró solo las frecuencias de estos términos y TF-IDF ajustó sus pesos, pero el ruido todavía estaba presente.

En el ejercicio 2, después del preprocesamiento (minúsculas, normalización de acentos y eliminación de stopwords en español), el vocabulario se redujo a unos 39 términos. Esto permitió eliminar gran parte del ruido y conservar palabras más representativas como *guion*, *actuacion* o *efectos*. En este escenario, CountVectorizer ya ofreció resultados más claros y TF-IDF resaltó mejor las diferencias entre reseñas.

En conjunto, el preprocesamiento resultó clave para obtener representaciones más limpias y prácticas. La alternativa más útil es **TF-IDF con preprocesamiento**, porque concentra la información en los términos relevantes y descarta lo que no aporta valor.
