# üß™ Consigna de Evaluaci√≥n Parcial - Procesamiento de Texto y Clustering

## üéØ Objetivo
#### Aplicar t√©cnicas de procesamiento de texto y representaci√≥n vectorial para agrupar comentarios en espa√±ol en funci√≥n de su contenido sem√°ntico, utilizando t√©cnicas de clustering no supervisado.

In [1]:
# Importaciones necesarias
import pandas as pd
import nltk
from datasets import load_dataset
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer



In [2]:
# Procesamiento
nltk.download('punkt')
nltk.download('stopwords')
nltk.download('wordnet')

[nltk_data] Downloading package punkt to
[nltk_data]     /Users/lolonastri/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     /Users/lolonastri/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to
[nltk_data]     /Users/lolonastri/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


True

In [3]:
# Lista de stopwords en ingl√©s
stop_words = set(stopwords.words('english'))
lemmatizer = WordNetLemmatizer()

In [4]:
# Cargar el dataset IMDb (en ingl√©s)
dataset = load_dataset("imdb")

In [5]:
# Tomamos una muestra de 1000 textos
df = pd.DataFrame(dataset['train']).sample(frac=0.02, random_state=42).reset_index(drop=True)

In [6]:
# Mostramos los primeros textos originales
print("Ejemplos originales:")
for i in range(3):
    print(f"{i+1}. {df['text'][i][:200]}...\n")

Ejemplos originales:
1. Dumb is as dumb does, in this thoroughly uninteresting, supposed black comedy. Essentially what starts out as Chris Klein trying to maintain a low profile, eventually morphs into an uninspired version...

2. I dug out from my garage some old musicals and this is another one of my favorites. It was written by Jay Alan Lerner and directed by Vincent Minelli. It won two Academy Awards for Best Picture of 195...

3. After watching this movie I was honestly disappointed - not because of the actors, story or directing - I was disappointed by this film advertisements.<br /><br />The trailers were suggesting that the...



---

## 1. Preprocesamiento de texto

Aplic√° las siguientes tareas sobre una columna de comentarios o textos en espa√±ol:

- **Tokenizaci√≥n:** Convert√≠ cada texto en una secuencia de palabras.
- **Eliminaci√≥n de stopwords:** Remov√© palabras vac√≠as utilizando una lista en espa√±ol.
- **Stemming o Lematizaci√≥n:** Eleg√≠ una de las dos t√©cnicas y aplicala sobre los tokens procesados.

üìå *Mostr√° ejemplos del texto antes y despu√©s del preprocesamiento.*

In [7]:
import string
# Funci√≥n de preprocesamiento
def preprocess_text(text):
    tokens = text.lower().split()  # tokenizaci√≥n b√°sica
    tokens = [t.strip(string.punctuation) for t in tokens if t.isalpha()]  # limpiar signos
    tokens = [t for t in tokens if t not in stop_words]  # quitar stopwords
    tokens = [lemmatizer.lemmatize(t) for t in tokens]  # lematizar
    return tokens


In [8]:
# Columna con tokens preprocesados
df['tokens'] = df['text'].apply(preprocess_text)

# Mostrar ejemplos antes y despu√©s
for i in range(3):
    print(f"\nüìÑ Texto original #{i+1}:\n{df['text'][i][:300]}...\n")
    print(f"‚úÖ Tokens procesados #{i+1}:\n{df['tokens'][i][:30]}...\n")


üìÑ Texto original #1:
Dumb is as dumb does, in this thoroughly uninteresting, supposed black comedy. Essentially what starts out as Chris Klein trying to maintain a low profile, eventually morphs into an uninspired version of "The Three Amigos", only without any laughs. In order for black comedy to work, it must be outra...

‚úÖ Tokens procesados #1:
['dumb', 'dumb', 'thoroughly', 'supposed', 'black', 'essentially', 'start', 'chris', 'klein', 'trying', 'maintain', 'low', 'eventually', 'morphs', 'uninspired', 'version', 'three', 'without', 'order', 'black', 'comedy', 'must', 'order', 'black', 'comedy', 'cannot', 'mean', 'really', 'town', 'full']...


üìÑ Texto original #2:
I dug out from my garage some old musicals and this is another one of my favorites. It was written by Jay Alan Lerner and directed by Vincent Minelli. It won two Academy Awards for Best Picture of 1951 and Best Screenplay. The story of an American painter in Paris who tries to make it big. Nina Foch...

‚úÖ Tokens

---

## 2. Representaci√≥n vectorial

Convert√≠ los textos preprocesados en vectores num√©ricos utilizando alguna de las siguientes t√©cnicas:

- Bag-of-Words (BoW)
- TF-IDF (preferido si vas a comparar pesos entre palabras)

üìå *Visualiz√° brevemente la matriz resultante y cont√° cu√°ntas dimensiones tiene.*

# 1) BoW

In [9]:
# Unir los tokens preprocesados en un string nuevamente
df['clean_text'] = df['tokens'].apply(lambda tokens: ' '.join(tokens))

In [10]:
from sklearn.feature_extraction.text import CountVectorizer

# Crear vectorizador BoW
bow_vectorizer = CountVectorizer()
X_bow = bow_vectorizer.fit_transform(df['clean_text'])

print(f"üß± Matriz BoW: {X_bow.shape}")
print(f"üìÑ Ejemplo de palabras:\n{bow_vectorizer.get_feature_names_out()[:20]}")

üß± Matriz BoW: (500, 8993)
üìÑ Ejemplo de palabras:
['aamir' 'abandon' 'abandoned' 'abashed' 'abby' 'abc' 'abdominal'
 'abducted' 'abducting' 'abetted' 'ability' 'abject' 'able' 'aboard'
 'abominable' 'abomination' 'aboriginal' 'aborted' 'abound' 'abroad']


# 2) TF-IDF

In [11]:
from sklearn.feature_extraction.text import TfidfVectorizer

# Crear el vectorizador TF-IDF
tfidf_vectorizer = TfidfVectorizer()

# Transformar el texto a vectores num√©ricos
X_tfidf = tfidf_vectorizer.fit_transform(df['clean_text'])

In [12]:
# Mostrar forma de la matriz y algunas palabras
print(f"‚úÖ La matriz TF-IDF tiene forma: {X_tfidf.shape}")
print(f"üß† N√∫mero de dimensiones (palabras √∫nicas): {len(tfidf_vectorizer.get_feature_names_out())}")

‚úÖ La matriz TF-IDF tiene forma: (500, 8993)
üß† N√∫mero de dimensiones (palabras √∫nicas): 8993


In [13]:
# Ver algunas features (palabras del vocabulario)
print(f"\nüî§ Algunas palabras del vocabulario:\n{tfidf_vectorizer.get_feature_names_out()[:20]}")


üî§ Algunas palabras del vocabulario:
['aamir' 'abandon' 'abandoned' 'abashed' 'abby' 'abc' 'abdominal'
 'abducted' 'abducting' 'abetted' 'ability' 'abject' 'able' 'aboard'
 'abominable' 'abomination' 'aboriginal' 'aborted' 'abound' 'abroad']


# 3) Embeddings

---

## 3. Agrupamiento (Clustering)

Aplic√° un algoritmo de clustering no supervisado para agrupar los comentarios:

- Puede ser **KMeans**, **Agglomerative Clustering** o **DBSCAN**.
- Determin√° el n√∫mero de clusters si es necesario (por ejemplo, usando el m√©todo del codo para KMeans).
- Asign√° cada comentario a un grupo (cluster).

üìå *Visualiz√° los clusters utilizando reducci√≥n de dimensionalidad (por ejemplo con PCA, t-SNE o UMAP).*

---

## 4. An√°lisis e interpretaci√≥n

- Describ√≠ brevemente qu√© patrones observ√°s en cada cluster.
- Mostr√° ejemplos representativos de cada grupo.
- Discut√≠ si los clusters parecen alinearse con diferentes tonos, temas o polaridades de los textos.


---

## üí° Bonus (opcional)

- Etiquet√° manualmente una muestra de los textos con polaridad (positivo/negativo) y analiz√° si los clusters coinciden con estas etiquetas.
- Compar√° los resultados usando TF-IDF vs BoW.