In [1]:
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
from sklearn.naive_bayes import MultinomialNB, ComplementNB
from sklearn.metrics import f1_score

# 20newsgroups por ser un dataset clásico de NLP ya viene incluido y formateado
# en sklearn
from sklearn.datasets import fetch_20newsgroups
import numpy as np

In [2]:
# cargamos los datos (ya separados de forma predeterminada en train y test)
newsgroups_train = fetch_20newsgroups(subset='train', remove=('headers', 'footers', 'quotes'))
newsgroups_test = fetch_20newsgroups(subset='test', remove=('headers', 'footers', 'quotes'))

### Punto 1

Vectorizar documentos. Tomar 5 documentos al azar y medir similaridad con el resto de los documentos.
Estudiar los 5 documentos más similares de cada uno analizar si tiene sentido
la similaridad según el contenido del texto y la etiqueta de clasificación.

Primero vectorizamos:

In [3]:
tfidfvect = TfidfVectorizer()
X_train = tfidfvect.fit_transform(newsgroups_train.data)
y_train = newsgroups_train.target

Sorteamos 5 documentos:

In [4]:
# Elegimos 5 documentos al azar del conjunto de entrenamiento
docs = np.random.choice(X_train.shape[0], size=5, replace=False)

# Guardamos cada doc en su variable
doc1 = newsgroups_train.data[docs[0]]
doc2 = newsgroups_train.data[docs[1]]
doc3 = newsgroups_train.data[docs[2]]
doc4 = newsgroups_train.data[docs[3]]
doc5 = newsgroups_train.data[docs[4]]


Para imprimir los documentos:

In [5]:

print("Documento 1:\n", doc1[:300], "...\n")
print("Documento 2:\n", doc2[:300], "...\n")
print("Documento 3:\n", doc3[:300], "...\n")
print("Documento 4:\n", doc4[:300], "...\n")
print("Documento 5:\n", doc5[:300], "...\n")

Documento 1:
 VESA local bus motherboard,
4MB RAM,
64K cache,
1.2 & 1.44 Floppy,
130 MB Hard Drive,
IDE controller (2HD&2FD)
2S/1P/1G
Local Bus 1MB SVGA Video Card,
14" SVGA Monitor (.28dpi)
Mini Tower, 101-key Keyboard ...

Documento 2:
 I have a BACK MACHINE and have had one since January.  While I have not 
found it to be a panacea for my back pain, I think it has helped somewhat. 
It MAINLY acts to stretch muscles in the back and prevent spasms associated
with pain.  I am taking less pain medication than I was previously.  
   Th ...

Documento 3:
 I HATE long postings, but this turned out to be rather lengthy....


Overall Crime rate:
It fell....just like that...

Acquiring weapons in Norway:
You can buy (almost) all kinds of weapons in Norway, BUT you must have a 
permit, and a good reason to get the permit....
If I would like to have a hand ...

Documento 4:
 
Well I can buy a bigger and more powerful server machine because of the 
significant drop in price year after year.  The

Medimos la similaridad con el resto de los documentos y vemos los 5 más similares para cada uno:

In [6]:
for doc in docs:
    print("\nDocumento índice:", doc)
    print("Clase del documento:")
    print(newsgroups_train.target_names[newsgroups_train.target[doc]])
    
    cossim = cosine_similarity(X_train[doc], X_train)[0]
    mostsim = np.argsort(cossim)[::-1][1:6]
    
    print("\nLos 5 documentos más similares son:")
    for i in mostsim:
        primera_linea = newsgroups_train.data[i].split("\n")[0]
        print("-", newsgroups_train.target_names[newsgroups_train.target[i]], " | ", primera_linea)



Documento índice: 1860
Clase del documento:
misc.forsale

Los 5 documentos más similares son:
- comp.sys.ibm.pc.hardware  |  After a rough start purchasing a 486 system (see earlier post), I'm trying
- misc.forsale  |  From: sam.halperin@cccbbs.uceng
- comp.sys.ibm.pc.hardware  |  I have a 486DX 25mhz with local bus.  Would I see much of an increase in
- comp.sys.ibm.pc.hardware  |  
- comp.graphics  |  

Documento índice: 7402
Clase del documento:
sci.med

Los 5 documentos más similares son:
- sci.med  |  I noticed several years ago that when I took analgesics fairly regularly,
- sci.med  |  presented
- sci.med  |  I need advice with a situation which occurred between me and a physican
- sci.med  |  As promised, below is a personal critique of a Pressure Point Massager 
- sci.med  |  I am not sure if this is the proper group to post this to but here goes anyway.

Documento índice: 1475
Clase del documento:
talk.politics.guns

Los 5 documentos más similares son:
- talk.politics.guns  

Al menos por las clases de los documentos se puede ver que parece que el algoritmo está funcionando bien ya que las mismas, entre documentos que se suponen similares, parecen coincidir bastante. Ahora vamos a imprimir los primeros 250 caracteres de uno de estos documentos al azar y de sus 5 más similares para ver si la similitud se puede corroborar en la lectura de esas secciones.

In [7]:
# Elegimos un documento al azar de los ya sorteados
doc = np.random.choice(docs, size=1)[0]

print("Documento índice:", doc)
print("Clase:", newsgroups_train.target_names[newsgroups_train.target[doc]])
print("\nTexto (primeros 250 caracteres):")
print(newsgroups_train.data[doc][:250], "...\n")

# Calculamos la similaridad coseno con todos los documentos de train
cossim = cosine_similarity(X_train[doc], X_train)[0]
mostsim = np.argsort(cossim)[::-1][1:6]

print("Documentos más similares:\n")
t = 1
for i in mostsim:
    print(f"-------------------Documento {t}:----------------------")
    t = t + 1
    print("Clase:", newsgroups_train.target_names[newsgroups_train.target[i]])
    print(newsgroups_train.data[i][:250], "...\n")


Documento índice: 5433
Clase: comp.windows.x

Texto (primeros 250 caracteres):

Well I can buy a bigger and more powerful server machine because of the 
significant drop in price year after year.  The link I want to use 
though (ISDN 64K) is costly and the bandwidth limited.  That's why my
interest lies in seeing if such a link ...

Documentos más similares:

-------------------Documento 1:----------------------
Clase: comp.windows.x

What sort of traffic is generated with the X-calls?  I am curious to find
out the required bandwidth that a link must have  if one machine running
DV/X is supporting multiple users (clients) and we require adequate response
time.  Anyone have any id ...

-------------------Documento 2:----------------------
Clase: sci.crypt
Archive-name: net-privacy/part1
Last-modified: 1993/3/3
Version: 2.1


IDENTITY, PRIVACY, and ANONYMITY on the INTERNET

(c) 1993 L. Detweiler.  Not for commercial use except by permission
from author, ...

-------------------Documento

Luego de repetir la prueba varias veces se ve que la lectura de los textos (primeros 250 caracteres) confirma la similitud entre los documentos. 

### Punto 2

Construir un modelo de clasificación por prototipos (tipo zero-shot). Clasificar los documentos de un conjunto de test comparando cada uno con todos los de entrenamiento y asignar la clase al label del documento del conjunto de entrenamiento con mayor similaridad.

In [8]:
# Vectorizamos el conjunto de test con el mismo vectorizador
X_test = tfidfvect.transform(newsgroups_test.data)

# Para cada documento de test buscamos el documento de train más similar
y_pred = []
for i in range(X_test.shape[0]):
    cossim = cosine_similarity(X_test[i], X_train)[0]
    doc_max = np.argmax(cossim)      # El más parecido
    pred_label = newsgroups_train.target[doc_max]
    y_pred.append(pred_label)

# Pasamos a array de numpy antes de evaular 
y_pred = np.array(y_pred)

print("Macro F1 en test:", f1_score(newsgroups_test.target, y_pred, average="macro"))


Macro F1 en test: 0.5049911553681621


El clasificador por prototipos con similaridad coseno logró un F1 macro de 0.50, esto muestra que es posible capturar bastante bien la estructura temática de los documentos.

### Punto 3

Entrenar modelos de clasificación Naïve Bayes para maximizar el desempeño de clasificación
(f1-score macro) en el conjunto de datos de test. Considerar cambiar parámteros
de instanciación del vectorizador y los modelos y probar modelos de Naïve Bayes Multinomial
y ComplementNB.


Para este punto decidimos primero probar con el mismo vectorizador ya instanciado antes y luego retocar los parámetros para ver si mejora el resultado final. 

A continuación vamos a crear los dos modelos:

In [None]:
# Multinomial Naïve Bayes
clf = MultinomialNB()
clf.fit(X_train, y_train)

x_test = tfidfvect.transform(newsgroups_test.data)
y_test = newsgroups_test.target
y_pred = clf.predict(x_test)

print("F1 macro con MultinomialNB:", f1_score(y_test, y_pred, average='macro'))

F1 macro con MultinomialNB: 0.5854345727938506


In [10]:
#Complement Naïve Bayes
clf = ComplementNB()
clf.fit(X_train, y_train)

x_test = tfidfvect.transform(newsgroups_test.data)
y_test = newsgroups_test.target
y_pred = clf.predict(x_test)

print("F1 macro con ComplementNB:", f1_score(y_test, y_pred, average='macro'))

F1 macro con ComplementNB: 0.692953349950875


Sin haber todavía experimentado con los parámetros del vectorizador pordemos ver que el F1 de ambos modelos es bastente mejor (sobre todo en el CNB) que el del modelo de clasificación por prototipos. 

Veremos ahora qué pasa si usamos stop words, si usamos unigramas y bigramas y si excluimos las palabras demasiado frecuentes y muy poco frecuentes en los documentos. 

Para eso volveremos a instanciar el vectorizador utilizando algunos de sus parámetros:

In [11]:

tfidfvect = TfidfVectorizer(stop_words='english', ngram_range=(1,2), min_df=3, max_df=0.9)

# Vectorizamos de nuevo
X_train = tfidfvect.fit_transform(newsgroups_train.data)
y_train = newsgroups_train.target
x_test = tfidfvect.transform(newsgroups_test.data)
y_test = newsgroups_test.target

Volvemos a probar los modelos:

In [12]:
# Multinomial Naïve Bayes
clf = MultinomialNB()
clf.fit(X_train, y_train)

y_pred = clf.predict(x_test)
print("F1 macro con MultinomialNB:", f1_score(y_test, y_pred, average='macro'))

F1 macro con MultinomialNB: 0.6512187819033597


In [13]:
# Complement Naïve Bayes 
clf = ComplementNB()
clf.fit(X_train, y_train)

y_pred = clf.predict(x_test)
print("F1 macro con ComplementNB:", f1_score(y_test, y_pred, average='macro'))

F1 macro con ComplementNB: 0.6998859814364937


Conclusiones: 

- Con el vectorizador por defecto, MultinomialNB logró un F1 macro de 0.58 y CNB de 0.69.  
- Ajustando parámetros del vectorizador (stopwords, n-grams y umbrales de frecuencia), el rendimiento mejoró: MultinomialNB alcanzó 0.65 y ComplementNB 0.70.  
- Esto muestra que la calidad de la vectorización es importante para el resultado. ComplementNB sigue siendo el mejor aunque prácticamente no se vió beneficiado del nuevo vectorizador.


### Punto 4

Transponer la matriz documento-término. De esa manera se obtiene una matriz
término-documento que puede ser interpretada como una colección de vectorización de palabras.
Estudiar ahora similaridad entre palabras tomando 5 palabras y estudiando sus 5 más similares. **La elección de palabras no debe ser al azar para evitar la aparición de términos poco interpretables, elegirlas "manualmente"**.

Antes de continuar con este punto volvemos al vectorizador inicial para evitar que nos muestre bigramas en lugar de palabras sueltas:

In [14]:
tfidfvect = TfidfVectorizer()

# Vectorizamos de nuevo
X_train = tfidfvect.fit_transform(newsgroups_train.data)
y_train = newsgroups_train.target
x_test = tfidfvect.transform(newsgroups_test.data)
y_test = newsgroups_test.target

In [15]:
# Transponemos la matriz documento-término
X_words = X_train.T

# vocabulario: índice -> palabra
vocab = np.array(tfidfvect.get_feature_names_out())

# Elegimos manualmente 5 palabras 
chosen_words = ["congres", "neighborhood", "mars", "christian", "science"]

for word in chosen_words:
    if word in tfidfvect.vocabulary_:
        idx = tfidfvect.vocabulary_[word]
        # calculamos similaridad coseno con todas las demás palabras
        cossim = cosine_similarity(X_words[idx], X_words)[0]
        cossim[idx] = -1  # Ignoramos la palabra consigo misma
        mostsim = np.argsort(cossim)[::-1][:5]
        
        print(f"\nPalabra base: {word}")
        print("Palabras más similares:")
        for i in mostsim:
            print("-", vocab[i])
  



Palabra base: congres
Palabras más similares:
- actionm
- deicisons
- propogranda
- delcaration
- discusing

Palabra base: neighborhood
Palabras más similares:
- pol
- demise
- alchohol
- estimates
- pot

Palabra base: mars
Palabras más similares:
- observer
- agian
- exobiologists
- rushmore
- landforms

Palabra base: christian
Palabras más similares:
- christianity
- christ
- favourably
- supremist
- christians

Palabra base: science
Palabras más similares:
- cognitivists
- behaviorists
- scientific
- empirical
- sects


Los resultados obtenidos parecen tener bastante sentido:

Para la palabra “congreso” (la tuve que poner como "congres" y no "congress") surgieron cinco términos muy relacionados con la práctica política, como acción, decisión, propaganda, declaración y discusión.

Para la palabra “vecindario” las asociaciones sugieren que suele aparecer en contextos de mediciones estadísticas para abordar algún problema social (como adicciones).

En el caso de “Marte”, la relación es menos obvia, probablemente porque no está tan presente en muchos documentos. Pero palabras como observador y exobiólogo mantienen cierta conexión con Marte y con actividades de la NASA por ejemplo.

Con la palabra “cristiano” aparecieron Cristo, cristianos y cristianismo, que son demasiado similares entre sí (algo que quizá podría resolverse con stemming). Además, surgieron favorable y supremacista, términos que suelen vincularse al debate político en torno a los cristianos en Estados Unidos.

Por último, para la palabra “ciencia” aparecieron términos muy cercanos, propios de distintas prácticas científicas. Llama la atención la aparición de sectas, lo que sugiere que en este corpus también se contrasta con frecuencia la diferencia entre ambas categorías.