# Desafío 1

In [1]:
#################################  Imports  ##################################
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer #
from sklearn.metrics.pairwise import cosine_similarity                       #               
from sklearn.naive_bayes import MultinomialNB, ComplementNB                  #
from sklearn.metrics import f1_score                                         #
from sklearn.datasets import fetch_20newsgroups                              #
import numpy as np                                                           #
##############################################################################

### **1)** Vectorizar documentos. Tomar 5 documentos al azar y medir similaridad con el resto de los documentos. Estudiar los 5 documentos más similares de cada uno analizar si tiene sentido la similaridad según el contenido del texto y la etiqueta de clasificación.


In [2]:
# Realicemos lo pedido con el dataset de  20 newgroups, fetcheándolo como vimos en clase:
train_set = fetch_20newsgroups(subset='train', remove=('headers', 'footers', 'quotes'))
test_set = fetch_20newsgroups(subset='test', remove=('headers', 'footers', 'quotes'))

# Como ya conocemos el dataset, pasemos a la vectorización.
# Creamos el vectorizador:
vectorizer = TfidfVectorizer()

# Usando el vectorizador, creamos la matriz documento-término:
train_X = vectorizer.fit_transform(train_set.data)

# Guardamos los labels en un vector 'y':
train_y = train_set.target
labels = train_set.target_names # <- Lo usamos para printear clases por pantalla más adelante

# Midamos la similitud de 5 elementos cualquiera con el resto de documentos:
document_ids = [7, 70, 75, 700, 750]
cossims = cosine_similarity(train_X[document_ids], train_X)

# Esto nos devuelve una matriz donde cada fila es un documento con valores de similitud para con los demás
# documentos en cada columna.

# Observemos los tres documentos más similares de cada uno:

for idx, docsim in zip(document_ids, cossims):
    # Ordenamos de forma descendiente la fila para ver los 3 más grandes, e ignoramos el primer valor (será la similitud consigo mismo):
    similar_indices = np.argsort(docsim)[::-1][1:4]
    print(f"Documento {idx} ({labels[train_y[idx]]}): (Similar a {similar_indices})---------")
    for i in similar_indices:
        print(f" - Doc {i} ({labels[train_y[i]]}): {docsim[i]:.4f}")
    

Documento 7 (comp.sys.ibm.pc.hardware): (Similar a [1194 4370 5489])---------
 - Doc 1194 (comp.sys.ibm.pc.hardware): 0.8722
 - Doc 4370 (comp.sys.ibm.pc.hardware): 0.8562
 - Doc 5489 (comp.sys.ibm.pc.hardware): 0.8090
Documento 70 (talk.politics.mideast): (Similar a [5423 3694 8799])---------
 - Doc 5423 (talk.politics.mideast): 0.7273
 - Doc 3694 (talk.politics.mideast): 0.6746
 - Doc 8799 (talk.politics.mideast): 0.6627
Documento 75 (sci.electronics): (Similar a [ 9192 10919  7473])---------
 - Doc 9192 (sci.electronics): 0.2402
 - Doc 10919 (sci.electronics): 0.2139
 - Doc 7473 (sci.electronics): 0.1788
Documento 700 (comp.graphics): (Similar a [4166 2350 6987])---------
 - Doc 4166 (comp.graphics): 0.3628
 - Doc 2350 (sci.crypt): 0.3620
 - Doc 6987 (comp.graphics): 0.3568
Documento 750 (sci.med): (Similar a [11156  6814  3137])---------
 - Doc 11156 (sci.med): 0.4555
 - Doc 6814 (sci.med): 0.3357
 - Doc 3137 (sci.med): 0.3033


Podemos observar que el método de la similitud coseno en rasgos generales asigna similitud a documentos con la misma etiqueta. Estas etiquetas han sido puestas a mano, por lo que reflejan las temáticas de los documentos.

_(Nota: se saltea el paso de mostrar los documentos por pantalla para no sobrecargar de texto el notebook)._

Sin embargo, vemos una excepción en el análisis del documento 700, donde un documento de otra clase (2350) se puntúa más similar que otro de la misma clase (6987).

Como paso adicional, leamos estos tres documentos para entenderlo mejor:

#### Documentos:

##### 700:

In [3]:
print(train_set.data[700])

-------------------------------------
	+ ............The OTIS Project '93  +      
	+ "The Operative Term Is STIMULATE" + 
	-------------------------------------
	---this file last updated..4-21-93---


WHAT IS OTIS?

OTIS is here for the purpose of distributing original artwork
and photographs over the network for public perusal, scrutiny,    
and distribution.  Digital immortality.

The basic idea behind "digital immortality" is that computer networks   
are here to stay and that anything interesting you deposit on them
will be around near-forever.  The GIFs and JPGs of today will be the
artifacts of a digital future.  Perhaps they'll be put in different
formats, perhaps only surviving on backup tapes....but they'll be
there...and someone will dig them up.  
 
If that doesn't interest you... OTIS also offers a forum for critique
and exhibition of your works....a virtual art gallery that never closes
and exists in an information dimension where your submissions will hang
as wallpaper 

##### 2350:

In [4]:
print(train_set.data[2350])

Archive-name: net-privacy/part1
Last-modified: 1993/3/3
Version: 2.1


IDENTITY, PRIVACY, and ANONYMITY on the INTERNET

(c) 1993 L. Detweiler.  Not for commercial use except by permission
from author, otherwise may be freely copied.  Not to be altered. 
Please credit if quoted.

SUMMARY

Information on email and account privacy, anonymous mailing and 
posting, encryption, and other privacy and rights issues associated
with use of the Internet and global networks in general.

(Search for <#.#> for exact section. Search for '_' (underline) for
next section.)

PART 1

Identity
--------
<1.1> What is `identity' on the internet?
<1.2> Why is identity (un)important on the internet?
<1.3> How does my email address (not) identify me and my background?
<1.4> How can I find out more about somebody from their email address?
<1.5> Why is identification (un)stable on the internet? 
<1.6> What is the future of identification on the internet?

Privacy
-------
<2.1> What is `privacy' on the internet?

##### 6987:

In [5]:
print(train_set.data[6987])

Archive-name: jpeg-faq
Last-modified: 18 April 1993

This FAQ article discusses JPEG image compression.  Suggestions for
additions and clarifications are welcome.

New since version of 3 April 1993:
  * New versions of Image Archiver and PMJPEG for OS/2.


This article includes the following sections:

[1]  What is JPEG?
[2]  Why use JPEG?
[3]  When should I use JPEG, and when should I stick with GIF?
[4]  How well does JPEG compress images?
[5]  What are good "quality" settings for JPEG?
[6]  Where can I get JPEG software?
    [6A] "canned" software, viewers, etc.
    [6B] source code
[7]  What's all this hoopla about color quantization?
[8]  How does JPEG work?
[9]  What about lossless JPEG?
[10]  Why all the argument about file formats?
[11]  How do I recognize which file format I have, and what do I do about it?
[12]  What about arithmetic coding?
[13]  Does loss accumulate with repeated compression/decompression?
[14]  What are some rules of thumb for converting GIF images to JPEG

En un análisis superficial, y teniendo en cuenta el método usado (vectorización y similitud coseno, formato _"bag of words"_) podría sospecharse que en formatos como los del documento 6987 (FAQ con header de metadata) la relación entre la frecuencia de palabras usadas y la etiqueta se pierde un poco debido a la fuerte estructuración y redundancia del texto, que altera la frecuencia básica de otros documentos más convencionales como los redactados en prosa estándar (estamos ignorando por completo la secuencia o estructura del documento).


### **2)**  Entrenar modelos de clasificación Naïve Bayes para maximizar el desempeño de clasificación (f1-score macro) en el conjunto de datos de test. Considerar cambiar parámteros de instanciación del vectorizador y los modelos y probar modelos de Naïve Bayes Multinomialy ComplementNB.

In [6]:
# Primero vectorizamos el conjunto de test:
test_X = vectorizer.transform(test_set.data)
test_y = test_set.target

# Usamos las clases de sklearn como vimos en clase:
multiNB = MultinomialNB()
complNB = ComplementNB() # <- Para comparar el multinomial con el ComplementNB
multiNB.fit(train_X, train_y)
complNB.fit(train_X, train_y)

Para poder entender mejor lo que representará la métrica, analicemos cual sería el valor trivial de la misma.

In [7]:
# Contamos las frecuencias de cada clase de documento
labels, counts = np.unique(train_set.target, return_counts=True)
most_frequent_class = labels[np.argmax(counts)]
most_frequent_class_prop = counts.max() / counts.sum()

# Creamos predicciones triviales (siempre predecir la clase mayoritaria):
trivial_pred = [most_frequent_class] * len(train_set.target)
trivial_true = train_set.target

# Calculamos f1 trivial
f1 = f1_score(trivial_true, trivial_pred, average='macro')

print(f"Clase mayoritaria: {most_frequent_class} con una proporción de: {most_frequent_class_prop:.2f}")
print(f"F1-score trivial: {f1:.3f}")

Clase mayoritaria: 10 con una proporción de: 0.05
F1-score trivial: 0.005


Entendiendo la pequeña proporción de clases y su desbalanceo, veamos ahora las métricas de f1 para ambos modelos:

In [8]:
multi_pred =  multiNB.predict(test_X)
compl_pred = complNB.predict(test_X)

multiF1_macro = f1_score(test_y, multi_pred, average='macro')
multiF1_weighted = f1_score(test_y, multi_pred, average='weighted')
complF1_macro = f1_score(test_y, compl_pred, average='macro')
complF1_weighted = f1_score(test_y, compl_pred, average='weighted')

print(f"Multinomial NB: {multiF1_macro} (macro) - {multiF1_weighted} (ponderado)")
print(f"Complement  NB: {complF1_macro} (macro) - {complF1_weighted} (ponderado)")



Multinomial NB: 0.5854345727938506 (macro) - 0.6053551571636923 (ponderado)
Complement  NB: 0.692953349950875 (macro) - 0.7088914984996316 (ponderado)


#### **3)** Transponer la matriz documento-término. De esa manera se obtiene una matriztérmino-documento que puede ser interpretada como una colección de vectorización de palabras. Estudiar ahora similaridad entre palabras tomando 5 palabras y estudiando sus 5 más similares.


In [9]:
# Comenzamos por trasponer la matriz:
trasp_X = train_X.T

# Obtenemos una matriz de coseno-similitudes entre términos:
terms_cossim = cosine_similarity(trasp_X) # Este paso puede tardar un poco!

In [10]:

# Seleccionamos algunos términos cualesquiera
terms = vectorizer.get_feature_names_out() # <- Las palabras en sí
# Buscamos los índices de tres palabras elegidas arbitrariamente:
term_list = ['bird', 'country', 'sleep', 'love', 'ninja']
selected_terms = [np.where(terms == term)[0][0] for term in term_list if term in terms]

# Ahora, copiamos el bucle de comparación de documentos realizado en el punto 1) y lo adaptamos:

for idx in selected_terms:
    term_sim = terms_cossim[idx]
    similar_indices = np.argsort(term_sim)[::-1][1:6]  # Ignoramos la similitud consigo mismo
    print(f"Término '{terms[idx]}' ({idx}), similar a:  ---------")
    for i in similar_indices:
        print(f" - '{terms[i]}' ({i}): {term_sim[i]:.4f}")

Término 'bird' (22928), similar a:  ---------
 - 'o_' (67262): 0.4515
 - 'ascension' (19782): 0.4362
 - 'acrobatics' (16667): 0.3618
 - 'tt030' (90477): 0.3618
 - 'tdkcs' (87940): 0.3618
Término 'country' (30124), similar a:  ---------
 - 'borden' (23689): 0.2425
 - 'antisemite' (18864): 0.2040
 - 'antisemitic' (18866): 0.2040
 - 'dissagrees' (34236): 0.2040
 - 'critizises' (30553): 0.2040
Término 'sleep' (83249), similar a:  ---------
 - 'koff' (54698): 0.3002
 - 'zzz' (101625): 0.2966
 - 'systemtask' (87114): 0.2890
 - 'weep' (96153): 0.2746
 - 'tonite' (89488): 0.2288
Término 'love' (57516), similar a:  ---------
 - 'davem' (31948): 0.2774
 - 'clanging' (27716): 0.2774
 - 'innappropriate' (50133): 0.2774
 - 'multitude' (64039): 0.2722
 - 'mielke' (61670): 0.1855
Término 'ninja' (66019), similar a:  ---------
 - 'gtv' (44695): 0.6073
 - 'feathers' (39829): 0.5384
 - 'ruffle' (79532): 0.5384
 - '668966' (10210): 0.5355
 - 'markb' (59690): 0.5355
