# Desafío 1 Mauro Aguirregaray

In [1]:
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
from sklearn.naive_bayes import MultinomialNB, ComplementNB
from sklearn.metrics import f1_score

# 20newsgroups por ser un dataset clásico de NLP ya viene incluido y formateado
# en sklearn
from sklearn.datasets import fetch_20newsgroups
import numpy as np
import pandas as pd

## Carga de datos

In [2]:
# cargamos los datos (ya separados de forma predeterminada en train y test)
newsgroups_train = fetch_20newsgroups(subset='train', remove=('headers', 'footers', 'quotes'))
newsgroups_test = fetch_20newsgroups(subset='test', remove=('headers', 'footers', 'quotes'))

## Vectorización

In [3]:
# instanciamos un vectorizador
# ver diferentes parámetros de instanciación en la documentación de sklearn
tfidfvect = TfidfVectorizer()

In [4]:
# con la interfaz habitual de sklearn podemos fitear el vectorizador
# (obtener el vocabulario y calcular el vector IDF)
# y transformar directamente los datos
X_train = tfidfvect.fit_transform(newsgroups_train.data)
# `X_train` la podemos denominar como la matriz documento-término

In [5]:
# en `y_train` guardamos los targets que son enteros
y_train = newsgroups_train.target
y_train[:10]

array([ 7,  4,  4,  1, 14, 16, 13,  3,  2,  4])

In [6]:
# hay 20 clases correspondientes a los 20 grupos de noticias
print(f'clases {np.unique(newsgroups_test.target)}')
newsgroups_test.target_names

clases [ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19]


['alt.atheism',
 'comp.graphics',
 'comp.os.ms-windows.misc',
 'comp.sys.ibm.pc.hardware',
 'comp.sys.mac.hardware',
 'comp.windows.x',
 'misc.forsale',
 'rec.autos',
 'rec.motorcycles',
 'rec.sport.baseball',
 'rec.sport.hockey',
 'sci.crypt',
 'sci.electronics',
 'sci.med',
 'sci.space',
 'soc.religion.christian',
 'talk.politics.guns',
 'talk.politics.mideast',
 'talk.politics.misc',
 'talk.religion.misc']

## Modelo de clasificación Naïve Bayes (ejemplo base)

In [7]:
# es muy fácil instanciar un modelo de clasificación Naïve Bayes y entrenarlo con sklearn
clf = MultinomialNB()
clf.fit(X_train, y_train)

In [8]:
# con nuestro vectorizador ya fiteado en train, vectorizamos los textos
# del conjunto de test
X_test = tfidfvect.transform(newsgroups_test.data)
y_test = newsgroups_test.target
y_pred =  clf.predict(X_test)

In [9]:
# el F1-score es una metrica adecuada para reportar desempeño de modelos de claificación
# es robusta al desbalance de clases. El promediado 'macro' es el promedio de los
# F1-score de cada clase. El promedio 'micro' es equivalente a la accuracy que no
# es una buena métrica cuando los datasets son desbalanceados
f1 = f1_score(y_test, y_pred, average='macro')
f1

0.5854345727938506

# Consigna del desafío 1

**1**. Vectorizar documentos. Tomar 5 documentos al azar y medir similaridad con el resto de los documentos.
Estudiar los 5 documentos más similares de cada uno analizar si tiene sentido
la similaridad según el contenido del texto y la etiqueta de clasificación.

**2**. Entrenar modelos de clasificación Naïve Bayes para maximizar el desempeño de clasificación
(f1-score macro) en el conjunto de datos de test. Considerar cambiar parámteros
de instanciación del vectorizador y los modelos y probar modelos de Naïve Bayes Multinomial
y ComplementNB.

**3**. Transponer la matriz documento-término. De esa manera se obtiene una matriz
término-documento que puede ser interpretada como una colección de vectorización de palabras.
Estudiar ahora similaridad entre palabras tomando 5 palabras y estudiando sus 5 más similares. **La elección de palabras no debe ser al azar para evitar la aparición de términos poco interpretables, elegirlas "manualmente"**.


## Parte 1

In [10]:
# Elijo 5 documentos al azar
Idx_desafio = [7097, 2048, 4883, 1122, 6912]

for i in Idx_desafio:
  print(f"Nuevo documento idx {i}: {newsgroups_train.data[i]}")



Nuevo documento idx 7097: 
Well, I could use the argument that some here use about "nature" and claim
that you cannot have superhuman powers because you are a human; superhuman
powers are beyond what a human has, and since you are a human, any powers
you have are not beyond those of a human.  Hence, you cannot have superhuman
powers.  Sound good to you?

Anyway, to the evidence question: it depends on the context.  In this group,
since you are posting from a american college site, I'm willing to take it
as given that you have a pair of blue jeans.  And, assuming there is some
coherency in your position, I will take it as a given that you do not have
superhuman powers.  Arguments are evidence in themselves, in some respects.


Yep.


Good.


"Extra" evidence?  Why don't we start with evidence at all?

I cannot see any evidence for the V. B. which the cynics in this group would
ever accept.  As for the second, it is the foundation of the religion.
Anyone who claims to have seen the risen

In [11]:


# Crear un DataFrame con los índices y objetivos, y le pido a chatgpt una descripción de cada uno
data = {
    "Idx": [7097, 2048, 4883, 1122, 6912],
    "Target": [
        newsgroups_train.target_names[newsgroups_train.target[7097]],
        newsgroups_train.target_names[newsgroups_train.target[2048]],
        newsgroups_train.target_names[newsgroups_train.target[4883]],
        newsgroups_train.target_names[newsgroups_train.target[1122]],
        newsgroups_train.target_names[newsgroups_train.target[6912]]],
    "Descripción": [
        "Poderes sobrehumanos debatidos, evidencia insuficiente.",
        "Vasili quiere ser entrenador principal, futuro incierto.",
        "Evolución de Volvo, de tractores a vehículos modernos.",
        "Cirugía para dolor de espalda cuestionada.",
        "Rusty Staub y Mordaci Brown, jugadores judíos."
    ]
}

df = pd.DataFrame(data)
df

Unnamed: 0,Idx,Target,Descripción
0,7097,alt.atheism,"Poderes sobrehumanos debatidos, evidencia insu..."
1,2048,rec.sport.hockey,"Vasili quiere ser entrenador principal, futuro..."
2,4883,rec.autos,"Evolución de Volvo, de tractores a vehículos m..."
3,1122,sci.med,Cirugía para dolor de espalda cuestionada.
4,6912,rec.sport.baseball,"Rusty Staub y Mordaci Brown, jugadores judíos."


Ahora usamos similitud del coseno para buscar los documentos más similares del train.

In [12]:
# midamos la similaridad coseno con todos los documentos de train para el primer documento
cossim = cosine_similarity(X_train[Idx_desafio[0]], X_train)[0]
mostsim = np.argsort(cossim)[::-1][1:6]
# y los 5 más similares son de las clases:
for i in mostsim:
  print(newsgroups_train.target_names[y_train[i]])
  #print(f"Nuevo documento idx {i}: {newsgroups_train.data[i]}")

alt.atheism
alt.atheism
soc.religion.christian
alt.atheism
soc.religion.christian


Entonces tenemos entre los 5 más similares 3 que corresponden a la misma clase que el documento original, por lo que tendríamos una accuracy del 60%.

Sin embargo, este es un análisis vacío solo viendo números, hagamos como antes y saquemos una descripción de estos documentos.

In [13]:
# Crear un DataFrame con los índices y objetivos, y le pido a chatgpt una descripción de cada uno
data_idx7097 = {
    "Idx": [
        7097, mostsim[0], mostsim[1],
        mostsim[2], mostsim[3], mostsim[4]],
    "Target": [
        newsgroups_train.target_names[newsgroups_train.target[7097]],
        newsgroups_train.target_names[y_train[mostsim[0]]],
        newsgroups_train.target_names[y_train[mostsim[1]]],
        newsgroups_train.target_names[y_train[mostsim[2]]],
        newsgroups_train.target_names[y_train[mostsim[3]]],
        newsgroups_train.target_names[y_train[mostsim[4]]]],
    "Descripción": [
        "Poderes sobrehumanos debatidos, evidencia insuficiente.",
        "Claims about Jesus lack evidence and consensus.",
        "Ateísmo: preguntas frecuentes, respuestas, debates, mitos.",
        "Fe y razón se integran para comprender evidencias.",
        "La evolución genética y evidencia desafían teorías religiosas.",
        "La fe cristiana introduce una evidencia no física; se suma a la razón."
    ]
}

df_idx7097 = pd.DataFrame(data_idx7097)
df_idx7097

Unnamed: 0,Idx,Target,Descripción
0,7097,alt.atheism,"Poderes sobrehumanos debatidos, evidencia insu..."
1,8132,alt.atheism,Claims about Jesus lack evidence and consensus.
2,10836,alt.atheism,"Ateísmo: preguntas frecuentes, respuestas, deb..."
3,11300,soc.religion.christian,Fe y razón se integran para comprender evidenc...
4,10052,alt.atheism,La evolución genética y evidencia desafían teo...
5,468,soc.religion.christian,La fe cristiana introduce una evidencia no fís...


Es muy interesante que si vemos la descripción de los elementos en todos los casos se habla de un debate entre religión y ateísmo, pero en unos casos con una visión atea y otros con una visión cristiana.

Entonces no solo creo que es no es del todo correcto marcar que este resultado tiene un 60% de precisión, pues creo que se encontró una "subclase" de debate ateismo vs cristianismo. Un error considero que sería si un documento de los más similares hablara de autos o de deportes, y eso no lo podemos saber con unas métricas de este estilo.

Busquemos los más similares para el resto de documentos elegidos:

In [14]:
# midamos la similaridad coseno con todos los documentos de train para el primer documento
cossim = cosine_similarity(X_train[Idx_desafio[1]], X_train)[0]
mostsim = np.argsort(cossim)[::-1][1:6]
# y los 5 más similares son de las clases:
for i in mostsim:
  print(newsgroups_train.target_names[y_train[i]])
  #print(f"Nuevo documento idx {i}: {newsgroups_train.data[i]}")

rec.sport.hockey
rec.sport.hockey
rec.sport.hockey
rec.sport.hockey
talk.politics.mideast


Hay uno que parece bastante diferente a partir de la clase, veamos que dice el documento:

In [15]:
  print(f"Nuevo documento idx {i}: {newsgroups_train.data[mostsim[4]]}")

Nuevo documento idx 9623: Accounts of Anti-Armenian Human Right Violations in Azerbaijan #012
                 Prelude to Current Events in Nagorno-Karabakh

        +---------------------------------------------------------+
        |                                                         |
        |  I saw a naked girl with her hair down. They were       |
        |  dragging her. She kept falling because they were       |
        |  pushing her and kicking her. She fell down, it was     |
        |  muddy there, and later other witnesses who saw it from |
        |  their balconies told us, they seized her by the hair   |
        |  and dragged her a couple of blocks, as far as the      |
        |  mortgage bank, that's a good block and a half or two   |
        |  from here. I know this for sure because I saw it       |
        |  myself.                                                |
        |                                                         |
        +-----------------

Si hacemos lo mismo que antes la descripción de este documento sería la siguiente: " Violaciones de derechos humanos antiarmenios en Azerbaiyán, incluyendo genocidio y violencia".

En este caso sí creo que hay un error en la clasificación.

Nos vamos haciendo una idea de que podemos esperar en estos casos.

In [16]:
# midamos la similaridad coseno con todos los documentos de train para el primer documento
cossim = cosine_similarity(X_train[Idx_desafio[2]], X_train)[0]
mostsim = np.argsort(cossim)[::-1][1:6]
# y los 5 más similares son de las clases:
for i in mostsim:
  print(newsgroups_train.target_names[y_train[i]])
  #print(f"Nuevo documento idx {i}: {newsgroups_train.data[i]}")

rec.autos
rec.autos
sci.crypt
talk.politics.mideast
rec.autos


In [17]:
# midamos la similaridad coseno con todos los documentos de train para el primer documento
cossim = cosine_similarity(X_train[Idx_desafio[3]], X_train)[0]
mostsim = np.argsort(cossim)[::-1][1:6]
# y los 5 más similares son de las clases:
for i in mostsim:
  print(newsgroups_train.target_names[y_train[i]])
  #print(f"Nuevo documento idx {i}: {newsgroups_train.data[i]}")

sci.med
sci.med
sci.med
sci.med
sci.med


In [18]:
# midamos la similaridad coseno con todos los documentos de train para el primer documento
cossim = cosine_similarity(X_train[Idx_desafio[4]], X_train)[0]
mostsim = np.argsort(cossim)[::-1][1:6]
# y los 5 más similares son de las clases:
for i in mostsim:
  print(newsgroups_train.target_names[y_train[i]])
  #print(f"Nuevo documento idx {i}: {newsgroups_train.data[i]}")

rec.sport.baseball
alt.atheism
rec.sport.baseball
rec.sport.baseball
rec.sport.baseball


### Conclusiones parte 1

Creo que esto nos da una buena idea de la capacidad de "matchear" documentos con esta metodología.

* Es dificil clasificar en X cantidad de temas documentos extensos, por lo que a veces como en el primer caso va a "clasificar mal" documentos que son muy similares.
* En el segundo caso, vemos lo contrario, puede errarle por mucho también y no tiene la sensibilidad para "medir distancia" (Me imagino un usuario en un buscador, investigando sobre beisbol y que le se salga un tema político y sensible).



## Parte 2

Tenemos que probar diferentes hiperparametros, para instanciar modelos y el vectorizador. La idea es probar 3 cambios para cada uno:



*   **tfidfvect:** use_idf = False (Se desactiva la parte IDF del vectorizador, lo que hace que sea similar a CountVectorizer);  norm='l1  (en lugar de que la suma de los cuadrados sea 1, la suma de los valores abs es 1=); stop_words='english' (aprovecho que estan en ingles los documentos para usar estos datos precargados).
*   **MultinomialNB** y **ComplementNB**: Vamos a probar diferentes alpha



In [19]:
# Crear el DataFrame para almacenar los resultados
df_metricas = pd.DataFrame(columns=["Modelo", "Hiperparámetros Modelo", "Hiperparámetros Vectorizador", "F1 Score"])

# Lista de hiperparámetros para MultinomialNB
model_params_list = [
    {"alpha": 0.5},
    {"alpha": 1.0},
    {"alpha": 0.1},
]

# Lista de hiperparámetros para TfidfVectorizer
vectorizer_params_list = [
    {"use_idf": False},
    {"norm": "l1"},
    {"stop_words": "english"},
]

# Doble for para combinar los hiperparámetros del modelo con los del vectorizador
for model_params in model_params_list:
    for vectorizer_params in vectorizer_params_list:
        # Instanciar el vectorizador con los hiperparámetros correspondientes
        tfidfvect = TfidfVectorizer(**vectorizer_params)

        # Vectorizar los datos de entrenamiento
        X_train = tfidfvect.fit_transform(newsgroups_train.data)
        y_train = newsgroups_train.target

        # Instanciar el modelo MultinomialNB con los hiperparámetros correspondientes
        clf = MultinomialNB(**model_params)
        clf.fit(X_train, y_train)

        # Vectorizar los datos de prueba
        X_test = tfidfvect.transform(newsgroups_test.data)
        y_test = newsgroups_test.target

        # Predecir y calcular la métrica
        y_pred = clf.predict(X_test)
        f1 = f1_score(y_test, y_pred, average='macro')

        # Registrar el resultado en el DataFrame
        df_metricas.loc[len(df_metricas)] = [
            "MultinomialNB",
            str(model_params),
            str(vectorizer_params),
            f1
        ]

# Mostrar los resultados
df_metricas

Unnamed: 0,Modelo,Hiperparámetros Modelo,Hiperparámetros Vectorizador,F1 Score
0,MultinomialNB,{'alpha': 0.5},{'use_idf': False},0.524328
1,MultinomialNB,{'alpha': 0.5},{'norm': 'l1'},0.519563
2,MultinomialNB,{'alpha': 0.5},{'stop_words': 'english'},0.658352
3,MultinomialNB,{'alpha': 1.0},{'use_idf': False},0.471586
4,MultinomialNB,{'alpha': 1.0},{'norm': 'l1'},0.477336
5,MultinomialNB,{'alpha': 1.0},{'stop_words': 'english'},0.646799
6,MultinomialNB,{'alpha': 0.1},{'use_idf': False},0.603684
7,MultinomialNB,{'alpha': 0.1},{'norm': 'l1'},0.587442
8,MultinomialNB,{'alpha': 0.1},{'stop_words': 'english'},0.672586


In [20]:
# Lista de hiperparámetros para MultinomialNB
model_params_list = [
    {"alpha": 0.5},
    {"alpha": 1.0},
    {"alpha": 0.1},
]

# Lista de hiperparámetros para TfidfVectorizer
vectorizer_params_list = [
    {"use_idf": False},
    {"norm": "l1"},
    {"stop_words": "english"},
]

# Doble for para combinar los hiperparámetros del modelo con los del vectorizador
for model_params in model_params_list:
    for vectorizer_params in vectorizer_params_list:
        # Instanciar el vectorizador con los hiperparámetros correspondientes
        tfidfvect = TfidfVectorizer(**vectorizer_params)

        # Vectorizar los datos de entrenamiento
        X_train = tfidfvect.fit_transform(newsgroups_train.data)
        y_train = newsgroups_train.target

        # Instanciar el modelo MultinomialNB con los hiperparámetros correspondientes
        clf = ComplementNB(**model_params)
        clf.fit(X_train, y_train)

        # Vectorizar los datos de prueba
        X_test = tfidfvect.transform(newsgroups_test.data)
        y_test = newsgroups_test.target

        # Predecir y calcular la métrica
        y_pred = clf.predict(X_test)
        f1 = f1_score(y_test, y_pred, average='macro')

        # Registrar el resultado en el DataFrame
        df_metricas.loc[len(df_metricas)] = [
            "ComplementNB",
            str(model_params),
            str(vectorizer_params),
            f1
        ]

# Mostrar los resultados
df_metricas

Unnamed: 0,Modelo,Hiperparámetros Modelo,Hiperparámetros Vectorizador,F1 Score
0,MultinomialNB,{'alpha': 0.5},{'use_idf': False},0.524328
1,MultinomialNB,{'alpha': 0.5},{'norm': 'l1'},0.519563
2,MultinomialNB,{'alpha': 0.5},{'stop_words': 'english'},0.658352
3,MultinomialNB,{'alpha': 1.0},{'use_idf': False},0.471586
4,MultinomialNB,{'alpha': 1.0},{'norm': 'l1'},0.477336
5,MultinomialNB,{'alpha': 1.0},{'stop_words': 'english'},0.646799
6,MultinomialNB,{'alpha': 0.1},{'use_idf': False},0.603684
7,MultinomialNB,{'alpha': 0.1},{'norm': 'l1'},0.587442
8,MultinomialNB,{'alpha': 0.1},{'stop_words': 'english'},0.672586
9,ComplementNB,{'alpha': 0.5},{'use_idf': False},0.682272


### Conclusiones parte 2

Se observan dos claros patrones:

* Aplicar el hiperparametro de stop_words mejora considerablemente el resultado, esto lo logra por tener pre-entrenado las palabras más comunes del idioma inglés y que no aportan sustancial información.
* Por otro lado, el modelo de ComplementNB se desempeña mejor. Este caso también es esperable pues en texto las clases suelen estar desbalanciadas y complemenNB maneja de mejor manera estos desbalanceos

## Parte 3

Para la parte 3 nos pide hacer la matriz traspuesta y usar el mismo método de antes para identificar similitud con palabras.


In [21]:
# Generar la matriz documento-término con TfidfVectorizer
tfidfvect = TfidfVectorizer(stop_words='english')
X_train = tfidfvect.fit_transform(newsgroups_train.data)


In [22]:
# Transponer la matriz documento-término para obtener la matriz término-documento
X_term_doc = X_train.T


In [23]:
# Seleccionar 5 palabras de interés para estudiar su similaridad
palabras_interes = ["atheist", "einstein", "king", "science", "castle"]  # Ejemplo de palabras
indices_interes = [tfidfvect.vocabulary_[palabra] for palabra in palabras_interes]

for i, word in enumerate(palabras_interes):

    # midamos la similaridad coseno termino a termino
    cossim = cosine_similarity(X_term_doc[indices_interes[i]], X_term_doc)[0]

    # valores de los más similares
    mostsim_values = np.sort(cossim)[::-1][1:6]

    # indices de los más similares
    mostsim_words_idx = np.argsort(cossim)[::-1][1:6]
    similar_words = [tfidfvect.get_feature_names_out()[idx] for idx in mostsim_words_idx]

    print(f'Palabra: {word}')
    print(f'Palabras similares: {similar_words}')
    print(f'Valores de similitud de palabras: {mostsim_values}')

Palabra: atheist
Palabras similares: ['atheism', 'anarchal', 'doubtless', 'atheists', 'techno']
Valores de similitud de palabras: [0.33142819 0.31575115 0.30108266 0.2979062  0.29334911]
Palabra: einstein
Palabras similares: ['velikovsky', 'korzybski', 'physcists', 'vulcan', 'perturbation']
Valores de similitud de palabras: [0.56085797 0.56085797 0.56085797 0.52821954 0.46055987]
Palabra: king
Palabras similares: ['derogenory', 'atypical', 'ascertian', 'zane', 'blosser']
Valores de similitud de palabras: [0.30064278 0.30064278 0.30064278 0.24805805 0.24669755]
Palabra: science
Palabras similares: ['behaviorists', 'cognitivists', 'scientific', 'empirical', 'sects']
Valores de similitud de palabras: [0.40659604 0.40659604 0.36973429 0.29814453 0.26821772]
Palabra: castle
Palabras similares: ['zia', 'caere', 'thanking', 'typist', 'rosse']
Valores de similitud de palabras: [0.76832304 0.71143197 0.6229255  0.55650839 0.50526361]


### Conclusiones Parte 3

Al contrario de lo observado en los datos documento a documento, en esta ocasión el método falla mucho más. En los 5 ejemplos mostrados antes si bien hay palabras que se parecen o pertenecen al mismo contexto, en atheist vemos conceptos similiares como doubtless y también su plural o einstein encuentra la palabra físico y otras figuras históricas, en general no parecen tener una conexión tan clara entre sí las palabras.

Sumado a lo anterior, para esta parte agregamos los valores de similitud para poder darle algún valor de precisión en la búsqueda de palabras más similares, pero encontramos lo contrario. La palabra Science, que a mi parecer es la que mejor se encuentran palabras similares, tiene peores valores que la palabra castle que es la que menos entiendo su relación.

Así que en conclusión, el método parece ser interesante para encontrar relaciones de documento a documento, pero creo que se necesita un poco más de trabajo y un método más sofisticado para encontrar relaciones palabra a palabra.