### Desafío 1



**1**. Vectorizar documentos. Tomar 5 documentos al azar y medir similaridad con el resto de los documentos.
Estudiar los 5 documentos más similares de cada uno analizar si tiene sentido
la similaridad según el contenido del texto y la etiqueta de clasificación.

In [None]:
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
from sklearn.naive_bayes import MultinomialNB, ComplementNB
from sklearn.metrics import f1_score

# 20newsgroups por ser un dataset clásico de NLP ya viene incluido y formateado
# en sklearn
from sklearn.datasets import fetch_20newsgroups
import numpy as np
import random

## Carga de datos

In [None]:
# cargamos los datos (ya separados de forma predeterminada en train y test)
newsgroups_train = fetch_20newsgroups(subset='train', remove=('headers', 'footers', 'quotes'))
newsgroups_test = fetch_20newsgroups(subset='test', remove=('headers', 'footers', 'quotes'))

## Vectorización

In [None]:
# instanciamos un vectorizador
# ver diferentes parámetros de instanciación en la documentación de sklearn
tfidfvect1 = TfidfVectorizer()


In [None]:
# Vectorizador con ajustes en los parámetros
tfidfvect2 = TfidfVectorizer(max_df=0.75, min_df=2, ngram_range=(1, 2))

In [None]:
num_documentos = len(newsgroups_train.data)
# Crear un vector con 5 números al azar entre 0 y num_documentos - 1
numeros_azar = random.sample(range(num_documentos), 5)
#numeros_azar = [123, 11041, 3145, 1540, 3021]
print(f"Vector con 5 números al azar: {numeros_azar}")

Vector con 5 números al azar: [123, 11041, 3145, 1540, 3021]


In [None]:
# con la interfaz habitual de sklearn podemos fitear el vectorizador
# (obtener el vocabulario y calcular el vector IDF)
# y transformar directamente los datos
X_train1 = tfidfvect1.fit_transform(newsgroups_train.data)
# `X_train` la podemos denominar como la matriz documento-término


In [None]:
# en `y_train` guardamos los targets que son enteros
y_train = newsgroups_train.target

## Similaridad de documentos

In [None]:
def procesar_similaridad(idx,X_t):
  # Veamos similaridad de documentos. Tomemos algún documento
  print(f"Docuemnto: {idx}" )
  print(newsgroups_train.data[idx])
  print("\n")
  # midamos la similaridad coseno con todos los documentos de train
  cossim = cosine_similarity(X_t[idx], X_t)[0]

  # podemos ver los valores de similaridad ordenados de mayor a menos
  np.sort(cossim)[::-1]
  # y a qué documentos corresponden
  np.argsort(cossim)[::-1]

  # los 5 documentos más similares:
  mostsim = np.argsort(cossim)[::-1][1:6]

  # el documento original pertenece a la clase:
  clase = newsgroups_train.target_names[y_train[idx]]
  print(f"El docuemnto original percenece a la clase: {clase}" )
  print("\n")

  # y los 5 más similares son de las clases:
  print(f"Los 5 más similares son de las clases: " )
  for i in mostsim:
    print(newsgroups_train.target_names[y_train[i]])

  print("\n" + "="*80 + "\n")

In [None]:
for i in numeros_azar:
    procesar_similaridad(i,X_train1)

Docuemnto: 123
At the end of a recent (Mon 19 Apr 1993) post, Alastair Thomson
offers the following "paraphrase" of John 3:16:

   "God loved the world so much, that he gave us His Son,
   to die in our place, so that we may have eternal life."

The "to die in our place" bothers me, since it inserts into the
verse a doctrine not found in the original. Moreover, I suspect that
the poster intends to affirm, not merely substitution, but forensic
(or penal) substitution.  I maintain that the Scriptures in speaking
of the Atonement teach a doctrine of Substitution, but not one of
Forensic Substitution.

Those interested in pursuing the matter are invited to send for my
essays on Genesis, either 4 thru 7 (on this question) or 1 through 7
(with lead-in).  The n'th essay can be obtained by sending to
LISTSERV@ASUACAD.BITNET or to LISTSERV@ASUVM.INRE.ASU.EDU the
message
   GET GEN0n RUFF

 Yours,
 James Kiefer


El docuemnto original percenece a la clase: soc.religion.christian


Los 5 más simi

El análisis de los 5 documentos más similares a cada uno de los documentos seleccionados muestra patrones interesantes sobre la similaridad basada en el contenido y las etiquetas de clasificación:

Documento 123: El documento pertenece a la clase soc.religion.christian y trata sobre una discusión teológica. Los documentos más similares también pertenecen en su mayoría a la misma clase, lo que sugiere que la similaridad entre documentos está siendo capturada correctamente en términos de contenido temático. Sin embargo, la aparición de dos documentos en la clase alt.atheism podría reflejar una relación temática, como debates sobre religión, aunque la perspectiva sea diferente.

Documento 11041: Este documento está clasificado bajo sci.space y discute temas relacionados con programas espaciales. Los 5 documentos más similares pertenecen todos a la misma clase sci.space, lo que indica una fuerte coherencia temática en la similaridad medida. Aquí, la similaridad parece tener mucho sentido en términos de contenido y clasificación.

Documento 3145: Aunque este documento está en la clase rec.motorcycles, los documentos más similares pertenecen a una variedad de clases como talk.politics.misc y rec.sport.baseball, lo que sugiere que la vectorización y el cálculo de similaridad capturan similitudes basadas en otras características textuales, como el tono o estilo, más que en el tema explícito. Esto podría significar que algunos documentos pueden compartir estructuras o patrones de lenguaje similares, a pesar de tener diferentes temas.

Documento 1540: Este documento está en la clase talk.politics.mideast, y los documentos más similares son una mezcla de sci.med y rec.sport.hockey. La diversidad en las clases de los documentos similares indica que la similaridad no se está capturando adecuadamente en términos temáticos.

Documento 3021: Perteneciente a talk.religion.misc, muestra una mezcla de clases en los documentos más similares, incluyendo misc.forsale y rec.sport.baseball. Esto sugiere que la similaridad capturada podría estar más relacionada con otros aspectos.

In [None]:
for i in numeros_azar:
    procesar_similaridad(i,X_train1)

Docuemnto: 123
At the end of a recent (Mon 19 Apr 1993) post, Alastair Thomson
offers the following "paraphrase" of John 3:16:

   "God loved the world so much, that he gave us His Son,
   to die in our place, so that we may have eternal life."

The "to die in our place" bothers me, since it inserts into the
verse a doctrine not found in the original. Moreover, I suspect that
the poster intends to affirm, not merely substitution, but forensic
(or penal) substitution.  I maintain that the Scriptures in speaking
of the Atonement teach a doctrine of Substitution, but not one of
Forensic Substitution.

Those interested in pursuing the matter are invited to send for my
essays on Genesis, either 4 thru 7 (on this question) or 1 through 7
(with lead-in).  The n'th essay can be obtained by sending to
LISTSERV@ASUACAD.BITNET or to LISTSERV@ASUVM.INRE.ASU.EDU the
message
   GET GEN0n RUFF

 Yours,
 James Kiefer


El docuemnto original percenece a la clase: soc.religion.christian


Los 5 más simi

**2**. Entrenar modelos de clasificación Naïve Bayes para maximizar el desempeño de clasificación
(f1-score macro) en el conjunto de datos de test. Considerar cambiar parámteros
de instanciación del vectorizador y los modelos y probar modelos de Naïve Bayes Multinomial
y ComplementNB.

Ajustar Parámetros del Vectorizador

max_df y min_df: Estos parámetros controlan la frecuencia máxima y mínima de términos para ser considerados en el vocabulario. Ajustarlos puede ayudar a eliminar palabras muy comunes (que podrían no ser informativas) o muy raras (que podrían ser ruido).

ngram_range: Puedes experimentar con diferentes rangos de n-gramas (por ejemplo, ngram_range=(1, 2) para considerar unigramas y bigramas).

max_features: Limitar el número de características seleccionadas puede reducir el ruido y mejorar el rendimiento.

Nota:Para ajustar parametros hice uso de ChatGPT, para ello busque "ajustar parametrso TfidfVectorizer"

In [None]:
#Ajustar Parámetros del Vectorizador
tfidfvect2 = TfidfVectorizer(max_df=0.75, min_df=2, ngram_range=(1, 2))
# Vectorizar el conjunto de entrenamiento
X_train2 = tfidfvect2.fit_transform(newsgroups_train.data)

In [None]:
# PRUEBA 1
# es muy fácil instanciar un modelo de clasificación Naïve Bayes y entrenarlo con sklearn
clf = MultinomialNB()
clf.fit(X_train1, y_train)

# con nuestro vectorizador ya fiteado en train, vectorizamos los textos
# del conjunto de test
X_test1 = tfidfvect1.transform(newsgroups_test.data)
y_test1 = newsgroups_test.target
y_pred1 =  clf.predict(X_test1)

# el F1-score es una metrica adecuada para reportar desempeño de modelos de claificación
# es robusta al desbalance de clases. El promediado 'macro' es el promedio de los
# F1-score de cada clase. El promedio 'micro' es equivalente a la accuracy que no
# es una buena métrica cuando los datasets son desbalanceados
f1_mnb = f1_score(y_test1, y_pred1, average='macro')
print(f"F1-score Macro con MultinomialNB: {f1_mnb}")

F1-score Macro con MultinomialNB: 0.5854345727938506


In [None]:
# PRUEBA 2
# es muy fácil instanciar un modelo de clasificación Naïve Bayes y entrenarlo con sklearn
clf = MultinomialNB()
clf.fit(X_train2, y_train)

# con nuestro vectorizador ya fiteado en train, vectorizamos los textos
# del conjunto de test
X_test2 = tfidfvect2.transform(newsgroups_test.data)
y_test2 = newsgroups_test.target
y_pred2 =  clf.predict(X_test2)

# el F1-score es una metrica adecuada para reportar desempeño de modelos de claificación
# es robusta al desbalance de clases. El promediado 'macro' es el promedio de los
# F1-score de cada clase. El promedio 'micro' es equivalente a la accuracy que no
# es una buena métrica cuando los datasets son desbalanceados
f1_mnb_apv = f1_score(y_test2, y_pred2, average='macro')
print(f"F1-score Macro con MultinomialNB ajustando parámetros del Vectorizador: {f1_mnb_apv}")

F1-score Macro con MultinomialNB ajustando parámetros del Vectorizador: 0.5703496397235439


In [None]:
# PRUEBA 3
# es muy fácil instanciar un modelo de clasificación Naïve Bayes y entrenarlo con sklearn
clf_cnb  = ComplementNB()
clf_cnb.fit(X_train1, y_train)

# con nuestro vectorizador ya fiteado en train, vectorizamos los textos
# del conjunto de test
X_test3 = tfidfvect1.transform(newsgroups_test.data)
y_test3 = newsgroups_test.target
y_pred3 =  clf_cnb.predict(X_test3)

# el F1-score es una metrica adecuada para reportar desempeño de modelos de claificación
# es robusta al desbalance de clases. El promediado 'macro' es el promedio de los
# F1-score de cada clase. El promedio 'micro' es equivalente a la accuracy que no
# es una buena métrica cuando los datasets son desbalanceados
f1_cnb = f1_score(y_test3, y_pred3, average='macro')
print(f"F1-score Macro con ComplementNB: {f1_cnb}")

F1-score Macro con ComplementNB: 0.692953349950875


Con base en las tres pruebas realizadadas, se pueden extraer las siguientes conclusiones:

MultinomialNB sin ajuste de parámetros (Prueba 1) logró un f1-score macro de 0.5854. Este es el punto de partida y sirve como referencia para comparar los efectos de los ajustes posteriores.

Ajuste de parámetros en el vectorizador con MultinomialNB (Prueba 2) resultó en un f1-score macro de 0.5703, lo que indica un rendimiento ligeramente peor que el modelo original sin ajustes. Esto sugiere que los ajustes realizados en el vectorizador podrían no haber sido beneficiosos para este conjunto de datos en particular, o que quizás se podrían ajustar otros parámetros o probar diferentes configuraciones para mejorar el rendimiento.

ComplementNB (Prueba 3) logró un f1-score macro de 0.6930, superando significativamente tanto al MultinomialNB original como al ajustado. Esto sugiere que el modelo ComplementNB, que está diseñado para manejar mejor datos desbalanceados, es más adecuado para este problema de clasificación en comparación con MultinomialNB.





**3**. Transponer la matriz documento-término. De esa manera se obtiene una matriz
término-documento que puede ser interpretada como una colección de vectorización de palabras.
Estudiar ahora similaridad entre palabras tomando 5 palabras y estudiando sus 5 más similares. **La elección de palabras no debe ser al azar para evitar la aparición de términos poco interpretables, elegirlas "manualmente"**.


In [None]:
# Transponer la matriz X_train, que s la matriz documento-termino
X_train_transpuesto = X_train1.T

In [None]:
# Crear un vector de indeces de terminos
indices_terminos = [25775, 47438, 66524,36165 ,68421 ]
#[car, house,notebook ,economic,orange ]
print(f"Vector con 5 indices de terminos: {indices_terminos}")

Vector con 5 indices de terminos: [25775, 47438, 66524, 36165, 68421]


In [None]:
# es muy útil tener el diccionario opuesto que va de índices a términos
idx2word = {v: k for k,v in tfidfvect1.vocabulary_.items()}

## Similaridad de terminos

In [None]:
def procesar_similaridad_terminos(idx,X_t):
  # Veamos similaridad de trminos.
  print(f"Termino: {idx}" )
  print(idx2word[idx])
  print("\n")
  # midamos la similaridad coseno con todos los terminos de train
  cossim = cosine_similarity(X_t[idx], X_t)[0]

  # podemos ver los valores de similaridad ordenados de mayor a menos
  np.sort(cossim)[::-1]
  # y a qué terminos corresponden
  np.argsort(cossim)[::-1]

  # los 5 terminos más similares:
  mostsim = np.argsort(cossim)[::-1][1:6]

  # y los 5 más similares son de las clases:
  for i in mostsim:
    print(idx2word[i])

  print("\n" + "="*80 + "\n")

In [None]:
for i in indices_terminos:
    procesar_similaridad_terminos(i,X_train_transpuesto)

Termino: 25775
car


cars
criterium
civic
owner
dealer


Termino: 47438
house


white
senate
cpr
miyazawa
deposit


Termino: 66524
notebook


plunking
radiates
saps
hounded
l40


Termino: 36165
economic


intergovernmental
facilitation
47th
palest
reiterates


Termino: 68421
orange


eeerik
grappler
rainbow
boever
newcastle


