### Vectorización de texto y modelo de clasificación Naïve Bayes con el dataset 20 newsgroups

In [1]:
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
from sklearn.naive_bayes import MultinomialNB, ComplementNB
from sklearn.metrics import f1_score

from sklearn.datasets import fetch_20newsgroups
import numpy as np

## Carga de datos

In [2]:
# cargamos los datos (ya separados de forma predeterminada en train y test)
newsgroups_train = fetch_20newsgroups(subset='train', remove=('headers', 'footers', 'quotes'))
newsgroups_test = fetch_20newsgroups(subset='test', remove=('headers', 'footers', 'quotes'))

## Vectorización

In [3]:
# instanciamos un vectorizador
tfidfvect = TfidfVectorizer()

In [4]:
# Transformamos directamente los datos
X_train = tfidfvect.fit_transform(newsgroups_train.data)


In [5]:
# Transponemos la matriz para obtener una matriz término-documento
X_train_t = X_train.T

In [6]:
# es muy útil tener el diccionario opuesto que va de índices a términos
idx2word = {v: k for k, v in tfidfvect.vocabulary_.items()}

In [10]:
X_train_t.shape

(101631, 11314)

In [29]:
idx = 54321


In [30]:
# Calcular la similitud del coseno entre los vectores de términos
cosine_similarities = cosine_similarity(X_train_t[idx], X_train_t)

In [31]:
# podemos ver los valores de similaridad ordenados de mayor a menos
np.sort(cosine_similarities)[::-1]

array([[0.        , 0.        , 0.        , ..., 0.80500971, 1.        ,
        1.        ]])

In [32]:
# y a qué palabras corresponden
np.argsort(cosine_similarities)[::-1]

array([[    0, 67717, 67716, ..., 40229, 33460, 54321]])

In [28]:
# Busco a que palabra corresponde un índice
idx2word[54321]

'kirillian'

In [15]:
cosine_similarities.shape

(1, 101631)

In [35]:
# las 5 palabras más similares:
mostsim = np.argsort(cosine_similarities)[::-1]
print(mostsim)

[[    0 67717 67716 ... 40229 33460 54321]]


tuple

In [None]:
# Seleccionar 5 palabras al azar para estudiar su similaridad
np.random.seed(0)  # Para reproducibilidad
random_word_indices = np.random.choice(X_train_t.shape[0], 5, replace=False)

In [None]:
# Para cada palabra seleccionada, encontrar las 5 más similares
for idx in random_word_indices:
    word = idx2word[idx]
    # Calcular las palabras más similares excluyendo la palabra misma
    similar_indices = cosine_similarities[idx].argsort()[:-6:-1]
    similar_words = [(idx2word[sim_idx], cosine_similarities[idx][sim_idx]) for sim_idx in similar_indices if sim_idx != idx]
    
    print(f"Palabras más similares a '{word}':")
    for similar_word, similarity in similar_words:
        print(f"   {similar_word} (similarity: {similarity:.4f})")
    print()