### Vectorización de texto y modelo de clasificación Naïve Bayes con el dataset 20 newsgroups

In [1]:
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
from sklearn.naive_bayes import MultinomialNB, ComplementNB
from sklearn.metrics import f1_score

from sklearn.datasets import fetch_20newsgroups
import numpy as np

## Carga de datos

In [2]:
# cargamos los datos (ya separados de forma predeterminada en train y test)
newsgroups_train = fetch_20newsgroups(subset='train', remove=('headers', 'footers', 'quotes'))
newsgroups_test = fetch_20newsgroups(subset='test', remove=('headers', 'footers', 'quotes'))

## Vectorización

In [3]:
# instanciamos un vectorizador
tfidfvect = TfidfVectorizer()

In [4]:
# Transformamos directamente los datos
X_train = tfidfvect.fit_transform(newsgroups_train.data)


In [5]:
# Veo las dimensiones de la matriz de datos
print(X_train.shape)

(11314, 101631)


In [6]:
# Transponemos la matriz para obtener una matriz término-documento
X_train_t = X_train.T

In [7]:
# Al transponer la matriz, las filas pasan a ser columnas y viceversa
# Por lo tanto, ahora tenemos una matriz término-documento
print(X_train_t.shape)

(101631, 11314)


In [8]:
# es muy útil tener el diccionario opuesto que va de índices a términos
idx2word = {v: k for k, v in tfidfvect.vocabulary_.items()}

In [9]:
len(idx2word)

101631

In [10]:
# Muestro las palabras más frecuentes
idx2word

{95844: 'was',
 97181: 'wondering',
 48754: 'if',
 18915: 'anyone',
 68847: 'out',
 88638: 'there',
 30074: 'could',
 37335: 'enlighten',
 60560: 'me',
 68080: 'on',
 88767: 'this',
 25775: 'car',
 80623: 'saw',
 88532: 'the',
 68781: 'other',
 31990: 'day',
 51326: 'it',
 34809: 'door',
 84538: 'sports',
 57390: 'looked',
 89360: 'to',
 21987: 'be',
 41715: 'from',
 55746: 'late',
 9843: '60s',
 35974: 'early',
 11174: '70s',
 25492: 'called',
 24160: 'bricklin',
 34810: 'doors',
 96247: 'were',
 76471: 'really',
 83426: 'small',
 49447: 'in',
 16809: 'addition',
 41724: 'front',
 24635: 'bumper',
 81658: 'separate',
 77878: 'rest',
 67670: 'of',
 23480: 'body',
 51136: 'is',
 17936: 'all',
 54632: 'know',
 25590: 'can',
 88143: 'tellme',
 62746: 'model',
 64931: 'name',
 37287: 'engine',
 84276: 'specs',
 99911: 'years',
 73373: 'production',
 96433: 'where',
 59079: 'made',
 46814: 'history',
 68409: 'or',
 96395: 'whatever',
 49932: 'info',
 100208: 'you',
 45885: 'have',
 41979: '

In [11]:
# Usando idx2word, veo indices de palabras que me interesan por ejemplo:
print(idx2word[37291])
print(idx2word[40821])
print(idx2word[28940])
print(idx2word[34809])
print(idx2word[60909])

engineering
floppies
computer
door
memory


## Veamos la similaridad de palabras con cada una de las palabras

### Palabra "engineering"

In [15]:
word = 'engineering'  # La palabra que me interesa
word_idx = tfidfvect.vocabulary_[word]  # Busco el índice de la palabra

# Obtengo el vector de la palabra como matriz bidimensional
word_vector = X_train_t[word_idx].toarray().reshape(1, -1)  

# Calculo la similitud del coseno entre la palabra 'engineering' y todas las demás
similaridad_coseno = cosine_similarity(word_vector, X_train_t)

# Ordeno los índices de mayor a menor similitud
indices_similares = np.argsort(similaridad_coseno[0])[::-1]


In [19]:
# Muestro los valores de similitud ordenados de mayor a menor
similaridad_coseno[0][indices_similares]


array([1.        , 0.24443492, 0.24443492, ..., 0.        , 0.        ,
       0.        ])

In [16]:
# Muestro las 5 palabras más similares a 'engineering'
mas_similares = [idx2word[idx] for idx in indices_similares[1:6]]
print(mas_similares)


['marietta', 'applyi', 'macdac', 'nyone', 'ng']


### Palabra "floppies"

In [20]:
word = 'floppies'  # La palabra que me interesa
word_idx = tfidfvect.vocabulary_[word]  # Busco el índice de la palabra

# Obtengo el vector de la palabra como matriz bidimensional
word_vector = X_train_t[word_idx].toarray().reshape(1, -1)  

# Calculo la similitud del coseno entre la palabra 'floppies' y todas las demás
similaridad_coseno = cosine_similarity(word_vector, X_train_t)

# Ordeno los índices de mayor a menor similitud
indices_similares = np.argsort(similaridad_coseno[0])[::-1]

In [21]:
# Muestro los valores de similitud ordenados de mayor a menor
similaridad_coseno[0][indices_similares]

array([1.        , 0.32815601, 0.32815601, ..., 0.        , 0.        ,
       0.        ])

In [22]:
# Muestro las 5 palabras más similares a 'floppies'
mas_similares = [idx2word[idx] for idx in indices_similares[1:6]]
print(mas_similares)

['kissd', 'misalign', 'diy', 'floptical', 'unzipped']


### Palabra "computer"

In [23]:
word = 'computer'  # La palabra que me interesa
word_idx = tfidfvect.vocabulary_[word]  # Busco el índice de la palabra

# Obtengo el vector de la palabra como matriz bidimensional
word_vector = X_train_t[word_idx].toarray().reshape(1, -1)  

# Calculo la similitud del coseno entre la palabra 'computer' y todas las demás
similaridad_coseno = cosine_similarity(word_vector, X_train_t)

# Ordeno los índices de mayor a menor similitud
indices_similares = np.argsort(similaridad_coseno[0])[::-1]

In [24]:
# Muestro los valores de similitud ordenados de mayor a menor
similaridad_coseno[0][indices_similares]

array([1.        , 0.15627442, 0.15218959, ..., 0.        , 0.        ,
       0.        ])

In [25]:
# Muestro las 5 palabras más similares a 'computer'
mas_similares = [idx2word[idx] for idx in indices_similares[1:6]]
print(mas_similares)

['decwriter', 'harkens', 'deluged', 'shopper', 'the']


### Palabra "door"

In [26]:
word = 'door'  # La palabra que me interesa
word_idx = tfidfvect.vocabulary_[word]  # Busco el índice de la palabra

# Obtengo el vector de la palabra como matriz bidimensional
word_vector = X_train_t[word_idx].toarray().reshape(1, -1)  

# Calculo la similitud del coseno entre la palabra 'door' y todas las demás
similaridad_coseno = cosine_similarity(word_vector, X_train_t)

# Ordeno los índices de mayor a menor similitud
indices_similares = np.argsort(similaridad_coseno[0])[::-1]

In [27]:
# Muestro los valores de similitud ordenados de mayor a menor
similaridad_coseno[0][indices_similares]

array([1.        , 0.29036791, 0.27618459, ..., 0.        , 0.        ,
       0.        ])

In [28]:
# Muestro las 5 palabras más similares a 'door'
mas_similares = [idx2word[idx] for idx in indices_similares[1:6]]
print(mas_similares)

['secluded', 'openers', 'normaly', 'genie', 'prelude']


### Palabra "memory"

In [29]:
word = 'memory'  # La palabra que me interesa
word_idx = tfidfvect.vocabulary_[word]  # Busco el índice de la palabra

# Obtengo el vector de la palabra como matriz bidimensional
word_vector = X_train_t[word_idx].toarray().reshape(1, -1)  

# Calculo la similitud del coseno entre la palabra 'memory' y todas las demás
similaridad_coseno = cosine_similarity(word_vector, X_train_t)

# Ordeno los índices de mayor a menor similitud
indices_similares = np.argsort(similaridad_coseno[0])[::-1]

In [30]:
# Muestro los valores de similitud ordenados de mayor a menor
similaridad_coseno[0][indices_similares]

array([1.        , 0.24234729, 0.1852516 , ..., 0.        , 0.        ,
       0.        ])

In [31]:
# Muestro las 5 palabras más similares a 'floppies'
mas_similares = [idx2word[idx] for idx in indices_similares[1:6]]
print(mas_similares)

['shm', 'wes1574', '58kb', '286dx', '385kb']
