# Desafio 1 

## Importación de librerias

In [7]:
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
from sklearn.naive_bayes import MultinomialNB, ComplementNB
from sklearn.metrics import f1_score
from sklearn.datasets import fetch_20newsgroups
from sklearn.model_selection import RandomizedSearchCV
from sklearn.pipeline import Pipeline

import numpy as np

## Carga de datos

In [4]:
newsgroups_train = fetch_20newsgroups(subset='train', remove=('headers', 'footers', 'quotes'))
newsgroups_test = fetch_20newsgroups(subset='test', remove=('headers', 'footers', 'quotes'))

## 1. Vectorización de documentos

Vectorizar documentos. Tomar 5 documentos al azar y medir similaridad con el resto de los documentos. Estudiar los 5 documentos más similares de cada uno analizar si tiene sentido la similaridad según el contenido del texto y la etiqueta de clasificación.

Se inicializa el vectorizador TF-IDF y se entrena

In [4]:
tfidfvect = TfidfVectorizer()

X_train = tfidfvect.fit_transform(newsgroups_train.data)
y_train = newsgroups_train.target

In [6]:
print(type(X_train))
print(f'Shape: {X_train.shape}')
print(f'Number of documents: {X_train.shape[0]}')
print(f'Vocabulary size: {X_train.shape[1]}')

<class 'scipy.sparse._csr.csr_matrix'>
Shape: (11314, 101631)
Number of documents: 11314
Vocabulary size: 101631


Se obtienen los identificadores de cinco documentos al azar

In [5]:
np.random.seed(40)

documents_idx = np.random.choice(X_train.shape[0], 5)
print(f"Randomly selected documents indices: {documents_idx}")

Randomly selected documents indices: [11256  7608  5426  5959  3603]


### Análisis del documento: **11256**

Se obtiene los índices de los documentos más similares al documento 11256

In [37]:
main_idx = 11256

# Calculate the cosine similarity between the main document and all the other documents
cos_sim = cosine_similarity(X_train[main_idx], X_train)[0]

# Get the indices of the most similar documents
most_similar_idx = np.argsort(cos_sim)[::-1][1:6]

print(f'Most similar documents to document {main_idx}: {most_similar_idx}')

Most similar documents to document 11256: [ 1794 10714  8506   111  9736]


Se muestra el contenido del documento seleccionado

In [38]:
print(f'Class for document {main_idx}: {newsgroups_train.target_names[y_train[main_idx]]}')
print(f'Content:\n{newsgroups_train.data[main_idx]}')

Class for document 11256: comp.sys.ibm.pc.hardware
Content:
: I need to know the Pins to connect to make a loopback connector for a serial
: port so I can build one.  The loopback connector is used to test the 
: serial port.
: 
: Thanks for any help.
: 
: 
: Steve
: 
Me Too!!!!!!!
skcgoh@tartarus.uwa.edu.au



El documento seleccionado parece estar relacionado con algun servicio de atención al cliente, en el área de tecnología. 

In [39]:
def analyze_similarity(
    most_similar_idx: list,
    documents: list,
    labels: list,
    cosine_sim_matrix: np.ndarray,
    main_idx: int,
    top_n: int = 5
    ):
    """
    Analyze the similarity of selected documents with the rest of the documents.

    Parameters:
    - most_similar_idx: List of indices of the most similar documents.
    - documents: List of documents in the dataset.
    - labels: List of labels corresponding to each document.
    - cosine_sim_matrix: Cosine similarity matrix of the documents.
    - main_idx: Index of the main document to analyze.
    - top_n: Number of most similar documents to retrieve for each selected document.
    """
    class_names = newsgroups_train.target_names
    
    print(f"\nTop {top_n} Similar Documents:\n{'-'*50}")

    for idx in most_similar_idx:
        print(f"\n{'='*50}")
        print(f"Analyzing Document {idx}")
        print(f"{'='*50}")
        print(f"Content:\n{documents[idx][:200]}\n")
        print(f"Document Class: {class_names[labels[idx]]}")
        print(f"Main Document Class: {class_names[labels[main_idx]]}")
        print(f"{'='*50}")

Se analizan los documentos más similares 

In [40]:
analyze_similarity(
    most_similar_idx=most_similar_idx, 
    documents=newsgroups_train.data, 
    labels=y_train, 
    cosine_sim_matrix=cos_sim, 
    main_idx=main_idx
)


Top 5 Similar Documents:
--------------------------------------------------

Analyzing Document 1794
Content:
I need to know the Pins to connect to make a loopback connector for a serial
port so I can build one.  The loopback connector is used to test the 
serial port.

Thanks for any help.


Document Class: comp.sys.ibm.pc.hardware
Main Document Class: comp.sys.ibm.pc.hardware

Analyzing Document 10714
Content:
Subject says it  all.  Please email soon.  
skcgoh@tartarus.uwa.edu.au


Document Class: comp.sys.ibm.pc.hardware
Main Document Class: comp.sys.ibm.pc.hardware

Analyzing Document 8506
Content:


From a recent BYTE magazine i got the following:

[Question and part of the answer deleted]

  If you are handy with a soldering iron, the loopback plugs are easy to
make.  On a serial RS-232 nine-p

Document Class: comp.sys.ibm.pc.hardware
Main Document Class: comp.sys.ibm.pc.hardware

Analyzing Document 111
Content:

It would depend on the requirements of the poster's data, for some

Como se puede ver en el resultado de la celda anterior. La mayoría de los documentos más similares tienen tópicos con servicios de atención al cliente, relacionados con computación y tecnología. Uno de los documentos tiene un correo electrónico de contacto de una institución educativa, por lo que la similitud puede ir porque en el documento 11256 se menciona un correo electrónico también.

### Análisis del documento: **7608**

Se obtiene los índices de los documentos más similares al documento **7608**

In [41]:
main_idx = 7608

# Calculate the cosine similarity between the main document and all the other documents
cos_sim = cosine_similarity(X_train[main_idx], X_train)[0]

# Get the indices of the most similar documents
most_similar_idx = np.argsort(cos_sim)[::-1][1:6]

print(f'Most similar documents to document {main_idx}: {most_similar_idx}')

Most similar documents to document 7608: [2172 6387 7545 2800 9986]


Se muestra el contenido del documento seleccionado

In [42]:
print(f'Class for document {main_idx}: {newsgroups_train.target_names[y_train[main_idx]]}')
print(f'Content:\n{newsgroups_train.data[main_idx]}')

Class for document 7608: sci.space
Content:
Other idea for old space crafts is as navigation beacons and such..
Why not?? If you can put them on "safe" "pause" mode.. why not have them be
activated by a signal from a space craft (manned?) to act as a naviagtion
beacon, to take a directional plot on??


El documento que se va a analizar esta relacionado con las ciencias aerospaciales.

Se analizan los documentos más similares

In [43]:
analyze_similarity(
    most_similar_idx=most_similar_idx, 
    documents=newsgroups_train.data, 
    labels=y_train, 
    cosine_sim_matrix=cos_sim, 
    main_idx=main_idx
)


Top 5 Similar Documents:
--------------------------------------------------

Analyzing Document 2172
Content:
   Other idea for old space crafts is as navigation beacons and such..
   Why not??

Because to be any use as a nav point you need to know -exactly- where
it is, which means you either nail it to some

Document Class: sci.space
Main Document Class: sci.space

Analyzing Document 6387
Content:



There is a whole constellation of custom built navigation beacon satellites
in the process of being phased out right now. The TRANSIT/OSCAR satellites
are being replaced by GPS. Or were you thinkin

Document Class: sci.space
Main Document Class: sci.space

Analyzing Document 7545
Content:
There is an interesting opinion piece in the business section of today's
LA Times (Thursday April 15, 1993, p. D1).  I thought I'd post it to
stir up some flame wars - I mean reasoned debate.  Let me 

Document Class: sci.space
Main Document Class: sci.space

Analyzing Document 2800
Content:
Archive-na

En el caso de este documento la similaridad es más clara, todos los documentos más similares tienen tópicos relacionados con las ciencias aerospaciales.

### Análisis del documento: **5426**

Se obtiene los índices de los documentos más similares al documento **5426**

In [44]:
main_idx = 5426

# Calculate the cosine similarity between the main document and all the other documents
cos_sim = cosine_similarity(X_train[main_idx], X_train)[0]

# Get the indices of the most similar documents
most_similar_idx = np.argsort(cos_sim)[::-1][1:6]

print(f'Most similar documents to document {main_idx}: {most_similar_idx}')

Most similar documents to document 5426: [11124  7902  9030   955  6635]


Se muestra el contenido del documento seleccionado

In [46]:
print(f'Class for document {main_idx}: {newsgroups_train.target_names[y_train[main_idx]]}')
print(f'Content:\n{newsgroups_train.data[main_idx]}')

Class for document 5426: rec.motorcycles
Content:


Hmmm.. The LDDC security guards over here in Docklands only place parking 
stickers on the drivers SIDE windows.. But on reflection that could still 
cause an accident.. Suppose it's because people aren't as litigious over 
here as in the states :-)

Stephen


En este caso el documento parece estar relacionado algun tipo de comentario deportivo. Por la información de la etiqueta se puede inferir que el documento es de la categoría de motociclismo.

Se analizan los documentos más similares

In [47]:
analyze_similarity(
    most_similar_idx=most_similar_idx, 
    documents=newsgroups_train.data, 
    labels=y_train, 
    cosine_sim_matrix=cos_sim, 
    main_idx=main_idx
)


Top 5 Similar Documents:
--------------------------------------------------

Analyzing Document 11124
Content:
PATRICK
1st rd:	Pens over Isles in 4.
	Devils over Caps in 6.
2nd:	Pens over Devils in 7.

ADAMS
1st rd: B's over Sabres in 5.
	Nords over Habs in 5.
2nd:	B's over Nords in 6.

NORRIS
1st:	Hawks over 

Document Class: rec.sport.hockey
Main Document Class: rec.motorcycles

Analyzing Document 7902
Content:

(1)  Stephen said you took a quote out of context
(2)  You noted that Stephen had not replied to some other t.r.m article
     (call it A) that took a quote out of context
(3)  But the lack of eviden

Document Class: talk.religion.misc
Main Document Class: rec.motorcycles

Analyzing Document 9030
Content:

(not that logic has anything to do with it, but...)
I can see the liability of putting stickers on the car while it was moving,
or something, but it's the BDI that chooses to start and then drive the

Document Class: rec.motorcycles
Main Document Class: rec.motorcycles

An

Para este caso, los documentos detectados como más similares tienen tópicos más diversos. Dos de ellos estan relacionados con comentarios deportivos, uno con comentarios sobre hockey y otro con comentarios sobre motociclismo. El resto de documentos estan relacionados a religión, política y criptografía, para estos últimos los motivos de la similaridad no son tan claros, pero posiblemente se deba a que contienen palabras o caracteres similares.

### Análisis del documento: **5959**

Se obtiene los índices de los documentos más similares al documento **5959**

In [50]:
main_idx = 5959

# Calculate the cosine similarity between the main document and all the other documents
cos_sim = cosine_similarity(X_train[main_idx], X_train)[0]

# Get the indices of the most similar documents
most_similar_idx = np.argsort(cos_sim)[::-1][1:6]

print(f'Most similar documents to document {main_idx}: {most_similar_idx}')

Most similar documents to document 5959: [ 913  919 3746 5826 4271]


Se muestra el contenido del documento seleccionado

In [51]:
print(f'Class for document {main_idx}: {newsgroups_train.target_names[y_train[main_idx]]}')
print(f'Content:\n{newsgroups_train.data[main_idx]}')

Class for document 5959: comp.sys.ibm.pc.hardware
Content:


We have plenty of computer labs where the computers are left on all the
time. I don't see any shorter lifespan than the ones we have in the
offices which does get turned off at the end of the day. In fact, some
of the computers in the labs have outlived some of the same ones in the
offices. But it goes both ways so can't conclude anything.


El documento parece estar relacionado con tecnología, específicamente computación.

Se analizan los documentos más similares

In [53]:
analyze_similarity(
    most_similar_idx=most_similar_idx, 
    documents=newsgroups_train.data, 
    labels=y_train, 
    cosine_sim_matrix=cos_sim, 
    main_idx=main_idx
)


Top 5 Similar Documents:
--------------------------------------------------

Analyzing Document 913
Content:
The recent rise of nostalgia in this group, combined with the
  incredible level of utter bullshit, has prompted me to comb
  through my archives and pull out some of "The Best of Alt.Atheism"
  for y

Document Class: alt.atheism
Main Document Class: comp.sys.ibm.pc.hardware

Analyzing Document 919
Content:
Accounts of Anti-Armenian Human Right Violatins in Azerbaijan #009
                 Prelude to Current Events in Nagorno-Karabakh

      +--------------------------------------------------------------

Document Class: talk.politics.mideast
Main Document Class: comp.sys.ibm.pc.hardware

Analyzing Document 3746
Content:
THE WHITE HOUSE

                  Office of the Press Secretary
                 (Vancouver, British Columbia) 
______________________________________________________________


                      

Document Class: talk.politics.misc
Main Document Class: com

Los documentos, estan relacionados con tópicos de religión y política. Ninguno de los documentos más similares tiene relación con el tópico del documento seleccionado. Nuevamente, puede ser que la similaridad se deba a palabras, caracteres o una estructura similar en los documentos.

### Análisis del documento: **3603**

Se obtiene los índices de los documentos más similares al documento **3603**

In [54]:
main_idx = 3603

# Calculate the cosine similarity between the main document and all the other documents
cos_sim = cosine_similarity(X_train[main_idx], X_train)[0]

# Get the indices of the most similar documents
most_similar_idx = np.argsort(cos_sim)[::-1][1:6]

print(f'Most similar documents to document {main_idx}: {most_similar_idx}')

Most similar documents to document 3603: [5928 2495 1739 8101 9764]


Se muestra el contenido del documento seleccionado

In [55]:
print(f'Class for document {main_idx}: {newsgroups_train.target_names[y_train[main_idx]]}')
print(f'Content:\n{newsgroups_train.data[main_idx]}')

Class for document 3603: comp.sys.mac.hardware
Content:


...


Mac sound hardware is diverse; some macs play in stereo and
mix the output (the SE/30 for instance) while others play in
stereo but ONLY has the left channel for the speaker, while
some are "truly" mono (like the LC)

Developers know that stuff played in the left channel is
guaranteed to be heard, while the right channel isn't. Some
send data to both, some only send data to the left channel
(the first is preferrable, of course)

Cheers,

					/ h+


El documento parece estar relacionado con servicios de atención al cliente, en el área de tecnología.

Se analizan los documentos más similares

In [56]:
analyze_similarity(
    most_similar_idx=most_similar_idx, 
    documents=newsgroups_train.data, 
    labels=y_train, 
    cosine_sim_matrix=cos_sim, 
    main_idx=main_idx
)


Top 5 Similar Documents:
--------------------------------------------------

Analyzing Document 5928
Content:
or
there


Okay, I guess its time for a quick explanation of Mac sound.

The original documentation for the sound hardware (IM-3) documents how to
make sound by directly accessing hardware.  Basically

Document Class: comp.sys.mac.hardware
Main Document Class: comp.sys.mac.hardware

Analyzing Document 2495
Content:
Hi.  I think I have a problem with the stereo sound output on my Quadra
900, but I am not totally sure because my roomate has the same problem
on his PowerBook 170.  Any info or experience anyopne has

Document Class: comp.sys.mac.hardware
Main Document Class: comp.sys.mac.hardware

Analyzing Document 1739
Content:
I'm looking for a used/inexpensive audio mixer.  I need at least 
4 channels of stereo input and 1 channel of stereo output, but I would
prefer 8 or more input channels.  Each channel needs to have at

Document Class: misc.forsale
Main Document Class: com

Para este caso, la mayoría de los documentos más similares tienen tópicos relacionados con servicios de atención al cliente, en el área de tecnología. Los demás documentos estan relacionados con electrónica y lo que parece ser un mensaje relacao con un componente de audio.

## 2. Entrenamiento de modelos

Entrenar modelos de clasificación Naïve Bayes para maximizar el desempeño de clasificación (f1-score macro) en el conjunto de datos de test. Considerar cambiar parámteros de instanciación del vectorizador y los modelos y probar modelos de Naïve Bayes Multinomial y ComplementNB.

Se definen los conjuntos de entrenamiento y test. Además, las variables objetivo y las características.

In [5]:
X_train = newsgroups_train.data
y_train = newsgroups_train.target
X_test = newsgroups_test.data
y_test = newsgroups_test.target

Se define un pipeline de procesamiento con `TfidfVectorizer` y un modelo de Naive Bayes como clasificador.

In [8]:
pipeline = Pipeline([
    ('tfidf', TfidfVectorizer(stop_words='english', max_features=1000)),
    ('model', MultinomialNB())
])

Se define el grid de hiperparámetros para ambos modelos y el TfidfVectorizer

In [12]:
param_dist = [
    {
        'tfidf__max_df': np.linspace(0.5, 0.95, 5), 
        'tfidf__min_df': [1, 2, 5], 
        'tfidf__ngram_range': [(1, 1), (1, 2), (1, 3)], 
        'tfidf__max_features': [5000, 10000], 
        'tfidf__sublinear_tf': [True, False], 
        'model': [MultinomialNB()],
        'model__alpha': np.linspace(0.01, 1.0, 20), 
        'model__fit_prior': [True, False]
    },
    {
        'tfidf__max_df': np.linspace(0.5, 0.95, 5),
        'tfidf__min_df': [1, 2, 5],
        'tfidf__ngram_range': [(1, 1), (1, 2), (1, 3)],
        'tfidf__max_features': [5000, 10000],
        'tfidf__sublinear_tf': [True, False],
        'model': [ComplementNB()],
        'model__alpha': np.linspace(0.01, 1.0, 20),
        'model__fit_prior': [True, False],
        'model__norm': [True, False]
    }
]

Se define una búsqueda aleatoria con F1-score macro como métrica de evaluación para buscar maximiazarlo.

In [13]:
random_search = RandomizedSearchCV(
    pipeline, 
    param_distributions=param_dist, 
    n_iter=15,
    cv=5, 
    scoring='f1_macro',
    random_state=42, 
    n_jobs=2  
)

Se realiza la búsqueda de hiperparámetros y el entrenamiento del mejor modelo.

In [14]:
random_search.fit(X_train, y_train)

# Utilize the best model found by the RandomizedSearchCV
best_model = random_search.best_estimator_

# Evaluate the best model on the test set
y_pred = best_model.predict(X_test)
f1 = f1_score(y_test, y_pred, average='macro') 

print(f"Mejores Hiperparámetros: {random_search.best_params_}")
print(f"F1 Macro Score: {f1}")

  _data = np.array(data, dtype=dtype, copy=copy,


Mejores Hiperparámetros: {'tfidf__sublinear_tf': False, 'tfidf__ngram_range': (1, 3), 'tfidf__min_df': 2, 'tfidf__max_features': 10000, 'tfidf__max_df': np.float64(0.6125), 'model__fit_prior': False, 'model__alpha': np.float64(0.21842105263157896), 'model': MultinomialNB()}
F1 Macro Score: 0.6664192443453767


Se ha realizado una búsqueda de hiperparámetros para los modelos `MultinomialNB` y `ComplementNB`. Se ha encontrado que la mejor configuración es la siguiente para el modelo `MultinomialNB`:

- **`tfidf__sublinear_tf`**: `False`
- **`tfidf__ngram_range`**: `(1, 3)`
- **`tfidf__min_df`**: `2`
- **`tfidf__max_features`**: `10000`
- **`tfidf__max_df`**: `0.6125`
- **`model__fit_prior`**: `False`
- **`model__alpha`**: `0.2184`

Con esta configuración, se ha logrado un **F1 Macro Score** de `0.6664`.


## 3. Vectorización de palabras

Transponer la matriz documento-término. De esa manera se obtiene una matriz término-documento que puede ser interpretada como una colección de vectorización de palabras. Estudiar ahora similaridad entre palabras tomando 5 palabras y estudiando sus 5 más similares. La elección de palabras no debe ser al azar para evitar la aparición de términos poco interpretables, elegirlas "manualmente".

Generamos la matriz témino-documento utilizando el vectorizador TF-IDF con los parámetros obtenidos en el punto anterior.

In [30]:
vectorizer = TfidfVectorizer(
    stop_words='english', 
    max_features=10000, 
    sublinear_tf=False, 
    ngram_range=(1, 1), 
    min_df=2, 
    max_df=0.6125
)

# Fit the vectorizer on the training data
X_train_tfidf = vectorizer.fit_transform(newsgroups_train.data)

Se transpone la matriz para obtener la matriz término-documento

In [31]:
X_terms_docs = X_train_tfidf.T 
terms = vectorizer.get_feature_names_out() 

print(f"Shape of the TF-IDF matrix: {X_train_tfidf.shape}")
print(f"Number of terms: {len(terms)}")

Shape of the TF-IDF matrix: (11314, 10000)
Number of terms: 10000


Se calcula la similitud entre palabras

In [32]:
def get_top_similar_words(term, matrix, terms, top_n=5):
    """
    Get the top similar words to a given term based on a similarity matrix.

    Parameters:
    - term (str): The term to find similar words for.
    - matrix (numpy.ndarray): The similarity matrix.
    - terms (list): The list of terms corresponding to the rows/columns of the matrix.
    - top_n (int): The number of top similar words to return. Default is 5.

    Returns:
    - similar_words (list): A list of tuples containing the similar words and their similarity scores.
    """
    # Get the index of the term in the terms list
    idx = terms.tolist().index(term) 
    
    # Get the term vector
    term_vector = matrix[idx].toarray() 
    
    # Calculate the cosine similarity between the term vector and the matrix
    similarities = cosine_similarity(term_vector, matrix) 
    
    # Get the indices of the most similar words
    similar_indices = np.argsort(similarities[0])[::-1][1:top_n+1] 
    
    # Get the similar words and their similarity scores
    similar_words = [(terms[i], similarities[0][i]) for i in similar_indices]
    return similar_words

Se seleccionarán cinco palabras que se consideran relevantes para el análisis de los documentos.

In [51]:
selected_words = ['government', 'computer', 'windows', 'cell', 'information'] 

### Análisis de la palabra: **"government"**

Se obtienen las palabras más similares a la palabra **"government"**

In [34]:
similar_words = get_top_similar_words(selected_words[0], X_terms_docs, terms, top_n=5)

for similar_word, similarity in similar_words:
    print(f" - {similar_word}: {similarity:.4f}")

 - libertarian: 0.2216
 - encryption: 0.2084
 - regulation: 0.1987
 - people: 0.1959
 - agencies: 0.1893


En este caso, podemos ver que las palabras si mantienen una relación conceptual con la palabra seleccionada. Todas las palabras más similares están relacionadas con el gobierno y la política. Algunas de las palabras más similares son "libertarian", "regulation", "people". La palabra "encryption" no parece tener una relación directa con la palabra seleccionada, pero puede ser que en los documentos donde aparece la palabra "government" también aparezca la palabra "encryption".

### Análisis de la palabra: **"computer"**

Se obtienen las palabras más similares a la palabra **"computer"**

In [35]:
similar_words = get_top_similar_words(selected_words[1], X_terms_docs, terms, top_n=5)

for similar_word, similarity in similar_words:
    print(f" - {similar_word}: {similarity:.4f}")

 - wu: 0.1283
 - graphics: 0.1130
 - drive: 0.1062
 - reboot: 0.1047
 - hackers: 0.1032


En este caso, podemos ver que las palabras más similares están relacionadas con la computación y la tecnología. Algunas que resaltan son "graphics", "drive", "reboot". Es interesante que se incluya "wu" como una de las palabras más similares, ya que por si sola no tiene una interpretación clara, por lo que se puede inferir que se debe a que aparece en documentos similares a los que aparece "computer".

### Análisis de la palabra: **"windows"**

Se obtienen las palabras más similares a la palabra **"windows"**

In [48]:
similar_words = get_top_similar_words(selected_words[2], X_terms_docs, terms, top_n=5)

for similar_word, similarity in similar_words:
    print(f" - {similar_word}: {similarity:.4f}")

 - dos: 0.3108
 - ms: 0.2273
 - microsoft: 0.2075
 - file: 0.1927
 - nt: 0.1919


En caso es interesante, pues la palabra "windows" es un término que puede tener varios significados. En este caso, las palabras más similares están relacionadas con el sistema operativo de Microsoft. Prácticamente no se hace mencion a la palabra "windows" como una ventana o vidrio. 

### Análisis de la palabra: **"cell"**

Se obtienen las palabras más similares a la palabra **"cell"**

In [52]:
similar_words = get_top_similar_words(selected_words[3], X_terms_docs, terms, top_n=5)

for similar_word, similarity in similar_words:
    print(f" - {similar_word}: {similarity:.4f}")

 - cells: 0.1927
 - iu: 0.1910
 - church: 0.1829
 - attendance: 0.1748
 - batteries: 0.1741


Este es otra palabra que puede tener varios significados. En este caso, dado que la palabra "cell" no se limita a un solo significado, las palabras más similares vienen de diferentes tópicos. Mi interpretación del topico al que pertencen las palabras más similares es: 
- "iu" (unidad de medida de vitaminas)
- "church" (iglesia)
- "attendance" (asistencia)
- "batteries" (baterías)

Este caso resalta la importancia del vecindario de las palabras en el análisis de similaridad.

### Análisis de la palabra: **"information"**

Se obtienen las palabras más similares a la palabra **"information"**

In [53]:
similar_words = get_top_similar_words(selected_words[4], X_terms_docs, terms, top_n=5)

for similar_word, similarity in similar_words:
    print(f" - {similar_word}: {similarity:.4f}")

 - thanks: 0.1311
 - send: 0.1287
 - looking: 0.1222
 - interested: 0.1180
 - appreciated: 0.1159


En este caso es interesante, pues la palabra "information" generalmente se asocia con datos o conocimientos que se comparten. En su mayoría, las palabras más similares están relacionadas con un contexto de comunicación. Mostrando la importancia del vecindario de palabras una vez más.