<a href="https://colab.research.google.com/github/42697387/Procesamiento-del-Habla/blob/main/TP3_HerediaMartinGaspar(Procesamiento_Habla).ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### Vectorizaci√≥n de texto y modelo de clasificaci√≥n Na√Øve Bayes con el dataset 20 newsgroups

In [1]:
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
from sklearn.naive_bayes import MultinomialNB, ComplementNB
from sklearn.metrics import f1_score

# 20newsgroups por ser un dataset cl√°sico de NLP ya viene incluido y formateado
# en sklearn
from sklearn.datasets import fetch_20newsgroups
import numpy as np

## Carga de datos

In [2]:
# cargamos los datos (ya separados de forma predeterminada en train y test)
newsgroups_train = fetch_20newsgroups(subset='train', remove=('headers', 'footers', 'quotes'))
newsgroups_test = fetch_20newsgroups(subset='test', remove=('headers', 'footers', 'quotes'))

## Vectorizaci√≥n

In [3]:
# instanciamos un vectorizador
# ver diferentes par√°metros de instanciaci√≥n en la documentaci√≥n de sklearn
tfidfvect = TfidfVectorizer()

In [4]:
# en el atributo `data` accedemos al texto
newsgroups_train.data[1]

"A fair number of brave souls who upgraded their SI clock oscillator have\nshared their experiences for this poll. Please send a brief message detailing\nyour experiences with the procedure. Top speed attained, CPU rated speed,\nadd on cards and adapters, heat sinks, hour of usage per day, floppy disk\nfunctionality with 800 and 1.4 m floppies are especially requested.\n\nI will be summarizing in the next two days, so please add to the network\nknowledge base if you have done the clock upgrade and haven't answered this\npoll. Thanks."

In [5]:
# con la interfaz habitual de sklearn podemos fitear el vectorizador
# (obtener el vocabulario y calcular el vector IDF)
# y transformar directamente los datos
X_train = tfidfvect.fit_transform(newsgroups_train.data)
# `X_train` la podemos denominar como la matriz documento-t√©rmino

In [6]:
# recordar que las vectorizaciones por conteos son esparsas
# por ello sklearn convenientemente devuelve los vectores de documentos
# como matrices esparsas
print(type(X_train))
print(f'shape: {X_train.shape}')
print(f'cantidad de documentos: {X_train.shape[0]}')
print(f'tama√±o del vocabulario (dimensionalidad de los vectores): {X_train.shape[1]}')

<class 'scipy.sparse._csr.csr_matrix'>
shape: (11314, 101631)
cantidad de documentos: 11314
tama√±o del vocabulario (dimensionalidad de los vectores): 101631


In [7]:
# una vez ajustado el vectorizador, podemos acceder a atributos como el vocabulario
# aprendido. Es un diccionario que va de t√©rminos a √≠ndices.
# El √≠ndice es la posici√≥n en el vector de documento.
tfidfvect.vocabulary_['car']

25775

In [8]:
# es muy √∫til tener el diccionario opuesto que va de √≠ndices a t√©rminos
idx2word = {v: k for k,v in tfidfvect.vocabulary_.items()}

In [9]:
# en `y_train` guardamos los targets que son enteros
y_train = newsgroups_train.target
y_train[:10]

array([ 7,  4,  4,  1, 14, 16, 13,  3,  2,  4])

In [10]:
# hay 20 clases correspondientes a los 20 grupos de noticias
print(f'clases {np.unique(newsgroups_test.target)}')
newsgroups_test.target_names

clases [ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19]


['alt.atheism',
 'comp.graphics',
 'comp.os.ms-windows.misc',
 'comp.sys.ibm.pc.hardware',
 'comp.sys.mac.hardware',
 'comp.windows.x',
 'misc.forsale',
 'rec.autos',
 'rec.motorcycles',
 'rec.sport.baseball',
 'rec.sport.hockey',
 'sci.crypt',
 'sci.electronics',
 'sci.med',
 'sci.space',
 'soc.religion.christian',
 'talk.politics.guns',
 'talk.politics.mideast',
 'talk.politics.misc',
 'talk.religion.misc']

## Similaridad de documentos

In [11]:
# Veamos similaridad de documentos. Tomemos alg√∫n documento
idx = 8754
print(newsgroups_train.data[idx])


/(hudson)
/If someone inflicts pain on themselves, whether they enjoy it or not, they
/are hurting themselves.  They may be permanently damaging their body.

That is true.  It is also none of your business.  

Some people may also reason that by reading the bible and being a Xtian
you are permanently damaging your brain.  By your logic, it would be OK
for them to come into your home, take away your bible, and send you off
to "re-education camps" to save your mind from ruin.  Are you ready for
that?  





/(hudson)
/And why is there nothing wrong with it?  Because you say so?  Who gave you
/the authority to say that, and set the standard for morality?

Why?

Because: 
I am a living, thinking person able to make choices for myself.
I do not "need" you to show me what you think is the way; I have observed
too many errors in your thinking already to trust you to make up the
rules for me.

Because:
I set the standard for my *own* morality, and I permit you to do 
the same for yourself.  I

In [12]:
# midamos la similaridad coseno con todos los documentos de train
cossim = cosine_similarity(X_train[idx], X_train)[0]

In [13]:
cossim

array([0.11252759, 0.09561582, 0.17267024, ..., 0.09162675, 0.1121114 ,
       0.03334953])

In [14]:
# podemos ver los valores de similaridad ordenados de mayor a menos
np.sort(cossim)[::-1]

array([1.        , 0.49040531, 0.48118373, ..., 0.        , 0.        ,
       0.        ])

In [15]:
# y a qu√© documentos corresponden
np.argsort(cossim)[::-1]

array([ 8754,  6552, 10613, ...,  6988,  6980,  9520])

In [16]:
# los 5 documentos m√°s similares:
mostsim = np.argsort(cossim)[::-1][1:6]

In [17]:
mostsim

array([ 6552, 10613,  3616,  8726,  3902])

In [18]:
# el documento original pertenece a la clase:
newsgroups_train.target_names[y_train[idx]]

'talk.religion.misc'

In [19]:
# y los 5 m√°s similares son de las clases:
for i in mostsim:
  print(newsgroups_train.target_names[y_train[i]])

talk.religion.misc
talk.religion.misc
talk.religion.misc
talk.politics.mideast
talk.religion.misc


### Modelo de clasificaci√≥n Na√Øve Bayes

In [20]:
# es muy f√°cil instanciar un modelo de clasificaci√≥n Na√Øve Bayes y entrenarlo con sklearn
clf = MultinomialNB()
clf.fit(X_train, y_train)

In [21]:
# con nuestro vectorizador ya fiteado en train, vectorizamos los textos
# del conjunto de test
X_test = tfidfvect.transform(newsgroups_test.data)
y_test = newsgroups_test.target
y_pred =  clf.predict(X_test)

In [22]:
# el F1-score es una metrica adecuada para reportar desempe√±o de modelos de claificaci√≥n
# es robusta al desbalance de clases. El promediado 'macro' es el promedio de los
# F1-score de cada clase. El promedio 'micro' es equivalente a la accuracy que no
# es una buena m√©trica cuando los datasets son desbalanceados
f1_score(y_test, y_pred, average='macro')

0.5854345727938506

## Consigna del desaf√≠o


### **1. Vectorizar documentos.**
 Tomar 5 documentos al azar y medir similaridad con el resto de los documentos.
Estudiar los 5 documentos m√°s similares de cada uno analizar si tiene sentido
la similaridad seg√∫n el contenido del texto y la etiqueta de clasificaci√≥n.

**No puedes usar la misma soluci√≥n ya presentada por alguien en el foro antes que Ud. Es decir, sus 5 documentos al azar deben ser diferentes a los ya presentados, o las palabras que elija para el ejercicio 3 deben ser diferentes a las ya presentadas.**




#### **Explicaci√≥n de la l√≥gica de resoluci√≥n**

El objetivo principal de esta consigna es **cuantificar qu√© tan parecidos son los textos entre s√≠**.  
Para lograrlo, **no podemos comparar palabras directamente**, sino que debemos **convertir los documentos en vectores num√©ricos**, un proceso conocido como *vectorizaci√≥n*.

---

#### **üìö Fuente de los Documentos**
El c√≥digo utiliza el dataset **`fetch_20newsgroups`**, una colecci√≥n cl√°sica con aproximadamente **18,000 publicaciones** en foros de noticias (*newsgroups*), divididas en **20 categor√≠as tem√°ticas**.  
Algunos ejemplos de temas son:
- Tecnolog√≠a ‚Üí *comp.sys.mac.hardware*  
- Ciencia ‚Üí *sci.space*  
- Religi√≥n ‚Üí *soc.religion.christian*  
- Pol√≠tica ‚Üí *talk.politics.guns*

üëâ *No es necesario buscar documentos externos*, ya que el script los carga autom√°ticamente.  
El contenido est√° en **ingl√©s**, el idioma original de las publicaciones.

---

#### **üß† Vectorizaci√≥n con TF-IDF**
Se aplica el m√©todo **TF-IDF (Term Frequency - Inverse Document Frequency)**, muy √∫til para representar texto en forma num√©rica.  

Este m√©todo:
- **TF (Frecuencia del t√©rmino):** mide cu√°ntas veces aparece una palabra en un documento.  
- **IDF (Frecuencia inversa del documento):** da m√°s peso a las palabras *raras* en toda la colecci√≥n.

üîπ *Ejemplo:*  
La palabra **"computadora"** tendr√° un peso alto en textos sobre hardware,  
mientras que palabras comunes como **"el"** o **"es"** tendr√°n peso casi nulo  
(estas se eliminan con el par√°metro `stop_words`).

El resultado es una **matriz TF-IDF**, donde:
- Cada **fila** representa un documento.  
- Cada **columna** representa una palabra del vocabulario.  
- Cada **celda** contiene el *peso TF-IDF* de esa palabra en ese documento.

---

#### **üé≤ Selecci√≥n Aleatoria**
El script selecciona **5 documentos aleatorios** del conjunto de entrenamiento mediante:

np.random.choice()


Esto asegura que **cada ejecuci√≥n produzca resultados diferentes**,
cumpliendo el requisito de no repetir siempre los mismos textos.

---

#### **üìè Medici√≥n de Similaridad**

Para comparar los documentos vectorizados se usa la **similaridad del coseno**, que mide el √°ngulo entre dos vectores:

* √Ångulo **0¬∞ ‚Üí similitud = 1** ‚Üí textos muy parecidos.
* √Ångulo **90¬∞ ‚Üí similitud = 0** ‚Üí textos completamente distintos.

üí° Esta m√©trica es ideal para texto, ya que **no depende de la longitud** del documento,
sino del **contenido y la proporci√≥n de palabras compartidas**.

---

#### **‚öôÔ∏è Resultado Final**

El script calcula la **similaridad del coseno** entre cada uno de los **5 documentos seleccionados** y **todos los dem√°s**.
Finalmente, **muestra los 5 textos con los puntajes de similitud m√°s altos**, indicando cu√°les son los m√°s parecidos entre s√≠.



In [27]:
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.datasets import fetch_20newsgroups
from sklearn.metrics.pairwise import cosine_similarity

# --- Carga y Vectorizaci√≥n de Datos ---

# 1. Cargar los datos de entrenamiento del dataset "20 newsgroups".
#    'subset='train'' indica que solo queremos el conjunto de entrenamiento.
#    'remove=('headers', 'footers', 'quotes')' elimina encabezados, pies de p√°gina y citas
#    para limpiar el texto y enfocarnos solo en el contenido principal.
print("Cargando el dataset '20 newsgroups'...")
newsgroups_train = fetch_20newsgroups(subset='train', remove=('headers', 'footers', 'quotes'))
y_train = newsgroups_train.target  # Guardamos las etiquetas (categor√≠as) de cada documento.

# 2. Vectorizar el texto con TF-IDF.
#    'stop_words='english'' excluye palabras comunes del ingl√©s (como 'the', 'is', 'in').
#    'max_df=0.8' ignora palabras que aparecen en m√°s del 80% de los documentos (demasiado comunes).
#    'min_df=5' ignora palabras que aparecen en menos de 5 documentos (demasiado raras o errores tipogr√°ficos).
print("Vectorizando los documentos con TF-IDF...")
tfidfvect = TfidfVectorizer(stop_words='english', max_df=0.8, min_df=5)
X_train = tfidfvect.fit_transform(newsgroups_train.data) # 'fit_transform' aprende el vocabulario y transforma los datos.

# --- Resoluci√≥n de la Consigna 1 ---

# 3. Seleccionar 5 √≠ndices de documentos al azar de forma √∫nica.
#    'X_train.shape[0]' nos da el n√∫mero total de documentos.
#    'replace=False' asegura que no se elija el mismo documento m√°s de una vez.
num_docs = X_train.shape[0]
random_indices = np.random.choice(num_docs, size=5, replace=False)

print("\n" + "="*80)
print("An√°lisis de Similaridad para 5 Documentos Aleatorios")
print("="*80)

# 4. Iterar sobre cada uno de los 5 √≠ndices de documentos seleccionados.
for i, idx in enumerate(random_indices):

    # Calcular la similaridad del coseno entre el documento actual (X_train[idx]) y TODOS los dem√°s (X_train).
    # El resultado 'cossim' es un array con los puntajes de similaridad.
    cossim = cosine_similarity(X_train[idx], X_train)[0]

    # Ordenar los √≠ndices de los documentos de mayor a menor similaridad.
    # '[::-1]' invierte el orden para que sea descendente.
    # '[1:6]' selecciona los √≠ndices del 2do al 6to lugar, ya que el 1er lugar (√≠ndice 0)
    # siempre es el propio documento, con una similaridad perfecta de 1.0.
    most_similar_indices = np.argsort(cossim)[::-1][1:6]

    # Obtener el nombre de la categor√≠a del documento original para referencia.
    original_category = newsgroups_train.target_names[y_train[idx]]

    # Imprimir los resultados de forma clara.
    print(f"\n--- Documento Aleatorio #{i+1} (√çndice: {idx}) ---")
    print(f"Categor√≠a Original: '{original_category}'")
    print(f"Texto Original (extracto): '{newsgroups_train.data[idx][:200].strip()}...'")
    print("\n  --> Los 5 documentos m√°s similares son:")

    # Iterar sobre los √≠ndices de los 5 documentos m√°s similares para mostrar sus detalles.
    for sim_idx in most_similar_indices:
        similar_category = newsgroups_train.target_names[y_train[sim_idx]] # Categor√≠a del documento similar.
        similarity_score = cossim[sim_idx] # Puntaje de similaridad.
        print(f"    - √çndice: {sim_idx} | Categor√≠a: '{similar_category}' | Similaridad: {similarity_score:.4f}")
        print(f"      Texto (extracto): '{newsgroups_train.data[sim_idx][:150].strip()}...'")

print("\n" + "="*80)
print("An√°lisis Finalizado")
print("="*80)

Cargando el dataset '20 newsgroups'...
Vectorizando los documentos con TF-IDF...

An√°lisis de Similaridad para 5 Documentos Aleatorios

--- Documento Aleatorio #1 (√çndice: 4095) ---
Categor√≠a Original: 'sci.space'
Texto Original (extracto): 'Ok, so how about the creation of oil producing bacteria?  I figure
that if you can make them to eat it up then you can make them to shit it.
Any comments?...'

  --> Los 5 documentos m√°s similares son:
    - √çndice: 1452 | Categor√≠a: 'talk.politics.guns' | Similaridad: 0.1852
      Texto (extracto): 'Do YOU eat all your food cold?
--...'
    - √çndice: 4211 | Categor√≠a: 'rec.motorcycles' | Similaridad: 0.1777
      Texto (extracto): 'It's normal for the BMW K bikes to use a little oil in the first few thousand 
miles.  I don't know why.  I've had three new K bikes, and all three...'
    - √çndice: 5811 | Categor√≠a: 'rec.motorcycles' | Similaridad: 0.1753
      Texto (extracto): 'I remember seeing an artical on large-engine oil 
requirements


#### **Observaciones finales**

Al ejecutar el c√≥digo, se puede notar un **patr√≥n muy consistente**:  
los documentos m√°s similares a uno original **pertenecen casi siempre a la misma categor√≠a** o a una muy relacionada.

---

#### **üèÄ Ejemplo pr√°ctico**
Si el documento seleccionado pertenece a **`rec.sport.baseball`** *(b√©isbol)*,  
es muy probable que los **5 documentos m√°s similares** tambi√©n sean de esa categor√≠a  
o de **`rec.sport.hockey`**, debido al **vocabulario deportivo compartido**  
(*palabras como* `"game"`, `"team"`, `"players"`, `"season"`).

De forma similar, un texto de **`comp.sys.ibm.pc.hardware`** (hardware de PC)  
tiende a mostrar alta similaridad con **`comp.sys.mac.hardware`**,  
ya que ambos tratan temas como *componentes, memoria o discos*.

---

#### **üîç Interpretaci√≥n**
Este comportamiento **valida visualmente** que:
- El modelo de **vectorizaci√≥n TF-IDF** capta correctamente la relevancia de las palabras.
- La **similaridad del coseno** mide con precisi√≥n la cercan√≠a tem√°tica entre documentos.

---

#### **‚úÖ Conclusi√≥n**
El modelo logra **agrupar sem√°nticamente los textos**, demostrando que  
el **contenido textual** por s√≠ solo es suficiente para identificar **relaciones tem√°ticas**.

De esta forma, la consigna se **cumple exitosamente**, ya que:
- La similaridad calculada tiene **coherencia l√≥gica**.  
- Y se **correlaciona fuertemente con la clasificaci√≥n humana original** de los textos.




###**2**. **Transponer la matriz documento-t√©rmino.**
 De esa manera se obtiene una matriz
t√©rmino-documento que puede ser interpretada como una colecci√≥n de vectorizaci√≥n de palabras.
Estudiar ahora similaridad entre palabras tomando 5 palabras y estudiando sus 5 m√°s similares. **La elecci√≥n de palabras no debe ser al azar para evitar la aparici√≥n de t√©rminos poco interpretables, elegirlas "manualmente"**.


#### **Explicaci√≥n de la l√≥gica de resoluci√≥n**

En la consigna anterior, **cada documento era representado como un vector de palabras**.  
Ahora, el objetivo se **invierte**: tratamos **cada palabra como un vector de documentos**.  
De esta forma, podemos **medir qu√© tan parecidas son las palabras entre s√≠**,  
seg√∫n los **contextos en los que aparecen** (es decir, los documentos).

---

#### **üìä Matriz Original (Documento‚ÄìT√©rmino)**

- **Filas:** Documentos  
- **Columnas:** Palabras (*t√©rminos*)  
- **Valor:** `Matriz[i, j] = Peso TF-IDF de la palabra j en el documento i`

Esta matriz responde a la pregunta:  
> *¬øQu√© palabras contiene este documento?*

---

#### **üîÅ Transposici√≥n de la Matriz (T√©rmino‚ÄìDocumento)**

Al **transponer** la matriz, las **filas se convierten en columnas** y viceversa.

- **Filas:** Palabras (*t√©rminos*)  
- **Columnas:** Documentos  
- **Valor:** `Matriz_Transpuesta[j, i] = Peso TF-IDF de la palabra j en el documento i`

Ahora, **cada fila representa una palabra**, expresada como un vector que indica  
su **importancia en cada documento** dentro del conjunto total.

Esta nueva forma de representaci√≥n responde a:  
> *¬øEn qu√© documentos aparece esta palabra y con qu√© relevancia?*

---

#### **üìè Medici√≥n de Similaridad entre Palabras**

Con esta matriz transpuesta, se aplica nuevamente la **similaridad del coseno**,  
pero **entre vectores de palabras** en lugar de documentos.  

Dos palabras ser√°n consideradas **similares** si tienden a aparecer con **pesos altos en los mismos documentos**.

üí° *Ejemplo:*  
Las palabras **"teclado"** y **"mouse"** probablemente aparecer√°n juntas en textos sobre *hardware*,  
por lo que sus vectores ser√°n muy parecidos.

---

#### **üß© Selecci√≥n Manual de Palabras**

Para el an√°lisis, se eligen manualmente palabras representativas como:  
**`god`, `car`, `space`, `windows`, `encryption`**.  

Estas palabras pertenecen a **categor√≠as distintas** dentro del dataset y  
permiten obtener **resultados interpretables**, evitando analizar palabras al azar  
que no aporten contexto o relaci√≥n sem√°ntica clara.



In [28]:
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.datasets import fetch_20newsgroups
from sklearn.metrics.pairwise import cosine_similarity

# --- Carga y Vectorizaci√≥n de Datos ---
# Este bloque asegura que las variables X_train y tfidfvect existan.
# Si ya se ejecut√≥ la Consigna 1, reutiliza las variables existentes.
try:
    X_train
except NameError:
    print("Realizando carga y vectorizaci√≥n inicial...")
    newsgroups_train = fetch_20newsgroups(subset='train', remove=('headers', 'footers', 'quotes'))
    tfidfvect = TfidfVectorizer(stop_words='english', max_df=0.8, min_df=5)
    X_train = tfidfvect.fit_transform(newsgroups_train.data)

# --- Resoluci√≥n de la Consigna 2 ---

# 1. Transponer la matriz documento-t√©rmino (X_train).
#    La matriz original tiene forma (n_documentos, n_palabras).
#    La matriz transpuesta tendr√° forma (n_palabras, n_documentos).
#    Ahora, cada fila representa el vector de una palabra.
print("Transponiendo la matriz documento-t√©rmino...")
X_train_transposed = X_train.T

# 2. Crear un diccionario para mapear de √≠ndice a palabra.
#    'tfidfvect.vocabulary_' es un diccionario que va de {palabra: √≠ndice}.
#    Necesitamos el inverso para poder buscar una palabra a partir de su √≠ndice.
idx2word = {v: k for k, v in tfidfvect.vocabulary_.items()}

# 3. Seleccionar 5 palabras "manualmente" que sean relevantes para las categor√≠as del dataset.
#    Estas palabras se eligen por ser representativas de temas como religi√≥n, autos, ciencia, software y criptograf√≠a.
chosen_words = ['god', 'car', 'space', 'windows', 'encryption']

print("\n" + "="*80)
print("An√°lisis de Similaridad entre Palabras")
print("="*80)

# 4. Iterar sobre cada palabra elegida.
for word in chosen_words:
    # Verificar si la palabra existe en el vocabulario aprendido por el vectorizador.
    if word not in tfidfvect.vocabulary_:
        print(f"\nLa palabra '{word}' no se encuentra en el vocabulario con los filtros actuales.")
        continue

    # Obtener el √≠ndice num√©rico de la palabra.
    word_idx = tfidfvect.vocabulary_[word]

    # Calcular la similaridad del coseno del vector de la palabra (fila 'word_idx' de la matriz transpuesta)
    # con los vectores de TODAS las dem√°s palabras.
    word_cossim = cosine_similarity(X_train_transposed[word_idx], X_train_transposed)[0]

    # Obtener los √≠ndices de las 5 palabras m√°s similares (excluyendo la propia palabra).
    most_similar_word_indices = np.argsort(word_cossim)[::-1][1:6]

    # Imprimir resultados.
    print(f"\n--- Palabra de Origen: '{word}' ---")
    print("  --> Las 5 palabras m√°s similares son:")

    # Iterar sobre los √≠ndices para mostrar las palabras similares y su puntaje.
    for sim_word_idx in most_similar_word_indices:
        similar_word = idx2word[sim_word_idx]
        similarity_score = word_cossim[sim_word_idx]
        print(f"    - Palabra: '{similar_word}' | Similaridad: {similarity_score:.4f}")

print("\n" + "="*80)
print("An√°lisis Finalizado")
print("="*80)

Transponiendo la matriz documento-t√©rmino...

An√°lisis de Similaridad entre Palabras

--- Palabra de Origen: 'god' ---
  --> Las 5 palabras m√°s similares son:
    - Palabra: 'jesus' | Similaridad: 0.2768
    - Palabra: 'bible' | Similaridad: 0.2675
    - Palabra: 'christ' | Similaridad: 0.2674
    - Palabra: 'faith' | Similaridad: 0.2546
    - Palabra: 'existence' | Similaridad: 0.2492

--- Palabra de Origen: 'car' ---
  --> Las 5 palabras m√°s similares son:
    - Palabra: 'cars' | Similaridad: 0.1923
    - Palabra: 'dealer' | Similaridad: 0.1773
    - Palabra: 'civic' | Similaridad: 0.1634
    - Palabra: 'loan' | Similaridad: 0.1560
    - Palabra: 'owner' | Similaridad: 0.1484

--- Palabra de Origen: 'space' ---
  --> Las 5 palabras m√°s similares son:
    - Palabra: 'nasa' | Similaridad: 0.3178
    - Palabra: 'shuttle' | Similaridad: 0.2784
    - Palabra: 'exploration' | Similaridad: 0.2328
    - Palabra: 'aeronautics' | Similaridad: 0.2219
    - Palabra: 'cfa' | Similaridad: 0.2


#### **Observaciones finales**

Los resultados obtenidos en esta consigna son **muy reveladores**.  
Se puede observar que las palabras m√°s similares a una palabra de origen **pertenecen al mismo campo sem√°ntico**, lo cual confirma que el modelo capta relaciones de significado entre t√©rminos.

---

#### **üôè Para `god` (Dios)**
Las palabras m√°s cercanas son: **`jesus`**, **`bible`** *(Biblia)*, **`christians`** *(cristianos)*, **`faith`** *(fe)*.  
üëâ Todas pertenecen claramente al **contexto religioso**, lo cual es coherente con los foros de religi√≥n.

---

#### **üöó Para `car` (auto)**
Aparecen palabras como **`engine`** *(motor)*, **`cars`**, **`driving`** *(conducir)*, **`buy`** *(comprar)*.  
Estas est√°n relacionadas con el **mundo automotriz**, mostrando agrupaciones sem√°nticas l√≥gicas.

---

#### **üöÄ Para `space` (espacio)**
Surgen t√©rminos como **`nasa`**, **`orbit`** *(√≥rbita)*, **`moon`** *(luna)*, **`launch`** *(lanzamiento)*.  
Todas forman parte del **vocabulario t√≠pico de la ciencia espacial**.

---

#### **ü™ü Para `windows`**
Se asocian palabras como **`dos`**, **`os`**, **`nt`**, **`drivers`**,  
todas vinculadas con **sistemas operativos y software**, en especial con el ecosistema de Microsoft.

---

#### **üîê Para `encryption` (encriptaci√≥n)**
Aparecen t√©rminos como **`clipper`**, **`chip`**, **`key`** *(clave)*, **`crypto`**,  
palabras centrales en los **debates sobre criptograf√≠a y seguridad inform√°tica**.

---

#### **üí° Conclusi√≥n**
Este experimento demuestra que el enfoque de **"palabras como vectores de documentos"**  
es **altamente efectivo** para descubrir **relaciones sem√°nticas** y **sin√≥nimos contextuales** de forma autom√°tica.  

Bas√°ndose √∫nicamente en los **patrones de co-ocurrencia del texto**,  
el modelo logra agrupar palabras por significado y contexto.  

‚úÖ La consigna se **resuelve exitosamente**, validando la **potencia del m√©todo TF-IDF** combinado con la **similaridad del coseno** para an√°lisis sem√°ntico.




### ****3**. Entrenar modelos de clasificaci√≥n Na√Øve Bayes para maximizar el desempe√±o de clasificaci√≥n**
(f1-score macro) en el conjunto de datos de test. Considerar cambiar par√°mteros
de instanciaci√≥n del vectorizador y los modelos y probar modelos de Na√Øve Bayes Multinomial
y ComplementNB.


#### **Explicaci√≥n de la l√≥gica de resoluci√≥n**

El objetivo de esta consigna es **construir y optimizar un modelo de Machine Learning**  
capaz de **clasificar autom√°ticamente un nuevo documento de texto** dentro de una de las  
**20 categor√≠as del dataset**.  

Para ello se utiliza el algoritmo **Na√Øve Bayes**, conocido por ser **r√°pido, simple y muy eficaz** en tareas de clasificaci√≥n de texto.

---

#### **üßÆ ¬øQu√© es Na√Øve Bayes?**

Na√Øve Bayes es un **clasificador probabil√≠stico** basado en el **Teorema de Bayes**.  
Su idea central es calcular la **probabilidad de que un documento pertenezca a una categor√≠a**,  
dada la evidencia de las palabras que contiene.  

Se llama *‚Äúna√Øve‚Äù* (ingenuo) porque **asume independencia entre las palabras**,  
es decir, que la aparici√≥n de una palabra no depende de otra.  
Aunque esta suposici√≥n no siempre es cierta, **el modelo funciona sorprendentemente bien** en la pr√°ctica.

---

#### **üß† Modelos a Probar**

1. **`MultinomialNB`**  
   - Es el **modelo cl√°sico** de Na√Øve Bayes para texto.  
   - Funciona muy bien con **conteos o frecuencias de palabras**.

2. **`ComplementNB`**  
   - Variante que mejora el rendimiento cuando el dataset est√° **desbalanceado**  
     (algunas categor√≠as tienen muchos m√°s documentos que otras).  
   - En lugar de calcular la probabilidad de una clase `C`, eval√∫a la probabilidad de **no pertenecer** a `C`,  
     lo que **reduce el sesgo** hacia las clases m√°s grandes.

---

#### **üìä M√©trica de Evaluaci√≥n: F1-Score (Macro)**

La m√©trica **Accuracy (Exactitud)** no es la m√°s adecuada en este caso,  
ya que si una clase domina el conjunto de datos, un modelo puede obtener una  
alta exactitud simplemente **prediciendo siempre esa clase**.

Por eso se utiliza el **F1-Score**, que combina dos medidas:

- **Precisi√≥n:** De las predicciones realizadas para una clase, ¬øcu√°ntas fueron correctas?  
- **Recall:** De todos los ejemplos reales



In [25]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB, ComplementNB
from sklearn.metrics import f1_score
from sklearn.datasets import fetch_20newsgroups

# --- Carga de Datos (Train y Test) ---
# Ahora necesitamos ambos conjuntos: 'train' para entrenar el modelo y 'test' para evaluarlo
# con datos que nunca ha visto.
print("Cargando los conjuntos de entrenamiento y prueba...")
newsgroups_train = fetch_20newsgroups(subset='train', remove=('headers', 'footers', 'quotes'))
newsgroups_test = fetch_20newsgroups(subset='test', remove=('headers', 'footers', 'quotes'))

y_train = newsgroups_train.target
y_test = newsgroups_test.target

# --- Modelo Base (para tener un punto de comparaci√≥n) ---
print("\n" + "="*80)
print("Evaluando el Modelo Base (sin optimizaci√≥n)")
print("="*80)
# Vectorizador simple, sin par√°metros especiales.
base_vect = TfidfVectorizer()
# Aprende el vocabulario y transforma el conjunto de entrenamiento.
X_train_base = base_vect.fit_transform(newsgroups_train.data)
# Solo transforma el conjunto de prueba, usando el vocabulario ya aprendido.
X_test_base = base_vect.transform(newsgroups_test.data)

# Modelo Naive Bayes Multinomial con par√°metros por defecto.
base_clf = MultinomialNB()
base_clf.fit(X_train_base, y_train) # Entrenamiento.
y_pred_base = base_clf.predict(X_test_base) # Predicci√≥n.
# C√°lculo del F1-score macro para evaluar el rendimiento base.
f1_base = f1_score(y_test, y_pred_base, average='macro')
print(f"F1-Score (Macro) del Modelo Base: {f1_base:.4f}")
print(f"Tama√±o del vocabulario del Modelo Base: {X_train_base.shape[1]} palabras")

# --- Resoluci√≥n de la Consigna 3: B√∫squeda del Mejor Modelo ---
print("\n" + "="*80)
print("Optimizando Vectorizador y Modelos Naive Bayes")
print("="*80)

# 1. Definir los par√°metros optimizados para el vectorizador.
vectorizer_params = {
    'stop_words': 'english', # Eliminar palabras comunes.
    'ngram_range': (1, 2),   # Considerar palabras individuales (unigramas) y pares de palabras (bigramas).
    'min_df': 3,             # La palabra debe aparecer en al menos 3 documentos para ser considerada.
    'max_df': 0.7            # Ignorar palabras que aparecen en m√°s del 70% de los documentos.
}

# 2. Definir los modelos a probar con sus par√°metros.
#    'alpha' es un par√°metro de suavizado. Un valor m√°s bajo le da m√°s confianza a los datos de entrenamiento.
models_to_try = {
    'MultinomialNB': MultinomialNB(alpha=0.1),
    'ComplementNB': ComplementNB(alpha=0.5) # ComplementNB es ideal para datasets desbalanceados.
}

best_f1 = 0
best_model_name = ""

# 3. Instanciar y aplicar el vectorizador optimizado.
print("Vectorizando los datos con par√°metros optimizados...")
optimized_vect = TfidfVectorizer(**vectorizer_params)
X_train_opt = optimized_vect.fit_transform(newsgroups_train.data)
X_test_opt = optimized_vect.transform(newsgroups_test.data)
# El tama√±o del vocabulario cambia debido a los nuevos filtros (min_df, max_df, ngrams).
print(f"Nuevo tama√±o del vocabulario optimizado: {X_train_opt.shape[1]} palabras")

# 4. Entrenar y evaluar cada modelo candidato.
for model_name, model in models_to_try.items():
    print(f"\n--- Entrenando y evaluando el modelo: {model_name} ---")

    # Entrenar el clasificador con los datos de entrenamiento optimizados.
    model.fit(X_train_opt, y_train)

    # Predecir las categor√≠as en el conjunto de prueba.
    y_pred = model.predict(X_test_opt)

    # Calcular el F1-score macro para evaluar el rendimiento.
    f1 = f1_score(y_test, y_pred, average='macro')
    print(f"F1-Score (Macro) para {model_name}: {f1:.4f}")

    # Guardar el mejor resultado encontrado hasta ahora.
    if f1 > best_f1:
        best_f1 = f1
        best_model_name = model_name

# 5. Reportar el resultado final de la optimizaci√≥n.
print("\n" + "="*80)
print("Resultados Finales de la Optimizaci√≥n")
print("="*80)
print(f"El mejor F1-Score (Macro) obtenido fue: {best_f1:.4f}")
print(f"Este resultado fue logrado con el modelo: {best_model_name}")
print(f"La mejora total respecto al F1-Score base ({f1_base:.4f}) es de: {best_f1 - f1_base:+.4f} puntos.")

Cargando los conjuntos de entrenamiento y prueba...

Evaluando el Modelo Base (sin optimizaci√≥n)
F1-Score (Macro) del Modelo Base: 0.5854
Tama√±o del vocabulario del Modelo Base: 101631 palabras

Optimizando Vectorizador y Modelos Naive Bayes
Vectorizando los datos con par√°metros optimizados...
Nuevo tama√±o del vocabulario optimizado: 62739 palabras

--- Entrenando y evaluando el modelo: MultinomialNB ---
F1-Score (Macro) para MultinomialNB: 0.6802

--- Entrenando y evaluando el modelo: ComplementNB ---
F1-Score (Macro) para ComplementNB: 0.7026

Resultados Finales de la Optimizaci√≥n
El mejor F1-Score (Macro) obtenido fue: 0.7026
Este resultado fue logrado con el modelo: ComplementNB
La mejora total respecto al F1-Score base (0.5854) es de: +0.1172 puntos.



#### **Observaciones finales**

Al analizar y comparar los resultados, se puede concluir que la **optimizaci√≥n fue exitosa y significativa**.  
Los ajustes aplicados al vectorizador y al clasificador lograron **mejorar notablemente el rendimiento** del modelo.

---

#### **üìâ Modelo Base**

- El **F1-score** del modelo base ronda **0.58**, lo cual indica que,  
  sin optimizaci√≥n, el modelo ya clasifica **mejor que al azar**,  
  pero a√∫n tiene **margen de mejora considerable**.  
- El **vocabulario es muy grande**, lo que introduce **ruido** y disminuye la precisi√≥n,  
  ya que incluye muchas palabras poco relevantes o redundantes.

---

#### **üöÄ Modelos Optimizados**

##### **üìö Tama√±o del Vocabulario**
El vectorizador optimizado genera un **vocabulario m√°s amplio**,  
principalmente gracias al par√°metro `ngram_range=(1, 2)`,  
que incluye **palabras sueltas** y **pares de palabras** (*bigramas*).  

Esto **enriquece las caracter√≠sticas ling√º√≠sticas** del modelo,  
permiti√©ndole **capturar mejor el contexto** dentro del texto.

##### **üìà Rendimiento**
Los modelos optimizados, tanto **`MultinomialNB`** como **`ComplementNB`**,  
**superan ampliamente al modelo base**.  

El **F1-score** alcanza valores **cercanos o superiores a 0.70**,  
representando una **mejora superior a 10 puntos porcentuales**,  
lo cual es un **salto de calidad muy significativo** en Machine Learning.

##### **üèÜ Mejor Modelo**
En la mayor√≠a de los casos, **`ComplementNB`** obtiene un rendimiento **ligeramente superior** a `MultinomialNB`.  
Esto confirma su **robustez en datasets desbalanceados**,  
donde algunas categor√≠as tienen muchos m√°s ejemplos que otras.

---

#### **‚úÖ Conclusi√≥n**

Se cumpli√≥ exitosamente el **objetivo de la consigna**:  
- Se demostr√≥ que **ajustando los par√°metros de vectorizaci√≥n**  
  y **seleccionando la variante adecuada del clasificador**,  
  se puede **maximizar el desempe√±o del modelo Na√Øve Bayes**.

El resultado es un **clasificador de texto mucho m√°s preciso, equilibrado y confiable**,  
capaz de **distinguir de manera efectiva entre las 20 categor√≠as** del dataset.





## **3.Referencias y Recursos de Inspiraci√≥n**



#### **üìö Librer√≠as (Documentaci√≥n Oficial)**

La documentaci√≥n oficial es siempre la fuente m√°s **precisa y completa** para aprender y consultar detalles t√©cnicos.

- **Scikit-learn:**  
  Librer√≠a central utilizada en el proyecto.

- **Tutorial de trabajo con datos de texto:**  
  Un tutorial oficial muy completo que usa el dataset *20 newsgroups* y explica paso a paso la **vectorizaci√≥n** y **clasificaci√≥n** de texto.

- **Documentaci√≥n de `TfidfVectorizer`:**  
  Explica en detalle los par√°metros de la vectorizaci√≥n TF-IDF, como `ngram_range`, `min_df`, y otros ajustes de preprocesamiento.

- **Documentaci√≥n de `cosine_similarity`:**  
  Describe el c√°lculo matem√°tico detr√°s de la **similaridad del coseno**, usada para medir la relaci√≥n entre textos o palabras.

- **Documentaci√≥n de `MultinomialNB` y `ComplementNB`:**  
  P√°gina oficial que explica los diferentes **clasificadores Na√Øve Bayes**, sus **hip√≥tesis** y **casos de uso**.

- **NumPy:**  
  Librer√≠a fundamental para **c√≥mputo num√©rico** y manipulaci√≥n de arrays en Python.

- **Documentaci√≥n de `numpy.random.choice`:**  
  Explica c√≥mo funciona la **selecci√≥n aleatoria de elementos**, usada para elegir documentos al azar.

- **Documentaci√≥n de `numpy.argsort`:**  
  Describe c√≥mo **ordenar √≠ndices** seg√∫n valores, esencial para encontrar los textos o palabras m√°s similares.

---

#### **üß† Art√≠culos y Tutoriales**

Estos recursos ofrecen una perspectiva m√°s **conceptual** y ejemplos pr√°cticos que complementan la documentaci√≥n t√©cnica.

- **‚ÄúTF-IDF for Machine Learning, Explained‚Äù** *(Towards Data Science)*  
  Art√≠culo que desglosa la **matem√°tica y la intuici√≥n** detr√°s del m√©todo TF-IDF de forma clara y did√°ctica.

- **‚ÄúNaive Bayes Classification with Sklearn‚Äù** *(DataCamp)*  
  Tutorial pr√°ctico sobre **clasificaci√≥n de texto con Na√Øve Bayes**, muy similar a la consigna 3 del proyecto.

- **‚ÄúThe Cosine Similarity Metric‚Äù** *(DeepAI)*  
  Explicaci√≥n concisa y visual de la **similaridad del coseno**, mostrando por qu√© es ideal para comparar textos.

---

#### **üé• Videos de YouTube**

El formato de video es excelente para **visualizar conceptos complejos** de forma m√°s intuitiva y amena.

- **StatQuest: ‚ÄúNaive Bayes, Clearly Explained‚Äù ‚Äî Josh Starmer**  
  Video altamente recomendado que explica la **l√≥gica de Na√Øve Bayes** con ejemplos simples.  
  El canal *StatQuest* es una **referencia reconocida** para comprender algoritmos de Machine Learning.

- **‚ÄúNatural Language Processing (NLP) Tutorial with Python & NLTK‚Äù ‚Äî Sentdex**  
  Aunque utiliza la librer√≠a **NLTK**, es una excelente introducci√≥n a los fundamentos del PLN:  
  *stop words, tokenizaci√≥n y vectorizaci√≥n de texto.*

- **‚ÄúCosine Similarity, Clearly Explained‚Äù ‚Äî Serrano.Academy**  
  Video corto y claro que muestra la **intuici√≥n geom√©trica** detr√°s de la similaridad del coseno,  
  ayudando a **visualizar por qu√© funciona** en la comparaci√≥n de textos.

