<a href="https://colab.research.google.com/github/gustavovazquez/ML/blob/main/NLP_BoW_vs_BoN_Ejemplo.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Comparación entre Bag of Words y Bag of N-Ggrams

En este notebook vamos a comparar dos formas comunes de representar texto en tareas de procesamiento de lenguaje natural (NLP):

- Bag of Words (BoW)
- Bag of Bigrams (BoN)

Utilizaremos frases simples que muestran cómo los bigramas pueden capturar mejor el contexto y diferencias semánticas que Bag of Words no detecta fácilmente.

In [None]:
from sklearn.feature_extraction.text import CountVectorizer
import pandas as pd

## Frases de ejemplo

In [None]:
sentences = [
    "El niño juega en el parque",
    "El perro juega en el jardín",
    "El niño no juega en el parque"
]

## Representación Bag of Words (BoW)
Usamos `CountVectorizer` para extraer palabras individuales de cada frase y construir un vector de frecuencias.

In [None]:
bow_vectorizer = CountVectorizer()
X_bow = bow_vectorizer.fit_transform(sentences)
df_bow = pd.DataFrame(X_bow.toarray(), columns=bow_vectorizer.get_feature_names_out())
# esto es solo a los efectos de agregar "Frase i" en la tabla
#df_bow.index = [f"Frase {i+1}" for i in range(len(sentences))]
# donde está el vocabulario?
print(bow_vectorizer.get_feature_names_out())
df_bow


['el' 'en' 'jardín' 'juega' 'niño' 'no' 'parque' 'perro']


Unnamed: 0,el,en,jardín,juega,niño,no,parque,perro
0,2,1,0,1,1,0,1,0
1,2,1,1,1,0,0,0,1
2,2,1,0,1,1,1,1,0


## Representación Bag of N-Grams (BoN)
Extraemos **bigramas** (N=2, pares consecutivos de palabras). Esto permite capturar parte del contexto, como negaciones.

In [None]:
bigram_vectorizer = CountVectorizer(ngram_range=(2, 2))
X_bigram = bigram_vectorizer.fit_transform(sentences)
df_bigram = pd.DataFrame(X_bigram.toarray(), columns=bigram_vectorizer.get_feature_names_out())
df_bigram.index = [f"Frase {i+1}" for i in range(len(sentences))]
df_bigram

Unnamed: 0,el jardín,el niño,el parque,el perro,en el,juega en,niño juega,niño no,no juega,perro juega
Frase 1,0,1,1,0,1,1,1,0,0,0
Frase 2,1,0,0,1,1,1,0,0,0,1
Frase 3,0,1,1,0,1,1,0,1,1,0


## Conclusión

Como se observa:

- En la representación **BoW**, las frases se parecen mucho porque las palabras se consideran de forma independiente.
- En la representación **BoN**, aparecen diferencias importantes como `"niño no"` y `"no juega"` en la tercera frase.
- Esto muestra cómo los bigramas permiten distinguir el contexto y el significado con mayor precisión.

Esta técnica es útil, por ejemplo, para mejorar el rendimiento en tareas como análisis de sentimientos, detección de intención o clasificación de texto.
