# Bag of Words Model (BoW) for Text Representation

## Introduction

In this notebook, we will explore the **Bag of Words (BoW)** model, which is a fundamental method for representing text data. It transforms textual data into numerical vectors by counting the frequency of words in a given corpus. 

This technique is simple yet powerful, and serves as the basis for more complex text processing techniques.

### Steps covered in this notebook:
1. Text Preprocessing (Tokenization, Lowercasing, etc.)
2. Vocabulary Creation
3. BoW Vectorization
4. Basic Exploration of Word Counts


In [18]:
import nltk
import string

In [3]:
corpus = """
MARTIN LUTHER KING.
Marcha sobre Washington por el Trabajo y la Libertad. 28 de agosto de 1963

“Tengo un sueño”

Estoy contento de reunirme hoy con vosotros y con vosotras en la que pasará a la historia como la mayor manifestación por la libertad en la historia de nuestra nación.
Hace un siglo, un gran americano, bajo cuya simbólica sombra nos encontramos, firmó la Proclamación de Emancipación. Este trascendental decreto llegó como un gran faro de esperanza para millones de esclavos negros y esclavas negras, que habían sido quemados en las llamas de una injusticia aniquiladora. Llegó como un amanecer dichoso para acabar con la larga noche de su cautividad.
Pero cien años después, las personas negras todavía no son libres. Cien años después, la vida de las personas negras sigue todavía tristemente atenazada por los grilletes de la segregación y por las cadenas de la discriminación. Cien años después, las personas negras viven en una isla solitaria de pobreza en medio de un vasto océano de prosperidad material. Cien años después, las personas negras todavía siguen languideciendo en los rincones de la sociedad americana y se sienten como exiliadas en su propia tierra. Así que hemos venido hoy aquí a mostrar unas condiciones vergonzosas.
Hemos venido a la capital de nuestra nación en cierto sentido para cobrar un cheque. Cuando los arquitectos de nuestra república escribieron las magnificientes palabras de la Constitución y de la Declaración de Independencia, estaban firmando un pagaré del que todo americano iba a ser heredero. Este pagaré era una promesa de que a todos los hombres — sí, a los hombres negros y también a los hombres blancos— se les garantizarían los derechos inalienables a la vida, a la libertad y a la búsqueda de la felicidad.
Hoy es obvio que América ha defraudado en este pagaré en lo que se refiere a sus ciudadanos y ciudadanas de color. En vez de cumplir con esta sagrada obligación, América ha dado al pueblo negro un cheque malo, un cheque que ha sido devuelto marcado “sin fondos”.
 
Pero nos negamos a creer que el banco de la justicia está en bancarrota. Nos negamos a creer que no hay fondos suficientes en las grandes arcas bancarias de las oportunidades de esta nación. Así que hemos venido a cobrar este cheque, un cheque que nos dé mediante reclamación las riquezas de la libertad y la seguridad de la justicia. También hemos venido a este santo lugar para recordar a América la intensa urgencia de este momento. No es tiempo de darse al lujo de refrescarse o de tomar el tranquilizante del gradualismo. Ahora es tiempo de hacer que las promesas de democracia sean reales. Ahora es tiempo de subir desde el oscuro y desolado valle de la segregación al soleado sendero de la justicia racial. Ahora es tiempo de alzar a nuestra nación desde las arenas movedizas de la injusticia racial a la sólida roca de la fraternidad. Ahora es tiempo de hacer que la justicia sea una realidad para todos los hijos de Dios.
Sería desastroso para la nación pasar por alto la urgencia del momento y subestimar la determinación de las personas negras. Este asfixiante verano del legítimo descontento de las personas negras no pasará hasta que haya un estimulante otoño de libertad e igualdad. Mil novecientos sesenta y tres no es un fin, sino un comienzo. Quienes esperaban que las personas negras necesitaran soltar vapor y que ahora estarán contentos, tendrán un brusco despertar si la nación vuelve a su actividad como si nada hubiera pasado. No habrá descanso ni tranquilidad en América hasta que las personas negras tengan garantizados sus derechos como ciudadanas y ciudadanos. Los torbellinos de revuelta continuarán sacudiendo los cimientos de nuestra nación hasta que nazca el día brillante de la justicia.
Pero hay algo que debo decir a mi pueblo, que está en el caluroso umbral que lleva al interior del palacio de justicia. En el proceso de conseguir nuestro legítimo lugar, no debemos ser culpables de acciones equivocadas. No busquemos saciar nuestra sed de libertad bebiendo de la copa del encarnizamiento y del odio. Debemos conducir siempre nuestra lucha en el elevado nivel de la dignidad y la disciplina. No debemos permitir que nuestra fecunda protesta degenere en violencia física. Una y otra vez debemos ascender a las majestuosas alturas donde se hace frente a la fuerza física con la fuerza espiritual. La maravillosa nueva militancia que ha envuelto a la comunidad negra no debe llevarnos a desconfiar de todas las personas blancas, ya que muchos de nuestros hermanos blancos, como su presencia hoy aquí evidencia, han llegado a ser conscientes de que su destino está atado a nuestro destino.
 
Han llegado a darse cuenta de que su libertad está inextricablemente unida a nuestra libertad. No podemos caminar solos.
Y mientras caminamos, debemos hacer la solemne promesa de que siempre caminaremos hacia adelante. No podemos volver atrás. Hay quienes están preguntando a los defensores de los derechos civiles: “¿Cuándo estaréis satisfechos?” No podemos estar satisfechos mientras las personas negras sean víctimas de los indecibles horrores de la brutalidad de la policía. No podemos estar satisfechos mientras nuestros cuerpos, cargados con la fatiga del viaje, no puedan conseguir alojamiento en los moteles de las autopistas ni en los hoteles de las ciudades. No podemos estar satisfechos mientras la movilidad básica de las personas negras sea de un ghetto más pequeño a otro más amplio. No podemos estar satisfechos mientras nuestros hijos sean despojados de su personalidad y privados de su dignidad por letreros que digan “sólo para blancos”. No podemos estar satisfechos mientras una persona negra en Mississippi no pueda votar y una persona negra en Nueva York crea que no tiene nada por qué votar. No, no, no estamos satisfechos y no estaremos satisfechos hasta que la justicia corra como las aguas y la rectitud como un impetuoso torrente.
No soy inconsciente de que algunos de vosotros y vosotras habéis venido aquí después de grandes procesos y tribulaciones. Algunos de vosotros y vosotras habéis salido recientemente de estrechas celdas de una prisión. Algunos de vosotros y vosotras habéis venido de zonas donde vuestra búsqueda de la libertad os dejó golpeados por las tormentas de la persecución y tambaleantes por los vientos de la brutalidad de la policía. Habéis sido los veteranos del sufrimiento fecundo. Continuad trabajando con la fe de que el sufrimiento inmerecido es redención.
Volved a Mississippi, volved a Alabama, volved a Carolina del Sur, volved a Georgia, volved a Luisiana, volved a los suburbios y a los ghettos de nuestras ciudades del Norte, sabiendo que de un modo u otro esta situación puede y va a ser cambiada.
No nos hundamos en el valle de la desesperación. Aun así, aunque
vemos delante las dificultades de hoy y mañana, amigos míos, os digo hoy: todavía tengo un sueño. Es un sueño profundamente enraizado en el sueño americano.
Tengo un sueño: que un día esta nación se pondrá en pie y realizará el verdadero significado de su credo: “Sostenemos que estas verdades son evidentes por sí mismas: que todos los hombres han sido creados iguales”.
 
Tengo un sueño: que un día sobre las colinas rojas de Georgia los hijos de quienes fueron esclavos y los hijos de quienes fueron propietarios de esclavos serán capaces de sentarse juntos en la mesa de la fraternidad.
Tengo un sueño: que un día incluso el estado de Mississippi, un estado sofocante por el calor de la injusticia, sofocante por el calor de la opresión, se transformará en un oasis de libertad y justicia.
Tengo un sueño: que mis cuatro hijos vivirán un día en una nación en la que no serán juzgados por el color de su piel sino por su reputación.
Tengo un sueño hoy.
Tengo un sueño: que un día allá abajo en Alabama, con sus racistas despiadados, con su gobernador que tiene los labios goteando con las palabras de interposición y anulación, que un día, justo allí en Alabama niños negros y niñas negras podrán darse la mano con niños blancos y niñas blancas, como hermanas y hermanos.
Tengo un sueño hoy.
Tengo un sueño: que un día todo valle será alzado y toda colina y montaña será bajada, los lugares escarpados se harán llanos y los lugares tortuosos se enderezarán y la gloria del Señor se mostrará y toda la carne juntamente la verá.
Ésta es nuestra esperanza. Ésta es la fe con la que yo vuelvo al Sur. Con esta fe seremos capaces de cortar de la montaña de desesperación una piedra de esperanza. Con esta fe seremos capaces de transformar las chirriantes disonancias de nuestra nación en una hermosa sinfonía de fraternidad. Con esta fe seremos capaces de trabajar juntos, de rezar juntos, de luchar juntos, de ir a la cárcel juntos, de ponernos de pie juntos por la libertad, sabiendo que un día seremos libres.
Éste será el día, éste será el día en el que todos los hijos de Dios podrán cantar con un nuevo significado “Tierra mía, es a ti, dulce tierra de libertad, a ti te canto. Tierra donde mi padre ha muerto, tierra del orgullo del peregrino, desde cada ladera suene la libertad”.
Y si América va a ser una gran nación, esto tiene que llegar a ser verdad. Y así, suene la libertad desde las prodigiosas cumbres de las colinas de New Hampshire. Suene la libertad desde las enormes montañas de Nueva York. Suene la libertad desde los elevados Alleghenies de Pennsylvania.
Suene la libertad desde las Rocosas cubiertas de nieve de Colorado. Suene la libertad desde las curvas vertientes de California.
 
Pero no sólo eso; suene la libertad desde la Montaña de Piedra de Georgia.
Suene la libertad desde el Monte Lookout de Tennessee.
Suene la libertad desde cada colina y cada topera de Mississippi, desde cada ladera.
Suene la libertad. Y cuando esto ocurra y cuando permitamos que la libertad suene, cuando la dejemos sonar desde cada pueblo y cada aldea, desde cada estado y cada ciudad, podremos acelerar la llegada de aquel día en el que todos los hijos de Dios, hombres blancos y hombres negros, judíos y gentiles, protestantes y católicos, serán capaces de juntar las manos y cantar con las palabras del viejo espiritual negro: “¡Al fin libres!
¡Al fin libres! ¡Gracias a Dios Todopoderoso, somos al fin libres!”

"""

## Step 1: Text Preprocessing

Text data often comes in a raw form that is not directly suitable for modeling. We need to clean and prepare the data by performing various preprocessing steps:

1. **Tokenization**: Splitting text into individual words or tokens.
2. **Lowercasing**: Converting all characters to lowercase to avoid treating "Word" and "word" as different.
3. **Removing Stop Words**: Common words like "the", "is", and "and" that do not carry much meaning are removed.
4. **Removing Special Characters**: Punctuation and other non-alphabetic characters are removed to focus on meaningful words.


In [5]:
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\bleew\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [16]:
nltk.download('punkt')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\bleew\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [27]:
sentences = nltk.sent_tokenize(corpus)

In [28]:
sentences

['\nMARTIN LUTHER KING.',
 'Marcha sobre Washington por el Trabajo y la Libertad.',
 '28 de agosto de 1963\n\n“Tengo un sueño”\n\nEstoy contento de reunirme hoy con vosotros y con vosotras en la que pasará a la historia como la mayor manifestación por la libertad en la historia de nuestra nación.',
 'Hace un siglo, un gran americano, bajo cuya simbólica sombra nos encontramos, firmó la Proclamación de Emancipación.',
 'Este trascendental decreto llegó como un gran faro de esperanza para millones de esclavos negros y esclavas negras, que habían sido quemados en las llamas de una injusticia aniquiladora.',
 'Llegó como un amanecer dichoso para acabar con la larga noche de su cautividad.',
 'Pero cien años después, las personas negras todavía no son libres.',
 'Cien años después, la vida de las personas negras sigue todavía tristemente atenazada por los grilletes de la segregación y por las cadenas de la discriminación.',
 'Cien años después, las personas negras viven en una isla solitari

In [6]:
from nltk.corpus import stopwords
from nltk.stem import SnowballStemmer

In [11]:
unique_spanish_sw = set(stopwords.words('spanish'))

In [33]:
custom_punctuation = string.punctuation + '¿¡“”'

In [10]:
sb_stemmer = SnowballStemmer(language='spanish')

In [34]:
for i in range(len(sentences)):
    sentences[i] = sentences[i].lower().translate(str.maketrans('', '', custom_punctuation))
    words = nltk.word_tokenize(sentences[i])
    words = [sb_stemmer.stem(word) for word in words if word not in unique_spanish_sw]
    sentences[i] = ' '.join(words)

## Step 2: Vocabulary Creation

The next step is to create a **vocabulary** — a list of all unique words that appear in the corpus. Each word in this vocabulary will be assigned a unique index, which we will use to represent the document in vector form.

- **Note**: The size of the vocabulary can grow large for larger corpora, which can affect computational performance.


In [35]:
sentences

['martin luth king',
 'march washington trabaj libert',
 '28 agost 1963 sueñ content reun hoy pas histori mayor manifest libert histori nacion',
 'hac sigl gran americ baj cuy simbol sombr encontr firm proclam emancip',
 'trascendental decret lleg gran far esper millon esclav negr esclav negr sid quem llam injustici aniquil',
 'lleg amanec dich acab larg noch cautiv',
 'cien años despu person negr todav libr',
 'cien años despu vid person negr sig todav tristement atenaz grillet segreg cad discrimin',
 'cien años despu person negr viv isla solitari pobrez medi vast oce prosp material',
 'cien años despu person negr todav sig languidec rincon soci americ sient exili propi tierr',
 'asi ven hoy aqu mostr unas condicion vergonz',
 'ven capital nacion ciert cobr chequ',
 'arquitect republ escrib magnificient palabr constitu decl independent firm pag americ iba ser hered',
 'pag prom hombr — hombr negr hombr blancos— garantiz derech inali vid libert busqu felic',
 'hoy obvi amer defraud pag

## Step 3: Generating the Bag of Words Representation

Once the vocabulary is created, we can generate a **Bag of Words** vector for each document. This vector contains the count of each word from the vocabulary that appears in the document.

- Each document is represented as a vector of word counts, where the length of the vector equals the number of unique words in the vocabulary.
- This is a simple frequency-based representation, where the **order of the words** does not matter.


In [36]:
## Create the Bag OF Words model
from sklearn.feature_extraction.text import CountVectorizer
## for Binary BOW enable binary=True
cv = CountVectorizer(max_features=100,binary=True)

In [37]:
X = cv.fit_transform(sentences).toarray()

In [38]:
import numpy as np
np.set_printoptions(edgeitems=30, linewidth=100000, 
    formatter=dict(float=lambda x: "%.3g" % x))
X

array([[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ..., 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ..., 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ..., 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ..., 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, ..., 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0

In [40]:
cv.vocabulary_

{'trabaj': np.int64(91),
 'libert': np.int64(44),
 'sueñ': np.int64(84),
 'hoy': np.int64(38),
 'pas': np.int64(57),
 'nacion': np.int64(52),
 'hac': np.int64(34),
 'gran': np.int64(33),
 'americ': np.int64(2),
 'baj': np.int64(6),
 'lleg': np.int64(46),
 'esper': np.int64(28),
 'negr': np.int64(53),
 'sid': np.int64(78),
 'injustici': np.int64(39),
 'cien': np.int64(15),
 'años': np.int64(5),
 'despu': np.int64(25),
 'person': np.int64(59),
 'todav': np.int64(90),
 'libr': np.int64(45),
 'sig': np.int64(80),
 'segreg': np.int64(75),
 'cad': np.int64(10),
 'tierr': np.int64(88),
 'asi': np.int64(4),
 'ven': np.int64(96),
 'aqu': np.int64(3),
 'cobr': np.int64(18),
 'chequ': np.int64(14),
 'palabr': np.int64(56),
 'pag': np.int64(55),
 'ser': np.int64(76),
 'prom': np.int64(66),
 'hombr': np.int64(37),
 'derech': np.int64(24),
 'busqu': np.int64(9),
 'amer': np.int64(1),
 'ciudad': np.int64(17),
 'color': np.int64(20),
 'puebl': np.int64(68),
 'cre': np.int64(21),
 'justici': np.int64(4

In [42]:
## Create the Bag OF Words model with ngram
from sklearn.feature_extraction.text import CountVectorizer
## for Binary BOW enable binary=True
cv=CountVectorizer(max_features=100,binary=True,ngram_range=(2,3))
X=cv.fit_transform(sentences).toarray()

In [43]:
cv.vocabulary_

{'washington trabaj': np.int64(98),
 'washington trabaj libert': np.int64(99),
 '28 agost': np.int64(1),
 'agost 1963': np.int64(12),
 '28 agost 1963': np.int64(2),
 'agost 1963 sueñ': np.int64(13),
 '1963 sueñ content': np.int64(0),
 'acab larg': np.int64(5),
 'acab larg noch': np.int64(6),
 'cien años': np.int64(50),
 'años despu': np.int64(45),
 'despu person': np.int64(54),
 'person negr': np.int64(71),
 'negr todav': np.int64(69),
 'cien años despu': np.int64(51),
 'años despu person': np.int64(46),
 'despu person negr': np.int64(55),
 'person negr todav': np.int64(72),
 'atenaz grillet': np.int64(43),
 'atenaz grillet segreg': np.int64(44),
 'asi ven': np.int64(39),
 'hoy aqu': np.int64(64),
 'aqu mostr': np.int64(25),
 'asi ven hoy': np.int64(41),
 'aqu mostr unas': np.int64(26),
 'cobr chequ': np.int64(53),
 'hombr negr': np.int64(63),
 'garantiz derech': np.int64(61),
 'ciudad ciudad': np.int64(52),
 'neg cre': np.int64(68),
 'arcas bancari': np.int64(29),
 'arcas bancari opor

In [44]:
X


array([[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ..., 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ..., 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1],
       [1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ..., 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ..., 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ..., 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 1, 1, 0

## Conclusion

The **Bag of Words (BoW)** model is a simple yet powerful approach for text representation. It serves as a foundational method for tasks such as text classification, clustering, and similarity detection.

However, it has some limitations, such as ignoring the order of words and producing high-dimensional sparse vectors for large vocabularies. More advanced techniques like **TF-IDF** or **word embeddings** address these limitations and capture additional context or semantics in text.
