<a href="https://colab.research.google.com/github/isegura/PLN-tema1/blob/main/5_bow_tfidf.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Representación de textos basada en Bow y tf-idf

La representación de textos (vectorización) consiste en transformar el texto, en concreto los tokens, en vectores de números, que serán la entrada de los algoritmos de aprendizaje automático.

En este notebook, usaremos la librería sklearn para construir modelos de bolsas de palabras y tf-idf.

scikit-learn es una biblioteca de Python para algoritmos clásicos de aprendizaje automático (no deep learning). Proporciona herramientas simples y eficientes para análisis de datos y modelado predictivo.



## Cómo implementar un modelo de bolsa de palabras con sklearn

CountVectorizer es una clase de scikit-learn que transforma un conjunto de textos en una matriz numérica donde cada fila representa un documento y cada columna una palabra del vocabulario, y los valores indican cuántas veces aparece cada palabra en cada documento (modelo Bag of Words).

In [1]:
from sklearn.feature_extraction.text import CountVectorizer
# conjunto de textos
texts = ["The apple is rotten",
         "The children were playing",]
# La clase CountVectorizer nos permite crear el modelo
vectorizer_bow = CountVectorizer()
# entrena el modelo
vectorizer_bow.fit(texts)

# mostramos el modelo
print(vectorizer_bow.vocabulary_)
print('Tamaño del vocabulario:',len(vectorizer_bow.vocabulary_))




{'the': 5, 'apple': 0, 'is': 2, 'rotten': 4, 'children': 1, 'were': 6, 'playing': 3}
Tamaño del vocabulario: 7


Ahora podríamos usar ese modelo para representar cualquier texto:

In [2]:
for text in texts:
  vector = vectorizer_bow.transform([text])
  print(text,vector.toarray())


The apple is rotten [[1 0 1 0 1 1 0]]
The children were playing [[0 1 0 1 0 1 1]]


Ahora vamos a usar el modelo para representar un texto nuevo. Este texto contiene palabras que no están en el vocabulario. ¿Cómo representa el modelo estas palabras que no están en su vocabulario?. Podemos ver que simplemente las ignora. Si una palabra no apareció en los datos de entrenamiento, no tiene columna en la matriz BoW.



In [3]:
text = "The banana is ripe and ready to eat."
vector = vectorizer_bow.transform([text])
print(text,vector.toarray())

The banana is ripe and ready to eat. [[0 0 1 0 0 1 0]]


## Cómo implementar un modelo tf-idf con sklearn


TfidfVectorizer es una clase de scikit-learn que convierte texto en vectores numéricos usando TF-IDF (Term Frequency – Inverse Document Frequency). Sirve para representar documentos dando más peso a las palabras importantes y menos a las muy comunes.

In [4]:
from sklearn.feature_extraction.text import TfidfVectorizer
# list of text documents
texts = ["The apple is rotten",
         "The child is playing",
         "The zoo"]

# crea el modelo
vectorizer_tfidf = TfidfVectorizer()
vectorizer_tfidf.fit(texts)

print(vectorizer_tfidf.vocabulary_)
print('Tamaño del vocabulario:',len(vectorizer_bow.vocabulary_))
# mostramos el valor IDF (Inverse Document Frequency)
# de cada término del vocabulario que aprendió el TfidfVectorizer durante el fit.
print(vectorizer_tfidf.idf_)


{'the': 5, 'apple': 0, 'is': 2, 'rotten': 4, 'child': 1, 'playing': 3, 'zoo': 6}
Tamaño del vocabulario: 7
[1.69314718 1.69314718 1.28768207 1.69314718 1.69314718 1.
 1.69314718]


In [5]:
for text in texts:
  vector = vectorizer_tfidf.transform([text])
  # summarize encoded vector
  #print(vector.shape)
  #print(type(vectors))
  print(text,vector.toarray())

The apple is rotten [[0.5844829  0.         0.44451431 0.         0.5844829  0.34520502
  0.        ]]
The child is playing [[0.         0.5844829  0.44451431 0.5844829  0.         0.34520502
  0.        ]]
The zoo [[0.         0.         0.         0.         0.         0.50854232
  0.861037  ]]


In [6]:
text = "The banana is ripe and ready to eat."
vector = vectorizer_tfidf.transform([text])
print(text,vector.toarray())

The banana is ripe and ready to eat. [[0.         0.         0.78980693 0.         0.         0.61335554
  0.        ]]
