In order to use this data for machine learning, we need to be able to convert the content of each string into a vector of numbers. For this we will use the TF-IDF vectorizer (discussed in Feature Engineering), and create a pipeline that attaches it to a multinomial naive Bayes classifier:

TF-IDF es una técnica fundamental en procesamiento de lenguaje natural (NLP) y recuperación de información que cuantifica la importancia de una palabra en un documento relativo a una colección de documentos.

1. TF (Frecuencia de Término)
Mide con qué frecuencia aparece un término en un documento específico.
TF(t, d) = (Número de veces que aparece el término t en el documento d) / (Número total de términos en el documento d)

2. IDF (Frecuencia Inversa de Documento)
Mide la importancia del término en toda la colección de documentos.
IDF(t, D) = log( (Número total de documentos en el corpus D) / (Número de documentos que contienen el término t) )

3. TF-IDF
Es el producto de TF e IDF:
TF-IDF(t, d, D) = TF(t, d) * IDF(t, D)

¿Para qué sirve TF-IDF?
Extracción de palabras clave: Identifica términos importantes en documentos

Búsqueda de información: Mejora los motores de búsqueda

Clasificación de texto: Preprocesamiento para modelos de machine learning

Similitud entre documentos: Comparación de contenidos textuales

In [1]:
from sklearn.feature_extraction.text import TfidfVectorizer

# Corpus de documentos
documentos = [
    "el gato come pescado",
    "el perro come carne",
    "el gato y el perro son amigos"
]

# Crear el vectorizador TF-IDF
vectorizador = TfidfVectorizer()

# Aplicar TF-IDF
X = vectorizador.fit_transform(documentos)

# Mostrar resultados
print("Términos:", vectorizador.get_feature_names_out())
print("Matriz TF-IDF:")
print(X.toarray())

Términos: ['amigos' 'carne' 'come' 'el' 'gato' 'perro' 'pescado' 'son']
Matriz TF-IDF:
[[0.         0.         0.4804584  0.37311881 0.4804584  0.
  0.63174505 0.        ]
 [0.         0.63174505 0.4804584  0.37311881 0.         0.4804584
  0.         0.        ]
 [0.46869865 0.         0.         0.55364194 0.3564574  0.3564574
  0.         0.46869865]]


Interpretación de Resultados
La salida será una matriz donde:

Cada fila representa un documento

Cada columna representa un término

Cada valor es el peso TF-IDF del término en ese documento

Características Clave
Efecto de normalización: Las palabras comunes (como "el") tendrán pesos bajos

Especificidad: Términos raros pero relevantes en un documento tendrán pesos altos

Escalabilidad: Funciona bien con grandes colecciones de documentos

Limitaciones
No captura relaciones semánticas entre palabras

No considera el orden de las palabras

Puede no funcionar bien con textos muy cortos

TF-IDF sigue siendo ampliamente usado como línea base en proyectos de NLP antes de técnicas más avanzadas como word embeddings o transformers.