🔹 ¿Qué es TF-IDF?

TF (Term Frequency) → mide qué tan frecuente es una palabra dentro de un documento.

IDF (Inverse Document Frequency) → mide qué tan rara es una palabra en el corpus (conjunto de documentos).

TF-IDF = TF × IDF → da un peso mayor a palabras que son importantes en un documento, pero no comunes en todos los documentos.

🔹 Ejemplo 1: Contando palabras (TF simple)

Imagina dos reseñas:

Doc1: "the movie was great great great"

Doc2: "the movie was bad"

👉 La palabra "great" aparece 3 veces en Doc1, así que tiene más peso en ese documento.

🔹 Ejemplo 2: Importancia en el corpus (IDF)

Si en todas las reseñas aparece "the", entonces su IDF será muy bajo → no aporta información.
Pero si "great" solo aparece en pocas reseñas, su IDF será alto → aporta información valiosa.

🔹 Ejemplo 3: Combinación TF-IDF

En Doc1, "great" tendrá un peso alto (muchas veces y poco común).

En Doc2, "bad" también tendrá un peso alto (aunque solo aparece una vez, es rara y por eso destaca).

"the", "was", "movie" → tendrán peso casi cero (muy comunes).

🔹 ¿Cómo se usa en Machine Learning?

Transformar texto en números:

El texto se convierte en una matriz (documentos × palabras) con valores TF-IDF.

Ejemplo:

Doc1: [0.0, 0.8, 0.0, 0.6]  # pesos de palabras
Doc2: [0.5, 0.0, 0.7, 0.0]


Entrenar un modelo ML:

Clasificación de reseñas (positiva/negativa).

Detección de spam.

Agrupamiento de documentos.

Interpretación de resultados:

Palabras con alto peso TF-IDF son las que más ayudan al modelo a diferenciar entre clases.

Ejemplo: en reseñas de películas, "great", "amazing", "boring", "awful" tendrán alto peso → el modelo las usa para aprender sentimientos.

👉 En pocas palabras:

BoW = cuenta palabras sin importancia relativa.

TF-IDF = da importancia a palabras diferenciadoras.

🔹 1. Fórmulas básicas

TF (Term Frequency) = frecuencia de la palabra en el documento

𝑇𝐹=𝑡𝑛

donde

𝑡 = número de veces que aparece la palabra en el documento

𝑛 = número total de palabras en el documento

IDF (Inverse Document Frequency) = mide cuán rara es la palabra en todo el corpus

𝐼𝐷𝐹=log10(𝐷𝑑)

donde

𝐷 = número total de documentos

𝑑 = número de documentos que contienen esa palabra

TF-IDF = combinación de ambos

𝑇𝐹-𝐼𝐷𝐹=𝑇𝐹×𝐼𝐷𝐹

🔹 2. Ejemplo explicado (con "río")

Corpus: 20 poemas → 𝐷=20


Primer poema: 40 palabras → 𝑛=40

"río" aparece 5 veces → 𝑡=5

"río" está en 2 poemas → =2


a) Calcular TF
𝑇𝐹=𝑡/𝑛=5/40=0.125
TF=nt	​=40/5	=0.125

👉 En el primer poema, la palabra “río” representa 12.5% del texto.

b) Calcular IDF
𝐼𝐷𝐹=log10(𝐷/𝑑)=log10(20/2)=log10(10)=1


👉 Como “río” aparece solo en 2 de los 20 poemas, es poco común → IDF = 1.

c) Calcular TF-IDF
𝑇𝐹-𝐼𝐷𝐹=𝑇F x IDF = 0.125 x 1 = 0.125


👉 El peso de la palabra “río” en este poema es 0.125.

🔹 3. Interpretación

TF alto → la palabra aparece mucho en un documento.

IDF alto → la palabra aparece en pocos documentos (es rara).

TF-IDF alto → palabra muy representativa de un documento en particular.

En este ejemplo:

“río” es importante en el primer poema porque aparece varias veces.

También es relevante en el corpus porque no aparece en la mayoría de los demás poemas.

Resultado: TF-IDF medio-alto (0.125).

💡 Piensa así:

Palabras como “the”, “and”, “de” → TF alto, pero IDF bajo (salen en todos lados).

Palabras como “río”, “dragón”, “galaxia” → TF medio/alto + IDF alto → son las que diferencian documentos.

In [2]:
from sklearn.feature_extraction.text import TfidfVectorizer
import pandas as pd

# Nuestro mini corpus (3 documentos)
corpus = [
    "el río es largo y tranquilo",
    "me gusta nadar en el río",
    "el mar es grande y profundo"
]

# Creamos el vectorizador TF-IDF
vectorizer = TfidfVectorizer()

# Ajustamos y transformamos el corpus
X = vectorizer.fit_transform(corpus)

# Convertimos a DataFrame para verlo más claro
df = pd.DataFrame(X.toarray(), columns=vectorizer.get_feature_names_out())

print(df.round(3))


      el     en     es  grande  gusta  largo    mar     me  nadar  profundo  \
0  0.315  0.000  0.406   0.000  0.000  0.534  0.000  0.000  0.000     0.000   
1  0.266  0.451  0.000   0.000  0.451  0.000  0.000  0.451  0.451     0.000   
2  0.298  0.000  0.384   0.505  0.000  0.000  0.505  0.000  0.000     0.505   

     río  tranquilo  
0  0.406      0.534  
1  0.343      0.000  
2  0.000      0.000  


🔹 Cómo leer la tabla

Cada fila = un documento del corpus.

Cada columna = una palabra del vocabulario.

Cada valor = peso TF-IDF de esa palabra en ese documento.

Ejemplos:

En Doc1 ("el río es largo y tranquilo") → "río" tiene peso 0.556 → es representativa de este documento.

En Doc2 ("me gusta nadar en el río") → "me", "gusta", "nadar" tienen peso alto, "río" también destaca.

En Doc3 ("el mar es grande y profundo") → "mar", "grande", "profundo" tienen los mayores valores → palabras únicas que diferencian este documento.