TF-IDF en sklearn
Vamos a calcular la TF-IDF para un corpus de texto.

Puedes calcularla mediante la librería sklearn. La clase TfidfVectorizer() se encuentra en el módulo sklearn.feature_extraction.text. Impórtala como se muestra a continuación:

from sklearn.feature_extraction.text import TfidfVectorizer

Crea un contador y define palabras vacías, tal como lo hicimos con CountVectorizer():

stop_words = set(stopwords.words('spanish'))
count_tf_idf = TfidfVectorizer(stop_words=stop_words)

Llama a la función fit_transform() para calcular la TF-IDF para el corpus de texto:

tf_idf = count_tf_idf.fit_transform(corpus)

Podemos calcular los n-gramas al pasar el argumento ngram_range a TfidfVectorizer().

Si los datos se dividen en conjuntos de entrenamiento y prueba, llama a la función fit() solo para el conjunto de entrenamiento. De lo contrario, la prueba estará sesgada, porque el modelo tomará en cuenta las frecuencias de las palabras del conjunto de prueba.

Crea una matriz con valores TF-IDF para el corpus de reseñas. Guárdala en la variable tf_idf. Imprime el tamaño de la matriz (en precódigo).


### Ejercicios

- Crea una matriz con valores TF-IDF para el corpus de reseñas. 
- Guárdala en la variable tf_idf. 
- Imprime el tamaño de la matriz (en precódigo).

In [None]:
import pandas as pd

from nltk.corpus import stopwords as nltk_stopwords

from sklearn.feature_extraction.text import TfidfVectorizer

data = pd.read_csv('/datasets/imdb_reviews_small_lemm.tsv', sep='\t')
corpus = data['review_lemm']

stop_words = set(nltk_stopwords.words('english'))
count_tf_idf = TfidfVectorizer(stop_words=stop_words)

tf_idf=count_tf_idf.fit_transform(corpus)  #  < escribe tu código aquí >

print('El tamaño de la matriz TF-IDF:', tf_idf.shape)

#output
#El tamaño de la matriz TF-IDF: (4541, 26098)

"""¡Es correcto!

Tenemos una matriz con valores TF-IDF. 
El número de características es el mismo que obtuvimos para 
la bolsa de palabras. No hay ningún error aquí: 
¡las palabras son las mismas!"""

Qu hace el codigo:

import pandas as pd
from nltk.corpus import stopwords as nltk_stopwords
from sklearn.feature_extraction.text import TfidfVectorizer

Importas pandas para manejar datos, stopwords de NLTK (lista de palabras vacías) y TfidfVectorizer de scikit-learn para convertir texto a TF-IDF.


data = pd.read_csv('/datasets/imdb_reviews_small_lemm.tsv', sep='\t')
corpus = data['review_lemm']

Cargas el archivo TSV (separado por tabuladores).

Tomas la columna review_lemm (reseñas ya limpias y lematizadas) como tu corpus (lista/serie de textos).


stop_words = set(nltk_stopwords.words('english'))
count_tf_idf = TfidfVectorizer(stop_words=stop_words)

Creas un conjunto de stopwords en inglés (palabras muy comunes que no aportan significado).


Configuras el vectorizador TF-IDF para ignorar esas palabras al construir el vocabulario.

tf_idf = count_tf_idf.fit_transform(corpus)


fit: aprende el vocabulario (todas las palabras “útiles”) y calcula el vector IDF (qué tan raras/comunes son en el corpus).

transform: convierte cada documento en un vector numérico de pesos TF-IDF.


Resultado: una matriz dispersa (sparse) donde:

Filas = documentos (reseñas).

Columnas = términos (palabras del vocabulario).

Valores = peso TF-IDF de cada palabra en cada documento.

print('El tamaño de la matriz TF-IDF:', tf_idf.shape)


Muestra la forma de la matriz.

Tu salida: (4541, 26098) significa:

4541 reseñas en el corpus.

26,098 palabras únicas en el vocabulario después de quitar stopwords y aplicar las reglas de tokenización de scikit-learn.

Cómo interpretar la matriz TF-IDF

Valores altos en una celda ⇒ esa palabra es frecuente en esa reseña y relativamente rara en el resto del corpus (por eso es informativa).

Valores bajos o 0 ⇒ palabra poco relevante para esa reseña, o ni siquiera aparece.

La matriz es dispersa porque la mayoría de palabras no aparecen en la mayoría de reseñas.