# TF-IDF

## Introducción

TF-IDF (Term Frequency-Inverse Document Frequency) es una técnica de procesamiento de texto que se utiliza para evaluar la importancia de una palabra en un documento. Esta técnica se basa en dos conceptos:

- **Frecuencia de término (TF)**: mide la frecuencia con la que una palabra aparece en un documento. La fórmula para calcular la frecuencia de término es la siguiente:

$$TF(t) = \frac{Número\ de\ veces\ que\ la\ palabra\ t\ aparece\ en\ un\ documento}{Número\ total\ de\ palabras\ en\ el\ documento}$$

- **Frecuencia inversa de documento (IDF)**: mide la importancia de una palabra en un conjunto de documentos. La fórmula para calcular la frecuencia inversa de documento es la siguiente:

$$IDF(t) = \log\left(\frac{Número\ total\ de\ documentos}{Número\ de\ documentos\ que\ contienen\ la\ palabra\ t}\right)$$

El valor de TF-IDF se calcula multiplicando la frecuencia de término por la frecuencia inversa de documento:

$$TF-IDF(t) = TF(t) \times IDF(t)$$

## Objetivo

El objetivo de este notebook es mostrar cómo se puede calcular el valor de TF-IDF de un conjunto de documentos utilizando la librería `scikit-learn`.


## 1. Importar librerías

En este caso, se importarán las librerías necesarias para realizar el preprocesamiento de texto.

In [1]:
### librerias necesarias TF-IDF

import pandas as pd
import numpy as np
import re
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from nltk.stem import SnowballStemmer


### Descargar stopwords
nltk.download('stopwords')
nltk.download('punkt')


from sklearn.feature_extraction.text import TfidfVectorizer


[nltk_data] Downloading package stopwords to /home/isaac-
[nltk_data]     zainea/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to /home/isaac-
[nltk_data]     zainea/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


## 2. Cargar el texto

Para este ejercicio inicial usaremos un texto sencillo, el cual se cargará en una variable.

In [2]:
texto_1 = """Hace varios años, en el pelotón de fusilamiento, el coronel Aureliano Buendía había de recordar aquella tarde remota en que su padre lo llevó a conocer el hielo. """
texto_2 = """Hace tanto tiempo que no me acuerdo de nada, pero recuerdo que mi padre me llevó a conocer el hielo. """
texto_3 = """Hace tiempo que ocurrió la era de hielo, ahorita que solo soy un  perezoso recuerdo aquellos días tan bellos con mis amigos, un mamut y un dientes de sable. """

corpus = [texto_1, texto_2, texto_3]

## 3. Calcular TF-IDF

Ahora que ya tenemos el texto tokenizado, podemos calcular el valor de TF-IDF. Para ello, utilizaremos la clase `TfidfVectorizer` de `scikit-learn`. Esta clase convierte una colección de documentos en una matriz de términos y calcula el valor de TF-IDF para cada término.

In [7]:
##################### TF-IDF #####################
# Crear un objeto de la clase TfidfVectorizer

tfidf = TfidfVectorizer(ngram_range=(1,2))

# Ajustar el objeto a los datos y transformarlos

tfidf_matrix = tfidf.fit_transform(corpus)

# Obtener los nombres de las palabras

words = tfidf.get_feature_names_out()

# Crear un DataFrame con los resultados

tfidf_df = pd.DataFrame(tfidf_matrix.toarray(), columns=words)
tfidf_df

Unnamed: 0,acuerdo,acuerdo de,ahorita,ahorita que,amigos,amigos un,aquella,aquella tarde,aquellos,aquellos días,...,tarde,tarde remota,tiempo,tiempo que,un,un dientes,un mamut,un perezoso,varios,varios años
0,0.0,0.0,0.0,0.0,0.0,0.0,0.138518,0.138518,0.0,0.0,...,0.138518,0.138518,0.0,0.0,0.0,0.0,0.0,0.0,0.138518,0.138518
1,0.176156,0.176156,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.133971,0.133971,0.0,0.0,0.0,0.0,0.0,0.0
2,0.0,0.0,0.132194,0.132194,0.132194,0.132194,0.0,0.0,0.132194,0.132194,...,0.0,0.0,0.100537,0.100537,0.396583,0.132194,0.132194,0.132194,0.0,0.0


In [4]:
tfidf_df[['hace','hielo','padre','años','coronel','mamut','nada']]

Unnamed: 0,hace,hielo,padre,años,coronel,mamut,nada
0,0.112867,0.112867,0.145337,0.191101,0.191101,0.0,0.0
1,0.148061,0.148061,0.190655,0.0,0.0,0.0,0.250689
2,0.10669,0.10669,0.0,0.0,0.0,0.180642,0.0


## 4. Conclusiones

Observe que el valor de TF-IDF es más alto para las palabras que son más importantes en un documento. Por ejemplo, en el documento de ejemplo, el valor de TF-IDF es más alto para las palabras "años" y "nada" que para las palabras "hace" y "padre".

También observe que cada documento tiene un vector de TF-IDF asociado, correspondiente a la fila de la matriz de términos. Así mismo, cada columna de la matriz de términos corresponde a un término en el vocabulario. Esta matriz se puede utilizar para entrenar un modelo de aprendizaje automático, como un clasificador de texto o un sistema de recomendación.