# üìô Inverse Document Frequency

La Inverse Document Frequency (IDF) es una medida utilizada en procesamiento del lenguaje natural (NLP) que eval√∫a la importancia de una palabra en un conjunto de documentos. La idea detr√°s de la IDF es penalizar las palabras que son muy comunes en el conjunto de documentos, ya que tienden a proporcionar menos informaci√≥n √∫nica y distintiva sobre el contenido del documento.

La f√≥rmula para calcular la IDF de una palabra \(w\) en un conjunto de documentos es la siguiente:

$$\text{IDF}(w) = \log\left(\frac{N}{\text{df}(w) + 1}\right)$$

donde:
- $N$ es el n√∫mero total de documentos en el conjunto.
- $\text{df}(w)$ es el n√∫mero de documentos que contienen la palabra $w$.

La funci√≥n $\log$ se utiliza para suavizar la escala de la IDF y evitar que valores extremos dominen la contribuci√≥n.

In [1]:
import nltk
from sklearn.feature_extraction.text import TfidfVectorizer

# Descargar recursos necesarios de NLTK
nltk.download('punkt')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\USURIO\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [2]:
# Documentos de ejemplo
documentos = [
    "La vectorizaci√≥n en NLP es importante para representar texto num√©ricamente.",
    "Bag of Words es una t√©cnica com√∫n de vectorizaci√≥n en procesamiento del lenguaje natural.",
    "Inverse Document Frequency (IDF) mide la importancia de una palabra en un conjunto de documentos."
]

In [3]:
# Tokenizar los documentos
tokens = [nltk.word_tokenize(doc) for doc in documentos]

In [4]:
# Calcular IDF utilizando TfidfVectorizer
vectorizer = TfidfVectorizer()
tfidf_matrix = vectorizer.fit_transform([" ".join(doc) for doc in tokens])

In [5]:
# Obtener el vocabulario y las caracter√≠sticas
vocabulario = vectorizer.get_feature_names_out()
idf_valores = vectorizer.idf_

In [6]:
# Imprimir el resultado
print("Vocabulario:")
print(vocabulario)
print("\nIDF Valores:")
print(idf_valores)

Vocabulario:
['bag' 'com√∫n' 'conjunto' 'de' 'del' 'document' 'documentos' 'en' 'es'
 'frequency' 'idf' 'importancia' 'importante' 'inverse' 'la' 'lenguaje'
 'mide' 'natural' 'nlp' 'num√©ricamente' 'of' 'palabra' 'para'
 'procesamiento' 'representar' 'texto' 't√©cnica' 'un' 'una'
 'vectorizaci√≥n' 'words']

IDF Valores:
[1.69314718 1.69314718 1.69314718 1.28768207 1.69314718 1.69314718
 1.69314718 1.         1.28768207 1.69314718 1.69314718 1.69314718
 1.69314718 1.69314718 1.28768207 1.69314718 1.69314718 1.69314718
 1.69314718 1.69314718 1.69314718 1.69314718 1.69314718 1.69314718
 1.69314718 1.69314718 1.69314718 1.69314718 1.28768207 1.28768207
 1.69314718]
