| **Inicio** | **atr√°s 46** | **Siguiente 48** |
|----------- |-------------- |---------------|
| [üè†](../README.md) | [‚è™](./46_Binomial_Distribution.ipynb)| [‚è©](./48_Word2Vec.ipynb)|

# **47. TF-IDF**

**TF-IDF (Term Frequency-Inverse Document Frequency): Explicaci√≥n Detallada**

**Terminolog√≠a:**

- **TF (Term Frequency):** Mide la frecuencia de un t√©rmino en un documento espec√≠fico. Se calcula como el n√∫mero de veces que un t√©rmino aparece en un documento dividido por el n√∫mero total de t√©rminos en ese documento.

$\text{TF}(t, d) = \frac{\text{N√∫mero de veces que el t√©rmino } t \text{ aparece en el documento } d}{\text{N√∫mero total de t√©rminos en el documento } d}$

- **IDF (Inverse Document Frequency):** Mide la importancia de un t√©rmino en un conjunto de documentos. Se calcula como el logaritmo del cociente entre el n√∫mero total de documentos en el conjunto y el n√∫mero de documentos que contienen el t√©rmino.

$\text{IDF}(t, D) = \log\left(\frac{\text{N√∫mero total de documentos en el conjunto } D}{\text{N√∫mero de documentos que contienen el t√©rmino } t + 1}\right) + 1$

- **TF-IDF (Term Frequency-Inverse Document Frequency):** Es el producto de TF e IDF. Da m√°s peso a los t√©rminos que son frecuentes en un documento espec√≠fico pero raros en el conjunto de documentos.

$\text{TF-IDF}(t, d, D) = \text{TF}(t, d) \times \text{IDF}(t, D)$

**F√≥rmula Matem√°tica:**

$\text{TF-IDF}(t, d, D) = \frac{\text{N√∫mero de veces que el t√©rmino } t \text{ aparece en el documento } d}{\text{N√∫mero total de t√©rminos en el documento } d} \times \left(\log\left(\frac{\text{N√∫mero total de documentos en el conjunto } D}{\text{N√∫mero de documentos que contienen el t√©rmino } t + 1}\right) + 1\right)$

**Ejemplo con C√≥digo Python:**

In [1]:
from sklearn.feature_extraction.text import TfidfVectorizer
import pandas as pd

# Ejemplo de documentos
documents = [
    "Machine learning is fun",
    "Natural language processing is a subset of AI",
    "Python is a popular programming language for data science",
]

# Crear un objeto TF-IDF Vectorizer
tfidf_vectorizer = TfidfVectorizer()

# Aplicar TF-IDF al conjunto de documentos
tfidf_matrix = tfidf_vectorizer.fit_transform(documents)

# Obtener los t√©rminos (features) y los valores TF-IDF en un DataFrame
feature_names = tfidf_vectorizer.get_feature_names_out()
tfidf_df = pd.DataFrame(data=tfidf_matrix.toarray(), columns=feature_names, index=['Doc1', 'Doc2', 'Doc3'])

# Visualizar la matriz TF-IDF
print(tfidf_df)

            ai      data       for       fun        is  language  learning  \
Doc1  0.000000  0.000000  0.000000  0.546454  0.322745  0.000000  0.546454   
Doc2  0.410747  0.000000  0.000000  0.000000  0.242594  0.312384  0.000000   
Doc3  0.000000  0.379945  0.379945  0.000000  0.224401  0.288958  0.000000   

       machine   natural        of   popular  processing  programming  \
Doc1  0.546454  0.000000  0.000000  0.000000    0.000000     0.000000   
Doc2  0.000000  0.410747  0.410747  0.000000    0.410747     0.000000   
Doc3  0.000000  0.000000  0.000000  0.379945    0.000000     0.379945   

        python   science    subset  
Doc1  0.000000  0.000000  0.000000  
Doc2  0.000000  0.000000  0.410747  
Doc3  0.379945  0.379945  0.000000  


Este c√≥digo utiliza la biblioteca scikit-learn para calcular la matriz TF-IDF a partir de un conjunto de documentos. La matriz resultante muestra los valores TF-IDF para cada t√©rmino en cada documento.

| **Inicio** | **atr√°s 46** | **Siguiente 48** |
|----------- |-------------- |---------------|
| [üè†](../README.md) | [‚è™](./46_Binomial_Distribution.ipynb)| [‚è©](./48_Word2Vec.ipynb)|