# TDF-IDF DEMO

**Explicación general:**

**Cálculo de la matriz TF-IDF:**

Se utiliza TfidfVectorizer para convertir una colección de documentos en una matriz numérica en la que cada elemento representa la importancia de una palabra en el documento, considerando su frecuencia y su importancia en el conjunto

**Búsqueda con TF-IDF:**

Se define una consulta que se transforma en un vector TF-IDF utilizando el mismo vectorizador, lo que asegura que se use el mismo vocabulario.
Se calcula la similitud coseno entre la consulta y cada documento para determinar cuáles son los más relevantes

Finalmente, se ordenan y muestran los documentos según su similitud con la consulta

By Jean Carlo Alvarez Ramirez

# Importar Librerias

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
import pandas as pd

Importamos la clase TfidfVectorizer de scikit-learn, nos permite convertir una colección de documentos en una matriz TF-IDF

Importamos cosine_similarity esta es la función necesaria para calcular la similitud coseno entre los vectores TF-IDF

Importamos pandas para manipular y visualizar los datos de forma tabular

# Definimos Documentos

In [None]:
documentos = [
    "El gato come pescado.",            # Documento 1
    "El perro come carne.",              # Documento 2
    "El gato y el perro juegan.",        # Documento 3
    "La casa es grande y bonita.",       # Documento 4
    "El pescado es fresco."              # Documento 5
]

# Creamos una instancia de TfidfVectorizer

In [None]:
vectorizador = TfidfVectorizer()



1. Aprender el vocabulario de los documentos
2. Calcular la frecuencia de cada término en cada documento (TF)
3. Calcular la importancia de cada término en el conjunto (IDF)

**TF-IDF (Term Frequency - Inverse Document Frequency)**

Este método asigna pesos a las palabras en función de su frecuencia en un documento y en el corpus total.

**Parámetros clave (opcionalmente modificables):**

Si no pasas parámetros, se usan los valores por defecto. Pero puedes cambiarlos para modificar el comportamiento:

- **max_features** : Límite de palabras a considerar

Ejemplo: TfidfVectorizer(max_features=1000) solo toma las 1000 palabras más importantes

Si lo cambias, reduces o aumentas la cantidad de palabras representadas

- **stop_words** : Palabras a ignorar

Ejemplo: TfidfVectorizer(stop_words='english') ignora palabras comunes en inglés como the, and, is

Si lo cambias, afecta qué palabras se eliminan

- **ngram_range** : Secuencia de palabras (ngrams)

Ejemplo: TfidfVectorizer(ngram_range=(1,2)) captura palabras solas (unigramas) y combinaciones de dos palabras (bigramas)

Si lo cambias, amplías o reduces las combinaciones de palabras analizadas

- **lowercase** → Convierte texto a minúsculas

Por defecto es True, pero si pones False, mantiene mayúsculas y minúsculas

Si lo cambias, afecta cómo se consideran las palabras (Ej: "Casa" ≠ "casa" si lowercase=False)

- **use_idf** → Si se usa el factor de "Inversa Frecuencia de Documento"

Ejemplo: TfidfVectorizer(use_idf=False) desactiva el IDF, dejando solo la frecuencia de las palabras

Si lo cambias, el modelo puede volverse más similar a una bolsa de palabras simple

# Entrenamos la instancia

In [None]:
matriz_tfidf = vectorizador.fit_transform(documentos)

Utilizamos el método fit_transform sobre la lista de documentos para:
 - Ajustar el modelo aprendiendo el vocabulario

 - Transformar los documentos en una matriz TF-IDF

 La matriz resultante es una estructura dispersa donde cada fila representa un documento y cada columna un término

 Este código aprende el vocabulario de documentos y lo transforma en una matriz TF-IDF


**Parámetros:**

- documentos : Es una lista de textos (ejemplo: una lista de correos, artículos, comentarios, etc.)

**¿Qué hace internamente?**

- fit_transform() aprende el vocabulario de los textos y calcula la matriz TF-IDF

Crea una matriz dispersa donde las filas son documentos y las columnas son palabras

Cada celda contiene el valor TF-IDF de una palabra en un documento

**Qué pasa si cambio cosas?**

Si cambio documentos → Se entrena con textos diferentes y el vocabulario cambia

Si cambio parámetros de TfidfVectorizer:

- max_features=2 : Solo toma las 2 palabras más comunes.
- stop_words='spanish' : Ignora palabras comunes en español.
- ngram_range=(1,2) : Considera palabras individuales y pares de palabras

# Obtenemos la lista de términos

In [None]:
nombres_caracteristicas = vectorizador.get_feature_names_out()
print(nombres_caracteristicas)

['bonita' 'carne' 'casa' 'come' 'el' 'es' 'fresco' 'gato' 'grande'
 'juegan' 'la' 'perro' 'pescado']


La lista de términos (características) que fueron extraídos del conjunto de documento

Este código obtiene los nombres de las palabras (o características) que el TfidfVectorizer ha aprendido de los textos

**get_feature_names_out()** devuelve una lista con esos términos en el orden en que aparecen en la matriz TF-IDF

# Convertimos la matriz TF-IDF a un array

In [None]:
df_tfidf = pd.DataFrame(matriz_tfidf.toarray(), columns=nombres_caracteristicas)

Convertimos la matriz TF-IDF a un array denso (normal) para facilitar su visualización y luego lo transformamos en un DataFrame de pandas

Cada fila del DataFrame corresponde a un documento y cada columna a un término, con su valor TF-IDF

Este código convierte la matriz dispersa TF-IDF en un DataFrame de pandas, donde cada fila representa un documento y cada columna representa una palabra con su respectivo valor TF-IDF

**Parámetros:**
- matriz_tfidf : La matriz de valores TF-IDF obtenida con vectorizador.fit_transform(documentos)

- toarray() : Convierte la matriz dispersa en un array de NumPy para poder usarla en pandas

- columns=nombres_caracteristicas : Nombres de las palabras como encabezados de las columnas

**¿Qué hace?**
- Transforma la matriz TF-IDF en un formato más fácil de leer.
- Cada fila representa un documento.
- Cada columna representa una palabra, con su peso TF-IDF en ese documento

# Imprimimos el DataFrame para visualizar la matriz TF-IDF

In [None]:
print("Matriz TF-IDF:")
print(df_tfidf)

Matriz TF-IDF:
     bonita     carne      casa      come        el        es    fresco  \
0  0.000000  0.000000  0.000000  0.535470  0.373918  0.000000  0.000000   
1  0.000000  0.617893  0.000000  0.498512  0.348110  0.000000  0.000000   
2  0.000000  0.000000  0.000000  0.000000  0.596228  0.000000  0.000000   
3  0.463693  0.000000  0.463693  0.000000  0.000000  0.374105  0.000000   
4  0.000000  0.000000  0.000000  0.000000  0.348110  0.498512  0.617893   

       gato    grande   juegan        la     perro   pescado  
0  0.535470  0.000000  0.00000  0.000000  0.000000  0.535470  
1  0.000000  0.000000  0.00000  0.000000  0.498512  0.000000  
2  0.426915  0.000000  0.52915  0.000000  0.426915  0.000000  
3  0.000000  0.463693  0.00000  0.463693  0.000000  0.000000  
4  0.000000  0.000000  0.00000  0.000000  0.000000  0.498512  


# Ejemplo de búsqueda utilizando TF-IDF

# Definimos una consulta

In [None]:
consulta = "gato y carne"

# Convertimos la consulta

In [None]:
consulta_tfidf = vectorizador.transform([consulta])
print(consulta_tfidf)

  (0, 1)	0.7782829228046183
  (0, 7)	0.6279137616509933


Convertimos la consulta a su representación TF-IDF utilizando el vectorizador ya ajustado

Es importante transformar la consulta en una lista, ya que transform() espera un iterable de documentos

**vectorizador.transform([...])** : Convierte la consulta en una matriz TF-IDF usando el mismo vocabulario aprendido previamente

**¿Qué hace?**
- Toma la consulta y la convierte en su equivalente numérico sin modificar el modelo

- Usa el mismo vocabulario del TfidfVectorizer ya entrenado (no aprende nuevas palabras)

- Devuelve una matriz TF-IDF con una sola fila (porque es una consulta única)

**¿Qué pasa si cambio algo?**
- Si cambio la consulta → Se ajustan los valores según la nueva frase

- Si la consulta tiene palabras NO vistas antes → Esas palabras se ignoran (porque el modelo no las conoce)

- Si vuelvo a entrenar el vectorizador con nuevos documentos : La transformación podría cambiar porque el vocabulario aprendido será diferente

# Calculamos la similitud coseno

In [None]:
similitudes = cosine_similarity(consulta_tfidf, matriz_tfidf)
print(similitudes)

[[0.33622918 0.48089528 0.26806575 0.         0.        ]]


Calculamos la similitud coseno entre el vector de la consulta y cada uno de los documentos en la matriz TF-IDF

La similitud coseno es una medida de similitud entre dos vectores, útil para comparar textos

La similitud coseno mide qué tan parecido es un texto a otro en base a sus vectores

**Parámetros:**
- **consulta_tfidf** : Es la representación TF-IDF de la consulta (vectorizador.transform([consulta]))

- **matriz_tfidf** : Es la matriz TF-IDF de los documentos originales (vectorizador.fit_transform(documentos))

**cosine_similarity(A, B)** : Compara cada fila de A con cada fila de B y devuelve valores entre 0 y 1:

  - 1 → Textos muy similares

  - 0 → Textos completamente diferentes

  **¿Qué hace?**
- Compara la consulta con cada documento en matriz_tfidf.
- Devuelve un array de similitudes, donde cada valor representa la similitud entre la consulta y un documento específico



# Convertimos el resultado a un array

In [None]:
similitudes = similitudes.flatten()
print(similitudes)

[0.33622918 0.48089528 0.26806575 0.         0.        ]


Este código aplana la matriz de similitudes para convertirla en un array de una sola dimensión

**Parámetros:**
- similitudes → Es el array 2D de similitudes coseno
- .flatten() → Convierte la matriz en un vector 1D

**¿Qué hace?**
- cosine_similarity() devuelve una matriz 2D con una sola fila, como esta:

      [[0.58, 0.00, 0.75]]

- .flatten() la convierte en un array 1D:

      [0.58, 0.00, 0.75]

Esto hace que sea más fácil acceder a los valores, por ejemplo, para ordenar documentos o encontrar el más similar

**Qué pasa si cambio algo?**
- Si no uso .flatten(), similitudes seguiría siendo una matriz y podría causar errores en algunas funciones

- Si comparo varias consultas a la vez (cosine_similarity(consulta_tfidf, matriz_tfidf)), tendría múltiples filas y .flatten() juntaría todos los valores en un solo array (puede ser un problema si necesitas conservar la estructura)


# Obtenemos los índices de los documentos ordenados de mayor a menor

In [None]:
ranking_indices = similitudes.argsort()[::-1]
print(ranking_indices)

[1 0 2 4 3]


Este código ordena los índices de los documentos en función de su similitud con la consulta, de mayor a menor


**Parámetros:**
- similitudes → Es el array 1D de similitudes coseno obtenido después de flatten()

- .argsort() → Devuelve los índices de los elementos ordenados de menor a mayor

- [::-1] → Invierte el orden para que sea de mayor a menor

**¿Qué pasa si cambio algo?**
- Si no uso [::-1], los documentos estarán ordenados de menor a mayor relevancia

- Si similitudes tiene empates, los índices pueden aparecer en cualquier orden relativo entre sí

- Si la consulta tiene poca relación con los documentos, todos los valores serán bajos, pero igual se ordenarán


# Imprimimos los resultados de la búsqueda

In [None]:
print("\nResultados de la búsqueda:")
for indice in ranking_indices:
    print(f"Documento {indice + 1} (score: {similitudes[indice]:.4f}): {documentos[indice]}")


Resultados de la búsqueda:
Documento 2 (score: 0.4809): El perro come carne.
Documento 1 (score: 0.3362): El gato come pescado.
Documento 3 (score: 0.2681): El gato y el perro juegan.
Documento 5 (score: 0.0000): El pescado es fresco.
Documento 4 (score: 0.0000): La casa es grande y bonita.


Este código imprime los resultados de la búsqueda mostrando los documentos ordenados por relevancia junto con su puntaje de similitud coseno


**Parámetros:**

- ranking_indices : Lista de índices ordenados de mayor a menor similitud (similitudes.argsort()[::-1])

- similitudes[indice] : Muestra la similitud del documento con la consulta

- documentos[indice] : Obtiene el texto del documento original

**¿Qué hace?**

- Imprime el encabezado "Resultados de la búsqueda:"

- Recorre la lista ranking_indices, que tiene los documentos ordenados por relevancia

- Muestra el número del documento (indice + 1), su score de similitud y su contenido

- El score :.4f limita la similitud a 4 decimales

**Ejemplo práctico:**

Si tenemos:

    documentos = ["El perro ladra", "El gato maulla", "El perro y el gato juegan"]
    similitudes = [0.58, 0.00, 0.75]  # Similitudes con la consulta
    ranking_indices = [2, 0, 1]  # Documentos ordenados por relevancia

Salida esperada:


    Resultados de la búsqueda:
    Documento 3 (score: 0.7500): El perro y el gato juegan
    Documento 1 (score: 0.5800): El perro ladra
    Documento 2 (score: 0.0000): El gato maulla

**Interpretación:**

- El documento 3 es el más similar a la consulta (75% de similitud)
- El documento 1 también es algo relevante (58% de similitud)
- El documento 2 no tiene relación (0% de similitud)

**¿Qué pasa si cambio algo?**

- Si la consulta cambia, los valores de similitud pueden variar
- Si agrego más documentos, se evaluarán y se ordenarán con base en la consulta
- Si stop_words='spanish' en TfidfVectorizer, puede cambiar qué palabras afectan la similitud