# Ejercicio 02: Cálculo de la Matriz TF-IDF y Búsqueda de Consultas en un Corpus



El objetivo de este ejercicio es calcular la matriz TF-IDF de un corpus de documentos y luego aplicar una serie de consultas para recuperar los documentos más relevantes. Este ejercicio te ayudará a comprender cómo funciona el modelo de espacio vectorial y cómo se utiliza TF-IDF para ponderar términos en documentos y consultas.



Seguirás los siguientes pasos:

In [1]:
import re
import numpy as np
import pandas as pd
from math import log
from sklearn.metrics.pairwise import cosine_similarity 

1. Preprocesamiento del texto:

    * Lectura del corpus desde el archivo TXT.

    * Tokenización de los documentos.

    * Normalización del texto (conversión a minúsculas, eliminación de signos de puntuación).

    * Eliminación de palabras vacías (stopwords).

In [3]:
# Ruta del archivo de texto
file_path = '02tfidfmatrix_corpus.txt'  

# Leer el archivo de texto y limpiar el prefijo "Documento X: "
with open(file_path, 'r', encoding='utf-8') as f:
    documents = [re.sub(r"^Documento \d+:\s*", "", line.strip()) for line in f.readlines()]

# Imprimir el contenido de cada documento
#print("Contenido de los documentos leídos:")
#for i, doc in enumerate(documents, 1):
    #print(f"Documento {i}: {doc}")

# Stopwords 
stopwords = set([
    'la', 'el', 'en', 'de', 'y', 'a', 'con', 'para', 'que', 'las', 'los', 'del', 'se', 'es', 'un', 'al', 'como', 
    'ha', 'más', 'por', 'su', 'entre', 'son', 'también', 'esto', 'este', 'eso', 'esas', 'cada', 'sin', 'uno', 
    'ha', 'no', 'entre', 'estas', 'los', 'a', 'es', 'del'
])

# Función de preprocesamiento del texto
def preprocess_text(text):
    # Convertir a minúsculas y eliminar la puntuación
    text = text.lower()
    text = re.sub(r'\W+', ' ', text)
    # Tokenización y eliminación de palabras vacías
    tokens = [word for word in text.split() if word not in stopwords]
    return ' '.join(tokens)

# Aplicar preprocesamiento a todos los documentos
preprocessed_documents = [preprocess_text(doc) for doc in documents]

# Vocabulario (ordenado alfabéticamente)
vocab = sorted(set(word for doc in preprocessed_documents for word in doc.split()))
vocab_index = {word: idx for idx, word in enumerate(vocab)}

print("\nTérminos (vocabulario):")
print(vocab)
print(len(vocab))


Términos (vocabulario):
['acceder', 'accesibles', 'acceso', 'además', 'adopción', 'adoptando', 'ahora', 'alcanzado', 'algoritmos', 'aplicaciones', 'aprendizaje', 'aquellos', 'artificial', 'atraen', 'aumentada', 'aumento', 'aunque', 'automático', 'avances', 'avanzadas', 'avanzando', 'años', 'basadas', 'beneficios', 'bienestar', 'buscan', 'calidad', 'cambiado', 'cambiando', 'ciencia', 'cine', 'cinematográficas', 'comercio', 'competencias', 'completo', 'compramos', 'compras', 'consume', 'consumidores', 'contenido', 'contexto', 'continúa', 'convertido', 'crear', 'creciente', 'crecimiento', 'cuidados', 'cursos', 'cuándo', 'cómo', 'datos', 'decisiones', 'demanda', 'democratizando', 'desafían', 'desafío', 'desarrollo', 'desde', 'diagnostican', 'diarias', 'digitales', 'dispositivos', 'distancia', 'donde', 'e', 'educación', 'educativa', 'efectos', 'eficaces', 'eficiencia', 'electrónico', 'embargo', 'empresas', 'enfermedades', 'enfoque', 'entretiene', 'escenas', 'especialmente', 'espectadores',

2. Construcción de la matriz TF-IDF:

    * Cálculo de la frecuencia de término (TF) para cada término en cada documento.

    * Cálculo de la frecuencia inversa de documento (IDF) para cada término en el corpus.

    * Cálculo del peso TF-IDF para cada término en cada documento.

In [14]:
# Calcular la matriz TF 
tf_matrix = np.zeros((len(documents), len(vocab)))
for doc_idx, doc in enumerate(preprocessed_documents):
    for word in doc.split():
        if word in vocab_index:
            tf_matrix[doc_idx, vocab_index[word]] += 1

# Convertir la matriz TF a DataFrame
tf_df = pd.DataFrame(tf_matrix, columns=vocab)
print("\nMatriz TF:")
print(tf_df)

# Calcular el vector IDF 
num_docs = len(documents)
idf_vector = np.zeros(len(vocab))
for term_idx, term in enumerate(vocab):
    # Contar en cuántos documentos aparece el término
    doc_count = sum(1 for doc in preprocessed_documents if term in doc)
    # Aplicar la fórmula de IDF
    idf_vector[term_idx] = log((num_docs / (1 + doc_count)) + 1)

# Convertir el vector IDF a DataFrame
idf_df = pd.DataFrame(idf_vector, index=vocab, columns=["IDF"])
print("\nVector IDF:")
print(idf_df)

# Calcular la matriz TF-IDF
# Multiplicamos la matriz TF por el vector IDF para obtener la matriz TF-IDF
tfidf_matrix = tf_matrix * idf_vector

# Convertir la matriz TF-IDF a DataFrame
tfidf_df = pd.DataFrame(tfidf_matrix, columns=vocab)
print("\nMatriz TF-IDF:")
print(tfidf_df)


Matriz TF:
   acceder  accesibles  acceso  además  adopción  adoptando  ahora  alcanzado  \
0      0.0         0.0     0.0     0.0       0.0        1.0    0.0        0.0   
1      0.0         0.0     0.0     0.0       0.0        0.0    1.0        1.0   
2      0.0         0.0     0.0     0.0       0.0        0.0    0.0        0.0   
3      1.0         0.0     0.0     0.0       0.0        0.0    0.0        0.0   
4      0.0         0.0     2.0     1.0       0.0        0.0    0.0        0.0   
5      0.0         0.0     0.0     0.0       0.0        0.0    0.0        0.0   
6      0.0         0.0     0.0     0.0       1.0        0.0    0.0        0.0   
7      0.0         1.0     0.0     0.0       0.0        0.0    0.0        0.0   

   algoritmos  aplicaciones  ...  una  usuario  utilizan  vez  viaje  vida  \
0         1.0           0.0  ...  0.0      0.0       0.0  0.0    0.0   0.0   
1         0.0           0.0  ...  0.0      0.0       0.0  0.0    0.0   0.0   
2         0.0           


3. Procesamiento de las consultas:

    * Preprocesamiento de las consultas de manera similar a los documentos.

    * Representación de las consultas en el espacio vectorial TF-IDF.

In [15]:
# Definir las consultas
queries = [
    "inteligencia artificial en medicina",
    "beneficios de la educación a distancia",
    "realidad aumentada en videojuegos",
    "desarrollo personal y hábitos saludables",
    "futuro del comercio electrónico",
    "tecnologías en cine moderno",
    "competencias de e-sports",
    "diagnóstico con dispositivos portátiles",
    "literatura de ciencia ficción",
    "plataformas de streaming"
]

# Preprocesar las consultas
preprocessed_queries = [preprocess_text(query) for query in queries]

# Matriz TF-IDF para las consultas
query_tfidf_matrix = np.zeros((len(queries), len(vocab)))
for query_idx, query in enumerate(preprocessed_queries):
    for word in query.split():
        if word in vocab_index:
            term_idx = vocab_index[word]
            tf = query.split().count(word)
            query_tfidf_matrix[query_idx, term_idx] = tf * idf_vector[term_idx]

# Convertir las consultas en el espacio TF-IDF a DataFrame
query_tfidf_df = pd.DataFrame(query_tfidf_matrix, columns=vocab)
print("\nRepresentación de las consultas en el espacio vectorial TF-IDF:")
print(query_tfidf_df)


Representación de las consultas en el espacio vectorial TF-IDF:
   acceder  accesibles  acceso  además  adopción  adoptando  ahora  alcanzado  \
0      0.0         0.0     0.0     0.0       0.0        0.0    0.0        0.0   
1      0.0         0.0     0.0     0.0       0.0        0.0    0.0        0.0   
2      0.0         0.0     0.0     0.0       0.0        0.0    0.0        0.0   
3      0.0         0.0     0.0     0.0       0.0        0.0    0.0        0.0   
4      0.0         0.0     0.0     0.0       0.0        0.0    0.0        0.0   
5      0.0         0.0     0.0     0.0       0.0        0.0    0.0        0.0   
6      0.0         0.0     0.0     0.0       0.0        0.0    0.0        0.0   
7      0.0         0.0     0.0     0.0       0.0        0.0    0.0        0.0   
8      0.0         0.0     0.0     0.0       0.0        0.0    0.0        0.0   
9      0.0         0.0     0.0     0.0       0.0        0.0    0.0        0.0   

   algoritmos  aplicaciones  ...  una  usua

4. Cálculo de similitudes:

    * Cálculo de la similitud entre cada consulta y los documentos del corpus utilizando la similitud del coseno.
  
5. Ranking de documentos:

    * Ordenar los documentos de mayor a menor similitud para cada consulta.

    * Mostrar los documentos más relevantes para cada consulta.

In [16]:
for i, query_vector in enumerate(query_tfidf_matrix):
    similarities = cosine_similarity([query_vector], tfidf_matrix)
    similarity_scores = similarities.flatten()
    ranked_doc_indices = np.argsort(similarity_scores)[::-1]
    print(f"\nConsulta: '{queries[i]}'")
    print("Similitud con los documentos (ordenados de mayor a menor):")
    
    for idx in ranked_doc_indices[:5]:  # Mostrar los 5 documentos más relevantes
        print(f"Documento {idx+1}: Similitud: {similarity_scores[idx]:.4f}")


Consulta: 'inteligencia artificial en medicina'
Similitud con los documentos (ordenados de mayor a menor):
Documento 8: Similitud: 0.2836
Documento 6: Similitud: 0.1404
Documento 2: Similitud: 0.1306
Documento 1: Similitud: 0.1239
Documento 7: Similitud: 0.0000

Consulta: 'beneficios de la educación a distancia'
Similitud con los documentos (ordenados de mayor a menor):
Documento 4: Similitud: 0.3350
Documento 8: Similitud: 0.0000
Documento 7: Similitud: 0.0000
Documento 6: Similitud: 0.0000
Documento 5: Similitud: 0.0000

Consulta: 'realidad aumentada en videojuegos'
Similitud con los documentos (ordenados de mayor a menor):
Documento 2: Similitud: 0.3172
Documento 5: Similitud: 0.0708
Documento 8: Similitud: 0.0000
Documento 7: Similitud: 0.0000
Documento 6: Similitud: 0.0000

Consulta: 'desarrollo personal y hábitos saludables'
Similitud con los documentos (ordenados de mayor a menor):
Documento 7: Similitud: 0.3401
Documento 2: Similitud: 0.0719
Documento 8: Similitud: 0.0000
Docu