# Ejercicio 02: Cálculo de la Matriz TF-IDF y Búsqueda de Consultas en un Corpus

El objetivo de este ejercicio es calcular la matriz TF-IDF de un corpus de documentos y luego aplicar una serie de consultas para recuperar los documentos más relevantes. Este ejercicio te ayudará a comprender cómo funciona el modelo de espacio vectorial y cómo se utiliza TF-IDF para ponderar términos en documentos y consultas.

Seguirás los siguientes pasos:

Pasos del Ejercicio

1. Preprocesamiento del texto:
    * Lectura del corpus desde el archivo TXT.
    * Tokenización de los documentos.
    * Normalización del texto (conversión a minúsculas, eliminación de signos de puntuación).
    * Eliminación de palabras vacías (stopwords).

2. Construcción de la matriz TF-IDF:
    * Cálculo de la frecuencia de término (TF) para cada término en cada documento.
    * Cálculo de la frecuencia inversa de documento (IDF) para cada término en el corpus.
    * Cálculo del peso TF-IDF para cada término en cada documento.

3. Procesamiento de las consultas:
    * Preprocesamiento de las consultas de manera similar a los documentos.
    * Representación de las consultas en el espacio vectorial TF-IDF.

4. Cálculo de similitudes:
    * Cálculo de la similitud entre cada consulta y los documentos del corpus utilizando la similitud del coseno.

5. Ranking de documentos:
    * Ordenar los documentos de mayor a menor similitud para cada consulta.
    * Mostrar los documentos más relevantes para cada consulta.

Consultas

Las consultas a aplicar son las siguientes:

    "inteligencia artificial en medicina"
    "beneficios de la educación a distancia"
    "realidad aumentada en videojuegos"
    "desarrollo personal y hábitos saludables"
    "futuro del comercio electrónico"
    "tecnologías en cine moderno"
    "competencias de e-sports"
    "diagnóstico con dispositivos portátiles"
    "literatura de ciencia ficción"
    "plataformas de streaming"

### Procedimiento
#### 1. Preprocesamiento del texto

In [1]:
# 1.1 Lectura del corpus desde el archivo TXT.
datos = []
with open('../data/02tfidfmatrix_corpus.txt', mode='r', encoding='utf-8') as file:
    # Leemos el archivo línea por línea y almacenamos cada línea en la lista 'datos'
    datos = file.readlines()

In [2]:
# Imprimir el contenido del corpus cargado (opcional, para verificar que se ha leído correctamente.
print("Contenido del corpus leido: ")
for i in range(len(datos)):
    # Elimina "Documento #:"
    documento = datos[i].replace(f"Documento {i+1}: ", " ").strip()
    print(f"Documento {i+1}: {documento}")

print("\n")
print(f"Número de documentos en el corpus: {len(datos)}")

Contenido del corpus leido: 
Documento 1: La inteligencia artificial continúa avanzando rápidamente, transformando sectores como la salud y las finanzas. Las empresas están adoptando algoritmos de aprendizaje automático para mejorar la eficiencia. Sin embargo, el desafío principal sigue siendo garantizar que las decisiones basadas en datos sean justas y no perpetúen sesgos. La ética es fundamental en este contexto.
Documento 2: El desarrollo de videojuegos ha alcanzado un nuevo nivel con tecnologías como la realidad aumentada y la inteligencia artificial. Los jugadores ahora pueden interactuar en mundos virtuales más inmersivos. Este crecimiento también impulsa el mercado de los e-sports, donde las competencias profesionales atraen a millones de espectadores en todo el mundo.
Documento 3: El comercio electrónico ha cambiado la forma en que compramos. Con la creciente demanda de compras en línea, las empresas están optimizando sus plataformas digitales para ofrecer mejores experiencias 

In [3]:
# 1.2. Tokenización de los documentos y 1.3. Normalización del texto.
docs_tok = []

for lin in datos:
    lin = lin.strip()
    lin = lin.lower().split(':')[1].replace('.', '').replace(',', '').split()
    docs_tok.append(lin)

# Imprimir los documentos después de la tokenización y normalización
print("\nDocumentos tokenizados y normalizados:")
for i, doc in enumerate(docs_tok):
    print(f"Documento {i+1}: {doc}")


Documentos tokenizados y normalizados:
Documento 1: ['la', 'inteligencia', 'artificial', 'continúa', 'avanzando', 'rápidamente', 'transformando', 'sectores', 'como', 'la', 'salud', 'y', 'las', 'finanzas', 'las', 'empresas', 'están', 'adoptando', 'algoritmos', 'de', 'aprendizaje', 'automático', 'para', 'mejorar', 'la', 'eficiencia', 'sin', 'embargo', 'el', 'desafío', 'principal', 'sigue', 'siendo', 'garantizar', 'que', 'las', 'decisiones', 'basadas', 'en', 'datos', 'sean', 'justas', 'y', 'no', 'perpetúen', 'sesgos', 'la', 'ética', 'es', 'fundamental', 'en', 'este', 'contexto']
Documento 2: ['el', 'desarrollo', 'de', 'videojuegos', 'ha', 'alcanzado', 'un', 'nuevo', 'nivel', 'con', 'tecnologías', 'como', 'la', 'realidad', 'aumentada', 'y', 'la', 'inteligencia', 'artificial', 'los', 'jugadores', 'ahora', 'pueden', 'interactuar', 'en', 'mundos', 'virtuales', 'más', 'inmersivos', 'este', 'crecimiento', 'también', 'impulsa', 'el', 'mercado', 'de', 'los', 'e-sports', 'donde', 'las', 'competen

In [4]:
# 1.5. Eliminación de stopwords
stop_words = {
    'desde', 'más', 'en', 'ha', 'la', 'se', 'el', 'los', 'otros', 'que', 'están', 'para', 'y', 'está', 'todo', 'también', 'donde', 'no', 'sobre', 'a', 'este', 'es', 'como', 'sus', 'uno', 'las', 'de', 'hasta', 'una', 'sean', 'sin', 'con', 'un', 'su'
}

# Eliminación de stopwords
docs_cleaned = []
for doc in docs_tok:
    cleaned_doc = [word for word in doc if word not in stop_words]
    docs_cleaned.append(cleaned_doc)

# Imprimir los documentos después de la eliminación de palabras vacías (stopwords)
print("\nDocumentos sin palabras vacías:")
for i, doc in enumerate(docs_cleaned):
    print(f"Documento {i+1}: {doc}")


Documentos sin palabras vacías:
Documento 1: ['inteligencia', 'artificial', 'continúa', 'avanzando', 'rápidamente', 'transformando', 'sectores', 'salud', 'finanzas', 'empresas', 'adoptando', 'algoritmos', 'aprendizaje', 'automático', 'mejorar', 'eficiencia', 'embargo', 'desafío', 'principal', 'sigue', 'siendo', 'garantizar', 'decisiones', 'basadas', 'datos', 'justas', 'perpetúen', 'sesgos', 'ética', 'fundamental', 'contexto']
Documento 2: ['desarrollo', 'videojuegos', 'alcanzado', 'nuevo', 'nivel', 'tecnologías', 'realidad', 'aumentada', 'inteligencia', 'artificial', 'jugadores', 'ahora', 'pueden', 'interactuar', 'mundos', 'virtuales', 'inmersivos', 'crecimiento', 'impulsa', 'mercado', 'e-sports', 'competencias', 'profesionales', 'atraen', 'millones', 'espectadores', 'mundo']
Documento 3: ['comercio', 'electrónico', 'cambiado', 'forma', 'compramos', 'creciente', 'demanda', 'compras', 'línea', 'empresas', 'optimizando', 'plataformas', 'digitales', 'ofrecer', 'mejores', 'experiencias', 

#### 2. Contrucción de la matriz TF-IDF

In [5]:
import numpy as np
import pandas as pd

In [6]:
arr_unido = [palabra for palabras in docs_tok for palabra in palabras]
print("Total de palabras en el corpus tokenizado:", len(arr_unido))

# Palabras únicas y su conteo
vals_unicos, conteo = np.unique(arr_unido, return_counts=True)
for val_unico, cont in zip(vals_unicos, conteo):
    print(f'{val_unico} ---> {cont}')

# Vocabulario único
vocab = set(arr_unido)
print("Número de términos únicos en el vocabulario:", len(vocab))

Total de palabras en el corpus tokenizado: 417
a ---> 10
acceder ---> 1
accesibles ---> 1
acceso ---> 2
además ---> 1
adopción ---> 1
adoptando ---> 1
ahora ---> 1
alcanzado ---> 1
algoritmos ---> 1
aplicaciones ---> 1
aprendizaje ---> 2
aquellos ---> 1
artificial ---> 3
atraen ---> 1
aumentada ---> 1
aumento ---> 1
aunque ---> 1
automático ---> 1
avances ---> 3
avanzadas ---> 1
avanzando ---> 1
años ---> 1
basadas ---> 1
beneficios ---> 1
bienestar ---> 1
buscan ---> 1
cada ---> 1
calidad ---> 2
cambiado ---> 1
cambiando ---> 1
ciencia ---> 1
cine ---> 1
cinematográficas ---> 1
comercio ---> 1
como ---> 3
competencias ---> 1
completo ---> 1
compramos ---> 1
compras ---> 1
con ---> 5
consume ---> 1
consumidores ---> 1
contenido ---> 1
contexto ---> 1
continúa ---> 1
convertido ---> 1
crear ---> 1
creciente ---> 1
crecimiento ---> 2
cuidados ---> 1
cursos ---> 1
cuándo ---> 1
cómo ---> 1
datos ---> 1
de ---> 20
decisiones ---> 1
demanda ---> 2
democratizando ---> 1
desafían ---> 1
desaf

In [7]:
## 2.1 Cálculo de la frecuencia de término (TF) para cada término en cada documento
def get_tf_matrix(docs_tokenizados, vocabulario):
    vocab = vocabulario
    docs_tok = docs_tokenizados
    tfmatrix = []

    for i, doc in enumerate(docs_tok):
        tf_doc = []
        for palabra in vocab:
            if palabra not in doc:
                tf_doc.append(0)
            else:
                tf_doc.append(doc.count(palabra))
        tfmatrix.append(tf_doc)
        print(f"Frecuencia de términos en Documento {i+1}: {tf_doc}")

    return tfmatrix

In [8]:
## 2.2 Cálculo de la frecuencia inversa de documento (IDF) para cada término en el corpus
def get_idf_matrix(matriz_tf, vocabulario):
    tfmatrix = matriz_tf
    vocab = vocabulario

    num_docs = len(tfmatrix)
    num_terms = len(vocab)
    idf_matrix = np.zeros((num_docs, num_terms))

    for i, doc in enumerate(tfmatrix):
        for j, term in enumerate(vocab):
            if doc[j] > 0:  # Si el término aparece en el documento
                df = sum(1 for d in tfmatrix if d[j] > 0)  # Número de documentos que contienen el término
                idf = np.log(num_docs / df)  # Fórmula IDF
                idf_matrix[i][j] = idf  # Asignar el valor IDF a la matriz
            else:
                idf_matrix[i][j] = 0  # Si el término no aparece en el documento, asignar 0

        print(f"Valores IDF para Documento {i+1}: {idf_matrix[i]}")

    return idf_matrix

In [9]:
## 2.3 Cálculo del peso TF-IDF para cada término en cada documento
def get_tf_idf_matrix(matriz_tf, matriz_idf):
    tf_idf_matrix = []

    for i, (tf_lin, idf_lin) in enumerate(zip(matriz_tf, matriz_idf)):
        tf_idf_lin = np.multiply(tf_lin, idf_lin)
        tf_idf_matrix.append(tf_idf_lin)
        print(f"Valores TF-IDF para Documento {i+1}: {tf_idf_lin}")

    return tf_idf_matrix

In [10]:
tfmatrix = get_tf_matrix(docs_tok, vocab)

Frecuencia de términos en Documento 1: [0, 0, 0, 0, 1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 2, 1, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 2, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 3, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 1, 0, 1, 0, 1, 1, 0, 0, 0, 1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 4, 0, 1, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
Frecuencia de términos en Documento 2: [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 1, 0, 0, 0, 2, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 1, 0,

In [11]:
idf_matrix = get_idf_matrix(tfmatrix, vocab)

Valores IDF para Documento 1: [0.         0.         0.         0.         0.28768207 2.07944154
 0.         2.07944154 0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         2.07944154
 0.         0.         2.07944154 0.         0.         0.
 0.         0.         0.28768207 1.38629436 0.         0.
 2.07944154 0.         0.         0.         1.38629436 0.
 0.         0.         0.         0.         2.07944154 0.28768207
 0.         2.07944154 0.         2.07944154 0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.98082925 2.07944154 0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         2.07944154 0.         0.         0.
 0.         2.07944154 0.         0.         0.         0.
 1.38629436 0.         0.         0.         0.         0.
 0

In [12]:
tf_idf_matrix = get_tf_idf_matrix(tfmatrix, idf_matrix)

Valores TF-IDF para Documento 1: [0.         0.         0.         0.         0.28768207 2.07944154
 0.         2.07944154 0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         2.07944154
 0.         0.         2.07944154 0.         0.         0.
 0.         0.         0.57536414 1.38629436 0.         0.
 2.07944154 0.         0.         0.         1.38629436 0.
 0.         0.         0.         0.         2.07944154 0.57536414
 0.         2.07944154 0.         2.07944154 0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.98082925 2.07944154 0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         2.07944154 0.         0.         0.
 0.         2.07944154 0.         0.         0.         0.
 1.38629436 0.         0.         0.         0.         0.

In [13]:
# pip install pandas

In [14]:
tf_idf_df = pd.DataFrame(tf_idf_matrix, columns=list(vocab))
tf_idf_df

Unnamed: 0,cinematográficas,tecnología,prioridad,tratamientos,que,datos,su,principal,aunque,personalizadas,...,optimizando,también,profesionales,aplicaciones,compramos,ubicación,e-sports,donde,tiempo,aquellos
0,0.0,0.0,0.0,0.0,0.287682,2.079442,0.0,2.079442,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,1.386294,2.079442,0.0,0.0,0.0,2.079442,2.079442,0.0,0.0
2,0.0,1.386294,0.0,0.0,0.287682,0.0,0.0,0.0,0.0,2.079442,...,2.079442,0.0,0.0,0.0,2.079442,0.0,0.0,0.0,0.0,0.0
3,0.0,0.0,0.0,0.0,0.0,0.0,1.386294,0.0,2.079442,0.0,...,0.0,0.0,0.0,0.0,0.0,2.079442,0.0,0.0,0.980829,2.079442
4,2.079442,0.0,0.0,0.0,0.287682,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
5,0.0,0.0,0.0,0.0,0.287682,0.0,0.0,0.0,0.0,0.0,...,0.0,1.386294,0.0,0.0,0.0,0.0,0.0,0.0,0.980829,0.0
6,0.0,0.0,2.079442,0.0,0.575364,0.0,1.386294,0.0,0.0,0.0,...,0.0,0.0,0.0,2.079442,0.0,0.0,0.0,0.0,0.0,0.0
7,0.0,1.386294,0.0,2.079442,0.575364,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.980829,0.0


#### 3. Procesamiento de las consultas

In [15]:
queries = [
    "inteligencia artificial en medicina",
    "beneficios de la educación a distancia",
    "realidad aumentada en videojuegos",
    "desarrollo personal y hábitos saludables",
    "futuro del comercio electrónico",
    "tecnologías en cine moderno",
    "competencias de e-sports",
    "diagnóstico con dispositivos portátiles",
    "literatura de ciencia ficción",
    "plataformas de streaming"
]


In [16]:
# Obtener la matriz TF de las consultas
tf_queries = get_tf_matrix(queries, vocab)

Frecuencia de términos en Documento 1: [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 4, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 2, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
Frecuencia de términos en Documento 2: [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 5, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,

In [17]:
print("Matriz TF para cada consulta:")
for i, tf_vector in enumerate(tf_queries):
    print(f"Consulta {i+1}: {queries[i]}")
    print(tf_vector)

print("\n")
print(f"Total de consultas: {len(tf_queries)}\n")

Matriz TF para cada consulta:
Consulta 1: inteligencia artificial en medicina
[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 4, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 2, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
Consulta 2: beneficios de la educación a distancia
[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 5, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,

In [18]:
# Obtener la matriz IDF para las consultas
idf_queries = get_idf_matrix(tf_queries, vocab)

Valores IDF para Documento 1: [0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.10536052 0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.51082562
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.    

In [19]:
print("Matriz IDF para las consultas:")
for i, idf_vector in enumerate(idf_queries):
    print(f"Consulta {i+1}: {queries[i]}")
    print(idf_vector)

print("\n")
print(f"Total de consultas: {len(idf_queries)}\n")

Matriz IDF para las consultas:
Consulta 1: inteligencia artificial en medicina
[0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.10536052 0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.51082562
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.   

In [20]:
# Obtener la matriz TF-IDF para las consultas
tf_idf_queries = get_tf_idf_matrix(tf_queries, idf_queries)

Valores TF-IDF para Documento 1: [0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.42144206 0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         1.02165125
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0. 

In [21]:
print("Matriz TF-IDF para las consultas:")
for i, tf_idf_vector in enumerate(tf_idf_queries):
    print(f"Consulta {i+1}: {queries[i]}")
    print(tf_idf_vector)

print("\n")
print(f"Total de consultas: {len(tf_idf_queries)}")

Matriz TF-IDF para las consultas:
Consulta 1: inteligencia artificial en medicina
[0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.42144206 0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         1.02165125
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.

#### 4. Cálculo de similitudes

In [22]:
def distancia_coseno(query_vector, doc_vector):
    # Producto punto entre los dos vectores
    producto_punto = np.dot(query_vector, doc_vector)

    # Normas de los vectores
    norma_query = np.linalg.norm(query_vector)
    norma_doc = np.linalg.norm(doc_vector)

    # Similitud coseno
    similitud_coseno = producto_punto / (norma_query * norma_doc)

    # Distancia coseno (1 - similitud coseno)
    distancia_coseno = 1 - similitud_coseno

    return distancia_coseno

In [23]:
tf_idf_docs = tf_idf_matrix

In [24]:
for i, query_vector in enumerate(tf_idf_queries):
    print(f"Similitudes coseno para la consulta {i + 1}: '{queries[i]}'")
    
    for j, doc_vector in enumerate(tf_idf_docs):
        similitud_coseno = 1 - distancia_coseno(query_vector, doc_vector)
        print(f"  Documento {j + 1}: Similitud Coseno = {similitud_coseno:.4f}")
    
    print()  # Para separar cada consulta

Similitudes coseno para la consulta 1: 'inteligencia artificial en medicina'
  Documento 1: Similitud Coseno = 0.1049
  Documento 2: Similitud Coseno = 0.1242
  Documento 3: Similitud Coseno = 0.0238
  Documento 4: Similitud Coseno = 0.0098
  Documento 5: Similitud Coseno = 0.0208
  Documento 6: Similitud Coseno = 0.1295
  Documento 7: Similitud Coseno = 0.0431
  Documento 8: Similitud Coseno = 0.2253

Similitudes coseno para la consulta 2: 'beneficios de la educación a distancia'
  Documento 1: Similitud Coseno = 0.0059
  Documento 2: Similitud Coseno = 0.0096
  Documento 3: Similitud Coseno = 0.0097
  Documento 4: Similitud Coseno = 0.3088
  Documento 5: Similitud Coseno = 0.0058
  Documento 6: Similitud Coseno = 0.0100
  Documento 7: Similitud Coseno = 0.0125
  Documento 8: Similitud Coseno = 0.0126

Similitudes coseno para la consulta 3: 'realidad aumentada en videojuegos'
  Documento 1: Similitud Coseno = 0.0108
  Documento 2: Similitud Coseno = 0.2669
  Documento 3: Similitud Cos

#### 5. Ranking de documentos

In [25]:
def rankear_documentos_por_query(tf_idf_queries, tf_idf_matrix):
    rankings = []

    # Convertir las listas a arrays numpy
    tf_idf_queries = np.array(tf_idf_queries)
    tf_idf_matrix = np.array(tf_idf_matrix)

    # Iterar sobre cada consulta (filas de tf_idf_queries)
    for query_vector in tf_idf_queries:
        distancias = []
        for doc_vector in tf_idf_matrix:
            distancias.append(distancia_coseno(query_vector, doc_vector))

        # Ordenar los documentos por distancia (menor distancia, más parecido)
        ranking = np.argsort(distancias)  # Devuelve los índices de los documentos ordenados
        rankings.append(ranking)

    return rankings

In [27]:
# Rankear los documentos para cada consulta
rankings = rankear_documentos_por_query(tf_idf_queries, tf_idf_matrix)

In [28]:
# Mostrar los rankings
for i, ranking in enumerate(rankings):
    print(f"--- Ranking para la consulta {i + 1}")
    print(f"Consulta: {queries[i]}")
    print("\n")
    
    for rank in ranking:
        print(f"Documento: {datos[rank]}")  # Imprimir el documento correspondiente desde 'datos'
    
    print("\n\n")

--- Ranking para la consulta 1
Consulta: inteligencia artificial en medicina


Documento: Documento 8: Los avances en la medicina están cambiando la forma en que se diagnostican y tratan las enfermedades. Desde la telemedicina hasta los dispositivos portátiles que monitorean la salud en tiempo real, la tecnología está permitiendo a los médicos ofrecer cuidados más personalizados. El futuro de la medicina es prometedor, con tratamientos más accesibles y eficaces.

Documento: Documento 6: La ciencia ficción es uno de los géneros literarios más populares, explorando temas como el viaje en el tiempo, la inteligencia artificial y la vida en otros planetas. Este género no solo entretiene, sino que también invita a reflexionar sobre el futuro de la humanidad y las implicaciones de los avances tecnológicos.

Documento: Documento 2: El desarrollo de videojuegos ha alcanzado un nuevo nivel con tecnologías como la realidad aumentada y la inteligencia artificial. Los jugadores ahora pueden interac