# Ejercicio 01: Recuperación de Información Basado en el Modelo de Matriz Término-Documento

En este ejercicio, trabajaremos con un corpus de documentos en formato JSON para implementar un sistema de Recuperación de Información basado en el modelo de espacio vectorial. Seguirás los siguientes pasos:

## Paso 1: Determinar un vocabulario
El primer paso es cargar el corpus en formato JSON, extraer los textos de los documentos y crear el vocabulario.

In [1]:
import json

datos = []
with open(file='../data/01tdmatrix_corpus.json', mode='r', encoding='utf-8') as file:
    datos = json.load(file)

In [2]:
print(datos[0]['text'].lower())

la inteligencia artificial continúa avanzando rápidamente, transformando sectores como la salud y las finanzas. las empresas están adoptando algoritmos de aprendizaje automático para mejorar la eficiencia. sin embargo, el desafío principal sigue siendo garantizar que las decisiones basadas en datos sean justas y no perpetúen sesgos. la ética es fundamental en este contexto.


In [3]:
print(datos[0]['text'].lower().split())

['la', 'inteligencia', 'artificial', 'continúa', 'avanzando', 'rápidamente,', 'transformando', 'sectores', 'como', 'la', 'salud', 'y', 'las', 'finanzas.', 'las', 'empresas', 'están', 'adoptando', 'algoritmos', 'de', 'aprendizaje', 'automático', 'para', 'mejorar', 'la', 'eficiencia.', 'sin', 'embargo,', 'el', 'desafío', 'principal', 'sigue', 'siendo', 'garantizar', 'que', 'las', 'decisiones', 'basadas', 'en', 'datos', 'sean', 'justas', 'y', 'no', 'perpetúen', 'sesgos.', 'la', 'ética', 'es', 'fundamental', 'en', 'este', 'contexto.']


In [4]:
vocab = set(datos[0]['text'].lower().split())
print(vocab)
print(len(vocab))

{'sesgos.', 'adoptando', 'sean', 'y', 'inteligencia', 'continúa', 'rápidamente,', 'eficiencia.', 'como', 'contexto.', 'siendo', 'de', 'sigue', 'desafío', 'para', 'empresas', 'basadas', 'este', 'artificial', 'las', 'mejorar', 'sectores', 'avanzando', 'principal', 'garantizar', 'algoritmos', 'justas', 'sin', 'salud', 'finanzas.', 'que', 'en', 'datos', 'el', 'automático', 'están', 'perpetúen', 'transformando', 'decisiones', 'aprendizaje', 'no', 'fundamental', 'embargo,', 'ética', 'la', 'es'}
46


In [5]:
vocab = []
for i in range(0,len(datos)):
    vocab.extend(datos[i]['text'].lower().replace(',','').replace('.','').split())

#vocab = set(vocab)
vocab = sorted(list(set(vocab)))
print(len(vocab))
print(vocab)

230
['a', 'acceder', 'accesibles', 'acceso', 'además', 'adopción', 'adoptando', 'ahora', 'alcanzado', 'algoritmos', 'aplicaciones', 'aprendizaje', 'aquellos', 'artificial', 'atraen', 'aumentada', 'aumento', 'aunque', 'automático', 'avances', 'avanzadas', 'avanzando', 'años', 'basadas', 'beneficios', 'bienestar', 'buscan', 'cada', 'calidad', 'cambiado', 'cambiando', 'ciencia', 'cine', 'cinematográficas', 'comercio', 'como', 'competencias', 'completo', 'compramos', 'compras', 'con', 'consume', 'consumidores', 'contenido', 'contexto', 'continúa', 'convertido', 'crear', 'creciente', 'crecimiento', 'cuidados', 'cursos', 'cuándo', 'cómo', 'datos', 'de', 'decisiones', 'demanda', 'democratizando', 'desafían', 'desafío', 'desarrollo', 'desde', 'diagnostican', 'diarias', 'digitales', 'dispositivos', 'distancia', 'donde', 'e-sports', 'educación', 'educativa', 'efectos', 'eficaces', 'eficiencia', 'el', 'electrónico', 'embargo', 'empresas', 'en', 'enfermedades', 'enfoque', 'entretiene', 'es', 'esce

## Paso 2: Calcular una matriz término-documento
Una vez que tenemos el vocabulario, el siguiente paso es construir una **matriz término-documento**, que nos permitirá representar cada documento como un vector en el espacio de términos.

In [6]:
def tdtransform(text):
    doc = []
    for word in vocab:
        if word in text.lower().replace(',','').replace('.','').split():
           doc.append(1)
        else:
            doc.append(0)
    return doc

In [7]:
tdmatrix = []
for i in range(0,len(datos)):
    doc = tdtransform(text=datos[i]['text'])
    tdmatrix.append(doc)

print(tdmatrix)

[[0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 1, 0, 1, 0, 0, 0, 0, 1, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 1, 1, 1, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 1, 1, 0, 1, 1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1], [1, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 

## Paso 3: Obtener una representación de una _query_ en el espacio término-documento
Ahora vamos a representar una _query_ como un vector en el mismo espacio de términos que hicimos para el corpus.

In [8]:
query = "inteligencia artificial en medicina"
print(tdtransform(query))

[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]


## Paso 4: Calcular la distancia entre la _query_ y todos los documentos del corpus
Al obtener la distancia Jaccard entre la _query_ y cada documento del corpus, calculamos la relevancia que tiene cada documento para la _query_ 

Se define la query (consulta) como un texto y se la transforma en un vector binario utilizando la función tdtransform. Esta función convierte cada palabra en la consulta en un vector binario, donde cada posición indica si una palabra específica del vocabulario está presente o no en la consulta. 


In [9]:
# Definir la consulta y transformarla en un vector binario
query = "inteligencia artificial en medicina"
q = tdtransform(query)  # Convierte la consulta en un vector binario en función del vocabulario

In [10]:
print(q)

[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]


Se define la función jaccard_similarity, que calcula la similitud de Jaccard entre el vector de la consulta y el vector de un documento. La similitud de Jaccard se calcula como la razón entre la intersección y la unión de los dos conjuntos de términos:

Intersección: cuenta las posiciones donde ambos vectores (consulta y documento) tienen un valor de 1, es decir, las palabras que están presentes tanto en la consulta como en el documento.

Unión: cuenta las posiciones donde al menos uno de los vectores tiene un valor de 1, es decir, todas las palabras que están presentes en al menos uno de los dos conjuntos.

In [11]:
# Función para calcular la similitud de Jaccard entre la consulta y un documento
def jaccard_similarity(q, doc):
    # Calcula la intersección (q AND doc), que cuenta las posiciones donde ambos vectores tienen un 1
    intersection = sum(1 for i in range(len(q)) if q[i] == 1 and doc[i] == 1)
    
    # Calcula la unión (q OR doc), que cuenta las posiciones donde al menos uno de los vectores tiene un 1
    union = sum(1 for i in range(len(q)) if q[i] == 1 or doc[i] == 1)
    
    # Calcula el índice de Jaccard como la razón entre intersección y unión
    return intersection / union if union != 0 else 0

Se utiliza la función jaccard_similarity para calcular la similitud de Jaccard entre la consulta y cada documento en la matriz de términos-documentos (tdmatrix). Cada similitud calculada se almacena en una lista junto con el índice del documento correspondiente.

In [12]:
# Calcular la similitud de Jaccard para cada documento en tdmatrix
jaccard_scores = []
for idx, doc in enumerate(tdmatrix):
    # Calcula la similitud de Jaccard entre la consulta y el documento actual
    score = jaccard_similarity(q, doc)
    # Almacena el índice del documento y su similitud en la lista de puntajes
    jaccard_scores.append((idx+1, score))

La lista de similitudes de Jaccard se ordena en orden descendente, de modo que los documentos más relevantes (los que tienen mayor similitud con la consulta) aparezcan primero. 

In [13]:
# Ordenar los documentos por relevancia
# Ordena la lista de puntajes en orden descendente de similitud de Jaccard
jaccard_scores.sort(key=lambda x: x[1], reverse=True)


## Paso 5: Entregar los resultados de la búsqueda al usuario
A partir de la _query_, debemos indicar al usuario cuáles documentos son los más relevantes. Se debe presentar la información en orden de relevancia.

Se muestra cada documento junto con su similitud de Jaccard en el orden de relevancia.

In [14]:
# Mostrar resultados
print("Resultados de la búsqueda (ordenados por relevancia):")
for doc_id, score in jaccard_scores:
    # Imprime el ID del documento y su similitud de Jaccard
    print(f"Documento {doc_id } - Similitud de Jaccard: {score}")


Resultados de la búsqueda (ordenados por relevancia):
Documento 6 - Similitud de Jaccard: 0.06976744186046512
Documento 2 - Similitud de Jaccard: 0.06666666666666667
Documento 1 - Similitud de Jaccard: 0.06382978723404255
Documento 8 - Similitud de Jaccard: 0.045454545454545456
Documento 3 - Similitud de Jaccard: 0.022222222222222223
Documento 7 - Similitud de Jaccard: 0.021739130434782608
Documento 4 - Similitud de Jaccard: 0.0
Documento 5 - Similitud de Jaccard: 0.0
