# Ejercicio 01: Recuperación de Información Basado en el Modelo de Matriz Término-Documento

En este ejercicio, trabajaremos con un corpus de documentos en formato JSON para implementar un sistema de Recuperación de Información basado en el modelo de espacio vectorial. Seguirás los siguientes pasos:

## Paso 1: Determinar un vocabulario
El primer paso es cargar el corpus en formato JSON, extraer los textos de los documentos y crear el vocabulario.

In [1]:
import json

datos = []
with open(file='../data/01tdmatrix_corpus.json', mode='r', encoding='utf-8') as file:
    datos = json.load(file)

In [2]:
print(datos[0]['text'].lower())

la inteligencia artificial continúa avanzando rápidamente, transformando sectores como la salud y las finanzas. las empresas están adoptando algoritmos de aprendizaje automático para mejorar la eficiencia. sin embargo, el desafío principal sigue siendo garantizar que las decisiones basadas en datos sean justas y no perpetúen sesgos. la ética es fundamental en este contexto.


In [3]:
print(datos[0]['text'].lower().split())

['la', 'inteligencia', 'artificial', 'continúa', 'avanzando', 'rápidamente,', 'transformando', 'sectores', 'como', 'la', 'salud', 'y', 'las', 'finanzas.', 'las', 'empresas', 'están', 'adoptando', 'algoritmos', 'de', 'aprendizaje', 'automático', 'para', 'mejorar', 'la', 'eficiencia.', 'sin', 'embargo,', 'el', 'desafío', 'principal', 'sigue', 'siendo', 'garantizar', 'que', 'las', 'decisiones', 'basadas', 'en', 'datos', 'sean', 'justas', 'y', 'no', 'perpetúen', 'sesgos.', 'la', 'ética', 'es', 'fundamental', 'en', 'este', 'contexto.']


In [4]:
vocab = set(datos[0]['text'].lower().split())
print(vocab)
print(len(vocab))

{'salud', 'continúa', 'en', 'rápidamente,', 'sigue', 'decisiones', 'adoptando', 'la', 'fundamental', 'contexto.', 'que', 'este', 'finanzas.', 'datos', 'mejorar', 'sectores', 'algoritmos', 'artificial', 'siendo', 'inteligencia', 'las', 'empresas', 'eficiencia.', 'aprendizaje', 'garantizar', 'sean', 'transformando', 'sesgos.', 'sin', 'es', 'automático', 'están', 'de', 'como', 'basadas', 'avanzando', 'principal', 'y', 'perpetúen', 'no', 'para', 'justas', 'desafío', 'ética', 'el', 'embargo,'}
46


In [5]:
vocab = []
for i in range(0,len(datos)):
    vocab.extend(datos[i]['text'].lower().replace(',','').replace('.','').split())

vocab = set(vocab)
print(len(vocab))
vocab = list(vocab)
vocab.sort()
print(vocab)

230
['a', 'acceder', 'accesibles', 'acceso', 'además', 'adopción', 'adoptando', 'ahora', 'alcanzado', 'algoritmos', 'aplicaciones', 'aprendizaje', 'aquellos', 'artificial', 'atraen', 'aumentada', 'aumento', 'aunque', 'automático', 'avances', 'avanzadas', 'avanzando', 'años', 'basadas', 'beneficios', 'bienestar', 'buscan', 'cada', 'calidad', 'cambiado', 'cambiando', 'ciencia', 'cine', 'cinematográficas', 'comercio', 'como', 'competencias', 'completo', 'compramos', 'compras', 'con', 'consume', 'consumidores', 'contenido', 'contexto', 'continúa', 'convertido', 'crear', 'creciente', 'crecimiento', 'cuidados', 'cursos', 'cuándo', 'cómo', 'datos', 'de', 'decisiones', 'demanda', 'democratizando', 'desafían', 'desafío', 'desarrollo', 'desde', 'diagnostican', 'diarias', 'digitales', 'dispositivos', 'distancia', 'donde', 'e-sports', 'educación', 'educativa', 'efectos', 'eficaces', 'eficiencia', 'el', 'electrónico', 'embargo', 'empresas', 'en', 'enfermedades', 'enfoque', 'entretiene', 'es', 'esce

## Paso 2: Calcular una matriz término-documento
Una vez que tenemos el vocabulario, el siguiente paso es construir una **matriz término-documento**, que nos permitirá representar cada documento como un vector en el espacio de términos.

In [6]:
def tdtransform(text):
    doc = []
    for word in vocab:
        if word in text.lower().replace(',','').replace('.','').split():
           doc.append(1)
        else:
            doc.append(0)
    return doc

In [7]:
tdmatrix = []
for i in range(0,len(datos)):
    doc = tdtransform(text=datos[i]['text'])
    tdmatrix.append(doc)

print(tdmatrix)

[[0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 1, 0, 1, 0, 0, 0, 0, 1, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 1, 1, 1, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 1, 1, 0, 1, 1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1], [1, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 

## Paso 3: Obtener una representación de una _query_ en el espacio término-documento
Ahora vamos a representar una _query_ como un vector en el mismo espacio de términos que hicimos para el corpus.

In [8]:
query = "inteligencia artificial en medicina"
queryBinary = tdtransform(query)
print(tdtransform(query))

[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]


## Paso 4: Calcular la distancia entre la _query_ y todos los documentos del corpus
Al obtener la distancia Jaccard entre la _query_ y cada documento del corpus, calculamos la relevancia que tiene cada documento para la _query_ 

In [9]:
def jaccard(query, doc):
    intersection = sum(1 for q, d in zip(query, doc) if q == 1 and d == 1)
    union = sum(1 for q, d in zip(query, doc) if q == 1 or d == 1)
    return intersection / union if union != 0 else 0

Una vez implementada la función jaccard(), calcularemos la relevancia. Para ello vamos a hacer uso de un bucle for para iterar entre las filas (documentos) de la matriz "tdmatrix" y una vez calculada la distancia Jaccard, almacenaremos una tupla que contenga el índice del documento y la distancia Jaccard, esto lo haremos con todos los documentos de la matriz tdmatrix.

Ordenamos los documentos según la relavancia que se calculó (distancia Jaccard), de mayor a menor.

In [10]:
def relevance(queryBinary, tdmatrix):
    relevances = []
    for i, doc_i in enumerate(tdmatrix):
        # Calcular la distancia Jaccard entre el query y el documento
        relevanceScore = jaccard(queryBinary, doc_i)
        relevances.append((i, relevanceScore))  # Guardar el índice y la relevancia del documento
    
    # Ordenar los documentos por relevancia de mayor a menor
    relevances.sort(key=lambda x: x[1], reverse=True)
    
    return relevances

Llamamos a la función "relevance" e ingresamos los parámetros queryBinary (arreglo de 230 elementos) y la matriz tdmatriz (8 x 230).

In [11]:
relevances = relevance(queryBinary, tdmatrix)
print(relevance(queryBinary, tdmatrix))

[(5, 0.06976744186046512), (1, 0.06666666666666667), (0, 0.06382978723404255), (7, 0.045454545454545456), (2, 0.022222222222222223), (6, 0.021739130434782608), (3, 0.0), (4, 0.0)]


## Paso 5: Entregar los resultados de la búsqueda al usuario
A partir de la _query_, debemos indicar al usuario cuáles documentos son los más relevantes. Se debe presentar la información en orden de relevancia.

In [12]:
print("Resultados ordenados por la distancia - Índice del documento y puntuación:")
print(f"Query: {query}\n")
for doc_index, score in relevances:
    print(f"Documento: {doc_index + 1}, Distancia Jaccard: {score:.3f}\n\n{datos[doc_index]['text']}\n")

Resultados ordenados por la distancia - Índice del documento y puntuación:
Query: inteligencia artificial en medicina

Documento: 6, Distancia Jaccard: 0.070

La ciencia ficción es uno de los géneros literarios más populares, explorando temas como el viaje en el tiempo, la inteligencia artificial y la vida en otros planetas. Este género no solo entretiene, sino que también invita a reflexionar sobre el futuro de la humanidad y las implicaciones de los avances tecnológicos.

Documento: 2, Distancia Jaccard: 0.067

El desarrollo de videojuegos ha alcanzado un nuevo nivel con tecnologías como la realidad aumentada y la inteligencia artificial. Los jugadores ahora pueden interactuar en mundos virtuales más inmersivos. Este crecimiento también impulsa el mercado de los e-sports, donde las competencias profesionales atraen a millones de espectadores en todo el mundo.

Documento: 1, Distancia Jaccard: 0.064

La inteligencia artificial continúa avanzando rápidamente, transformando sectores com