# Ejercicio 01: Recuperación de Información Basado en el Modelo de Matriz Término-Documento

En este ejercicio, trabajaremos con un corpus de documentos en formato JSON para implementar un sistema de Recuperación de Información basado en el modelo de espacio vectorial. Seguirás los siguientes pasos:

## Paso 1: Determinar un vocabulario
El primer paso es cargar el corpus en formato JSON, extraer los textos de los documentos y crear el vocabulario.

In [7]:
import json
datos = []
with open(file='01tdmatrix_corpus.json', mode='r', encoding='utf-8') as file:
    datos = json.load(file)

In [8]:
print(datos[0]['text'].lower())

la inteligencia artificial continúa avanzando rápidamente, transformando sectores como la salud y las finanzas. las empresas están adoptando algoritmos de aprendizaje automático para mejorar la eficiencia. sin embargo, el desafío principal sigue siendo garantizar que las decisiones basadas en datos sean justas y no perpetúen sesgos. la ética es fundamental en este contexto.


In [9]:
print(datos[0]['text'].lower().split())

['la', 'inteligencia', 'artificial', 'continúa', 'avanzando', 'rápidamente,', 'transformando', 'sectores', 'como', 'la', 'salud', 'y', 'las', 'finanzas.', 'las', 'empresas', 'están', 'adoptando', 'algoritmos', 'de', 'aprendizaje', 'automático', 'para', 'mejorar', 'la', 'eficiencia.', 'sin', 'embargo,', 'el', 'desafío', 'principal', 'sigue', 'siendo', 'garantizar', 'que', 'las', 'decisiones', 'basadas', 'en', 'datos', 'sean', 'justas', 'y', 'no', 'perpetúen', 'sesgos.', 'la', 'ética', 'es', 'fundamental', 'en', 'este', 'contexto.']


In [10]:
vocab = set(datos[0]['text'].lower().split())
print(vocab)
print(len(vocab))

{'mejorar', 'la', 'artificial', 'salud', 'finanzas.', 'sigue', 'sean', 'basadas', 'automático', 'transformando', 'decisiones', 'principal', 'sectores', 'están', 'empresas', 'como', 'embargo,', 'algoritmos', 'que', 'y', 'de', 'el', 'sesgos.', 'es', 'inteligencia', 'sin', 'aprendizaje', 'fundamental', 'contexto.', 'adoptando', 'eficiencia.', 'perpetúen', 'este', 'garantizar', 'para', 'avanzando', 'justas', 'en', 'continúa', 'datos', 'rápidamente,', 'desafío', 'siendo', 'las', 'ética', 'no'}
46


In [11]:
vocab = []
for i in range(0,len(datos)):
    vocab.extend(datos[i]['text'].lower().replace(',','').replace('.','').split())

vocab = set(vocab)
print(len(vocab))
print(vocab)

230
{'mercado', 'virtuales', 'aumentada', 'experiencias', 'películas', 'artificial', 'usuario', 'diarias', 'competencias', 'evolucionado', 'basadas', 'e-sports', 'eficaces', 'temas', 'transformando', 'muchas', 'viaje', 'sectores', 'están', 'planetas', 'empresas', 'tecnología', 'algoritmos', 'es', 'a', 'el', 'un', 'electrónico', 'efectos', 'hasta', 'está', 'creciente', 'atraen', 'adoptando', 'tecnologías', 'compras', 'mejores', 'programas', 'streaming', 'videojuegos', 'este', 'consume', 'garantizar', 'género', 'donde', 'pueden', 'individual', 'sesgos', 'ha', 'dispositivos', 'cuidados', 'realistas', 'vez', 'prioridad', 'avanzadas', 'con', 'enfermedades', 'las', 'aumento', 'no', 'inmersivos', 'los', 'mayores', 'sino', 'diagnostican', 'personalizados', 'realidad', 'populares', 'su', 'desarrollo', 'invita', 'tecnológicos', 'jugadores', 'interactuar', 'prometedor', 'acceder', 'como', 'portátiles', 'cómo', 'comercio', 'cuándo', 'reflexionar', 'ofrecer', 'sin', 'fundamental', 'accesibles', 'co

## Paso 2: Calcular una matriz término-documento
Una vez que tenemos el vocabulario, el siguiente paso es construir una **matriz término-documento**, que nos permitirá representar cada documento como un vector en el espacio de términos.

In [6]:
def tdtransform(text):
    doc = []
    for word in vocab:
        if word in text.lower().replace(',','').replace('.','').split():
           doc.append(1)
        else:
            doc.append(0)
    return doc

In [23]:
tdmatrix = []
for i in range(0,len(datos)):
    doc = tdtransform(text=datos[i]['text'])
    tdmatrix.append(doc)

print(tdmatrix)

[[0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 1, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 1, 0, 1, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 1, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 1, 0, 1, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1], [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 

## Paso 3: Obtener una representación de una _query_ en el espacio término-documento
Ahora vamos a representar una _query_ como un vector en el mismo espacio de términos que hicimos para el corpus.

In [27]:
tqueries = []
queries = ["inteligencia artificial en medicina",
           "beneficios de la educacion a distancia",
           "realidad aumentada en videojuegos",
           "desarrollo personal y habitos saludables",
           "futuro del comercio electronico",
           "tecnologias en cine moderno",
           "competencias de e-sports",
           "diagnostico con dispositivos portatiles",
           "plataformas de streaming"]
for i in range(0,len(queries)):
    query = tdtransform(text=queries[i])
    tqueries.append(query)
    print(query)

[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0]
[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0,

## Paso 4: Calcular la distancia entre la _query_ y todos los documentos del corpus
Al obtener la distancia Jaccard entre la _query_ y cada documento del corpus, calculamos la relevancia que tiene cada documento para la _query_

In [39]:
from collections import Counter

def jaccard(query, doc):
    # Calcula la intersección (unos comunes en ambos vectores)
    intersection = sum(1 for i, j in zip(query, doc) if i == j == 1)
    #print(f"intersección: {intersection}")

    # Calcula la unión (total de unos en cualquiera de los vectores)
    union = sum(1 for i, j in zip(query, doc) if i == 1 or j == 1)
    #print(f"Unión: {union}")

    # Si la unión es 0, los vectores son idénticos o no contienen unos
    if union == 0:
        return 0.0

    # Calcula la distancia de Jaccard

    return round(intersection / union, 3)

# Ejemplo de uso:
# query_vector = tdtransform(query)
results = []
for i in range(len(tqueries)):
  print(f"Query {i+1}: {queries[i]}")
  query_vector = tqueries[i]
  query_results = []
  for i in range(len(tdmatrix)):
    document_vector = tdmatrix[i]
    distance = jaccard(query_vector, document_vector)
    query_results.append(distance)
    print(f"Distancia de Jaccard entre la query y el documento {i+1}: {distance}")
  print()
  results.append(query_results)

Query 1: inteligencia artificial en medicina
Distancia de Jaccard entre la query y el documento 1: 0.064
Distancia de Jaccard entre la query y el documento 2: 0.067
Distancia de Jaccard entre la query y el documento 3: 0.022
Distancia de Jaccard entre la query y el documento 4: 0.0
Distancia de Jaccard entre la query y el documento 5: 0.0
Distancia de Jaccard entre la query y el documento 6: 0.07
Distancia de Jaccard entre la query y el documento 7: 0.022
Distancia de Jaccard entre la query y el documento 8: 0.045

Query 2: beneficios de la educacion a distancia
Distancia de Jaccard entre la query y el documento 1: 0.041
Distancia de Jaccard entre la query y el documento 2: 0.065
Distancia de Jaccard entre la query y el documento 3: 0.044
Distancia de Jaccard entre la query y el documento 4: 0.119
Distancia de Jaccard entre la query y el documento 5: 0.067
Distancia de Jaccard entre la query y el documento 6: 0.068
Distancia de Jaccard entre la query y el documento 7: 0.067
Distancia d

## Paso 5: Entregar los resultados de la búsqueda al usuario
A partir de la _query_, debemos indicar al usuario cuáles documentos son los más relevantes. Se debe presentar la información en orden de relevancia.

In [47]:
for i in range(len(results)):
  sorted_results = sorted(enumerate(results[i]), key=lambda x: x[1], reverse=True)
  print(f"Query {i+1}: {queries[i]}")
  print("Resultados de la búsqueda ordenados por relevancia:")
  for i, distance in sorted_results:
    print(f"Documento {i+1}: Distancia de Jaccard = {distance}")
  print()



Query 1: inteligencia artificial en medicina
Resultados de la búsqueda ordenados por relevancia:
Documento 6: Distancia de Jaccard = 0.07
Documento 2: Distancia de Jaccard = 0.067
Documento 1: Distancia de Jaccard = 0.064
Documento 8: Distancia de Jaccard = 0.045
Documento 3: Distancia de Jaccard = 0.022
Documento 7: Distancia de Jaccard = 0.022
Documento 4: Distancia de Jaccard = 0.0
Documento 5: Distancia de Jaccard = 0.0

Query 2: beneficios de la educacion a distancia
Resultados de la búsqueda ordenados por relevancia:
Documento 4: Distancia de Jaccard = 0.119
Documento 6: Distancia de Jaccard = 0.068
Documento 8: Distancia de Jaccard = 0.068
Documento 5: Distancia de Jaccard = 0.067
Documento 7: Distancia de Jaccard = 0.067
Documento 2: Distancia de Jaccard = 0.065
Documento 3: Distancia de Jaccard = 0.044
Documento 1: Distancia de Jaccard = 0.041

Query 3: realidad aumentada en videojuegos
Resultados de la búsqueda ordenados por relevancia:
Documento 2: Distancia de Jaccard = 0.0