##Ejercicio 01: Recuperación de Información Basado en el Modelo de Matriz Término-Documento


En este ejercicio, trabajaremos con un corpus de documentos en formato JSON para implementar un sistema de Recuperación de Información basado en el modelo de espacio vectorial. Seguirás los siguientes pasos:

##Paso 1: Determinar un vocabulario

El primer paso es cargar el corpus en formato JSON, extraer los textos de los documentos y crear el vocabulario.

In [1]:
import json

datos = []
with open(file='01tdmatrix_corpus.json', mode='r', encoding='utf-8') as file:
    datos = json.load(file)

In [2]:
print(datos[0]['text'].lower())

la inteligencia artificial continúa avanzando rápidamente, transformando sectores como la salud y las finanzas. las empresas están adoptando algoritmos de aprendizaje automático para mejorar la eficiencia. sin embargo, el desafío principal sigue siendo garantizar que las decisiones basadas en datos sean justas y no perpetúen sesgos. la ética es fundamental en este contexto.


In [3]:
print(datos[0]['text'].lower().split())

['la', 'inteligencia', 'artificial', 'continúa', 'avanzando', 'rápidamente,', 'transformando', 'sectores', 'como', 'la', 'salud', 'y', 'las', 'finanzas.', 'las', 'empresas', 'están', 'adoptando', 'algoritmos', 'de', 'aprendizaje', 'automático', 'para', 'mejorar', 'la', 'eficiencia.', 'sin', 'embargo,', 'el', 'desafío', 'principal', 'sigue', 'siendo', 'garantizar', 'que', 'las', 'decisiones', 'basadas', 'en', 'datos', 'sean', 'justas', 'y', 'no', 'perpetúen', 'sesgos.', 'la', 'ética', 'es', 'fundamental', 'en', 'este', 'contexto.']


In [4]:
vocab = set(datos[0]['text'].lower().split())
print(vocab)
print(len(vocab))

{'sin', 'siendo', 'continúa', 'de', 'avanzando', 'fundamental', 'desafío', 'artificial', 'automático', 'sectores', 'que', 'perpetúen', 'garantizar', 'este', 'finanzas.', 'salud', 'decisiones', 'eficiencia.', 'justas', 'transformando', 'rápidamente,', 'el', 'sigue', 'no', 'es', 'sesgos.', 'aprendizaje', 'están', 'principal', 'ética', 'mejorar', 'sean', 'embargo,', 'algoritmos', 'la', 'empresas', 'datos', 'inteligencia', 'adoptando', 'para', 'basadas', 'las', 'contexto.', 'en', 'como', 'y'}
46


In [5]:
vocab = []
for i in range(0,len(datos)):
    vocab.extend(datos[i]['text'].lower().replace(',','').replace('.','').split())

vocab = set(vocab)
print(len(vocab))
print(vocab)

230
{'sin', 'desarrollo', 'planetas', 'efectos', 'continúa', 'trabajos', 'mejorando', 'artificial', 'viaje', 'convertido', 'portátiles', 'está', 'ahora', 'consumidores', 'electrónico', 'completo', 'este', 'reto', 'mundo', 'diagnostican', 'avanzadas', 'prometedor', 'el', 'implicaciones', 'vez', 'sigue', 'eficiencia', 'distancia', 'rápidamente', 'creciente', 'jugadores', 'escenas', 'alcanzado', 'adopción', 'desde', 'recomendaciones', 'atraen', 'plataformas', 'cuándo', 'se', 'cuidados', 'aquellos', 'demanda', 'para', 'hábitos', 'cinematográficas', 'aumentada', 'las', 'público', 'impulsa', 'finanzas', 'flexibilidad', 'vida', 'monitorean', 'habilidades', 'enfoque', 'médicos', 'optimizando', 'solo', 'fundamental', 'importar', 'automático', 'bienestar', 'aplicaciones', 'garantizar', 'transformado', 'literarios', 'personal', 'individual', 'entretiene', 'decisiones', 'transformando', 'incorporando', 'aumento', 'integral', 'permitiendo', 'interacción', 'no', 'saludables', 'democratizando', 'mund

##Paso 2: Calcular una matriz término-documento

Una vez que tenemos el vocabulario, el siguiente paso es construir una **matriz término-documento**, que nos permitirá representar cada documento como un vector en el espacio de términos.

In [6]:
def tdtransform(text):
    doc = []
    for word in vocab:
        if word in text.lower().replace(',','').replace('.','').split():
           doc.append(1)
        else:
            doc.append(0)
    return doc

In [7]:
tdmatrix = []
for i in range(0,len(datos)):
    doc = tdtransform(text=datos[i]['text'])
    tdmatrix.append(doc)

print(tdmatrix)

[[1, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 1, 0, 1, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 1, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 1, 1, 0, 0], [0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 

##Paso 3: Obtener una representación de una query en el espacio término-documento

Ahora vamos a representar una *query* como un vector en el mismo espacio de términos que hicimos para el corpus.

In [8]:
query = "inteligencia artificial en medicina"
print(tdtransform(query))

[0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0]


##Paso 4: Calcular la distancia entre la query y todos los documentos del corpus

Paso 4: Calcular la distancia entre la query y todos los documentos del corpus
Al obtener la distancia Jaccard entre la query y cada documento del corpus, calculamos la relevancia que tiene cada documento para la *query*

## Paso 4.1: Importación de librerías necesarias

In [9]:
import pandas as pd
from sklearn.metrics import jaccard_score

##4.2: Implementar la similitud de Jaccard



*   query_vector : Vector binario que representa los términos de la query en el espacio término-documento. Cada posición del vector es 1 si el término está presente en la query, y 0 en caso contrario.
*   scores : Lista de valores de similitud de Jaccard entre la query y cada documento en la matriz. Cada valor está en el rango [0, 1], donde 1 significa que la query y el documento son idénticos en términos de los términos presentes.



In [10]:
def calcular_similitud_jaccard(query_vector, tdmatrix):
    # Inicializamos una lista para almacenar los puntajes de similitud entre la query y cada documento.
    scores = [
        # Calcula la similitud de Jaccard entre la query y el i-ésimo documento
        jaccard_score(query_vector, tdmatrix[i], average='binary')
        for i in range(len(tdmatrix))
    ]
    # Retornamos la lista de puntajes de similitud para cada documento.
    return scores

##4.3: Implementar una lista de las Querys

In [11]:
# Lista de queries
queries = [
    "inteligencia artificial en medicina",
    "beneficios de la educación a distancia",
    "realidad aumentada en videojuegos",
    "desarrollo personal y hábitos saludables",
    "futuro del comercio electrónico",
    "tecnologías en cine moderno",
    "competencias e-sports",
    "diagnóstico con dispositivos portátiles",
    "literatura de ciencia ficción",
    "plataformas de streaming"
]

##Paso 5: Entregar los resultados de la búsqueda al usuario

A partir de la *query*, debemos indicar al usuario cuáles documentos son los más relevantes. Se debe presentar la información en orden de relevancia.

In [12]:
# Iteramos sobre cada query
for i, query in enumerate(queries):
    query_vector = tdtransform(query)  # Transformar query a vector binario

    # Mostrar la query procesada para identificar su posición en la lista
    print(f"Resultados para Query {i+1}: {query}")

    # Calcular las similitudes con todos los documentos
    scores = calcular_similitud_jaccard(query_vector, tdmatrix)

    # Ordenar los documentos por relevancia en función del puntaje de Jaccard
    # 'sorted' organiza los documentos de mayor a menor similitud
    resultados = sorted(enumerate(scores), key=lambda x: x[1], reverse=True)[:8]

    # Mostrar los 8 documentos más relevantes y sus respectivos puntajes
    for doc_id, score in resultados:
        print(f"  Documento {doc_id + 1} - Score: {score:.2f}")
    print() #Salto de línea

Resultados para Query 1: inteligencia artificial en medicina
  Documento 6 - Score: 0.07
  Documento 2 - Score: 0.07
  Documento 1 - Score: 0.06
  Documento 8 - Score: 0.05
  Documento 3 - Score: 0.02
  Documento 7 - Score: 0.02
  Documento 4 - Score: 0.00
  Documento 5 - Score: 0.00

Resultados para Query 2: beneficios de la educación a distancia
  Documento 4 - Score: 0.14
  Documento 6 - Score: 0.07
  Documento 8 - Score: 0.07
  Documento 5 - Score: 0.07
  Documento 7 - Score: 0.07
  Documento 2 - Score: 0.06
  Documento 3 - Score: 0.04
  Documento 1 - Score: 0.04

Resultados para Query 3: realidad aumentada en videojuegos
  Documento 2 - Score: 0.09
  Documento 3 - Score: 0.02
  Documento 6 - Score: 0.02
  Documento 8 - Score: 0.02
  Documento 5 - Score: 0.02
  Documento 7 - Score: 0.02
  Documento 1 - Score: 0.02
  Documento 4 - Score: 0.00

Resultados para Query 4: desarrollo personal y hábitos saludables
  Documento 7 - Score: 0.12
  Documento 2 - Score: 0.04
  Documento 6 - Sco