#**Escuela Politecnica Nacional**
##**Recuperación de la Información**
Nombre: Kleber Janeta




# Ejercicio 01: Recuperación de Información Basado en el Modelo de Matriz Término-Documento

En este ejercicio, trabajaremos con un corpus de documentos en formato JSON para implementar un sistema de Recuperación de Información basado en el modelo de espacio vectorial. Seguirás los siguientes pasos:

## Paso 1: Determinar un vocabulario
El primer paso es cargar el corpus en formato JSON, extraer los textos de los documentos y crear el vocabulario.

In [50]:
import json

datos = []
with open(file='../content/01tdmatrix_corpus.json', mode='r', encoding='utf-8') as file:
    datos = json.load(file)

In [51]:
print(datos[0]['text'].lower())

la inteligencia artificial continúa avanzando rápidamente, transformando sectores como la salud y las finanzas. las empresas están adoptando algoritmos de aprendizaje automático para mejorar la eficiencia. sin embargo, el desafío principal sigue siendo garantizar que las decisiones basadas en datos sean justas y no perpetúen sesgos. la ética es fundamental en este contexto.


In [52]:
print(datos[0]['text'].lower().split())

['la', 'inteligencia', 'artificial', 'continúa', 'avanzando', 'rápidamente,', 'transformando', 'sectores', 'como', 'la', 'salud', 'y', 'las', 'finanzas.', 'las', 'empresas', 'están', 'adoptando', 'algoritmos', 'de', 'aprendizaje', 'automático', 'para', 'mejorar', 'la', 'eficiencia.', 'sin', 'embargo,', 'el', 'desafío', 'principal', 'sigue', 'siendo', 'garantizar', 'que', 'las', 'decisiones', 'basadas', 'en', 'datos', 'sean', 'justas', 'y', 'no', 'perpetúen', 'sesgos.', 'la', 'ética', 'es', 'fundamental', 'en', 'este', 'contexto.']


In [53]:
vocab = set(datos[0]['text'].lower().split())
print(vocab)
print(len(vocab))

{'es', 'perpetúen', 'principal', 'adoptando', 'como', 'algoritmos', 'mejorar', 'en', 'contexto.', 'continúa', 'el', 'la', 'y', 'las', 'eficiencia.', 'justas', 'datos', 'ética', 'sigue', 'sean', 'para', 'transformando', 'automático', 'sin', 'rápidamente,', 'salud', 'este', 'desafío', 'están', 'fundamental', 'sesgos.', 'empresas', 'aprendizaje', 'que', 'avanzando', 'finanzas.', 'de', 'embargo,', 'no', 'sectores', 'garantizar', 'siendo', 'decisiones', 'artificial', 'inteligencia', 'basadas'}
46


In [54]:
vocab = []
for i in range(0,len(datos)):
    vocab.extend(datos[i]['text'].lower().replace(',','').replace('.','').split())
vocab = set(vocab)
print(len(vocab))
print(vocab)

230
{'personalizadas', 'crecimiento', 'principal', 'educativa', 'democratizando', 'dispositivos', 'adoptando', 'algoritmos', 'en', 'transacciones', 'uno', 'optimizando', 'y', 'ética', 'permitido', 'medicina', 'los', 'escenas', 'mejorando', 'para', 'transformando', 'un', 'reto', 'ciencia', 'sin', 'avanzadas', 'embargo', 'su', 'espectadores', 'también', 'tecnológicos', 'se', 'compramos', 'llevado', 'donde', 'programas', 'personal', 'mayores', 'cine', 'impulsa', 'e-sports', 'nuevo', 'streaming', 'cuándo', 'empresas', 'reflexionar', 'sino', 'películas', 'avanzando', 'solo', 'vida', 'saludables', 'habilidades', 'cursos', 'a', 'planetas', 'calidad', 'aquellos', 'desafían', 'interacción', 'consumidores', 'artificial', 'cambiando', 'tratan', 'experiencias', 'género', 'muchas', 'médicos', 'tecnologías', 'años', 'humanidad', 'competencias', 'real', 'con', 'trabajos', 'personalizados', 'eficaces', 'mejorar', 'ofrecer', 'una', 'continúa', 'ahora', 'la', 'acceso', 'las', 'aunque', 'línea', 'aumento

## Paso 2: Calcular una matriz término-documento
Una vez que tenemos el vocabulario, el siguiente paso es construir una **matriz término-documento**, que nos permitirá representar cada documento como un vector en el espacio de términos.

In [55]:
def tdtransform(text):
    doc = []
    for word in vocab:
        if word in text.lower().replace(',','').replace('.','').split():
           doc.append(1)
        else:
            doc.append(0)
    return doc

In [56]:
tdmatrix = []
for i in range(0,len(datos)):
    doc = tdtransform(text=datos[i]['text'])
    tdmatrix.append(doc)
print(tdmatrix)


[[0, 0, 1, 0, 0, 0, 1, 1, 1, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 1, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 1, 1, 1, 0, 0, 1, 1, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 1, 0, 0, 1, 0, 0, 1, 0, 1, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1], [0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 1, 1, 0, 0, 

## Paso 3: Obtener una representación de una _query_ en el espacio término-documento
Ahora vamos a representar una _query_ como un vector en el mismo espacio de términos que hicimos para el corpus.

In [57]:
query = "inteligencia artificial en medicina"
query_vector = tdtransform(query)
print(query_vector)

[0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]


## Paso 4: Calcular la distancia entre la _query_ y todos los documentos del corpus
Al obtener la distancia Jaccard entre la _query_ y cada documento del corpus, calculamos la relevancia que tiene cada documento para la _query_

In [58]:
def jacard(lista, vector):

    interseccion = 0
    union = 0

    # Recorrer query y tdmatrix paralelamente
    for elem_lista, elem_vector in zip(lista, vector):
        # Intersección (1 en ambos vectores)
        if elem_lista == 1 and elem_vector == 1:
            interseccion += 1
            union += 1
        # Unión (1 en al menos uno de los vectores)
        elif elem_lista == 1 or elem_vector == 1:
            union += 1

    # Evitar división por cero
    if union == 0:
        return 0
    else:
        return interseccion / union

In [59]:
# Función para calcular la similitud de Jaccard entre cada documento y la query
def similitud(tdmatrix, query_vector):
    distancias = []
    for i, documento in enumerate(tdmatrix):
        distancia = jacard(documento, query_vector)
        distancias.append((i+1, distancia))  # Guardar el índice del documento y la distancia jacard
    return distancias
distancias = similitud(tdmatrix, query_vector)
for doc_id, distancia in distancias:
    print(f"Similitud de Jaccard con el documento {doc_id}: {distancia:.4f}")

Similitud de Jaccard con el documento 1: 0.0638
Similitud de Jaccard con el documento 2: 0.0667
Similitud de Jaccard con el documento 3: 0.0222
Similitud de Jaccard con el documento 4: 0.0000
Similitud de Jaccard con el documento 5: 0.0000
Similitud de Jaccard con el documento 6: 0.0698
Similitud de Jaccard con el documento 7: 0.0217
Similitud de Jaccard con el documento 8: 0.0455


## Paso 5: Entregar los resultados de la búsqueda al usuario



A partir de la _query_, debemos indicar al usuario cuáles documentos son los más relevantes. Se debe presentar la información en orden de relevancia.

In [60]:
# Ordenar las distancias en orden descendente de similitud de Jaccard
distancias_ordenadas = sorted(distancias, key=lambda x: x[1], reverse=True)

# Imprimir resultados ordenados
print("Similitudes de Jaccard en orden de relevancia:")
for doc_id, distancia in distancias_ordenadas:
    print(f"Similitud de Jaccard con el documento {doc_id}: {distancia:.4f}")

Similitudes de Jaccard en orden de relevancia:
Similitud de Jaccard con el documento 6: 0.0698
Similitud de Jaccard con el documento 2: 0.0667
Similitud de Jaccard con el documento 1: 0.0638
Similitud de Jaccard con el documento 8: 0.0455
Similitud de Jaccard con el documento 3: 0.0222
Similitud de Jaccard con el documento 7: 0.0217
Similitud de Jaccard con el documento 4: 0.0000
Similitud de Jaccard con el documento 5: 0.0000


## Paso 6: Cargar todas las querys
 En este paso vamos a cargar todas las querys en un archivo txt y vamos a calcular el jacard con cada una de las consultas para cada documento del corpus. Finalmente vamos a imprimir el orden de relevancia para cada consulta, usando todos los pasos anteriores

In [62]:
def cargar_queries(ruta):
    with open(ruta, 'r', encoding='utf-8') as file:
        queries = [line.strip() for line in file if line.strip()]  # Eliminar líneas vacías
    return queries

# Cargar las queries desde la ruta especificada
queries = cargar_queries('../content/queris.txt')
print("Queries cargadas:", queries)

# Función para calcular y ordenar las distancias para cada query
def calcular_similitudes_para_todas(queries, tdmatrix):
    resultados = {}
    for query in queries:
        print(f"\nProcesando query: '{query}'")
        query_vector = tdtransform(query)

        # Calcular similitudes de Jaccard entre la query y los documentos
        distancias = similitud(tdmatrix, query_vector)

        # Ordenar las distancias por relevancia (descendente)
        distancias_ordenadas = sorted(distancias, key=lambda x: x[1], reverse=True)

        # Guardar resultados en un diccionario
        resultados[query] = distancias_ordenadas

        # Imprimir los resultados para la query actual
        print(f"Resultados para la query: '{query}'")
        for doc_id, distancia in distancias_ordenadas:
            print(f"Similitud de Jaccard con el documento {doc_id}: {distancia:.4f}")

    return resultados

# Ejecución de todos los calculos
resultados_queries = calcular_similitudes_para_todas(queries, tdmatrix)


Queries cargadas: ['inteligencia artificial en medicina', 'beneficios de la educación a distancia', 'realidad aumentada en videojuegos', 'desarrollo personal y hábitos saludables', 'futuro del comercio electrónico', 'tecnologías en cine moderno', 'competencias de e-sports', 'diagnóstico con dispositivos portátiles', 'literatura de ciencia ficción', 'plataformas de streaming']

Procesando query: 'inteligencia artificial en medicina'
Resultados para la query: 'inteligencia artificial en medicina'
Similitud de Jaccard con el documento 6: 0.0698
Similitud de Jaccard con el documento 2: 0.0667
Similitud de Jaccard con el documento 1: 0.0638
Similitud de Jaccard con el documento 8: 0.0455
Similitud de Jaccard con el documento 3: 0.0222
Similitud de Jaccard con el documento 7: 0.0217
Similitud de Jaccard con el documento 4: 0.0000
Similitud de Jaccard con el documento 5: 0.0000

Procesando query: 'beneficios de la educación a distancia'
Resultados para la query: 'beneficios de la educación a 