# Ejercicio 01: Recuperación de Información Basado en el Modelo de Matriz Término-Documento

## Hernán Sánchez

En este ejercicio, trabajaremos con un corpus de documentos en formato JSON para implementar un sistema de Recuperación de Información basado en el modelo de espacio vectorial. Seguirás los siguientes pasos:

## Paso 1: Determinar un vocabulario
El primer paso es cargar el corpus en formato JSON, extraer los textos de los documentos y crear el vocabulario.

Aqui se carga el path del archivo json, es importante usar utf-8 para que no exista error al cargar el corpus.

In [5]:
import json

datos = []
with open(file='../data/01tdmatrix_corpus.json', mode='r', encoding='utf-8') as file:
    datos = json.load(file)

Imprime los datos del corpus con la etiqueta 'text', importante poner en minusculas para que no existan errores al separar por palabras.

In [6]:
print(datos[0]['text'].lower())

la inteligencia artificial continúa avanzando rápidamente, transformando sectores como la salud y las finanzas. las empresas están adoptando algoritmos de aprendizaje automático para mejorar la eficiencia. sin embargo, el desafío principal sigue siendo garantizar que las decisiones basadas en datos sean justas y no perpetúen sesgos. la ética es fundamental en este contexto.


Se divide por palabras para poder crear el vocabulario.

In [7]:
print(datos[0]['text'].lower().split())

['la', 'inteligencia', 'artificial', 'continúa', 'avanzando', 'rápidamente,', 'transformando', 'sectores', 'como', 'la', 'salud', 'y', 'las', 'finanzas.', 'las', 'empresas', 'están', 'adoptando', 'algoritmos', 'de', 'aprendizaje', 'automático', 'para', 'mejorar', 'la', 'eficiencia.', 'sin', 'embargo,', 'el', 'desafío', 'principal', 'sigue', 'siendo', 'garantizar', 'que', 'las', 'decisiones', 'basadas', 'en', 'datos', 'sean', 'justas', 'y', 'no', 'perpetúen', 'sesgos.', 'la', 'ética', 'es', 'fundamental', 'en', 'este', 'contexto.']


Se guarda las palabras en un conjunto llamado 'vocab', se imprime y se comprueba la longitud.

In [8]:
vocab = set(datos[0]['text'].lower().split())
print(vocab)
print(len(vocab))

{'están', 'basadas', 'automático', 'de', 'inteligencia', 'transformando', 'en', 'datos', 'es', 'sin', 'el', 'principal', 'ética', 'sean', 'embargo,', 'para', 'siendo', 'sesgos.', 'y', 'decisiones', 'empresas', 'las', 'garantizar', 'este', 'eficiencia.', 'no', 'que', 'aprendizaje', 'contexto.', 'fundamental', 'algoritmos', 'finanzas.', 'artificial', 'mejorar', 'adoptando', 'desafío', 'justas', 'rápidamente,', 'sigue', 'continúa', 'la', 'salud', 'perpetúen', 'sectores', 'avanzando', 'como'}
46


Se crea una lista vacia, recorre todas las entradas con la etiqueta 'text', con la funcion replace los puntos y comas lo dejamos afuera de la palabra. Finalmente, extend agrega las palabras a la lista creada.

In [9]:
vocab = []
for i in range(0,len(datos)):
    vocab.extend(datos[i]['text'].lower().replace(',','').replace('.','').split())

vocab = set(vocab)
print(len(vocab))
print(vocab)

230
{'presencial', 'accesibles', 'mundos', 'reto', 'tecnológicos', 'todo', 'visuales', 'más', 'experiencia', 'nivel', 'mercado', 'optimizando', 'dispositivos', 'cine', 'pueden', 'saludables', 'incorporando', 'nuevas', 'géneros', 'principal', 'ética', 'electrónico', 'transacciones', 'médicos', 'tratamientos', 'monitorean', 'programas', 'streaming', 'sesgos', 'importar', 'garantizar', 'aplicaciones', 'especialmente', 'ubicación', 'democratizando', 'películas', 'atraen', 'personalizadas', 'crecimiento', 'compras', 'recomendaciones', 'realidad', 'interactuar', 'mejorar', 'espectadores', 'futuro', 'demanda', 'usuario', 'hábitos', 'estudiantes', 'desafío', 'integral', 'cinematográficas', 'inmersivos', 'aunque', 'cada', 'la', 'educación', 'humanidad', 'mejorando', 'acceder', 'a', 'aquellos', 'videojuegos', 'comercio', 'completo', 'educativa', 'planetas', 'invita', 'rápidos', 'producciones', 'transformando', 'inteligencia', 'en', 'permitiendo', 'otros', 'ha', 'reflexionar', 'realistas', 'cuida

## Paso 2: Calcular una matriz término-documento
Una vez que tenemos el vocabulario, el siguiente paso es construir una **matriz término-documento**, que nos permitirá representar cada documento como un vector en el espacio de términos.

Para facilitar la generacion de la matriz TD, definimos tdtransform, se crea la lista 'doc', recorre cada palabra de 'vocab' para comprobar la existencia dentro del documento colocando si es True 1 y False 0. 

In [10]:
def tdtransform(text):
    doc = []
    for word in vocab:
        if word in text.lower().replace(',','').replace('.','').split():
           doc.append(1)
        else:
            doc.append(0)
    return doc

Inicializamos una lista vacia 'tdmatrix', aqui definimos el parametro 'text' de la funcion anterior e igualmente recorremos la longitud de los datos y agregamos el dresultado 'doc' en la lista. Imprimimos el resultado.  

In [11]:
tdmatrix = []
for i in range(0,len(datos)):
    doc = tdtransform(text=datos[i]['text'])
    tdmatrix.append(doc)

print(tdmatrix)

[[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 1, 1, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 1, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 1, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 1], [0, 0, 1, 0, 0, 1, 0, 1, 0, 1, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 

## Paso 3: Obtener una representación de una _query_ en el espacio término-documento
Ahora vamos a representar una _query_ como un vector en el mismo espacio de términos que hicimos para el corpus.

Se define una query, usando las funciones anteriormente definidas generamos la matriz TD.

In [12]:
query = "inteligencia artificial en medicina"
print(tdtransform(query))

[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]


## Paso 4: Calcular la distancia entre la _query_ y todos los documentos del corpus
Al obtener la distancia Jaccard entre la _query_ y cada documento del corpus, calculamos la relevancia que tiene cada documento para la _query_ 

Se necesita guardar el resultado del vector de la query. Necesario imprimir para verificar el resultado.

In [13]:
vec_q = tdtransform(query)
print(vec_q)

[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]


Para calcular la distancia es revelante obtener el valor de la distancia Jaccard la cual es:

Jaccard(A,B)= ∣A∩B∣ / ∣A∪B∣. 
​
Siendo A igual al conjunto de palabras de la query, y B el conjunto de palabras presentes en el corpus.

Definimos una funcion para poder clcular tanto la interseccion como la union. Tambien una condicion para evitar una divisio para 0, retornamos el resulatado de la division de la interseccion sobre la union.

In [14]:
def jaccard(vec_doc, vec_q):

    interseccion = sum(1 for a, b in zip(vec_doc, vec_q) if a == 1 and b == 1)
    union = sum(1 for a, b in zip(vec_doc, vec_q) if a == 1 or b == 1)
    
    if union == 0:
        return 0  
    
    return interseccion / union

## Paso 5: Entregar los resultados de la búsqueda al usuario
A partir de la _query_, debemos indicar al usuario cuáles documentos son los más relevantes. Se debe presentar la información en orden de relevancia.

In [18]:
similitudes_jaccard = []


for i in range(len(datos)):
    vec_doc = tdmatrix[i]
    similitud = jaccard(vec_doc, vec_q)
    similitudes_jaccard.append((i, similitud))  

similitudes_jaccard.sort(key=lambda x: x[1], reverse=True)

print("Documentos ordenados por relevancia según la similitud de Jaccard con la consulta:")
for i, similitud in similitudes_jaccard:
    print(f"Documento {i} - Similitud de Jaccard: {similitud}")
    print("Texto del documento:", datos[i]['text'])
    print("\n")

Documentos ordenados por relevancia según la similitud de Jaccard con la consulta:
Documento 5 - Similitud de Jaccard: 0.06976744186046512
Texto del documento: La ciencia ficción es uno de los géneros literarios más populares, explorando temas como el viaje en el tiempo, la inteligencia artificial y la vida en otros planetas. Este género no solo entretiene, sino que también invita a reflexionar sobre el futuro de la humanidad y las implicaciones de los avances tecnológicos.


Documento 1 - Similitud de Jaccard: 0.06666666666666667
Texto del documento: El desarrollo de videojuegos ha alcanzado un nuevo nivel con tecnologías como la realidad aumentada y la inteligencia artificial. Los jugadores ahora pueden interactuar en mundos virtuales más inmersivos. Este crecimiento también impulsa el mercado de los e-sports, donde las competencias profesionales atraen a millones de espectadores en todo el mundo.


Documento 0 - Similitud de Jaccard: 0.06382978723404255
Texto del documento: La intel