# Ejercicio 01: Recuperación de Información Basado en el Modelo de Matriz Término-Documento

En este ejercicio, trabajaremos con un corpus de documentos en formato JSON para implementar un sistema de Recuperación de Información basado en el modelo de espacio vectorial. Seguirás los siguientes pasos:

## Paso 1: Determinar un vocabulario
El primer paso es cargar el corpus en formato JSON, extraer los textos de los documentos y crear el vocabulario.

In [34]:
import json  # Importa el módulo json para trabajar con datos en JSON.

# Inicializa una lista vacía para almacenar los datos que se cargarán desde el archivo JSON.
datos = []

# Abre el archivo JSON en modo lectura ('r') con la codificación UTF-8 "español".
# 'file' es donde vamos a guardar.
with open(file='../data/01tdmatrix_corpus.json', mode='r', encoding='utf-8') as file:
    # Carga el contenido del archivo JSON en la variable 'datos' utilizando json.load().
    # utilizamos la funcion anterior para poder guardarlo como una lista de diccionarios.
    datos = json.load(file)
# Ahora, 'datos' contiene los datos del archivo JSON en formato de una lista de diccionarios.

### Imprimir el texto
Hacemos pruebas para comprobar las funciones que utilizamos

In [37]:
# Imprime el texto usando la clave "text" del primer elemento del diccionario de 'datos' en minúsculas.
print(datos[0]['text'].lower()) # La función lower() convierte el texto a minúsculas.

la inteligencia artificial continúa avanzando rápidamente, transformando sectores como la salud y las finanzas. las empresas están adoptando algoritmos de aprendizaje automático para mejorar la eficiencia. sin embargo, el desafío principal sigue siendo garantizar que las decisiones basadas en datos sean justas y no perpetúen sesgos. la ética es fundamental en este contexto.


In [39]:
print(datos[0]['text'].lower().split())# la función split() divide el texto en palabras, devolviendo una lista de palabras.

['la', 'inteligencia', 'artificial', 'continúa', 'avanzando', 'rápidamente,', 'transformando', 'sectores', 'como', 'la', 'salud', 'y', 'las', 'finanzas.', 'las', 'empresas', 'están', 'adoptando', 'algoritmos', 'de', 'aprendizaje', 'automático', 'para', 'mejorar', 'la', 'eficiencia.', 'sin', 'embargo,', 'el', 'desafío', 'principal', 'sigue', 'siendo', 'garantizar', 'que', 'las', 'decisiones', 'basadas', 'en', 'datos', 'sean', 'justas', 'y', 'no', 'perpetúen', 'sesgos.', 'la', 'ética', 'es', 'fundamental', 'en', 'este', 'contexto.']


### Creación de vocabulario
Usando las funciones antes vistas creamos el vocabulario primero de un documento y despues de todo el corpus

In [42]:
# Creamos un conjunto "vocab" de palabras únicas del texto del primer elemento de la lista datos.
vocab = set(datos[0]['text'].lower().split())# Con (set)se eliminan las duplicaciones, quedando solo palabras únicas.
print(vocab) #Imprimimos el vocabulario
print(len(vocab)) #imprimimos el tamaño del vocabulario del primer texto

{'salud', 'y', 'mejorar', 'la', 'sin', 'desafío', 'embargo,', 'rápidamente,', 'sectores', 'adoptando', 'sean', 'es', 'este', 'aprendizaje', 'como', 'continúa', 'transformando', 'automático', 'garantizar', 'las', 'que', 'el', 'basadas', 'inteligencia', 'sesgos.', 'para', 'finanzas.', 'datos', 'perpetúen', 'avanzando', 'justas', 'fundamental', 'no', 'decisiones', 'de', 'ética', 'principal', 'están', 'artificial', 'siendo', 'contexto.', 'sigue', 'empresas', 'eficiencia.', 'en', 'algoritmos'}
46


In [44]:
#Creamos una vocabulario de todo el corpus
vocab = [] # Inicializamos una lista vacía para almacenar todas las palabras del corpus
for i in range(0,len(datos)):#Recorremos sobre todos los documentos de datos
     # Creamos un conjunto de palabras en 'vocab' con palabras de cada documento, eliminando comas y puntos
    vocab.extend(datos[i]['text'].lower().replace(',','').replace('.','').split()) #Utilizamos replace para eliminar puntos y comas

vocab = set(vocab)# Convertir la lista de vocabulario en un conjunto para eliminar duplicados
print(len(vocab)) #Imprimimos el numero de elementos en vocab
print(vocab)#Imprimimos el conjuento vocab

230
{'consume', 'vez', 'géneros', 'tecnológicos', 'consumidores', 'personalizados', 'millones', 'desafío', 'habilidades', 'tecnologías', 'rápidos', 'trabajos', 'desafían', 'realistas', 'todo', 'competencias', 'compramos', 'además', 'a', 'ubicación', 'alcanzado', 'populares', 'pueden', 'distancia', 'atraen', 'especialmente', 'permitiendo', 'con', 'educativa', 'presencial', 'compras', 'datos', 'perpetúen', 'estudiantes', 'avanzando', 'impulsa', 'películas', 'fundamental', 'recomendaciones', 'enfermedades', 'hasta', 'nivel', 'realidad', 'herramientas', 'mayores', 'espectadores', 'completo', 'literarios', 'evolucionado', 'implicaciones', 'hábitos', 'crecimiento', 'accesibles', 'individual', 'personal', 'desarrollo', 'cambiado', 'muchas', 'cómo', 'enfoque', 'libros', 'mejorar', 'eficaces', 'contexto', 'educación', 'bienestar', 'pagos', 'aunque', 'adoptando', 'sean', 'experiencia', 'temas', 'vida', 'es', 'este', 'avances', 'automático', 'transformando', 'garantizar', 'optimizando', 'las', 'd

## Paso 2: Calcular una matriz término-documento
Una vez que tenemos el vocabulario, el siguiente paso es construir una **matriz término-documento**, que nos permitirá representar cada documento como un vector en el espacio de términos.

In [47]:
def tdtransform(text):#Función que recibe un texto para poder transformarlo a un vextor binario de acuerdo al vocabulario
    doc = []#Creamos una lista para almacenar el documento binario
    for word in vocab: #Iteramos sobre cada palabra del documento
        if word in text.lower().replace(',','').replace('.','').split(): # Cambiamos cada palabra del texto en minúsculas y verificamos que este sin comas ni puntos)
           doc.append(1)# Agregamos 1 si la palabra está presente
        else:
            doc.append(0)# Agrega 0 si la palabra no está presente
    return doc # Devuelve el vector binario del texto

Uso de la funcion para  tdtransform para crear la matriz término-documentos 

In [49]:
tdmatrix = [] # Inicializamos una lista para almacenar la matriz de términos-documentos
for i in range(0,len(datos)): # Iteramos sobre cada documento en datos
    doc = tdtransform(text=datos[i]['text']) # Transforma el documento en un vextor binario usando la función tdtransform
    tdmatrix.append(doc)# Agrega el vector binario a una matriz de términos-documentos
print(tdmatrix)# Imprime la matriz de términos-documentos

[[0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 1, 1, 0, 0, 0, 1, 1, 0, 1, 1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 0, 1, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 1, 1, 0, 0, 0, 1, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 1, 1, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], [0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 1, 1, 0, 0, 1, 0, 1, 0, 1, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 1, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 

## Paso 3: Obtener una representación de una _query_ en el espacio término-documento
Ahora vamos a representar una _query_ como un vector en el mismo espacio de términos que hicimos para el corpus.

In [52]:
query = "inteligencia artificial en medicina" #Definimos el query
print(tdtransform(query))# Transforma e imprime la query en un vector binario utilizando la función tdtransform
len(tdtransform(query))# Imprime la longitud del vector

[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]


230

## Paso 4: Calcular la distancia entre la _query_ y todos los documentos del corpus
Al obtener la distancia Jaccard entre la _query_ y cada documento del corpus, calculamos la relevancia que tiene cada documento para la _query_ 

In [54]:
def jaccard_distancia(query, doc): #función para calcular la distancia de Jaccard entre dos vectores binarios.
    interseccion = 0 # Contador para la intersección de conjuntos
    union=0 # Contador para la unión de conjuntos
    for i in range(len(query)): # Iteración sobre los elementos de los vectores
        if query[i] == 1 and doc[i] == 1: #Comparamos cada elemento de la query y el documento y realizamos la intersección
            interseccion+=1 #Sumamos 1 por cada vez que exista la intersección
        if query[i] == 1 or doc[i] == 1:#Comparamos cada elemento de la query y el documento y realizamos la unión
            union+=1 #Sumamos 1 por cada vez que exista la unión
            
    if union == 0: #Verificamos si la unión es igual a 0 para evitar división para cer
        return 0
    return interseccion / union # Devolvemos la división de la intersección e unión

Uso de la funcion jaccard_distanci

In [56]:
query = "inteligencia artificial en medicina"
query_vector = tdtransform(query) # Transformamos la query en vector binario

distancias = [] # Inicializamos una lista para almacenar las distancias Jaccard
for i, doc_vector in enumerate(tdmatrix):
    distancia = jaccard_distancia(query_vector, doc_vector)# Calcular distancia Jaccard entre la query y cada documento y la almacenamos en distancia
    distancias.append((i, distancia)) #Guardamos el indice del documentos y la distancia jaccard con el query en distancias

## Paso 5: Entregar los resultados de la búsqueda al usuario
A partir de la _query_, debemos indicar al usuario cuáles documentos son los más relevantes. Se debe presentar la información en orden de relevancia.

In [221]:
# Ordenar los documentos por relevancia (mayor distancia = mayor relevancia)
distancias.sort(key=lambda x: x[1], reverse=True)#Utilizamos sort para crear una lista ordenada sin crear otra, usamos lambda para poder tomar el valor de la tupla que se va a ordenar, finarlmente utilizamos reverse para invertir el orden
f=0;
# Mostrar documentos más relevantes en orden
print("Documentos ordenados por relevancia:")
for doc, distancia in distancias:# Iteramos sobre la lista ordenada de distancias
    f+=1;
    print(f"Orden de relevancia: {f}")
    print(f"Documento {doc + 1}: Distancia de Jaccard = {distancia:.5f}") # Imprimimos el índice del documento mas 1 junto con su distancia jaccard
    print(datos[doc]['text']) # Mostramos el texto del documento correspondiente
    print("-" * 50)# Imprimimos una línea para claridad visual

Documentos ordenados por relevancia:
Orden de relevancia: 1
Documento 6: Distancia de Jaccard = 0.06977
La ciencia ficción es uno de los géneros literarios más populares, explorando temas como el viaje en el tiempo, la inteligencia artificial y la vida en otros planetas. Este género no solo entretiene, sino que también invita a reflexionar sobre el futuro de la humanidad y las implicaciones de los avances tecnológicos.
--------------------------------------------------
Orden de relevancia: 2
Documento 2: Distancia de Jaccard = 0.06667
El desarrollo de videojuegos ha alcanzado un nuevo nivel con tecnologías como la realidad aumentada y la inteligencia artificial. Los jugadores ahora pueden interactuar en mundos virtuales más inmersivos. Este crecimiento también impulsa el mercado de los e-sports, donde las competencias profesionales atraen a millones de espectadores en todo el mundo.
--------------------------------------------------
Orden de relevancia: 3
Documento 1: Distancia de Jacc