# Ejercicio 01: Recuperación de Información Basado en el Modelo de Matriz Término-Documento

En este ejercicio, trabajaremos con un corpus de documentos en formato JSON para implementar un sistema de Recuperación de Información basado en el modelo de espacio vectorial. Seguirás los siguientes pasos:

## Paso 1: Determinar un vocabulario

El primer paso es cargar el corpus en formato JSON, extraer los textos de los documentos y crear el vocabulario.

In [1]:
import json

# Inicializamos una lista vacía para almacenar los datos que se leerán del archivo JSON
datos = []

# Abrimos el archivo JSON ubicado en Google Drive en modo lectura ('r') y con codificación UTF-8
# Este archivo contiene la base de datos o corpus necesario para el ejercicio
with open(file='/content/drive/MyDrive/Universidad/Recuperacion informacion/Deberes/Ejercicio 01: Recuperación de Información Basado en el Modelo de Matriz Término-Documento/data/01tdmatrix_corpus.json', mode='r', encoding='utf-8') as file:

    # Cargamos el contenido del archivo JSON en la lista 'datos'
    datos = json.load(file)


In [2]:
datos

[{'id': 1,
  'date': '2024-10-21',
  'text': 'La inteligencia artificial continúa avanzando rápidamente, transformando sectores como la salud y las finanzas. Las empresas están adoptando algoritmos de aprendizaje automático para mejorar la eficiencia. Sin embargo, el desafío principal sigue siendo garantizar que las decisiones basadas en datos sean justas y no perpetúen sesgos. La ética es fundamental en este contexto.',
  'keywords': ['inteligencia artificial',
   'salud',
   'finanzas',
   'algoritmos',
   'ética']},
 {'id': 2,
  'date': '2024-10-21',
  'text': 'El desarrollo de videojuegos ha alcanzado un nuevo nivel con tecnologías como la realidad aumentada y la inteligencia artificial. Los jugadores ahora pueden interactuar en mundos virtuales más inmersivos. Este crecimiento también impulsa el mercado de los e-sports, donde las competencias profesionales atraen a millones de espectadores en todo el mundo.',
  'keywords': ['videojuegos',
   'realidad aumentada',
   'inteligencia 

In [3]:
# Imprime el contenido del campo 'text' en minúsculas del primer elemento en la lista 'datos'
print(datos[0]['text'].lower())

la inteligencia artificial continúa avanzando rápidamente, transformando sectores como la salud y las finanzas. las empresas están adoptando algoritmos de aprendizaje automático para mejorar la eficiencia. sin embargo, el desafío principal sigue siendo garantizar que las decisiones basadas en datos sean justas y no perpetúen sesgos. la ética es fundamental en este contexto.


In [4]:
# Convierte el texto del primer documento en un conjunto de palabras únicas en minúsculas
# Primero convierte el texto a minúsculas y luego lo divide en palabras individuales con 'split()'
vocab = set(datos[0]['text'].lower().split())

# Imprime el vocabulario único encontrado en el primer documento
print(vocab)

# Imprime la cantidad total de palabras únicas (tamaño del vocabulario) en el primer documento
print(len(vocab))


{'continúa', 'la', 'transformando', 'basadas', 'ética', 'como', 'empresas', 'para', 'principal', 'en', 'sesgos.', 'automático', 'mejorar', 'aprendizaje', 'algoritmos', 'eficiencia.', 'que', 'sectores', 'están', 'siendo', 'finanzas.', 'este', 'inteligencia', 'rápidamente,', 'adoptando', 'garantizar', 'sigue', 'las', 'y', 'decisiones', 'datos', 'es', 'contexto.', 'desafío', 'justas', 'avanzando', 'artificial', 'fundamental', 'no', 'perpetúen', 'el', 'sin', 'sean', 'de', 'embargo,', 'salud'}
46


In [5]:
# Inicializa una lista vacía para almacenar todas las palabras de todos los documentos en 'datos'
vocab = []

# Itera a través de cada documento en 'datos'
for i in range(0, len(datos)):

    # Convierte el texto de cada documento a minúsculas, elimina comas y puntos
    # Luego divide el texto en palabras y las agrega a la lista 'vocab'
    vocab.extend(datos[i]['text'].lower().replace(',', '').replace('.', '').split())

# Convierte la lista 'vocab' en un conjunto para obtener solo las palabras únicas (eliminando duplicados)
vocab = set(vocab)

# Imprime el número total de palabras únicas en todo el corpus
print(len(vocab))

# Imprime el vocabulario único de todo el corpus
print(vocab)


230
{'la', 'como', 'una', 'en', 'sesgos', 'ubicación', 'forma', 'automático', 'médicos', 'mejorar', 'videojuegos', 'transformado', 'mercado', 'aumentada', 'también', 'mayores', 'personal', 'ofrecer', 'contexto', 'promueven', 'distancia', 'inteligencia', 'todo', 'futuro', 'dispositivos', 'medicina', 'permitido', 'sigue', 'convertido', 'usuario', 'las', 'saludables', 'consume', 'trabajos', 'nivel', 'siguen', 'aplicaciones', 'desafío', 'diarias', 'justas', 'películas', 'tecnologías', 'literarios', 'aunque', 'eficiencia', 'avanzadas', 'experiencia', 'individual', 'permitiendo', 'género', 'mundos', 'buscan', 'desde', 'series', 'rápidos', 'línea', 'vez', 'continúa', 'alcanzado', 'profesionales', 'tecnología', 'cómo', 'personas', 'basadas', 'ética', 'cursos', 'tratamientos', 'especialmente', 'humanidad', 'falta', 'impulsa', 'crecimiento', 'ficción', 'invita', 'aprendizaje', 'inmersivos', 'viaje', 'ha', 'producciones', 'años', 'nuevo', 'desafían', 'mejores', 'utilizan', 'prometedor', 'llevado'

## Paso 2: Calcular una matriz término-documento

Una vez que tenemos el vocabulario, el siguiente paso es construir una matriz término-documento, que nos permitirá representar cada documento como un vector en el espacio de términos.

In [6]:
# Define una función 'tdtransform' que transforma un texto en un vector de términos en formato binario
def tdtransform(text):

    # Inicializa una lista vacía para almacenar el vector binario del documento
    doc = []

    # Itera sobre cada palabra en el vocabulario global 'vocab'
    for word in vocab:

        # Verifica si la palabra actual está en el texto, después de convertirlo a minúsculas,
        # eliminando comas y puntos, y dividiéndolo en palabras
        if word in text.lower().replace(',', '').replace('.', '').split():

            # Si la palabra está presente en el texto, añade un '1' al vector binario
            doc.append(1)
        else:

            # Si la palabra no está presente, añade un '0' al vector binario
            doc.append(0)

    # Devuelve el vector binario representando la presencia o ausencia de cada palabra del vocabulario en el texto
    return doc


In [7]:
# Inicializa una lista vacía para almacenar la matriz término-documento
tdmatrix = []

# Itera a través de cada documento en 'datos'
for i in range(0, len(datos)):

    # Transforma el texto del documento actual en un vector binario usando la función 'tdtransform'
    doc = tdtransform(text=datos[i]['text'])

    # Agrega el vector binario del documento a la matriz término-documento
    tdmatrix.append(doc)

# Imprime la matriz término-documento completa, donde cada fila representa un documento
# y cada columna indica la presencia (1) o ausencia (0) de una palabra en el vocabulario
print(tdmatrix)


[[1, 1, 0, 1, 1, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 1, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 1, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0], [1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 1, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 

## Paso 3: Obtener una representación de una query en el espacio término-documento
Ahora vamos a representar una query como un vector en el mismo espacio de términos que hicimos para el corpus.

In [8]:
# Define una consulta de búsqueda como texto
query = "inteligencia artificial en medicina"

# Imprime el vector binario correspondiente a la consulta usando la función 'tdtransform'
print(tdtransform(query))


[0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]


# Paso 4: Calcular la distancia entre la query y todos los documentos del corpus

Al obtener la distancia Jaccard entre la query y cada documento del corpus, calculamos la relevancia que tiene cada documento para la query

In [13]:
# Función para decolcer las distancias jaccard de la consulta dentro de cada documento
def consulta(query):
    # Calcula el vector de términos para la consulta
    query_vector = tdtransform(query)

    # Inicializa una lista vacía para almacenar las distancias de Jaccard
    distances = [len(tdmatrix)]

    # Itera a través de cada vector de términos en la matriz término-documento
    for i in range(len(tdmatrix)):
        # Calcula la distancia de Jaccard y la añade a la lista
        distance = jaccard_distance(query_vector, tdmatrix[i])
        distances.append(distance)

    # Devuelve la lista de distancias
    return distances


#funcion para calcular la distancia de jaccard
def jaccard_distance(vec1, vec2):
    # Inicializa contadores para la intersección y la unión
    interseccion = 0
    union = 0

    # Verifica que ambos vectores tengan la misma longitud
    if len(vec1) != len(vec2):
        return -1  # Retorna -1 si los vectores no coinciden en longitud

    # Itera sobre los elementos de los vectores
    for i in range(len(vec1)):
        # Cuenta la intersección: ambos vectores tienen 1 en la misma posición
        if vec1[i] == 1 and vec2[i] == 1:
            interseccion += 1
        # Cuenta la unión: al menos uno de los vectores tiene 1 en la posición
        if vec1[i] == 1 or vec2[i] == 1:
            union += 1

    # Manejo de caso donde la unión es 0 para evitar división por cero
    if union == 0:
        return -1  # Retorna -1 si no hay elementos en común

    # Imprime el número de intersecciones y uniones para depuración
    #print(f"Intersección: {interseccion}, Unión: {union}")

    # Retorna el coeficiente de Jaccard (intersección / unión)
    return interseccion / union


In [10]:
# Calcula el vector de términos para la consulta
query_vector = tdtransform(query)

distances = consulta(query)

# Imprime la distancia de Jaccard de la consulta con cada documento
for i, dist in enumerate(distances):
    print(f"Distancia Jaccard entre la consulta y el documento {i}: {dist}")

Distancia Jaccard entre la consulta y el documento 0: 8
Distancia Jaccard entre la consulta y el documento 1: 0.06382978723404255
Distancia Jaccard entre la consulta y el documento 2: 0.06666666666666667
Distancia Jaccard entre la consulta y el documento 3: 0.022222222222222223
Distancia Jaccard entre la consulta y el documento 4: 0.0
Distancia Jaccard entre la consulta y el documento 5: 0.0
Distancia Jaccard entre la consulta y el documento 6: 0.06976744186046512
Distancia Jaccard entre la consulta y el documento 7: 0.021739130434782608
Distancia Jaccard entre la consulta y el documento 8: 0.045454545454545456


# Paso 5: Entregar los resultados de la búsqueda al usuario

A partir de la query, debemos indicar al usuario cuáles documentos son los más relevantes. Se debe presentar la información en orden de relevancia.

In [11]:
def obtener_documentos_mas_relevantes(distances, n):
    # Combina las distancias con sus índices
    index_distance_pairs = list(enumerate(distances))

    # Filtra distancias no válidas (por ejemplo, -1)
    valid_pairs = [(index, dist) for index, dist in index_distance_pairs if dist != -1]

    # Ordena las distancias de mayor a menor
    valid_pairs.sort(key=lambda x: x[1], reverse=True)

    # Extrae solo los pares (índice, distancia) de los documentos más relevantes
    top_pairs = valid_pairs[:n]

    return top_pairs



In [12]:
# Realiza la consulta
distances = consulta(query)

# Obtener el documento más relevante (índice y distancia)
documento_mas_relevante = obtener_documentos_mas_relevantes(distances, 1)
print(f"Documento más relevante: Índice: {documento_mas_relevante[0][0]}, Distancia Jaccard: {documento_mas_relevante[0][1]}")

# Obtener los 4 documentos más relevantes (índices y distancias)
documentos_mas_relevantes = obtener_documentos_mas_relevantes(distances, 4)
print("Los 4 documentos más relevantes son:")
for indice, distancia in documentos_mas_relevantes:
    print(f"Índice: {indice}, Distancia Jaccard: {distancia}")


Documento más relevante: Índice: 0, Distancia Jaccard: 8
Los 4 documentos más relevantes son:
Índice: 0, Distancia Jaccard: 8
Índice: 6, Distancia Jaccard: 0.06976744186046512
Índice: 2, Distancia Jaccard: 0.06666666666666667
Índice: 1, Distancia Jaccard: 0.06382978723404255
