# Ejercicio 01: Recuperación de Información Basado en el Modelo de Matriz Término-Documento

En este ejercicio, trabajaremos con un corpus de documentos en formato JSON para implementar un sistema de Recuperación de Información basado en el modelo de espacio vectorial. Seguirás los siguientes pasos:

## Paso 1: Determinar un vocabulario
El primer paso es cargar el corpus en formato JSON, extraer los textos de los documentos y crear el vocabulario.

In [2]:
import json # Importa el módulo JSON para trabajar con archivos en formato JSON

# Inicializa una lista vacía para almacenar los datos del corpus
datos = []
with open(file='../data/01tdmatrix_corpus.json', mode='r', encoding='utf-8') as file:
        # Carga el contenido del archivo JSON y lo guarda en la lista 'datos'
    datos = json.load(file)

In [4]:
print(datos[0]['text'].lower())  # Imprime el texto del primer documento en minúsculas para normalizar el contenido.

la inteligencia artificial continúa avanzando rápidamente, transformando sectores como la salud y las finanzas. las empresas están adoptando algoritmos de aprendizaje automático para mejorar la eficiencia. sin embargo, el desafío principal sigue siendo garantizar que las decisiones basadas en datos sean justas y no perpetúen sesgos. la ética es fundamental en este contexto.


In [5]:
print(datos[0]['text'].lower().split())  # Imprime una lista de palabras del texto en minúsculas del primer documento, separadas por espacios.

['la', 'inteligencia', 'artificial', 'continúa', 'avanzando', 'rápidamente,', 'transformando', 'sectores', 'como', 'la', 'salud', 'y', 'las', 'finanzas.', 'las', 'empresas', 'están', 'adoptando', 'algoritmos', 'de', 'aprendizaje', 'automático', 'para', 'mejorar', 'la', 'eficiencia.', 'sin', 'embargo,', 'el', 'desafío', 'principal', 'sigue', 'siendo', 'garantizar', 'que', 'las', 'decisiones', 'basadas', 'en', 'datos', 'sean', 'justas', 'y', 'no', 'perpetúen', 'sesgos.', 'la', 'ética', 'es', 'fundamental', 'en', 'este', 'contexto.']


In [6]:
vocab = set(datos[0]['text'].lower().split())  # Crea un conjunto único de palabras en minúsculas del primer documento.
print(vocab)  # Imprime el conjunto de palabras únicas (vocabulario) del primer documento.
print(len(vocab))  # Imprime el número de palabras únicas en el vocabulario.

{'algoritmos', 'sesgos.', 'embargo,', 'sigue', 'de', 'rápidamente,', 'continúa', 'transformando', 'decisiones', 'inteligencia', 'datos', 'avanzando', 'eficiencia.', 'en', 'artificial', 'no', 'es', 'mejorar', 'y', 'sin', 'desafío', 'salud', 'adoptando', 'como', 'las', 'sectores', 'automático', 'siendo', 'fundamental', 'empresas', 'el', 'que', 'contexto.', 'están', 'justas', 'basadas', 'finanzas.', 'aprendizaje', 'ética', 'la', 'sean', 'perpetúen', 'para', 'principal', 'garantizar', 'este'}
46


In [7]:
vocab = []  # Inicializa una lista vacía para almacenar todas las palabras de todos los documentos.

# Itera sobre cada documento en el corpus para extraer el texto
for i in range(0, len(datos)):
    # Convierte el texto a minúsculas, elimina comas y puntos, divide en palabras y añade a 'vocab'
    vocab.extend(datos[i]['text'].lower().replace(',', '').replace('.', '').split())

vocab = set(vocab)  # Convierte la lista de palabras en un conjunto para eliminar duplicados y formar el vocabulario único.
print(len(vocab))  # Imprime la cantidad total de palabras únicas en el vocabulario.
print(vocab)  # Imprime el vocabulario único como conjunto de palabras.


230
{'personal', 'géneros', 'atraen', 'accesibles', 'nivel', 'todo', 'continúa', 'transacciones', 'decisiones', 'beneficios', 'inteligencia', 'tecnológicos', 'en', 'artificial', 'diagnostican', 'tratamientos', 'e-sports', 'flexibilidad', 'utilizan', 'distancia', 'explorando', 'desafío', 'sin', 'forma', 'libros', 'también', 'pagos', 'médicos', 'finanzas', 'a', 'digitales', 'mundos', 'invita', 'usuario', 'reflexionar', 'integral', 'empresas', 'el', 'millones', 'importar', 'su', 'aumentada', 'justas', 'hasta', 'rápidos', 'electrónico', 'presencial', 'años', 'cuándo', 'la', 'experiencia', 'personalizados', 'virtuales', 'siguen', 'aquellos', 'promueven', 'este', 'línea', 'populares', 'de', 'recomendaciones', 'ha', 'saludables', 'aplicaciones', 'datos', 'avanzando', 'está', 'con', 'inmersivos', 'interactuar', 'crecimiento', 'muchas', 'un', 'películas', 'nuevo', 'aumento', 'telemedicina', 'salud', 'rápidamente', 'una', 'cada', 'como', 'pueden', 'humanidad', 'las', 'ahora', 'llevado', 'uno', '

## Paso 2: Calcular una matriz término-documento
Una vez que tenemos el vocabulario, el siguiente paso es construir una **matriz término-documento**, que nos permitirá representar cada documento como un vector en el espacio de términos.

In [8]:
def tdtransform(text):
    # Inicializa una lista vacía para representar la presencia o ausencia de cada palabra en el vocabulario.
    doc = []

    # Recorre cada palabra en el vocabulario único
    for word in vocab:
        # Verifica si la palabra del vocabulario está presente en el texto dado
        # Convierte el texto a minúsculas, elimina comas y puntos, y lo divide en palabras
        if word in text.lower().replace(',', '').replace('.', '').split():
            doc.append(1)  # Añade 1 si la palabra está presente en el texto
        else:
            doc.append(0)  # Añade 0 si la palabra no está presente en el texto

    # Devuelve el vector binario resultante que representa el texto en el espacio del vocabulario
    return doc

In [9]:
tdmatrix = []  # Inicializa una lista vacía para almacenar los vectores término-documento de cada documento.

# Itera sobre cada documento en el corpus
for i in range(0, len(datos)):
    # Convierte el texto del documento actual en un vector binario usando la función tdtransform
    doc = tdtransform(text=datos[i]['text'])
    # Añade el vector binario del documento a la matriz término-documento
    tdmatrix.append(doc)

# Imprime la matriz término-documento completa, donde cada fila representa un documento y cada columna una palabra del vocabulario
print(tdmatrix)


[[0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 1, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 1, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0], [0, 0, 1, 0, 1, 1, 0, 0, 0, 0, 1, 0, 1, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 1, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 1, 1, 1, 1, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 1, 1, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 

## Paso 3: Obtener una representación de una _query_ en el espacio término-documento
Ahora vamos a representar una _query_ como un vector en el mismo espacio de términos que hicimos para el corpus.

In [11]:
query = "inteligencia artificial en medicina"  # Define la query de búsqueda como una cadena de texto.
print(tdtransform(query))  # Convierte la query en un vector binario usando tdtransform y lo imprime.

[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]


## Paso 4: Calcular la distancia entre la _query_ y todos los documentos del corpus
Al obtener la distancia Jaccard entre la _query_ y cada documento del corpus, calculamos la relevancia que tiene cada documento para la _query_ 

In [13]:
from typing import List  # Importa 'List' del módulo 'typing' para especificar listas en anotaciones de tipo.

In [14]:
# Función para calcular la distancia de Jaccard entre dos vectores binarios
def jaccard_distance(vector1: List[int], vector2: List[int]) -> float:
    # Calcula la intersección y la unión de los vectores
    intersection = sum(1 for i in range(len(vector1)) if vector1[i] == 1 and vector2[i] == 1)
    union = sum(1 for i in range(len(vector1)) if vector1[i] == 1 or vector2[i] == 1)
    # Retorna la distancia de Jaccard
    return 1 - (intersection / union) if union != 0 else 1  # Evita división por cero

In [16]:
# Define una lista de queries específicas relacionadas con distintos temas de interés
queries = [
    "Inteligencia artificial en medicina",
    "beneficios de la educación a distancia",
    "realidad aumentada en videojuegos",
    "desarrollo personal y habitos saludables",
    "futuro del comercio electrónico",
    "tecnologías en cine moderno",
    "competencias de e-sports",
    "diagnostico con dispositivos portátiles",
    "literatura de ciencia ficción",
    "plataformas de streaming"
]

# Convierte cada query en un vector binario usando la función 'tdtransform'
query_vectors = [tdtransform(query) for query in queries]

# Itera sobre cada query y su correspondiente vector para imprimir resultados
for i, query_vector in enumerate(query_vectors):
    # Imprime el número de la query y su texto original
    print(f"Query {i + 1} - '{queries[i]}':")
    # Imprime el vector binario que representa la query en el espacio término-documento
    print(query_vector)
    print()  # Línea en blanco para separar visualmente los resultados de cada query


Query 1 - 'Inteligencia artificial en medicina':
[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]

Query 2 - 'beneficios de la educación a distancia':
[0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0,

In [23]:
# Diccionario para almacenar los resultados sin imprimir
results = {}

# Para cada query en la lista de vectores de queries
for query_index, query_vector in enumerate(query_vectors):
    # Inicializa una lista para almacenar distancias de Jaccard de la query actual con cada documento
    distances = []
    
    # Itera sobre cada documento en la matriz término-documento junto con su índice
    for doc_index, doc_vector in enumerate(tdmatrix):
        # Calcula la distancia de Jaccard entre el vector de la query actual y el vector del documento
        distance = jaccard_distance(query_vector, doc_vector)
        # Añade una tupla con el índice del documento y su distancia de Jaccard a la lista de distancias
        distances.append((doc_index, distance))
    
    # Ordena los documentos por relevancia (menor distancia de Jaccard)
    sorted_distances = sorted(distances, key=lambda x: x[1])

    # Almacena los resultados ordenados en el diccionario 'results'
    results[queries[query_index]] = sorted_distances



## Paso 5: Entregar los resultados de la búsqueda al usuario
A partir de la _query_, debemos indicar al usuario cuáles documentos son los más relevantes. Se debe presentar la información en orden de relevancia.

In [22]:
# Visualizar los resultados de búsqueda almacenados en 'results'
for query, sorted_distances in results.items():
    print(f"Resultados de búsqueda para Query: '{query}'")
    
    # Muestra solo el índice del documento y su distancia de Jaccard en orden de relevancia
    print("Documentos más relevantes:")
    for rank, (doc_index, distance) in enumerate(sorted_distances, start=1):
        print(f"{rank}. Documento {doc_index} - Distancia Jaccard: {distance:.4f}")
    
    print()  # Línea en blanco para separar resultados entre queries



Resultados de búsqueda para Query: 'Inteligencia artificial en medicina'
Documentos más relevantes:
1. Documento 5 - Distancia Jaccard: 0.9302
2. Documento 1 - Distancia Jaccard: 0.9333
3. Documento 0 - Distancia Jaccard: 0.9362
4. Documento 7 - Distancia Jaccard: 0.9545
5. Documento 2 - Distancia Jaccard: 0.9778
6. Documento 6 - Distancia Jaccard: 0.9783
7. Documento 3 - Distancia Jaccard: 1.0000
8. Documento 4 - Distancia Jaccard: 1.0000

Resultados de búsqueda para Query: 'beneficios de la educación a distancia'
Documentos más relevantes:
1. Documento 3 - Distancia Jaccard: 0.8571
2. Documento 5 - Distancia Jaccard: 0.9333
3. Documento 7 - Distancia Jaccard: 0.9333
4. Documento 4 - Distancia Jaccard: 0.9348
5. Documento 6 - Distancia Jaccard: 0.9348
6. Documento 1 - Distancia Jaccard: 0.9362
7. Documento 2 - Distancia Jaccard: 0.9565
8. Documento 0 - Distancia Jaccard: 0.9600

Resultados de búsqueda para Query: 'realidad aumentada en videojuegos'
Documentos más relevantes:
1. Docume