# Ejercicio 01: Recuperación de Información Basado en el Modelo de Matriz Término-Documento

En este ejercicio, trabjamos con un corpus de documentos en formato JSON para implementar un sistema de Recuperación de Información basado en el modelo de espacio vectorial. Seguirás los siguientes pasos:

## Paso 1: Determinar un vocabulario

El primer paso es cargar el corpus en formato JSON, extraer los textos de los documentos y crear el vocabulario.

In [1]:
import json

# Cargar el corpus
datos = []
with open(file='../data/01tdmatrix_corpus.json', mode='r', encoding='utf-8') as file:
    datos = json.load(file)

In [2]:
# Obtener y procesar el texto del primer documento
print(datos[0]['text'].lower())

la inteligencia artificial continúa avanzando rápidamente, transformando sectores como la salud y las finanzas. las empresas están adoptando algoritmos de aprendizaje automático para mejorar la eficiencia. sin embargo, el desafío principal sigue siendo garantizar que las decisiones basadas en datos sean justas y no perpetúen sesgos. la ética es fundamental en este contexto.


In [3]:
print(datos[0]['text'].lower().split())

['la', 'inteligencia', 'artificial', 'continúa', 'avanzando', 'rápidamente,', 'transformando', 'sectores', 'como', 'la', 'salud', 'y', 'las', 'finanzas.', 'las', 'empresas', 'están', 'adoptando', 'algoritmos', 'de', 'aprendizaje', 'automático', 'para', 'mejorar', 'la', 'eficiencia.', 'sin', 'embargo,', 'el', 'desafío', 'principal', 'sigue', 'siendo', 'garantizar', 'que', 'las', 'decisiones', 'basadas', 'en', 'datos', 'sean', 'justas', 'y', 'no', 'perpetúen', 'sesgos.', 'la', 'ética', 'es', 'fundamental', 'en', 'este', 'contexto.']


In [4]:
# Crear el vocabulario
vocab = set(datos[0]['text'].lower().split())
print("vocab = ", vocab)
print("vocab = ", len(vocab))

vocab =  {'sesgos.', 'desafío', 'datos', 'finanzas.', 'ética', 'basadas', 'las', 'la', 'justas', 'mejorar', 'sectores', 'aprendizaje', 'automático', 'contexto.', 'principal', 'están', 'adoptando', 'en', 'fundamental', 'salud', 'algoritmos', 'sigue', 'artificial', 'para', 'garantizar', 'transformando', 'es', 'empresas', 'que', 'avanzando', 'sean', 'de', 'el', 'decisiones', 'como', 'y', 'embargo,', 'perpetúen', 'inteligencia', 'continúa', 'eficiencia.', 'sin', 'rápidamente,', 'no', 'este', 'siendo'}
vocab =  46


In [5]:
# Obtener vocabulario de todos los documentos
vocab = [] # Inicializar como conjunto para evitar duplicados
for i in range(0,len(datos)):
    vocab.extend(datos[i]['text'].lower().replace(',','').replace('.','').split())

vocab = set(vocab)
print(len(vocab))
print(vocab)

230
{'cómo', 'invita', 'muchas', 'desafío', 'aquellos', 'ética', 'acceso', 'las', 'cursos', 'implicaciones', 'buscan', 'aumentada', 'mercado', 'creciente', 'están', 'mundo', 'en', 'salud', 'su', 'personal', 'rápidamente', 'beneficios', 'garantizar', 'digitales', 'incorporando', 'desarrollo', 'temas', 'sino', 'competencias', 'médicos', 'libros', 'crecimiento', 'estudiantes', 'sean', 'ofrecer', 'diarias', 'planetas', 'democratizando', 'saludables', 'futuro', 'visuales', 'integral', 'inteligencia', 'individual', 'sus', 'portátiles', 'hasta', 'uno', 'recomendaciones', 'se', 'dispositivos', 'no', 'experiencias', 'desafían', 'ciencia', 'habilidades', 'ahora', 'eficiencia', 'permitido', 'reto', 'videojuegos', 'pagos', 'educación', 'plataformas', 'basadas', 'mayores', 'la', 'escenas', 'además', 'enfoque', 'facilitando', 'más', 'optimizando', 'avances', 'producciones', 'aprendizaje', 'series', 'sesgos', 'los', 'principal', 'ubicación', 'real', 'artificial', 'tiempo', 'tratan', 'cuándo', 'para',

## Paso 2: Calcular una matriz término-documento

Una vez que tenemos el vocabulario, el siguiente paso es construir una matriz término-documento, que nos permitirá representar cada documento como un vector en el espacio de términos.

In [6]:
def tdtransform(text):
    doc = []
    
    for word in vocab:
        if word in text.lower().replace(',','').replace('.','').split():
            doc.append(1) # Presente en el documento
        else:
            doc.append(0) # No presente en el documento
    return doc

In [7]:
# Crear la matriz término-documento
tdmatrix = []

for i in range(0, len(datos)):
    doc = tdtransform(text = datos[i]['text'])
    tdmatrix.append(doc)

print("tdmatrix = ", tdmatrix)

tdmatrix =  [[0, 0, 0, 1, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 1, 1, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 1, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 1, 0, 0, 1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0], [0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 1, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 

## Paso 3: Obtener una representación de una query en el espacio término-documento

Ahora vamos a representar una query como un vector en el mismo espacio de término que hicimos para el corpus.

In [8]:
# Representar una consulta
query = "inteligencia artificial en medicina"
print("", tdtransform(query))

 [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]


## Paso 4: Calcular la distancia entre la query y todos los documentos del corpus

Al obtener la distancia Jaccard entre la query y cada documento del corpus, calculamos la revelancia que tiene cada documento para la query.

In [10]:
# Función para calcular la distancia Jaccard
def jaccard_distance(set1: set, set2: set) -> float:
    """
    Calcula la distancia de Jaccard entre dos conjuntos.
    Parámetros
    ----------
        set1 : set
            Primer conjunto.
        set2 : set
            Segundo conjunto.
    
    Retorna
    -------
        distance : float
            Distancia de Jaccard en el rango [0, 1].
    """
    intersection = len(set1.intersection(set2))
    union = len(set1.union(set2))
    
    if union == 0:
        return 1.0  # Si ambos conjuntos están vacíos, la distancia es 1
    
    distance = 1 - (intersection / union)
    return distance

In [11]:
# Representar la query como vector
query_set = set(query.lower().replace(',', '').replace('.', '').split())

In [16]:
# Calcular la distancia Jaccard entre la query y cada documento
jaccard_distances = []
for i in range(len(tdmatrix)):
    doc_set = set(datos[i]['text'].lower().replace(',', '').replace('.', '').split())
    distance = jaccard_distance(query_set, doc_set)
    jaccard_distances.append(distance)

## Paso 5: Entregar los resultados de la búsqueda al usuario

A partir de la _query_, debemos indicar al usuario cuáles documentos son los más relevantes. Se debe presentar la información en orden de relevancia.

In [17]:
# Asociar cada documento con su distancia Jaccard
documentos_relevancia = list(enumerate(jaccard_distances))

In [18]:
# Ordenar los documentos por relevancia (distancia Jaccard menor a mayor)
documentos_relevancia.sort(key=lambda x: x[1])

In [19]:
# Imprimir los resultados ordenados
print("Los resultados ordenados son:")
for index, distancia in documentos_relevancia:
    print(f"Documento {index + 1}: Distancia Jaccard = {distancia}")
    print(f"Texto: {datos[index]['text']}\n")

Los resultados ordenados son:
Documento 6: Distancia Jaccard = 0.9302325581395349
Texto: La ciencia ficción es uno de los géneros literarios más populares, explorando temas como el viaje en el tiempo, la inteligencia artificial y la vida en otros planetas. Este género no solo entretiene, sino que también invita a reflexionar sobre el futuro de la humanidad y las implicaciones de los avances tecnológicos.

Documento 2: Distancia Jaccard = 0.9333333333333333
Texto: El desarrollo de videojuegos ha alcanzado un nuevo nivel con tecnologías como la realidad aumentada y la inteligencia artificial. Los jugadores ahora pueden interactuar en mundos virtuales más inmersivos. Este crecimiento también impulsa el mercado de los e-sports, donde las competencias profesionales atraen a millones de espectadores en todo el mundo.

Documento 1: Distancia Jaccard = 0.9361702127659575
Texto: La inteligencia artificial continúa avanzando rápidamente, transformando sectores como la salud y las finanzas. Las e