# Ejercicio 01: Recuperación de Información Basado en el Modelo de Matriz Término-Documento

En este ejercicio, trabajaremos con un corpus de documentos en formato JSON para implementar un sistema de Recuperación de Información basado en el modelo de espacio vectorial. Seguirás los siguientes pasos:

## Paso 1: Determinar un vocabulario
El primer paso es cargar el corpus en formato JSON, extraer los textos de los documentos y crear el vocabulario.

In [1]:
import json

datos = []
with open(file='../data/01tdmatrix_corpus.json', mode='r', encoding='utf-8') as file:
    datos = json.load(file)

In [2]:
print(datos[0]['text'].lower())

la inteligencia artificial continúa avanzando rápidamente, transformando sectores como la salud y las finanzas. las empresas están adoptando algoritmos de aprendizaje automático para mejorar la eficiencia. sin embargo, el desafío principal sigue siendo garantizar que las decisiones basadas en datos sean justas y no perpetúen sesgos. la ética es fundamental en este contexto.


In [3]:
print(datos[0]['text'].lower().split())

['la', 'inteligencia', 'artificial', 'continúa', 'avanzando', 'rápidamente,', 'transformando', 'sectores', 'como', 'la', 'salud', 'y', 'las', 'finanzas.', 'las', 'empresas', 'están', 'adoptando', 'algoritmos', 'de', 'aprendizaje', 'automático', 'para', 'mejorar', 'la', 'eficiencia.', 'sin', 'embargo,', 'el', 'desafío', 'principal', 'sigue', 'siendo', 'garantizar', 'que', 'las', 'decisiones', 'basadas', 'en', 'datos', 'sean', 'justas', 'y', 'no', 'perpetúen', 'sesgos.', 'la', 'ética', 'es', 'fundamental', 'en', 'este', 'contexto.']


In [4]:
vocab = set(datos[0]['text'].lower().split())
print(vocab)
print(len(vocab))

{'siendo', 'avanzando', 'sean', 'en', 'empresas', 'para', 'basadas', 'garantizar', 'sin', 'perpetúen', 'como', 'las', 'sesgos.', 'aprendizaje', 'este', 'fundamental', 'desafío', 'están', 'es', 'contexto.', 'inteligencia', 'y', 'el', 'que', 'continúa', 'transformando', 'la', 'artificial', 'finanzas.', 'justas', 'sigue', 'automático', 'rápidamente,', 'salud', 'datos', 'decisiones', 'ética', 'embargo,', 'sectores', 'adoptando', 'no', 'principal', 'eficiencia.', 'de', 'algoritmos', 'mejorar'}
46


`Fragmento de codigo para obtener el vocabulario final`

In [6]:
vocab = []
for i in range(0,len(datos)):
    vocab.extend(datos[i]['text'].lower().replace(',','').replace('.','').split())

vocab = set(vocab)
print(len(vocab))
print(vocab)

230
{'vez', 'sesgos', 'siendo', 'electrónico', 'tiempo', 'especialmente', 'aunque', 'escenas', 'con', 'competencias', 'acceso', 'en', 'democratizando', 'empresas', 'todo', 'géneros', 'garantizar', 'línea', 'optimizando', 'interactuar', 'este', 'desafío', 'están', 'está', 'incorporando', 'viaje', 'virtuales', 'sobre', 'tratan', 'producciones', 'calidad', 'ubicación', 'uno', 'prioridad', 'cambiado', 'evolucionado', 'tratamientos', 'compras', 'los', 'impulsa', 'hasta', 'individual', 'eficiencia', 'ciencia', 'salud', 'demanda', 'más', 'personal', 'series', 'interacción', 'años', 'populares', 'sectores', 'herramientas', 'cambiando', 'flexibilidad', 'principal', 'comercio', 'telemedicina', 'ha', 'jugadores', 'como', 'mejorar', 'trabajos', 'dispositivos', 'avanzando', 'siguen', 'experiencias', 'sean', 'ficción', 'sino', 'educativa', 'convertido', 'para', 'explorando', 'realidad', 'ahora', 'utilizan', 'películas', 'programas', 'monitorean', 'cine', 'fundamental', 'importar', 'temas', 'platafor

## Paso 2: Calcular una matriz término-documento
Una vez que tenemos el vocabulario, el siguiente paso es construir una **matriz término-documento**, que nos permitirá representar cada documento como un vector en el espacio de términos.

In [7]:
def tdtransform(text):
    doc = []
    for word in vocab:
        if word in text.lower().replace(',','').replace('.','').split():
           doc.append(1)
        else:
            doc.append(0)
    return doc

In [19]:
tdmatrix = []
for i in range(0,len(datos)):
    doc = tdtransform(text=datos[i]['text'])
    tdmatrix.append(doc)

print(tdmatrix)

[[0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 1, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 1, 1, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 1, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 1, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 1, 0, 1, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0], [0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 1, 0, 0, 1, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 

`Verificar que todos los documentos tengan la misma longitud del vocabulario`

In [20]:
for doc in tdmatrix:
    print(len(doc))

230
230
230
230
230
230
230
230


## Paso 3: Obtener una representación de una _query_ en el espacio término-documento
Ahora vamos a representar una _query_ como un vector en el mismo espacio de términos que hicimos para el corpus.

In [29]:
query = "inteligencia artificial en medicina"
query_transmorfada = tdtransform(query)
print(query_transmorfada)

[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]


`Verificar que la query tiene el mismo tamaño del vocabulario`

In [30]:
print(len(query_transmorfada))

230


## Paso 4: Calcular la distancia entre la _query_ y todos los documentos del corpus
Al obtener la distancia Jaccard entre la _query_ y cada documento del corpus, calculamos la relevancia que tiene cada documento para la _query_ 

#### **Función `similitud_jaccard`**

Esta función recibe dos parámetros:

- `query`: Un vector de 0's y 1's que representa la consulta.
- `doc`: Un vector que 0's y 1's  representa un documento del corpus.

#### **Retorno**
Devuelve la similitud de Jaccard entre la consulta y el documento como un número flotante. Si los vectores no tienen la misma longitud, imprime un mensaje de error y retorna 0.


In [31]:
def similitud_jaccard(query, doc):
    if len(query) != len(doc):
        print("ERROR: La query y el documento deben tener la misma longitud")
        return 0
    
    interseccion = 0
    union = 0
    
    for i, j in zip(query, doc):
        
        if i==1 and j==1: #Interseccion
            interseccion += 1
        
        if i==1 or j==1: #Union
            union += 1
    
    if union != 0:
        jaccard = float(interseccion/union)
    else:
        jaccard = 0
    
    return jaccard

#### **Función `obtener_relevancia`**

Esta función recibe dos parámetros:

- `td_query`: La consulta a evaluar.
- `arr_tdmatrix`: Un arreglo de documentos.

Tanto td_query como arr_tdmatrix son el resultado de haber transformado la query y los documentos con la funcion tdtransform().

#### **Retorno**
Devuelve un DataFrame que contiene dos columnas: "Documento" y "Dist_jaccard", ordenado por la distancia de Jaccard de manera descendente, mostrando la relevancia de cada documento en relación con la consulta.

In [33]:
import pandas as pd

def obtener_relevancia(td_query, arr_tdmatrix):

    resultados = []

    for i, doc in enumerate(arr_tdmatrix):
        
        num_doc = f"Doc-0{i}"
        
        dist_jaccard = similitud_jaccard(td_query, doc)
        
        resultados.append({"Documento": num_doc,
                           "Dist_jaccard": dist_jaccard
                           })
    
    df_resultados_relevancia = pd.DataFrame(resultados)
    
    df_resultados_relevancia = df_resultados_relevancia.sort_values(by="Dist_jaccard", ascending=False).reset_index(drop=True)
    
    return df_resultados_relevancia

## Paso 5: Entregar los resultados de la búsqueda al usuario
A partir de la _query_, debemos indicar al usuario cuáles documentos son los más relevantes. Se debe presentar la información en orden de relevancia.

In [34]:
df_ranking = obtener_relevancia(query_transmorfada, tdmatrix)

`Resultados en orden de relevancia obtenidos`

In [35]:
df_ranking

Unnamed: 0,Documento,Dist_jaccard
0,Doc-05,0.069767
1,Doc-01,0.066667
2,Doc-00,0.06383
3,Doc-07,0.045455
4,Doc-02,0.022222
5,Doc-06,0.021739
6,Doc-03,0.0
7,Doc-04,0.0
