# Ejercicio 01: Recuperación de Información Basado en el Modelo de Matriz Término-Documento

En este ejercicio, trabajaremos con un corpus de documentos en formato JSON para implementar un sistema de Recuperación de Información basado en el modelo de espacio vectorial. Seguirás los siguientes pasos:

## Paso 1: Determinar un vocabulario
El primer paso es cargar el corpus en formato JSON, extraer los textos de los documentos y crear el vocabulario.

In [22]:
import json

datos = []
with open(file='../data/01tdmatrix_corpus.json', mode='r', encoding='utf-8') as file:
    datos = json.load(file)

In [23]:
print(datos[2]['text'].lower())

el comercio electrónico ha cambiado la forma en que compramos. con la creciente demanda de compras en línea, las empresas están optimizando sus plataformas digitales para ofrecer mejores experiencias de usuario. desde recomendaciones personalizadas hasta pagos rápidos, los avances en tecnología siguen facilitando las transacciones diarias de los consumidores.


In [24]:
print(datos[0]['text'].lower().split())

['la', 'inteligencia', 'artificial', 'continúa', 'avanzando', 'rápidamente,', 'transformando', 'sectores', 'como', 'la', 'salud', 'y', 'las', 'finanzas.', 'las', 'empresas', 'están', 'adoptando', 'algoritmos', 'de', 'aprendizaje', 'automático', 'para', 'mejorar', 'la', 'eficiencia.', 'sin', 'embargo,', 'el', 'desafío', 'principal', 'sigue', 'siendo', 'garantizar', 'que', 'las', 'decisiones', 'basadas', 'en', 'datos', 'sean', 'justas', 'y', 'no', 'perpetúen', 'sesgos.', 'la', 'ética', 'es', 'fundamental', 'en', 'este', 'contexto.']


In [25]:
vocab = set(datos[0]['text'].lower().split())
print(vocab)
print(len(vocab))

{'aprendizaje', 'las', 'adoptando', 'desafío', 'están', 'embargo,', 'continúa', 'sesgos.', 'avanzando', 'para', 'fundamental', 'eficiencia.', 'ética', 'sectores', 'como', 'siendo', 'y', 'decisiones', 'la', 'de', 'inteligencia', 'rápidamente,', 'algoritmos', 'es', 'transformando', 'finanzas.', 'este', 'contexto.', 'empresas', 'en', 'basadas', 'mejorar', 'automático', 'perpetúen', 'no', 'datos', 'sigue', 'justas', 'que', 'garantizar', 'el', 'principal', 'sean', 'salud', 'artificial', 'sin'}
46


In [26]:
vocab = []
for i in range(0,len(datos)):
    vocab.extend(datos[i]['text'].lower().replace(',','').replace('.','').split())

vocab = set(vocab)
print(len(vocab))
print(vocab)

230
{'cinematográficas', 'especialmente', 'cada', 'e-sports', 'personas', 'continúa', 'atraen', 'digitales', 'inmersivos', 'beneficios', 'mejorando', 'presencial', 'nivel', 'hábitos', 'libros', 'mejores', 'habilidades', 'sobre', 'su', 'aunque', 'visuales', 'buscan', 'cambiando', 'géneros', 'y', 'decisiones', 'implicaciones', 'además', 'inteligencia', 'competencias', 'trabajos', 'enfoque', 'transformando', 'empresas', 'llevado', 'plataformas', 'utilizan', 'años', 'interacción', 'series', 'alcanzado', 'hasta', 'compramos', 'creciente', 'humanidad', 'promueven', 'ahora', 'el', 'donde', 'permitido', 'planetas', 'prometedor', 'diarias', 'cursos', 'público', 'facilitando', 'sus', 'cómo', 'forma', 'línea', 'permitiendo', 'las', 'falta', 'monitorean', 'finanzas', 'género', 'usuario', 'otros', 'estudiantes', 'aquellos', 'consumidores', 'avanzando', 'telemedicina', 'cuidados', 'ciencia', 'completo', 'se', 'enfermedades', 'ética', 'tecnología', 'efectos', 'como', 'más', 'desafían', 'escenas', 'vi

## Paso 2: Calcular una matriz término-documento
Una vez que tenemos el vocabulario, el siguiente paso es construir una **matriz término-documento**, que nos permitirá representar cada documento como un vector en el espacio de términos.

In [27]:
def tdtransform(text):
    doc = []
    for word in vocab:
        if word in text.lower().replace(',','').replace('.','').split():
           doc.append(1)
        else:
            doc.append(0)
    return doc

In [28]:
tdmatrix = []
for i in range(0,len(datos)):
    doc = tdtransform(text=datos[i]['text'])
    tdmatrix.append(doc)

print(tdmatrix)

[[0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 1, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 1, 1, 0, 0, 0, 1, 1, 0, 0, 1, 0, 0, 1, 1, 1, 0, 1, 0, 0, 1, 0, 0, 1, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 1, 1, 1, 0, 0, 1, 0, 0, 0, 1], [0, 0, 0, 1, 0, 0, 1, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 1, 0, 0, 

## Paso 3: Obtener una representación de una _query_ en el espacio término-documento
Ahora vamos a representar una _query_ como un vector en el mismo espacio de términos que hicimos para el corpus.

In [29]:
query = "avances"
print(tdtransform(query))

query_vector = tdtransform(query)

[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]


## Paso 4: Calcular la distancia entre la _query_ y todos los documentos del corpus
Al obtener la distancia Jaccard entre la _query_ y cada documento del corpus, calculamos la relevancia que tiene cada documento para la _query_ 

In [30]:
def jaccard_distance(doc_vector, query_vector):
    intersection = sum(1 for d, q in zip(doc_vector, query_vector) if d == 1 and q == 1)
    union = sum(1 for d, q in zip(doc_vector, query_vector) if d == 1 or q == 1)
    return 1.0 if union == 0 else 1 - (intersection / union)

## Paso 5: Entregar los resultados de la búsqueda al usuario
A partir de la _query_, debemos indicar al usuario cuáles documentos son los más relevantes. Se debe presentar la información en orden de relevancia.

In [31]:
# calcular distancias
distances = [(i, jaccard_distance(doc_vector, query_vector)) for i, doc_vector in enumerate(tdmatrix)]

# Ordenar documentos por distancia
sorted_distances = sorted(distances, key=lambda x: x[1])

# imprimir resultados
print("Documentos más relevantes para la consulta:")
for doc_index, distance in sorted_distances:
    print(f"Documento {doc_index} - Distancia Jaccard: {distance}")
    print(f"Texto: {datos[doc_index]['text']}")
    print("-" * 50)


Documentos más relevantes para la consulta:
Documento 2 - Distancia Jaccard: 0.9761904761904762
Texto: El comercio electrónico ha cambiado la forma en que compramos. Con la creciente demanda de compras en línea, las empresas están optimizando sus plataformas digitales para ofrecer mejores experiencias de usuario. Desde recomendaciones personalizadas hasta pagos rápidos, los avances en tecnología siguen facilitando las transacciones diarias de los consumidores.
--------------------------------------------------
Documento 5 - Distancia Jaccard: 0.9761904761904762
Texto: La ciencia ficción es uno de los géneros literarios más populares, explorando temas como el viaje en el tiempo, la inteligencia artificial y la vida en otros planetas. Este género no solo entretiene, sino que también invita a reflexionar sobre el futuro de la humanidad y las implicaciones de los avances tecnológicos.
--------------------------------------------------
Documento 7 - Distancia Jaccard: 0.9761904761904762
Tex