### Ejercicio 01: Recuperación de Información Basado en el Modelo de Matriz Término-Documento

En este ejercicio, trabajaremos con un corpus de documentos en formato JSON para implementar un sistema de Recuperación de Información basado en el modelo de espacio vectorial. Seguirás los siguientes pasos:

#### Paso 1: Determinar un vocabulario
El primer paso es cargar el corpus en formato JSON, extraer los textos de los documentos y crear el vocabulario.


In [34]:
import json
import unicodedata

datos = []
with open(file='../data/01matriztd_corpus.json', mode='r', encoding='utf-8') as file:
    datos = json.load(file)

#### Paso 1.1: Verificar y visualizar que el contenido se haya extraido correctamente
Una vez cargado el corpus, procedemos a imprimir el contenido de los documentos y a comprobar que sea el mismo que nuestra data.

In [35]:
for documento in datos:
    print(documento['text'].lower())
    print("\n" + "-"*50 + "\n")

la inteligencia artificial continúa avanzando rápidamente, transformando sectores como la salud y las finanzas. las empresas están adoptando algoritmos de aprendizaje automático para mejorar la eficiencia. sin embargo, el desafío principal sigue siendo garantizar que las decisiones basadas en datos sean justas y no perpetúen sesgos. la ética es fundamental en este contexto.

--------------------------------------------------

el desarrollo de videojuegos ha alcanzado un nuevo nivel con tecnologías como la realidad aumentada y la inteligencia artificial. los jugadores ahora pueden interactuar en mundos virtuales más inmersivos. este crecimiento también impulsa el mercado de los e-sports, donde las competencias profesionales atraen a millones de espectadores en todo el mundo.

--------------------------------------------------

el comercio electrónico ha cambiado la forma en que compramos. con la creciente demanda de compras en línea, las empresas están optimizando sus plataformas digita

#### Paso 1.2: Limpieza de texto 
Creamos una función para limpiar el texto de cada documento y eliminar caracteres especiales.

In [36]:
def limpiar_texto(texto):
    # Eliminar acentos usando unicodedata
    texto = ''.join(
        (c for c in unicodedata.normalize('NFD', texto) if unicodedata.category(c) != 'Mn')
    )
    texto = texto.lower()  # Convertir a minúsculas
    # Reemplazar caracteres de puntuación individualmente usando replace
    for punct in [',', '.', '!', '?', ';', ':', '-', '(', ')', '[', ']', '{', '}', '"', "'"]:
        texto = texto.replace(punct, '')  # Eliminar puntuación específica
    texto = texto.replace('  ', ' ')  # Reemplazar espacios múltiples con un solo espacio
    return texto

#### Paso 1.3: Obtención del vocabulario
Se inicializa un conjunto vacío vocabulario. Se procede a realizar la limpieza del texto de cada documento y se añaden las palabras únicas al conjunto, eliminando duplicados.

In [37]:
# Obtener el vocabulario global del corpus
vocabulario = set()
for documento in datos:
    palabras = limpiar_texto(documento['text']).split()
    vocabulario.update(palabras)  # Agregar palabras al vocabulario sin duplicados

In [38]:
print(f"Vocabulario total: {len(vocabulario)} términos.")
print(vocabulario)

Vocabulario total: 229 términos.
{'etica', 'optimizando', 'consumidores', 'ha', 'usuario', 'y', 'recomendaciones', 'realidad', 'accesibles', 'prometedor', 'futuro', 'decisiones', 'peliculas', 'transacciones', 'personalizadas', 'finanzas', 'nuevas', 'sin', 'desde', 'aquellos', 'adopcion', 'interactuar', 'populares', 'eficiencia', 'ciencia', 'explorando', 'buscan', 'sectores', 'herramientas', 'vez', 'libros', 'el', 'programas', 'enfermedades', 'mejores', 'anos', 'cambiado', 'nuevo', 'implicaciones', 'dispositivos', 'streaming', 'diagnostican', 'de', 'desafio', 'sean', 'alcanzado', 'algoritmos', 'tecnologias', 'profesionales', 'plataformas', 'beneficios', 'uno', 'trabajos', 'empresas', 'estudiantes', 'producciones', 'entretiene', 'portatiles', 'digitales', 'justas', 'bienestar', 'solo', 'aumentada', 'este', 'facilitando', 'incorporando', 'viaje', 'especialmente', 'planetas', 'ahora', 'a', 'realistas', 'invita', 'cuidados', 'democratizando', 'para', 'forma', 'temas', 'importar', 'garantiza

### Paso 2: Calcular una matriz término-documento
Una vez que tenemos el vocabulario, el siguiente paso es construir una matriz término-documento, que nos permitirá representar cada documento como un vector en el espacio de términos.

In [39]:
def crear_vector(texto, vocabulario):
    # Vector de frecuencia binaria (presencia/ausencia)
    texto = limpiar_texto(texto)
     # Crea un vector que representa la presencia (1) o ausencia (0) de cada palabra del vocabulario en el texto
    vector = [1 if palabra in texto.split() else 0 for palabra in vocabulario]
    return vector

In [40]:
# Generar la matriz término-documento para todo el corpus
# Cada fila representa un documento y cada columna representa una palabra del vocabulario
matriz_td = [crear_vector(documento['text'], vocabulario) for documento in datos]
print("Matriz Término-Documento creada.")
print(matriz_td)

Matriz Término-Documento creada.
[[1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 1, 1, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 1, 0, 0, 1, 0, 1, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 1, 1, 0, 0, 0, 1, 0, 1, 1, 0, 0, 0, 1, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0], [0, 0, 0, 1, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 1, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 

### Paso 3: Obtener una representación de una query en el espacio término-documento
Ahora vamos a representar una *query* como un vector en el mismo espacio de términos que hicimos para el corpus.

In [41]:
# Paso 3: Representar la query como un vector
query = "inteligencia artificial en medicina"
vector_query = crear_vector(query, vocabulario)
print("Vector de la query:")
print(vector_query)

Vector de la query:
[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]


### Paso 4: Calcular la distancia entre la query y todos los documentos del corpus
Al obtener la distancia Jaccard entre la *query* y cada documento del corpus, calculamos la relevancia que tiene cada documento para la *query*.

In [42]:
def distancia_jaccard(vector_a, vector_b):
    # Calcular intersección y unión
    interseccion = sum([1 for a, b in zip(vector_a, vector_b) if a == 1 and b == 1])
    union = sum([1 for a, b in zip(vector_a, vector_b) if a == 1 or b == 1])
    return interseccion / union if union != 0 else 0

### Paso 4.1: Calcular y mostrar similitudes de Jaccard
A continuación, se calcula la similitud de Jaccard entre la consulta y cada documento, imprimiendo los resultados y el texto de cada documento.

In [43]:
# Calcular la similitud y presentar los resultados
for i, doc_vector in enumerate(matriz_td):
    similitud = distancia_jaccard(vector_query, doc_vector)
    print(f"Documento {i + 1} (Similitud Jaccard: {similitud:.4f})")
    print(f"Texto: {datos[i]['text']}")
    print("\n" + "-"*50 + "\n")

Documento 1 (Similitud Jaccard: 0.0638)
Texto: La inteligencia artificial continúa avanzando rápidamente, transformando sectores como la salud y las finanzas. Las empresas están adoptando algoritmos de aprendizaje automático para mejorar la eficiencia. Sin embargo, el desafío principal sigue siendo garantizar que las decisiones basadas en datos sean justas y no perpetúen sesgos. La ética es fundamental en este contexto.

--------------------------------------------------

Documento 2 (Similitud Jaccard: 0.0667)
Texto: El desarrollo de videojuegos ha alcanzado un nuevo nivel con tecnologías como la realidad aumentada y la inteligencia artificial. Los jugadores ahora pueden interactuar en mundos virtuales más inmersivos. Este crecimiento también impulsa el mercado de los e-sports, donde las competencias profesionales atraen a millones de espectadores en todo el mundo.

--------------------------------------------------

Documento 3 (Similitud Jaccard: 0.0222)
Texto: El comercio electróni

### Paso 5: Entregar los resultados de la búsqueda al usuario
A partir de la *query*, debemos indicar al usuario cuáles documentos son los más relevantes. Se debe presentar la información en orden de relevancia.

In [44]:
resultados = []
# Calcular la similitud y almacenar los resultados
for i, doc_vector in enumerate(matriz_td):
    similitud = distancia_jaccard(vector_query, doc_vector)
    resultados.append((i + 1, similitud, datos[i]['text']))  # Almacena el índice, similitud y texto

### Paso 5.1: Ordenamiento de Resultados
Se obtiene una la lista ordenada de resultados, que contiene pares de documentos y sus similitudes, de mayor a menor. Utiliza *sorted* con una función *lambda* para ordenar por el segundo elemento (similitud) y *reverse=True* para un orden descendente.

In [45]:
# Ordenar los resultados por similitud (de mayor a menor)
resultados_ordenados = sorted(resultados, key=lambda x: x[1], reverse=True)

In [46]:
# Mostrar los resultados ordenados
print(f"\nResultado de Búsqueda para la query: '{query}'")
for idx, sim, text in resultados_ordenados:
    print(f"Documento {idx} (Similitud Jaccard: {sim:.4f})")
print("\n")


Resultado de Búsqueda para la query: 'inteligencia artificial en medicina'
Documento 6 (Similitud Jaccard: 0.0698)
Documento 2 (Similitud Jaccard: 0.0667)
Documento 1 (Similitud Jaccard: 0.0638)
Documento 8 (Similitud Jaccard: 0.0455)
Documento 3 (Similitud Jaccard: 0.0222)
Documento 7 (Similitud Jaccard: 0.0217)
Documento 4 (Similitud Jaccard: 0.0000)
Documento 5 (Similitud Jaccard: 0.0000)




### Paso 5.2: Carga de Consultas
Se abre un archivo JSON que a su vez contiene una lista de consultas en la variable *consultas*.

In [47]:
# Cargar las consultas desde el archivo JSON
with open('../data/01queries.json', 'r', encoding='utf-8') as file:
    consultas = json.load(file)

# Verificar que las consultas se han cargado correctamente
print("Consultas cargadas:")
for query in consultas:
    print(query)

Consultas cargadas:
inteligencia artificial en medicina
beneficios de la educación a distancia
realidad aumentada en videojuegos
desarrollo personal y hábitos saludables
futuro del comercio electrónico
tecnologías en cine moderno
competencias de e-sports
diagnóstico con dispositivos portátiles
literatura de ciencia ficción
plataformas de streaming


### Paso 5.3: Calculo y Ranking de Resultados por Similitud (Jaccard) para cada Consulta
Se recorre cada consulta dentro del archivo *01queries.json*, crea su vector de consulta, calcula la similitud con cada documento usando Jaccard, ordena los resultados de mayor a menor y presenta los documentos en orden de relevancia para cada consulta.

In [48]:
# Calcular la similitud y presentar los resultados para cada consulta
for query in consultas:
    
    vector_query = crear_vector(query, vocabulario)
    print(f"\nResultado de Búsqueda para la query: '{query}'")

    resultados = []
    # Calcular la similitud y almacenar los resultados
    for i, doc_vector in enumerate(matriz_td):
        similitud = distancia_jaccard(vector_query, doc_vector)
        resultados.append((i + 1, similitud, datos[i]['text']))  # Almacena el índice, similitud y texto

    # Mostrar los resultados ordenados
    for idx, sim, text in resultados_ordenados:
        print(f"Documento {idx} (Similitud Jaccard: {sim:.4f})")


Resultado de Búsqueda para la query: 'inteligencia artificial en medicina'
Documento 6 (Similitud Jaccard: 0.0698)
Documento 2 (Similitud Jaccard: 0.0667)
Documento 1 (Similitud Jaccard: 0.0638)
Documento 8 (Similitud Jaccard: 0.0455)
Documento 3 (Similitud Jaccard: 0.0222)
Documento 7 (Similitud Jaccard: 0.0217)
Documento 4 (Similitud Jaccard: 0.0000)
Documento 5 (Similitud Jaccard: 0.0000)

Resultado de Búsqueda para la query: 'beneficios de la educación a distancia'
Documento 6 (Similitud Jaccard: 0.0698)
Documento 2 (Similitud Jaccard: 0.0667)
Documento 1 (Similitud Jaccard: 0.0638)
Documento 8 (Similitud Jaccard: 0.0455)
Documento 3 (Similitud Jaccard: 0.0222)
Documento 7 (Similitud Jaccard: 0.0217)
Documento 4 (Similitud Jaccard: 0.0000)
Documento 5 (Similitud Jaccard: 0.0000)

Resultado de Búsqueda para la query: 'realidad aumentada en videojuegos'
Documento 6 (Similitud Jaccard: 0.0698)
Documento 2 (Similitud Jaccard: 0.0667)
Documento 1 (Similitud Jaccard: 0.0638)
Documento 8