# Ejercicio 04: Evaluación de un Sistema de Recuperación de Información



El objetivo de este ejercicio es evaluar la efectividad de un sistema de recuperación de información utilizando métricas como *precisión*, *recall*, *F1-score*, *Mean Average Precision (MAP)* y *Normalized Discounted Cumulative Gain (nDCG)*.



Seguirás los siguientes pasos:

Descripción del Ejercicio



1. Proporcionar un Conjunto de Datos:

    * Corpus de Documentos: Utiliza el corpus del ejercicio anterior o un nuevo conjunto de documentos.

    * Consultas: Define un conjunto de consultas específicas.

    * Juicios de Relevancia: Proporciona una lista de qué documentos son relevantes para cada consulta.



2. Calcular Resultados de Búsqueda:

    * Obten los resultados ordenados de dos sistemas de recuperación para cada consulta.



3. Calcular las Métricas de Evaluación:

    * Calcular las siguientes métricas para cada sistema y consulta:

        * Precisión en el top-k (Prec@k)

        * Recall

        * F1-score

        * Mean Average Precision (MAP)

        * nDCG



4. Análisis y Comparación:

    * Comparar los resultados de los dos sistemas utilizando las métricas calculadas.

    * Discutir cuál sistema es más efectivo y por qué.

In [7]:
import xml.etree.ElementTree as ET
import numpy as np

# Paso 1: Proporcionar un Conjunto de Datos
# Leer y parsear el archivo XML para obtener el corpus de documentos
def parse_corpus(xml_file):
    tree = ET.parse(xml_file)
    root = tree.getroot()
    corpus = {}
    for doc in root.findall('document'):
        doc_id = int(doc.get('id'))
        title = doc.find('title').text
        keywords = doc.find('keywords').text
        author = doc.find('author').text
        date = doc.find('date').text
        keyword_set = process_text(keywords)
        corpus[doc_id] = {
            'title': title,
            'keywords': keyword_set,
            'author': author,
            'date': date
        }
    return corpus

# Función para procesar el texto y extraer palabras clave, útil para manejar el corpus y las consultas
def process_text(text):
    text = text.lower()
    import re
    text = re.sub(r'[^a-záéíóúñü]+', ' ', text)
    tokens = text.strip().split()
    return set(tokens)

# Leer el corpus de documentos
corpus = parse_corpus('/kaggle/input/03ranking-corpus-xml/03ranking_corpus.xml')

# Consultas: Definir un conjunto de consultas específicas
queries = {
    'query1': process_text("salud mental en estudiantes"),
    'query2': process_text("tecnología médica preventiva"),
}

# Juicios de Relevancia: Proporcionar una lista de qué documentos son relevantes para cada consulta
relevance_judgments = {
    'query1': {13, 14, 8, 7, 12},
    'query2': {1, 10, 20},
}

# Paso 2: Calcular Resultados de Búsqueda
# Simular los resultados de búsqueda de dos sistemas de recuperación para cada consulta
system_1_results = {
    'query1': [13, 7, 12, 4, 8],
    'query2': [1, 10, 3, 20, 11],
}

system_2_results = {
    'query1': [14, 8, 13, 7, 6],
    'query2': [10, 1, 20, 22, 30],
}

# Paso 3: Calcular las Métricas de Evaluación
# Definir funciones para calcular Precisión en el top-k (Prec@k), Recall, F1-score, MAP y nDCG

# Precisión en el top-k (Prec@k)
def precision_at_k(results, relevant_set, k):
    retrieved_set = set(results[:k])
    return len(retrieved_set & relevant_set) / k

# Recall
def recall(results, relevant_set):
    retrieved_set = set(results)
    return len(retrieved_set & relevant_set) / len(relevant_set)

# F1-score
def f1_score_custom(precision, recall):
    if precision + recall == 0:
        return 0
    return 2 * (precision * recall) / (precision + recall)

# Mean Average Precision (MAP)
def average_precision(results, relevant_set):
    relevant_count = 0
    sum_precision = 0.0
    for i, doc_id in enumerate(results, start=1):
        if doc_id in relevant_set:
            relevant_count += 1
            sum_precision += relevant_count / i
    return sum_precision / len(relevant_set) if relevant_set else 0

def mean_average_precision(system_results, queries, relevance_judgments):
    avg_precision_total = 0
    for query, results in system_results.items():
        relevant_set = relevance_judgments.get(query, set())
        avg_precision_total += average_precision(results, relevant_set)
    return avg_precision_total / len(queries)

# Normalized Discounted Cumulative Gain (nDCG)
def dcg_at_k(results, relevant_set, k):
    dcg = 0.0
    for i in range(min(k, len(results))):
        if results[i] in relevant_set:
            dcg += 1 / np.log2(i + 2)
    return dcg

def ndcg_at_k(results, relevant_set, k):
    dcg_max = dcg_at_k(list(relevant_set), relevant_set, k)
    if not dcg_max:
        return 0
    return dcg_at_k(results, relevant_set, k) / dcg_max

# Paso 4: Análisis y Comparación
# Comparar los resultados de los dos sistemas utilizando las métricas calculadas y calcular promedios

for system_name, system_results in [('System 1', system_1_results), ('System 2', system_2_results)]:
    print(f"\n--- Metrics for {system_name} ---")
    
    # Acumuladores de métricas para calcular el promedio al final
    total_prec_k = total_recall = total_f1 = total_map = total_ndcg = 0
    num_queries = len(queries)

    for query, relevant_set in relevance_judgments.items():
        results = system_results[query]
        
        # Calcular cada métrica para la consulta actual
        prec_k = precision_at_k(results, relevant_set, k=5)
        rec = recall(results, relevant_set)
        f1 = f1_score_custom(prec_k, rec)
        map_score = mean_average_precision({query: results}, {query: relevant_set}, relevance_judgments)
        ndcg = ndcg_at_k(results, relevant_set, k=5)
        
        # Sumar las métricas para calcular promedios más adelante
        total_prec_k += prec_k
        total_recall += rec
        total_f1 += f1
        total_map += map_score
        total_ndcg += ndcg

        # Mostrar métricas por consulta para cada sistema
        print(f"\nResults for {query}:")
        print(f"  Prec@5: {prec_k:.4f}")
        print(f"  Recall: {rec:.4f}")
        print(f"  F1-Score: {f1:.4f}")
        print(f"  MAP: {map_score:.4f}")
        print(f"  nDCG@5: {ndcg:.4f}")

    # Calcular promedios de métricas para cada sistema
    avg_prec_k = total_prec_k / num_queries
    avg_recall = total_recall / num_queries
    avg_f1 = total_f1 / num_queries
    avg_map = total_map / num_queries
    avg_ndcg = total_ndcg / num_queries

    # Mostrar promedios finales para el sistema actual
    print(f"\nAverage Metrics for {system_name}:")
    print(f"  Avg Prec@5: {avg_prec_k:.4f}")
    print(f"  Avg Recall: {avg_recall:.4f}")
    print(f"  Avg F1-Score: {avg_f1:.4f}")
    print(f"  Avg MAP: {avg_map:.4f}")
    print(f"  Avg nDCG@5: {avg_ndcg:.4f}")



--- Metrics for System 1 ---

Results for query1:
  Prec@5: 0.8000
  Recall: 0.8000
  F1-Score: 0.8000
  MAP: 0.7600
  nDCG@5: 0.8539

Results for query2:
  Prec@5: 0.6000
  Recall: 1.0000
  F1-Score: 0.7500
  MAP: 0.9167
  nDCG@5: 0.9675

Average Metrics for System 1:
  Avg Prec@5: 0.7000
  Avg Recall: 0.9000
  Avg F1-Score: 0.7750
  Avg MAP: 0.8383
  Avg nDCG@5: 0.9107

--- Metrics for System 2 ---

Results for query1:
  Prec@5: 0.8000
  Recall: 0.8000
  F1-Score: 0.8000
  MAP: 0.8000
  nDCG@5: 0.8688

Results for query2:
  Prec@5: 0.6000
  Recall: 1.0000
  F1-Score: 0.7500
  MAP: 1.0000
  nDCG@5: 1.0000

Average Metrics for System 2:
  Avg Prec@5: 0.7000
  Avg Recall: 0.9000
  Avg F1-Score: 0.7750
  Avg MAP: 0.9000
  Avg nDCG@5: 0.9344
