In [1]:
import numpy as np
import pandas as pd

In [2]:
def precision(relevance_query):
    """
    Calcula la precisión de un query de relevancia.
    
    Parámetros:
    - relevance_query (list): Una lista con valores de relevancia binaria.
    
    Devuelve:
    - precision (float): El score de precisión del query.
    """
    relevance_array = np.array(relevance_query)
    precision = np.sum(relevance_array == 1) / len(relevance_array)
    return precision

# Ejemplo de la tarea
relevance_query_1 = [0, 0, 0, 1]
precision(relevance_query_1)    # En este caso, la precisión debería ser 0.25

0.25

In [3]:
def precision_at_k(relevance_query, k):
    """
    Calcula la precisión en k para un query de relevancia.
    
    Parámetros:
    - relevance_query (list): Una lista con valores de relevancia binaria.
    - k (int): El número de resultados principales a considerar.
    
    Devuelve:
    - precision_at_k (float): El score de precisión en k del query.
    """
    relevance_array = np.array(relevance_query)
    precision_at_k = np.sum(relevance_array[:k] == 1) / k
    return precision_at_k

# Ejemplo de la tarea
relevance_query_1 = [0, 0, 0, 1]
k = 1
precision_at_k(relevance_query_1, k)    # En este caso, la precisión en k debería ser 0.0

0.0

In [4]:
def recall_at_k(relevance_query, number_relevant_docs, k):
    """
    Calcula el recall en k para un query de relevancia.
    
    Parámetros:
    - relevance_query (list): Una lista con valores de relevancia binaria.
    - number_relevant_docs (int): El número de documentos relevantes.
    - k (int): El número de resultados principales a considerar.
    
    Devuelve:
    - recall_at_k (float): El score de recall en k del query.
    """
    relevance_array = np.array(relevance_query)
    recall_at_k = np.sum(relevance_array[:k] == 1) / number_relevant_docs
    return recall_at_k

# Ejemplo de la tarea
relevance_query_1 = [0, 0, 0, 1]
k = 1
number_relevant_docs = 4
recall_at_k(relevance_query_1, number_relevant_docs, k)    # En este caso, el recall en k debería ser 0.0

0.0

In [5]:
def average_precision(relevance_query):
    """
    Calcula el average precision de un query de relevancia.
    
    Parámetros:
    - relevance_query (list): Una lista con valores de relevancia binaria.
    
    Devuelve:
    - average_precision (float): El score de average precision del query.
    """
    relevance_array = np.array(relevance_query)
    relevant_ranks = np.where(relevance_array == 1)[0] + 1
    precisions_at_k = [precision_at_k(relevance_query, k) for k in relevant_ranks]
    average_precision = np.sum(precisions_at_k) / np.sum(relevance_array)
    return average_precision

# Ejemplo de la tarea
relevance_query_2 = [0, 1, 0, 1, 1, 1, 1]
average_precision(relevance_query_2)    # En este caso, el average precision debería ser 0.5961904

0.5961904761904762

In [6]:
def mean_average_precision(relevance_queries):
    """
    Calcula el mean average precision de un conjunto de queries de relevancia.
    
    Parámetros:
    - relevance_queries (list): Una lista de vectores binarios, siendo cada
    vector el resultado de la consulta de un query de relevancia binaria.
    
    Devuelve:
    - mean_average_precision (float): El score de mean average precision del
    conjunto de queries.
    """
    mean_average_precision = np.mean([average_precision(q) for q in relevance_queries])
    return mean_average_precision

# Ejemplo mío usando las dos queries de la tarea definidas hasta ahora
relevance_queries = [relevance_query_1, relevance_query_2]
mean_average_precision(relevance_queries)

0.4230952380952381

In [7]:
def dcg_at_k(relevance_query, k):
    """
    Calcula la ganancia acumulada descontada en k para un query de relevancia.
    
    Parámetros:
    - relevance_query (list): Una lista de números naturales que representan
    valores de relevancia.
    - k (int): El número de resultados principales a considerar.
    
    Devuelve:
    - dcg_at_k (float): El score de la ganancia acumulada descontada en k del
    query.
    """
    REL_i = np.array(relevance_query)
    discount_factor = np.array([1 / np.log2(np.max([i, 2])) for i in range(1, len(REL_i) + 1)])
    gain = np.multiply(REL_i, discount_factor)
    dcg_at_k = np.sum(gain[:k])
    return dcg_at_k

# Ejemplo de la tarea
relevance_query_3 = [4, 4, 3, 0, 0, 1, 3, 3, 3, 0]
k = 6
dcg_at_k(relevance_query_3, k)    # En este caso, la ganancia acumulada descontada en k debería ser 10.27964

10.279642067948915

In [8]:
def ndcg_at_k(relevance_query, k):
    """
    Calcula la ganancia acumulada descontada en k normalizada para un query de
    relevancia.
    
    Parámetros:
    - relevance_query (list): Una lista de números naturales que representan
    valores de relevancia.
    - k (int): El número de resultados principales a considerar.
    
    Devuelve:
    - dcg_at_k (float): El score de la ganancia acumulada descontada en k
    normalizada del query.
    """
    best_ranking = np.sort(relevance_query)[::-1]
    ndcg_at_k = dcg_at_k(relevance_query, k) / dcg_at_k(best_ranking, k)
    return ndcg_at_k

# Ejemplo de la tarea
relevance_query_3 = [4, 4, 3, 0, 0, 1, 3, 3, 3, 0]
k = 6
ndcg_at_k(relevance_query_3, k)    # En este caso, la ganancia acumulada descontada en k normalizada debería ser 0.7424

0.7424602308163405