# 0. Configuración de librerias y requisitos previos

In [None]:
"""
Se importan librerías para tipado estático y operaciones matemáticas.

- typing: proporciona anotaciones de tipo como List y Union.
- numpy: se utiliza para cálculos matemáticos y manejo de arreglos.
"""

from typing import List, Union
import numpy as np

# 1. Precision

In [None]:
def precision(
		relevance: Union[List[int], np.ndarray]
	) -> float:

	"""
    Calcula la métrica de Precision en recuperación de información.

    La Precision se define como la proporción de documentos relevantes 
    (valor 1 en el vector binario de entrada) dentro del conjunto de 
    documentos recuperados.

    Fórmula:
        Precision = (# documentos relevantes recuperados) / (total documentos recuperados)

    Parámetros
    ----------
    relevance : List[int]
        Lista binaria donde cada posición representa un documento recuperado:
        - 1 indica que el documento es relevante.
        - 0 indica que el documento no es relevante.

    Retorna
    -------
    float
        Valor de la precisión, en el rango [0.0, 1.0].
        Retorna 0.0 si la lista está vacía.
    """

	# Si no se recuperó ningún documento, la métrica es 0.0
	if len(relevance) == 0:
		return 0.0
	relevance = np.array(relevance, dtype = int)
	return float(np.mean(relevance))

In [55]:
"""
Ejemplo de ejecución.

Se define un vector de relevancia (relevance_query_1) extraído del enunciado
y se utiliza para calcular la métrica 'precision'.
"""

relevance_query_1 = [0,0,0,1]

print("--------** precision **--------\n")
print("Parametros:\n")
print("- relevance_query_1 = ", relevance_query_1)
print("\nResultado:\n")
print("- precision = ", precision(relevance_query_1))

--------** precision **--------

Parametros:

- relevance_query_1 =  [0, 0, 0, 1]

Resultado:

- precision =  0.25


# 2. Precision @ K

In [None]:
def precision_at_k(
		relevance: Union[List[int], np.ndarray], 
		k: int
	) -> float:

	"""
    Calcula la métrica de Precision@K en recuperación de información.

    Precision@K mide la proporción de documentos relevantes entre los 
    primeros K documentos recuperados. Se utiliza para evaluar la calidad 
    de los resultados en el top-K.

    Fórmula:
        Precision@K = (# documentos relevantes en top-K) / K

    Parámetros
    ----------
    relevance : List[int]
        Lista binaria donde cada posición representa un documento recuperado:
        - 1 indica que el documento es relevante.
        - 0 indica que el documento no es relevante.
    k : int
        Número de documentos del top-K a considerar. 
        Debe ser mayor que 0.

    Retorna
    -------
    float
        Valor de Precision@K en el rango [0.0, 1.0].
        Retorna 0.0 si la lista está vacía.

    Lanza
    -----
    ValueError
        Si el valor de `k` es menor o igual a 0.
    """

	# K debe ser positivo y mayor a cero para poder calcular la métrica
	if k <= 0:
		raise ValueError("k should be greater than 0")
	# Si no se recuperó ningún documento, la métrica es 0.0
	if len(relevance) == 0:
		return 0.0
	relevance = np.array(relevance, dtype = int)
	# Se limita K al número real de documentos recuperados
	k = min(k, len(relevance))
	return float(np.mean(relevance[:k]))


In [57]:
"""
Ejemplo de ejecución.

Se define un vector de relevancia (relevance_query_1) y un valor de corte (k) extraídos del 
enunciado y se utilizan para calcular la métrica 'precision@k'.
"""

relevance_query_1 = [0,0,0,1]
k = 1

print("--------** precision@k **--------\n")
print("Parametros:\n")
print("- relevance_query_1 = ", relevance_query_1)
print("- k = ", k)
print("\nResultado:\n")
print("- precision@k = ", precision_at_k(relevance_query_1, k))

--------** precision@k **--------

Parametros:

- relevance_query_1 =  [0, 0, 0, 1]
- k =  1

Resultado:

- precision@k =  0.0


# 3. Recall @ K

In [None]:
def recall_at_k(
		relevance: Union[List[int], np.ndarray], 
		number_relevant_documents: int, 
		k: int
	) -> float:

	"""
    Calcula la métrica de Recall@K en recuperación de información.

    Recall@K mide la fracción de documentos relevantes recuperados en el top-K,
    en comparación con el número total de documentos relevantes que existen en 
    la colección.

    Fórmula:
        Recall@K = (# documentos relevantes en top-K) / (total documentos relevantes en la colección)

    Parámetros
    ----------
    relevance : List[int]
        Lista binaria donde cada posición representa un documento recuperado:
        - 1 indica que el documento es relevante.
        - 0 indica que el documento no es relevante.
    number_relevant_documents : int
        Número total de documentos relevantes en la colección.
    k : int
        Número de documentos del top-K a considerar.
        Debe ser mayor que 0.

    Retorna
    -------
    float
        Valor de Recall@K en el rango [0.0, 1.0].precision(relevance_query_1)
        Retorna 0.0 si no existen documentos relevantes o si la lista está vacía.

    Lanza
    -----
    ValueError
        Si el valor de `k` es menor o igual a 0.
    """

	# K debe ser positivo y mayor a cero para poder calcular la métrica
	if k <= 0:
		raise ValueError("k should be greater than 0")
	# Si no existen documentos relevantes, la métrica es 0.0
	if number_relevant_documents <= 0:
		return 0.0
	# Si no se recuperó ningún documento, la métrica es 0.0
	if len(relevance) == 0:
		return 0.0
	relevance = np.array(relevance, dtype = int)
	# Se limita K al número real de documentos recuperados
	k = min(k, len(relevance))
	return float(np.sum(relevance[:k]) / number_relevant_documents)

In [59]:
"""
Ejemplo de ejecución.

Se define un vector de relevancia (relevance_query_1), el número de documentos relevantes totales 
para la consulta (number_relevant_documents) y un valor de corte (k) extraídos del enunciado y 
se utilizan para calcular la métrica 'recall@k'.
"""

relevance_query_1 = [0,0,0,1]
number_relevant_documents = 4
k = 1

print("--------** recall@k **--------\n")
print("Parametros:\n")
print("- relevance_query_1 = ", relevance_query_1)
print("- number_relevant_documents = ", number_relevant_documents)
print("- k = ", k)
print("\nResultado:\n")
print("- recall@k = ", recall_at_k(relevance_query_1, number_relevant_documents, k))

--------** recall@k **--------

Parametros:

- relevance_query_1 =  [0, 0, 0, 1]
- number_relevant_documents =  4
- k =  1

Resultado:

- recall@k =  0.0


# 4. Average Precision (AP)

In [None]:
def average_precision(
		relevance: Union[List[int], np.ndarray]
	) -> float:

	"""
    Calcula la métrica de Average Precision (AP) en recuperación de información.

    Average Precision mide la calidad de la recuperación considerando 
    no solo cuántos documentos relevantes aparecen, sino también en qué 
    posiciones se encuentran. 

    La métrica se obtiene calculando la precisión cada vez que se 
    recupera un documento relevante y luego promediando estos valores.

    Fórmula:
        AP = (1 / R) * Σ [ Precision@i * rel(i) ]
    donde:
        - R es el número total de documentos relevantes en la colección.
        - Precision@i es la precisión en la posición i.
        - rel(i) = 1 si el documento en la posición i es relevante, 0 en caso contrario.
    
	Parámetros
    ----------
    relevance : List[int]
        Lista binaria donde cada posición representa un documento recuperado:
        - 1 indica que el documento es relevante.
        - 0 indica que el documento no es relevante.
        Se asume que la lista incluye todos los documentos relevantes de la colección.

    Retorna
    -------
    float
        Valor de Average Precision en el rango [0.0, 1.0].
        Retorna 0.0 si no hay documentos relevantes en la colección.
    """

	relevance = np.array(relevance, dtype = int)
	total_relevant = np.sum(relevance)
	# Si no existen documentos relevantes, la métrica es 0.0
	if total_relevant == 0:
		return 0.0
	# Si no se recuperó ningún documento, la métrica es 0.0
	if len(relevance) == 0:
		return 0.0
	precisions = []
	# Recorrido del vector empezando las posiciones en 1
	for i, rel in enumerate(relevance, start = 1):  
		if rel == 1:
			# Calculo de Precision@i
			precisions.append(precision_at_k(relevance, i))  
	return float(np.sum(precisions) / total_relevant)

In [61]:
"""
Ejemplo de ejecución.

Se define un vector de relevancia (relevance_query_2) extraído del enunciado y se utiliza 
para calcular la métrica 'Average Precision'.
"""

relevance_query_2 = [0,1,0,1,1,1,1]

print("--------** Average Precision **--------\n")
print("Parametros:\n")
print("- relevance_query_2 = ", relevance_query_2)
print("\nResultado:\n")
print("- Average Precision = ", average_precision(relevance_query_2))

--------** Average Precision **--------

Parametros:

- relevance_query_2 =  [0, 1, 0, 1, 1, 1, 1]

Resultado:

- Average Precision =  0.5961904761904762


# 5. Mean Average Precision (MAP)

In [None]:
def mean_average_precision(
		queries_relevances: List[Union[List[int], np.ndarray]]
	) -> float:
    
	"""
    Calcula la métrica de Mean Average Precision (MAP) en recuperación de información.

    MAP es una extensión de Average Precision (AP) para múltiples consultas.
    Se obtiene calculando el Average Precision de cada consulta y luego
    promediando estos valores.

    Fórmula:	# Si no se recuperaron documentos, el recall@k es 0.0

        MAP = (1 / Q) * Σ [ AP(q) ]
    donde:
        - Q es el número de consultas.
        - AP(q) es el Average Precision de la consulta q.

    Parámetros
    ----------
    queries_relevances : List[List[int]]
        Lista de consultas, donde cada consulta es representada por un vector binario:
        - 1 indica que el documento es relevante.
        - 0 indica que el documento no es relevante.
        Se asume que cada vector incluye todos los documentos relevantes de la colección para esa consulta.

    Retorna
    -------
    float
        Valor de Mean Average Precision en el rango [0.0, 1.0].
        Retorna 0.0 si no se proporciona ninguna consulta.
    """

	# Si no existe ninguna consulta, la métrica es 0.0
	if len(queries_relevances) == 0:
		return 0.0
	# Valores de precision para todas las consultas
	average_precision_values = [average_precision(r) for r in queries_relevances]
	return float(np.mean(average_precision_values))

# 6. Discounted Cumulative Gain @ K (DGC@K)

In [None]:
def dcg_at_k(
		relevance: Union[List[int], np.ndarray], 
		k: int
	) -> float:

	"""
    Calcula la métrica Discounted Cumulative Gain (DCG) hasta la posición K.

    DCG mide la ganancia acumulada de los documentos relevantes, ponderada
    por su posición en la lista de resultados. Documentos relevantes en
    posiciones más altas contribuyen más que aquellos en posiciones más bajas.

    Fórmula:
        DCG@K = Σ ( rel_i / log2(max(i,2)) ), para i = 1..K

    Parámetros
    ----------
    relevance : List[int]
        Lista de relevancias de los documentos ordenados por ranking.
        La relevancia es un número natural (ejemplo: 0, 1, 2, 3, ...).
    k : int
        Posición de corte K hasta la cual se calcula el DCG.

    Retorna
    -------
    float
        Valor de DCG@K (número real >= 0).
        Retorna 0.0 si no hay documentos o si K <= 0.
    """

	# K debe ser positivo y mayor a cero para poder calcular la métrica
	if k <= 0:
		raise ValueError("K should be greater than 0")
	# Si no se recuperó ningún documento, la métrica es 0.0
	if len(relevance) == 0:
		return 0.0
	# Se limita K al número real de documentos recuperados
	k = min(k, len(relevance))
	relevance = np.array(relevance[:k], dtype = float)
	dcg = 0.0
	for i in range(k):
		dcg = dcg + relevance[i] / np.log2(max(i + 1, 2))
	return float(dcg)

In [64]:
"""
Ejemplo de ejecución.

Se define un vector de relevancia (relevance_query_3) y un valor de corte (k) extraídos del 
enunciado y se utilizan para calcular la métrica 'DCG@k'.
"""


relevance_query_3 = [4, 4, 3, 0, 0, 1, 3, 3, 3, 0]
k = 6

print("--------** DCG@k **--------\n")
print("Parametros:\n")
print("- relevance_query_3 = ", relevance_query_3)
print("- k = ", k)
print("\nResultado:\n")
print("- DCG@k = ", dcg_at_k(relevance_query_3, k))

--------** DCG@k **--------

Parametros:

- relevance_query_3 =  [4, 4, 3, 0, 0, 1, 3, 3, 3, 0]
- k =  6

Resultado:

- DCG@k =  10.279642067948915


# 7. Normalized Discounted Cumulative Gain @ K (NDGC@K)

In [None]:
def ndcg_at_k(
		relevance: Union[List[int], np.ndarray], 
		k: int
	) -> float:

	"""
    Calcula la métrica Normalized Discounted Cumulative Gain (NDCG) hasta la posición K.

    NDCG es la versión normalizada de DCG, donde se divide el valor de DCG
    entre el DCG ideal (IDCG). De esta manera, NDCG siempre toma valores
    entre 0 y 1, independientemente de la distribución de relevancias.

    Fórmula:
        NDCG@K = DCG@K / IDCG@K

    Parámetros
    ----------
    relevance : List[int]
        Lista de relevancias de los documentos ordenados por ranking.
        La relevancia es un número natural (ejemplo: 0, 1, 2, 3, ...).
    k : int
        Posición de corte K hasta la cual se calcula el NDCG.

    Retorna
    -------
    float
        Valor de NDCG@K (número real entre 0 y 1).
        Retorna 0.0 si no hay documentos, si IDCG = 0 o si K <= 0.
    """
	
	# K debe ser positivo y mayor a cero para poder calcular la métrica
	if k <= 0:
		raise ValueError("K should be greater than 0")
	# Si no se recuperó ningún documento, la métrica es 0.0
	if len(relevance) == 0:
		return 0.0
	# Se calcula el dcg@k
	dcg = dcg_at_k(relevance, k)
	# Se ordena la query para lograr el mayor DCG
	ideal_relevance = sorted(relevance, reverse = True)
	idcg = dcg_at_k(ideal_relevance, k)
	if idcg == 0:
		return 0.0
	return float(dcg / idcg)

In [66]:
"""
Ejemplo de ejecución.

Se define un vector de relevancia (relevance_query_3) y un valor de corte (k) extraídos del 
enunciado y se utilizan para calcular la métrica 'NDCG@k'.
"""

relevance_query_3 = [4, 4, 3, 0, 0, 1, 3, 3, 3, 0]
k = 6

print("--------** NDCG@k **--------\n")
print("Parametros:\n")
print("- relevance_query_3 = ", relevance_query_3)
print("- k = ", k)
print("\nResultado:\n")
print("- NDCG@k = ", ndcg_at_k(relevance_query_3, k))

--------** NDCG@k **--------

Parametros:

- relevance_query_3 =  [4, 4, 3, 0, 0, 1, 3, 3, 3, 0]
- k =  6

Resultado:

- NDCG@k =  0.7424602308163405
