# Preambulo:

* **Fecha de entrega**: Miercoles 27 de Agosto 6pm. 
* **Reglas de codificación**: Use jupyter notebooks (python) incluyendo resultados ejecutados. Todas las clases, métodos, funciones y código libre DEBEN contener docstrings con una explicación detallada. Especifique lineas a cambiar.
* **Informe**: Incluir informe escrito en **_pdf_** con las respuestas a las preguntas y un breve resumen de la implementación.
* **Envío**: Grupos de maximo tres. Envío en Zip. 


# Metricas de evualiación de IR (Python + Numpy)

## Importaciones

In [3]:
import numpy as np

## Metricas

### Precisión

In [None]:
def precision(query: list) -> float:
    """
    Calcula la precisión para una consulta de recuperación de información.

    La precisión se define como la proporción de elementos relevantes recuperados
    (representados por 1 en la lista) respecto al total de elementos recuperados.

    Args:
        query (list): Lista de enteros (0 o 1) donde 1 indica un elemento relevante.

    Returns:
        float: Precisión de la consulta. Si la lista está vacía, retorna 0.0.
    """
    return np.mean(query) if query else 0.0

# Ejemplo dado
query = [0,0,0,1]

precision(query).item()

0.25

### K-Precisión (P@K)

In [5]:
def precision_at_k(query: list, k: int) -> float:
    """
    Calcula la precisión en los primeros k elementos de una consulta de recuperación de información.

    Args:
        query (list): Lista de enteros (0 o 1) donde 1 indica un elemento relevante.
        k (int): Número de elementos a considerar desde el inicio de la lista.

    Returns:
        float: Precisión en los primeros k elementos. Si k es mayor que el tamaño de la lista, 
        se considera toda la lista. Si la lista está vacía, retorna 0.0.
    """
    k = min(k, len(query))
    return precision(query[:k])


# Ejemplo dado
query = [0,0,0,1]
k = 1
precision_at_k(query, k).item()

0.0

### K-recall (R@K)

In [None]:
def recall_at_k(query: list, k: int, docs_relevantes: int) -> float:
    """
    Calcula el recall en los primeros k elementos de una consulta de recuperación de información.

    Args:
        query (list): Lista de enteros (0 o 1) donde 1 indica un elemento relevante.
        k (int): Número de elementos a considerar desde el inicio de la lista.
        docs_relevantes (int): Número total de documentos relevantes en la colección.

    Returns:
        float: Recall en los primeros k elementos. Si docs_relevantes es 0, retorna 0.0.
    """
    k = min(k, len(query))
    return np.sum(query[:k]) / docs_relevantes if docs_relevantes else 0.0

# Ejemplo dado
query = [0,0,0,1]
k = 1
docs_relevantes = 4
recall_at_k(query, k, docs_relevantes).item()

0.0

### Average Precision (A-P@K)

In [26]:
def average_precision(query: list) -> float:
    """
    Calcula la precisión promedio de una consulta de recuperación de información.

    La precisión promedio se define como la media de las precisiones en cada posición
    donde se recupera un elemento relevante.

    Args:
        query (list): Lista de enteros (0 o 1) donde 1 indica un elemento relevante.

    Returns:
        float: Precisión promedio de la consulta. Si no hay elementos relevantes, retorna 0.0.
    """
    precisions = [precision_at_k(query, i) for i in range(1, len(query) + 1) if query[i - 1] == 1]
            
    return np.mean(precisions) if precisions else 0.0

# Ejemplo dado
query = [0,1,0,1,1,1,1]

np.round(average_precision(query), 2).item()

0.6

### Mean Average Precisión (MAP)

In [None]:
def MAP(queries: list) -> float:
    """
    Calcula la Precisión Promedio Media (MAP) para un conjunto de consultas.

    La MAP es la media de las precisiones promedio de cada consulta.

    Args:
        queries (list): Lista de listas, donde cada sublista representa una consulta.

    Returns:
        float: MAP del conjunto de consultas. Si no hay consultas, retorna 0.0.
    """
    
    return np.mean([average_precision(query) for query in queries]) if queries else 0.0

### K-DCG (DCG@K)

In [35]:
def DCG_at_K(query: list, k: int) -> float:
    """
    Calcula el Discounted Cumulative Gain (DCG) en los primeros k elementos de una consulta.

    Args:
        query (list): Lista de enteros (0 o 1) donde 1 indica un elemento relevante.
        k (int): Número de elementos a considerar desde el inicio de la lista.

    Returns:
        float: DCG en los primeros k elementos. Si la lista está vacía, retorna 0.0.
    """
    k = min(k, len(query))
    return np.sum([query[i-1] / np.log2(max(i, 2)) for i in range(1, k+1)]) if k > 0 else 0.0

# Ejemplo dado
query =  [4, 4, 3, 0, 0, 1, 3, 3, 3, 0]
k = 6
np.round(DCG_at_K(query, k), 4).item()


10.2796

### K-NDCG (NDCG@K)

In [39]:
def NDCG_at_k(query: list, k: int) -> float:
    """
    Calcula el Normalized Discounted Cumulative Gain (NDCG) para una consulta.

    Args:
        query (list): Lista de enteros (0 o 1) donde 1 indica un elemento relevante.

    Returns:
        float: NDCG de la consulta. Si la lista está vacía, retorna 0.0.
    """
    dcg = DCG_at_K(query, k)
    idcg = DCG_at_K(sorted(query, reverse=True), k)
    return dcg / idcg if idcg > 0 else 0.0

# Ejemplo dado
query =  [4, 4, 3, 0, 0, 1, 3, 3, 3, 0]
k = 6

np.round(NDCG_at_k(query, k), 4).item()

0.7425

# Preprocesamiento de XML

In [5]:
%pip install lxml spacy
!python -m spacy download en_core_web_sm
%pip install lxml

Note: you may need to restart the kernel to use updated packages.
Collecting en-core-web-sm==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-3.8.0/en_core_web_sm-3.8.0-py3-none-any.whl (12.8 MB)
     ---------------------------------------- 0.0/12.8 MB ? eta -:--:--
     -------- ------------------------------- 2.6/12.8 MB 13.6 MB/s eta 0:00:01
     ---------------- ----------------------- 5.2/12.8 MB 12.8 MB/s eta 0:00:01
     ---------------------- ----------------- 7.1/12.8 MB 12.2 MB/s eta 0:00:01
     -------------------------- ------------- 8.4/12.8 MB 10.4 MB/s eta 0:00:01
     -------------------------------- ------- 10.5/12.8 MB 9.8 MB/s eta 0:00:01
     -------------------------------------- - 12.3/12.8 MB 9.6 MB/s eta 0:00:01
     ---------------------------------------- 12.8/12.8 MB 9.0 MB/s  0:00:01
Installing collected packages: en-core-web-sm
Successfully installed en-core-web-sm-3.8.0
[38;5;2m✔ Download and installation su

## Importaciones

In [7]:
from lxml import etree
import spacy
import re
import os
import sys
import pandas as pd

## Extracción, tokenización y almacenamiento
### Extracción y tokenización (Única)

In [None]:
xml_data = """<?xml version="1.0" encoding="UTF-8"?>
<NAF xml:lang="en" version="v3">
  <nafHeader>
    <fileDesc title="Juan Bautista de Anza and the Route to San Francisco Bay" />
    <public publicId="d331" uri="http://blog.yovisto.com/juan-bautista-de-anza-and-the-route-to-san-francisco-bay/" />
  </nafHeader>
  <raw><![CDATA[Juan Bautista de Anza and the Route to San Francisco Bay.

Juan Bautista de Anza, from a portrait in oil by Fray Orsi in 1774.  On March 28, 1776, Basque New-Spanish explorer Juan Bautista de Anza was the first to reach the San Francisco Bay by land. De Anza was the first European to establish an overland route from Mexico, through the Sonoran Desert, to the Pacific coast of California. New World Spanish explorers had been seeking such a route through the desert southwest for more than two centuries. Juan Bautista de Anza was born in Sonora, New Spain in 1736. De Anza enlisted in the army at the Presidio of Fronteras in 1752 and became a captain in 1760. De Anza proposed an expedition to Alta California in the early 1770s. The region had been colonized in the late 1760s and the colonies had been established at San Diego and Monterey. Still, a direct land route was desired and De Anza’s mission was apporoved by the King of Spain and on January 8, 1774. The expedition including 20 soldiers, and 140 horses was guided by a Native American. Together they took a southern route along the Rio Altar, then paralleled the modern Mexico California border. The expedition crossed the Colorado River at its confluence with the Gila River. The expedition was observed by Viceroy and King and they decided that De Anza should lead a group of colonists to Alta California. The expedition arrived at Mission San Gabriel Arcángel in January, 1776 and continued to Monterey with the colonists. De Anza and 247 colonists arrived at the future site of San Francisco on this day in 1776. De Anza established a presidio, or military fort, on the tip of the San Francisco peninsula. Six months later, a Spanish Franciscan priest founded a mission near the presidio that he named in honor of St. Francis of Assisi – in Spanish, San Francisco de Asiacutes. However, San Francisco remained an isolated settlement for many years after Anza founded the first settlement. It is believed that in the 1830s, the potential of the area was eventually realized. Back then, San Francisco was only a rather small town of 900 people, but after gold had been discovered, more and more settlers came to the city and by the 1850s, it is believed that more than 36.000 people lived there. Juan Bautista de Anza himself was appointed governor of New Mexico in 1777. He negotiated a critical peace treaty with Commanche Indians, who agreed to join the Spanish in making war on the Apache. He retired in 1786 and passed away two years later. At yovisto you may learn more about Native Americans in a lecture at Berkeley University.]]></raw>
</NAF>"""

def procesar_texto(text: str) -> str:
    """ Procesa el texto para eliminar espacios innecesarios, lematizar y tokenizar.
    Args:
        text (str): Texto a procesar.
    Returns:
        list: Lista de tokens lematizados, excluyendo stop words y puntuación.
    """
    
    # --- LIMPIEZA ---
    text = re.sub(r'\s+', ' ', text).strip()
    text = re.sub(r'\s+\.', '.', text)  # quita espacios antes de puntos

    # --- CARGA DE MODELO SPACY ---
    nlp = spacy.load("en_core_web_sm")
    doc = nlp(text)

    # --- TOKENS LEMATIZADOS ---
    tokens = [
        token.lemma_.lower()
        for token in doc
        if not token.is_stop
        and not token.is_punct
        and not token.is_space
        and not token.like_num  # excluye números
        and token.is_alpha      # excluye tokens con caracteres no alfabéticos
    ]
    return tokens

def preprocesamiento_xml(xml_data: str) -> list:
    """
    Procesa un documento XML en formato NAF para extraer y limpiar el texto,
    y luego tokenizar y lematizar el contenido utilizando spaCy.

    Args:
        xml_data (str): Cadena que contiene el documento XML en formato NAF.

    Returns:
        list: Lista de tokens lematizados, excluyendo stop words y puntuación.
    """
    ruta = "docs-raw-texts/"+xml_data
    tokens = []
    # Verifica si existe el archivo y lo lee
    if os.path.exists(ruta):

        with open(ruta, 'r', encoding='utf-8') as file:
            xml_data = file.read()

        # --- PARSEO Y EXTRACCIÓN DEL TEXTO CON LXML ---
        parser = etree.XMLParser(strip_cdata=False)
        root = etree.fromstring(xml_data.encode('utf-8'), parser=parser)

        raw_texts = root.xpath('//raw/text()')
        if raw_texts:
            # Si hay varios <raw>, los unimos
            text = " ".join(raw_texts)

            return procesar_texto(text)

    return tokens

# Ejemplo de uso
tokens = preprocesamiento_xml("wes2015.d001.naf")
tokens[:10]


['william',
 'beaumont',
 'human',
 'digestion',
 'william',
 'beaumont',
 'physiology',
 'digestion',
 'image',
 'source']

### Extracción y tokenización (Docs-raw-texts)

In [31]:
docs = {}

for i in range(1, 332):
    file_name = f"wes2015.d{i:03d}.naf"
    tokens = preprocesamiento_xml(file_name)
    docs[i] = tokens

rows = [(term, doc_id) for doc_id, terms in docs.items() for term in terms]

df = pd.DataFrame(rows, columns=["Termino", "DocID"])
df.head(5)

Unnamed: 0,Termino,DocID
0,william,1
1,beaumont,1
2,human,1
3,digestion,1
4,william,1


In [34]:
df_grouped = (
    df.groupby("Termino")
      .agg(
          tf=("Termino", "size"),            # Conteo de apariciones
          Postings=("DocID", lambda x: sorted(set(x)))  # Lista única de DocID ordenada
      )
      .reset_index()
)

df_grouped

Unnamed: 0,Termino,tf,Postings
0,aachen,4,"[139, 161, 252]"
1,aazv,1,[156]
2,ab,1,[224]
3,abadone,1,[62]
4,abandon,20,"[3, 11, 14, 18, 35, 52, 56, 76, 84, 92, 107, 1..."
...,...,...,...
14692,čech,1,[238]
14693,łukasiewicz,2,[227]
14694,šufflay,1,[293]
14695,λ,1,[220]


### Consultas binarias

In [None]:
def consulta_binaria(terms_included: list, terms_not_included: list,  df: pd.DataFrame) -> list:
    """
    Realiza una consulta binaria sobre un DataFrame de términos y sus documentos.

    Args:
        terms_included (list): Lista de términos a incluir en la consulta.
        terms_not_included (list): Lista de términos a excluir de la consulta.
        df (pd.DataFrame): DataFrame con columnas 'Termino' y 'DocID'.

    Returns:
        list: Mezcla de listas dejando los docsID que contienen los términos incluidos y excluyendo los que contienen los términos no incluidos.
    """
    if not query:
        return []

    # Filtra el DataFrame por los términos de la consulta
    filtered_df = df[df['Termino'].isin(query)]

    # Agrupa por DocID y verifica si hay al menos un término presente
    grouped = filtered_df.groupby('DocID').size().reset_index(name='count')

    # Crea una lista binaria según la presencia de términos en los documentos
    return [1 if doc in grouped['DocID'].values else 0 for doc in range(1, 333)]