 ## 1. Lectura de datos

 Se comenzará con la lectura del corpus. Para lo cual se utilizarán distintas técnicas de normalización de términos, entre las que se incluye la identificación de palabras compuestas.

In [43]:
!pip install nltk
import nltk

from nltk import download

download('punkt_tab')                           # Tokenización
nltk.download('averaged_perceptron_tagger')     # POS tagging
nltk.download('averaged_perceptron_tagger_eng') # POS tagging
nltk.download('wordnet')                        # WordNet lemmatizer
nltk.download('omw-1.4')                        # WordNet multilingüe



[nltk_data] Downloading package punkt_tab to
[nltk_data]     C:\Users\marta\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     C:\Users\marta\AppData\Roaming\nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!
[nltk_data] Downloading package averaged_perceptron_tagger_eng to
[nltk_data]     C:\Users\marta\AppData\Roaming\nltk_data...
[nltk_data]   Package averaged_perceptron_tagger_eng is already up-to-
[nltk_data]       date!
[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\marta\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package omw-1.4 to
[nltk_data]     C:\Users\marta\AppData\Roaming\nltk_data...
[nltk_data]   Package omw-1.4 is already up-to-date!


True

In [44]:
from nltk.tokenize import word_tokenize
from nltk.stem.lancaster import LancasterStemmer
from nltk.corpus import stopwords
from nltk.data import path
from nltk.stem import WordNetLemmatizer
from nltk import pos_tag
from sklearn.feature_extraction.text import TfidfVectorizer
from collections import defaultdict
from nltk.corpus import wordnet as wn
import numpy as np

path.append(".")

In [45]:
!pip install contractions
import contractions



In [46]:
import csv
import pandas as pd
from bs4 import BeautifulSoup
from pprint import pprint
import re
from bs4 import MarkupResemblesLocatorWarning
import warnings

In [47]:
from sklearn.pipeline import Pipeline
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import recall_score
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.pipeline import Pipeline
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.neighbors import KNeighborsClassifier
import spacy

In [48]:
from sklearn.metrics.pairwise import cosine_similarity
from collections import Counter
!pip install whoosh
from whoosh.index import create_in
from whoosh.index import open_dir
from whoosh.fields import Schema, TEXT, ID
from whoosh.qparser import QueryParser
from whoosh.query import Term, Or
import os
import shutil



In [49]:
warnings.filterwarnings("ignore", category=MarkupResemblesLocatorWarning)

In [50]:
palabras_vacias_ingles = stopwords.words('english')

In [51]:
nlp = spacy.load("en_core_web_sm")

In [52]:
def elimina_html(contenido):
    return BeautifulSoup(contenido).get_text()

def elimina_no_alfanumerico(contenido):
    return [re.sub(r'[^\w]', '', palabra)
            for palabra in contenido
            if re.search(r'\w', palabra)]

def expandir_constracciones(contenido):
    return contractions.fix(contenido)

def pasar_a_minuscula(contenido):
    return contenido.lower()

def limpiar_texto(texto):
    texto = re.sub(r'[^a-zA-Z\s]', ' ', texto)  # Reemplaza todo lo que no es letra o espacio con espacio
    texto = re.sub(r'\s+', ' ', texto).strip()
    return texto

def elimina_palabras_vacias(contenido):
    return [palabra for palabra in contenido if palabra not in palabras_vacias_ingles]

def lematizador(contenido):
    lemmatizer = WordNetLemmatizer()
    pos_tags = pos_tag(contenido)

    resultado = []
    for palabra, tag in pos_tags:
        if tag.startswith('VB'):  # Verbos
            resultado.append(lemmatizer.lemmatize(palabra, pos='v'))  # infinitivo
        else:  # Sustantivos y el resto tal como están
            resultado.append(palabra)

    return resultado

def extraer_noun_chunks(tokens):
    resultados = []
    doc = nlp(" ".join(tokens))

    noun_chunks = [chunk.text.lower().strip() for chunk in doc.noun_chunks if len(chunk.text.split()) <= 3]
    noun_chunks_set = set(noun_chunks)

    i = 0
    while i < len(tokens):
        composed2 = " ".join(tokens[i:i+2]).lower()
 
        if composed2 in noun_chunks_set:
            i += 2 
        else:
            resultados.append(tokens[i].lower())
            i += 1

    return resultados + noun_chunks


In [53]:
def proceso_contenido(texto):
    texto = elimina_html(texto)
    texto = expandir_constracciones(texto)
    texto = pasar_a_minuscula(texto)
    texto = limpiar_texto(texto)                # Limpiar antes de tokenizar
    tokens = word_tokenize(texto)               
    tokens = elimina_no_alfanumerico(tokens)    # Limpiar tokens individuales
    tokens = elimina_palabras_vacias(tokens)
    tokens = lematizador(tokens)
    return tokens

 ## 2. Sistema de recuperación de la información que admite consultas especificadas en texto libre 

 Se procederá con el diseño y la evaluación de un sistema de recuperación de información que admite consultas en texto libre. Este se pondrá a prueba, por un lado, utilizando los documentos del corpus junto con sinónimos de las palabras contenidas en ellos, y por otro lado, sin recurrir a dichos sinónimos.

In [54]:
def lectura_normalizada_corpus():
    df = pd.read_csv("news_corpus.csv", encoding="latin-1", sep=";", quotechar='"')
    resultados = []

    for index, fila in df.iterrows():
        autor = [fila.iloc[0]]
        titulo = fila.iloc[1]
        cuerpo = fila.iloc[2]   

        titulo_proc = proceso_contenido(titulo)
        cuerpo_proc = proceso_contenido(cuerpo)

        # Unir las tres listas en una sola lista combinada
        fila_combinada =  autor + titulo_proc + cuerpo_proc

        contenido_final = extraer_noun_chunks(fila_combinada)
        resultados.append(contenido_final)
    return resultados

def expand_term(term):
    related = set()
    for syn in wn.synsets(term):
        for lemma in syn.lemmas():
            word = lemma.name().replace('_', ' ').lower()
            if word != term:
                related.add(word)
    return related

def expand_corpus_with_synonyms(documento):
    doc_counter = Counter(documento)
    expanded_doc = []
    for word, count in doc_counter.items():
        # Añadimos la palabra original tantas veces como aparece
        expanded_doc.extend([word] * count)
        # Obtenemos sinónimos y también los añadimos con la misma frecuencia
        synonyms = expand_term(word)
        for syn in synonyms:
            expanded_doc.extend([syn] * count)
    return expanded_doc

def lectura_normalizada_corpus_sinonimos():
    df = pd.read_csv("news_corpus.csv", encoding="latin-1", sep=";", quotechar='"')
    resultados = []

    for index, fila in df.iterrows():
        autor = [fila.iloc[0]]
        titulo = fila.iloc[1]
        cuerpo = fila.iloc[2]   

        titulo_proc = proceso_contenido(titulo)
        cuerpo_proc = proceso_contenido(cuerpo)

        # Unir las tres listas en una sola lista combinada
        fila_combinada =  autor + titulo_proc + cuerpo_proc

        contenido_con_palabras_compuestas = extraer_noun_chunks(fila_combinada)
        contenido_final = expand_corpus_with_synonyms(contenido_con_palabras_compuestas)

        resultados.append(contenido_final)
    return resultados

def crear_indice_whoosh(corpus_normalizado):
    if os.path.exists("indice_whoosh"):
        shutil.rmtree("indice_whoosh")  # Elimina índice anterior si existe
    os.mkdir("indice_whoosh")

    schema = Schema(id=ID(stored=True, unique=True), contenido=TEXT(stored=True))
    ix = create_in("indice_whoosh", schema)
    writer = ix.writer()

    for i, doc in enumerate(corpus_normalizado):
        contenido = " ".join(doc)
        writer.add_document(id=str(i), contenido=contenido)
    
    writer.commit()


def buscar_con_whoosh(tokens_query, corpus_normalizado):
    ix = open_dir("indice_whoosh")  # Abrir índice Whoosh previamente creado

    with ix.searcher() as searcher:
        # Crear la consulta OR con todos los términos
        terms = [Term("contenido", token) for token in tokens_query]
        query = Or(terms)

        resultados = searcher.search(query, limit=None)

        # Crear diccionario: clave = doc_id, valor = documento procesado
        docs_encontrados = []
        indices_docs = []
        for hit in resultados:
            doc_id = int(hit['id'])
            docs_encontrados.append(corpus_normalizado[doc_id])
            indices_docs.append(doc_id)

        return docs_encontrados, indices_docs



In [55]:
def lectura_documento(documento):
    documento_procesado = proceso_contenido(documento) 
    contenido_final = extraer_noun_chunks(documento_procesado)
    return contenido_final

def lectura_documento_sinonimos(documento):
    documento_procesado = proceso_contenido(documento) 
    contenido_final = extraer_noun_chunks(documento_procesado)
    resultado = expand_corpus_with_synonyms(contenido_final)
    return resultado

In [56]:
# Mostrar los primeros 3 documentos procesados
def prueba_primeros_3_documentos_procesados(corpus):
    for i, documento in enumerate(corpus[:3]):
        print(f"Documento {i+1}:")
        print(" - Palabras:", documento)
        print()

In [57]:
def tfidf_del_documento(documento_normalizado, vectorizer):
    # Convertir el documento (lista de tokens) a string
    texto = " ".join(documento_normalizado)
    # Transformar usando el vectorizador ya entrenado
    X_doc = vectorizer.transform([texto])  # devuelve matriz sparse 1xN
    return X_doc

In [58]:
def prueba_tfdifs_primeros_3_documentos(lista_diccionarios_tfidfs):
    for idx, d in enumerate(lista_diccionarios_tfidfs[:3]):
        top_terms = sorted(d.items(), key=lambda x: x[1], reverse=True)
        print(f"\n Documento {idx+1}:")
        print("      Palabras añadidas por TF-IDF:")
        for term, score in top_terms:
            print(f"      - {term}: {score:.4f}")

In [59]:
def tfidf_por_corpus(corpus_normalizado):
    # Convertimos el corpus a lista de strings
    texts = [" ".join(doc) for doc in corpus_normalizado]

    # Vectorizador TF-IDF (1 y 2-gramas)
    vectorizer = TfidfVectorizer(ngram_range=(1, 2))
    X = vectorizer.fit_transform(texts)  # Matriz TF-IDF sparse
    terms = vectorizer.get_feature_names_out()

    # Retornamos la matriz y vocabulario (términos)
    return X, terms, vectorizer

In [60]:
def similitud_coseno(tfidf_corpus, tfidf_doc, indices, umbral=0.0):
    # Calcular similitud coseno entre documento y corpus
    similitudes = cosine_similarity(tfidf_doc, tfidf_corpus).flatten()

    # Filtrar documentos que superan el umbral
    indices_filtrados = [i for i, sim in enumerate(similitudes) if sim > umbral]

    # Ordenar índices por similitud descendente
    indices_ordenados = sorted(indices_filtrados, key=lambda i: similitudes[i], reverse=True)

    # Devolver lista de (indice, similitud)
    return [(indices[i], similitudes[i]) for i in indices_ordenados]

def documentos_similares(lista_similitudes):
    lista_similitudes[0]
    for idx, score in lista_similitudes:
        print(f"Documento {idx} tiene similitud: {score:.4f}")
    

In [62]:
# Prueba de lectura 
resultados = lectura_normalizada_corpus()
prueba_primeros_3_documentos_procesados(resultados)

Documento 1:
 - Palabras: ['diu', 'revoke', 'mandatory', 'rakshabandhan', 'offices', 'order', 'daman', 'wednesday', 'withdraw', 'circular', 'ask', 'tie', 'rakhis', 'male', 'colleagues', 'order', 'trigger', 'backlash', 'employees', 'rip', 'apart', 'social', 'media', 'union', 'territory', 'administration', 'force', 'retreat', 'within', 'circular', 'make', 'celebrate', 'decide', 'celebrate', 'festival', 'rakshabandhan', 'august', 'connection', 'offices', 'departments', 'shall', 'remain', 'open', 'celebrate', 'festival', 'collectively', 'suitable', 'time', 'wherein', 'shall', 'tie', 'rakhis', 'colleagues', 'order', 'issue', 'august', 'gurpreet', 'singh', 'deputy', 'secretary', 'personnel', 'say', 'ensure', 'one', 'skipped', 'office', 'attendance', 'report', 'send', 'government', 'next', 'even', 'two', 'notifications', 'one', 'mandate', 'celebration', 'rakshabandhan', 'leave', 'withdraw', 'mandate', 'daman', 'day', 'apart', 'circular', 'withdrawn', 'one', 'line', 'order', 'issue', 'late', '

In [63]:
import json

def cargar_consultas(nombre_archivo):
    """Carga las consultas desde un archivo JSON y las devuelve."""
    with open(nombre_archivo, "r", encoding="utf-8") as f:
        consultas = json.load(f)
    return consultas

def mostrar_consultas_ejemplo(consultas, n=2):
    """Muestra las primeras `n` consultas para verificación."""
    print(f"Se han cargado {len(consultas)} consultas.")
    for i in range(min(n, len(consultas))):
        print(f"Consulta {i+1}:", consultas[i])


In [64]:
# 2.4. Cargar las consultas

nombre_archivo="consultas_texto_libre.json"

consultas = cargar_consultas(nombre_archivo)
mostrar_consultas_ejemplo(consultas)

Se han cargado 66 consultas.
Consulta 1: {'query': 'News about Donald Trump', 'documentos': [32, 33, 35, 37, 40, 43]}
Consulta 2: {'query': 'Information about films, series and shows', 'documentos': [41, 46, 47, 48]}


In [65]:
from sklearn.metrics import average_precision_score

def calcular_metricas(resultados_similitud, documentos_relevantes, indices_posibles):
    y_true_positive = []
    y_false_positive = []
    y_scores = []
    idxs = []

    for idx, score in resultados_similitud:
        y_true_positive.append(1 if idx in documentos_relevantes else 0)
        y_false_positive.append(1 if idx not in documentos_relevantes else 0)
        y_scores.append(score)
        idxs.append(idx)

    no_relevantes = [i for i in indices_posibles if i not in idxs]
    y_true_negative = [1 if i not in documentos_relevantes else 0 for i in no_relevantes]
    y_false_negative = [1 if i in documentos_relevantes else 0 for i in no_relevantes]

    if any(y_true_positive):
        ap = average_precision_score(y_true_positive, y_scores)
        precision = sum(y_true_positive) / (sum(y_true_positive) + sum(y_false_positive))
        recall = sum(y_true_positive) / (sum(y_true_positive) + sum(y_false_negative))
        return ap, precision, recall, idxs, y_scores
    else:
        return None, None, None, idxs, y_scores


def mostrar_resultados(texto_query, documentos_relevantes, resultados_similitud, ap, precision, recall):
    print(f"Consulta: {texto_query}")
    print(f"Documentos relevantes esperados: {sorted(documentos_relevantes)}")
    print(f"Documentos recuperados ordenados: {[i for i, _ in resultados_similitud]}")
    print(f"Average Precision: {ap:.4f}")
    print(f"Precision: {precision:.4f}")
    print(f"Recall: {recall:.4f}")
    print("-" * 60)


def evaluar_consultas_por_similitud(consultas, corpus_normalizado):
    crear_indice_whoosh(corpus_normalizado)
    map_scores = []
    map_precision = []
    map_recall = []
    #indices_posibles = list(range(len(corpus_normalizado)))
    indices_posibles = list(range(51))

    for consulta in consultas:
        texto_query = consulta["query"]
        documentos_relevantes = set(consulta["documentos"])

        lectura = lectura_documento(texto_query)
        docs_relevantes, indices_docs = buscar_con_whoosh(lectura, corpus_normalizado)
        tfidf_corpus, terms, vectorizer = tfidf_por_corpus(docs_relevantes)
        tfidf_documento = tfidf_del_documento(lectura, vectorizer)
        resultados_similitud = similitud_coseno(tfidf_corpus, tfidf_documento, indices_docs)

        # Lógica de métricas
        ap, precision, recall, idxs, y_scores = calcular_metricas(resultados_similitud, documentos_relevantes, indices_posibles)

        if ap is not None:
            map_scores.append(ap)
            map_precision.append(precision)
            map_recall.append(recall)

            mostrar_resultados(texto_query, documentos_relevantes, resultados_similitud, ap, precision, recall)
        else:
            print(f"Consulta: {texto_query}")
            print("No hay documentos relevantes etiquetados para esta consulta. Se omite en MAP.")
            print("-" * 60)

    return map_scores, map_precision, map_recall

In [66]:
#Calculo de similitudes para cada consulta sin hacer uso de sinónimos

corpus_normalizado = lectura_normalizada_corpus()
corpus_normalizado_reducido = corpus_normalizado[0:51]
map_scores, map_precision, map_recall = evaluar_consultas_por_similitud(consultas, corpus_normalizado_reducido)

Consulta: News about Donald Trump
Documentos relevantes esperados: [32, 33, 35, 37, 40, 43]
Documentos recuperados ordenados: [32, 35, 37, 40, 33, 43, 9, 16, 19, 20, 11, 2, 36]
Average Precision: 1.0000
Precision: 0.4615
Recall: 1.0000
------------------------------------------------------------
Consulta: Information about films, series and shows
Documentos relevantes esperados: [41, 46, 47, 48]
Documentos recuperados ordenados: [47, 34, 46, 37, 41, 28, 11, 23, 33, 29]
Average Precision: 0.7556
Precision: 0.3000
Recall: 0.7500
------------------------------------------------------------
Consulta: Cases related to racism and hindu culture in offices
Documentos relevantes esperados: [42]
Documentos recuperados ordenados: [0, 42, 50, 19, 20, 7, 45, 25, 36, 4]
Average Precision: 0.5000
Precision: 0.1000
Recall: 1.0000
------------------------------------------------------------
Consulta: Data on economy and finance
Documentos relevantes esperados: [44, 45]
Documentos recuperados ordenados:

In [67]:
def mostrar_metricas_finales_sin_sinonimos(map_scores, map_precision, map_recall):
    print(f"\n======= MÉTRICAS FINALES SIN SINÓNIMOS =======")

    if map_scores:
        mean_ap = sum(map_scores) / len(map_scores)
        print(f"Mean Average Precision (MAP): {mean_ap:.4f}")
    else:
        print("No se pudo calcular MAP porque ninguna consulta tenía documentos relevantes.")

    print(f"\n========================")

    if map_precision:
        avg_precision = sum(map_precision) / len(map_precision)
        print(f"Average Precision: {avg_precision:.4f}")
    else:
        print("No se pudo calcular la precisión porque ninguna consulta tenía documentos relevantes.")

    print(f"\n========================")

    if map_recall:
        avg_recall = sum(map_recall) / len(map_recall)
        print(f"Average Recall: {avg_recall:.4f}")
    else:
        print("No se pudo calcular el recall porque ninguna consulta tenía documentos relevantes.")

In [68]:
# Calcular MAP general para el caso en el que no se usan sinónimos

mostrar_metricas_finales_sin_sinonimos(map_scores, map_precision, map_recall)


Mean Average Precision (MAP): 0.9006

Average Precision: 0.1739

Average Recall: 0.9574


In [69]:
#Calculo de similitudes para cada consulta haciendo uso de sinónimos

corpus_normalizado = lectura_normalizada_corpus_sinonimos()
corpus_normalizado_reducido = corpus_normalizado[0:51]
map_scores, map_precision, map_recall = evaluar_consultas_por_similitud(consultas, corpus_normalizado_reducido)

Consulta: News about Donald Trump
Documentos relevantes esperados: [32, 33, 35, 37, 40, 43]
Documentos recuperados ordenados: [32, 35, 37, 40, 33, 43, 16, 9, 7, 11, 20, 2, 8, 36, 19, 46, 3, 6, 12, 13, 42, 0, 18, 5, 25, 24, 39, 4, 47, 29]
Average Precision: 1.0000
Precision: 0.2000
Recall: 1.0000
------------------------------------------------------------
Consulta: Information about films, series and shows
Documentos relevantes esperados: [41, 46, 47, 48]
Documentos recuperados ordenados: [34, 47, 46, 28, 10, 37, 41, 18, 25, 11, 36, 23, 35, 33, 39, 45, 26, 1, 5, 3, 38, 13, 8, 12, 29, 4]
Average Precision: 0.5317
Precision: 0.1154
Recall: 0.7500
------------------------------------------------------------
Consulta: Cases related to racism and hindu culture in offices
Documentos relevantes esperados: [42]
Documentos recuperados ordenados: [0, 42, 45, 50, 20, 19, 7, 5, 25, 1, 36, 24, 4, 46, 32, 11, 21, 33]
Average Precision: 0.5000
Precision: 0.0556
Recall: 1.0000
------------------------

In [70]:
def mostrar_metricas_finales_con_sinonimos(map_scores, map_precision, map_recall):
    print(f"\n======= MÉTRICAS FINALES CON SINÓNIMOS =======")

    if map_scores:
        mean_ap = sum(map_scores) / len(map_scores)
        print(f"Mean Average Precision (MAP): {mean_ap:.4f}")
    else:
        print("No se pudo calcular MAP porque ninguna consulta tenía documentos relevantes.")

    print(f"\n========================")

    if map_precision:
        avg_precision = sum(map_precision) / len(map_precision)
        print(f"Average Precision: {avg_precision:.4f}")
    else:
        print("No se pudo calcular la precisión porque ninguna consulta tenía documentos relevantes.")

    print(f"\n========================")

    if map_recall:
        avg_recall = sum(map_recall) / len(map_recall)
        print(f"Average Recall: {avg_recall:.4f}")
    else:
        print("No se pudo calcular el recall porque ninguna consulta tenía documentos relevantes.")

In [71]:
# Calcular MAP general para el caso en el que se usan sinónimos

mostrar_metricas_finales_con_sinonimos(map_scores, map_precision, map_recall)


Mean Average Precision (MAP): 0.8786

Average Precision: 0.0675

Average Recall: 0.9747
