# Proyecto Bimestral: Sistema de Recuperación de Información basado en Reuters-21578

## 1. Introducci´on
El objetivo de este proyecto es diseñar, construir, programar y desplegar un Sistema de Recuperación de Información (SRI) utilizando el corpus Reuters-21578. El proyecto se dividirá en varias fases,
que se describen a continuación.

## 2. Fases del Proyecto
### 2.1. Adquisici´on de Datos
- Objetivo: Obtener y preparar el corpus Reuters-21578.
- Tareas:
    - Descargar el corpus Reuters-21578.
    - Descomprimir y organizar los archivos.
    - Documentar el proceso de adquisici´on de datos
    

In [1]:
import os
import zipfile

# Descargar y descomprimir el corpus Reuters-21578
def extract_reuters_data(zip_path, extract_to):
    with zipfile.ZipFile(zip_path, 'r') as zip_ref:
        zip_ref.extractall(extract_to)
    print("Datos descomprimidos en:", extract_to)

# Ruta al archivo zip descargado y carpeta de destino
zip_path = r"..\data\reuters.zip"
extract_to = r"..\data"
extract_reuters_data(zip_path, extract_to)


Datos descomprimidos en: ..\data


In [None]:
import os

def change_extension_to_txt(folder_path):
    """
    Cambia la extensión de todos los archivos en el directorio especificado a .txt.
    
    Parámetros:
        folder_path (str): Ruta del directorio donde se encuentran los archivos.
    """
    if not os.path.exists(folder_path):
        print(f"La carpeta '{folder_path}' no existe. Verifica la ruta.")
        return

    for filename in os.listdir(folder_path):
        old_path = os.path.join(folder_path, filename)
        # Verificar si es un archivo regular y no una carpeta
        if os.path.isfile(old_path):
            # Cambiar la extensión a .txt
            new_filename = f"{filename}.txt" if '.' not in filename else f"{os.path.splitext(filename)[0]}.txt"
            new_path = os.path.join(folder_path, new_filename)
            os.rename(old_path, new_path)
            print(f"Archivo renombrado: {old_path} -> {new_path}")
        else:
            print(f"Omitido (no es un archivo): {old_path}")

# Ruta de la carpeta principal descomprimida
reuters_dir = r"..\data\reuters"  # Cambiar según el directorio principal tras descomprimir

# Cambiar extensiones en las carpetas training y test
training_dir = os.path.join(reuters_dir, "training")
test_dir = os.path.join(reuters_dir, "test")

print("Procesando carpeta 'training'...")
change_extension_to_txt(training_dir)

print("Procesando carpeta 'test'...")
change_extension_to_txt(test_dir)


In [None]:
def rename_files_with_prefix(folder_path, prefix):
    """
    Renombra los archivos en una carpeta agregando un prefijo al nombre del archivo.
    
    Parámetros:
        folder_path (str): Ruta de la carpeta donde se encuentran los archivos.
        prefix (str): Prefijo lógico que se imprime, pero no forma parte del nombre del archivo.
    """
    if not os.path.exists(folder_path):
        print(f"La carpeta '{folder_path}' no existe. Verifica la ruta.")
        return

    for filename in os.listdir(folder_path):
        old_path = os.path.join(folder_path, filename)
        # Verificar si es un archivo regular y no una carpeta
        if os.path.isfile(old_path):
            # Crear nuevo nombre sin incluir el prefijo en la ruta
            new_filename = filename  # El prefijo es solo lógico, no afecta al nombre físico
            new_path = os.path.join(folder_path, new_filename)
            
            # Renombrar archivo (en este caso, puede ser el mismo nombre)
            os.rename(old_path, new_path)
            print(f"Archivo renombrado: {prefix}{filename} -> {prefix}{new_filename}")
        else:
            print(f"Omitido (no es un archivo): {old_path}")

# Ruta de la carpeta principal descomprimida
reuters_dir = r"..\data\reuters"  # Cambiar según el directorio principal tras descomprimir

# Renombrar archivos en las carpetas training y test
training_dir = os.path.join(reuters_dir, "training")
test_dir = os.path.join(reuters_dir, "test")

print("Renombrando archivos en 'training'...")
rename_files_with_prefix(training_dir, "training/")

print("Renombrando archivos en 'test'...")
rename_files_with_prefix(test_dir, "test/")


In [11]:
import os
import pandas as pd

def parse_cats_file(cats_file_path):
    """
    Lee el archivo cats.txt y crea un diccionario con categorías por nombre y origen.
    """
    categories = {}
    with open(cats_file_path, 'r', encoding='utf-8') as f:
        for line in f:
            parts = line.strip().split()
            origin_and_name = parts[0]  # ejemplo: test/14826
            origin, name = origin_and_name.split('/')
            category_list = " ".join(parts[1:])  # categorías separadas por espacios
            categories[(origin, name)] = category_list
    return categories

In [17]:
def extract_document_info(folder_path, origin, categories_dict):
    """
    Extrae la información relevante de los documentos dentro de una carpeta.
    """
    documents_data = []
    for filename in os.listdir(folder_path):
        file_path = os.path.join(folder_path, filename)
        if os.path.isfile(file_path) and filename.endswith('.txt'):
            with open(file_path, 'r', encoding='utf-8', errors='replace') as f:
                lines = f.readlines()
                title = lines[0].strip() if lines else ''
                content = "".join(lines[1:]).strip()
                category = categories_dict.get((origin, filename.split('.')[0]), '')
                documents_data.append({
                    'Nombre': filename.split('.')[0],
                    'Titulo': title,
                    'Contenido': content,
                    'Origen': origin,
                    'Categoria': category
                })
    return documents_data


In [15]:
# Ruta
cats_file_path = os.path.join(reuters_dir, "cats.txt")

# Leer el archivo cats.txt para obtener las categorías
categories_dict = parse_cats_file(cats_file_path)

In [18]:
# Procesar carpetas training y test
training_dir = os.path.join(reuters_dir, "training")
test_dir = os.path.join(reuters_dir, "test")

training_data = extract_document_info(training_dir, "training", categories_dict)
test_data = extract_document_info(test_dir, "test", categories_dict)

# Combinar los datos en un DataFrame
all_data = training_data + test_data
df = pd.DataFrame(all_data)

# Guardar en un archivo Excel
output_excel_path = os.path.join(reuters_dir, "reuters_data.xlsx")
df.to_excel(output_excel_path, index=False)


In [19]:
import os
import pandas as pd
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from nltk.stem import PorterStemmer
import string
import nltk

# Descargar recursos necesarios de NLTK
nltk.download('punkt')
nltk.download('stopwords')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\USER\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\USER\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [20]:
# Funciones de preprocesamiento
def clean_text(text):
    """Elimina caracteres no deseados y normaliza el texto."""
    text = text.lower()  # Convertir a minúsculas
    text = text.translate(str.maketrans('', '', string.punctuation))  # Eliminar puntuación
    text = text.strip()  # Eliminar espacios iniciales y finales
    return text

In [21]:
def preprocess_text(content):
    """Realiza la limpieza, tokenización, eliminación de stopwords y stemming del texto."""
    # Limpieza de texto
    cleaned_text = clean_text(content)
    
    # Tokenización
    tokens = word_tokenize(cleaned_text)
    
    # Eliminación de stopwords
    stop_words = set(stopwords.words('english'))
    tokens = [word for word in tokens if word not in stop_words]
    
    # Aplicación de stemming
    stemmer = PorterStemmer()
    stemmed_tokens = [stemmer.stem(word) for word in tokens]
    
    # Reconstrucción del texto preprocesado
    preprocessed_text = " ".join(stemmed_tokens)
    return preprocessed_text

In [None]:
def preprocess_text_without_stemmer(content):
    """Realiza la limpieza, tokenización, eliminación de stopwords y stemming del texto."""
    # Limpieza de texto
    cleaned_text = clean_text(content)
    
    # Tokenización
    tokens = word_tokenize(cleaned_text)
    
    # Eliminación de stopwords
    stop_words = set(stopwords.words('english'))
    tokens = [word for word in tokens if word not in stop_words]
    
    # Reconstrucción del texto preprocesado
    preprocessed_text = " ".join(tokens)
    return preprocessed_text

In [None]:
# Preprocesamiento de documentos
def preprocess_documents(data):
    """
    Aplica preprocesamiento al contenido de cada documento en los datos.
    """
    for doc in data:
        original_content = doc['Contenido']
        preprocessed_content = preprocess_text(original_content)
        doc['Contenido Preprocesado'] = preprocessed_content  # Agregar texto preprocesado
        preprocessed_content_wo_stemmer = preprocess_text_without_stemmer(original_contente)
        doc['Contenido_Preprocesado_Sin_Stemmer'] = preprocess_text_without_stemmer
        original_title = doc['Titulo']
        preprocesse_title = preprocess_text(original_title)
        doc['Titulo Preprocesado'] = preprocesse_title
    return data

In [25]:
# Rutas
reuters_dir = r"..\data\reuters"
cats_file_path = os.path.join(reuters_dir, "cats.txt")

# Leer el archivo cats.txt para obtener las categorías
categories_dict = parse_cats_file(cats_file_path)

# Procesar carpetas training y test
training_dir = os.path.join(reuters_dir, "training")
test_dir = os.path.join(reuters_dir, "test")

training_data = extract_document_info(training_dir, "training", categories_dict)
test_data = extract_document_info(test_dir, "test", categories_dict)

# Combinar los datos en un solo conjunto
all_data = training_data + test_data

# Preprocesar el contenido de los documentos
all_data = preprocess_documents(all_data)

# Convertir a DataFrame
df = pd.DataFrame(all_data)

# Guardar en un archivo Excel
output_excel_path = os.path.join(reuters_dir, "reuters_data_preprocessed.xlsx")
df.to_excel(output_excel_path, index=False)

In [26]:
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from gensim.models import Word2Vec
import numpy as np

# Cargar datos preprocesados
reuters_dir = r"..\data\reuters"
input_excel_path = os.path.join(reuters_dir, "reuters_data_preprocessed.xlsx")
df = pd.read_excel(input_excel_path)

# Seleccionar el contenido preprocesado
texts = df['Contenido Preprocesado'].fillna("").tolist()

In [27]:
# Bag of Words (BoW)
def bag_of_words(texts):
    vectorizer = CountVectorizer()
    bow_matrix = vectorizer.fit_transform(texts)
    bow_features = vectorizer.get_feature_names_out()
    print(f"BoW: Matriz de tamaño {bow_matrix.shape}")
    return bow_matrix, bow_features

In [28]:
# TF-IDF
def tf_idf(texts):
    vectorizer = TfidfVectorizer()
    tfidf_matrix = vectorizer.fit_transform(texts)
    tfidf_features = vectorizer.get_feature_names_out()
    print(f"TF-IDF: Matriz de tamaño {tfidf_matrix.shape}")
    return tfidf_matrix, tfidf_features

In [29]:
# Word2Vec
def word2vec(texts, vector_size=100, window=5, min_count=1):
    tokenized_texts = [text.split() for text in texts]
    model = Word2Vec(sentences=tokenized_texts, vector_size=vector_size, window=window, min_count=min_count)
    word_vectors = model.wv
    print(f"Word2Vec: {len(word_vectors)} palabras representadas con vectores de tamaño {vector_size}")
    return word_vectors

In [30]:
# Generar representaciones
bow_matrix, bow_features = bag_of_words(texts)
tfidf_matrix, tfidf_features = tf_idf(texts)
word_vectors = word2vec(texts)

BoW: Matriz de tamaño (10789, 38328)
TF-IDF: Matriz de tamaño (10789, 38328)
Word2Vec: 38355 palabras representadas con vectores de tamaño 100


In [31]:
# Documentar resultados
results = {
    "Técnica": ["Bag of Words", "TF-IDF", "Word2Vec"],
    "Dimensión de Matriz": [bow_matrix.shape, tfidf_matrix.shape, len(word_vectors)],
    "Tamaño de Vocabulario": [len(bow_features), len(tfidf_features), len(word_vectors)]
}

# Crear DataFrame con resultados
results_df = pd.DataFrame(results)

In [36]:
results_df

Unnamed: 0,Técnica,Dimensión de Matriz,Tamaño de Vocabulario
0,Bag of Words,"(10789, 38328)",38328
1,TF-IDF,"(10789, 38328)",38328
2,Word2Vec,38355,38355


In [33]:
# Guardar resultados en Excel
results_excel_path = os.path.join(reuters_dir, "vectorization_results.xlsx")
results_df.to_excel(results_excel_path, index=False)


In [46]:
from collections import defaultdict
import pandas as pd
import os

def build_inverted_index(documents):
    """
    Construye un índice invertido que mapea términos a documentos.
    
    Parámetros:
        documents (list): Lista de diccionarios con los datos de los documentos.
    
    Retorna:
        dict: Índice invertido donde las claves son términos y los valores son listas de documentos.
    """
    inverted_index = defaultdict(set)  # Diccionario donde cada término apunta a un conjunto de IDs de documentos
    
    for doc in documents:
        doc_id = doc['Nombre']  # ID del documento
        content = doc['Contenido Preprocesado']  # Contenido preprocesado
        terms = set(content.split())  # Obtener términos únicos del documento
        
        for term in terms:
            inverted_index[term].add(doc_id)  # Asocia el término con el documento
    
    return {term: list(doc_ids) for term, doc_ids in inverted_index.items()}

def save_inverted_index_to_excel(inverted_index, output_path):
    """
    Guarda el índice invertido en un archivo Excel para fácil visualización.
    
    Parámetros:
        inverted_index (dict): Índice invertido.
        output_path (str): Ruta del archivo Excel donde se guardará.
    """
    index_data = [{"Término": term, "Documentos": ", ".join(doc_ids)} for term, doc_ids in inverted_index.items()]
    df = pd.DataFrame(index_data)
    df.to_excel(output_path, index=False)
    print(f"Índice invertido guardado en: {output_path}")

In [56]:
# Cargar datos preprocesados
reuters_dir = r"..\data\reuters"
input_excel_path = os.path.join(reuters_dir, "reuters_data_preprocessed.xlsx")
df = pd.read_excel(input_excel_path)

# Seleccionar los datos preprocesados
documents = df.to_dict(orient='records')

In [54]:
# Construir índice invertido
inverted_index = build_inverted_index(documents)

# Guardar resultados en Excel
output_excel_path = os.path.join(reuters_dir, "inverted_index.xlsx")
save_inverted_index_to_excel(inverted_index, output_excel_path)

# Documentación del proceso
print("Índice invertido creado con éxito.")
print(f"Términos indexados: {len(inverted_index)}")

Índice invertido guardado en: ..\data\reuters\inverted_index.xlsx
Índice invertido creado con éxito.
Términos indexados: 38355


In [57]:
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
from collections import defaultdict
import pandas as pd

# Preprocesamiento de consulta
def preprocess_query(query, stop_words):
    """
    Limpia y preprocesa la consulta ingresada por el usuario.
    """
    query = query.lower().translate(str.maketrans('', '', string.punctuation))  # Limpieza básica
    tokens = query.split()  # Tokenización
    tokens = [word for word in tokens if word not in stop_words]  # Eliminación de stop words
    return tokens

# Cargar datos del índice invertido y documentos
input_excel_path = os.path.join(reuters_dir, "reuters_data_preprocessed.xlsx")
df = pd.read_excel(input_excel_path)

documents = df['Contenido Preprocesado'].tolist()
document_ids = df['Nombre'].tolist()


In [58]:
# Vectorización con TF-IDF
tfidf_vectorizer = TfidfVectorizer()
tfidf_matrix = tfidf_vectorizer.fit_transform(documents)

def search_query_cosine(query, tfidf_vectorizer, tfidf_matrix, document_ids, top_k=10):
    """
    Realiza una búsqueda utilizando similitud coseno.
    """
    query_vector = tfidf_vectorizer.transform([query])  # Vectorizar consulta
    cosine_similarities = cosine_similarity(query_vector, tfidf_matrix).flatten()
    
    # Ordenar documentos por similitud descendente
    ranked_indices = np.argsort(-cosine_similarities)[:top_k]
    results = [(document_ids[i], cosine_similarities[i]) for i in ranked_indices if cosine_similarities[i] > 0]
    return results


In [59]:
def jaccard_similarity(query_tokens, doc_tokens):
    """
    Calcula la similitud de Jaccard entre la consulta y un documento.
    """
    intersection = len(set(query_tokens).intersection(set(doc_tokens)))
    union = len(set(query_tokens).union(set(doc_tokens)))
    return intersection / union

def search_query_jaccard(query, documents, document_ids, top_k=10):
    """
    Realiza una búsqueda utilizando el coeficiente de Jaccard.
    """
    results = []
    query_tokens = query.split()
    for doc_id, doc_content in zip(document_ids, documents):
        doc_tokens = doc_content.split()
        score = jaccard_similarity(query_tokens, doc_tokens)
        if score > 0:
            results.append((doc_id, score))
    
    # Ordenar resultados por puntuación descendente
    results = sorted(results, key=lambda x: x[1], reverse=True)[:top_k]
    return results


In [61]:
def rank_results(results, method="cosine"):
    """
    Ordena los resultados de búsqueda con base en el método especificado.
    """
    return sorted(results, key=lambda x: x[1], reverse=True)

In [70]:
# Probar con una consulta
user_query = "BAHIA COCOA REVIEW"
preprocessed_query = " ".join(preprocess_query(user_query, set(stopwords.words('english'))))

In [71]:
preprocessed_query

'bahia cocoa review'

In [72]:
# Búsqueda con similitud coseno
cosine_results = search_query_cosine(preprocessed_query, tfidf_vectorizer, tfidf_matrix, document_ids)
cosine_results_ranked = rank_results(cosine_results)

# Búsqueda con similitud Jaccard
jaccard_results = search_query_jaccard(preprocessed_query, documents, document_ids)
jaccard_results_ranked = rank_results(jaccard_results, method="jaccard")



In [73]:
# Mostrar resultados
print("Resultados con Cosine Similarity:", cosine_results_ranked, "\n")
print("Resultados con Jaccard Similarity:", jaccard_results_ranked)

Resultados con Cosine Similarity: [('10505', 0.3489190110955247), ('20005', 0.3299085008910773), ('5258', 0.3081515746454346), ('17568', 0.295433459938331), ('10506', 0.29295174708100014), ('9450', 0.29263056733129134), ('1', 0.28592552258074655), ('15095', 0.2815685169312497), ('9953', 0.2800541328507257), ('10760', 0.2726918249116274)] 

Resultados con Jaccard Similarity: [('10471', 0.1), ('10491', 0.1), ('21061', 0.1), ('6068', 0.09090909090909091), ('3190', 0.08333333333333333), ('8326', 0.07142857142857142), ('17733', 0.07142857142857142), ('18221', 0.07142857142857142), ('19358', 0.07142857142857142), ('6873', 0.045454545454545456)]


## Evaluación

In [74]:
def calculate_metrics(retrieved_docs, relevant_docs):
    """
    Calcula precisión, recall y F1-Score.
    
    Parámetros:
        retrieved_docs (list): Lista de documentos recuperados.
        relevant_docs (list): Lista de documentos relevantes esperados.
    
    Retorna:
        dict: Diccionario con precisión, recall y F1-Score.
    """
    retrieved_set = set(retrieved_docs)
    relevant_set = set(relevant_docs)
    
    true_positives = len(retrieved_set & relevant_set)
    precision = true_positives / len(retrieved_set) if retrieved_set else 0
    recall = true_positives / len(relevant_set) if relevant_set else 0
    f1_score = (2 * precision * recall) / (precision + recall) if (precision + recall) > 0 else 0
    
    return {
        "Precision": precision,
        "Recall": recall,
        "F1-Score": f1_score
    }


In [75]:
def evaluate_system(queries, relevant_docs_dict, search_function, **kwargs):
    """
    Evalúa el sistema de búsqueda en base a consultas y documentos relevantes.
    
    Parámetros:
        queries (list): Lista de consultas.
        relevant_docs_dict (dict): Diccionario con documentos relevantes para cada consulta.
        search_function (function): Función de búsqueda a evaluar.
        kwargs: Argumentos adicionales para la función de búsqueda.
    
    Retorna:
        DataFrame: Resultados de precisión, recall y F1-Score por consulta.
    """
    evaluation_results = []
    
    for query, relevant_docs in relevant_docs_dict.items():
        results = search_function(query, **kwargs)
        retrieved_docs = [doc_id for doc_id, _ in results]
        metrics = calculate_metrics(retrieved_docs, relevant_docs)
        metrics["Consulta"] = query
        evaluation_results.append(metrics)
    
    return pd.DataFrame(evaluation_results)

# Simulación de consultas y documentos relevantes
queries = ["cocoa trade", "market analysis", "price increase"]
relevant_docs_dict = {
    "cocoa trade": ["doc1", "doc2"],
    "market analysis": ["doc3"],
    "price increase": ["doc2"]
}

# Evaluación con similitud coseno
cosine_eval_results = evaluate_system(
    queries,
    relevant_docs_dict,
    search_query_cosine,
    tfidf_vectorizer=tfidf_vectorizer,
    tfidf_matrix=tfidf_matrix,
    document_ids=document_ids
)

# Evaluación con similitud Jaccard
jaccard_eval_results = evaluate_system(
    queries,
    relevant_docs_dict,
    search_query_jaccard,
    documents=documents,
    document_ids=document_ids
)


In [77]:
# Comparar métricas entre configuraciones
comparison_df = pd.concat([
    cosine_eval_results.assign(Método="Cosine Similarity"),
    jaccard_eval_results.assign(Método="Jaccard Similarity")
])

# Guardar resultados en un archivo Excel
output_comparison_path = os.path.join(reuters_dir, "evaluation_results.xlsx")
comparison_df.to_excel(output_comparison_path, index=False)


In [81]:
# Crear un mapeo entre identificadores abstractos (doc1, doc2, ...) y nombres reales
doc_id_to_name = {f"doc{index+1}": str(doc_id) for index, doc_id in enumerate(df['Nombre'])}

# Revisar la búsqueda y resultados con nombres reales de los documentos
for query, relevant_docs in relevant_docs_dict.items():
    # Convertir los "documentos relevantes esperados" a nombres reales
    relevant_doc_names = [doc_id_to_name[doc] for doc in relevant_docs if doc in doc_id_to_name]
    
    # Ejecutar la búsqueda
    results = search_query_cosine(query, tfidf_vectorizer=tfidf_vectorizer, tfidf_matrix=tfidf_matrix, document_ids=document_ids)
    retrieved_docs = [doc_id for doc_id, _ in results]
    
    print(f"Consulta: {query}")
    print(f"Documentos relevantes esperados: {relevant_doc_names}")
    print(f"Documentos recuperados: {retrieved_docs}")


Consulta: cocoa trade
Documentos relevantes esperados: ['1', '10']
Documentos recuperados: ['10505', '20005', '5258', '10506', '10586', '15653', '10760', '15095', '9953', '9450']
Consulta: market analysis
Documentos relevantes esperados: ['100']
Documentos recuperados: ['9415', '4392', '19989', '8168', '9261', '5896', '247', '3084', '8098', '16658']
Consulta: price increase
Documentos relevantes esperados: ['10']
Documentos recuperados: ['19082', '5812', '18367', '4405', '4824', '6371', '18621', '7304', '10385', '5769']


In [82]:
# Crear un mapeo entre identificadores abstractos (doc1, doc2, ...) y nombres reales
doc_id_to_name = {f"doc{index+1}": str(doc_id) for index, doc_id in enumerate(df['Nombre'])}

# Actualizar documentos relevantes esperados con nombres reales
relevant_docs_dict_real = {
    query: [doc_id_to_name[doc] for doc in relevant_docs if doc in doc_id_to_name]
    for query, relevant_docs in relevant_docs_dict.items()
}


In [83]:
# Revisar la búsqueda y métricas
for query, relevant_docs in relevant_docs_dict_real.items():
    # Ejecutar la búsqueda
    results = search_query_cosine(query, tfidf_vectorizer=tfidf_vectorizer, tfidf_matrix=tfidf_matrix, document_ids=document_ids)
    retrieved_docs = [doc_id for doc_id, _ in results]
    
    # Calcular métricas
    metrics = calculate_metrics(retrieved_docs, relevant_docs)
    
    # Imprimir detalles
    print(f"Consulta: {query}")
    print(f"Documentos relevantes esperados: {relevant_docs}")
    print(f"Documentos recuperados: {retrieved_docs}")
    print(f"Métricas: Precisión={metrics['Precision']}, Recall={metrics['Recall']}, F1-Score={metrics['F1-Score']}")


Consulta: cocoa trade
Documentos relevantes esperados: ['1', '10']
Documentos recuperados: ['10505', '20005', '5258', '10506', '10586', '15653', '10760', '15095', '9953', '9450']
Métricas: Precisión=0.0, Recall=0.0, F1-Score=0
Consulta: market analysis
Documentos relevantes esperados: ['100']
Documentos recuperados: ['9415', '4392', '19989', '8168', '9261', '5896', '247', '3084', '8098', '16658']
Métricas: Precisión=0.0, Recall=0.0, F1-Score=0
Consulta: price increase
Documentos relevantes esperados: ['10']
Documentos recuperados: ['19082', '5812', '18367', '4405', '4824', '6371', '18621', '7304', '10385', '5769']
Métricas: Precisión=0.0, Recall=0.0, F1-Score=0


In [84]:
!pip install flask




# Carga del corpus

In [5]:
# Directorio donde se encuentran los archivos
directorytraining = extract_to + r"\reuters\training"
directorytest = extract_to + r"\reuters\test"

In [None]:
# Procesar las carpetas training y test dentro de la carpeta principal
    for subfolder, prefix in [("training", "training/"), ("test", "test/")]:
        folder_path = os.path.join(reuters_dir, subfolder)
        
        if not os.path.exists(folder_path):
            print(f"El directorio '{folder_path}' no existe. Saltando.")
            continue
        
        # Recorrer y renombrar archivos
        for filename in os.listdir(folder_path):
            old_path = os.path.join(folder_path, filename)
            if os.path.isfile(old_path):
                # Crear nuevo nombre con prefijo y extensión .txt
                new_filename = f"{prefix}{os.path.splitext(filename)[0]}.txt"
                new_path = os.path.join(folder_path, new_filename)
                
                try:
                    # Renombrar archivo
                    os.rename(old_path, new_path)
                    print(f"Archivo renombrado: {old_path} -> {new_path}")
                except FileNotFoundError as e:
                    print(f"Error al renombrar archivo: {old_path} -> {new_path}. Detalles: {e}")
                except Exception as e:
                    print(f"Error inesperado con el archivo {old_path}. Detalles: {e}")

In [3]:
# Leer cada archivo de texto en el directorio
documents = []
for filename in os.listdir(directory):
    if filename.endswith(".txt") or filename.isnumeric():  # Ajusta la condición según el formato del nombre
        file_path = os.path.join(directory, filename)
        with open(file_path, 'r', encoding='utf-8') as file:
            content = file.read()
            documents.append(content)

print("Total de documentos cargados:", len(documents))


Total de documentos cargados: 7769


## 2.2. Preprocesamiento
- Objetivo: Limpiar y preparar los datos para su an´alisis.
- Tareas:
    - Extraer el contenido relevante de los documentos.
    - Realizar limpieza de datos: eliminaci´on de caracteres no deseados, normalizaci´on de texto, etc.
    - Tokenizaci´on: dividir el texto en palabras o tokens.
    - Eliminar stop words y aplicar stemming o lematizaci´on.
    - Documentar cada paso del preprocesamiento

In [31]:
import re
import nltk
from nltk.corpus import stopwords
from nltk.stem import PorterStemmer

# Cargar stopwords y el stemmer
nltk.download('stopwords')
stop_words = set(stopwords.words("english"))
stemmer = PorterStemmer()

# Función de preprocesamiento
def preprocess_text(text):
    text = re.sub(r'\W', ' ', text)  # Eliminar caracteres no deseados
    text = text.lower()  # Convertir a minúsculas
    tokens = text.split()  # Tokenizar el texto
    tokens = [word for word in tokens if word not in stop_words]  # Quitar stopwords
    tokens = [stemmer.stem(word) for word in tokens]  # Aplicar stemming
    return " ".join(tokens)

# Ejemplo de uso
sample_text = "This is a sample document for preprocessing in Information Retrieval."
processed_text = preprocess_text(sample_text)
print(processed_text)


sampl document preprocess inform retriev


[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\USER\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [32]:
processed_text

'sampl document preprocess inform retriev'

In [6]:
import os
import re
import nltk
import numpy as np
from bs4 import BeautifulSoup
from nltk.corpus import stopwords
from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
import xml.etree.ElementTree as ET
from tqdm import tqdm

class ReutersImplementation:
    def __init__(self, data_path):
        """
        Inicializa el sistema con la ruta a los datos
        Args:
            data_path (str): Ruta al directorio con los archivos Reuters
        """
        self.data_path = data_path
        self.documents = []
        self.processed_docs = []
        self.index = {}
        self.vectorizer = None
        self.tfidf_matrix = None
        
        # Inicializar NLTK
        try:
            nltk.data.find('tokenizers/punkt')
            nltk.data.find('corpora/stopwords')
        except LookupError:
            print("Descargando recursos NLTK necesarios...")
            nltk.download('punkt')
            nltk.download('stopwords')
        
        self.stop_words = set(stopwords.words('english'))
        self.stemmer = PorterStemmer()
        
    def load_single_file(self, file_path):
        """
        Carga y procesa un único archivo Reuters
        Args:
            file_path (str): Ruta al archivo
        Returns:
            list: Lista de documentos extraídos del archivo
        """
        docs = []
        try:
            with open(file_path, 'r', encoding='utf-8', errors='ignore') as file:
                content = file.read()
                
                # Limpiar el contenido para manejar casos especiales de Reuters
                content = content.replace('&', '&amp;')
                content = re.sub(r'<!DOCTYPE[^>]*>', '', content)
                content = re.sub(r'<!DOCTYPE[^>]*>', '', content)
                
                soup = BeautifulSoup(content, 'html.parser')
                reuters_docs = soup.find_all('reuters')
                
                for doc in reuters_docs:
                    # Extraer campos relevantes
                    doc_id = doc.get('newid', '')
                    
                    # Extraer título
                    title_tag = doc.find('title')
                    title = title_tag.get_text().strip() if title_tag else ''
                    
                    # Extraer cuerpo
                    body_tag = doc.find('body')
                    body = body_tag.get_text().strip() if body_tag else ''
                    
                    # Extraer tópicos
                    topics_tag = doc.find('topics')
                    topics = [t.get_text().strip() for t in doc.find_all('d')] if topics_tag else []
                    
                    if body:  # Solo incluir documentos que tengan cuerpo
                        docs.append({
                            'id': doc_id,
                            'title': title,
                            'body': body,
                            'topics': topics,
                            'file_name': os.path.basename(file_path)
                        })
                        
        except Exception as e:
            print(f"Error procesando archivo {file_path}: {str(e)}")
            
        return docs

    def load_corpus(self):
        """
        Carga todo el corpus de Reuters
        """
        print("Cargando corpus Reuters...")
        files = [f for f in os.listdir(self.data_path) if f.endswith('.sgm')]
        
        for file_name in tqdm(files, desc="Procesando archivos"):
            file_path = os.path.join(self.data_path, file_name)
            docs = self.load_single_file(file_path)
            self.documents.extend(docs)
            
        print(f"Total de documentos cargados: {len(self.documents)}")
        
        # Guardar estadísticas básicas
        topics = set()
        for doc in self.documents:
            topics.update(doc['topics'])
            
        print(f"Estadísticas del corpus:")
        print(f"- Número de documentos: {len(self.documents)}")
        print(f"- Número de tópicos únicos: {len(topics)}")
        print(f"- Tópicos más comunes: {self.get_common_topics(5)}")

    def preprocess_text(self, text):
        """
        Preprocesa un texto individual
        """
        # Convertir a minúsculas
        text = text.lower()
        
        # Eliminar caracteres especiales y números
        text = re.sub(r'[^\w\s]', ' ', text)
        text = re.sub(r'\d+', ' ', text)
        
        # Tokenización
        tokens = word_tokenize(text)
        
        # Eliminar stop words y aplicar stemming
        tokens = [self.stemmer.stem(token) for token in tokens 
                 if token not in self.stop_words and len(token) > 2]
        
        return tokens

    def process_documents(self):
        """
        Preprocesa todos los documentos del corpus
        """
        print("Preprocesando documentos...")
        for doc in tqdm(self.documents, desc="Preprocesando"):
            # Combinar título y cuerpo para el procesamiento
            full_text = f"{doc['title']} {doc['body']}"
            tokens = self.preprocess_text(full_text)
            
            self.processed_docs.append({
                'id': doc['id'],
                'tokens': tokens,
                'original': doc
            })

    def build_index(self):
        """
        Construye el índice invertido
        """
        print("Construyendo índice invertido...")
        self.index = {}
        
        for doc_idx, doc in enumerate(tqdm(self.processed_docs, desc="Indexando")):
            for position, token in enumerate(doc['tokens']):
                if token not in self.index:
                    self.index[token] = []
                self.index[token].append({
                    'doc_id': doc['id'],
                    'doc_idx': doc_idx,
                    'position': position
                })
        
        print(f"Índice construido con {len(self.index)} términos")

    def get_common_topics(self, n=5):
        """
        Obtiene los n tópicos más comunes
        """
        topic_count = {}
        for doc in self.documents:
            for topic in doc['topics']:
                topic_count[topic] = topic_count.get(topic, 0) + 1
        
        return sorted(topic_count.items(), key=lambda x: x[1], reverse=True)[:n]

    def create_vectorizer(self):
        """
        Crea la representación vectorial de los documentos
        """
        print("Creando representación vectorial...")
        
        # Crear corpus de documentos procesados
        corpus = [' '.join(doc['tokens']) for doc in self.processed_docs]
        
        # Vectorización TF-IDF
        self.vectorizer = TfidfVectorizer(lowercase=False)  # lowercase=False porque ya está preprocesado
        self.tfidf_matrix = self.vectorizer.fit_transform(corpus)
        
        print(f"Matriz TF-IDF creada con forma: {self.tfidf_matrix.shape}")

    def search(self, query, top_k=10):
        """
        Realiza una búsqueda en el corpus
        Args:
            query (str): Consulta del usuario
            top_k (int): Número de resultados a retornar
        Returns:
            list: Lista de documentos más relevantes
        """
        # Preprocesar la consulta
        query_tokens = self.preprocess_text(query)
        query_text = ' '.join(query_tokens)
        
        # Vectorizar la consulta
        query_vec = self.vectorizer.transform([query_text])
        
        # Calcular similitud
        similarities = cosine_similarity(query_vec, self.tfidf_matrix).flatten()
        
        # Obtener los documentos más relevantes
        top_indices = similarities.argsort()[-top_k:][::-1]
        
        results = []
        for idx in top_indices:
            doc = self.processed_docs[idx]
            original_doc = doc['original']
            
            # Calcular un extracto relevante
            preview = original_doc['body'][:200] + '...' if len(original_doc['body']) > 200 else original_doc['body']
            
            results.append({
                'id': doc['id'],
                'title': original_doc['title'],
                'preview': preview,
                'topics': original_doc['topics'],
                'similarity': float(similarities[idx]),
                'file_name': original_doc['file_name']
            })
        
        return results



In [7]:
if __name__ == "__main__":
    # Ruta a los documentos Reuters
    data_path = r"C:\Users\USER\Documents\EPN\SEPTIMO SEMESTRE\RECUPERACIÓN_INFORMACIÓN\IR-2024B\data\reuters\training"
    
    # Crear instancia del sistema
    reuters_system = ReutersImplementation(data_path)
    
    # Cargar y procesar el corpus
    reuters_system.load_corpus()
    reuters_system.process_documents()
    reuters_system.build_index()
    reuters_system.create_vectorizer()
    
    # Ejemplo de búsqueda
    query = "oil prices impact on global economy"
    results = reuters_system.search(query)
    
    print("\nResultados de búsqueda para:", query)
    for i, result in enumerate(results, 1):
        print(f"\n{i}. {result['title']} (Score: {result['similarity']:.4f})")
        print(f"ID: {result['id']} - Archivo: {result['file_name']}")
        print(f"Tópicos: {', '.join(result['topics'])}")
        print(f"Preview: {result['preview'][:150]}...")

Cargando corpus Reuters...


Procesando archivos: 0it [00:00, ?it/s]


Total de documentos cargados: 0
Estadísticas del corpus:
- Número de documentos: 0
- Número de tópicos únicos: 0
- Tópicos más comunes: []
Preprocesando documentos...


Preprocesando: 0it [00:00, ?it/s]


Construyendo índice invertido...


Indexando: 0it [00:00, ?it/s]

Índice construido con 0 términos
Creando representación vectorial...





ValueError: empty vocabulary; perhaps the documents only contain stop words

In [8]:
import os
import re
import nltk
import numpy as np
from bs4 import BeautifulSoup
from nltk.corpus import stopwords
from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
from tqdm import tqdm

class ReutersImplementation:
    def __init__(self, data_path):
        self.data_path = data_path
        self.documents = []
        self.processed_docs = []
        self.index = {}
        self.vectorizer = None
        self.tfidf_matrix = None
        
        # Inicializar NLTK
        try:
            nltk.data.find('tokenizers/punkt')
            nltk.data.find('corpora/stopwords')
        except LookupError:
            print("Descargando recursos NLTK necesarios...")
            nltk.download('punkt')
            nltk.download('stopwords')
        
        self.stop_words = set(stopwords.words('english'))
        self.stemmer = PorterStemmer()
        
    def load_single_file(self, file_path):
        docs = []
        try:
            with open(file_path, 'r', encoding='utf-8', errors='ignore') as file:
                content = file.read()
                
                # Limpiar el contenido para manejar casos especiales de Reuters
                content = content.replace('&', '&amp;')
                
                soup = BeautifulSoup(content, 'html.parser')
                reuters_docs = soup.find_all('reuters')
                
                for doc in reuters_docs:
                    # Extraer campos relevantes
                    doc_id = doc.get('newid', '')
                    
                    # Extraer texto
                    text_tag = doc.find('text')
                    if text_tag:
                        # Obtener título
                        title_tag = text_tag.find('title')
                        title = title_tag.get_text().strip() if title_tag else ''
                        
                        # Obtener cuerpo
                        body = ''
                        if text_tag.body:
                            body = text_tag.body.get_text().strip()
                        else:
                            # Si no hay tag body específico, tomar todo el contenido del text
                            body = text_tag.get_text().strip()
                            if title:  # Remover el título del cuerpo si existe
                                body = body.replace(title, '', 1).strip()
                        
                        # Extraer tópicos
                        topics_tag = doc.find('topics')
                        topics = [t.get_text().strip() for t in doc.find_all('d')] if topics_tag else []
                        
                        if body:  # Solo incluir documentos que tengan contenido
                            docs.append({
                                'id': doc_id,
                                'title': title,
                                'body': body,
                                'topics': topics,
                                'file_name': os.path.basename(file_path)
                            })
                        
        except Exception as e:
            print(f"Error procesando archivo {file_path}: {str(e)}")
            
        return docs

    def load_corpus(self):
        print("Cargando corpus Reuters...")
        files = [f for f in os.listdir(self.data_path) if f.endswith('.sgm')]
        
        for file_name in tqdm(files, desc="Procesando archivos"):
            file_path = os.path.join(self.data_path, file_name)
            docs = self.load_single_file(file_path)
            self.documents.extend(docs)
            
        print(f"Total de documentos cargados: {len(self.documents)}")

    def preprocess_text(self, text):
        """
        Preprocesa un texto individual con reglas menos agresivas
        """
        # Convertir a minúsculas
        text = text.lower()
        
        # Reemplazar saltos de línea con espacios
        text = re.sub(r'\n', ' ', text)
        
        # Mantener números y algunos caracteres especiales importantes
        text = re.sub(r'[^\w\s.-]', ' ', text)
        
        # Tokenización
        tokens = word_tokenize(text)
        
        # Lista personalizada de stop words (más permisiva)
        custom_stops = {'the', 'a', 'an', 'and', 'or', 'but', 'in', 'on', 'at', 'to'}
        
        # Filtrado menos agresivo
        processed_tokens = []
        for token in tokens:
            # Mantener números y términos con números
            if token.isdigit() or any(c.isdigit() for c in token):
                processed_tokens.append(token)
                continue
                
            # Aplicar stemming solo a palabras que no son stop words
            if token not in custom_stops and len(token) > 1:
                stemmed = self.stemmer.stem(token)
                processed_tokens.append(stemmed)
        
        return processed_tokens

    def process_documents(self):
        print("Preprocesando documentos...")
        self.processed_docs = []
        
        for doc in tqdm(self.documents, desc="Preprocesando"):
            # Procesar título y cuerpo por separado
            title_tokens = self.preprocess_text(doc['title']) if doc['title'] else []
            body_tokens = self.preprocess_text(doc['body']) if doc['body'] else []
            
            # Dar más peso a los tokens del título repitiéndolos
            all_tokens = title_tokens * 2 + body_tokens
            
            if all_tokens:  # Solo agregar documentos que tengan tokens
                self.processed_docs.append({
                    'id': doc['id'],
                    'tokens': all_tokens,
                    'original': doc
                })

    def build_index(self):
        print("Construyendo índice invertido...")
        self.index = {}
        
        for doc_idx, doc in enumerate(tqdm(self.processed_docs, desc="Indexando")):
            for position, token in enumerate(doc['tokens']):
                if token not in self.index:
                    self.index[token] = []
                self.index[token].append({
                    'doc_id': doc['id'],
                    'doc_idx': doc_idx,
                    'position': position
                })
        
        print(f"Índice construido con {len(self.index)} términos")

    def create_vectorizer(self):
        print("Creando representación vectorial...")
        
        # Crear corpus de documentos procesados
        corpus = [' '.join(doc['tokens']) for doc in self.processed_docs]
        
        # Configurar TF-IDF con parámetros más permisivos
        self.vectorizer = TfidfVectorizer(
            lowercase=False,  # Ya está en minúsculas
            token_pattern=r'(?u)\b\w+\b',  # Patrón más permisivo
            min_df=2,  # Aparecer al menos en 2 documentos
            max_df=0.95  # Ignorar términos que aparecen en más del 95% de los documentos
        )
        
        self.tfidf_matrix = self.vectorizer.fit_transform(corpus)
        print(f"Matriz TF-IDF creada con forma: {self.tfidf_matrix.shape}")

    def search(self, query, top_k=10):
        # Preprocesar la consulta
        query_tokens = self.preprocess_text(query)
        query_text = ' '.join(query_tokens)
        
        # Vectorizar la consulta
        query_vec = self.vectorizer.transform([query_text])
        
        # Calcular similitud
        similarities = cosine_similarity(query_vec, self.tfidf_matrix).flatten()
        
        # Obtener los documentos más relevantes
        top_indices = similarities.argsort()[-top_k:][::-1]
        
        results = []
        for idx in top_indices:
            doc = self.processed_docs[idx]
            original_doc = doc['original']
            
            # Calcular un extracto relevante
            preview = original_doc['body'][:200] + '...' if len(original_doc['body']) > 200 else original_doc['body']
            
            results.append({
                'id': doc['id'],
                'title': original_doc['title'],
                'preview': preview,
                'topics': original_doc['topics'],
                'similarity': float(similarities[idx]),
                'file_name': original_doc['file_name']
            })
        
        return results



In [10]:
# Ejemplo de uso
if __name__ == "__main__":
    # Ruta a los documentos Reuters
    data_path = r"..\data\reuters\training"
    
    # Crear y configurar el sistema
    reuters_system = ReutersImplementation(data_path)
    
    # Procesar el corpus
    reuters_system.load_corpus()
    reuters_system.process_documents()
    reuters_system.build_index()
    reuters_system.create_vectorizer()
    
    # Realizar una búsqueda de ejemplo
    query = "oil prices impact on global economy"
    results = reuters_system.search(query)
    
    # Mostrar resultados
    print(f"\nResultados para la búsqueda: '{query}'")
    for i, result in enumerate(results, 1):
        print(f"\n{i}. {result['title']} (Score: {result['similarity']:.4f})")
        print(f"ID: {result['id']} - Archivo: {result['file_name']}")
        print(f"Tópicos: {', '.join(result['topics'])}")
        print(f"Preview: {result['preview'][:150]}...")

Cargando corpus Reuters...


Procesando archivos: 0it [00:00, ?it/s]


Total de documentos cargados: 0
Preprocesando documentos...


Preprocesando: 0it [00:00, ?it/s]


Construyendo índice invertido...


Indexando: 0it [00:00, ?it/s]

Índice construido con 0 términos
Creando representación vectorial...





ValueError: empty vocabulary; perhaps the documents only contain stop words

In [11]:
# Configurar y cargar el sistema
reuters_system = ReutersImplementation(data_path)
reuters_system.load_corpus()
reuters_system.process_documents()
reuters_system.build_index()
reuters_system.create_vectorizer()

# Realizar búsqueda
results = reuters_system.search("oil prices")

# Mostrar resultados
for result in results:
    print(f"{result['title']} - Score: {result['similarity']:.4f}")

Cargando corpus Reuters...


Procesando archivos: 0it [00:00, ?it/s]


Total de documentos cargados: 0
Preprocesando documentos...


Preprocesando: 0it [00:00, ?it/s]


Construyendo índice invertido...


Indexando: 0it [00:00, ?it/s]

Índice construido con 0 términos
Creando representación vectorial...





ValueError: empty vocabulary; perhaps the documents only contain stop words