# Proyecto Bimestral: Sistema de Recuperación de Información basado en Reuters-21578

## 1. Introducci´on
El objetivo de este proyecto es diseñar, construir, programar y desplegar un Sistema de Recuperación de Información (SRI) utilizando el corpus Reuters-21578. El proyecto se dividirá en varias fases,
que se describen a continuación.

In [None]:
import os
import zipfile
import pandas as pd
import string
import nltk
import numpy as np
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from nltk.stem import PorterStemmer
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from gensim.models import Word2Vec
from collections import defaultdict
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity




In [None]:
# Descargar recursos de NLTK
nltk.download('punkt')
nltk.download('stopwords')


## 2. Fases del Proyecto
### 2.1. Adquisici´on de Datos
- Objetivo: Obtener y preparar el corpus Reuters-21578.
- Tareas:
    - Descargar el corpus Reuters-21578.
    - Descomprimir y organizar los archivos.
    - Documentar el proceso de adquisici´on de datos

In [None]:
# Descargar y descomprimir el corpus Reuters-21578
def extract_reuters_data(zip_path, extract_to):
    with zipfile.ZipFile(zip_path, 'r') as zip_ref:
        zip_ref.extractall(extract_to)
    print("Datos descomprimidos en:", extract_to)

# Ruta al archivo zip descargado y carpeta de destino
zip_path = r"..\data\reuters.zip"
extract_to = r"..\data"
extract_reuters_data(zip_path, extract_to)

In [None]:
def change_extension_to_txt(folder_path):
    """
    Cambia la extensión de todos los archivos a .txt.
    
    Parámetros:
        folder_path (str): Ruta del directorio donde se encuentran los archivos.
    """
    if not os.path.exists(folder_path):
        print(f"La carpeta '{folder_path}' no existe. Verifica la ruta.")
        return

    for filename in os.listdir(folder_path):
        old_path = os.path.join(folder_path, filename)
        # Verificar si es un archivo regular y no una carpeta
        if os.path.isfile(old_path):
            # Cambiar la extensión a .txt
            new_filename = f"{filename}.txt" if '.' not in filename else f"{os.path.splitext(filename)[0]}.txt"
            new_path = os.path.join(folder_path, new_filename)
            os.rename(old_path, new_path)
            print(f"Archivo renombrado: {old_path} -> {new_path}")
        else:
            print(f"Omitido (no es un archivo): {old_path}")

# Ruta de la carpeta principal descomprimida
reuters_dir = r"..\data\reuters" 

# Cambiar extensiones en las carpetas training y test
training_dir = os.path.join(reuters_dir, "training")
test_dir = os.path.join(reuters_dir, "test")

print("Procesando carpeta 'training'...")
change_extension_to_txt(training_dir)

print("Procesando carpeta 'test'...")
change_extension_to_txt(test_dir)


In [None]:
def parse_cats_file(cats_file_path):
    """
    Lee el archivo cats.txt y crea un diccionario con categorías por nombre y origen.
    """
    categories = {}
    with open(cats_file_path, 'r', encoding='utf-8') as f:
        for line in f:
            parts = line.strip().split()
            origin_and_name = parts[0] 
            origin, name = origin_and_name.split('/')
            category_list = " ".join(parts[1:])
            categories[(origin, name)] = category_list
    return categories

In [None]:
def extract_document_info(folder_path, origin, categories_dict):
    """
    Extrae la información relevante de los documentos dentro de una carpeta.
    """
    documents_data = []
    for filename in os.listdir(folder_path):
        file_path = os.path.join(folder_path, filename)
        if os.path.isfile(file_path) and filename.endswith('.txt'):
            with open(file_path, 'r', encoding='utf-8', errors='replace') as f:
                lines = f.readlines()
                title = lines[0].strip() if lines else ''
                content = "".join(lines[1:]).strip()
                category = categories_dict.get((origin, filename.split('.')[0]), '')
                documents_data.append({
                    'Nombre': filename.split('.')[0],
                    'Titulo': title,
                    'Contenido': content,
                    'Origen': origin,
                    'Categoria': category
                })
    return documents_data

## 2.2. Preprocesamiento
### Objetivo: Limpiar y preparar los datos para su an´alisis.
- Tareas:
    - Extraer el contenido relevante de los documentos.
    - Realizar limpieza de datos: eliminaci´on de caracteres no deseados, normalizaci´on de texto, etc.
    - Tokenizaci´on: dividir el texto en palabras o tokens.
    - Eliminar stop words y aplicar stemming o lematizaci´on.
    - Documentar cada paso del preprocesamiento.

In [None]:
def clean_text(text):
    """Elimina caracteres no deseados y normaliza el texto."""
    text = text.lower()  # Convertir a minúsculas
    text = text.translate(str.maketrans('', '', string.punctuation))  # Eliminar puntuación
    text = text.strip()  # Eliminar espacios iniciales y finales
    return text

In [None]:
def preprocess_text(content):
    """Realiza la limpieza, tokenización, eliminación de stopwords y stemming del texto."""
    # Limpieza de texto
    cleaned_text = clean_text(content)
    
    # Tokenización
    tokens = word_tokenize(cleaned_text)
    
    # Eliminación de stopwords
    stop_words = set(stopwords.words('english'))
    tokens = [word for word in tokens if word not in stop_words]
    
    # Aplicación de stemming
    stemmer = PorterStemmer()
    stemmed_tokens = [stemmer.stem(word) for word in tokens]
    
    # Reconstrucción del texto preprocesado
    preprocessed_text = " ".join(stemmed_tokens)
    return preprocessed_text

In [None]:
# Preprocesamiento de documentos
def preprocess_documents(data):
    """
    Aplica preprocesamiento al contenido de cada documento en los datos.
    """
    for doc in data:
        original_content = doc['Contenido']
        preprocessed_content = preprocess_text(original_content)
        doc['Contenido Preprocesado'] = preprocessed_content  # Agregar texto preprocesado
        original_title = doc['Titulo']
        preprocesse_title = preprocess_text(original_title)
        doc['Titulo Preprocesado'] = preprocesse_title
    return data

In [None]:
# Rutas
training_dir = os.path.join(reuters_dir, "training")
test_dir = os.path.join(reuters_dir, "test")
cats_file_path = os.path.join(reuters_dir, "cats.txt")

# Leer el archivo cats.txt para obtener las categorías
categories_dict = parse_cats_file(cats_file_path)

# Procesar carpetas training y test
training_data = extract_document_info(training_dir, "training", categories_dict)
test_data = extract_document_info(test_dir, "test", categories_dict)

# Preprocesar el contenido de los documentos
all_data = training_data + test_data
all_data = preprocess_documents(all_data)

# Guardar en un archivo Excel
df = pd.DataFrame(all_data) # Convierto a dataframe
output_excel_path = os.path.join(reuters_dir, "reuters_data_preprocessed.xlsx")
df.to_excel(output_excel_path, index=False)

## 2.3. Representaci´on de Datos en Espacio Vectorial
### Objetivo: Convertir los textos en una forma que los algoritmos puedan procesar.
- Tareas:
    - Utilizar t´ecnicas como Bag ofWords (BoW), TF-IDF, yWord2Vec para vectorizar el texto.
    - Evaluar las diferentes t´ecnicas de vectorizaci´on.
    - Documentar los m´etodos y resultados obtenidos.

In [None]:
input_excel_path = os.path.join(reuters_dir, "reuters_data_preprocessed.xlsx")
df = pd.read_excel(input_excel_path)

# Seleccionar el contenido preprocesado
texts = df['Contenido Preprocesado'].fillna("").tolist()

In [None]:
# Bag of Words (BoW)
def bag_of_words(texts):
    vectorizer = CountVectorizer()
    bow_matrix = vectorizer.fit_transform(texts)
    bow_features = vectorizer.get_feature_names_out()
    print(f"BoW: Matriz de tamaño {bow_matrix.shape}")
    return bow_matrix, bow_features

In [None]:
# TF-IDF
def tf_idf(texts):
    vectorizer = TfidfVectorizer()
    tfidf_matrix = vectorizer.fit_transform(texts)
    tfidf_features = vectorizer.get_feature_names_out()
    print(f"TF-IDF: Matriz de tamaño {tfidf_matrix.shape}")
    return tfidf_matrix, tfidf_features

In [None]:
# Word2Vec
def word2vec(texts, vector_size=100, window=5, min_count=1):
    tokenized_texts = [text.split() for text in texts]
    model = Word2Vec(sentences=tokenized_texts, vector_size=vector_size, window=window, min_count=min_count)
    word_vectors = model.wv
    print(f"Word2Vec: {len(word_vectors)} palabras representadas con vectores de tamaño {vector_size}")
    return word_vectors

In [None]:
# Generar representaciones
bow_matrix, bow_features = bag_of_words(texts)
tfidf_matrix, tfidf_features = tf_idf(texts)
word_vectors = word2vec(texts)

In [None]:
# Documentar resultados
results = {
    "Técnica": ["Bag of Words", "TF-IDF", "Word2Vec"],
    "Dimensión de Matriz": [bow_matrix.shape, tfidf_matrix.shape, len(word_vectors)],
    "Tamaño de Vocabulario": [len(bow_features), len(tfidf_features), len(word_vectors)]
}

# Crear DataFrame con resultados
results_df = pd.DataFrame(results)

## 2.4. Indexaci´on
### Objetivo: Crear un ´ındice que permita b´usquedas eficientes.
- Tareas:
    - Construir un ´ındice invertido que mapee t´erminos a documentos.
    - Implementar y optimizar estructuras de datos para el ´ındice.
    - Documentar el proceso de construcci´on del ´ındice.

In [None]:
def build_inverted_index(documents):
    """
    Construye un índice invertido que mapea términos a documentos.
    
    Parámetros:
        documents (list): Lista de diccionarios con los datos de los documentos.
    
    Retorna:
        dict: Índice invertido donde las claves son términos y los valores son listas de documentos.
    """
    inverted_index = defaultdict(set)  # Diccionario donde cada término apunta a un conjunto de IDs de documentos
    
    for doc in documents:
        doc_id = doc['Nombre']  # ID del documento
        content = doc['Contenido Preprocesado']  # Contenido preprocesado
        terms = set(content.split())  # Obtener términos únicos del documento
        
        for term in terms:
            inverted_index[term].add(doc_id)  # Asocia el término con el documento
    
    return {term: list(doc_ids) for term, doc_ids in inverted_index.items()}

In [None]:
def save_inverted_index_to_excel(inverted_index, output_path):
    """
    Guarda el índice invertido en un archivo Excel para fácil visualización.
    
    Parámetros:
        inverted_index (dict): Índice invertido.
        output_path (str): Ruta del archivo Excel donde se guardará.
    """
    index_data = [{"Término": term, "Documentos": ", ".join(doc_ids)} for term, doc_ids in inverted_index.items()]
    df = pd.DataFrame(index_data)
    df.to_excel(output_path, index=False)
    print(f"Índice invertido guardado en: {output_path}")

In [None]:
# Seleccionar los datos preprocesados
documents = df.to_dict(orient='records')

# Construir índice invertido
inverted_index = build_inverted_index(documents)

# Guardar resultados en Excel
output_excel_path = os.path.join(reuters_dir, "inverted_index.xlsx")
save_inverted_index_to_excel(inverted_index, output_excel_path)

# Documentación del proceso
print("Índice invertido creado con éxito.")
print(f"Términos indexados: {len(inverted_index)}")

## 2.5. Diseño del Motor de B´usqueda
### Objetivo: Implementar la funcionalidad de b´usqueda.
- Tareas:
    - Desarrollar la l´ogica para procesar consultas de usuarios.
    - Utilizar algoritmos de similitud como similitud coseno o Jaccard.
    - Desarrollar un algoritmo de ranking para ordenar los resultados.
    - Documentar la arquitectura y los algoritmos utilizados.

In [None]:
# Preprocesamiento de consulta
def preprocess_query(query, stop_words):
    """
    Limpia y preprocesa la consulta ingresada por el usuario.
    """
    query = query.lower().translate(str.maketrans('', '', string.punctuation))  # Limpieza básica
    tokens = query.split()  # Tokenización
    tokens = [word for word in tokens if word not in stop_words]  # Eliminación de stop words
    return tokens

# Cargar datos del índice invertido y documentos
input_excel_path = os.path.join(reuters_dir, "reuters_data_preprocessed.xlsx")
df = pd.read_excel(input_excel_path)

documents = df['Contenido Preprocesado'].tolist()
document_ids = df['Nombre'].tolist()

In [None]:
# Vectorización con TF-IDF
tfidf_vectorizer = TfidfVectorizer()
tfidf_matrix = tfidf_vectorizer.fit_transform(documents)

def search_query_cosine(query, tfidf_vectorizer, tfidf_matrix, document_ids, top_k=10):
    """
    Realiza una búsqueda utilizando similitud coseno.
    """
    query_vector = tfidf_vectorizer.transform([query])  # Vectorizar consulta
    cosine_similarities = cosine_similarity(query_vector, tfidf_matrix).flatten()
    
    # Ordenar documentos por similitud descendente
    ranked_indices = np.argsort(-cosine_similarities)[:top_k]
    results = [(document_ids[i], cosine_similarities[i]) for i in ranked_indices if cosine_similarities[i] > 0]
    return results

In [None]:
def jaccard_similarity(query_tokens, doc_tokens):
    """
    Calcula la similitud de Jaccard entre la consulta y un documento.
    """
    intersection = len(set(query_tokens).intersection(set(doc_tokens)))
    union = len(set(query_tokens).union(set(doc_tokens)))
    return intersection / union

In [None]:
def search_query_jaccard(query, documents, document_ids, top_k=10):
    """
    Realiza una búsqueda utilizando el coeficiente de Jaccard.
    """
    results = []
    query_tokens = query.split()
    for doc_id, doc_content in zip(document_ids, documents):
        doc_tokens = doc_content.split()
        score = jaccard_similarity(query_tokens, doc_tokens)
        if score > 0:
            results.append((doc_id, score))
    
    # Ordenar resultados por puntuación descendente
    results = sorted(results, key=lambda x: x[1], reverse=True)[:top_k]
    return results

In [None]:
def rank_results(results, method="cosine"):
    """
    Ordena los resultados de búsqueda con base en el método especificado.
    """
    return sorted(results, key=lambda x: x[1], reverse=True)

In [None]:
# Probar con una consulta
user_query = "BAHIA COCOA REVIEW"
preprocessed_query = " ".join(preprocess_query(user_query, set(stopwords.words('english'))))

In [None]:
# Búsqueda con similitud coseno
cosine_results = search_query_cosine(preprocessed_query, tfidf_vectorizer, tfidf_matrix, document_ids)
cosine_results_ranked = rank_results(cosine_results)

# Búsqueda con similitud Jaccard
jaccard_results = search_query_jaccard(preprocessed_query, documents, document_ids)
jaccard_results_ranked = rank_results(jaccard_results, method="jaccard")

In [None]:
# Mostrar resultados
print("Resultados con Cosine Similarity:", cosine_results_ranked, "\n")
print("Resultados con Jaccard Similarity:", jaccard_results_ranked)

## 2.6. Evaluaci´on del Sistema
### Objetivo: Medir la efectividad del sistema.
- Tareas:
    - Definir un conjunto de m´etricas de evaluaci´on (precisi´on, recall, F1-score).
    - Realizar pruebas utilizando el conjunto de prueba del corpus.
    - Comparar el rendimiento de diferentes configuraciones del sistema.
    - Documentar los resultados y an´alisis.

In [None]:
def calculate_metrics(retrieved_docs, relevant_docs):
    """
    Calcula precisión, recall y F1-Score.
    
    Parámetros:
        retrieved_docs (list): Lista de documentos recuperados.
        relevant_docs (list): Lista de documentos relevantes esperados.
    
    Retorna:
        dict: Diccionario con precisión, recall y F1-Score.
    """
    retrieved_set = set(retrieved_docs)
    relevant_set = set(relevant_docs)
    
    true_positives = len(retrieved_set & relevant_set)
    precision = true_positives / len(retrieved_set) if retrieved_set else 0
    recall = true_positives / len(relevant_set) if relevant_set else 0
    f1_score = (2 * precision * recall) / (precision + recall) if (precision + recall) > 0 else 0
    
    return {
        "Precision": precision,
        "Recall": recall,
        "F1-Score": f1_score
    }

In [None]:
def evaluate_system(queries, relevant_docs_dict, search_function, **kwargs):
    """
    Evalúa el sistema de búsqueda en base a consultas y documentos relevantes.
    
    Parámetros:
        queries (list): Lista de consultas.
        relevant_docs_dict (dict): Diccionario con documentos relevantes para cada consulta.
        search_function (function): Función de búsqueda a evaluar.
        kwargs: Argumentos adicionales para la función de búsqueda.
    
    Retorna:
        DataFrame: Resultados de precisión, recall y F1-Score por consulta.
    """
    evaluation_results = []
    
    for query, relevant_docs in relevant_docs_dict.items():
        results = search_function(query, **kwargs)
        retrieved_docs = [doc_id for doc_id, _ in results]
        metrics = calculate_metrics(retrieved_docs, relevant_docs)
        metrics["Consulta"] = query
        evaluation_results.append(metrics)
    
    return pd.DataFrame(evaluation_results)

In [None]:
# Evaluación con similitud coseno
cosine_eval_results = evaluate_system(
    queries,
    relevant_docs_dict,
    search_query_cosine,
    tfidf_vectorizer=tfidf_vectorizer,
    tfidf_matrix=tfidf_matrix,
    document_ids=document_ids
)

# Evaluación con similitud Jaccard
jaccard_eval_results = evaluate_system(
    queries,
    relevant_docs_dict,
    search_query_jaccard,
    documents=documents,
    document_ids=document_ids
)

In [None]:
# Crear un mapeo entre identificadores abstractos (doc1, doc2, ...) y nombres reales
doc_id_to_name = {f"doc{index+1}": str(doc_id) for index, doc_id in enumerate(df['Nombre'])}

# Actualizar documentos relevantes esperados con nombres reales
relevant_docs_dict_real = {
    query: [doc_id_to_name[doc] for doc in relevant_docs if doc in doc_id_to_name]
    for query, relevant_docs in relevant_docs_dict.items()
}

In [None]:
# Revisar la búsqueda y métricas
for query, relevant_docs in relevant_docs_dict_real.items():
    # Ejecutar la búsqueda
    results = search_query_cosine(query, tfidf_vectorizer=tfidf_vectorizer, tfidf_matrix=tfidf_matrix, document_ids=document_ids)
    retrieved_docs = [doc_id for doc_id, _ in results]
    
    # Calcular métricas
    metrics = calculate_metrics(retrieved_docs, relevant_docs)
    
    # Imprimir detalles
    print(f"Consulta: {query}")
    print(f"Documentos relevantes esperados: {relevant_docs}")
    print(f"Documentos recuperados: {retrieved_docs}")
    print(f"Métricas: Precisión={metrics['Precision']}, Recall={metrics['Recall']}, F1-Score={metrics['F1-Score']}")
