# 1. Introducción

El objetivo de este proyecto es diseñar, construir, programar y desplegar un Sistema de Recuperación de Información (SRI) utilizando el corpus Reuters-21578. El proyecto se dividirá en varias fases, que se describen a continuación:


In [1]:
import os
import re
from nltk.stem import PorterStemmer
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer
import pandas as pd
from sklearn.metrics.pairwise import cosine_similarity
from collections import defaultdict

# 2. Fases del Proyecto

## 2.1. Adquisición de Datos

**Objetivo:** Obtener y preparar el corpus Reuters-21578.

**Tareas:**
- Descargar el corpus Reuters-21578.
- Descomprimir y organizar los archivos.
- Documentar el proceso de adquisición de datos.

## 2.2. Preprocesamiento

**Objetivo:** Limpiar y preparar los datos para su análisis.

**Tareas:**
- Extraer el contenido relevante de los documentos.
- Realizar limpieza de datos: eliminación de caracteres no deseados, normalización de texto, etc.
- Tokenización: dividir el texto en palabras o tokens.
- Eliminar stop words y aplicar stemming o lematización.
- Documentar cada paso del preprocesamiento.


In [None]:
# Definir la ruta del corpus y las stopwords en tu sistema local
CORPUS_PATH = "reuters/training"
STOPWORDS_PATH = "reuters/stopwords"
BOW_INDEX_PATH = "reuters/bow/indice_invertido_bow.txt"
TFIDF_INDEX_PATH = "reuters/tf_idf/indice_invertido_tf_idf.txt"

# Leer las stopwords desde el archivo
with open(STOPWORDS_PATH, 'r', encoding='ascii') as file:
    stop_words = set(word.strip() for word in file.readlines())

In [None]:
# Función de preprocesamiento
def lmp(texto):
  #Normalización
  cleaned_text = re.sub(r'[^\w\s]', '', texto)
  cleaned_text = cleaned_text.lower()
  words = cleaned_text.split()
 # Steaming
  stemmer = PorterStemmer()
  stemmed_words = [stemmer.stem(word) for word in words]
# Eliminar stopwords
  filtered_words = [word for word in stemmed_words if word not in stop_words]
  cleaned_text = ' '.join(filtered_words)
  return cleaned_text

In [None]:
# Leer y preprocesar documentos del corpus
documentos = {}
for filename in os.listdir(CORPUS_PATH):
    filepath = os.path.join(CORPUS_PATH, filename)
    with open(filepath, 'r', encoding='ascii') as file:
        text = file.read()
        cleaned_text = lmp(text)
        documentos[filename] = cleaned_text

## 2.3. Representación de Datos en Espacio Vectorial

**Objetivo:** Convertir los textos en una forma que los algoritmos puedan procesar.

**Tareas:**
- Utilizar técnicas como Bag of Words (BoW) y TF-IDF para vectorizar el texto.
- Evaluar las diferentes técnicas de vectorización.
- Documentar los métodos y resultados obtenidos.


In [None]:
# Vectorización Bag of Words
corpus = list(documentos.values())
vectorizer_bow = CountVectorizer()
X_bow = vectorizer_bow.fit_transform(corpus)
df_bow = pd.DataFrame(X_bow.toarray(), columns=vectorizer_bow.get_feature_names_out(), index=documentos.keys())

In [None]:
# Vectorización TF-IDF
vectorizer_tfidf = TfidfVectorizer()
X_tfidf = vectorizer_tfidf.fit_transform(corpus)
df_tf_idf = pd.DataFrame(X_tfidf.toarray(), columns=vectorizer_tfidf.get_feature_names_out(), index=documentos.keys())

## 2.4. Indexación

**Objetivo:** Crear un índice que permita búsquedas eficientes.

**Tareas:**
- Construir un índice invertido que mapee términos a documentos.
- Implementar y optimizar estructuras de datos para el índice.
- Documentar el proceso de construcción del índice.


In [None]:
def load_inverted_index_from_txt(filepath):
    inverted_index = {}
    with open(filepath, 'r', encoding='utf-8') as file:
        current_term = None
        for line in file:
            line = line.strip()
            if line.startswith("Termino:"):
                current_term = line.split("Termino: ")[1]
                inverted_index[current_term] = []
            elif line.startswith("Documento:"):
                doc_info = line.split("Documento: ")[1]
                doc_name, weight = doc_info.split(", Frecuencia: ")
                inverted_index[current_term].append((doc_name, float(weight)))
    return inverted_index

In [None]:
# Cargar índices invertidos desde archivos de texto
inverted_index_bow_loaded = load_inverted_index_from_txt(BOW_INDEX_PATH)
inverted_index_tfidf_loaded = load_inverted_index_from_txt(TFIDF_INDEX_PATH)

## 2.5. Diseño del Motor de Búsqueda

**Objetivo:** Implementar la funcionalidad de búsqueda.

**Tareas:**
- Desarrollar la lógica para procesar consultas de usuarios.
- Implementar algoritmos de similitud como similitud coseno o Jaccard.
- Desarrollar un algoritmo de ranking para ordenar los resultados.
- Documentar la arquitectura y los algoritmos utilizados.


In [None]:
# Funciones de búsqueda
def process_query(query):
    cleaned_query = lmp(query)
    return cleaned_query.split()

def jaccard_similarity(query_tokens, document_tokens):
    intersection = len(set(query_tokens) & set(document_tokens))
    union = len(set(query_tokens) | set(document_tokens))
    return intersection / union if union != 0 else 0  # Avoid division by zero

def cosine_similarity_score(vector1, vector2):
    return cosine_similarity([vector1], [vector2])[0][0]

def search_with_bow(query, inverted_index_bow, documents):
    query_tokens = process_query(query)
    doc_tokens = {doc_id: documentos[doc_id].split() for doc_id in documentos}
    scores = {}
    for doc_id in doc_tokens:
        scores[doc_id] = jaccard_similarity(query_tokens, doc_tokens[doc_id])
    ranked_results = sorted(scores.items(), key=lambda x: x[1], reverse=True)
    return ranked_results

def search_with_tfidf(query, tfidf_matrix, vectorizer_tfidf, documents):
    query_tokens = process_query(query)
    query_vector = vectorizer_tfidf.transform([' '.join(query_tokens)]).toarray()[0]
    scores = {}
    for idx, doc_id in enumerate(documents.keys()):
        doc_vector = tfidf_matrix[idx].toarray()[0]
        scores[doc_id] = cosine_similarity_score(query_vector, doc_vector)
    ranked_results = sorted(scores.items(), key=lambda x: x[1], reverse=True)
    return ranked_results

## 2.6. Evaluación del Sistema

**Objetivo:** Medir la efectividad del sistema.

**Tareas:**
- Definir un conjunto de métricas de evaluación (precisión, recall, F1-score).
- Realizar pruebas utilizando el conjunto de prueba del corpus.
- Comparar el rendimiento de diferentes configuraciones del sistema.
- Documentar los resultados y análisis.


In [None]:
# Ejemplo de uso
query = "cocoa"

# Búsqueda con Bag of Words
results_bow = search_with_bow(query, inverted_index_bow_loaded, documentos)
print("Resultados con Bag of Words:")
for doc_id, score in results_bow[:5]:  # Mostrar los 5 documentos más relevantes
    print(f"Documento: {doc_id}, Similitud Jaccard: {score}")

# Búsqueda con TF-IDF
results_tfidf = search_with_tfidf(query, X_tfidf, vectorizer_tfidf, documentos)
print("\nResultados con TF-IDF:")
for doc_id, score in results_tfidf[:5]:  # Mostrar los 5 documentos más relevantes
    print(f"Documento: {doc_id}, Similitud Coseno: {score}")

In [None]:


def crear_diccionario_categorias(archivo):
    # Creamos un diccionario para almacenar las categorías y sus documentos
    categorias = defaultdict(list)
    with open(archivo, 'r') as file:
        for linea in file:
            # Separamos la línea en la ruta del documento y las categorías
            ruta, *cats = linea.strip().split()
            # Extraemos el número del documento de la ruta
            numero_documento = ruta.split('/')[1]
            # Añadimos el número del documento a cada categoría correspondiente
            for cat in cats:
                categorias[cat].append(numero_documento)

    # Crear un diccionario de documentos a categorías (invirtiendo el anterior)
    documentos_categorias = defaultdict(list)
    for categoria, docs in categorias.items():
        for doc in docs:
            documentos_categorias[doc].append(categoria)

    return documentos_categorias, list(categorias.keys())

# Suponiendo que tu archivo se llama 'documentos.txt'
archivo = 'reuters/cats.txt'
documentos_categorias, lista_categorias = crear_diccionario_categorias(archivo)

In [None]:
def obtener_etiquetas_verdaderas(documentos, query_categoria):
    etiquetas_verdaderas = []
    for doc_id in documentos:
        if query_categoria in documentos_categorias[doc_id]:
            etiquetas_verdaderas.append(0)
        else:
            etiquetas_verdaderas.append(1)
    return etiquetas_verdaderas

def obtener_etiquetas_predichas(resultados):
    return [0 if score > 0 else 1 for _, score in resultados]

In [None]:
def evaluar_bow(query, query_categoria, inverted_index_bow, documentos):
    resultados = search_with_bow(query, inverted_index_bow, documentos)
    documentos_resultados = [doc_id for doc_id, _ in resultados]
    etiquetas_verdaderas = obtener_etiquetas_verdaderas(documentos_resultados, query_categoria)
    etiquetas_predichas = obtener_etiquetas_predichas(resultados)
    return etiquetas_verdaderas, etiquetas_predichas

def evaluar_tfidf(query, query_categoria, tfidf_matrix, vectorizer_tfidf, documentos):
    resultados = search_with_tfidf(query, tfidf_matrix, vectorizer_tfidf, documentos)
    documentos_resultados = [doc_id for doc_id, _ in resultados]
    etiquetas_verdaderas = obtener_etiquetas_verdaderas(documentos_resultados, query_categoria)
    etiquetas_predichas = obtener_etiquetas_predichas(resultados)
    return etiquetas_verdaderas, etiquetas_predichas

In [None]:
def mostrar_matriz_confusion(y_true, y_pred, categorias):
    cm = confusion_matrix(y_true, y_pred)
    plt.figure(figsize=(10, 7))
    sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', xticklabels=categorias, yticklabels=categorias)
    plt.xlabel('Predicted')
    plt.ylabel('True')
    plt.title('Matriz de Confusión Global')
    plt.show()

In [None]:
y_true_bow = []
y_pred_bow = []
y_true_tfidf = []
y_pred_tfidf = []

for categoria in lista_categorias:
    query = categoria
    # Evaluar BOW
    etiquetas_verdaderas_bow, etiquetas_predichas_bow = evaluar_bow(query, categoria, inverted_index_bow_loaded, documentos)
    y_true_bow.extend(etiquetas_verdaderas_bow)
    y_pred_bow.extend(etiquetas_predichas_bow)

    # Evaluar TF-IDF
    etiquetas_verdaderas_tfidf, etiquetas_predichas_tfidf = evaluar_tfidf(query, categoria, X_tfidf, vectorizer_tfidf, documentos)
    y_true_tfidf.extend(etiquetas_verdaderas_tfidf)
    y_pred_tfidf.extend(etiquetas_predichas_tfidf)

In [None]:
def mostrar_matriz_confusion(y_true, y_pred, categorias):
    cm = confusion_matrix(y_true, y_pred)
    plt.figure(figsize=(10, 7))
    sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', xticklabels=[ categorias, 'No ' +categorias], yticklabels=[ categorias, 'No ' +categorias])
    plt.xlabel('Predicted')
    plt.ylabel('True')
    plt.title('Matriz de Confusión Global')
    plt.show()

# Mostrar matriz de confusión para BOW
mostrar_matriz_confusion(y_true_bow, y_pred_bow, 'Relevante')
print("Reporte de clasificación global para Bag of Words:")
print(classification_report(y_true_bow, y_pred_bow, target_names=['Relevante', 'No Relevante']))

# Mostrar matriz de confusión para TF-IDF
mostrar_matriz_confusion(y_true_tfidf, y_pred_tfidf, 'Relevante')
print("Reporte de clasificación global para TF-IDF:")
print(classification_report(y_true_tfidf, y_pred_tfidf, target_names=['Relevante', 'No Relevante']))