# Sistema de Recuperación de Información basado en Reuters-21578
Integrantes: Cristina Molina, Jair Sanchez

## Descripción del Proyecto

Este proyecto se centra en el desarrollo de un Sistema de Recuperación de Información (SRI) utilizando el corpus Reuters-21578, un conjunto de datos ampliamente utilizado en la investigación de recuperación de información. El objetivo principal es implementar un sistema que permita realizar búsquedas eficientes y precisas dentro del corpus, utilizando técnicas modernas de procesamiento de texto y algoritmos de búsqueda.

## Bibliotecas y Herramientas Utilizadas

Las siguientes bibliotecas y herramientas fueron utilizadas en este proyecto para realizar el preprocesamiento de texto y otras tareas relacionadas:

- **Python 3:** Lenguaje de programación utilizado para desarrollar el código.

- **NLTK (Natural Language Toolkit):** Biblioteca de Python ampliamente utilizada en el procesamiento del lenguaje natural. En particular, se utilizó para tokenización (`word_tokenize`) y stemming (`SnowballStemmer`).

- **Scikit-learn:** Biblioteca de aprendizaje automático para Python que incluye módulos para vectorización de texto (`CountVectorizer`, `TfidfVectorizer`) y cálculo de similitud coseno (`cosine_similarity`).

- **Pandas:** Biblioteca de Python utilizada para la manipulación y análisis de datos, en este caso, para cargar y manipular datos estructurados, como archivos CSV.

- **CSV:** Módulo estándar de Python para la lectura y escritura de archivos CSV, utilizado para almacenar los resultados del preprocesamiento de documentos.

- **Re (Regular Expressions):** Módulo de Python para trabajar con expresiones regulares. Se utilizó para filtrar y limpiar texto mediante patrones específicos.

- **OS:** Módulo estándar de Python que proporciona funciones para interactuar con el sistema operativo, utilizado para manejar rutas de archivos y directorios.

Estas bibliotecas y herramientas proporcionan las funcionalidades necesarias para realizar el preprocesamiento de texto, la vectorización de documentos y el cálculo de similitud, preparando así los datos para análisis adicionales en el campo del procesamiento del lenguaje natural y la recuperación de información.


In [1]:
import os
import re
import string
from nltk.tokenize import word_tokenize
from nltk.stem import SnowballStemmer
import nltk
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
import pandas as pd
import csv

nltk.download('punkt')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\User\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

# Fases del Proyecto

## Fase 1: Adquisición de Datos

 **Objetivo:**

El objetivo de esta fase es obtener, descomprimir y organizar el corpus Reuters-21578 de manera que esté listo para ser preprocesado en las siguientes fases del proyecto.

**Descripción**:

El corpus Reuters-21578 es un conjunto de datos ampliamente utilizado en la investigación de recuperación de información y procesamiento de lenguaje natural. Contiene artículos de noticias clasificados en varias categorías, y está disponible públicamente para su uso en investigación y desarrollo.

**Pasos para la Adquisición de Datos**
1. **Descarga del Corpus Reuters-21578:** El primer paso es descargar el corpus desde una fuente confiable. El corpus está disponible en varios sitios de la web, pero se recomienda obtenerlo desde el sitio original de la Universidad de Carnegie Mellon (CMU).

         URL de descarga: https://kdd.ics.uci.edu/databases/reuters21578/reuters21578.html
         
  Pero para este proyecto se descargo la data directamente desde el repositorio proporcionado en el aula virtual

2. **Descompresión y Organización de Archivos:** Una vez descargado el archivo comprimido, el siguiente paso es descomprimirlo y organizar los archivos en una estructura de directorios que facilite su acceso y manipulación.y manipulación.

## Fase 2: Preprocesamiento

#### **Objetivo:**

El objetivo de esta fase es preparar los documentos de texto para análisis posterior mediante la aplicación de varias técnicas de limpieza y transformación.

#### **Descripción:**

El preprocesamiento de texto es una etapa fundamental en el procesamiento del lenguaje natural (NLP). En este proyecto, se implementan cuatro fases para estructurar y limpiar los documentos de texto antes de su análisis y modelado.

#### **Pasos del preprocesamiento:**

1. **Convertir a minúsculas:**
   - Todos los caracteres del texto se convierten a minúsculas para asegurar consistencia en el análisis, independientemente de las mayúsculas utilizadas en el texto original.

2. **Eliminar caracteres no alfabéticos y dígitos:**
   - Se utiliza la función `translate()` para eliminar caracteres no alfabéticos y dígitos del texto. Esto incluye signos de puntuación, símbolos y cualquier carácter que no sea una letra.

3. **Eliminar stopwords:**
   - Se eliminan las stopwords del texto. Las stopwords son palabras comunes pero no informativas que se filtran del texto para centrarse en las palabras que aportan un significado más relevante.

4. **Aplicar stemming:**
   - Cada palabra se reduce a su forma raíz utilizando el Snowball Stemmer en inglés. El stemming ayuda a normalizar las palabras al reducir sufijos y prefijos, lo que facilita la comparación y análisis posterior.

Estas fases aseguran que los documentos de texto estén limpios y estructurados adecuadamente para su uso en tareas de análisis de texto y modelado en el campo del procesamiento del lenguaje natural.

#### **Pasos adicionales:**

- **Almacenamiento de Resultados:**
  - Los documentos preprocesados se guardan en un archivo CSV llamado 'processed_documents.csv'. Este archivo contiene dos columnas: 'Filename' para el nombre del archivo original y 'Processed Text' para el texto procesado y limpio.

Al finalizar este proceso, los documentos de texto están listos para ser utilizados en análisis posteriores, como la extracción de características, la comparación de similitud mediante modelos vectoriales, entre otros.

In [2]:
def load_stopwords(file_path):
    # Abre el archivo en modo lectura
    with open(file_path, 'r', encoding='utf-8', errors='ignore') as file:
        # Lee todas las líneas del archivo, elimina espacios en blanco alrededor de cada palabra y crea un conjunto de stopwords
        stopwords = set(word.strip() for word in file.readlines())
    # Retorna el conjunto de stopwords
    return stopwords

In [3]:
def preprocess_text(text, stopwords):
    # Convertir el texto a minúsculas
    text = text.lower()
    
    # Crear un traductor para eliminar signos de puntuación y dígitos
    translator = str.maketrans('', '', string.punctuation + string.digits)
    text = text.translate(translator)
    
    # Tokenizar el texto en palabras
    tokens = word_tokenize(text)
    
    # Filtrar las palabras que no son stopwords
    cleaned_tokens = [token for token in tokens if token not in stopwords]
    
    # Inicializar el stemmer para reducir las palabras a su raíz
    stemmer = SnowballStemmer('english')
    
    # Aplicar stemming a todas las palabras filtradas
    stemmed_tokens = [stemmer.stem(token) for token in cleaned_tokens]
    
    # Unir las palabras procesadas en un solo texto limpio
    cleaned_text = ' '.join(stemmed_tokens)
    
    # Retornar el texto preprocesado y limpio
    return cleaned_text

In [4]:
# Ruta al archivo que contiene las stopwords
stopwords_file = 'Proyecto_Data/reuters/stopwords.txt'

# Cargar las stopwords desde el archivo
stopwords = load_stopwords(stopwords_file)

# Directorio donde se encuentran los archivos del corpus
CORPUS_DIR = 'Proyecto_Data/reuters/training'

# Diccionario para almacenar los textos limpios procesados
diccionario = {}

# Iterar sobre cada archivo en el directorio del corpus
for filename in os.listdir(CORPUS_DIR):
    # Construir la ruta completa al archivo
    filepath = os.path.join(CORPUS_DIR, filename)
    
    # Abrir el archivo en modo lectura
    with open(filepath, 'r', encoding='utf-8', errors='ignore') as file:
        # Leer todo el contenido del archivo
        text = file.read()
        
        # Preprocesar el texto para limpiarlo y procesarlo
        cleaned_text = preprocess_text(text, stopwords)
        
        # Almacenar el texto preprocesado en el diccionario, usando el nombre del archivo como clave
        diccionario[filename] = cleaned_text

In [5]:
# Nombre del archivo de salida donde se escribirán los documentos procesados
output_file = 'processed_documents.csv'

# Encabezados para las columnas del archivo CSV
header = ['Filename', 'Processed Text']

# Abrir el archivo CSV en modo escritura
with open(output_file, 'w', newline='', encoding='utf-8') as csvfile:
    # Crear un objeto escritor de CSV
    writer = csv.writer(csvfile)
    
    # Escribir la primera fila con los encabezados
    writer.writerow(header)
    
    # Iterar sobre el diccionario que contiene los textos procesados
    for filename, text in diccionario.items():
        # Escribir cada par de nombre de archivo y texto procesado como una fila en el archivo CSV
        writer.writerow([filename, text])

In [6]:
csv_file = 'processed_documents.csv'
df_textoPrepocesado = pd.read_csv(csv_file, encoding='utf-8')

In [7]:
df_textoPrepocesado

Unnamed: 0,Filename,Processed Text
0,1.txt,bahia cocoa review shower continu week bahia c...
1,10.txt,comput termin system ltcpml complet sale compu...
2,100.txt,nz trade bank deposit growth rise slight zeala...
3,1000.txt,nation amus up viacom ltvia bid viacom intern ...
4,10000.txt,roger ltrog see st qtr net signific roger corp...
...,...,...
7764,999.txt,uk money market shortag forecast revis bank en...
7765,9992.txt,knightridd ltkrn set quarter qtli div cts cts ...
7766,9993.txt,technitrol lttnl set quarter qtli div cts cts ...
7767,9994.txt,nationwid cellular servic ltncel qtr shr loss ...


# Fase 3:  Representación de Datos en Espacio Vectorial


#### **Objetivo:**

Esta fase tiene como objetivo transformar los documentos preprocesados en representaciones numéricas utilizando técnicas de vectorización, específicamente Bag of Words (BoW) y TF-IDF (Term Frequency-Inverse Document Frequency).

#### **Descripción:**

La representación de datos en espacio vectorial es fundamental para el procesamiento de lenguaje natural y la recuperación de información. En esta fase, se utilizan dos enfoques principales: BoW y TF-IDF, cada uno con sus propias características y aplicaciones.

#### **Bag of Words (BoW):**

El modelo Bag of Words (BoW) es una técnica de representación de documentos en la que se ignora el orden de las palabras y se considera solo su ocurrencia en el documento. Es útil para construir vectores de características que representan documentos de manera simple y efectiva.

- **Fórmula:**
  $$
  \text{BoW}(t, d) = \text{count}(t, d)
  $$
  Donde:
  - \( t \): Término (palabra).
  - \( d \): Documento.
  - \( \text{count}(t, d) \): Frecuencia de aparición del término \( t \) en el documento \( d \).

#### **TF-IDF (Term Frequency-Inverse Document Frequency):**

TF-IDF es una medida estadística que evalúa la importancia de un término en un documento en el contexto de un conjunto de documentos (corpus). Combina la frecuencia de aparición de un término (TF) con la frecuencia inversa de documentos en los que aparece (IDF), permitiendo destacar términos que son frecuentes en un documento pero raros en el corpus general.

- **Fórmula:**
  $$
  \text{TF-IDF}(t, d) = \text{tf}(t, d) \times \text{idf}(t)
  $$
  Donde:
  - \( t \): Término (palabra).
  - \( d \): Documento.
  - \( \text{tf}(t, d) \): Frecuencia del término \( t \) en el documento \( d \).
  - \( \text{idf}(t) \): Inverso de la frecuencia de documentos que contienen el término \( t \) en el corpus.

#### **Pasos para la representación:**

1. **Bag of Words (BoW):**
   - **Vectorización:** Se utiliza `CountVectorizer` de Scikit-learn para convertir cada documento preprocesado en un vector de términos, donde cada posición del vector representa la frecuencia de aparición de un término en el documento.
   - **Almacenamiento:** Los vectores resultantes se almacenan en un DataFrame de Pandas (`df_bow`) con los nombres de los documentos como índices y los términos como columnas.
   - **Exportación:** El DataFrame se guarda en un archivo CSV comprimido (`bow.csv.gz`) para facilitar el almacenamiento y la posterior carga.

2. **TF-IDF (Term Frequency-Inverse Document Frequency):**
   - **Vectorización:** Se utiliza `TfidfVectorizer` de Scikit-learn para calcular los pesos TF-IDF de cada término en cada documento. Este enfoque ajusta la importancia de los términos según su frecuencia en el documento y su frecuencia inversa en el corpus total.
   - **Almacenamiento:** Los vectores TF-IDF se almacenan en otro DataFrame de Pandas (`df_tf_idf`), donde cada término tiene un peso calculado en función de su frecuencia en el documento y su raridad en el corpus general.
   - **Exportación:** El DataFrame TF-IDF se guarda en un archivo CSV comprimido (`tf-idf.csv.gz`) para su posterior análisis y uso.

Estos pasos aseguran que los documentos preprocesados estén representados de manera efectiva como vectores numéricos, preparándolos para técnicas avanzadas de análisis y modelado en el campo del procesamiento del lenguaje natural y la minería de textos.
ento del lenguaje natural y la minería de textos.
nto del lenguaje natural y la minería de textos.
to del lenguaje natural y la minería de textos.
ento del lenguaje natural y la minería de textos.
to del lenguaje natural y la minería de textos.
ento del lenguaje natural y la minería de textos.


In [8]:
# Obtener la columna 'Processed Text' del DataFrame como una lista
corpus = df_textoPrepocesado['Processed Text'].tolist()

# Obtener la columna 'Filename' del DataFrame como una lista de nombres de textos
nombres_textos = df_textoPrepocesado['Filename'].tolist()

# Inicializar un vectorizador CountVectorizer con el parámetro binary=True
vectorizerBoW = CountVectorizer(binary=True)

# Aplicar el vectorizador al corpus para obtener la matriz de términos de documento (BoW)
X = vectorizerBoW.fit_transform(corpus)

In [9]:
df_bow = pd.DataFrame(X.toarray(), columns=vectorizerBoW.get_feature_names_out(), index=nombres_textos)
df_bow

Unnamed: 0,aa,aaa,aachen,aaminus,aancor,aap,aaplus,aar,aarnoud,aaron,...,zorinski,zseven,zuccherifici,zuckerman,zulia,zurich,zurichbas,zuyuan,zverev,zzzz
1.txt,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
10.txt,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
100.txt,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1000.txt,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
10000.txt,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
999.txt,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
9992.txt,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
9993.txt,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
9994.txt,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


In [10]:
ruta_csv_comprimido = 'bow.csv.gz'
df_bow.to_csv(ruta_csv_comprimido, compression='gzip')

In [11]:
# Obtener los nombres de las características (palabras) del vectorizador BoW
feature_names = vectorizerBoW.get_feature_names_out()

# Lista para almacenar los vectores BoW de cada documento
vectores_documentosBoW = []

# Iterar sobre cada documento en el corpus
for i, nombre_documento in enumerate(nombres_textos):
    # Obtener el vector BoW del documento actual y convertirlo en un array plano
    vector_documentoBoW = X[i].toarray().flatten()
    
    # Agregar el vector BoW a la lista de vectores de documentos BoW
    vectores_documentosBoW.append(vector_documentoBoW)

    # Ejemplo opcional de impresión (comentado)
    # print(f"Documento: {nombre_documento}")
    # print(f"Vector: {vector_documentoBoW}")
    # print("-------------------------------------")

In [12]:
# Inicializar un vectorizador TF-IDF
vectorizerTF_IDF = TfidfVectorizer()

# Aplicar el vectorizador TF-IDF al corpus para obtener la matriz TF-IDF
Y = vectorizerTF_IDF.fit_transform(corpus)

In [13]:
df_tf_idf = pd.DataFrame(Y.toarray(), columns=vectorizerTF_IDF.get_feature_names_out(), index=nombres_textos)
df_tf_idf

Unnamed: 0,aa,aaa,aachen,aaminus,aancor,aap,aaplus,aar,aarnoud,aaron,...,zorinski,zseven,zuccherifici,zuckerman,zulia,zurich,zurichbas,zuyuan,zverev,zzzz
1.txt,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
10.txt,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
100.txt,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1000.txt,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
10000.txt,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
999.txt,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
9992.txt,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
9993.txt,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
9994.txt,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0


In [14]:
ruta_csv_comprimido = 'tf-idf.csv.gz'
df_tf_idf.to_csv(ruta_csv_comprimido, compression='gzip')

In [15]:
# Obtener los nombres de las características (palabras) del vectorizador TF-IDF
feature_names = vectorizerTF_IDF.get_feature_names_out()

# Lista para almacenar los vectores TF-IDF de cada documento
vectores_documentosTF_IDF = []

# Iterar sobre cada documento en el corpus
for i, nombre_documento in enumerate(nombres_textos):
    # Obtener el vector TF-IDF del documento actual y convertirlo en un array plano
    vector_documentoTF_IDF = Y[i].toarray().flatten()
    
    # Agregar el vector TF-IDF a la lista de vectores de documentos TF-IDF
    vectores_documentosTF_IDF.append(vector_documentoTF_IDF)

    # Ejemplo opcional de impresión (comentado)
    # print(f"Documento: {nombre_documento}")
    # print(f"Vector: {vector_documentoTF_IDF}")
    # print("-------------------------------------")

# Fase 4:  Indexación


#### **Objetivo:**

El objetivo de esta fase es construir un índice invertido a partir de un archivo de texto que contiene información sobre categorías asociadas a palabras clave encontradas en documentos preprocesados. Este índice invertido será utilizado para facilitar la recuperación eficiente de documentos relevantes durante la fase de búsqueda.

#### **Descripción:**

La indexación es una etapa crítica en los sistemas de recuperación de información (IR). En esta fase, se construye un índice invertido que mapea cada palabra clave a las categorías en las que aparece en los documentos procesados. Este índice facilita la búsqueda rápida y eficiente de documentos relevantes cuando se realiza una consulta de búsqueda.

#### **Pasos para la construcción del índice invertido:**

1. **Lectura del archivo de texto:**
   - Se lee el archivo que contiene las categorías y las palabras clave asociadas a cada categoría.

2. **Procesamiento de la información:**
   - Cada línea del archivo se divide para extraer la categoría y las palabras clave asociadas.

3. **Construcción del índice invertido:**
   - Para cada palabra clave en la lista de palabras asociadas a una categoría, se añade la categoría al conjunto correspondiente en el índice invertido.
   - Se utiliza un conjunto para almacenar las categorías asociadas a cada palabra clave, asegurando que no haya duplicados y optimizando la eficiencia de búsqueda.

4. **Almacenamiento del índice invertido:**
   - El índice invertido construido se guarda en un archivo de texto. Cada línea del archivo contiene una palabra clave seguida de las categorías en las que aparece*Resultados obtenidos:**

Al finalizar esta fase, se obtiene un índice invertido completo que permite identificar rápidamente qué documentos contienen cada palabra clave consultada. Este índice será utilizado en la fase de búsqueda para recuperar documentos relentes de manera eficiente.



In [16]:
def build_inverted_index(file_path):
    inverted_index = {}
    
    # Abrir el archivo de texto
    with open(file_path, 'r') as file:
        # Iterar sobre cada línea en el archivo
        for line in file:
            parts = line.strip().split()
            category = parts[0].split('/')[1]  # Obtener la categoría eliminando "training/"
            words = parts[1:]

            # Construir el índice invertido
            for word in words:
                if word not in inverted_index:
                    inverted_index[word] = set()  # Usar un conjunto para evitar duplicados
                inverted_index[word].add(category)

    return inverted_index

# Ruta del archivo de texto que contiene las categorías
file_path = 'Proyecto_Data/reuters/cats.txt'

# Construir el índice invertido
inverted_index = build_inverted_index(file_path)

# Escribir el índice invertido en un archivo de texto
output_file = 'inverted_index.txt'
with open(output_file, 'w') as out_file:
    for word, categories in inverted_index.items():
        out_file.write(f"{word}: {', '.join(categories)}\n")

print("Índice invertido guardado en", output_file)

Índice invertido guardado en inverted_index.txt


# Fase 5:  Diseño del Motor de Búsqueda

#### **Objetivo:**

El objetivo de esta fase es implementar un motor de búsqueda básico que pueda recuperar documentos relevantes basados en consultas del usuario. Utiliza técnicas de vectorización de consultas y medidas de similitud coseno sobre los vectores representativos de documentos para ordenar y presentar los resultados de manera efectiva.

#### **Descripción:**

El diseño del motor de búsqueda implica la utilización de técnicas de recuperación de información para identificar documentos que coincidan mejor con la consulta del usuario. En esta fase, se vectorizan tanto las consultas de los usuarios como los documentos almacenados previamente para calcular similitudes y así clasificar y presentar los documentos relevantes de manera ordenada.

#### **Pasos clave del diseño del Motor de Búsqueda:**

1. **Preprocesamiento de Consultas:**
   - Las consultas de los usuarios se preprocesan utilizando técnicas como la conversión a minúsculas, eliminación de caracteres no alfabéticos, eliminación de stopwords y stemming. Esto asegura que la consulta esté en un formato limpio y consistente para el procesamiento posterior.

2. **Vectorización de Consultas:**
   - Las consultas preprocesadas se convierten en vectores utilizando técnicas de vectorización como Bag of Words (BoW) o TF-IDF (Term Frequency-Inverse Document Frequency). Estos vectores capturan la representación numérica de la consulta en función de la frecuencia de las palabras en la misma.

3. **Cálculo de Similitud Coseno:**
   - La similitud coseno es una medida que evalúa la similitud entre dos vectores en un espacio vectorial. Es particularmente útil en la recuperación de información para comparar la similitud entre la consulta del usuario y los documentos almacenados. La fórmula de similitud coseno entre dos vectores \( A \) y \( B \) se define como:
$$
   \[
   \text{similarity}(A, B) = \frac{A \cdot B}{\|A\| \cdot \|B\|}
   \]
$$
   Donde:
   - \( A \cdot B \) es el producto punto entre los vectores \( A \) y \( B \).
   - \( \|A\| \) y \( \|B\| \) son las normas euclidianas de los vectores \( A \) y \( B \), respectivamente.


   La similitud coseno devuelve un valor entre -1 y 1, donde 1 significa que los vectores son idénticos en dirección, 0 significa que son ortogonales (no tienen similitud), y -1 significa que son opuestos en dirección.

4. **Ordenación de Resultados:**
   - Los documentos se ordenan según su similitud coseno con respecto a la consulta, de mayor a menor similitud. Esto permite presentar los documentos más relevantes en la parte superior de los resultados de búsqueda.

5. **Presentación de Resultados:**
   - Los resultados ordenados se presentan al usuario, mostrando los nombres de los documentos junto con sus respectivas distancias (o similitudes) con respecto a la consulta. Esta presentación permite al usuario identificar rápidamente los documentos más relevantes a su consulta.

Al finalizar esta fase, se obtiene un motor de búsqueda funcional capaz de recibir consultas de los usuarios, procesarlas, compararlas con documentos almacenados y presentar los documentos más relevantes de acuerdo con la similitud calculada. Este diseño forma la base para sistemas más avanzados de recuperación de información y búsqueda de información relevante.



In [17]:
def prepocesar_query(query):
    query_prepocesada = preprocess_text(query, stopwords)
    return query_prepocesada

In [18]:
def vectorizar_consulta(query, vectorizer_type):
    # Preprocesar la consulta
    query_preprocesada = preprocess_text(query, stopwords)
    
    # Seleccionar y aplicar el vectorizador adecuado
    if vectorizer_type == 'BoW':
        vector_query = vectorizerBoW.transform([query_preprocesada])
    elif vectorizer_type == 'TF-IDF':
        vector_query = vectorizerTF_IDF.transform([query_preprocesada])
    else:
        raise ValueError("Tipo de vectorizador no válido. Use 'BoW' o 'TF-IDF'.")
    
    return vector_query

In [19]:
def distanciaBoW(query):
    # Vectorizar la consulta utilizando Bag of Words (BoW)
    vector_query = vectorizar_consulta(query, 'BoW')
    
    # Lista para almacenar las distancias coseno entre la consulta y cada documento
    distancias = []
    
    # Calcular la distancia coseno entre la consulta y cada vector de documento BoW
    for vector_documentoBoW in vectores_documentosBoW:
        distancia = cosine_similarity(vector_query.reshape(1, -1), vector_documentoBoW.reshape(1, -1))[0][0]
        distancias.append(distancia)
    
    return distancias

In [20]:
def distanciaTF_IDF(query):
    # Vectorizar la consulta utilizando TF-IDF
    vector_query = vectorizar_consulta(query, 'TF-IDF')
    
    # Lista para almacenar las distancias coseno entre la consulta y cada documento TF-IDF
    distancias = []
    
    # Calcular la distancia coseno entre la consulta y cada vector de documento TF-IDF
    for vector_documentoTF_IDF in vectores_documentosTF_IDF:
        distancia = cosine_similarity(vector_query.reshape(1, -1), vector_documentoTF_IDF.reshape(1, -1))[0][0]
        distancias.append(distancia)
    
    return distancias

In [21]:
def buscar_documentos(query, vectorizer_type):
    if vectorizer_type == 'BoW':
        distancias = distanciaBoW(query)
    elif vectorizer_type == 'TF-IDF':
        distancias = distanciaTF_IDF(query)
    else:
        raise ValueError("Tipo de vectorizador no válido. Use 'BoW' o 'TF-IDF'.")

    # Filtrar y ordenar simultáneamente usando una lista por comprensión con condición
    resultados_ordenados = sorted(
        ((nombre, distancia) for nombre, distancia in zip(nombres_textos, distancias) if distancia > 0),
        key=lambda x: x[1],
        reverse=True
    )
    
    # Extraer solo los nombres ordenados
    nombres_ordenados = [nombre for nombre, _ in resultados_ordenados]
    
    return resultados_ordenados, nombres_ordenados

In [22]:
query = "lin-oil"
vectorizer_type = "TF-IDF"
resultados, nombres_ordenados = buscar_documentos(query, vectorizer_type)

print("Busqueda para la query: " + query)
print("Resultados ordenados (nombre y distancia):")
for nombre, distancia in resultados:
    print(f"Nombre: {nombre}, Distancia: {distancia}")

print("\nNombres de documentos ordenados:")
for nombre in nombres_ordenados:
    print(nombre)

Busqueda para la query: lin-oil
Resultados ordenados (nombre y distancia):
Nombre: 6.txt, Distancia: 0.06864310990282788

Nombres de documentos ordenados:
6.txt


In [23]:
query = "lin-oil"
vectorizer_type = "BoW"
resultados, nombres_ordenados = buscar_documentos(query, vectorizer_type)

print("Busqueda para la query: " + query)
print("Resultados ordenados (nombre y distancia):")
for nombre, distancia in resultados:
    print(f"Nombre: {nombre}, Distancia: {distancia}")

print("\nNombres de documentos ordenados:")
for nombre in nombres_ordenados:
    print(nombre)

Busqueda para la query: lin-oil
Resultados ordenados (nombre y distancia):
Nombre: 6.txt, Distancia: 0.15617376188860607

Nombres de documentos ordenados:
6.txt
