# Basic Boolean Search in Documents - Byron Ortiz


# Requirements

En esta sección, importamos las librerías necesarias para manejar archivos, trabajar con expresiones regulares y crear colecciones de datos.


## Step 1: Update Data Preparation
Ensure that the documents are still loaded and preprocessed from the previous task. The data should be clean and ready for advanced querying.

En este paso, actualizamos la preparación de los datos cargando y preparando los documentos que serán utilizados en el procesamiento posterior. El código realiza las siguientes acciones:

- Importa el módulo `os`, que proporciona funciones para interactuar con el sistema operativo.
- Define la ruta al directorio que contiene los archivos de texto en Jupyter Notebook.
- Crea un diccionario vacío llamado `documents` para almacenar los contenidos de los documentos.
- Itera sobre cada archivo en el directorio especificado.
  - Verifica si el archivo tiene la extensión ".txt".
  - Construye la ruta completa del archivo.
  - Abre el archivo en modo lectura y lo asigna a la variable `file`.
  - Lee el contenido del archivo, lo convierte a minúsculas y lo almacena en el diccionario `documents` con el nombre del archivo como clave.
- Itera sobre los primeros seis elementos del diccionario `documents`.
  - Imprime el nombre del documento y sus primeros 200 caracteres de contenido.

Este código carga los documentos de la carpeta especificada, los convierte a minúsculas y los almacena en un diccionario para su posterior procesamiento. Luego, muestra el nombre y el contenido de los primeros seis documentos como una muestra.

In [1]:
import os

# Define la ruta al directorio que contiene los archivos de texto en Jupyter Notebook
CORPUS_DIR = 'data'

# Crea un diccionario para almacenar los contenidos de los documentos
documents = {}

# Itera sobre cada archivo en el directorio
for filename in os.listdir(CORPUS_DIR):
    if filename.endswith('.txt'):
        file_path = os.path.join(CORPUS_DIR, filename)
        with open(file_path, 'r', encoding='utf-8') as file:
            documents[filename] = file.read().lower()  # Lee y convierte a minúsculas

# Muestra el contenido de los primeros documentos
for doc, content in list(documents.items())[:6]:
    print(f'Documento: {doc}\nContenido: {content[:200]}...')


Documento: pg100.txt
Contenido: ﻿the project gutenberg ebook of the complete works of william shakespeare
    
this ebook is for the use of anyone anywhere in the united states and
most other parts of the world at no cost and with a...
Documento: pg10676.txt
Contenido: ﻿the project gutenberg ebook of the reign of greed
    
this ebook is for the use of anyone anywhere in the united states and
most other parts of the world at no cost and with almost no restrictions
w...
Documento: pg1080.txt
Contenido: ﻿the project gutenberg ebook of a modest proposal
    
this ebook is for the use of anyone anywhere in the united states and
most other parts of the world at no cost and with almost no restrictions
wh...
Documento: pg10907.txt
Contenido: ﻿the project gutenberg ebook of the history of rome, books 09 to 26
    
this ebook is for the use of anyone anywhere in the united states and
most other parts of the world at no cost and with almost ...
Documento: pg11.txt
Contenido: ﻿the project gutenbe

## Step 2: Create an Inverted Index
Create an inverted index from the documents. This index maps each word to the set of document IDs in which that word appears. This facilitates word lookup in the search process.

En este paso, creamos un índice invertido a partir de los documentos cargados en el paso anterior. El índice invertido mapea cada palabra a un conjunto de identificadores de documentos en los que aparece esa palabra.

**Explicación:**

- Importamos el módulo `re`, que proporciona operaciones de coincidencia de expresiones regulares.
- Creamos un diccionario vacío llamado `inverted_index` para almacenar el índice invertido.
- Iteramos sobre cada documento en el diccionario `documents`.
  - Utilizamos expresiones regulares (`re.findall(r'\w+', content)`) para encontrar todas las palabras en el contenido del documento.
  - Agregamos las palabras al índice invertido. Si la palabra no está en el índice invertido, la inicializamos con un conjunto vacío. Luego, añadimos el identificador del documento a ese conjunto.
- Al final del bucle, mostramos una muestra del índice invertido, mostrando las primeras 50 entradas que contienen la palabra y los documentos en los que aparece esa palabra.

Este proceso construye el índice invertido necesario para facilitar la búsqueda de palabras en los documentos. Cada palabra se mapea a un conjunto de identificadores de documentos en los que aparece.

In [2]:
import re

# Crea un diccionario para almacenar el índice invertido
inverted_index = {}

# Itera sobre cada documento en el diccionario
for doc_id, content in documents.items():
    # Encuentra todas las palabras en el contenido del documento
    words = re.findall(r'\w+', content)
    # Agrega las palabras al índice invertido
    for word in words:
        if word not in inverted_index:
            inverted_index[word] = set()
        inverted_index[word].add(doc_id)

# Muestra una muestra del índice invertido
for word, docs in list(inverted_index.items())[:50]:  # Muestra las primeras 50 entradas
    print(f'Palabra: {word}\nDocumentos: {docs}')


Palabra: the
Documentos: {'pg59468.txt', 'pg1952.txt', 'pg16.txt', 'pg2160.txt', 'pg3207.txt', 'pg768.txt', 'pg16389.txt', 'pg1998.txt', 'pg11.txt', 'pg1342.txt', 'pg174.txt', 'pg26073.txt', 'pg12582.txt', 'pg73444.txt', 'pg73448.txt', 'pg1232.txt', 'pg67979.txt', 'pg52281.txt', 'pg1184.txt', 'pg21012.txt', 'pg18893.txt', 'pg1727.txt', 'pg2814.txt', 'pg145.txt', 'pg1513.txt', 'pg6130.txt', 'pg28054.txt', 'pg84.txt', 'pg10907.txt', 'pg345.txt', 'pg21700.txt', 'pg98.txt', 'pg73447.txt', 'pg41445.txt', 'pg35899.txt', 'pg1400.txt', 'pg73442.txt', 'pg76.txt', 'pg2852.txt', 'pg48191.txt', 'pg43.txt', 'pg219.txt', 'pg27827.txt', 'pg47629.txt', 'pg20228.txt', 'pg46.txt', 'pg1080.txt', 'pg2000.txt', 'pg41070.txt', 'pg1259.txt', 'pg2542.txt', 'pg2591.txt', 'pg2641.txt', 'pg45.txt', 'pg120.txt', 'pg50038.txt', 'pg61419.txt', 'pg5200.txt', 'pg4085.txt', 'pg2701.txt', 'pg55.txt', 'pg2600.txt', 'pg30254.txt', 'pg6593.txt', 'pg100.txt', 'pg45848.txt', 'pg44388.txt', 'pg52882.txt', 'pg29728.txt', 'pg2

## Step 3: Query Processing
Parse the Query: Implement a function to parse the input query to identify the terms and operators.
Search Documents: Based on the parsed query, implement the logic to retrieve and rank the documents according to the Boolean expressions.

### Sección 1: Definición de la Función de Procesamiento de Consultas
En este paso, implementamos una función para procesar consultas de búsqueda en los documentos utilizando el índice invertido creado en el paso anterior. Aquí está la explicación de la función `process_query`:


In [3]:
def process_query(query, inverted_index):
    return inverted_index.get(query, set())


### Sección 2: Prueba del Procesamiento de Consultas
En esta parte, realizamos una prueba del proceso de consulta utilizando la función `process_query` que implementamos en el paso anterior. Aquí está la explicación del código:



In [4]:
# Prueba del proceso de consulta

# Definimos una consulta de búsqueda en la variable 'query'. En este caso, la consulta es "question".
# Esta consulta puede ser modificada para buscar diferentes términos o frases en los documentos.
query = "books"

# Llamamos a la función 'process_query' pasando la consulta y el índice invertido 'inverted_index' como argumentos.
# La función procesará la consulta y devolverá los resultados, es decir, los documentos que coinciden con la consulta.
results = process_query(query, inverted_index)

# Imprimimos los resultados de la consulta utilizando 'print()'.
# La f-string se utiliza para incluir la consulta en el mensaje de salida.
# Esto mostrará los documentos que coinciden con la consulta 'question'.
print(f"Resultados para la consulta '{query}': {results}")


Resultados para la consulta 'books': {'pg59468.txt', 'pg16.txt', 'pg2160.txt', 'pg3207.txt', 'pg768.txt', 'pg16389.txt', 'pg1998.txt', 'pg11.txt', 'pg1342.txt', 'pg174.txt', 'pg26073.txt', 'pg12582.txt', 'pg73444.txt', 'pg73448.txt', 'pg1232.txt', 'pg67979.txt', 'pg1184.txt', 'pg21012.txt', 'pg18893.txt', 'pg1727.txt', 'pg2814.txt', 'pg145.txt', 'pg1513.txt', 'pg6130.txt', 'pg28054.txt', 'pg84.txt', 'pg10907.txt', 'pg345.txt', 'pg21700.txt', 'pg98.txt', 'pg73447.txt', 'pg41445.txt', 'pg35899.txt', 'pg1400.txt', 'pg76.txt', 'pg2852.txt', 'pg48191.txt', 'pg43.txt', 'pg219.txt', 'pg27827.txt', 'pg46.txt', 'pg41070.txt', 'pg1259.txt', 'pg2542.txt', 'pg2641.txt', 'pg45.txt', 'pg120.txt', 'pg50038.txt', 'pg61419.txt', 'pg4085.txt', 'pg2701.txt', 'pg55.txt', 'pg2600.txt', 'pg30254.txt', 'pg6593.txt', 'pg100.txt', 'pg45848.txt', 'pg44388.txt', 'pg52882.txt', 'pg29728.txt', 'pg205.txt', 'pg37106.txt', 'pg6761.txt', 'pg600.txt', 'pg44837.txt', 'pg10676.txt', 'pg25344.txt', 'pg67098.txt', 'pg4293

## Step 4: Displaying Results
Output the Results: Display the documents that match the query criteria. Include functionalities to handle queries that result in no matching documents

En esta parte del código, realizamos una prueba con diferentes consultas booleanas utilizando la función `process_query` que implementamos en el paso anterior.

**Explicación:**

- Solicitamos al usuario que ingrese una consulta booleana utilizando la función `input()`. La consulta ingresada se almacena en la variable `query`.
- Llamamos a la función `process_query` pasando la consulta ingresada por el usuario y el índice invertido (`inverted_index`) como argumentos. Esta función procesará la consulta y devolverá los resultados.
- Verificamos si hay resultados en la variable `results` utilizando una estructura condicional `if`.
  - Si hay resultados, imprimimos un mensaje indicando los documentos que coinciden con la consulta y luego iteramos sobre los identificadores de documentos en los resultados para imprimir cada identificador de documento.
  - Si no hay resultados, imprimimos un mensaje indicando que no se encontraron documentos que coincidan con la consulta.

Esta parte del código permite al usuario realizar consultas booleanas sobre los documentos y muestra los documentos que coinciden con la consulta. Puedes probar diferentes consultas para explorar los documentos relacionados..

In [5]:
# Prueba con diferentes consultas
query = input("Por favor, ingrese una consulta booleana (por ejemplo, 'libros'): ")  # Solicita al usuario que ingrese una consulta booleana
results = process_query(query, inverted_index)  # Procesa la consulta utilizando la función process_query y el índice invertido

if results:  # Verifica si hay resultados
    print(f"Los siguientes documentos coinciden con la consulta '{query}':")  # Imprime un mensaje indicando los documentos que coinciden con la consulta
    for doc_id in results:  # Itera sobre los identificadores de documentos en los resultados
        print(doc_id)  # Imprime el identificador de cada documento que coincide con la consulta
else:  # Si no hay resultados
    print("Lo siento, no se encontraron documentos que coincidan con la consulta.")  # Imprime un mensaje indicando que no se encontraron documentos que coincidan con la consulta


Por favor, ingrese una consulta booleana (por ejemplo, 'libros'):  libros


Los siguientes documentos coinciden con la consulta 'libros':
pg45848.txt
pg2000.txt
pg29728.txt
pg20228.txt
