# Basic Boolean Search in Documents

## Objective
Expand the simple term search functionality to include Boolean search capabilities. This will allow users to perform more complex queries by combining multiple search terms using Boolean operators.

## Problem Description
You must enhance the existing search engine from the previous exercise to support Boolean operators: AND, OR, and NOT. This will enable the retrieval of documents based on the logical relationships between multiple terms.

## Requirements

### Step 1: Update Data Preparation
Ensure that the documents are still loaded and preprocessed from the previous task. The data should be clean and ready for advanced querying.

In [1]:
# Paso 1: Actualización de la Preparación de Datos

# Importar librerías necesarias
import os

# Ruta de la carpeta donde están los archivos de texto
ruta_carpeta = r"C:\Users\Ronny Amores\Desktop\EPN\Octavo\RI\GITHUB\ir24a\week01\data"

# Lista para almacenar los nombres de los archivos
archivos_en_carpeta = []

# Obtener la lista de archivos en la carpeta
for nombre_archivo in os.listdir(ruta_carpeta):
    # Verificar si el archivo es un archivo de texto
    if nombre_archivo.endswith(".txt"):
        archivos_en_carpeta.append(nombre_archivo)

### Step 2: Create an Inverted Index

Create an inverted index from the documents. This index maps each word to the set of document IDs in which that word appears. This facilitates word lookup in the search process.



In [2]:
# Paso 2: Crear un Índice Invertido y Matriz de Índices Binarios

# Crear un diccionario para almacenar el índice invertido
indice_invertido = {}
# Crear un diccionario para almacenar la matriz de índices binarios
matriz_indices = {}

# Iterar sobre cada archivo para construir el índice invertido y la matriz de índices binarios
for nombre_archivo in archivos_en_carpeta:
    with open(os.path.join(ruta_carpeta, nombre_archivo), 'r', encoding='utf-8') as archivo:
        contenido = archivo.read()
        # Dividir el contenido en palabras únicas
        palabras_unicas = set(contenido.split())
        # Iterar sobre cada palabra única
        for palabra in palabras_unicas:
            palabra = palabra.lower()  # Convertir la palabra a minúsculas
            # Actualizar el índice invertido
            if palabra not in indice_invertido:
                indice_invertido[palabra] = set()
            indice_invertido[palabra].add(nombre_archivo)
            # Actualizar la matriz de índices binarios
            if palabra not in matriz_indices:
                matriz_indices[palabra] = [0] * len(archivos_en_carpeta)
            matriz_indices[palabra][archivos_en_carpeta.index(nombre_archivo)] = 1

### Step 3: Query Processing
- **Parse the Query**: Implement a function to parse the input query to identify the terms and operators.
- **Search Documents**: Based on the parsed query, implement the logic to retrieve and rank the documents according to the Boolean expressions.



In [3]:
# Paso 3: Procesamiento de Consultas

# Función para buscar documentos basándose en la palabra consultada
def buscar_documentos(palabra_consultada):
    if palabra_consultada in indice_invertido:
        return indice_invertido[palabra_consultada]
    else:
        return set()


### Step 4: Displaying Results
- **Output the Results**: Display the documents that match the query criteria. Include functionalities to handle queries that result in no matching documents.


In [4]:
# Paso 4: Mostrar Resultados

# Solicitar al usuario la palabra a buscar
palabra_a_buscar = input("Ingrese la palabra que desea buscar: ")

# Buscar documentos que contienen la palabra consultada
documentos_coincidentes = buscar_documentos(palabra_a_buscar)

# Mostrar los documentos coincidentes
print("Documentos coincidentes para la palabra '{}':".format(palabra_a_buscar))
if documentos_coincidentes:
    for documento in documentos_coincidentes:
        print(documento)
else:
    print("No se encontraron documentos coincidentes.")


Documentos coincidentes para la palabra 'handsome':
pg37106.txt
pg84.txt
pg120.txt
pg174.txt
pg21700.txt
pg2600.txt
pg30254.txt
pg11.txt
pg41445.txt
pg2852.txt
pg394.txt
pg514.txt
pg61419.txt
pg6761.txt
pg41070.txt
pg26073.txt
pg73448.txt
pg1259.txt
pg768.txt
pg2641.txt
pg43.txt
pg1184.txt
pg1342.txt
pg59469.txt
pg600.txt
pg76.txt
pg62119.txt
pg52882.txt
pg2591.txt
pg47312.txt
pg205.txt
pg100.txt
pg47948.txt
pg48191.txt
pg73447.txt
pg21012.txt
pg42933.txt
pg16.txt
pg98.txt
pg10676.txt
pg45848.txt
pg27827.txt
pg2554.txt
pg6593.txt
pg1998.txt
pg45.txt
pg16389.txt
pg1661.txt
pg2701.txt
pg2814.txt
pg46.txt
pg1260.txt
pg2160.txt
pg67979.txt
pg28054.txt
pg74.txt
pg5197.txt
pg1727.txt
pg44837.txt
pg29728.txt
pg408.txt
pg996.txt
pg18893.txt
pg64317.txt
pg4300.txt
pg4085.txt
pg1400.txt
pg73444.txt
pg145.txt
pg55.txt
pg59468.txt
pg50038.txt


In [5]:
# Paso 4: Mostrar Resultados

# Solicitar al usuario la palabra a buscar
palabra_a_buscar = input("Ingrese la palabra que desea buscar: ")

# Buscar documentos que contienen la palabra consultada
documentos_coincidentes = buscar_documentos(palabra_a_buscar)

# Mostrar los documentos coincidentes
print("Documentos coincidentes para la palabra '{}':".format(palabra_a_buscar))
if documentos_coincidentes:
    for documento in documentos_coincidentes:
        print(documento)
else:
    print("No se encontraron documentos coincidentes.")


Documentos coincidentes para la palabra 'percy':
pg62119.txt
pg52882.txt
pg30254.txt
pg4300.txt
pg100.txt
pg73448.txt
