# Boolean Search in Documents

## Objective
Expand the simple term search functionality to include Boolean search capabilities. This will allow users to perform more complex queries by combining multiple search terms using Boolean operators.

## Problem Description
You must enhance the existing search engine from the previous exercise to support Boolean operators: AND, OR, and NOT. This will enable the retrieval of documents based on the logical relationships between multiple terms.

## Requirements

### Step 1: Update Data Preparation
Ensure that the documents are still loaded and preprocessed from the previous task. The data should be clean and ready for advanced querying.

### Step 2: Create an Inverted Index

Create an inverted index from the documents. This index maps each word to the set of document IDs in which that word appears. This facilitates word lookup in the search process.
cess.

In [7]:
import os
import re
import numpy as np
import pickle


In [8]:
# Función para procesar el texto y extraer las palabras
def procesar_texto(texto):
    palabras = re.findall(r'\b\w+\b', texto.lower())
    return palabras

In [9]:
# Diccionario para almacenar el índice invertido
indice_invertido = {}

# Lista para almacenar los nombres de los archivos
nombres_libros = []

In [10]:
# Obtener la ruta completa de la carpeta con los libros
ruta_carpeta = os.path.join(os.getcwd(),'..', 'books')

In [12]:
# Iterar sobre los archivos en la carpeta
for nombre_archivo in os.listdir(ruta_carpeta):
    nombres_libros.append(nombre_archivo)
    ruta_libro = os.path.join(ruta_carpeta, nombre_archivo)
    print(ruta_libro)
    with open(ruta_libro, 'r', encoding='utf-8') as archivo:
        contenido = archivo.read()
        palabras = procesar_texto(contenido)
       
        # Construir el índice invertido
        for palabra in palabras:
            if palabra not in indice_invertido:
                indice_invertido[palabra] = set()
            indice_invertido[palabra].add(nombres_libros.index(nombre_archivo))


C:\Users\cesar\OneDrive - Escuela Politécnica Nacional\GitHub\recuperacion-informacion\03 Boolean Search\..\books\pg100.txt
C:\Users\cesar\OneDrive - Escuela Politécnica Nacional\GitHub\recuperacion-informacion\03 Boolean Search\..\books\pg10676.txt
C:\Users\cesar\OneDrive - Escuela Politécnica Nacional\GitHub\recuperacion-informacion\03 Boolean Search\..\books\pg10681.txt
C:\Users\cesar\OneDrive - Escuela Politécnica Nacional\GitHub\recuperacion-informacion\03 Boolean Search\..\books\pg1080.txt
C:\Users\cesar\OneDrive - Escuela Politécnica Nacional\GitHub\recuperacion-informacion\03 Boolean Search\..\books\pg11.txt
C:\Users\cesar\OneDrive - Escuela Politécnica Nacional\GitHub\recuperacion-informacion\03 Boolean Search\..\books\pg1184.txt
C:\Users\cesar\OneDrive - Escuela Politécnica Nacional\GitHub\recuperacion-informacion\03 Boolean Search\..\books\pg120.txt
C:\Users\cesar\OneDrive - Escuela Politécnica Nacional\GitHub\recuperacion-informacion\03 Boolean Search\..\books\pg1232.txt
C:

KeyboardInterrupt: 

In [None]:
# Guardar el índice invertido en un archivo
with open('indice_invertido.pkl', 'wb') as archivo:
    pickle.dump(indice_invertido, archivo)

with open('nombres_libros.pkl', 'wb') as archivo:
    pickle.dump(nombres_libros, archivo)

In [6]:
len(indice_invertido)

199829