# Basic Boolean Search in Documents - Byron Ortiz


## Preparación e Importación de Librerías

En esta sección, importamos las librerías necesarias para manejar archivos, trabajar con expresiones regulares y crear colecciones de datos.


In [1]:
# Importar librerías necesarias
import os               # Para interactuar con el sistema operativo y manejar rutas y archivos
import re               # Para utilizar expresiones regulares en la manipulación de texto
from collections import defaultdict  # Para usar diccionarios que asignan valores por defecto a claves no existentes


## Definición de Funciones

Definimos funciones clave para leer el contenido de los libros y crear un índice invertido que nos permitirá realizar búsquedas eficientes.


In [2]:
# Función para leer el contenido de un archivo de texto
def read_book(file_path):
    with open(file_path, 'r', encoding='utf-8') as file:  # Abrir el archivo en modo de lectura con codificación UTF-8
        return file.read()  # Leer y retornar todo el contenido del archivo

# Función para crear un índice invertido a partir de los contenidos de los libros
def create_inverted_index_from_contents(file_paths):
    inverted_index = defaultdict(set)  # Crear un diccionario donde cada palabra mapea a un conjunto de índices de libros
    book_titles = []  # Lista para almacenar los títulos de los libros
    for file_path in file_paths:  # Iterar sobre cada archivo de texto
        content = read_book(file_path)  # Leer el contenido del archivo
        words = set(re.findall(r'\w+', content.lower()))  # Extraer palabras y convertirlas a minúsculas
        book_title = os.path.basename(file_path)  # Extraer el nombre del archivo como título del libro
        book_titles.append(book_title)  # Añadir el título a la lista de títulos
        for word in words:  # Para cada palabra única
            inverted_index[word].add(len(book_titles) - 1)  # Añadir el índice del libro al conjunto de índices de esa palabra
    return inverted_index, book_titles  # Retornar el índice invertido y los títulos


## Cargar Libros y Crear el Índice Invertido

Cargamos los archivos de texto desde la carpeta especificada y utilizamos las funciones definidas para crear el índice invertido.


In [3]:
# Definir la ruta a la carpeta que contiene los archivos
data_folder_path = './data/'  # Ajusta esta ruta según la ubicación real de tus archivos

# Listar todos los archivos de texto en la carpeta de datos y construir sus rutas completas
txt_files = [os.path.join(data_folder_path, file) for file in os.listdir(data_folder_path) if file.endswith('.txt')]

# Crear el índice invertido y extraer los títulos de los libros utilizando las funciones definidas
inverted_index, book_titles = create_inverted_index_from_contents(txt_files)


## Función de Búsqueda y Visualización de Resultados

Definimos una función que permite realizar búsquedas en el índice invertido y visualizar los libros que contienen la palabra buscada.


In [5]:
# Función para buscar en el índice invertido y mostrar los libros que contienen una palabra específica
def search_and_display(word, inverted_index, book_titles):
    word = word.lower()  # Convertir la palabra buscada a minúsculas para asegurar una comparación insensible a mayúsculas
    if word in inverted_index:  # Verificar si la palabra está en el índice
        book_ids = inverted_index[word]  # Obtener los índices de los libros que contienen la palabra
        results = [book_titles[book_id] for book_id in book_ids]  # Obtener los títulos de esos libros
        if results:  # Si hay resultados
            print(f"Libros que contienen la palabra '{word}':")
            for title in results:  # Imprimir cada título
                print(title)
        else:  # Si no hay resultados
            print(f"No hay libros que contengan la palabra '{word}'.")
    else:  # Si la palabra no está en el índice
        print(f"No se encontró la palabra '{word}' en ningún título de libro.")

# Solicitar entrada del usuario para la búsqueda
search_term = input("Introduce la palabra a buscar: ")  # Pedir al usuario que introduzca una palabra
search_and_display(search_term, inverted_index, book_titles)  # Realizar la búsqueda y mostrar los resultados


Introduce la palabra a buscar: Hola
Libros que contienen la palabra 'hola':
pg4300.txt
pg2000.txt
