# Búsqueda booleana en documentos


## Objetivo
Ampliar la funcionalidad de búsqueda simple de términos para incluir funciones de búsqueda booleana. Esto permitirá a los usuarios realizar consultas más complejas combinando varios términos de búsqueda mediante operadores booleanos.

## Descripción del problema
Debe mejorar el motor de búsqueda existente del ejercicio anterior para que admita operadores booleanos: AND, OR y NOT. Esto permitirá recuperar documentos basándose en las relaciones lógicas entre múltiples términos.

Traducción realizada con la versión gratuita del traductor DeepL.com

## Requisitos
### Paso 1: Actualizar la preparación de datos 
Asegúrese de que los documentos siguen cargados y preprocesados desde la tarea anterior. Los datos deben estar limpios y listos para una consulta avanzada.

In [1]:
import os
from pathlib import Path
import re
#from collections import defaultdict
from collections import Counter
import numpy as np

In [2]:
def buscar_titulos(directorio):
    archivos_titulos = []
    # Iterar sobre todos los archivos en el directorio
    for archivo in directorio.glob('*.txt'):
            # Abrir el archivo y buscar la palabra
            titulo=archivo.stem
            archivos_titulos.append(str(titulo))
    return archivos_titulos

In [3]:
def diccionario_libros(directorio):
    palabras_individuales = []
    for archivo in directorio.glob('*.txt'):
            with open((archivo), 'r', encoding='utf-8') as file:   
             contenido = file.read()
            # Limpiar el contenido: eliminar caracteres especiales y dividir en palabras
             palabras = re.findall(r'\b[A-Za-z0-9]+\b', contenido.lower())
             palabras_individuales.extend(palabras)      
    return palabras_individuales

In [4]:
directorio_a_buscar = Path("data")  # Ruta de la carpeta "data"
titulos_encontrados = buscar_titulos(directorio_a_buscar)


In [5]:
palabras_diccionario=diccionario_libros(directorio_a_buscar)
palabras_diccionario= set(palabras_diccionario)
palabras_ordenadas = sorted(palabras_diccionario)

### Paso 2: Crear un índice invertido
Cree un índice invertido a partir de los documentos. Este índice asigna cada palabra al conjunto de ID de documentos en los que aparece dicha palabra. Esto facilita la búsqueda de palabras en el proceso de búsqueda.

In [6]:
filas=len(palabras_diccionario)
columnas=len(titulos_encontrados)
matriz = np.zeros((filas, columnas), dtype=int)
#print(matriz)

In [7]:

def palabras_por_libro(directorio,libro_nombre):
    palabras_individuales1 = []
    archivo = directorio / (libro_nombre + '.txt')
    # Verificar si el archivo existe
    if archivo.exists():
        with open(archivo, 'r', encoding='utf-8') as file:
            contenido = file.read()
            # Limpiar el contenido: eliminar caracteres especiales y dividir en palabras
            palabras = re.findall(r'\b[A-Za-z0-9]+\b', contenido.lower())
            palabras_individuales1.extend(palabras) 
            palabras_individuales1 = set(palabras_individuales1)
            return palabras_individuales1

In [8]:
 for j, titulo in enumerate(titulos_encontrados):
    palabras_por_libro_actual= palabras_por_libro(directorio_a_buscar,titulo)
    for i, palabra in enumerate(palabras_ordenadas):
        if palabra in palabras_por_libro_actual:
            matriz[i, j] = 1

In [9]:
print(matriz)

[[1 0 1 ... 0 0 0]
 [1 0 0 ... 0 0 0]
 [1 1 1 ... 1 1 1]
 ...
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]]


In [10]:
diccionario_bi= dict(enumerate(palabras_ordenadas))
titulos_bi= dict(enumerate(titulos_encontrados))

### Paso 3: Implementación de la búsqueda booleana
Mejore la consulta de entrada: Modifique la función para que acepte consultas complejas que puedan incluir los operadores booleanos AND, OR y NOT.
Implemente la lógica booleana:
AND: El documento debe contener todos los términos. Por ejemplo, python AND programming debe devolver documentos que contengan tanto "python" como "programming".
OR: El documento puede contener cualquiera de los términos. Por ejemplo, python OR programming devolverá documentos que contengan "python", "programming" o ambos.
NOT: El documento no debe contener el término siguiente a NOT. Por ejemplo, python NOT snake devolverá documentos que contengan "python" pero no "snake"

In [11]:
palabra_a_buscar = []

In [12]:
palabra_a_buscar.append(input("Ingresa la palabra que quieres buscar: "))

Ingresa la palabra que quieres buscar: zulu


In [13]:
palabra_a_buscar.append(input("Ingresa la segunda palabra que quieres buscar: ")) 

Ingresa la segunda palabra que quieres buscar: that


In [14]:
indices_palabras = []
indice_value=[]
for key, value in diccionario_bi.items():
    if value in palabra_a_buscar:
        indice_value.append(value)
        indices_palabras.append(key)
          
# Verificar si se encontraron palabras y cuántas
if indices_palabras:
    if len(indices_palabras) == 1:
        print("La palabra está en la fila:", indices_palabras[0])
    elif len(indices_palabras) > 1:
        print("La palabras estan en las filas:", ", ".join(map(str, indices_palabras)))
else:
    print("Las palabra no esta en los libros del directorio.")

La palabras estan en las filas: 162907, 184120


In [15]:
diccionario_filas = {}
contador=0

for i in indices_palabras:
    diccionario_filas[indice_value[contador]] = matriz[i]
    contador=contador+1

print(diccionario_filas)

{'that': array([1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]), 'zulu': array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0])}


In [16]:
for palabra, matriz in diccionario_filas.items():
    diccionario_filas[palabra] = np.array(matriz)

In [17]:
#print(diccionario_filas)

In [18]:
# Operación AND
resultado_and =diccionario_filas[indice_value[0]] & diccionario_filas[indice_value[1]]
print(resultado_and)

# Operación OR
resultado_or = diccionario_filas[indice_value[0]] | diccionario_filas[indice_value[1]]
print(resultado_or)




[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0]
[1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1]


In [19]:
# Operación Not, traer el libro donde la segunda palabra no esta 
binarioNot = []
for biNot in diccionario_filas[indice_value[1]]:
    if biNot == 0:
        binarioNot.append(1)
    else:
        binarioNot.append(0)

bn=binarioNot        
binot=np.array(bn)
#print(binarioNot)
print(binot)

[1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 1 1]


In [20]:
indices_and = np.where(resultado_and == 1)
print(indices_and)

(array([94], dtype=int64),)


In [21]:
indices_or = np.where(resultado_or == 1)
print(indices_or)

(array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33,
       34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50,
       51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67,
       68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84,
       85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99],
      dtype=int64),)


In [22]:
indices_Not = np.where(binot == 1)
print(indices_Not)

(array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33,
       34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50,
       51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67,
       68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84,
       85, 86, 87, 88, 89, 90, 91, 92, 93, 95, 96, 97, 98, 99],
      dtype=int64),)


### Paso 4: Procesamiento de la consulta
Análisis de la consulta: Implemente una función que analice la consulta de entrada para identificar los términos y operadores.
Buscar documentos: Basándose en la consulta analizada, implemente la lógica para recuperar y clasificar los documentos según las expresiones booleanas.
Manejo de casos y coincidencias parciales: Opcionalmente, puede manejar casos y coincidencias parciales para refinar los resultados de la búsqueda.

In [23]:
def titulos_binarios1(indices_columnas,titulos_encontrados):
    titulos_or2 = []
    for nr2 in indices_columnas:
        for nt2, titulo2 in enumerate(titulos_encontrados):
            if nt2 == nr2:
                titulos_or2.append(titulo2)
                continue
    return titulos_or2

In [24]:
titulos_And = titulos_binarios1(indices_and[0], titulos_encontrados)

In [25]:
titulos_Or = titulos_binarios1(indices_or[0], titulos_encontrados)

In [26]:
titulos_Not = titulos_binarios1(indices_Not[0], titulos_encontrados)

In [27]:
#print(titulos_Not)

In [28]:
#print(titulos_And)

In [29]:
#print(titulos_Or)

### Paso 5: Visualización de resultados
Mostrar los resultados: Mostrar los documentos que coinciden con los criterios de búsqueda. Incluya funciones para gestionar las consultas que no den como resultado ningún documento coincidente.

In [30]:

if palabra_a_buscar:
    print("La palabra "+palabra_a_buscar[0]+" y la palabra "+palabra_a_buscar[1]+" se encontro en los siguientes libros juntos:")
    for titulosAnd in titulos_And:
        print(titulosAnd)
else:
    print("La palabra "+palabra_a_buscar[0]+" y la palabra "+palabra_a_buscar[1]+" no se encontro en ningun archivo en el directorio especificado juntos.")

La palabra zulu y la palabra that se encontro en los siguientes libros juntos:
Ulysses


In [31]:
if palabra_a_buscar:
    print("La palabra "+palabra_a_buscar[0]+" o la palabra "+palabra_a_buscar[1]+" se encontraron en los siguientes libros:")
    for titulosOr in titulos_Or:
        print(titulosOr)
else:
    print("La palabra "+palabra_a_buscar[0]+" y la palabra "+palabra_a_buscar[1]+" no se encontro en ningun archivo en el directorio especificado.")

La palabra zulu o la palabra that se encontraron en los siguientes libros:
20_hrs_40_min_
Adventures_of_Huckleberry_Finn
Alices_Adventures_in_Wonderland
Ang_Filibusterismo_Karugtóng_ng_Noli_Me_Tangere
Anne_of_Green_Gables
A_Christmas_Carol_in_Prose_Being_a_Ghost_Story_of_Christmas
A_Dolls_House__a_play
A_Modest_Proposal
A_Room_with_a_View
A_Study_in_Scarlet
A_Tale_of_Two_Cities
Calculus Made Easy
Christina_of_Denmark_Duchess_of_Milan_and_Lorraine_15221590
Come_Hither_A_Collection_of_Rhymes_and_Poems_for_the_Young_of_All_Ages_1295
Cookery_and_Dining_in_Imperial_Rome
Cranford
Crime_and_Punishment
Don_Juan
Don_Quijote
Don_Quixote
Dracula
Dubliners
Frankenstein; Or, The Modern Prometheus
Frankenstein_Or_The_Modern_Prometheus
Geschiedenis_der_Noordsche_Compagnie
Great_Expectations
Grimms_Fairy_Tales
Heart_of_Darkness
History_of_Tom_Jones_a_Foundling
Jane_Eyre_An_Autobiography
La_casa_e_la_famiglia_di_Masaniello
Leviathan
Little_Women
Little_Women_Or_Meg_Jo_Beth_and_Amy
Magazine_of_western_h

In [32]:
if palabra_a_buscar:
    print("La palabra "+indice_value[1]+" no se encontro en los siguientes libros:")
    for titulosNot in titulos_Not:
        print(titulosNot)
else:
    print("La palabra se encontro en todos los archivos en el directorio especificado.")

La palabra zulu no se encontro en los siguientes libros:
20_hrs_40_min_
Adventures_of_Huckleberry_Finn
Alices_Adventures_in_Wonderland
Ang_Filibusterismo_Karugtóng_ng_Noli_Me_Tangere
Anne_of_Green_Gables
A_Christmas_Carol_in_Prose_Being_a_Ghost_Story_of_Christmas
A_Dolls_House__a_play
A_Modest_Proposal
A_Room_with_a_View
A_Study_in_Scarlet
A_Tale_of_Two_Cities
Calculus Made Easy
Christina_of_Denmark_Duchess_of_Milan_and_Lorraine_15221590
Come_Hither_A_Collection_of_Rhymes_and_Poems_for_the_Young_of_All_Ages_1295
Cookery_and_Dining_in_Imperial_Rome
Cranford
Crime_and_Punishment
Don_Juan
Don_Quijote
Don_Quixote
Dracula
Dubliners
Frankenstein; Or, The Modern Prometheus
Frankenstein_Or_The_Modern_Prometheus
Geschiedenis_der_Noordsche_Compagnie
Great_Expectations
Grimms_Fairy_Tales
Heart_of_Darkness
History_of_Tom_Jones_a_Foundling
Jane_Eyre_An_Autobiography
La_casa_e_la_famiglia_di_Masaniello
Leviathan
Little_Women
Little_Women_Or_Meg_Jo_Beth_and_Amy
Magazine_of_western_history_illustrated