In [17]:
# This Python 3 environment comes with many helpful analytics libraries installed
# It is defined by the kaggle/python Docker image: https://github.com/kaggle/docker-python
# For example, here's several helpful packages to load

import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)

# Input data files are available in the read-only "../input/" directory
# For example, running this (by clicking run or pressing Shift+Enter) will list all files under the input directory

import os
for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))

# You can write up to 20GB to the current directory (/kaggle/working/) that gets preserved as output when you create a version using "Save & Run All" 
# You can also write temporary files to /kaggle/temp/, but they won't be saved outside of the current session

/kaggle/input/databook/War_and_Peace.txt
/kaggle/input/databook/The_Complete_Works_of_William_Shakespeare.txt
/kaggle/input/databook/The_Great_Gats.txt
/kaggle/input/databook/Don_Quixote.txt
/kaggle/input/databook/The_Philippines_a_Century_Hence.txt
/kaggle/input/databook/Notes_from_the_Underground.txt
/kaggle/input/databook/Mo.txt
/kaggle/input/databook/Tractatus Logico-Philosophicus.txt
/kaggle/input/databook/The_Romance_of_Lust_A_classic_Victorian_erotic_novel.txt
/kaggle/input/databook/Memoirs_of_a_London_doll.txt
/kaggle/input/databook/20_hrs_40_min_.txt
/kaggle/input/databook/Don_Quijote.txt
/kaggle/input/databook/The_Adventures_of_Tom_Sawyer_Complete.txt
/kaggle/input/databook/Magazine_of_western_history_illustrated_Vol_I_No_1_November_1884.txt
/kaggle/input/databook/A_Modest_Proposal.txt
/kaggle/input/databook/Geschiedenis_der_Noordsche_Compagnie.txt
/kaggle/input/databook/The_History_of_Rome_Books_09_to_26.txt
/kaggle/input/databook/Alices_Adventures_in_Wonderland.txt
/kaggle/

### Búsqueda Booleana Básica en Documentos

#### Objetivo
Expandir la funcionalidad de búsqueda de términos simples para incluir capacidades de búsqueda booleana. Esto permitirá a los usuarios realizar consultas más complejas combinando múltiples términos de búsqueda usando operadores booleanos.

#### Descripción del Problema
Debes mejorar el motor de búsqueda existente del ejercicio anterior para admitir operadores booleanos: AND, OR y NOT. Esto permitirá la recuperación de documentos basada en las relaciones lógicas entre múltiples términos.

#### Requisitos

**Paso 1: Actualizar la Preparación de Datos**
Asegúrate de que los documentos se carguen y preprocesen como en la tarea anterior. Los datos deben estar limpios y listos para consultas avanzadas.

1. **Definición de la Función `load_file`**:
   - Este código crea una función llamada `load_file` que se encarga de leer el contenido de un archivo utilizando una ruta de archivo proporcionada.

2. **Extracción de Palabras**:
   - La función utiliza una expresión regular para identificar y extraer palabras del archivo.

3. **Conversión a Minúsculas**:
   - Todas las palabras extraídas se convierten a minúsculas para asegurar la consistencia en el procesamiento.

4. **Filtrado de Palabras Vacías**:
   - Se filtran las palabras que están en una lista predefinida de palabras vacías (stop words) para eliminar términos irrelevantes.

5. **Devolución del Resultado**:
   - Finalmente, la función devuelve una lista de las palabras restantes, es decir, aquellas que no fueron filtradas.


In [18]:
import re
import os

stop_words = ["the", "is", "and", "of", "a", "in", "to", "it", "that", "this"]
def load_file(file_path):
    with open(file_path, 'r') as file:
        content = file.read()
        words = re.findall(r'\b[a-zA-Z]+\b', content)
        words = [word.lower() for word in words if word.lower() not in stop_words] 
    return words

### Paso 2: Crear un Índice Invertido

1. **Crear un Índice Invertido a partir de los Documentos**:
   - El índice invertido asigna cada palabra al conjunto de IDs de documentos en los que aparece esa palabra. Esto facilita la búsqueda de palabras en el proceso de búsqueda.

2. **Definición de la Función `create_inverted_index`**:
   - Este código define una función llamada `create_inverted_index` que escanea un directorio especificado en busca de archivos de texto.

3. **Extracción de Palabras**:
   - Para cada archivo de texto encontrado, la función extrae las palabras usando la función `load_file`.

4. **Construcción del Índice Invertido**:
   - Luego, la función crea un índice invertido donde las palabras son las claves y el conjunto de nombres de archivos en los que aparece cada palabra es el valor.

5. **Devolución del Índice Invertido**:
   - Finalmente, la función devuelve este diccionario de índice invertido.

6. **Uso del Índice Invertido**:
   - Se pasa el directorio donde se encuentran los archivos y se muestran los primeros 3 resultados.


In [19]:
def create_inverted_index(directory):
    inverted_index = {}
    for file_name in os.listdir(directory):
        if file_name.endswith('.txt'):
            words = load_file(os.path.join(directory, file_name))
            for word in words:
                if word not in inverted_index:
                    inverted_index[word] = {file_name}
                else:
                    inverted_index[word].add(file_name)
    return inverted_index 

In [20]:
directory = '/kaggle/input/databook'
inverted_index = create_inverted_index(directory)

In [21]:
import json
first_three = {k: inverted_index[k] for k in list(inverted_index)[:3]}
first_three_as_lists = {k: list(v) for k, v in first_three.items()}
print(json.dumps(first_three_as_lists, indent=4))

{
    "project": [
        "Frankenstein_Or_The_Modern_Prometheus.txt",
        "Don_Quijote.txt",
        "Dracula.txt",
        "The_starstealers.txt",
        "The_Hound_of_the_Baskervilles.txt",
        "Wuthering_Heights.txt",
        "A_Dolls_House__a_play.txt",
        "The_Expedition_of_Humphry_Clinker.txt",
        "Metamorphosis.txt",
        "The_poems_of_Heine_Complete.txt",
        "Ang_Filibusterismo_Karugtng_ng_Noli_Me_Tangere.txt",
        "A_Room_with_a_View.txt",
        "The_Adventures_of_Tom_Sawyer_Complete.txt",
        "The_Scarlet_Letter.txt",
        "Memoirs_of_a_London_doll.txt",
        "The_Native_Races_of_the_Pacific_states_Volume_1_Wild_Tribes.txt",
        "The_History_of_Rome_Books_27_to_36.txt",
        "Calculus Made Easy.txt",
        "The_Scottish_Highlands_Highland_Clans_and_Highland_Regiments_Volume_1_of_2_550.txt",
        "The_divine_comedy.txt",
        "Tractatus Logico-Philosophicus.txt",
        "20_hrs_40_min_.txt",
        "War_and_Peace.tx

### Paso 3: Procesamiento de Consultas

1. **Analizar la Consulta**:
   - Implementar una función para analizar la consulta de entrada y así identificar los términos y operadores.

2. **Buscar Documentos**:
   - Basado en la consulta analizada, implementar la lógica para recuperar y ordenar los documentos según las expresiones booleanas.

3. **Definición de la Función `search_documents`**:
   - Definimos una función llamada `search_documents` que toma una consulta (una palabra) y un índice invertido como entrada.

4. **Verificación en el Índice Invertido**:
   - La función verifica si la consulta existe como una clave en el índice invertido.

5. **Recuperación de Documentos**:
   - Si la consulta existe, recupera el conjunto de documentos donde aparece la consulta, ordena los nombres de los documentos alfabéticamente y los devuelve.

6. **Manejo de Consultas No Encontradas**:
   - Si la consulta no existe en el índice invertido, la función devuelve una lista vacía.


In [22]:
def search_documents(query, inverted_index):
    if query in inverted_index:
        matching_documents = inverted_index[query]
        sorted_documents = sorted(matching_documents) 
        return sorted_documents
    else:
        return []

### Paso 4: Mostrando Resultados

1. **Mostrar los Resultados**:
   - Mostrar los documentos que coinciden con los criterios de la consulta.
   - Incluir funcionalidades para manejar consultas que no resulten en documentos coincidentes.

### Código Mejorado para Presentar Resultados

```python


# Llamar a la función para iniciar el proceso de búsqueda



In [24]:
def mostrar_resultados():

    while True:
        consulta = input("Ingresa tu consulta (o escribe 'salir' para terminar): ").strip().lower()
        if consulta == 'salir':
            print("Gracias por visitarnos")
            break

        documentos_coincidentes = search_documents(consulta, inverted_index)
        if documentos_coincidentes:
            print(f"Documentos coincidentes para '{consulta}':")
            for documento in documentos_coincidentes:
                print(" -", documento)
        else:
            print(f"No se encontraron documentos coincidentes para '{consulta}'.")

        print()
        print("************** Fin de la búsqueda **************")
        print()
mostrar_resultados()

Ingresa tu consulta (o escribe 'salir' para terminar):  Christmas


Documentos coincidentes para 'christmas':
 - 20_hrs_40_min_.txt
 - A_Christmas_Carol_in_Prose_Being_a_Ghost_Story_of_Christmas.txt
 - A_Dolls_House__a_play.txt
 - A_Room_with_a_View.txt
 - A_Tale_of_Two_Cities.txt
 - Adventures_of_Huckleberry_Finn.txt
 - Alices_Adventures_in_Wonderland.txt
 - Anne_of_Green_Gables.txt
 - Christina_of_Denmark_Duchess_of_Milan_and_Lorraine_15221590.txt
 - Come_Hither_A_Collection_of_Rhymes_and_Poems_for_the_Young_of_All_Ages_1295.txt
 - Cranford.txt
 - Crime_and_Punishment.txt
 - Don_Quixote.txt
 - Dubliners.txt
 - Great_Expectations.txt
 - Grimms_Fairy_Tales.txt
 - History_of_Tom_Jones_a_Foundling.txt
 - Jane_Eyre_An_Autobiography.txt
 - Little_Women.txt
 - Little_Women_Or_Meg_Jo_Beth_and_Amy.txt
 - Magazine_of_western_history_illustrated_Vol_I_No_1_November_1884.txt
 - Memoirs_of_a_London_doll.txt
 - Metamorphosis.txt
 - Middlemarch.txt
 - Mo.txt
 - My_Life__Volume_1.txt
 - Peter_Pan.txt
 - Pride_and_Prejudice.txt
 - Sketches_and_Studies_in_Italy_and_Gr

Ingresa tu consulta (o escribe 'salir' para terminar):  salir


Gracias por visitarnos


### Criterios de Evaluación

1. **Corrección**:
   - La implementación de la búsqueda booleana debe interpretar y procesar las consultas correctamente de acuerdo con la lógica booleana.

2. **Eficiencia**:
   - Considerar la eficiencia del proceso de búsqueda, especialmente a medida que aumenta la complejidad de las consultas.

3. **Experiencia del Usuario**:
   - Asegurarse de que la interfaz para ingresar consultas y ver resultados sea fácil de usar.

4. **Profundización en el Conocimiento**:
   - Este ejercicio te ayudará a comprender mejor cómo los motores de búsqueda procesan y responden a las consultas de los usuarios.
