# Term Search in Documents
## Objective
The goal of this exercise is to develop a simple information retrieval system that allows the user to search for a specific term across a set of text documents. This will introduce you to the basics of text processing and searching algorithms in the context of information retrieval.

## Problem Description
You are provided with a set of text documents. Your task is to implement a search function that:

* Takes a user-inputted term as the query.
* Searches for this term across all the provided documents.
* Returns a list of documents where the term appears.

## Requirements
### Step 1: Preparing the Data
* Load the Documents: You will start by loading the text documents into your program. These documents can be in plain text format stored in a directory.
* Read Each Document: Implement a function to read each document and store its contents in a data structure of your choice (e.g., a list).




In [7]:
import os
import string
from collections import defaultdict
from itertools import product

In [8]:
# Directorio donde se encuentran los documentos de texto
directorio = "/content/drive/MyDrive/Datas/Data"

# Diccionario para almacenar los archivos de texto y sus palabras
archivos_palabras = {}

# Leer y procesar los archivos de texto
for archivo in os.listdir(directorio):
    if archivo.endswith(".txt"):
        with open(os.path.join(directorio, archivo), "r", encoding="utf-8") as file:
            contenido = file.read().lower()
            contenido = contenido.translate(str.maketrans("", "", string.punctuation))
            palabras = contenido.split()
            archivos_palabras[archivo] = set(palabras)

# Crear un diccionario para almacenar los conjuntos de índices de archivos por palabra
palabra_archivos = defaultdict(set)
for archivo, palabras in archivos_palabras.items():
    for palabra in palabras:
        palabra_archivos[palabra].add(archivo)



### Step 2: Implementing the Search
* Input Query: Implement a function to accept a query term from the user.
* Search Function: Create a function that:
  * Iterates through each document.
  * Checks if the query term appears in the document.
  * You may choose to implement case-insensitive search to improve user experience.
* Return Results: The function should return the names or identifiers of the documents where the term is found.

In [9]:
# Función para evaluar una consulta booleana
def evaluar_consulta(consulta):
    consulta = consulta.lower().strip()

    # Tokenizar la consulta
    tokens = consulta.split()

    # Función auxiliar para obtener los archivos que contienen una palabra
    def obtener_archivos(palabra):
        return palabra_archivos[palabra]

    # Función auxiliar para evaluar una expresión booleana
    def evaluar_expresion(expresion):
        palabras = expresion.split()
        resultados = []

        for palabra in palabras:
            if palabra == "and":
                continue  # No hacemos nada, el "and" es implícito en la evaluación
            elif palabra == "or":
                continue  # No hacemos nada, el "or" es implícito en la evaluación
            else:
                resultados.append(obtener_archivos(palabra))

        if "and" in palabras:
            resultado_final = set.intersection(*resultados)
        elif "or" in palabras:
            resultado_final = set.union(*resultados)
        else:
            resultado_final = resultados[0] if resultados else set()

        return resultado_final

    # Evaluar la consulta
    resultado = evaluar_expresion(consulta)

    return resultado


### Step 3: Displaying Results
* Output the Results: For each search query, output the results in a user-friendly format, listing the documents where the term was found, or a message indicating that the term does not appear in any document.

In [11]:
# Ejemplo de uso:
consulta = input("Ingresa una consulta booleana (por ejemplo, palabra1 OR palabra2 AND palabra3): ")

archivos_encontrados = evaluar_consulta(consulta)

print("Archivos que coinciden con la consulta '{}':".format(consulta))
for archivo in archivos_encontrados:
    print(archivo)

Ingresa una consulta booleana (por ejemplo, palabra1 OR palabra2 AND palabra3): state or municipal
Archivos que coinciden con la consulta 'state or municipal':
pg5197.txt
pg2814.txt
pg2600.txt
pg408.txt
pg44388.txt
pg46.txt
pg41287.txt
pg8800.txt
pg2701.txt
pg1080.txt
pg174.txt
pg43.txt
pg42933.txt
pg6761.txt
pg73444.txt
pg44837.txt
pg2641.txt
pg514.txt
pg27827.txt
pg67979.txt
pg10676.txt
pg59469.txt
pg52882.txt
pg3207.txt
pg1727.txt
pg1998.txt
pg50038.txt
pg26073.txt
pg2591.txt
pg73447.txt
pg1259.txt
pg16389.txt
pg11.txt
pg4300.txt
pg244.txt
pg41070.txt
pg73442.txt
pg394.txt
pg600.txt
pg67098.txt
pg1513.txt
pg1232.txt
pg145.txt
pg2554.txt
pg12582.txt
pg1661.txt
pg1952.txt
pg35899.txt
pg48191.txt
pg10907.txt
pg41445.txt
pg21012.txt
pg7370.txt
pg29728.txt
pg2852.txt
pg25344.txt
pg55.txt
pg219.txt
pg2542.txt
pg59468.txt
pg64317.txt
pg2000.txt
pg61419.txt
pg45848.txt
pg76.txt
pg21700.txt
pg18893.txt
pg6130.txt
pg120.txt
pg100.txt
pg74.txt
pg1184.txt
pg844.txt
pg73448.txt
pg2160.txt
pg4731