# Term Search in Documents - BYRON ORTIZ
## Objective
The goal of this exercise is to develop a simple information retrieval system that allows the user to search for a specific term across a set of text documents. This will introduce you to the basics of text processing and searching algorithms in the context of information retrieval.

## Problem Description
You are provided with a set of text documents. Your task is to implement a search function that:

* Takes a user-inputted term as the query.
* Searches for this term across all the provided documents.
* Returns a list of documents where the term appears.

## Requerimientos

### Paso 1: Preparando los Datos

- **Cargar los Documentos**: Comenzarás cargando los documentos de texto en tu programa. Estos documentos pueden estar en formato de texto plano almacenados en un directorio.

- **Leer Cada Documento**: Implementa una función para leer cada documento y almacenar su contenido en una estructura de datos de tu elección (por ejemplo, una lista).


In [2]:
import os

def cargar_documentos(directorio):
    # Verifica que el directorio existe y es accesible
    if not os.path.exists(directorio):
        print(f"El directorio {directorio} no existe.")
        return {}
    if not os.path.isdir(directorio):
        print(f"{directorio} no es un directorio.")
        return {}

    # Carga todos los archivos .txt en el directorio especificado
    archivos = [archivo for archivo in os.listdir(directorio) if archivo.endswith('.txt')]
    documentos = {}
    for archivo in archivos:
        with open(os.path.join(directorio, archivo), 'r', encoding='utf-8') as file:
            documentos[archivo] = file.read()
    return documentos

# Imprimir la ruta absoluta del directorio actual para asegurarse de la correcta ubicación de '/data'
print("Ruta absoluta del directorio actual:", os.getcwd())

# Definir el directorio donde están almacenados tus documentos
# Asegúrate de que la ruta es correcta respecto a la salida del comando anterior
directorio = './data'  # Esta ruta asume que 'data' está en el directorio actual donde se ejecuta el notebook

# Cargar los documentos
documentos = cargar_documentos(directorio)

# Mostrar los nombres de los documentos cargados para verificar
print("Documentos cargados:", list(documentos.keys()))


Ruta absoluta del directorio actual: C:\Users\byron
Documentos cargados: ['pg100.txt', 'pg10676.txt', 'pg1080.txt', 'pg10907.txt', 'pg11.txt', 'pg1184.txt', 'pg120.txt', 'pg1232.txt', 'pg12582.txt', 'pg1259.txt', 'pg1260.txt', 'pg1342.txt', 'pg1400.txt', 'pg145.txt', 'pg1513.txt', 'pg16.txt', 'pg16389.txt', 'pg1661.txt', 'pg1727.txt', 'pg174.txt', 'pg18893.txt', 'pg1952.txt', 'pg1998.txt', 'pg2000.txt', 'pg20228.txt', 'pg205.txt', 'pg21012.txt', 'pg2160.txt', 'pg21700.txt', 'pg219.txt', 'pg244.txt', 'pg25344.txt', 'pg2542.txt', 'pg2554.txt', 'pg2591.txt', 'pg2600.txt', 'pg26073.txt', 'pg2641.txt', 'pg2701.txt', 'pg27827.txt', 'pg28054.txt', 'pg2814.txt', 'pg2852.txt', 'pg29728.txt', 'pg30254.txt', 'pg3207.txt', 'pg345.txt', 'pg35899.txt', 'pg37106.txt', 'pg394.txt', 'pg408.txt', 'pg4085.txt', 'pg41070.txt', 'pg41287.txt', 'pg41445.txt', 'pg42933.txt', 'pg43.txt', 'pg4300.txt', 'pg44388.txt', 'pg44837.txt', 'pg45.txt', 'pg45540.txt', 'pg45848.txt', 'pg46.txt', 'pg47312.txt', 'pg47629.tx

## Step 2: Implementing the Search

- **Input Query**: Implement a function to accept a query term from the user.

- **Search Function**: Create a function that:
  - Iterates through each document.
  - Checks if the query term appears in the document.
  - You may choose to implement case-insensitive search to improve user experience.

- **Return Results**: The function should return the names or identifiers of the documents where the term is found.
función debe devolver los nombres o identificadores de los documentos donde se encuentra el término.


In [3]:
def buscar_palabra(documentos, palabra):
    """
    Busca una palabra en un conjunto de documentos y devuelve los nombres de los documentos donde se encuentra.
    
    Args:
    documentos (dict): Un diccionario donde las claves son nombres de archivos y los valores son sus contenidos.
    palabra (str): La palabra a buscar en los documentos.
    
    Returns:
    list: Una lista de nombres de documentos donde se encontró la palabra.
    """
    palabra = palabra.lower()  # Convertir la palabra a minúsculas para búsqueda insensible a mayúsculas
    archivos_con_palabra = []
    for nombre_archivo, contenido in documentos.items():
        if palabra in contenido.lower():
            archivos_con_palabra.append(nombre_archivo)
    return archivos_con_palabra

# Solicitar al usuario que ingrese el término de búsqueda
palabra = input("Ingresa la palabra que quieres buscar: ")

# Realizar la búsqueda
archivos_encontrados = buscar_palabra(documentos, palabra)

# Mostrar los resultados de la búsqueda
if archivos_encontrados:
    print(f"La palabra '{palabra}' aparece en {len(archivos_encontrados)} documentos.")
    print("Archivos que contienen la palabra:", archivos_encontrados)
else:
    print(f"La palabra '{palabra}' no aparece en ningún documento.")


Ingresa la palabra que quieres buscar:  hello


La palabra 'hello' aparece en 17 documentos.
Archivos que contienen la palabra: ['pg100.txt', 'pg10676.txt', 'pg1184.txt', 'pg18893.txt', 'pg28054.txt', 'pg2814.txt', 'pg408.txt', 'pg4300.txt', 'pg45848.txt', 'pg5197.txt', 'pg52882.txt', 'pg55.txt', 'pg62119.txt', 'pg64317.txt', 'pg6593.txt', 'pg74.txt', 'pg76.txt']


## Step 3: Displaying Results

- **Output the Results**: For each search query, output the results in a user-friendly format, listing the documents where the term was found, or a message indicating that the term does not appear in any document.


In [5]:
def mostrar_resultados(archivos, palabra):
    """
    Muestra los resultados de la búsqueda en un formato amigable para el usuario.
    
    Args:
    archivos (list): Lista de nombres de archivos donde se encontró la palabra.
    palabra (str): Palabra buscada.
    """
    if archivos:
        print(f"La palabra '{palabra}' aparece en {len(archivos)} documentos.")
        print("Archivos que contienen la palabra:", archivos)
    else:
        print(f"La palabra '{palabra}' no aparece en ningún documento.")

# Asumiendo que 'documentos' es el diccionario cargado con el contenido de los documentos y 'palabra' es la palabra buscada
# Realiza la búsqueda
archivos_encontrados = buscar_palabra(documentos, palabra)

# Mostrar los resultados de la búsqueda
mostrar_resultados(archivos_encontrados, palabra)


La palabra 'hello' aparece en 17 documentos.
Archivos que contienen la palabra: ['pg100.txt', 'pg10676.txt', 'pg1184.txt', 'pg18893.txt', 'pg28054.txt', 'pg2814.txt', 'pg408.txt', 'pg4300.txt', 'pg45848.txt', 'pg5197.txt', 'pg52882.txt', 'pg55.txt', 'pg62119.txt', 'pg64317.txt', 'pg6593.txt', 'pg74.txt', 'pg76.txt']


## Evaluation Criteria

- **Correctness**: The search function should accurately identify documents containing the term.
- **Efficiency**: While efficiency may not be critical for small datasets, consider the efficiency of your search algorithm.
- **Usability**: The interface for inputting search terms and viewing results should be clear and easy to use.

## Additional Challenges (Optional)

- **Enhance the search functionality**: Allow for more complex queries, such as phrases or multiple terms.
- **Improve the search with regular expressions**: Use regex for pattern matching to enhance the flexibility of the search.
- **Implement a simple ranking system**: Rank the documents based on the frequency of the term within each document.

This exercise will help you understand the fundamental mechanisms behind storing and retrieving data in the field of information retrieval. By the end of this task, you will have a basic prototype that mimics core functions of larger, more complex search engines.


In [6]:
import re
from collections import Counter

def buscar_palabra_con_regex(documentos, patron):
    """
    Busca un patrón usando expresiones regulares en un conjunto de documentos y devuelve los nombres de los documentos
    donde se encuentra, junto con la frecuencia de apariciones.
    
    Args:
    documentos (dict): Un diccionario donde las claves son nombres de archivos y los valores son sus contenidos.
    patron (str): El patrón regex a buscar en los documentos.
    
    Returns:
    dict: Un diccionario con los nombres de los documentos y la frecuencia de la palabra buscada.
    """
    resultados = {}
    regex = re.compile(patron, re.IGNORECASE)
    for nombre_archivo, contenido in documentos.items():
        matches = regex.findall(contenido)
        if matches:
            resultados[nombre_archivo] = len(matches)
    
    return resultados

def mostrar_resultados_ordenados(resultados, palabra):
    """
    Muestra los resultados de la búsqueda ordenados por la frecuencia de la palabra en un formato amigable.
    
    Args:
    resultados (dict): Diccionario de documentos y sus frecuencias de apariciones de la palabra.
    palabra (str): Palabra buscada.
    """
    if resultados:
        sorted_results = sorted(resultados.items(), key=lambda x: x[1], reverse=True)
        print(f"La palabra '{palabra}' aparece en {len(resultados)} documentos, ordenados por frecuencia:")
        for doc, count in sorted_results:
            print(f"{doc}: {count} veces")
    else:
        print(f"La palabra '{palabra}' no aparece en ningún documento.")

# Ejemplo de uso
patron = input("Ingresa el patrón regex que quieres buscar: ")
resultados = buscar_palabra_con_regex(documentos, patron)
mostrar_resultados_ordenados(resultados, patron)


Ingresa el patrón regex que quieres buscar:  books


La palabra 'books' aparece en 98 documentos, ordenados por frecuencia:
pg996.txt: 171 veces
pg3207.txt: 85 veces
pg37106.txt: 76 veces
pg514.txt: 73 veces
pg29728.txt: 59 veces
pg47312.txt: 57 veces
pg44837.txt: 54 veces
pg145.txt: 53 veces
pg100.txt: 47 veces
pg6593.txt: 43 veces
pg768.txt: 40 veces
pg2600.txt: 38 veces
pg1260.txt: 37 veces
pg205.txt: 36 veces
pg4300.txt: 36 veces
pg10676.txt: 33 veces
pg10907.txt: 31 veces
pg26073.txt: 30 veces
pg345.txt: 28 veces
pg59469.txt: 28 veces
pg62119.txt: 28 veces
pg2554.txt: 27 veces
pg67979.txt: 27 veces
pg18893.txt: 26 veces
pg2641.txt: 26 veces
pg45.txt: 26 veces
pg52882.txt: 26 veces
pg4085.txt: 25 veces
pg2701.txt: 24 veces
pg2814.txt: 24 veces
pg59468.txt: 24 veces
pg21700.txt: 23 veces
pg73444.txt: 23 veces
pg76.txt: 23 veces
pg1342.txt: 22 veces
pg42933.txt: 22 veces
pg2160.txt: 21 veces
pg25344.txt: 21 veces
pg28054.txt: 21 veces
pg5197.txt: 21 veces
pg1184.txt: 20 veces
pg12582.txt: 20 veces
pg1727.txt: 20 veces
pg41445.txt: 20 v