# Ejercicio 1: Introducción a Recuperación de Información

## Objetivo de la práctica
- Entender el problema de **buscar información** en colecciones de texto.
- Comprender por qué se necesita un **índice invertido** en recuperación de información.
- Programar una primera solución manual y luego optimizarla con un índice.
- Evaluar la mejora en tiempos de búsqueda cuando usamos estructuras adecuadas.

## Parte 1: Búsqueda lineal en documentos

### Actividad
1. Se te proporcionará un conjunto de documentos de texto.
2. Escribe una función que:
   - Lea todos los documentos.
   - Busque una palabra ingresada por el usuario.
   - Muestre en qué documentos aparece la palabra.

In [9]:
def buscar_palabra_en_documentos():
    #Lista de archivos 
    documentos = ['/kaggle/input/corpus/01_corpus_turismo.txt'] #, '/kaggle/input/corpus/01_corpus_turismo_500.txt']

    #Palabra a buscar
    palabra = input("Ingresa la palabra a buscar: ")

    #Recorre cada documento
    for documento in documentos:
        try:
            with open(documento, 'r', encoding='utf-8') as file:
                archivo = file.readlines()

                for numero, contenido in enumerate(archivo, start=1):
                    palabras = contenido.strip().split()  #Dividir en palabras
                    
                    #Comparar palabra por palabra (ignorando mayúsculas)
                    for p in palabras:
                        if p == palabra:
                            print(f"La palabra '{palabra}' se encuentra en '{documento}', archivo {numero}: {contenido.strip()}")
                            break  # No es necesario revisar más palabras de esta línea
        except:
            print(f"No se pudo abrir el documento: {documento}")

# Ejecutar la función
buscar_palabra_en_documentos()


Ingresa la palabra a buscar:  turismo


La palabra 'turismo' se encuentra en '/kaggle/input/corpus/01_corpus_turismo.txt', archivo 1: Ecuador es un país megadiverso, con playas, montañas y selvas ideales para el turismo ecológico.


## Parte 2: Construcción de un índice invertido

### Actividad
1. Escribe un programa que:
   - Recorra todos los documentos.
   - Construya un **índice invertido**, es decir, un diccionario donde:
     - Cada palabra clave apunta a una lista de documentos donde aparece.

2. Escribe una nueva función de búsqueda que:
   - Consulte directamente el índice para encontrar los documentos relevantes.
   - Sea mucho más rápida que la búsqueda lineal.

In [15]:
def indice_invertido():
    #Lista de documentos
    documentos = ['/kaggle/input/corpus/01_corpus_turismo.txt', '/kaggle/input/corpus/01_corpus_turismo_500.txt']

    #Diccionario para almacenar el índice invertido
    indice = {}

    #Recorre cada archivo
    for documento in documentos:
        try:
            with open(documento, 'r', encoding='utf-8') as file:
                archivo = file.readlines()

                for numero, contenido in enumerate(archivo, start=1):
                    palabras = contenido.strip().split()  # Dividir en palabras

                    for p in palabras:
                        if p:
                            if p not in indice:
                                indice[p] = []  #Guardamos una lista de apariciones
                            
                            # Guardar una tupla (documento, número de línea)
                            indice[p].append((documento, numero))
        
        except FileNotFoundError:
            print(f"No se encontró el archivo: {documento}")

    return indice  # Retorna el índice invertido

# --- Uso del índice ---
indice = indice_invertido()

# Pedimos la palabra al usuario
palabra = input("Ingresa la palabra a buscar: ")

# Buscamos en el índice
if palabra in indice:
    for documento, numero in indice[palabra]:
        print(f"La palabra '{palabra}' se encuentra en '{documento}', el documento {numero}")
else:
    print(f"La palabra '{palabra}' no se encuentra en los documentos.")


Ingresa la palabra a buscar:  turismo


La palabra 'turismo' se encuentra en '/kaggle/input/corpus/01_corpus_turismo.txt', el documento 1
La palabra 'turismo' se encuentra en '/kaggle/input/corpus/01_corpus_turismo_500.txt', el documento 5
La palabra 'turismo' se encuentra en '/kaggle/input/corpus/01_corpus_turismo_500.txt', el documento 22
La palabra 'turismo' se encuentra en '/kaggle/input/corpus/01_corpus_turismo_500.txt', el documento 30
La palabra 'turismo' se encuentra en '/kaggle/input/corpus/01_corpus_turismo_500.txt', el documento 37
La palabra 'turismo' se encuentra en '/kaggle/input/corpus/01_corpus_turismo_500.txt', el documento 41
La palabra 'turismo' se encuentra en '/kaggle/input/corpus/01_corpus_turismo_500.txt', el documento 45
La palabra 'turismo' se encuentra en '/kaggle/input/corpus/01_corpus_turismo_500.txt', el documento 76
La palabra 'turismo' se encuentra en '/kaggle/input/corpus/01_corpus_turismo_500.txt', el documento 109
La palabra 'turismo' se encuentra en '/kaggle/input/corpus/01_corpus_turismo_5

In [18]:
def buscar_en_indice(indice, palabra):

    if palabra in indice:
        resultados = indice[palabra]
        print(f"La palabra '{palabra}' fue encontrada en:")
        for documento, numero in resultados:
            print(f"  - Archivo: {documento}, documento {numero}")
    else:
        print(f"La palabra '{palabra}' no se encuentra en los documentos.")

# --- Uso del índice y búsqueda ---
indice = indice_invertido()

# Solicitar palabra
palabra = input("Ingresa la palabra a buscar: ")
buscar_en_indice(indice, palabra)

Ingresa la palabra a buscar:  turismo


La palabra 'turismo' fue encontrada en:
  - Archivo: /kaggle/input/corpus/01_corpus_turismo.txt, documento 1
  - Archivo: /kaggle/input/corpus/01_corpus_turismo_500.txt, documento 5
  - Archivo: /kaggle/input/corpus/01_corpus_turismo_500.txt, documento 22
  - Archivo: /kaggle/input/corpus/01_corpus_turismo_500.txt, documento 30
  - Archivo: /kaggle/input/corpus/01_corpus_turismo_500.txt, documento 37
  - Archivo: /kaggle/input/corpus/01_corpus_turismo_500.txt, documento 41
  - Archivo: /kaggle/input/corpus/01_corpus_turismo_500.txt, documento 45
  - Archivo: /kaggle/input/corpus/01_corpus_turismo_500.txt, documento 76
  - Archivo: /kaggle/input/corpus/01_corpus_turismo_500.txt, documento 109
  - Archivo: /kaggle/input/corpus/01_corpus_turismo_500.txt, documento 110
  - Archivo: /kaggle/input/corpus/01_corpus_turismo_500.txt, documento 122
  - Archivo: /kaggle/input/corpus/01_corpus_turismo_500.txt, documento 127
  - Archivo: /kaggle/input/corpus/01_corpus_turismo_500.txt, documento 130

## Parte 3: Evaluación de tiempos de búsqueda
### Actividad

1. Realiza la búsqueda de varias palabras usando:
      -  Corpus pequeño: 16 documentos (turismo en Ecuador).
      -  Corpus grande: 500 documentos (versión ampliada).
2. Mide el tiempo de ejecución:
      -  Para búsqueda lineal.
      -  Para búsqueda usando índice invertido.
      -  Grafica o presenta los resultados en una tabla comparativa.

### Ejemplo de palabras para buscar
- quito
- montañita
- feriado
- playas
- aventura
- galápagos

## Busqueda Lineal

In [29]:
import time

def buscar_palabra_en_documentos():
    # Lista de archivos 
    documentos = ['/kaggle/input/corpus/01_corpus_turismo.txt']

    # Palabra a buscar
    palabra = input("Ingresa la palabra a buscar: ")

    # Medir tiempo de inicio
    inicio = time.time()

    encontrada = False  # Bandera para saber si encontramos la palabra

    # Recorre cada documento
    for documento in documentos:
        try:
            with open(documento, 'r', encoding='utf-8') as file:
                archivo = file.readlines()

                for numero, contenido in enumerate(archivo, start=1):
                    palabras = contenido.strip().split()

                    for p in palabras:
                        if p == palabra:
                            print(f"La palabra '{palabra}' se encuentra en '{documento}', documento {numero}: {contenido.strip()}")
                            encontrada = True
                            break  # No seguir buscando en la misma línea
        except:
            print(f"No se pudo abrir el documento: {documento}")

    # Si no se encontró en ningún documento
    if not encontrada:
        print(f"La palabra '{palabra}' no se encontró en los documentos.")

    # Medir tiempo de fin
    fin = time.time()

    # Mostrar el tiempo de ejecución
    print(f"Tiempo de ejecución: {fin - inicio:.6f} segundos.")

# Ejecutar la función
buscar_palabra_en_documentos()


Ingresa la palabra a buscar:  feriado


La palabra 'feriado' se encuentra en '/kaggle/input/corpus/01_corpus_turismo.txt', documento 14: Los turistas disfrutan en el feriado de las fiestas locales y de la gastronomía típica de cada región.
Tiempo de ejecución: 0.003056 segundos.


## Indice Invertido

In [30]:
import time

def indice_invertido():
    # Lista de documentos
    documentos = ['/kaggle/input/corpus/01_corpus_turismo.txt', '/kaggle/input/corpus/01_corpus_turismo_500.txt']

    # Diccionario para almacenar el índice invertido
    indice = {}

    # Medir tiempo de inicio para la construcción del índice
    inicio = time.time()

    # Recorre cada archivo
    for documento in documentos:
        try:
            with open(documento, 'r', encoding='utf-8') as file:
                archivo = file.readlines()

                for numero, contenido in enumerate(archivo, start=1):
                    palabras = contenido.strip().split()  # Dividir en palabras

                    for p in palabras:
                        if p:
                            if p not in indice:
                                indice[p] = []  # Guardamos una lista de apariciones
                            
                            # Guardar una tupla (documento, número de línea)
                            indice[p].append((documento, numero))
        
        except FileNotFoundError:
            print(f"No se encontró el archivo: {documento}")

    # Medir tiempo de fin para la construcción del índice
    fin = time.time()
    print(f"Tiempo de construcción del índice: {fin - inicio:.6f} segundos.")

    return indice  # Retorna el índice invertido

# --- Uso del índice ---
# Medir el tiempo para la búsqueda de la palabra
inicio_busqueda = time.time()

# Construcción del índice
indice = indice_invertido()

# Pedir la palabra al usuario
palabra = input("Ingresa la palabra a buscar: ")

# Buscar en el índice
if palabra in indice:
    for documento, numero in indice[palabra]:
        print(f"La palabra '{palabra}' se encuentra en '{documento}', documento {numero}")
else:
    print(f"La palabra '{palabra}' no se encuentra en los documentos.")

# Medir el tiempo de fin para la búsqueda
fin_busqueda = time.time()
print(f"Tiempo de búsqueda en el índice: {fin_busqueda - inicio_busqueda:.6f} segundos.")


Tiempo de construcción del índice: 0.010969 segundos.


Ingresa la palabra a buscar:  playas


La palabra 'playas' se encuentra en '/kaggle/input/corpus/01_corpus_turismo.txt', documento 5
La palabra 'playas' se encuentra en '/kaggle/input/corpus/01_corpus_turismo.txt', documento 10
La palabra 'playas' se encuentra en '/kaggle/input/corpus/01_corpus_turismo_500.txt', documento 20
La palabra 'playas' se encuentra en '/kaggle/input/corpus/01_corpus_turismo_500.txt', documento 28
La palabra 'playas' se encuentra en '/kaggle/input/corpus/01_corpus_turismo_500.txt', documento 36
La palabra 'playas' se encuentra en '/kaggle/input/corpus/01_corpus_turismo_500.txt', documento 51
La palabra 'playas' se encuentra en '/kaggle/input/corpus/01_corpus_turismo_500.txt', documento 67
La palabra 'playas' se encuentra en '/kaggle/input/corpus/01_corpus_turismo_500.txt', documento 69
La palabra 'playas' se encuentra en '/kaggle/input/corpus/01_corpus_turismo_500.txt', documento 79
La palabra 'playas' se encuentra en '/kaggle/input/corpus/01_corpus_turismo_500.txt', documento 83
La palabra 'playas'

## Tabla Comparativa

In [32]:
import time
from prettytable import PrettyTable  # Usamos prettytable para la tabla comparativa

# Búsqueda lineal
def buscar_palabra_en_documentos():
    documentos = ['/kaggle/input/corpus/01_corpus_turismo.txt']  # Lista de archivos

    palabra = input("Ingresa la palabra a buscar: ")

    # Medir tiempo de inicio
    inicio = time.time()

    # Recorre cada documento
    for documento in documentos:
        try:
            with open(documento, 'r', encoding='utf-8') as file:
                archivo = file.readlines()

                for numero, contenido in enumerate(archivo, start=1):
                    palabras = contenido.strip().split()  # Dividir en palabras
                    
                    for p in palabras:
                        if p == palabra:
                            break  # No es necesario revisar más palabras de esta línea
        except:
            print(f"No se pudo abrir el documento: {documento}")

    # Medir tiempo de fin
    fin = time.time()
    return fin - inicio  # Retorna el tiempo de ejecución

# Índice invertido
def indice_invertido():
    documentos = ['/kaggle/input/corpus/01_corpus_turismo.txt', '/kaggle/input/corpus/01_corpus_turismo_500.txt']

    indice = {}

    # Medir tiempo de inicio para la construcción del índice
    inicio = time.time()

    for documento in documentos:
        try:
            with open(documento, 'r', encoding='utf-8') as file:
                archivo = file.readlines()

                for numero, contenido in enumerate(archivo, start=1):
                    palabras = contenido.strip().split()

                    for p in palabras:
                        if p:
                            if p not in indice:
                                indice[p] = []  # Guardamos una lista de apariciones
                            
                            indice[p].append((documento, numero))
        
        except FileNotFoundError:
            print(f"No se encontró el archivo: {documento}")

    fin = time.time()
    return fin - inicio, indice  # Retorna el tiempo de construcción y el índice

def buscar_en_indice(indice, palabra):
    # Medir tiempo de búsqueda en el índice
    inicio_busqueda = time.time()

    if palabra in indice:
        for documento, numero in indice[palabra]:
            pass  # Solo se recorre para medir el tiempo, no se imprime

    fin_busqueda = time.time()
    return fin_busqueda - inicio_busqueda  # Retorna el tiempo de búsqueda en el índice

# --- Main ---
# Evaluar los tiempos de ambos algoritmos

# Tiempo de búsqueda lineal
tiempo_lineal = buscar_palabra_en_documentos()

# Tiempo de construcción del índice invertido y búsqueda
tiempo_construccion, indice = indice_invertido()
tiempo_busqueda_indice = buscar_en_indice(indice, 'aventura')  # busacan la misma palabra

tabla = PrettyTable()

# Definir los nombres de las columnas
tabla.field_names = ["Método", "Tiempo de ejecución (segundos)"]

# Agregar los resultados a la tabla
tabla.add_row(["Búsqueda lineal", f"{tiempo_lineal:.6f}"])
tabla.add_row(["Construcción de índice invertido", f"{tiempo_construccion:.6f}"])
tabla.add_row(["Búsqueda en índice invertido", f"{tiempo_busqueda_indice:.6f}"])

# Imprimir la tabla
print(tabla)


Ingresa la palabra a buscar:  aventura


+----------------------------------+--------------------------------+
|              Método              | Tiempo de ejecución (segundos) |
+----------------------------------+--------------------------------+
|         Búsqueda lineal          |            0.002441            |
| Construcción de índice invertido |            0.004563            |
|   Búsqueda en índice invertido   |            0.000006            |
+----------------------------------+--------------------------------+


## Parte 4:
### Actividad
1. Modifica el índice para que ignore mayúsculas/minúsculas (por ejemplo, "Playa" y "playa" deben considerarse iguales).
2. Permite consultas de múltiples términos (ejemplo: buscar documentos que contengan "playa" y "turismo").
3. Calcula el _speedup_

In [None]:
import time
from prettytable import PrettyTable

# --- Búsqueda lineal ---
def buscar_palabra_en_documentos():
    documentos = ['/kaggle/input/corpus/01_corpus_turismo.txt']  # Lista de archivos

    palabra = input("Ingresa la palabra a buscar: ").lower()  # Convertimos la palabra a minúsculas

    # Medir tiempo de inicio
    inicio = time.time()

    # Recorre cada documento
    for documento in documentos:
        try:
            with open(documento, 'r', encoding='utf-8') as file:
                archivo = file.readlines()

                for numero, contenido in enumerate(archivo, start=1):
                    palabras = contenido.strip().split()  # Dividir en palabras
                    
                    for p in palabras:
                        if p.lower() == palabra:  # Comparar en minúsculas
                            break  # No es necesario revisar más palabras de esta línea
        except:
            print(f"No se pudo abrir el documento: {documento}")

    # Medir tiempo de fin
    fin = time.time()
    return fin - inicio  # Retorna el tiempo de ejecución

# --- Índice invertido ---
def indice_invertido():
    documentos = ['/kaggle/input/corpus/01_corpus_turismo.txt', '/kaggle/input/corpus/01_corpus_turismo_500.txt']

    indice = {}

    # Medir tiempo de inicio para la construcción del índice
    inicio = time.time()

    for documento in documentos:
        try:
            with open(documento, 'r', encoding='utf-8') as file:
                archivo = file.readlines()

                for numero, contenido in enumerate(archivo, start=1):
                    palabras = contenido.strip().split()

                    for p in palabras:
                        p = p.lower()  # Convertir todas las palabras a minúsculas

                        if p:
                            if p not in indice:
                                indice[p] = []  # Guardamos una lista de apariciones
                            
                            # Guardar una tupla (documento, número de línea)
                            indice[p].append((documento, numero))
        
        except FileNotFoundError:
            print(f"No se encontró el archivo: {documento}")

    fin = time.time()
    return fin - inicio, indice  # Retorna el tiempo de construcción y el índice

# --- Búsqueda en el índice ---
def buscar_en_indice(indice, palabras):
    # Convertimos las palabras a minúsculas
    palabras = [p.lower() for p in palabras]

    # Medir tiempo de búsqueda en el índice
    inicio_busqueda = time.time()

    # Verificamos que todas las palabras estén en el índice
    documentos_relevantes = None

    for palabra in palabras:
        if palabra in indice:
            if documentos_relevantes is None:
                documentos_relevantes = set(indice[palabra])  # Comenzamos con los documentos que contienen la primera palabra
            else:
                documentos_relevantes &= set(indice[palabra])  # Intersección de documentos
        else:
            print(f"La palabra '{palabra}' no se encuentra en el índice.")
            return  # Si alguna palabra no se encuentra en el índice, terminamos la búsqueda

    # Si no hay documentos, significa que no encontramos ninguno que contenga todas las palabras
    if documentos_relevantes:
        for documento, numero in documentos_relevantes:
            print(f"Se encuentra en: {documento}, línea {numero}")
    else:
        print(f"No se encontraron documentos que contengan todas las palabras: {', '.join(palabras)}")

    fin_busqueda = time.time()
    return fin_busqueda - inicio_busqueda  # Retorna el tiempo de búsqueda en el índice

# --- Main ---
# Evaluar los tiempos de ambos algoritmos

# Tiempo de búsqueda lineal
tiempo_lineal = buscar_palabra_en_documentos()

# Tiempo de construcción del índice invertido y búsqueda
tiempo_construccion, indice = indice_invertido()

# Pedir múltiples palabras al usuario
palabras = input("Ingresa las palabras a buscar (separadas por espacio): ").split()

# Tiempo de búsqueda en el índice
tiempo_busqueda_indice = buscar_en_indice(indice, palabras)

# --- Calcular el speedup ---
speedup = tiempo_lineal / tiempo_busqueda_indice if tiempo_busqueda_indice > 0 else float('inf')

# --- Mostrar tabla comparativa ---
tabla = PrettyTable()

# Definir los nombres de las columnas
tabla.field_names = ["Método", "Tiempo de ejecución (segundos)"]

# Agregar los resultados a la tabla
tabla.add_row(["Búsqueda lineal", f"{tiempo_lineal:.6f}"])
tabla.add_row(["Construcción de índice invertido", f"{tiempo_construccion:.6f}"])
tabla.add_row(["Búsqueda en índice invertido", f"{tiempo_busqueda_indice:.6f}"])

# Imprimir la tabla
print(tabla)

# Mostrar el speedup
print(f"Speedup de la búsqueda en el índice invertido respecto a la búsqueda lineal: {speedup:.2f}")
