# Ejercicio 1: Introducción a Recuperación de Información

## Objetivo de la práctica
- Entender el problema de **buscar información** en colecciones de texto.
- Comprender por qué se necesita un **índice invertido** en recuperación de información.
- Programar una primera solución manual y luego optimizarla con un índice.
- Evaluar la mejora en tiempos de búsqueda cuando usamos estructuras adecuadas.

## Parte 1: Búsqueda lineal en documentos

### Actividad
1. Se te proporcionará un conjunto de documentos de texto.
2. Escribe una función que:
   - Lea todos los documentos.
   - Busque una palabra ingresada por el usuario.
   - Muestre en qué documentos aparece la palabra.

In [16]:
import os
import time
inicio = time.time()
def buscar_palabra(ruta_directorio,query):
    for nombre_corpus in os.listdir(ruta_directorio):
        ruta_corpus = os.path.join(ruta_directorio, nombre_corpus)
        if os.path.isfile(ruta_corpus) and nombre_corpus.endswith('.txt'):
            with open(ruta_corpus, 'r', encoding='utf-8') as archivo:
                lineas = archivo.readlines() 
                conteo_total = 0              
                for numero_linea, linea in enumerate(lineas, start=1):
                    ocurrencias = linea.count(query)
                    if ocurrencias > 0:
                        conteo_total += ocurrencias
                if conteo_total > 0:
                    print(f"\nLa palabra '{query}' fue encontrada en: {nombre_corpus}")
                    print(f"Total de apariciones en el documento: {conteo_total}")
                else:
                    print("No se ha encontrado la palabra")
                    return 0

In [17]:
ruta_directorio = r"C:\Users\Christian\Desktop\EPN\2025-A\Recuperacion de Informacion\ir25a-main\data"
buscar_palabra(ruta_directorio,"Ecuador")
fin = time.time()
tiempo_total = fin - inicio
print(f"\nTiempo de ejecución: {tiempo_total:.6f} segundos")


La palabra 'Ecuador' fue encontrada en: 01_corpus_turismo.txt
Total de apariciones en el documento: 1

La palabra 'Ecuador' fue encontrada en: 01_corpus_turismo_500.txt
Total de apariciones en el documento: 36

Tiempo de ejecución: 0.012959 segundos


## Parte 2: Construcción de un índice invertido

### Actividad
1. Escribe un programa que:
   - Recorra todos los documentos.
   - Construya un **índice invertido**, es decir, un diccionario donde:
     - Cada palabra clave apunta a una lista de documentos donde aparece.

2. Escribe una nueva función de búsqueda que:
   - Consulte directamente el índice para encontrar los documentos relevantes.
   - Sea mucho más rápida que la búsqueda lineal.

In [18]:
import os
import time
inicio = time.time()
def extraer_palabras_unicas(ruta_directorio):
    palabras_unicas = []
    for nombre_corpus in os.listdir(ruta_directorio):
        ruta_corpus = os.path.join(ruta_directorio, nombre_corpus)      
        if os.path.isfile(ruta_corpus) and nombre_corpus.endswith('.txt'):
            with open(ruta_corpus, 'r', encoding='utf-8') as archivo:
                lineas = archivo.readlines()
                for linea in lineas:
                    palabras = linea.split()
                    for palabra in palabras:
                        if palabra not in palabras_unicas:
                            palabras_unicas.append(palabra)
    return palabras_unicas

In [19]:

def construir_indice_invertido(ruta_directorio, palabras_a_buscar):
    indice_invertido = {}
    for nombre_corpus in os.listdir(ruta_directorio):
        ruta_corpus = os.path.join(ruta_directorio, nombre_corpus)
        if os.path.isfile(ruta_corpus) and nombre_corpus.endswith('.txt'):
            with open(ruta_corpus, 'r', encoding='utf-8') as archivo:
                lineas = archivo.readlines()
                for numero_linea, linea in enumerate(lineas, start=1):
                    palabras = linea.split()
                    for palabra in palabras:
                        if palabra in palabras_a_buscar:
                            identificador_documento = f"{nombre_corpus} (Documento {numero_linea})"
                            if palabra not in indice_invertido:
                                indice_invertido[palabra] = []
                            if identificador_documento not in indice_invertido[palabra]:
                                indice_invertido[palabra].append(identificador_documento)    
    return indice_invertido

In [20]:
def buscar_en_indice(indice_invertido, query):
    if query in indice_invertido:
        documentos = indice_invertido[query]
        print(f"\nLa palabra '{query}' fue encontrada en:")
        for documento in documentos:
            print(f"- {documento}")
    else:
        print(f"\nLa palabra '{query}' no fue encontrada en ningún documento.")

In [21]:
def r(indice_invertido, diccionario):
    for palabra in diccionario:
        buscar_en_indice(indice_invertido, palabra)

In [22]:
ruta_directorio = r"C:\Users\Christian\Desktop\EPN\2025-A\Recuperacion de Informacion\ir25a-main\data"
palabras_a_buscar = extraer_palabras_unicas(ruta_directorio)
indice = construir_indice_invertido(ruta_directorio, palabras_a_buscar)
r(indice,palabras_a_buscar)
fin = time.time()
tiempo_total = fin - inicio
print(f"\nTiempo de ejecución: {tiempo_total:.6f} segundos")


La palabra 'Ecuador' fue encontrada en:
- 01_corpus_turismo.txt (Documento 1)
- 01_corpus_turismo_500.txt (Documento 5)
- 01_corpus_turismo_500.txt (Documento 22)
- 01_corpus_turismo_500.txt (Documento 30)
- 01_corpus_turismo_500.txt (Documento 37)
- 01_corpus_turismo_500.txt (Documento 41)
- 01_corpus_turismo_500.txt (Documento 45)
- 01_corpus_turismo_500.txt (Documento 76)
- 01_corpus_turismo_500.txt (Documento 109)
- 01_corpus_turismo_500.txt (Documento 110)
- 01_corpus_turismo_500.txt (Documento 122)
- 01_corpus_turismo_500.txt (Documento 127)
- 01_corpus_turismo_500.txt (Documento 130)
- 01_corpus_turismo_500.txt (Documento 156)
- 01_corpus_turismo_500.txt (Documento 163)
- 01_corpus_turismo_500.txt (Documento 168)
- 01_corpus_turismo_500.txt (Documento 200)
- 01_corpus_turismo_500.txt (Documento 225)
- 01_corpus_turismo_500.txt (Documento 231)
- 01_corpus_turismo_500.txt (Documento 246)
- 01_corpus_turismo_500.txt (Documento 254)
- 01_corpus_turismo_500.txt (Documento 258)
- 01_

## Parte 3: Evaluación de tiempos de búsqueda
### Actividad

1. Realiza la búsqueda de varias palabras usando:
      -  Corpus pequeño: 16 documentos (turismo en Ecuador).
      -  Corpus grande: 500 documentos (versión ampliada).
2. Mide el tiempo de ejecución:
      -  Para búsqueda lineal.
      -  Para búsqueda usando índice invertido.
      -  Grafica o presenta los resultados en una tabla comparativa.

### Ejemplo de palabras para buscar
- quito
- montañita
- feriado
- playas
- aventura
- galápagos

In [23]:
#Busqueda lineal
inicio = time.time()
buscar_palabra(ruta_directorio,"quito")
buscar_palabra(ruta_directorio,"montañita")
buscar_palabra(ruta_directorio,"feriado")
buscar_palabra(ruta_directorio,"playas")
buscar_palabra(ruta_directorio,"aventuras")
buscar_palabra(ruta_directorio,"galápagos")
fin = time.time()
tiempo_total = fin - inicio
print(f"\nTiempo de ejecución: {tiempo_total:.6f} segundos")

No se ha encontrado la palabra
No se ha encontrado la palabra

La palabra 'feriado' fue encontrada en: 01_corpus_turismo.txt
Total de apariciones en el documento: 3

La palabra 'feriado' fue encontrada en: 01_corpus_turismo_500.txt
Total de apariciones en el documento: 172

La palabra 'playas' fue encontrada en: 01_corpus_turismo.txt
Total de apariciones en el documento: 3

La palabra 'playas' fue encontrada en: 01_corpus_turismo_500.txt
Total de apariciones en el documento: 47
No se ha encontrado la palabra
No se ha encontrado la palabra

Tiempo de ejecución: 0.005475 segundos


In [24]:
#Busqueda indice invertido
inicio = time.time()
r(indice,palabras_a_buscar)
fin = time.time()
tiempo_total = fin - inicio
print(f"\nTiempo de ejecución: {tiempo_total:.6f} segundos")


La palabra 'Ecuador' fue encontrada en:
- 01_corpus_turismo.txt (Documento 1)
- 01_corpus_turismo_500.txt (Documento 5)
- 01_corpus_turismo_500.txt (Documento 22)
- 01_corpus_turismo_500.txt (Documento 30)
- 01_corpus_turismo_500.txt (Documento 37)
- 01_corpus_turismo_500.txt (Documento 41)
- 01_corpus_turismo_500.txt (Documento 45)
- 01_corpus_turismo_500.txt (Documento 76)
- 01_corpus_turismo_500.txt (Documento 109)
- 01_corpus_turismo_500.txt (Documento 110)
- 01_corpus_turismo_500.txt (Documento 122)
- 01_corpus_turismo_500.txt (Documento 127)
- 01_corpus_turismo_500.txt (Documento 130)
- 01_corpus_turismo_500.txt (Documento 156)
- 01_corpus_turismo_500.txt (Documento 163)
- 01_corpus_turismo_500.txt (Documento 168)
- 01_corpus_turismo_500.txt (Documento 200)
- 01_corpus_turismo_500.txt (Documento 225)
- 01_corpus_turismo_500.txt (Documento 231)
- 01_corpus_turismo_500.txt (Documento 246)
- 01_corpus_turismo_500.txt (Documento 254)
- 01_corpus_turismo_500.txt (Documento 258)
- 01_

Grafica o presenta los resultados en una tabla comparativa.


## Corpus utilizado
- Corpus pequeño: `01_corpus_turismo.txt` (16 documentos).
- Corpus grande: `01_corpus_turismo_500.txt` (500 documentos).

## Palabras buscadas
- quito
- montañita
- feriado
- playas
- aventuras
- galápagos

## Resultados de tiempos de ejecución

| Método                        | Corpus pequeño | Corpus grande | Tiempo total de búsqueda (segundos) |
|:-------------------------------|:--------------:|:-------------:|:----------------------------------:|
| Búsqueda lineal               | 16 documentos  | 500 documentos| 0.005475                           |
| Búsqueda con índice invertido | 16 documentos  | 500 documentos| 0.089730                           |

- En el corpus de prueba, la búsqueda lineal fue ligeramente más rápida que la búsqueda con índice invertido.
- Esto se debe a que:
  - La búsqueda lineal trabaja directamente sobre pocos documentos y pocas líneas, sin estructuras adicionales.
  - La búsqueda por índice invertido requiere construir un índice en memoria, lo cual implica un pequeño costo inicial de procesamiento.
- Sin embargo, en escenarios reales con muchos documentos o muchas consultas repetidas, el índice invertido es mucho más eficiente, ya que permite búsquedas en tiempo constante O(1) por palabra.


## Parte 4:
### Actividad
1. Modifica el índice para que ignore mayúsculas/minúsculas (por ejemplo, "Playa" y "playa" deben considerarse iguales).
2. Permite consultas de múltiples términos (ejemplo: buscar documentos que contengan "playa" y "turismo").
3. Calcula el _speedup_ (ganancia en tiempo de ejecucion indice invertido/indice basico)

In [25]:
import os
import time
inicio = time.time()
def buscar_palabras(ruta_directorio, queries):
    queries = [q.lower() for q in queries]
    for nombre_corpus in os.listdir(ruta_directorio):
        ruta_corpus = os.path.join(ruta_directorio, nombre_corpus)
        if os.path.isfile(ruta_corpus) and nombre_corpus.endswith('.txt'):
            with open(ruta_corpus, 'r', encoding='utf-8') as archivo:
                lineas = archivo.readlines()
                conteo_total = 0
                for numero_linea, linea in enumerate(lineas, start=1):
                    linea_min = linea.lower()
                    for query in queries:
                        ocurrencias = linea_min.count(query)
                        if ocurrencias > 0:
                            conteo_total += ocurrencias
                if conteo_total > 0:
                    print(f"\nSe encontraron las palabras {queries} en: {nombre_corpus}")
                    print(f"Total de apariciones en el documento: {conteo_total}")
                else:
                    print(f"\nNo se encontraron las palabras {queries} en: {nombre_corpus}")

In [26]:
ruta_directorio = r"C:\Users\Christian\Desktop\EPN\2025-A\Recuperacion de Informacion\ir25a-main\data"
palabras_a_buscar = ["quito", "montañita","feriado","playas","aventuras","galapagos"]
buscar_palabras(ruta_directorio, palabras_a_buscar)
fin = time.time()
tiempo_total = fin - inicio
print(f"\nTiempo de ejecución: {tiempo_total:.6f} segundos")


Se encontraron las palabras ['quito', 'montañita', 'feriado', 'playas', 'aventuras', 'galapagos'] en: 01_corpus_turismo.txt
Total de apariciones en el documento: 9

Se encontraron las palabras ['quito', 'montañita', 'feriado', 'playas', 'aventuras', 'galapagos'] en: 01_corpus_turismo_500.txt
Total de apariciones en el documento: 313

Tiempo de ejecución: 0.029812 segundos


- *Speedup* = (indice invertido/indice basico)
- *Speedup* = 0.08973/0.029812
- *Speedup* = 3.0098 
