# Ejercicio 1: Introducci√≥n a Recuperaci√≥n de Informaci√≥n

## Objetivo de la pr√°ctica
- Entender el problema de **buscar informaci√≥n** en colecciones de texto.
- Comprender por qu√© se necesita un **√≠ndice invertido** en recuperaci√≥n de informaci√≥n.
- Programar una primera soluci√≥n manual y luego optimizarla con un √≠ndice.
- Evaluar la mejora en tiempos de b√∫squeda cuando usamos estructuras adecuadas.

## Parte 1: B√∫squeda lineal en documentos

### Actividad
1. Se te proporcionar√° un conjunto de documentos de texto.
2. Escribe una funci√≥n que:
   - Lea todos los documentos.
   - Busque una palabra ingresada por el usuario.
   - Muestre en qu√© documentos aparece la palabra.

In [5]:
import os

# Primero verificar si los archivos existen
archivos = ['../data/01_corpus_turismo.txt', '../data/01_corpus_turismo_500.txt']

for archivo in archivos:
    if not os.path.exists(archivo):
        print(f"‚ùå No se encontr√≥ el archivo: {archivo}")
    else:
        print(f"‚úÖ Archivo encontrado: {archivo}")

# Ahora s√≠ correr la b√∫squeda
def busqueda_lineal(palabra_clave, archivos):
    documentos_con_palabra = []

    for archivo in archivos:
        if os.path.exists(archivo):  # Extra seguridad
            with open(archivo, 'r', encoding='utf-8') as f:
                contenido = f.read()
                if palabra_clave.lower() in contenido.lower():
                    documentos_con_palabra.append(archivo)

    return documentos_con_palabra

palabra = input("üîç Ingresa la palabra a buscar: ")
resultados = busqueda_lineal(palabra, archivos)

if resultados:
    print(f"La palabra '{palabra}' aparece en los siguientes documentos:")
    for doc in resultados:
        print(f"üìÑ {doc}")
else:
    print(f"La palabra '{palabra}' no se encontr√≥ en ninguno de los documentos.")


‚úÖ Archivo encontrado: ../data/01_corpus_turismo.txt
‚úÖ Archivo encontrado: ../data/01_corpus_turismo_500.txt
La palabra 'Otavalo' aparece en los siguientes documentos:
üìÑ ../data/01_corpus_turismo.txt
üìÑ ../data/01_corpus_turismo_500.txt


## Parte 2: Construcci√≥n de un √≠ndice invertido

### Actividad
1. Escribe un programa que:
   - Recorra todos los documentos.
   - Construya un **√≠ndice invertido**, es decir, un diccionario donde:
     - Cada palabra clave apunta a una lista de documentos donde aparece.

2. Escribe una nueva funci√≥n de b√∫squeda que:
   - Consulte directamente el √≠ndice para encontrar los documentos relevantes.
   - Sea mucho m√°s r√°pida que la b√∫squeda lineal.

In [None]:
import os
import re
from collections import defaultdict

archivos = ['../data/01_corpus_turismo.txt', '../data/01_corpus_turismo_500.txt']

#Indice invertido
def construir_indice_invertido(archivos):
    indice_invertido = defaultdict(set)  # usamos set para evitar documentos repetidos

    for archivo in archivos:
        if os.path.exists(archivo):
            with open(archivo, 'r', encoding='utf-8') as f:
                contenido = f.read()
                # Limpiamos el texto: eliminamos signos de puntuaci√≥n, etc.
                palabras = re.findall(r'\b\w+\b', contenido.lower())
                for palabra in palabras:
                    indice_invertido[palabra].add(archivo)
    
    return indice_invertido

# Funci√≥n de b√∫squeda r√°pida
def busqueda_por_indice(palabra_clave, indice_invertido):
    palabra_clave = palabra_clave.lower()
    if palabra_clave in indice_invertido:
        return list(indice_invertido[palabra_clave])
    else:
        return []

#Indice
indice = construir_indice_invertido(archivos)

# Consulta
palabra = input("üîé Ingresa la palabra a buscar (√≠ndice invertido): ")
resultados = busqueda_por_indice(palabra, indice)

#Resultados
if resultados:
    print(f"La palabra '{palabra}' aparece en los documentos:")
    for doc in resultados:
        print(f"üìÑ {doc}")
else:
    print(f"La palabra '{palabra}' no se encontr√≥ en ninguno de los documentos.")


La palabra 'Otavalo' aparece en los documentos:
üìÑ ../data/01_corpus_turismo_500.txt
üìÑ ../data/01_corpus_turismo.txt


## Parte 3: Evaluaci√≥n de tiempos de b√∫squeda
### Actividad

1. Realiza la b√∫squeda de varias palabras usando:
      -  Corpus peque√±o: 16 documentos (turismo en Ecuador).
      -  Corpus grande: 500 documentos (versi√≥n ampliada).
2. Mide el tiempo de ejecuci√≥n:
      -  Para b√∫squeda lineal.
      -  Para b√∫squeda usando √≠ndice invertido.
      -  Grafica o presenta los resultados en una tabla comparativa.

### Ejemplo de palabras para buscar
- quito
- monta√±ita
- feriado
- playas
- aventura
- gal√°pagos

In [8]:
import os
import re
import time
from collections import defaultdict

archivos = ['../data/01_corpus_turismo.txt', '../data/01_corpus_turismo_500.txt']

#B√∫squeda lineal
def busqueda_lineal(palabra_clave, archivos):
    documentos_con_palabra = []
    palabra_clave = palabra_clave.lower()

    for archivo in archivos:
        if os.path.exists(archivo):
            with open(archivo, 'r', encoding='utf-8') as f:
                contenido = f.read()
                if palabra_clave in contenido.lower():
                    documentos_con_palabra.append(archivo)
    return documentos_con_palabra

#Indice invertido ---
def construir_indice_invertido(archivos):
    indice_invertido = defaultdict(set)

    for archivo in archivos:
        if os.path.exists(archivo):
            with open(archivo, 'r', encoding='utf-8') as f:
                contenido = f.read()
                palabras = re.findall(r'\b\w+\b', contenido.lower())
                for palabra in palabras:
                    indice_invertido[palabra].add(archivo)
    return indice_invertido

#B√∫squeda por √≠ndice invertido ---
def busqueda_por_indice(palabra_clave, indice_invertido):
    palabra_clave = palabra_clave.lower()
    return list(indice_invertido.get(palabra_clave, []))

#Evaluaci√≥n de tiempos 
palabras_a_buscar = ['quito', 'monta√±ita', 'feriado', 'playas', 'aventura', 'gal√°pagos']

# Construimos el √≠ndice invertido antes de medir
indice = construir_indice_invertido(archivos)
resultados_tiempos = []

for palabra in palabras_a_buscar:
    # Tiempo b√∫squeda lineal
    inicio_lineal = time.perf_counter()
    _ = busqueda_lineal(palabra, archivos)
    fin_lineal = time.perf_counter()
    tiempo_lineal = fin_lineal - inicio_lineal

    # Tiempo b√∫squeda √≠ndice
    inicio_indice = time.perf_counter()
    _ = busqueda_por_indice(palabra, indice)
    fin_indice = time.perf_counter()
    tiempo_indice = fin_indice - inicio_indice

    resultados_tiempos.append((palabra, tiempo_lineal, tiempo_indice))

#Mostrar los resultados
print("\nTabla Comparativa de Tiempos de B√∫squeda:\n")
print("{:<12} {:>20} {:>20}".format("Palabra", "Lineal (s)", "√çndice (s)"))
print("-" * 60)
for palabra, tiempo_lineal, tiempo_indice in resultados_tiempos:
    print("{:<12} {:>20.6f} {:>20.6f}".format(palabra, tiempo_lineal, tiempo_indice))



Tabla Comparativa de Tiempos de B√∫squeda:

Palabra                Lineal (s)           √çndice (s)
------------------------------------------------------------
quito                    0.000836             0.000004
monta√±ita                0.000593             0.000003
feriado                  0.000640             0.000003
playas                   0.000641             0.000003
aventura                 0.000557             0.000003
gal√°pagos                0.000559             0.000003


## Parte 4:
### Actividad
1. Modifica el √≠ndice para que ignore may√∫sculas/min√∫sculas (por ejemplo, "Playa" y "playa" deben considerarse iguales).
2. Permite consultas de m√∫ltiples t√©rminos (ejemplo: buscar documentos que contengan "playa" y "turismo").
3. Calcula el _speedup_

In [None]:
import os
import re
import time
from collections import defaultdict

archivos = ['../data/01_corpus_turismo.txt', '../data/01_corpus_turismo_500.txt']

#Indice invertido (ignorando may√∫sculas/min√∫sculas)
def construir_indice_invertido(archivos):
    indice_invertido = defaultdict(set)

    for archivo in archivos:
        if os.path.exists(archivo):
            with open(archivo, 'r', encoding='utf-8') as f:
                contenido = f.read()
                palabras = re.findall(r'\b\w+\b', contenido.lower())
                for palabra in palabras:
                    indice_invertido[palabra].add(archivo)
    return indice_invertido

#B√∫squeda m√∫ltiple (acepta varios t√©rminos)
def busqueda_multiple_por_indice(terminos, indice_invertido):
    resultados = set()

    for termino in terminos:
        termino = termino.lower()
        if termino in indice_invertido:
            if not resultados:
                resultados = indice_invertido[termino].copy()
            else:
                resultados = resultados.intersection(indice_invertido[termino])

    return list(resultados)

def busqueda_multiple_lineal(terminos, archivos):
    documentos_con_terminos = []
    terminos = [t.lower() for t in terminos]  

    for archivo in archivos:
        if os.path.exists(archivo):
            with open(archivo, 'r', encoding='utf-8') as f:
                contenido = f.read().lower()
                if all(termino in contenido for termino in terminos):
                    documentos_con_terminos.append(archivo)

    return documentos_con_terminos

#Indice invertido
indice = construir_indice_invertido(archivos)

#Consulta de m√∫ltiples t√©rminos
consulta = input("üîé Ingresa las palabras que quieres buscar (separadas por espacio): ")
terminos = consulta.strip().split()

#Medir tiempos
inicio_lineal = time.perf_counter()
resultados_lineal = busqueda_multiple_lineal(terminos, archivos)
fin_lineal = time.perf_counter()
tiempo_lineal = fin_lineal - inicio_lineal

inicio_indice = time.perf_counter()
resultados_indice = busqueda_multiple_por_indice(terminos, indice)
fin_indice = time.perf_counter()
tiempo_indice = fin_indice - inicio_indice

#Calcular el speedup
if tiempo_indice > 0:
    speedup = tiempo_lineal / tiempo_indice
else:
    speedup = float('inf')

# 7. Mostrar resultados
print("\nResultados de b√∫squeda:\n")
print("üîµ B√∫squeda Lineal: ", resultados_lineal)
print("üü¢ B√∫squeda √çndice: ", resultados_indice)

print("\nüìà Tiempos:")
print(f"- B√∫squeda Lineal: {tiempo_lineal:.6f} segundos")
print(f"- B√∫squeda √çndice: {tiempo_indice:.6f} segundos")

print(f"\nüöÄ Speedup: {speedup:.2f}x m√°s r√°pido usando √≠ndice invertido")



Resultados de b√∫squeda:

üîµ B√∫squeda Lineal:  ['../data/01_corpus_turismo.txt', '../data/01_corpus_turismo_500.txt']
üü¢ B√∫squeda √çndice:  ['../data/01_corpus_turismo_500.txt', '../data/01_corpus_turismo.txt']

üìà Tiempos:
- B√∫squeda Lineal: 0.001104 segundos
- B√∫squeda √çndice: 0.000053 segundos

üöÄ Speedup: 20.71x m√°s r√°pido usando √≠ndice invertido
