# Ejercicio 1: Introducción a Recuperación de Información

## Objetivo de la práctica
- Entender el problema de **buscar información** en colecciones de texto.
- Comprender por qué se necesita un **índice invertido** en recuperación de información.
- Programar una primera solución manual y luego optimizarla con un índice.
- Evaluar la mejora en tiempos de búsqueda cuando usamos estructuras adecuadas.

## Parte 1: Búsqueda lineal en documentos

### Actividad
1. Se te proporcionará un conjunto de documentos de texto.
2. Escribe una función que:
   - Lea todos los documentos.
   - Busque una palabra ingresada por el usuario.
   - Muestre en qué documentos aparece la palabra.

In [None]:
query = input("Query: ")
resultados = []
def Busqueda(query, resultados):
    try: 
        with open('01_corpus_turismo_500.txt', 'r') as file:
            line = file.readline()
            index = 1
            while line:
                index += 1 #Ponemos un indice para cada linea empezando en 1
                if not line:
                    continue #Skipea la linea vacia
                search = line.split()
                if query in search:
                    resultados.append((index))
                line = file.readline()
    except FileNotFoundError:
        print("El archivo no se encontró.")
        
Busqueda(query, resultados)
# Print the results
NumeroResultados = len(resultados)
print(f"Número de Documentos encontrados: {NumeroResultados}")
print(f"Resultados de la búsqueda para '{query}':")
print(resultados)

Número de Documentos encontrados: 36
Resultados de la búsqueda para 'Ecuador':
[5, 22, 30, 37, 41, 45, 76, 109, 110, 122, 127, 130, 156, 163, 168, 200, 225, 231, 246, 254, 258, 280, 307, 319, 324, 333, 352, 371, 379, 383, 386, 442, 459, 486, 491, 492]


## Parte 2: Construcción de un índice invertido

### Actividad
1. Escribe un programa que:
   - Recorra todos los documentos.
   - Construya un **índice invertido**, es decir, un diccionario donde:
     - Cada palabra clave apunta a una lista de documentos donde aparece.

2. Escribe una nueva función de búsqueda que:
   - Consulte directamente el índice para encontrar los documentos relevantes.
   - Sea mucho más rápida que la búsqueda lineal.

In [2]:

def Busqueda(query, resultados):

    try: 
        with open('01_corpus_turismo_500.txt', 'r') as file:
            line = file.readline()
            index = 1
            while line:
                index += 1 #Ponemos un indice para cada linea empezando en 1
                line = file.readline()
                if not line:
                    continue #Skipea la linea vacia
                search = line.split()
                if query in search:
                    resultados.append((index))
    except FileNotFoundError:
        print("El archivo no se encontró.")

def dividir(texto):
    texto = texto.lower()
    texto_limpio = ""
    for caracter in texto:
        if caracter.isalnum() or caracter in "áéíóúüñ":
            texto_limpio += caracter
        else:
            texto_limpio += " "
    palabras = texto_limpio.split()
    return palabras

def construir_indice_invertido(archivo):
    indice_invertido = {}
    
    try:
        with open(archivo, 'r', encoding='utf-8') as file:
            index = 1
            for line in file:
                if not line.strip():
                    continue
                palabras = dividir(line)
                for palabra in palabras:
                    if palabra not in indice_invertido:
                        indice_invertido[palabra] = {}
                    if index not in indice_invertido[palabra]:
                        indice_invertido[palabra][index] = 1
                    else:
                        indice_invertido[palabra][index] += 1
                index += 1
    except FileNotFoundError:
        print(f"Error: El archivo '{archivo}' no se encontró.")
    
    return indice_invertido

def buscar_palabra(indice_invertido, palabra):
    palabra = palabra.lower()
    if palabra in indice_invertido:
        return indice_invertido[palabra]
    else:
        return {}


archivo = '01_corpus_turismo_500.txt'
indice = construir_indice_invertido(archivo)

query = input("Palabra a buscar: ")
resultados = buscar_palabra(indice, query)

print(f"Número de documentos encontrados: {len(resultados)}")
for doc_id, frecuencia in resultados.items():
    print(f"Documento {doc_id}: {frecuencia} ocurrencias")


Número de documentos encontrados: 36
Documento 5: 1 ocurrencias
Documento 22: 1 ocurrencias
Documento 30: 1 ocurrencias
Documento 37: 1 ocurrencias
Documento 41: 1 ocurrencias
Documento 45: 1 ocurrencias
Documento 76: 1 ocurrencias
Documento 109: 1 ocurrencias
Documento 110: 1 ocurrencias
Documento 122: 1 ocurrencias
Documento 127: 1 ocurrencias
Documento 130: 1 ocurrencias
Documento 156: 1 ocurrencias
Documento 163: 1 ocurrencias
Documento 168: 1 ocurrencias
Documento 200: 1 ocurrencias
Documento 225: 1 ocurrencias
Documento 231: 1 ocurrencias
Documento 246: 1 ocurrencias
Documento 254: 1 ocurrencias
Documento 258: 1 ocurrencias
Documento 280: 1 ocurrencias
Documento 307: 1 ocurrencias
Documento 319: 1 ocurrencias
Documento 324: 1 ocurrencias
Documento 333: 1 ocurrencias
Documento 352: 1 ocurrencias
Documento 371: 1 ocurrencias
Documento 379: 1 ocurrencias
Documento 383: 1 ocurrencias
Documento 386: 1 ocurrencias
Documento 442: 1 ocurrencias
Documento 459: 1 ocurrencias
Documento 486:

## Parte 3: Evaluación de tiempos de búsqueda
### Actividad

1. Realiza la búsqueda de varias palabras usando:
      -  Corpus pequeño: 16 documentos (turismo en Ecuador).
      -  Corpus grande: 500 documentos (versión ampliada).
2. Mide el tiempo de ejecución:
      -  Para búsqueda lineal.
      -  Para búsqueda usando índice invertido.
      -  Grafica o presenta los resultados en una tabla comparativa.

### Ejemplo de palabras para buscar
- quito
- montañita
- feriado
- playas
- aventura
- galápagos

In [None]:
import time

def Busqueda(query, resultados):

    try: 
        with open('01_corpus_turismo_500.txt', 'r') as file:
            line = file.readline()
            index = 1
            while line:
                index += 1 #Ponemos un indice para cada linea empezando en 1
                line = file.readline()
                if not line:
                    continue #Skipea la linea vacia
                search = line.split()
                if query in search:
                    resultados.append((index))
    except FileNotFoundError:
        print("El archivo no se encontró.")

def dividir(texto):
    texto = texto.lower()
    texto_limpio = ""
    for caracter in texto:
        if caracter.isalnum() or caracter in "áéíóúüñ":
            texto_limpio += caracter
        else:
            texto_limpio += " "
    palabras = texto_limpio.split()
    return palabras

def construir_indice_invertido(archivo):
    indice_invertido = {}
    
    try:
        with open(archivo, 'r', encoding='utf-8') as file:
            index = 1
            for line in file:
                if not line.strip():
                    continue
                palabras = dividir(line)
                for palabra in palabras:
                    if palabra not in indice_invertido:
                        indice_invertido[palabra] = {}
                    if index not in indice_invertido[palabra]:
                        indice_invertido[palabra][index] = 1
                    else:
                        indice_invertido[palabra][index] += 1
                index += 1
    except FileNotFoundError:
        print(f"Error: El archivo '{archivo}' no se encontró.")
    
    return indice_invertido

def buscar_palabra(indice_invertido, palabra):
    palabra = palabra.lower()
    if palabra in indice_invertido:
        return indice_invertido[palabra]
    else:
        return {}


archivo = '01_corpus_turismo_500.txt'

# Construir índice invertido
indice = construir_indice_invertido(archivo)

query = input("Palabra a buscar: ")

# usamos repeticiones para medir el tiempo de búsqueda por que el tiempo de busqueda por indices era demasiado corto
#Tiempo usando índice: 0.000000 segundos

repeticiones = 10000

# Buscar usando índice varias veces
inicio_indice = time.time()
for _ in range(repeticiones):
    buscar_palabra(indice, query)
fin_indice = time.time()

# Buscar recorriendo archivo varias veces
inicio_lineal = time.time()
for _ in range(repeticiones):
    resultados_lineal = []
    Busqueda(query, resultados_lineal)
fin_lineal = time.time()

# Mostrar resultados
print("\n--- Comparación de tiempos (repeticiones) ---")
print(f"Tiempo total usando índice ({repeticiones} búsquedas): {fin_indice - inicio_indice:.6f} segundos")
print(f"Tiempo total recorriendo archivo ({repeticiones} búsquedas): {fin_lineal - inicio_lineal:.6f} segundos")


--- Comparación de tiempos (repeticiones) ---
Tiempo total usando índice (10000 búsquedas): 0.002069 segundos
Tiempo total recorriendo archivo (10000 búsquedas): 5.178332 segundos


## Parte 4:
### Actividad
1. Modifica el índice para que ignore mayúsculas/minúsculas (por ejemplo, "Playa" y "playa" deben considerarse iguales).
2. Permite consultas de múltiples términos (ejemplo: buscar documentos que contengan "playa" y "turismo").
3. Calcula el _speedup_

In [29]:
import time
#Funcion con AND, buscara que este la palabra1 y palabra2 en el mismo documento
def buscar_varias_palabras(indice_invertido, palabras):
    documentos_sets = []
    
    for palabra in palabras:
        palabra = palabra.lower()
        if palabra in indice_invertido:
            documentos = set(indice_invertido[palabra].keys())
            documentos_sets.append(documentos)
        else:
            documentos_sets.append(set())  # Palabra no encontrada
    
    if not documentos_sets:
        return set()
    
    # Hacemos la intersección: documentos que contienen todas las palabras
    documentos_en_comun = documentos_sets[0]
    for docs in documentos_sets[1:]:
        documentos_en_comun = documentos_en_comun.intersection(docs)
    
    return documentos_en_comun

def Busqueda(query, resultados):
    try: 
        with open('01_corpus_turismo_500.txt', 'r') as file:
            index = 1
            for line in file:
                if not line.strip():
                    index += 1
                    continue
                palabras = dividir(line)  # Usamos la misma función dividir que limpia y divide
                if query.lower() in palabras:
                    resultados.append(index)
                index += 1
    except FileNotFoundError:
        print("El archivo no se encontró.")

def dividir(texto):
    texto = texto.lower()
    texto_limpio = ""
    for caracter in texto:
        if caracter.isalnum() or caracter in "áéíóúüñ":
            texto_limpio += caracter
        else:
            texto_limpio += " "
    palabras = texto_limpio.split()
    return palabras

def construir_indice_invertido(archivo):
    indice_invertido = {}
    
    try:
        with open(archivo, 'r', encoding='utf-8') as file:
            index = 1
            for line in file:
                if not line.strip():
                    continue
                palabras = dividir(line)
                for palabra in palabras:
                    if palabra not in indice_invertido:
                        indice_invertido[palabra] = {}
                    if index not in indice_invertido[palabra]:
                        indice_invertido[palabra][index] = 1
                    else:
                        indice_invertido[palabra][index] += 1
                index += 1
    except FileNotFoundError:
        print(f"Error: El archivo '{archivo}' no se encontró.")
    
    return indice_invertido

def buscar_palabra(indice_invertido, palabra):
    palabra = palabra.lower()
    if palabra in indice_invertido:
        return indice_invertido[palabra]
    else:
        return {}


archivo = '01_corpus_turismo_500.txt'

# Construir índice invertido
indice = construir_indice_invertido(archivo)
#Ejemplo de query = Laguna Quilotoa, deberia devolver 32 documento
query = input("Palabras a buscar separadas por espacio: ")
palabras = query.strip().split()

# usamos repeticiones para medir el tiempo de búsqueda por que el tiempo de busqueda por indices era demasiado corto
#Tiempo usando índice: 0.000000 segundos

repeticiones = 1000

# Buscar usando índice varias veces
inicio_indice = time.perf_counter()
for _ in range(repeticiones):
    resultados_indice = buscar_varias_palabras(indice, palabras)
fin_indice = time.perf_counter()

# Búsqueda recorriendo archivo línea por línea
inicio_lineal = time.perf_counter()
for _ in range(repeticiones):
    resultados_lineal = []
    Busqueda(palabras[0], resultados_lineal)  # Buscamos solo la primera palabra
    for palabra in palabras[1:]:
        temp = []
        Busqueda(palabra, temp)
        resultados_lineal = list(set(resultados_lineal).intersection(temp))
fin_lineal = time.perf_counter()

# Mostrar resultados
print("\n--- Resultados ---")
print(f"Documentos encontrados (con índice): {len(resultados_indice)}")
print(f"Documentos encontrados (línea por línea): {len(resultados_lineal)}")

print("\n--- Tiempos ---")
tiempo_indice = fin_indice - inicio_indice
tiempo_lineal = fin_lineal - inicio_lineal
print(f"Tiempo usando índice: {tiempo_indice:.9f} segundos")
print(f"Tiempo recorriendo archivo: {tiempo_lineal:.9f} segundos")

# Calcular SPEEDUP
if tiempo_indice > 0:
    speedup = tiempo_lineal / tiempo_indice
    print(f"\nSpeedup: {speedup:.2f}x")
else:
    print("\nNo se pudo calcular el speedup (división por cero)")


--- Resultados ---
Documentos encontrados (con índice): 32
Documentos encontrados (línea por línea): 32

--- Tiempos ---
Tiempo usando índice: 0.002543700 segundos
Tiempo recorriendo archivo: 6.275582900 segundos

Speedup: 2467.11x
