# Ejercicio 1: Introducción a Recuperación de Información

## Objetivo de la práctica
- Entender el problema de **buscar información** en colecciones de texto.
- Comprender por qué se necesita un **índice invertido** en recuperación de información.
- Programar una primera solución manual y luego optimizarla con un índice.
- Evaluar la mejora en tiempos de búsqueda cuando usamos estructuras adecuadas.



**Nombre: Mishel Ramirez**



## Parte 1: Búsqueda lineal en documentos

### Actividad
1. Se te proporcionará un conjunto de documentos de texto.
2. Escribe una función que:
   - Lea todos los documentos.
   - Busque una palabra ingresada por el usuario.
   - Muestre en qué documentos aparece la palabra.

In [58]:
import time

def buscar_palabra_en_documentos(corpus, palabra_buscada):
    texto = []

    for doc in corpus:
        with open(doc, 'r', encoding='utf-8') as archivo_txt:
            archivos = archivo_txt.readlines()

            for index, linea in enumerate(archivos, start=1):
                palabras = linea.split()
                if palabra_buscada in palabras:
                    texto.append(f"Línea {index}: {linea.strip()}")

    return texto

corpus = [r"/kaggle/input/corpus/01_corpus_turismo_500.txt"]
palabra = input("Ingresa la palabra que deseas buscar: ")

# Medición de tiempo
inicio = time.time()
resultado = buscar_palabra_en_documentos(corpus, palabra)
fin = time.time()

# Resultados
if resultado:
    print("La palabra se encontró en las siguientes líneas:")
    for linea in resultado:
        print(linea)
else:
    print("La palabra no se encontró en ninguno de los documentos.")

print(f"\nTiempo de ejecución: {fin - inicio:.4f} segundos")

Ingresa la palabra que deseas buscar:  Ecuador


La palabra se encontró en las siguientes líneas:
Línea 5: Ecuador es un país megadiverso, ideal para el turismo ecológico
Línea 22: Ecuador es un país megadiverso, ideal para el turismo ecológico Perfecto para avistamiento de aves.
Línea 30: Ecuador es un país megadiverso, ideal para el turismo ecológico Ideal para el próximo feriado.
Línea 37: Ecuador es un país megadiverso, ideal para el turismo ecológico Perfecto para canopy.
Línea 41: Ecuador es un país megadiverso, ideal para el turismo ecológico Un lugar increíble para visitar.
Línea 45: Ecuador es un país megadiverso, ideal para el turismo ecológico Perfecto para rafting.
Línea 76: Ecuador es un país megadiverso, ideal para el turismo ecológico Perfecto para senderismo.
Línea 109: Ecuador es un país megadiverso, ideal para el turismo ecológico Ideal para el próximo feriado.
Línea 110: Ecuador es un país megadiverso, ideal para el turismo ecológico Ideal para el próximo feriado.
Línea 122: Ecuador es un país megadiverso, ideal pa

## Parte 2: Construcción de un índice invertido

### Actividad
1. Escribe un programa que:
   - Recorra todos los documentos.
   - Construya un **índice invertido**, es decir, un diccionario donde:
     - Cada palabra clave apunta a una lista de documentos donde aparece.

2. Escribe una nueva función de búsqueda que:
   - Consulte directamente el índice para encontrar los documentos relevantes.
   - Sea mucho más rápida que la búsqueda lineal.

In [88]:
import time

def indice_invertido(corpus):
    diccionario = {}
    for doc in corpus:
        with open(doc, 'r', encoding='utf-8') as archivo_txt:
            lineas = archivo_txt.readlines()
            for index, linea in enumerate(lineas, start=1):
                palabras = linea.split()
                for word in palabras:
                    if word not in diccionario:
                        diccionario[word] = {
                            'palabra': word,
                            'documentos': [],
                            'frecuencia': 0
                        }
                    if (doc, index) not in diccionario[word]['documentos']:
                        diccionario[word]['documentos'].append((doc, index))
                    diccionario[word]['frecuencia'] += 1
    return diccionario

def buscar_palabra(diccionario, palabra_buscada):
    salida = []
    if palabra_buscada in diccionario:
        documentos = diccionario[palabra_buscada]['documentos']
        if documentos:
            lineas = [str(line_num) for _, line_num in documentos]
            salida.append(f"La palabra '{palabra_buscada}' se encontró en las líneas: {', '.join(lineas)}")
        else:
            salida.append(f"La palabra '{palabra_buscada}' no se encontró en ninguno de los documentos.")
    else:
        salida.append(f"La palabra '{palabra_buscada}' no se encuentra en el índice invertido.")
    return salida

corpus = [r"/kaggle/input/corpus/01_corpus_turismo_500.txt"]
palabra = input("Ingresa la palabra que deseas buscar: ")

# Tiempo de construcción del índice
inicio_indice = time.time()
indice = indice_invertido(corpus)
fin_indice = time.time()

# Tiempo de búsqueda
inicio_busqueda = time.time()
resultado = buscar_palabra(indice, palabra)
fin_busqueda = time.time()

# Resultado
for linea in resultado:
    print(linea)

print(f"\nTiempo de construcción del índice: {fin_indice - inicio_indice:.4f} segundos")
print(f"Tiempo de búsqueda con índice: {fin_busqueda - inicio_busqueda:.6f} segundos")


Ingresa la palabra que deseas buscar:  Ecuador


La palabra 'Ecuador' se encontró en las líneas: 5, 22, 30, 37, 41, 45, 76, 109, 110, 122, 127, 130, 156, 163, 168, 200, 225, 231, 246, 254, 258, 280, 307, 319, 324, 333, 352, 371, 379, 383, 386, 442, 459, 486, 491, 492

Tiempo de construcción del índice: 0.0132 segundos
Tiempo de búsqueda con índice: 0.000083 segundos


## Parte 3: Evaluación de tiempos de búsqueda
### Actividad

1. Realiza la búsqueda de varias palabras usando:
      -  Corpus pequeño: 16 documentos (turismo en Ecuador).
      -  Corpus grande: 500 documentos (versión ampliada).
2. Mide el tiempo de ejecución:
      -  Para búsqueda lineal.
      -  Para búsqueda usando índice invertido.
      -  Grafica o presenta los resultados en una tabla comparativa.

### Ejemplo de palabras para buscar
- quito
- montañita
- feriado
- playas
- aventura
- galápagos

| Palabra    | Búsqueda Lineal (Pequeño) | Índice Invertido (Pequeño) | Búsqueda Lineal (Grande) | Índice Invertido (Grande) |
|------------|---------------------------|----------------------------|--------------------------|---------------------------|
| quito      | 0.0010s                   | 0.000062s                  | 0.0025s                  | 0.000065s                 |
| montañita  | 0.0014s                   | 0.000063s                  | 0.0027s                  | 0.000061s                 |
| feriado    | 0.0010s                   | 0.000058s                  | 0.0023s                  | 0.000064s                 |
| playas     | 0.0016s                   | 0.000077s                  | 0.0033s                  | 0.000081s                 |
| aventura   | 0.0017s                   | 0.000063s                  | 0.0019s                  | 0.000078s                 |
| galápagos  | 0.0018s                   | 0.000066s                  | 0.0022s                  | 0.000060s                 |
| Ecuador    | 0.0017s                   | 0.000061s                  | 0.0023s                  | 0.000083s                 |

## Parte 4:
### Actividad
1. Modifica el índice para que ignore mayúsculas/minúsculas (por ejemplo, "Playa" y "playa" deben considerarse iguales).
2. Permite consultas de múltiples términos (ejemplo: buscar documentos que contengan "playa" y "turismo").
3. Calcula el _speedup_

In [121]:
import time

# BÚSQUEDA LINEAL
# Búsqueda Lineal (ignorando mayúsculas/minúsculas)
def buscar_palabras_en_documentos(corpus, palabras_buscadas):
    resultados = {} 
    palabras_buscadas = [palabra.lower() for palabra in palabras_buscadas]

    for palabra in palabras_buscadas:
        resultados[palabra] = []

    for doc in corpus:
        with open(doc, 'r', encoding='utf-8') as archivo_txt:
            archivos = archivo_txt.readlines()

            for index, linea in enumerate(archivos, start=1):
                palabras_linea = [palabra.lower() for palabra in linea.split()]

                for palabra in palabras_buscadas:
                    if palabra in palabras_linea:
                        resultados[palabra].append(f"Línea {index}: {linea.strip()}")

    return resultados

corpus = [r"/kaggle/input/corpus/01_corpus_turismo_500.txt"]

entrada = input("Ingresa las palabras que deseas buscar (separadas por espacio): ")
palabras = entrada.strip().split()

# Medición del tiempo para búsqueda lineal
inicio_lineal = time.time()
resultado_lineal = buscar_palabras_en_documentos(corpus, palabras)
fin_lineal = time.time()

# Resultados de la búsqueda lineal
print("\n\t\t BÚSQUEDA LINEAL")
for palabra, lineas in resultado_lineal.items():
    if lineas:
        print(f"\nLa palabra '{palabra}' se encontró en las siguientes líneas:")
        for linea in lineas:
            print(linea)
    else:
        print(f"\nNo se encontraron líneas que contengan la palabra '{palabra}'.")

tiempo_lineal = fin_lineal - inicio_lineal
print(f"\nTiempo de ejecución (Búsqueda Lineal): {tiempo_lineal:.4f} segundos \n")


#--------------------------------------------------------------------------------------------------------#
# ÍNDICE INVERTIDO
# Índice invertido (ignorando mayúsculas/minúsculas)
def indice_invertido(corpus):
    diccionario = {}
    for doc in corpus:
        with open(doc, 'r', encoding='utf-8') as archivo_txt:
            lineas = archivo_txt.readlines()
            for index, linea in enumerate(lineas, start=1):
                palabras = linea.split()
                for word in palabras:
                    word = word.lower() 
                    if word not in diccionario:
                        diccionario[word] = {
                            'palabra': word,
                            'documentos': [],
                            'frecuencia': 0
                        }
                    if (doc, index) not in diccionario[word]['documentos']:
                        diccionario[word]['documentos'].append((doc, index))
                    diccionario[word]['frecuencia'] += 1
    return diccionario

# Busqueda de múltiples palabras
def buscar_palabra(corpus, palabras_buscadas, diccionario=None):
    salida = []
    if diccionario is None:
        diccionario = indice_invertido(corpus)

    palabras_buscadas = [palabra.lower() for palabra in palabras_buscadas]

    for palabra in palabras_buscadas:
        if palabra in diccionario:
            documentos = diccionario[palabra]['documentos']
            if documentos:
                lineas = [str(line_num) for _, line_num in documentos]
                salida.append(f"\nLa palabra '{palabra}' se encontró en las líneas: {', '.join(lineas)}")
            else:
                salida.append(f"\nLa palabra '{palabra}' no se encontró en ningún documento.")
        else:
            salida.append(f"\nLa palabra '{palabra}' no se encuentra en el índice invertido.")

    return salida

print("\n\t\t ÍNDICE INVERTIDO")

# Medición del tiempo para índice invertido
inicio_indice = time.time()
indice = indice_invertido(corpus)
fin_indice = time.time()

# Medición del tiempo de búsqueda con índice invertido
inicio_busqueda = time.time()
resultado_indice = buscar_palabra(corpus, palabras, diccionario=indice)
fin_busqueda = time.time()

# Impresión de resultados
for linea in resultado_indice:
    print(linea)

tiempo_indice = fin_busqueda - inicio_busqueda
print(f"\nTiempo de construcción del índice: {fin_indice - inicio_indice:.4f} segundos")
print(f"Tiempo de búsqueda con índice: {tiempo_indice:.6f} segundos")

#--------------------------------------------------------------------------------------------------------#

# Cálculo del Speedup
print("\n\t\t SPEEDUP")

if tiempo_indice != 0:
    speedup = tiempo_lineal / tiempo_indice
    print(f"\nSpeedup de la Búsqueda Lineal vs. Búsqueda con Índice Invertido: {speedup:.4f}")
else:
    print("\nNo se puede calcular el speedup, ya que el tiempo de búsqueda con índice invertido es 0.")

Ingresa las palabras que deseas buscar (separadas por espacio):  playa turismo



		 BÚSQUEDA LINEAL

No se encontraron líneas que contengan la palabra 'playa'.

La palabra 'turismo' se encontró en las siguientes líneas:
Línea 5: Ecuador es un país megadiverso, ideal para el turismo ecológico
Línea 22: Ecuador es un país megadiverso, ideal para el turismo ecológico Perfecto para avistamiento de aves.
Línea 30: Ecuador es un país megadiverso, ideal para el turismo ecológico Ideal para el próximo feriado.
Línea 37: Ecuador es un país megadiverso, ideal para el turismo ecológico Perfecto para canopy.
Línea 41: Ecuador es un país megadiverso, ideal para el turismo ecológico Un lugar increíble para visitar.
Línea 45: Ecuador es un país megadiverso, ideal para el turismo ecológico Perfecto para rafting.
Línea 76: Ecuador es un país megadiverso, ideal para el turismo ecológico Perfecto para senderismo.
Línea 109: Ecuador es un país megadiverso, ideal para el turismo ecológico Ideal para el próximo feriado.
Línea 110: Ecuador es un país megadiverso, ideal para el turismo e