Alumno: Andrés Suárez Herrera

# Ejercicio 1: Introducción a Recuperación de Información

## Objetivo de la práctica
- Entender el problema de **buscar información** en colecciones de texto.
- Comprender por qué se necesita un **índice invertido** en recuperación de información.
- Programar una primera solución manual y luego optimizarla con un índice.
- Evaluar la mejora en tiempos de búsqueda cuando usamos estructuras adecuadas.

## Parte 1: Búsqueda lineal en documentos

### Actividad
1. Se te proporcionará un conjunto de documentos de texto.
2. Escribe una función que:
   - Lea todos los documentos.
   - Busque una palabra ingresada por el usuario.
   - Muestre en qué documentos aparece la palabra.

In [4]:
def read_corpus():
    corpus = {}

    with open('/01_corpus_turismo.txt', 'r') as file:
        lineas = file.readlines()
        for i, linea in enumerate(lineas):
            corpus[f'01_corpus_turismo.txt_linea_{i+1}'] = linea.strip()

    with open('/01_corpus_turismo_500.txt', 'r') as file:
        lineas = file.readlines()
        for i, linea in enumerate(lineas):
            corpus[f'01_corpus_turismo_500.txt_linea_{i+1}'] = linea.strip()

    return corpus

def busqueda_lineal(corpus, word):
    encontrados = []
    for nombre, contenido in corpus.items():
        if word.lower() in contenido.lower():
            encontrados.append(nombre)
    return encontrados

def main():
    corpus = read_corpus()
    word = input("Ingresa la palabra a buscar: ").strip()
    resultados = busqueda_lineal(corpus, word)

    if resultados:
        print(f"\nLa palabra '{word}' aparece en los siguientes documentos:")
        for doc in resultados:
                      print(f"- {doc}")
    else:
        print(f"\nLa palabra '{word}' no aparece en ningún documento.")
if __name__ == "__main__":
    main()

Ingresa la palabra a buscar: merca

La palabra 'merca' aparece en los siguientes documentos:
- 01_corpus_turismo.txt_linea_6
- 01_corpus_turismo_500.txt_linea_1
- 01_corpus_turismo_500.txt_linea_7
- 01_corpus_turismo_500.txt_linea_29
- 01_corpus_turismo_500.txt_linea_34
- 01_corpus_turismo_500.txt_linea_57
- 01_corpus_turismo_500.txt_linea_60
- 01_corpus_turismo_500.txt_linea_65
- 01_corpus_turismo_500.txt_linea_101
- 01_corpus_turismo_500.txt_linea_111
- 01_corpus_turismo_500.txt_linea_118
- 01_corpus_turismo_500.txt_linea_119
- 01_corpus_turismo_500.txt_linea_149
- 01_corpus_turismo_500.txt_linea_159
- 01_corpus_turismo_500.txt_linea_161
- 01_corpus_turismo_500.txt_linea_191
- 01_corpus_turismo_500.txt_linea_193
- 01_corpus_turismo_500.txt_linea_204
- 01_corpus_turismo_500.txt_linea_207
- 01_corpus_turismo_500.txt_linea_216
- 01_corpus_turismo_500.txt_linea_222
- 01_corpus_turismo_500.txt_linea_297
- 01_corpus_turismo_500.txt_linea_334
- 01_corpus_turismo_500.txt_linea_335
- 01_corpu

## Parte 2: Construcción de un índice invertido

### Actividad
1. Escribe un programa que:
   - Recorra todos los documentos.
   - Construya un **índice invertido**, es decir, un diccionario donde:
     - Cada palabra clave apunta a una lista de documentos donde aparece.

2. Escribe una nueva función de búsqueda que:
   - Consulte directamente el índice para encontrar los documentos relevantes.
   - Sea mucho más rápida que la búsqueda lineal.

1) Escribe un programa que: recorre todos los documentos, construye el índice invertido.

In [5]:
import re
def construir_indice_invertido(corpus):
    diccionario = []
    for contenido in corpus.values():
        palabras = re.findall(r'\b\w+\b', contenido.lower())
        diccionario.extend(palabras)
    diccionario = list(set(diccionario))

    indice_invertido = {}

    for word in diccionario:
        indice_invertido[word] = []
        for nombre_doc, contenido in corpus.items():
            if word in contenido.lower():
                indice_invertido[word].append(nombre_doc)

    return indice_invertido

def main():
    corpus = read_corpus()
    indice_invertido = construir_indice_invertido(corpus)
    for palabra, documentos in indice_invertido.items():
        print(f"{palabra}: {documentos}")

if __name__ == "__main__":
    main()


cascadas: ['01_corpus_turismo.txt_linea_12']
gastronomía: ['01_corpus_turismo.txt_linea_7', '01_corpus_turismo.txt_linea_14', '01_corpus_turismo_500.txt_linea_6', '01_corpus_turismo_500.txt_linea_11', '01_corpus_turismo_500.txt_linea_18', '01_corpus_turismo_500.txt_linea_50', '01_corpus_turismo_500.txt_linea_58', '01_corpus_turismo_500.txt_linea_74', '01_corpus_turismo_500.txt_linea_86', '01_corpus_turismo_500.txt_linea_93', '01_corpus_turismo_500.txt_linea_95', '01_corpus_turismo_500.txt_linea_102', '01_corpus_turismo_500.txt_linea_108', '01_corpus_turismo_500.txt_linea_114', '01_corpus_turismo_500.txt_linea_121', '01_corpus_turismo_500.txt_linea_129', '01_corpus_turismo_500.txt_linea_134', '01_corpus_turismo_500.txt_linea_140', '01_corpus_turismo_500.txt_linea_141', '01_corpus_turismo_500.txt_linea_143', '01_corpus_turismo_500.txt_linea_144', '01_corpus_turismo_500.txt_linea_145', '01_corpus_turismo_500.txt_linea_155', '01_corpus_turismo_500.txt_linea_165', '01_corpus_turismo_500.txt

2) Escribe una nueva función de búsqueda que:

Consulte directamente el índice para encontrar los documentos relevantes.
Sea mucho más rápida que la búsqueda lineal.

In [7]:
def busqueda_por_indice(indice_invertido, palabra):
    palabra = palabra.lower()
    if palabra in indice_invertido:
        return indice_invertido[palabra]
    else:
        return []


## Parte 3: Evaluación de tiempos de búsqueda
### Actividad

1. Realiza la búsqueda de varias palabras usando:
      -  Corpus pequeño: 16 documentos (turismo en Ecuador).
      -  Corpus grande: 500 documentos (versión ampliada).
2. Mide el tiempo de ejecución:
      -  Para búsqueda lineal.
      -  Para búsqueda usando índice invertido.
      -  Grafica o presenta los resultados en una tabla comparativa.

### Ejemplo de palabras para buscar
- quito
- montañita
- feriado
- playas
- aventura
- galápagos

In [10]:
import re, time

def construir_indice(corpus):
    indice = {}
    for nombre_doc, contenido in corpus.items():
        for palabra in set(re.findall(r'\b\w+\b', contenido.lower())):
            indice.setdefault(palabra, []).append(nombre_doc)
    return indice

def buscar_lineal(corpus, palabra):
    palabra = palabra.lower()
    return [doc for doc, contenido in corpus.items() if palabra in contenido.lower()]

def buscar_indice(indice, palabra):
    return indice.get(palabra.lower(), [])

def medir_tiempo(busqueda, estructura, palabras):
    inicio = time.time()
    for palabra in palabras:
        _ = busqueda(estructura, palabra)
    return time.time() - inicio

def main():
    corpus = read_corpus()  # Corpus ya cargado de Parte 1
    palabras = ['quito', 'montañita', 'feriado', 'playas', 'aventura', 'galápagos']

    resultados = []

    for nombre, filtro in [("Corpus Pequeño (16 documentos)", '01_corpus_turismo.txt'),
                            ("Corpus Grande (500 documentos)", '01_corpus_turismo_500.txt')]:

        corpus_filtrado = {k: v for k, v in corpus.items() if k.startswith(filtro)}
        indice = construir_indice(corpus_filtrado)

        tiempo_lineal = medir_tiempo(buscar_lineal, corpus_filtrado, palabras)
        tiempo_indice = medir_tiempo(buscar_indice, indice, palabras)

        resultados.append((nombre, tiempo_lineal, tiempo_indice))

    # Presentar resultados en tabla
    print("\n=== Tabla Comparativa de Tiempos ===")
    print(f"{'Corpus':<30} {'Búsqueda Lineal (s)':<22} {'Búsqueda Índice (s)'}")
    print("-" * 70)
    for nombre, t_lineal, t_indice in resultados:
        print(f"{nombre:<30} {t_lineal:<22.6f} {t_indice:.6f}")

if __name__ == "__main__":
    main()


=== Tabla Comparativa de Tiempos ===
Corpus                         Búsqueda Lineal (s)    Búsqueda Índice (s)
----------------------------------------------------------------------
Corpus Pequeño (16 documentos) 0.000230               0.000006
Corpus Grande (500 documentos) 0.003403               0.000008


## Parte 4:
### Actividad
1. Modifica el índice para que ignore mayúsculas/minúsculas (por ejemplo, "Playa" y "playa" deben considerarse iguales).
2. Permite consultas de múltiples términos (ejemplo: buscar documentos que contengan "playa" y "turismo").
3. Calcula el _speedup_

In [11]:
def construir_indice(corpus):
    indice = {}
    for doc, texto in corpus.items():
        for palabra in set(re.findall(r'\b\w+\b', texto.lower())):
            indice.setdefault(palabra, []).append(doc)
    return indice

def buscar_lineal(corpus, palabras):
    return list(set(doc for doc in corpus
                    if all(p.lower() in corpus[doc].lower() for p in palabras)))

def buscar_indice(indice, palabras):
    conjuntos = [set(indice.get(p.lower(), [])) for p in palabras]
    return list(set.intersection(*conjuntos)) if conjuntos else []

def medir(busqueda, estructura, palabras):
    inicio = time.time()
    _ = busqueda(estructura, palabras)
    return time.time() - inicio

def main():
    corpus = read_corpus()  # Corpus ya cargado en Parte 1
    palabras = ['playa', 'turismo']

    for nombre, filtro in [("Corpus Pequeño (16)", '01_corpus_turismo.txt'),
                            ("Corpus Grande (500)", '01_corpus_turismo_500.txt')]:

        corpus_filtrado = {k: v for k, v in corpus.items() if k.startswith(filtro)}
        indice = construir_indice(corpus_filtrado)

        t_lineal = medir(buscar_lineal, corpus_filtrado, palabras)
        t_indice = medir(buscar_indice, indice, palabras)
        speedup = t_lineal / t_indice if t_indice > 0 else float('inf')

        print(f"\n=== {nombre} ===")
        print(f"Lineal: {t_lineal:.6f}s | Índice: {t_indice:.6f}s | Speedup: {speedup:.2f}x")

if __name__ == "__main__":
    main()



=== Corpus Pequeño (16) ===
Lineal: 0.000400s | Índice: 0.000048s | Speedup: 8.31x

=== Corpus Grande (500) ===
Lineal: 0.001086s | Índice: 0.000047s | Speedup: 23.11x
