# Ejercicio 1: Introducción a Recuperación de Información

## Objetivo de la práctica
- Entender el problema de **buscar información** en colecciones de texto.
- Comprender por qué se necesita un **índice invertido** en recuperación de información.
- Programar una primera solución manual y luego optimizarla con un índice.
- Evaluar la mejora en tiempos de búsqueda cuando usamos estructuras adecuadas.

## Parte 1: Búsqueda lineal en documentos

### Actividad
1. Se te proporcionará un conjunto de documentos de texto.
2. Escribe una función que:
   - Lea todos los documentos.
   - Busque una palabra ingresada por el usuario.
   - Muestre en qué documentos aparece la palabra.

In [2]:
file = open("01_corpus_turismo.txt", "r")
lines = file.readlines()
lines = [lines.strip() for lines in lines]

results = []

query = "la"

for i, doc in enumerate(lines):
    if query in doc:
        results.append((i, doc))  

for i, text in results:
    print(f"results {i}: {text}")


results 0: Ecuador es un paÃ­s megadiverso, con playas, montaÃ±as y selvas ideales para el turismo ecolÃ³gico.
results 1: Las Islas GalÃ¡pagos atraen visitantes de todo el mundo por su biodiversidad Ãºnica.
results 2: La ciudad de Quito cuenta con un centro histÃ³rico declarado Patrimonio de la Humanidad por la UNESCO.
results 4: La Ruta del Spondylus conecta playas famosas como MontaÃ±ita, Salinas y Puerto LÃ³pez.
results 7: El volcÃ¡n Cotopaxi ofrece a los excursionistas una de las ascensiones mÃ¡s impresionantes de los Andes.
results 8: Mindo es un paraÃ­so para el avistamiento de aves y la exploraciÃ³n de bosques nublados.
results 9: Guayaquil sorprende con su MalecÃ³n 2000, su vida nocturna y su cercanÃ­a a las playas del PacÃ­fico.
results 11: En el feriado, muchos ecuatorianos visitan la AmazonÃ­a para conocer comunidades indÃ­genas y cascadas.
results 12: El Parque Nacional Cajas invita a los turistas a caminatas entre lagunas y pÃ¡ramos a gran altitud.
results 13: Los turistas

## Parte 2: Construcción de un índice invertido

### Actividad
1. Escribe un programa que:
   - Recorra todos los documentos.
   - Construya un **índice invertido**, es decir, un diccionario donde:
     - Cada palabra clave apunta a una lista de documentos donde aparece.

2. Escribe una nueva función de búsqueda que:
   - Consulte directamente el índice para encontrar los documentos relevantes.
   - Sea mucho más rápida que la búsqueda lineal.

In [6]:
file = open("01_corpus_turismo.txt", "r")
lines = file.readlines()
lines = [lines.strip() for lines in lines]

inverted_index = {}

query = "de"

for i, doc in enumerate(lines):
    words = doc.split()
    for word in words:
        if word not in inverted_index:
            inverted_index[word] = []
        if i not in inverted_index[word]:
            inverted_index[word].append(i)

answer = inverted_index.get(query)

print(answer)


[1, 2, 3, 7, 8, 10, 13, 14, 15]


## Parte 3: Evaluación de tiempos de búsqueda
### Actividad

1. Realiza la búsqueda de varias palabras usando:
      -  Corpus pequeño: 16 documentos (turismo en Ecuador).
      -  Corpus grande: 500 documentos (versión ampliada).
2. Mide el tiempo de ejecución:
      -  Para búsqueda lineal.
      -  Para búsqueda usando índice invertido.
      -  Grafica o presenta los resultados en una tabla comparativa.

### Ejemplo de palabras para buscar
- quito
- montañita
- feriado
- playas
- aventura
- galápagos

In [10]:
import time
import pandas as pd

short_file = open("01_corpus_turismo.txt", "r", encoding="utf-8")
lines_short_file = short_file.readlines()
lines_short_file = [lines_short_file.strip() for lines_short_file in lines_short_file]

long_file = open("01_corpus_turismo_500.txt", "r", encoding="utf-8")
lines_long_file = long_file.readlines()
lines_long_file = [lines_long_file.strip() for lines_long_file in lines_long_file]

query_array = ["Quito", "Montañita", "feriado", "playas", "aventura", "Galápagos"]

# Función de búsqueda lineal
def linear_search(corpus, query):
    results = []
    for i, doc in enumerate(corpus):
        if query in doc:
            results.append((i, doc))
    return results

# Función para construir índice invertido
def build_inverted_index(corpus):
    inverted_index = {}
    for i, doc in enumerate(corpus):
        words = doc.split()
        for word in words:
            if word not in inverted_index:
                inverted_index[word] = []
            if i not in inverted_index[word]:
                inverted_index[word].append(i)
    return inverted_index

# Función de búsqueda usando índice invertido
def inverted_search(index, query):
    return index.get(query, [])

#####################
#Ejecución del corpus pequeño

print("BÚSQUEDA LINEAL en Corpus Pequeño:\n")
for query in query_array:
    print(query)
    results = linear_search(lines_short_file, query)
    for i, text in results:
        print(f"results {i}: {text}", "\n")

print("\nBÚSQUEDA ÍNDICE INVERTIDO en Corpus Pequeño:\n")
inverted_index_short_file = build_inverted_index(lines_short_file)
for query in query_array:
    print(query)
    answer = inverted_search(inverted_index_short_file, query)
    print(answer, "\n")


#####################
# Ejecución del corpus grande

print("BÚSQUEDA LINEAL en Corpus Grande:\n")
for query in query_array:
    print(query)
    results = linear_search(lines_long_file, query)
    for i, text in results:
        print(f"results {i}: {text}", "\n")

print("\nBÚSQUEDA ÍNDICE INVERTIDO en Corpus Grande:\n")
inverted_index_long_file = build_inverted_index(lines_long_file)
for query in query_array:
    print(query)
    answer = inverted_search(inverted_index_long_file, query)
    print(answer, "\n")


########################
# Medición del tiempo

def measure_time(corpus, query_array, corpus_type, index=None):
    results = []
    for query in query_array:
        # Medición de tiempo para la búsqueda lineal
        start_time = time.perf_counter()
        linear_results = linear_search(corpus, query)
        linear_time = time.perf_counter() - start_time
        
        # Medición de tiempo para la búsqueda con índice invertido
        start_time = time.perf_counter()
        inverted_results = inverted_search(index, query) if index else []
        inverted_time = time.perf_counter() - start_time
        
        results.append({
            "Query": query,  
            "Corpus": corpus_type, 
            "Linear Search Time (s)": linear_time,
            "Inverted Search Time (s)": inverted_time
        })
    return results

# Crear los índices invertidos para cada corpus
inverted_index_short_file = build_inverted_index(lines_short_file)
inverted_index_long_file = build_inverted_index(lines_long_file)

# Medir el tiempo en el corpus pequeño
short_corpus_results = measure_time(lines_short_file, query_array, "Corpus Pequeño", inverted_index_short_file)

# Medir el tiempo en el corpus grande
long_corpus_results = measure_time(lines_long_file, query_array, "Corpus Grande", inverted_index_long_file)

# Combinar los resultados en un solo dataframe
all_results = short_corpus_results + long_corpus_results
df_results = pd.DataFrame(all_results)

# Imprimir la tabla comparativa
print(df_results)



BÚSQUEDA LINEAL en Corpus Pequeño:

Quito
results 2: La ciudad de Quito cuenta con un centro histórico declarado Patrimonio de la Humanidad por la UNESCO. 

Montañita
results 4: La Ruta del Spondylus conecta playas famosas como Montañita, Salinas y Puerto López. 

results 15: Montañita se llena de surfistas y viajeros jóvenes durante los feriados nacionales. 

feriado
results 11: En el feriado, muchos ecuatorianos visitan la Amazonía para conocer comunidades indígenas y cascadas. 

results 13: Los turistas disfrutan en el feriado de las fiestas locales y de la gastronomía típica de cada región. 

results 15: Montañita se llena de surfistas y viajeros jóvenes durante los feriados nacionales. 

playas
results 0: Ecuador es un país megadiverso, con playas, montañas y selvas ideales para el turismo ecológico. 

results 4: La Ruta del Spondylus conecta playas famosas como Montañita, Salinas y Puerto López. 

results 9: Guayaquil sorprende con su Malecón 2000, su vida nocturna y su cercanía 

## Parte 4:
### Actividad
1. Modifica el índice para que ignore mayúsculas/minúsculas (por ejemplo, "Playa" y "playa" deben considerarse iguales).
2. Permite consultas de múltiples términos (ejemplo: buscar documentos que contengan "playa" y "turismo").
3. Calcula el _speedup_

In [13]:
import time
import pandas as pd

short_file = open("01_corpus_turismo.txt", "r", encoding="utf-8")
lines_short_file = short_file.readlines()
lines_short_file = [lines_short_file.strip() for lines_short_file in lines_short_file]

long_file = open("01_corpus_turismo_500.txt", "r", encoding="utf-8")
lines_long_file = long_file.readlines()
lines_long_file = [lines_long_file.strip() for lines_long_file in lines_long_file]

query_array = ["Quito", "Montañita", "feriado", "playas", "aventura", "Galápagos", "laguna destaca"] # Consulta múltiple "laguna destaca" 

# Función de búsqueda lineal 
def linear_search(corpus, query):
    results = []
    query_terms = query.lower().split() 
    for i, doc in enumerate(corpus):
        doc_lower = doc.lower()
        if all(term in doc_lower for term in query_terms):
            results.append((i, doc))
    return results

# Función para construir índice invertido 
def build_inverted_index(corpus):
    inverted_index = {}
    for i, doc in enumerate(corpus):
        words = doc.lower().split() 
        for word in words:
            if word not in inverted_index:
                inverted_index[word] = []
            if i not in inverted_index[word]:
                inverted_index[word].append(i)
    return inverted_index

# Función de búsqueda usando índice invertido 
def inverted_search(index, query):
    query_terms = query.lower().split()  
    result_sets = []
    for term in query_terms:
        result_sets.append(set(index.get(term, [])))
    
    if result_sets:
        common_docs = set.intersection(*result_sets) 
    else:
        common_docs = set()
    
    return list(common_docs)

#####################
# Ejecución del corpus pequeño

print("BÚSQUEDA LINEAL en Corpus Pequeño:\n")
for query in query_array:
    print(query)
    results = linear_search(lines_short_file, query)
    for i, text in results:
        print(f"results {i}: {text}", "\n")

print("\nBÚSQUEDA ÍNDICE INVERTIDO en Corpus Pequeño:\n")
inverted_index_short_file = build_inverted_index(lines_short_file)
for query in query_array:
    print(query)
    answer = inverted_search(inverted_index_short_file, query)
    print(answer, "\n")

#####################
# Ejecución del corpus grande

print("BÚSQUEDA LINEAL en Corpus Grande:\n")
for query in query_array:
    print(query)
    results = linear_search(lines_long_file, query)
    for i, text in results:
        print(f"results {i}: {text}", "\n")

print("\nBÚSQUEDA ÍNDICE INVERTIDO en Corpus Grande:\n")
inverted_index_long_file = build_inverted_index(lines_long_file)
for query in query_array:
    print(query)
    answer = inverted_search(inverted_index_long_file, query)
    print(answer, "\n")

########################
# Medición del tiempo

def measure_time(corpus, query_array, corpus_type, index=None):
    results = []
    for query in query_array:
        # Medición de tiempo para la búsqueda lineal
        start_time = time.perf_counter()
        linear_results = linear_search(corpus, query)
        linear_time = time.perf_counter() - start_time
        
        # Medición de tiempo para la búsqueda con índice invertido
        start_time = time.perf_counter()
        inverted_results = inverted_search(index, query) if index else []
        inverted_time = time.perf_counter() - start_time
        
        # Cálculo de speedup
        speedup = linear_time / inverted_time if inverted_time > 0 else float('inf')
        
        results.append({
            "Query": query,  
            "Corpus": corpus_type, 
            "Linear Search Time (s)": linear_time,
            "Inverted Search Time (s)": inverted_time,
            "Speedup": speedup
        })
    return results

# Crear los índices invertidos para cada corpus
inverted_index_short_file = build_inverted_index(lines_short_file)
inverted_index_long_file = build_inverted_index(lines_long_file)

# Medir el tiempo en el corpus pequeño
short_corpus_results = measure_time(lines_short_file, query_array, "Corpus Pequeño", inverted_index_short_file)

# Medir el tiempo en el corpus grande
long_corpus_results = measure_time(lines_long_file, query_array, "Corpus Grande", inverted_index_long_file)

# Combinar los resultados en un solo dataframe
all_results = short_corpus_results + long_corpus_results
df_results = pd.DataFrame(all_results)

# Imprimir la tabla comparativa
print(df_results)


BÚSQUEDA LINEAL en Corpus Pequeño:

Quito
results 2: La ciudad de Quito cuenta con un centro histórico declarado Patrimonio de la Humanidad por la UNESCO. 

Montañita
results 4: La Ruta del Spondylus conecta playas famosas como Montañita, Salinas y Puerto López. 

results 15: Montañita se llena de surfistas y viajeros jóvenes durante los feriados nacionales. 

feriado
results 11: En el feriado, muchos ecuatorianos visitan la Amazonía para conocer comunidades indígenas y cascadas. 

results 13: Los turistas disfrutan en el feriado de las fiestas locales y de la gastronomía típica de cada región. 

results 15: Montañita se llena de surfistas y viajeros jóvenes durante los feriados nacionales. 

playas
results 0: Ecuador es un país megadiverso, con playas, montañas y selvas ideales para el turismo ecológico. 

results 4: La Ruta del Spondylus conecta playas famosas como Montañita, Salinas y Puerto López. 

results 9: Guayaquil sorprende con su Malecón 2000, su vida nocturna y su cercanía 