#Nombre: WLADIMIR ANDRES CARRILLO MOSCOSO
#Materia: Recuperación de Información GR1CC

# Ejercicio 1: Introducción a Recuperación de Información

## Objetivo de la práctica
- Entender el problema de **buscar información** en colecciones de texto.
- Comprender por qué se necesita un **índice invertido** en recuperación de información.
- Programar una primera solución manual y luego optimizarla con un índice.
- Evaluar la mejora en tiempos de búsqueda cuando usamos estructuras adecuadas.

## Parte 1: Búsqueda lineal en documentos

### Actividad
1. Se te proporcionará un conjunto de documentos de texto.
2. Escribe una función que:
   - Lea todos los documentos.
   - Busque una palabra ingresada por el usuario.
   - Muestre en qué documentos aparece la palabra.

In [2]:
import os

def buscar_palabra(query):
    directorio = "/content/sample_data"
    archivos_txt = [archivo for archivo in os.listdir(directorio) if archivo.endswith(".txt")]

    for archivo_txt in archivos_txt:
        ruta = os.path.join(directorio, archivo_txt)
        print(f"Buscando en el archivo: {archivo_txt}")

        query_encontrado = False

        with open(ruta, "r", encoding="utf-8") as corpus:
            docs = corpus.readlines()

            for idx_doc, doc in enumerate(docs, start=1):
                if query in doc:
                    print(f"Palabra encontrada en el documento {idx_doc}: {doc.strip()}")
                    query_encontrado = True
            if not query_encontrado:
                print("Palabra no encontrada en el documento")


query = input('Palabra a buscar: ')
buscar_palabra(query)


Palabra a buscar: Ecuador
Buscando en el archivo: 01_corpus_turismo_500.txt
Palabra encontrada en el documento 5: Ecuador es un país megadiverso, ideal para el turismo ecológico
Palabra encontrada en el documento 22: Ecuador es un país megadiverso, ideal para el turismo ecológico Perfecto para avistamiento de aves.
Palabra encontrada en el documento 30: Ecuador es un país megadiverso, ideal para el turismo ecológico Ideal para el próximo feriado.
Palabra encontrada en el documento 37: Ecuador es un país megadiverso, ideal para el turismo ecológico Perfecto para canopy.
Palabra encontrada en el documento 41: Ecuador es un país megadiverso, ideal para el turismo ecológico Un lugar increíble para visitar.
Palabra encontrada en el documento 45: Ecuador es un país megadiverso, ideal para el turismo ecológico Perfecto para rafting.
Palabra encontrada en el documento 76: Ecuador es un país megadiverso, ideal para el turismo ecológico Perfecto para senderismo.
Palabra encontrada en el document

## Parte 2: Construcción de un índice invertido

### Actividad
1. Escribe un programa que:
   - Recorra todos los documentos.
   - Construya un **índice invertido**, es decir, un diccionario donde:
     - Cada palabra clave apunta a una lista de documentos donde aparece.

2. Escribe una nueva función de búsqueda que:
   - Consulte directamente el índice para encontrar los documentos relevantes.
   - Sea mucho más rápida que la búsqueda lineal.

In [16]:
def crearIDX_INV(directorio):
    palabras_recorridas = {}

    archivos_txt = [archivo for archivo in os.listdir(directorio) if archivo.endswith(".txt")]

    for corpus in archivos_txt:
        ruta = os.path.join(directorio, corpus)
        with open(ruta, "r", encoding="utf-8") as archivo:
            docs = archivo.readlines()

            for idx_doc, doc in enumerate(docs, start=1):
                palabras = doc.strip().split()

                for palabra in palabras:
                    if palabra not in palabras_recorridas:
                        palabras_recorridas[palabra] = set()
                    palabras_recorridas[palabra].add((corpus, idx_doc))

    return palabras_recorridas

def buscarIDX_INV(query, palabras_recorridas):
    if query in palabras_recorridas:
        resultados = palabras_recorridas[query]
        print(f"La palabra '{query}' se encontró en:")
        for corpus, doc in resultados:
            print(f" - Corpus: {corpus}, Documento: {doc}")
    else:
        print(f"La palabra '{query}' no se encontró en ningún documento")

directorio = "/content/sample_data"
palabras_recorridas = crearIDX_INV(directorio)

query = input('Palabra a buscar: ')
buscarIDX_INV(query, palabras_recorridas)


Palabra a buscar: Ecuador
La palabra 'Ecuador' se encontró en:
 - Corpus: 01_corpus_turismo_500.txt, Documento: 168
 - Corpus: 01_corpus_turismo_500.txt, Documento: 122
 - Corpus: 01_corpus_turismo_500.txt, Documento: 491
 - Corpus: 01_corpus_turismo.txt, Documento: 1
 - Corpus: 01_corpus_turismo_500.txt, Documento: 76
 - Corpus: 01_corpus_turismo_500.txt, Documento: 442
 - Corpus: 01_corpus_turismo_500.txt, Documento: 30
 - Corpus: 01_corpus_turismo_500.txt, Documento: 280
 - Corpus: 01_corpus_turismo_500.txt, Documento: 45
 - Corpus: 01_corpus_turismo_500.txt, Documento: 225
 - Corpus: 01_corpus_turismo_500.txt, Documento: 231
 - Corpus: 01_corpus_turismo_500.txt, Documento: 109
 - Corpus: 01_corpus_turismo_500.txt, Documento: 127
 - Corpus: 01_corpus_turismo_500.txt, Documento: 246
 - Corpus: 01_corpus_turismo_500.txt, Documento: 5
 - Corpus: 01_corpus_turismo_500.txt, Documento: 307
 - Corpus: 01_corpus_turismo_500.txt, Documento: 130
 - Corpus: 01_corpus_turismo_500.txt, Documento

## Parte 3: Evaluación de tiempos de búsqueda
### Actividad

1. Realiza la búsqueda de varias palabras usando:
      -  Corpus pequeño: 16 documentos (turismo en Ecuador).
      -  Corpus grande: 500 documentos (versión ampliada).
2. Mide el tiempo de ejecución:
      -  Para búsqueda lineal.
      -  Para búsqueda usando índice invertido.
      -  Grafica o presenta los resultados en una tabla comparativa.

### Ejemplo de palabras para buscar
- quito
- montañita
- feriado
- playas
- aventura
- galápagos

In [15]:
import os
import time

def buscar_palabra(query, directorio):
    archivos_txt = [archivo for archivo in os.listdir(directorio) if archivo.endswith(".txt")]
    for archivo_txt in archivos_txt:
        ruta = os.path.join(directorio, archivo_txt)
        with open(ruta, "r", encoding="utf-8") as corpus:
            docs = corpus.readlines()
            for idx_doc, doc in enumerate(docs, start=1):
                if query in doc:
                    return True
    return False

def crearIDX_INV(directorio):
    palabras_recorridas = {}
    archivos_txt = [archivo for archivo in os.listdir(directorio) if archivo.endswith(".txt")]
    for corpus in archivos_txt:
        ruta = os.path.join(directorio, corpus)
        with open(ruta, "r", encoding="utf-8") as archivo:
            docs = archivo.readlines()
            for idx_doc, doc in enumerate(docs, start=1):
                palabras = doc.strip().split()
                for palabra in palabras:
                    if palabra not in palabras_recorridas:
                        palabras_recorridas[palabra] = set()
                    palabras_recorridas[palabra].add((corpus, idx_doc))
    return palabras_recorridas

def buscarIDX_INV(query, palabras_recorridas):
    return query in palabras_recorridas


directorio = "/content/sample_data"
palabras_a_buscar = ['quito', 'montañita', 'feriado', 'playas', 'aventura', 'galápagos']
palabras_recorridas = crearIDX_INV(directorio)
resultados = []

for palabra in palabras_a_buscar:

    inicio_lineal = time.time()
    encontrado_lineal = buscar_palabra(palabra, directorio)
    fin_lineal = time.time()
    tiempo_lineal = fin_lineal - inicio_lineal

    inicio_idx = time.time()
    encontrado_idx = buscarIDX_INV(palabra, palabras_recorridas)
    fin_idx = time.time()
    tiempo_idx = fin_idx - inicio_idx

    resultados.append((palabra, tiempo_lineal, tiempo_idx))

print("Comparativa de tiempos de búsqueda:")
print(f"{'Palabra':<15} {'Tiempo Lineal (s)':<20} {'Tiempo Índice Invertido (s)':<30}")
print("-" * 65)
for palabra, tiempo_lineal, tiempo_idx in resultados:
    print(f"{palabra:<15} {tiempo_lineal:<20.6f} {tiempo_idx:<30.6f}")


Comparativa de tiempos de búsqueda:
Palabra         Tiempo Lineal (s)    Tiempo Índice Invertido (s)   
-----------------------------------------------------------------
quito           0.000407             0.000001                      
montañita       0.000302             0.000001                      
feriado         0.000213             0.000001                      
playas          0.000173             0.000001                      
aventura        0.000154             0.000002                      
galápagos       0.000234             0.000001                      


## Parte 4:
### Actividad
1. Modifica el índice para que ignore mayúsculas/minúsculas (por ejemplo, "Playa" y "playa" deben considerarse iguales).
2. Permite consultas de múltiples términos (ejemplo: buscar documentos que contengan "playa" y "turismo").
3. Calcula el _speedup_

In [17]:
import os
import time

def buscar_palabra(query, directorio):
    archivos_txt = [archivo for archivo in os.listdir(directorio) if archivo.endswith(".txt")]
    for archivo_txt in archivos_txt:
        ruta = os.path.join(directorio, archivo_txt)
        with open(ruta, "r", encoding="utf-8") as corpus:
            docs = corpus.readlines()
            for idx_doc, doc in enumerate(docs, start=1):
                if all(q.lower() in doc.lower() for q in query.split()):
                    return True
    return False

def crearIDX_INV(directorio):
    palabras_recorridas = {}
    archivos_txt = [archivo for archivo in os.listdir(directorio) if archivo.endswith(".txt")]
    for corpus in archivos_txt:
        ruta = os.path.join(directorio, corpus)
        with open(ruta, "r", encoding="utf-8") as archivo:
            docs = archivo.readlines()
            for idx_doc, doc in enumerate(docs, start=1):
                palabras = doc.strip().split()
                for palabra in palabras:
                    palabra = palabra.lower()
                    if palabra not in palabras_recorridas:
                        palabras_recorridas[palabra] = set()
                    palabras_recorridas[palabra].add((corpus, idx_doc))
    return palabras_recorridas

def buscarIDX_INV(query, palabras_recorridas):
    palabras = query.lower().split()
    resultados = None

    for palabra in palabras:
        if palabra not in palabras_recorridas:
            return False
        documentos = palabras_recorridas[palabra]
        if resultados is None:
            resultados = documentos
        else:
            resultados = resultados.intersection(documentos)
    return bool(resultados)


directorio = "/content/sample_data"
palabras_a_buscar = ['quito', 'montañita', 'Feriado', 'playas', 'Aventura', 'galápagos', 'Playa turismo el']

palabras_recorridas = crearIDX_INV(directorio)
resultados = []

for palabra in palabras_a_buscar:

    inicio_lineal = time.time()
    encontrado_lineal = buscar_palabra(palabra, directorio)
    fin_lineal = time.time()
    tiempo_lineal = fin_lineal - inicio_lineal

    inicio_idx = time.time()
    encontrado_idx = buscarIDX_INV(palabra, palabras_recorridas)
    fin_idx = time.time()
    tiempo_idx = fin_idx - inicio_idx

    if tiempo_idx > 0:
        speedup = tiempo_lineal / tiempo_idx
    else:
        speedup = float('inf')

    resultados.append((palabra, tiempo_lineal, tiempo_idx, speedup))

print("Comparativa de tiempos de búsqueda y speedup:")
print(f"{'Palabra':<20} {'Tiempo Lineal (s)':<20} {'Tiempo Índice Invertido (s)':<30} {'Speedup':<10}")
print("-" * 85)
for palabra, tiempo_lineal, tiempo_idx, speedup in resultados:
    print(f"{palabra:<20} {tiempo_lineal:<20.6f} {tiempo_idx:<30.6f} {speedup:<10.2f}")


Comparativa de tiempos de búsqueda y speedup:
Palabra              Tiempo Lineal (s)    Tiempo Índice Invertido (s)    Speedup   
-------------------------------------------------------------------------------------
quito                0.000527             0.000006                       92.08     
montañita            0.000342             0.000003                       102.57    
Feriado              0.000270             0.000003                       80.86     
playas               0.000340             0.000005                       62.04     
Aventura             0.000355             0.000004                       99.40     
galápagos            0.000275             0.000003                       82.50     
Playa turismo el     0.001957             0.000003                       586.36    
