# Ejercicio 1: Introducción a Recuperación de Información

## Objetivo de la práctica
- Entender el problema de **buscar información** en colecciones de texto.
- Comprender por qué se necesita un **índice invertido** en recuperación de información.
- Programar una primera solución manual y luego optimizarla con un índice.
- Evaluar la mejora en tiempos de búsqueda cuando usamos estructuras adecuadas.

## Parte 1: Búsqueda lineal en documentos

### Actividad
1. Se te proporcionará un conjunto de documentos de texto.
2. Escribe una función que:
   - Lea todos los documentos.
   - Busque una palabra ingresada por el usuario.
   - Muestre en qué documentos aparece la palabra.

In [4]:
#colocar como variable el nombre del archivo.
#corpus = lista de documentos.

import os

In [21]:
corpus01 = open('/home/cesar/Escritorio/corpus/01_corpus_turismo.txt')
#print (corpus01.read())
palabra=input("Ingresa la palabra que estas buscando:")
corpus_01=False
c=0
documentos= []

for i in range (16):
    linea = corpus01.readline()
    palabras = linea.split()
    #print(palabras)
    for elemento in palabras:
        if elemento == palabra:
            c=c+1
            documentos.append(i)
            corpus_01=True

if corpus_01:
    for documento in documentos:
        print("La palabra", palabra, "esta en el documento:", documento)
else:
    print("La palabra: ", palabra, " no esta en ningun documento.")



#doc = open('/home/cesar/Escritorio/corpus')



La palabra:  g  no esta en ningun documento.


## Parte 2: Construcción de un índice invertido

### Actividad
1. Escribe un programa que:
   - Recorra todos los documentos.
   - Construya un **índice invertido**, es decir, un diccionario donde:
     - Cada palabra clave apunta a una lista de documentos donde aparece.

2. Escribe una nueva función de búsqueda que:
   - Consulte directamente el índice para encontrar los documentos relevantes.
   - Sea mucho más rápida que la búsqueda lineal.

In [22]:
corpus = open('/home/cesar/Escritorio/corpus/01_corpus_turismo.txt')

indice_invertido = {}

#leemos los documentos y creamos un indice invertido
for i in range (16):
    linea = corpus.readline()
    palabras = linea.split()
    for palabra in palabras:
        if palabra not in indice_invertido:
            indice_invertido[palabra] = set()
        indice_invertido[palabra].add(i)

palabra = input("Ingresa la palabra que estas buscando: ")

#busqueda usando el indice invertido
if palabra in indice_invertido:
    lista_doc = indice_invertido[palabra]
    for doc in lista_doc:
        print(f"La palabra '{palabra}' está en el documento: {doc}")

else:
    print(f"La palabra: {palabra} no está en ningún documento")




La palabra:  no está en ningún documento


## Parte 3: Evaluación de tiempos de búsqueda
### Actividad

1. Realiza la búsqueda de varias palabras usando:
      -  Corpus pequeño: 16 documentos (turismo en Ecuador).
      -  Corpus grande: 500 documentos (versión ampliada).
2. Mide el tiempo de ejecución:
      -  Para búsqueda lineal.
      -  Para búsqueda usando índice invertido.
      -  Grafica o presenta los resultados en una tabla comparativa.

### Ejemplo de palabras para buscar
- quito
- montañita
- feriado
- playas
- aventura
- galápagos

In [32]:
import time
corpus01 = open('/home/cesar/Escritorio/corpus/01_corpus_turismo.txt')
corpus02 = open('/home/cesar/Escritorio/corpus/01_corpus_turismo_500.txt')

palabras_buscar = ['quito', 'montañita', 'feriado', 'playas', 'aventura', 'galápagos']

inicio = time.time()
corpus01.seek(0)

for palabra in palabras_buscar:
    corpus01.seek(0)
    corpus_01 = False
    documentos = []

    for i in range(16):
         linea = corpus01.readline()
         palabras_linea = linea.lower().split()
         if palabra in palabras_linea:
            documentos.append(i)
            corpus_01 = True

    if corpus_01:
        for documento in documentos:
            print(f"[Lineal][Pequeño] La palabra '{palabra}' está en el documento: {documento}")
    else:
        print(f"[Lineal][Pequeño] La palabra '{palabra}' no está en ningún documento.")

fin = time.time()
tiempo_lineal_pequeno = fin - inicio
print(f"Tiempo búsqueda lineal corpus pequeño: {tiempo_lineal_pequeno:.6f} segundos")


inicio = time.time()
corpus02.seek(0)

for palabra in palabras_buscar:
    corpus02.seek(0)
    corpus_02 = False
    documentos = []
    for i in range(500):
        linea = corpus02.readline()
        palabras_linea = linea.lower().split()
        if palabra in palabras_linea:
            documentos.append(i)
            corpus_02 = True

    if corpus_02:
        for documento in documentos:
            print(f"[Lineal][Grande] La palabra '{palabra}' está en el documento: {documento}")
    else:
        print(f"[Lineal][Grande] La palabra '{palabra}' no está en ningún documento.")

fin = time.time()
tiempo_lineal_grande = fin - inicio
print(f"Tiempo búsqueda lineal corpus grande: {tiempo_lineal_grande:.6f} segundos")







[Lineal][Pequeño] La palabra 'quito' está en el documento: 2
[Lineal][Pequeño] La palabra 'montañita' está en el documento: 15
[Lineal][Pequeño] La palabra 'feriado' está en el documento: 13
[Lineal][Pequeño] La palabra 'playas' está en el documento: 4
[Lineal][Pequeño] La palabra 'playas' está en el documento: 9
[Lineal][Pequeño] La palabra 'aventura' está en el documento: 3
[Lineal][Pequeño] La palabra 'galápagos' está en el documento: 1
Tiempo búsqueda lineal corpus pequeño: 0.003485 segundos
[Lineal][Grande] La palabra 'quito' está en el documento: 3
[Lineal][Grande] La palabra 'quito' está en el documento: 15
[Lineal][Grande] La palabra 'quito' está en el documento: 16
[Lineal][Grande] La palabra 'quito' está en el documento: 38
[Lineal][Grande] La palabra 'quito' está en el documento: 42
[Lineal][Grande] La palabra 'quito' está en el documento: 72
[Lineal][Grande] La palabra 'quito' está en el documento: 74
[Lineal][Grande] La palabra 'quito' está en el documento: 88
[Lineal][Gra

In [33]:
def construir_indice_invertido(ruta_archivo, num_lineas):
    archivo = open(ruta_archivo, 'r')
    indice = {}
    for i in range(num_lineas):
        linea = archivo.readline()
        palabras = linea.lower().split()
        for palabra in palabras:
            if palabra not in indice:
                indice[palabra] = set()
            indice[palabra].add(i)
    archivo.close()
    return indice


inicio = time.time()
indice_pequeno = construir_indice_invertido('/home/cesar/Escritorio/corpus/01_corpus_turismo.txt', 16)
fin = time.time()
tiempo_indice_pequeno = fin - inicio

inicio = time.time()
for palabra in palabras_buscar:
    if palabra in indice_pequeno:
        documentos = sorted(indice_pequeno[palabra])
        for doc in documentos:
            print(f"[Índice][Pequeño] La palabra '{palabra}' está en el documento: {doc}")
    else:
        print(f"[Índice][Pequeño] La palabra '{palabra}' no está en ningún documento.")
fin = time.time()
tiempo_busqueda_indice_pequeno = fin - inicio

print(f"Tiempo búsqueda índice invertido corpus pequeño: {tiempo_busqueda_indice_pequeno:.6f} segundos")


inicio = time.time()
indice_grande = construir_indice_invertido('/home/cesar/Escritorio/corpus/01_corpus_turismo_500.txt', 500)
fin = time.time()
tiempo_indice_grande = fin - inicio

inicio = time.time()
for palabra in palabras_buscar:
    if palabra in indice_grande:
        documentos = sorted(indice_grande[palabra])
        for doc in documentos:
            print(f"[Índice][Grande] La palabra '{palabra}' está en el documento: {doc}")
    else:
        print(f"[Índice][Grande] La palabra '{palabra}' no está en ningún documento.")
fin = time.time()
tiempo_busqueda_indice_grande = fin - inicio

print(f"Tiempo búsqueda índice invertido corpus grande: {tiempo_busqueda_indice_grande:.6f} segundos")


[Índice][Pequeño] La palabra 'quito' está en el documento: 2
[Índice][Pequeño] La palabra 'montañita' está en el documento: 15
[Índice][Pequeño] La palabra 'feriado' está en el documento: 13
[Índice][Pequeño] La palabra 'playas' está en el documento: 4
[Índice][Pequeño] La palabra 'playas' está en el documento: 9
[Índice][Pequeño] La palabra 'aventura' está en el documento: 3
[Índice][Pequeño] La palabra 'galápagos' está en el documento: 1
Tiempo búsqueda índice invertido corpus pequeño: 0.000396 segundos
[Índice][Grande] La palabra 'quito' está en el documento: 3
[Índice][Grande] La palabra 'quito' está en el documento: 15
[Índice][Grande] La palabra 'quito' está en el documento: 16
[Índice][Grande] La palabra 'quito' está en el documento: 38
[Índice][Grande] La palabra 'quito' está en el documento: 42
[Índice][Grande] La palabra 'quito' está en el documento: 72
[Índice][Grande] La palabra 'quito' está en el documento: 74
[Índice][Grande] La palabra 'quito' está en el documento: 88
[Í

| Método                         | Corpus 16 documentos | Corpus 500 documentos |
|---------------------------------|-----------------------|------------------------|
| Búsqueda lineal                 | 0,0025 s              | 0,022 s                |
| Búsqueda con índice invertido   | 0,00058 s             | 0,0042 s               |

La búsqueda usando índice invertido es aproximadamente **4,31 veces más rápida** en el corpus de 16 documentos,  
y aproximadamente **5,24 veces más rápida** en el corpus de 500 documentos.


## Parte 4:
### Actividad
1. Modifica el índice para que ignore mayúsculas/minúsculas (por ejemplo, "Playa" y "playa" deben considerarse iguales).
2. Permite consultas de múltiples términos (ejemplo: buscar documentos que contengan "playa" y "turismo").
3. Calcula el _speedup_

In [34]:
import time

def construir_indice_invertido(ruta_archivo, num_lineas):
    archivo = open(ruta_archivo, 'r')
    indice = {}
    for i in range(num_lineas):
        linea = archivo.readline()
        palabras = linea.lower().split()
        for palabra in palabras:
            if palabra not in indice:
                indice[palabra] = set()
            indice[palabra].add(i)
    archivo.close()
    return indice

def busqueda_lineal(ruta_archivo, num_lineas, terminos):
    archivo = open(ruta_archivo, 'r')
    documentos_encontrados = set()
    for i in range(num_lineas):
        linea = archivo.readline()
        palabras_linea = linea.lower().split()
        if all(termino in palabras_linea for termino in terminos):
            documentos_encontrados.add(i)
    archivo.close()
    return documentos_encontrados

def busqueda_indice(indice, terminos):
    listas_documentos = []
    for termino in terminos:
        if termino in indice:
            listas_documentos.append(indice[termino])
        else:
            return set()
    return set.intersection(*listas_documentos)

ruta_pequeno = '/home/cesar/Escritorio/corpus/01_corpus_turismo.txt'
n_docs_pequeno = 16
terminos_busqueda = input("Ingresa los términos separados por espacio: ").lower().split()

inicio = time.time()
resultado_lineal = busqueda_lineal(ruta_pequeno, n_docs_pequeno, terminos_busqueda)
fin = time.time()
tiempo_lineal = fin - inicio

print("\n[Lineal][Pequeño] Documentos encontrados:", sorted(resultado_lineal))
print(f"Tiempo búsqueda lineal: {tiempo_lineal:.6f} segundos")

inicio = time.time()
indice_pequeno = construir_indice_invertido(ruta_pequeno, n_docs_pequeno)
resultado_indice = busqueda_indice(indice_pequeno, terminos_busqueda)
fin = time.time()
tiempo_indice = fin - inicio

print("\n[Índice][Pequeño] Documentos encontrados:", sorted(resultado_indice))
print(f"Tiempo búsqueda con índice: {tiempo_indice:.6f} segundos")

speedup = tiempo_lineal / tiempo_indice if tiempo_indice > 0 else float('inf')
print(f"\nSpeedup: {speedup:.2f}x más rápido usando índice invertido.")



[Lineal][Pequeño] Documentos encontrados: [2]
Tiempo búsqueda lineal: 0.000375 segundos

[Índice][Pequeño] Documentos encontrados: [2]
Tiempo búsqueda con índice: 0.001276 segundos

Speedup: 0.29x más rápido usando índice invertido.
