# Ejercicio 1: Introducci칩n a Recuperaci칩n de Informaci칩n

## Objetivo de la pr치ctica
- Entender el problema de **buscar informaci칩n** en colecciones de texto.
- Comprender por qu칠 se necesita un **칤ndice invertido** en recuperaci칩n de informaci칩n.
- Programar una primera soluci칩n manual y luego optimizarla con un 칤ndice.
- Evaluar la mejora en tiempos de b칰squeda cuando usamos estructuras adecuadas.

## Parte 1: B칰squeda lineal en documentos

### Actividad
1. Se te proporcionar치 un conjunto de documentos de texto.
2. Escribe una funci칩n que:
   - Lea todos los documentos.
   - Busque una palabra ingresada por el usuario.
   - Muestre en qu칠 documentos aparece la palabra.

In [27]:
import time

nombre_archivo = "01_corpus_turismo.txt"
palabra_buscar = "Quito"

def find(palabra_buscar):
    inicio = time.time()

    try:
        with open(nombre_archivo, "r", encoding="utf-8") as archivo:
            lineas = archivo.readlines()

        resultados = []  # Para guardar en qu칠 documentos est치
        conteo_total = 0  # Para contar el total de veces que aparece la palabra

        for numero_linea, linea in enumerate(lineas, start=1):
            apariciones_linea = linea.count(palabra_buscar)
            if apariciones_linea > 0:
                resultados.append(numero_linea)  # Solo guardamos el n칰mero de documento
                conteo_total += apariciones_linea  # Sumar todas las apariciones

        fin = time.time()
        tiempo = fin - inicio

        return {
            "documentos_encontrados": resultados,  # Solo n칰mero de documentos
            "total_apariciones": conteo_total,      # Total de veces que apareci칩 la palabra
            "tiempo_segundos": tiempo               # Tiempo que tard칩 en buscar
        }

    except FileNotFoundError:
        print(f"El archivo '{nombre_archivo}' no fue encontrado.")
        return {
            "documentos_encontrados": [],
            "total_apariciones": 0,
            "tiempo_segundos": 0
        }

# Llamar a la funci칩n
resultado = find(palabra_buscar)

# Mostrar resultados
print(f"Documentos donde aparece '{palabra_buscar}': {resultado['documentos_encontrados']}")
print(f"Total de veces que aparece: {resultado['total_apariciones']}")
print(f"Tiempo de b칰squeda: {resultado['tiempo_segundos']:.6f} segundos")


Documentos donde aparece 'Quito': [3]
Total de veces que aparece: 1
Tiempo de b칰squeda: 0.000537 segundos


## Parte 2: Construcci칩n de un 칤ndice invertido

### Actividad
1. Escribe un programa que:
   - Recorra todos los documentos.
   - Construya un **칤ndice invertido**, es decir, un diccionario donde:
     - Cada palabra clave apunta a una lista de documentos donde aparece.

2. Escribe una nueva funci칩n de b칰squeda que:
   - Consulte directamente el 칤ndice para encontrar los documentos relevantes.
   - Sea mucho m치s r치pida que la b칰squeda lineal.

In [36]:
def construir_e_imprimir_indice(nombre_archivo):
    try:
        with open(nombre_archivo, "r", encoding="utf-8") as archivo:
            lineas = archivo.readlines()

        # Set de palabras 칰nicas
        palabras_unicas = set()

        for linea in lineas:
            palabras = linea.strip().split()
            palabras_unicas.update(palabras)

        # Construir el 칤ndice invertido
        indice_invertido = {palabra: [] for palabra in palabras_unicas}

        for numero_linea, linea in enumerate(lineas, start=1):
            palabras_linea = linea.strip().split()
            for palabra in palabras_linea:
                if palabra in indice_invertido:
                    indice_invertido[palabra].append(numero_linea)

        # 游댯 Imprimir palabra y documentos donde aparece
        print("칈ndice Invertido completo:")
        for palabra in sorted(indice_invertido.keys()):
            documentos = indice_invertido[palabra]
            print(f"Palabra: '{palabra}' aparece en los dicumentos: {documentos}")

        return indice_invertido

    except FileNotFoundError:
        print(f"El archivo '{nombre_archivo}' no fue encontrado.")
        return {}
import time

def buscar_palabra_en_indice(indice_invertido, palabra_buscar):
    inicio = time.time()

    documentos = indice_invertido.get(palabra_buscar, [])

    fin = time.time()
    tiempo = fin - inicio

    return {
        "documentos_encontrados": documentos,
        "cantidad_documentos": len(documentos),
        "tiempo_segundos": tiempo
    }
# Construir el 칤ndice invertido y mostrarlo
indice_invertido = construir_e_imprimir_indice(nombre_archivo)

# Ahora buscar una palabra usando la funci칩n
palabra_buscar = "Quito"
resultado = buscar_palabra_en_indice(indice_invertido, palabra_buscar)

print(f"\nResultados de b칰squeda para '{palabra_buscar}':")
print(f"Documentos encontrados: {resultado['documentos_encontrados']}")
print(f"Cantidad de documentos: {resultado['cantidad_documentos']}")
print(f"Tiempo de b칰squeda: {resultado['tiempo_segundos']:.10f} segundos")

칈ndice Invertido completo:
Palabra: '2000,' aparece en los dicumentos: [10]
Palabra: 'Agua' aparece en los dicumentos: [4]
Palabra: 'Amazon칤a' aparece en los dicumentos: [12]
Palabra: 'Andes.' aparece en los dicumentos: [8]
Palabra: 'Ba침os' aparece en los dicumentos: [4]
Palabra: 'Cajas' aparece en los dicumentos: [13]
Palabra: 'Cotopaxi' aparece en los dicumentos: [8]
Palabra: 'Cuenca' aparece en los dicumentos: [7]
Palabra: 'Ecuador' aparece en los dicumentos: [1]
Palabra: 'El' aparece en los dicumentos: [8, 13]
Palabra: 'En' aparece en los dicumentos: [4, 12]
Palabra: 'Gal치pagos' aparece en los dicumentos: [2]
Palabra: 'Guayaquil' aparece en los dicumentos: [10]
Palabra: 'Humanidad' aparece en los dicumentos: [3]
Palabra: 'Islas' aparece en los dicumentos: [2]
Palabra: 'La' aparece en los dicumentos: [3, 5, 11]
Palabra: 'Laguna' aparece en los dicumentos: [11]
Palabra: 'Las' aparece en los dicumentos: [2]
Palabra: 'Longevidad,' aparece en los dicumentos: [15]
Palabra: 'Los' aparece 

## Parte 3: Evaluaci칩n de tiempos de b칰squeda
### Actividad

1. Realiza la b칰squeda de varias palabras usando:
      -  Corpus peque침o: 16 documentos (turismo en Ecuador).
      -  Corpus grande: 500 documentos (versi칩n ampliada).
2. Mide el tiempo de ejecuci칩n:
      -  Para b칰squeda lineal.
      -  Para b칰squeda usando 칤ndice invertido.
      -  Grafica o presenta los resultados en una tabla comparativa.

### Ejemplo de palabras para buscar
- quito
- monta침ita
- feriado
- playas
- aventura
- gal치pagos

In [43]:
# Preparar datos
nombre_archivo = "01_corpus_turismo.txt"
palabras_a_buscar = ["quito", "monta침ita", "feriado", "playas", "aventura", "gal치pagos"]

# Construir el 칤ndice invertido una sola vez
indice_invertido = construir_e_imprimir_indice(nombre_archivo)

# Guardar resultados
resultados = []

for palabra in palabras_a_buscar:
    # B칰squeda lineal
    resultado_lineal = find(palabra)
    
    # B칰squeda con 칤ndice invertido
    resultado_indice = buscar_palabra_en_indice(indice_invertido, palabra)
    
    # Guardar resultados para la tabla
    resultados.append({
        "palabra": palabra,
        "tiempo_lineal": resultado_lineal['tiempo_segundos'],
        "tiempo_indice": resultado_indice['tiempo_segundos'],
        "docs_lineal": resultado_lineal['total_apariciones'],  # en find() es 'total_apariciones'
        "docs_indice": resultado_indice['cantidad_documentos'] # en 칤ndice es 'cantidad_documentos'
    })

# Imprimir resultados
print("\nTabla comparativa de tiempos:")
print(f"{'Palabra':<15} {'T. Lineal (s)':<15} {'T. 칈ndice (s)':<15} {'Apariciones Lineal':<20} {'Docs 칈ndice'}")
print("-" * 80)
for res in resultados:
    print(f"{res['palabra']:<15} {res['tiempo_lineal']:<15.10f} {res['tiempo_indice']:<15.10f} {res['docs_lineal']:<20} {res['docs_indice']}")


칈ndice Invertido completo:
Palabra: '2000,' aparece en los dicumentos: [10]
Palabra: 'Agua' aparece en los dicumentos: [4]
Palabra: 'Amazon칤a' aparece en los dicumentos: [12]
Palabra: 'Andes.' aparece en los dicumentos: [8]
Palabra: 'Ba침os' aparece en los dicumentos: [4]
Palabra: 'Cajas' aparece en los dicumentos: [13]
Palabra: 'Cotopaxi' aparece en los dicumentos: [8]
Palabra: 'Cuenca' aparece en los dicumentos: [7]
Palabra: 'Ecuador' aparece en los dicumentos: [1]
Palabra: 'El' aparece en los dicumentos: [8, 13]
Palabra: 'En' aparece en los dicumentos: [4, 12]
Palabra: 'Gal치pagos' aparece en los dicumentos: [2]
Palabra: 'Guayaquil' aparece en los dicumentos: [10]
Palabra: 'Humanidad' aparece en los dicumentos: [3]
Palabra: 'Islas' aparece en los dicumentos: [2]
Palabra: 'La' aparece en los dicumentos: [3, 5, 11]
Palabra: 'Laguna' aparece en los dicumentos: [11]
Palabra: 'Las' aparece en los dicumentos: [2]
Palabra: 'Longevidad,' aparece en los dicumentos: [15]
Palabra: 'Los' aparece 

## Parte 4:
### Actividad
1. Modifica el 칤ndice para que ignore may칰sculas/min칰sculas (por ejemplo, "Playa" y "playa" deben considerarse iguales).
2. Permite consultas de m칰ltiples t칠rminos (ejemplo: buscar documentos que contengan "playa" y "turismo").
3. Calcula el _speedup_

In [None]:
import time
import pandas as pd

# --- Configuraci칩n ---
palabras_buscar = ["quito", "monta침ita", "feriado", "playas", "aventura", "gal치pagos"]
nombre_archivo = "01_corpus_turismo.txt"  # Tu archivo peque침o o grande

# --- Funci칩n b칰squeda lineal (adaptada) ---
def find(palabra_buscar):
    inicio = time.time()
    try:
        with open(nombre_archivo, "r", encoding="utf-8") as archivo:
            lineas = archivo.readlines()

        documentos = []
        for numero_linea, linea in enumerate(lineas, start=1):
            if palabra_buscar.lower() in linea.lower():
                documentos.append(numero_linea)

        fin = time.time()
        tiempo = fin - inicio

        return {"documentos": documentos, "tiempo": tiempo}

    except FileNotFoundError:
        return {"documentos": [], "tiempo": 0}

# --- Crear 칤ndice invertido ---
def crear_indice_invertido():
    vocabulario = set()
    with open(nombre_archivo, 'r', encoding='utf-8') as archivo:
        lineas = archivo.readlines()

    for linea in lineas:
        palabras = linea.split()
        vocabulario.update(palabras)

    indice_invertido = {palabra.lower(): set() for palabra in vocabulario}

    for numero_linea, linea in enumerate(lineas, start=1):
        palabras = linea.split()
        for palabra in palabras:
            palabra = palabra.lower()
            indice_invertido[palabra].add(numero_linea)

    return indice_invertido

# --- B칰squeda en 칤ndice invertido (adaptada) ---
def buscar_en_indice(palabra, indice_invertido):
    palabra = palabra.strip().lower()
    inicio = time.time()

    documentos = indice_invertido.get(palabra, set())

    fin = time.time()
    tiempo = fin - inicio

    return {"documentos": documentos, "tiempo": tiempo}

# --- B칰squeda de m칰ltiples t칠rminos ---
def buscar_multiples_terminos(palabras, indice_invertido):
    inicio = time.time()
    documentos_comunes = None
    
    for palabra in palabras:
        palabra = palabra.lower().strip()
        documentos = indice_invertido.get(palabra, set())

        if documentos_comunes is None:
            documentos_comunes = documentos
        else:
            documentos_comunes = documentos_comunes.intersection(documentos)

    documentos_comunes = documentos_comunes if documentos_comunes else set()
    fin = time.time()
    tiempo = fin - inicio

    return {"documentos": documentos_comunes, "tiempo": tiempo}

# --- Crear 칤ndice invertido una sola vez ---
indice_invertido = crear_indice_invertido()

# --- Lista para resultados individuales ---
resultados = []

# --- B칰squeda palabra por palabra ---
for palabra in palabras_buscar:
    # B칰squeda lineal
    resultado_lineal = find(palabra)
    # B칰squeda 칤ndice invertido
    resultado_indice = buscar_en_indice(palabra, indice_invertido)

    # Speedup (lineal/칤ndice)
    if resultado_indice["tiempo"] > 0:
        speedup = resultado_lineal["tiempo"] / resultado_indice["tiempo"]
    else:
        speedup = float('inf')

    # Agregar resultados
    resultados.append({
        "Tipo de B칰squeda": "Individual",
        "M칠todo": "B칰squeda lineal",
        "Palabra(s)": palabra,
        "Documentos encontrados": list(resultado_lineal["documentos"]),
        "Cantidad documentos": len(resultado_lineal["documentos"]),
        "Tiempo (segundos)": resultado_lineal["tiempo"],
        "Speedup": None  # Solo calculamos Speedup despu칠s
    })

    resultados.append({
        "Tipo de B칰squeda": "Individual",
        "M칠todo": "칈ndice invertido",
        "Palabra(s)": palabra,
        "Documentos ": list(resultado_indice["documentos"]),
        "Cantidad documentos": len(resultado_indice["documentos"]),
        "Tiempo (segundos)": resultado_indice["tiempo"],
        "Speedup": speedup
    })

# --- B칰squeda de m칰ltiples t칠rminos ---
palabras_multiples = ["playas", "turismo"]  

# Lineal para m칰ltiples t칠rminos
inicio_lineal = time.time()
documentos_lineal = []
with open(nombre_archivo, "r", encoding="utf-8") as archivo:
    lineas = archivo.readlines()
    for numero_linea, linea in enumerate(lineas, start=1):
        if all(palabra.lower() in linea.lower() for palabra in palabras_multiples):
            documentos_lineal.append(numero_linea)
fin_lineal = time.time()
tiempo_lineal_multiples = fin_lineal - inicio_lineal
# 칈ndice invertido para m칰ltiples t칠rminos
resultado_multiples_indice = buscar_multiples_terminos(palabras_multiples, indice_invertido)
# Speedup de b칰squeda m칰ltiple
if resultado_multiples_indice["tiempo"] > 0:
    speedup_multiples = tiempo_lineal_multiples / resultado_multiples_indice["tiempo"]
else:
    speedup_multiples = float('inf')
# --- Agregar resultados de b칰squeda m칰ltiple ---
resultados.append({
    "Tipo de B칰squeda": "M칰ltiple",
    "M칠todo": "B칰squeda lineal",
    "Palabra(s)": ", ".join(palabras_multiples),
    "Documentos encontrados": documentos_lineal,
    "Cantidad documentos": len(documentos_lineal),
    "Tiempo (segundos)": tiempo_lineal_multiples,
    "Speedup": None
})
resultados.append({
    "Tipo de B칰squeda": "M칰ltiple",
    "M칠todo": "칈ndice invertido",
    "Palabra(s)": ", ".join(palabras_multiples),
    "Documentos encontrados": list(resultado_multiples_indice["documentos"]),
    "Cantidad documentos": len(resultado_multiples_indice["documentos"]),
    "Tiempo (segundos)": resultado_multiples_indice["tiempo"],
    "Speedup": speedup_multiples
})

# --- Crear tabla de resultados ---
df_resultados = pd.DataFrame(resultados)

# --- Mostrar tabla ---

print(df_resultados)


   Tipo de B칰squeda            M칠todo       Palabra(s) Documentos encontrados  \
0        Individual   B칰squeda lineal            quito                    [3]   
1        Individual  칈ndice invertido            quito                    [3]   
2        Individual   B칰squeda lineal        monta침ita                [5, 16]   
3        Individual  칈ndice invertido        monta침ita                   [16]   
4        Individual   B칰squeda lineal          feriado           [12, 14, 16]   
5        Individual  칈ndice invertido          feriado                   [14]   
6        Individual   B칰squeda lineal           playas             [1, 5, 10]   
7        Individual  칈ndice invertido           playas                [10, 5]   
8        Individual   B칰squeda lineal         aventura                    [4]   
9        Individual  칈ndice invertido         aventura                    [4]   
10       Individual   B칰squeda lineal        gal치pagos                    [2]   
11       Individual  칈ndice 