# Jair Joshue Sanchez Yanza
## Escuela Politécnica Nacional
### Recuperación de la Información


Este código en Python carga un índice invertido desde un archivo CSV utilizando la biblioteca `pandas`. El índice invertido es almacenado en un DataFrame llamado `indice_invertido_df`. Luego, define una función `buscar_palabra_en_indice(palabra)` que busca una palabra en el índice invertido. La función convierte la palabra a minúsculas y verifica si está presente en el índice invertido. Si la palabra está presente, muestra los libros donde aparece junto con el número de ocurrencias. Si la palabra no está presente, indica que no se encuentra en ningún libro. Posteriormente, inicia un bucle donde el usuario puede ingresar palabras para buscar en el índice invertido, mostrando los resultados de búsqueda correspondientes. El bucle continúa hasta que el usuario ingresa 'salir', momento en el que el programa termina.


In [3]:
import os
import pandas as pd
from nltk.tokenize import word_tokenize

def construir_indice_invertido():
    indice = {}
    libros = os.listdir("Downloads/descargas")
    
    for libro in libros:
        with open(os.path.join("Downloads/descargas", libro), 'r', encoding='utf-8') as f:
            contenido = f.read().lower()  # Convertir el contenido a minúsculas
            palabras = word_tokenize(contenido)  # Tokenizar el contenido en palabras usando NLTK
            
            for palabra in set(palabras):  # Usar un conjunto para evitar duplicados
                if palabra not in indice:
                    indice[palabra] = set()  # Usar un conjunto para almacenar los libros donde aparece la palabra
                indice[palabra].add(libro)  # Agregar el libro a la lista de libros donde aparece la palabra
    
    # Crear un DataFrame con todos los valores False
    df = pd.DataFrame(index=indice.keys(), columns=libros)
    df.fillna(False, inplace=True)  # Rellenar todos los valores con False
    
    # Marcar las celdas como True donde la palabra aparece en un libro
    for palabra, libros in indice.items():
        for libro in libros:
            df.at[palabra, libro] = True
    
    # Guardar el DataFrame en un archivo CSV
    df.to_csv('indice_invertido_booleano.csv')
    
    return df

indice_invertido_df = construir_indice_invertido()

print("DataFrame del Índice Invertido:")
print(indice_invertido_df)


DataFrame del Índice Invertido:
             pg100.txt  pg10676.txt  pg1080.txt  pg10907.txt  pg11.txt  \
sipped            True        False       False        False     False   
co-supremes       True        False       False        False     False   
ordain            True        False       False        False     False   
not._             True        False       False        False     False   
vault             True        False       False        False     False   
...                ...          ...         ...          ...       ...   
exclaimed-       False        False       False        False     False   
p22c.jpg         False        False       False        False     False   
dreadest         False        False       False        False     False   
p60d.jpg         False        False       False        False     False   
villages.        False        False       False        False     False   

             pg1184.txt  pg120.txt  pg1232.txt  pg12582.txt  pg1259.txt  ...  \

El código presentado carga un índice invertido desde un archivo CSV utilizando la biblioteca `pandas`. Este índice invertido se almacena en un DataFrame llamado `indice_invertido_df`. Además, incluye una función `buscar_palabra_en_indice(palabra)` que busca una palabra en el índice invertido. La función convierte la palabra a minúsculas para coincidir con el formato en el DataFrame, verifica su presencia y muestra los libros donde aparece junto con el número de ocurrencias, o indica si la palabra no está presente en ningún libro. La interfaz de búsqueda permite al usuario ingresar palabras para buscar en el índice invertido, mostrando los resultados correspondientes. El bucle de búsqueda continúa hasta que el usuario ingresa 'salir', momento en el que el programa termina.


In [None]:
import pandas as pd

# Cargar el índice invertido desde el archivo CSV
indice_invertido_df = pd.read_csv('indice_invertido_booleano.csv', index_col=0)

def buscar_palabra_en_indice(palabra):
    palabra = palabra.lower()  # Convertir la palabra a minúsculas para que coincida con el formato en el DataFrame
    if palabra in indice_invertido_df.index:
        resultados = indice_invertido_df.loc[palabra]
        resultados = resultados[resultados > 0]  # Filtrar los libros donde la palabra aparece al menos una vez
        if resultados.empty:
            print("La palabra '{}' aparece en los libros, pero el número de ocurrencias es cero.".format(palabra))
        else:
            resultados_df = resultados.to_frame(name='Número de ocurrencias')
            print("Resultados para la palabra '{}':".format(palabra))
            display(resultados_df)
    else:
        print("La palabra '{}' no se encuentra en ningún libro.".format(palabra))

# Interfaz de búsqueda
while True:
    consulta = input("Ingrese una palabra para buscar en el índice invertido (o 'salir' para terminar): ")
    if consulta.lower() == 'salir':
        break
    buscar_palabra_en_indice(consulta)


Ingrese una palabra para buscar en el índice invertido (o 'salir' para terminar):  gutç


La palabra 'gutç' no se encuentra en ningún libro.


Ingrese una palabra para buscar en el índice invertido (o 'salir' para terminar):  gut


Resultados para la palabra 'gut':


Unnamed: 0,Número de ocurrencias
pg16.txt,True
pg1727.txt,True
pg2160.txt,True
pg2600.txt,True
pg29728.txt,True
pg37106.txt,True
pg41070.txt,True
pg4300.txt,True
pg514.txt,True
pg6761.txt,True


Ingrese una palabra para buscar en el índice invertido (o 'salir' para terminar):  romeo


Resultados para la palabra 'romeo':


Unnamed: 0,Número de ocurrencias
pg100.txt,True
pg1513.txt,True
pg174.txt,True
pg18893.txt,True
pg20228.txt,True
pg2554.txt,True
pg37106.txt,True
pg4300.txt,True
pg514.txt,True
pg5197.txt,True
