# Exploring Ranking Models in Information Retrieval

## Objective
Understand the practical implementation and differences between the Vector Space Model and the Binary Independence Model in ranking documents relative to a user query.

### Step 1: Data Preprocessing

Ensure that the documents are still loaded and preprocessed from the previous task. The data should be clean and ready for advanced querying.
Write a function to load and preprocess the text documents from a specified directory. This step involves reading each file, converting the text to lowercase for uniform processing, and storing the results in a dictionary.

### Step 2:  Vector Space Model (VSM)

Task: Implement a simple Vector Space Model using term frequency.

Requirements:
* _Document and Query Representation:_ Convert each document and the query into a vector where each dimension corresponds to a term from the corpus. Use simple term frequency for weighting.
* _Cosine Similarity Calculation:_ Calculate the cosine similarity between the query vector and each document vector.
* _Ranking:_ Rank the documents based on their cosine similarity scores from highest to lowest.

In [4]:
import os
import pandas as pd
from nltk.tokenize import word_tokenize
import nltk
nltk.download('punkt')

def construir_indice_invertido():
    indice = {}
    libros = os.listdir("descargas")
    
    for libro in libros:
        with open(os.path.join("descargas", libro), 'r', encoding='utf-8') as f:
            contenido = f.read().lower()  # Convertir el contenido a minúsculas
            palabras = word_tokenize(contenido)  # Tokenizar el contenido en palabras usando NLTK
            
            for palabra in palabras:  
                if palabra not in indice:
                    indice[palabra] = {}  
                
                if libro not in indice[palabra]:
                    indice[palabra][libro] = 0
                
                indice[palabra][libro] += 1  # Incrementar el recuento de la palabra en el libro
    
    # Crear un DataFrame con todos los valores 0
    df = pd.DataFrame(index=indice.keys(), columns=libros)
    df.fillna(0, inplace=True)  # Rellenar todos los valores con 0
    
    # Rellenar el DataFrame con el recuento de ocurrencias de las palabras en los libros
    for palabra, libros in indice.items():
        for libro, count in libros.items():
            df.at[palabra, libro] = count
    
    # Guardar el DataFrame en un archivo CSV
    df.to_csv('indice_invertido_recuento.csv')
    
    return df

indice_invertido_df = construir_indice_invertido()

print("DataFrame del Índice Invertido:")
print(indice_invertido_df)


[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\LabP3E005\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


DataFrame del Índice Invertido:
                pg100.txt  pg10676.txt  pg1080.txt  pg10907.txt  pg11.txt  \
﻿the                    2            1           1            1         1   
project               101          114          89           92        88   
gutenberg              31           32          31           32        31   
ebook                  13           13          13           13        13   
of                  18867         3657         259         8815       631   
...                   ...          ...         ...          ...       ...   
debits                  0            0           0            0         0   
quixana                 0            0           0            0         0   
p74b.jpg                0            0           0            0         0   
tordesillesque          0            0           0            0         0   
p74e.jpg                0            0           0            0         0   

                pg1184.txt  pg120.txt  pg12

### Step 3: Binary Independence Model (BIM)

Task: Implement a basic Binary Independence Model to rank documents.

Requirements:
* _Binary Representation:_ Represent the corpus and the query in binary vectors (1 if the term is present, 0 otherwise).
* _Probability Estimation:_ Assume arbitrary probabilities for the presence of each term in relevant and non-relevant documents.
* _Relevance Scoring:_ Calculate the relevance score for each document based on the product of probabilities for terms present in the query.
* _Ranking:_ Rank the documents based on their relevance scores from highest to lowest.

In [None]:
import pandas as pd

def buscar_palabra_en_indice(palabra):
    indice_invertido_df = pd.read_csv('indice_invertido_recuento.csv', index_col=0)
    palabra = palabra.lower()  # Convertir la palabra a minúsculas para que coincida con el formato en el DataFrame
    if palabra in indice_invertido_df.index:
        resultados = indice_invertido_df.loc[palabra]
        resultados = resultados[resultados > 0]  # Filtrar los libros donde la palabra aparece al menos una vez
        if resultados.empty:
            print("La palabra '{}' aparece en los libros, pero el número de ocurrencias es cero.".format(palabra))
        else:
            resultados_ordenados = resultados.sort_values(ascending=False)  # Ordenar los resultados por número de ocurrencias
            resultados_df = resultados_ordenados.to_frame(name='Número de ocurrencias')
            print("Resultados para la palabra '{}':".format(palabra))
            print(resultados_df)
    else:
        print("La palabra '{}' no se encuentra en ningún libro.".format(palabra))

# Interfaz de búsqueda
while True:
    consulta = input("Ingrese una palabra para buscar en el índice invertido (o 'salir' para terminar): ")
    if consulta.lower() == 'salir':
        break
    buscar_palabra_en_indice(consulta)

Ingrese una palabra para buscar en el índice invertido (o 'salir' para terminar):  romeo+


La palabra 'romeo+' no se encuentra en ningún libro.


Ingrese una palabra para buscar en el índice invertido (o 'salir' para terminar):  romeo


Resultados para la palabra 'romeo':
             Número de ocurrencias
pg1513.txt                     317
pg100.txt                      314
pg5197.txt                       8
pg174.txt                        6
pg76.txt                         6
pg18893.txt                      3
pg2554.txt                       3
pg4300.txt                       2
pg62119.txt                      2
pg8800.txt                       2
pg20228.txt                      1
pg37106.txt                      1
pg514.txt                        1
pg52882.txt                      1


Ingrese una palabra para buscar en el índice invertido (o 'salir' para terminar):  pale


Resultados para la palabra 'pale':
             Número de ocurrencias
pg1184.txt                     192
pg100.txt                      148
pg2600.txt                     111
pg47312.txt                    104
pg52882.txt                     74
...                            ...
pg47629.txt                      1
pg2542.txt                       1
pg35899.txt                      1
pg844.txt                        1
pg61419.txt                      1

[79 rows x 1 columns]


Ingrese una palabra para buscar en el índice invertido (o 'salir' para terminar):  toen


Resultados para la palabra 'toen':
             Número de ocurrencias
pg41287.txt                    284
