# Exploring Ranking Models in Information Retrieval

## Objective
Understand the practical implementation and differences between the Vector Space Model and the Binary Independence Model in ranking documents relative to a user query.

### Step 1: Data Preprocessing

Ensure that the documents are still loaded and preprocessed from the previous task. The data should be clean and ready for advanced querying.
Write a function to load and preprocess the text documents from a specified directory. This step involves reading each file, converting the text to lowercase for uniform processing, and storing the results in a dictionary.

In [1]:
import pickle
import numpy as np
import os
from tqdm import tqdm  # Importa la función tqdm para mostrar la barra de progreso
import re


In [2]:
# Cargar palabras desde el archivo
with open('palabras.pkl', 'rb') as archivo:
    palabras = pickle.load(archivo)

# Cargar nombres_archivos desde el archivo
with open('nombres_libros.pkl', 'rb') as archivo:
    nombres_libros = pickle.load(archivo)
# Cargar la matriz desde el archivo npy
matriz_indice = np.load('matriz_indice.npy')

In [3]:
# Obtener la ruta completa de la carpeta con los libros
ruta_carpeta = os.path.join(os.getcwd(),'..', 'books')

In [4]:
# Función para procesar el texto y extraer las palabras
def procesar_texto(texto):
    palabras = re.findall(r'\b\w+\b', texto.lower())
    return palabras

In [5]:
matriz_indice


array([[1, 1, 1, ..., 1, 1, 1],
       [1, 1, 1, ..., 1, 1, 1],
       [1, 1, 1, ..., 1, 1, 1],
       ...,
       [0, 0, 0, ..., 0, 0, 1],
       [0, 0, 0, ..., 0, 0, 1],
       [0, 0, 0, ..., 0, 0, 1]])

In [7]:
libros=[]
for nombre_libro in tqdm(nombres_libros,total=len(nombres_libros)):
    ruta_libro = os.path.join(ruta_carpeta,nombre_libro)
    with open(ruta_libro, 'r', encoding='utf-8') as archivo:
        contenido_libro = archivo.read()
        contenido_libro=procesar_texto(contenido_libro)
        libros.append(contenido_libro)


100%|██████████| 100/100 [00:06<00:00, 14.37it/s]


In [8]:
# Encontrar las posiciones donde el valor es 1
filas, columnas = np.where(matriz_indice == 1)
total_iteraciones = len(filas)
# Realizar la acción solo en las posiciones donde el valor es 1
for fila, columna in tqdm(zip(filas, columnas), total=total_iteraciones):
    contenido_libro = libros[columna]
    veces_repetida = contenido_libro.count(palabras[fila])
    matriz_indice[fila][columna]=veces_repetida


100%|██████████| 1013164/1013164 [1:18:20<00:00, 215.53it/s] 


In [11]:
matriz_indice


array([[30526,  8399,  4987, ...,  5739,  8241, 22477],
       [  101,   114,   101, ...,    88,    88,    95],
       [   97,    98,    99, ...,    97,    97,    98],
       ...,
       [    0,     0,     0, ...,     0,     0,     1],
       [    0,     0,     0, ...,     0,     0,     1],
       [    0,     0,     0, ...,     0,     0,     1]])

In [12]:
np.save('matriz_de_conteo.npy', matriz_indice)

In [13]:
# Calcular el máximo valor de cada columna
maximos_columnas = np.max(matriz_indice, axis=0)
maximos_columnas

array([30526,  8399,  8616,   357,  1839, 28637,  4600,  3119, 14535,
        8043,  4846,  8331, 12777,   877,  2529,  3385,  8856,  5815,
        7088,  3956,   433, 14375,  9223,  6132, 20769, 12900,  7544,
        8679,  5962, 10399,  2481,  2445, 31482,  2724,  5500,  1062,
        8008, 11396,  7232, 34737,  3296, 14715,  4681, 15430,  4249,
        3542, 44572, 38035,  8134, 15158,  3030,  8101,  1506,  8314,
        3601,  1571,  3198,  7540, 14315,  5835,  9479,  4229, 17014,
        1807, 15092,  4030,  4113,  1761, 14313,  8393,  2419,  8153,
       13790,  1348,  9625,  6291,  3196,  2370,  1741, 15763,  4263,
        9806,  2594, 17118,  1066, 10142,  2750,   999,  1180,  1835,
        3221,  3633,  3984,  6439,  4814,  4387,   831,  5739,  8241,
       22477])

In [17]:
matriz_normalizada = matriz_indice / maximos_columnas
matriz_normalizada

array([[1.00000000e+00, 1.00000000e+00, 5.78806871e-01, ...,
        1.00000000e+00, 1.00000000e+00, 1.00000000e+00],
       [3.30865492e-03, 1.35730444e-02, 1.17223770e-02, ...,
        1.53336818e-02, 1.06783157e-02, 4.22654269e-03],
       [3.17761908e-03, 1.16680557e-02, 1.14902507e-02, ...,
        1.69018993e-02, 1.17704162e-02, 4.36001246e-03],
       ...,
       [0.00000000e+00, 0.00000000e+00, 0.00000000e+00, ...,
        0.00000000e+00, 0.00000000e+00, 4.44899230e-05],
       [0.00000000e+00, 0.00000000e+00, 0.00000000e+00, ...,
        0.00000000e+00, 0.00000000e+00, 4.44899230e-05],
       [0.00000000e+00, 0.00000000e+00, 0.00000000e+00, ...,
        0.00000000e+00, 0.00000000e+00, 4.44899230e-05]])

In [18]:
np.save('matriz_normalizada.npy',matriz_normalizada)