# Ejercicio 1: Introducción a Recuperación de Información

## Objetivo de la práctica
- Entender el problema de **buscar información** en colecciones de texto.
- Comprender por qué se necesita un **índice invertido** en recuperación de información.
- Programar una primera solución manual y luego optimizarla con un índice.
- Evaluar la mejora en tiempos de búsqueda cuando usamos estructuras adecuadas.

## Parte 1: Búsqueda lineal en documentos

### Actividad
1. Se te proporcionará un dataset con reviews de películas.
2. Escribe una función que:
   - Lea todos los documentos.
   - Busque una palabra ingresada por el usuario.
   - Muestre en qué documentos aparece la palabra.

In [3]:
import pandas as pd
import numpy as np

import os
for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))

In [63]:
df = pd.read_csv("/kaggle/input/imdb-dataset-of-50k-movie-reviews/IMDB Dataset.csv")

#path = '../data/'
#df = pd.read_csv(path + 'IMDB Dataset.csv.zip', compression='zip')
df

Unnamed: 0,review,sentiment
0,One of the other reviewers has mentioned that ...,positive
1,A wonderful little production. <br /><br />The...,positive
2,I thought this was a wonderful way to spend ti...,positive
3,Basically there's a family where a little boy ...,negative
4,"Petter Mattei's ""Love in the Time of Money"" is...",positive
...,...,...
49995,I thought this movie did a down right good job...,positive
49996,"Bad plot, bad dialogue, bad acting, idiotic di...",negative
49997,I am a Catholic taught in parochial elementary...,negative
49998,I'm going to have to disagree with the previou...,negative


In [12]:
# creacion de funcion que Lea todos los documentos.
def buscar(docs, query, na=False):
	mask = docs.str.contains(query)
	result = docs[mask]
	return result

In [35]:
# A continuacion se busca una palabra ingresada por el usuario.
resultados = buscar(df['review'], 'wonderful')

In [38]:
# a continuacion se muestra en qué documentos aparece la palabra seleccionada previamente
print(resultados.index.values)

[    1     2    29 ... 49935 49938 49941]


In [86]:
# creacion de funcion lineal que realiza la busqueda de los elementos en el primer dataFrame
def buscar(docs, query, na=False):
    mask = docs.str.contains(query)
    result = docs[mask]
    return result

In [88]:
# se realiza la búsqueda especificando el nombre de la columna y el query a buscar
buscar(df['review'], 'movie')

3        Basically there's a family where a little boy ...
4        Petter Mattei's "Love in the Time of Money" is...
5        Probably my all-time favorite movie, a story o...
6        I sure would like to see a resurrection of a u...
9        If you like original gut wrenching laughter yo...
                               ...                        
49993    Robert Colomb has two full-time jobs. He's kno...
49994    This is your typical junk comedy.<br /><br />T...
49995    I thought this movie did a down right good job...
49997    I am a Catholic taught in parochial elementary...
49999    No one expects the Star Trek movies to be high...
Name: review, Length: 32216, dtype: object

## Parte 2: Construcción de un índice invertido

### Actividad
1. Escribe un programa que:
   - Recorra todos los documentos.
   - Construya un **índice invertido**, es decir, un diccionario donde:
     - Cada palabra clave apunta a una lista de documentos donde aparece.

2. Escribe una nueva función de búsqueda que:
   - Consulte directamente el índice para encontrar los documentos relevantes.
   - Sea mucho más rápida que la búsqueda lineal.

In [None]:
# funcion que recorre todos los documentos y construya un índice invertido
# la funcion itera sobre las primeras 1000 filas
def recorrer_palabras_columna(doc, review):
    diccionario_palabras = {}

    for i, fila in doc[review].dropna().head(1000).items():
        palabras = str(fila).split()
        for palabra in palabras:
            palabra = palabra.lower().strip(".,!¡¿?:;\"'()[]")
            if palabra not in diccionario_palabras:
                diccionario_palabras[palabra] = [i]
            else:
                if i not in diccionario_palabras[palabra]:
                    diccionario_palabras[palabra].append(i)
    
    return diccionario_palabras

In [None]:
# se crea un dic1 para el diccionario del primer dataFrame
dic1 = recorrer_palabras_columna(df, 'review')

In [91]:
# se muestran los índices en donde se encuentra la palabra 'wonderful' en el primer dataFrame
print(dic1['wonderful'])

[1, 2, 29, 41, 59, 93, 105, 114, 121, 128, 157, 173, 196, 205, 210, 222, 224, 225, 227, 294, 306, 324, 325, 337, 356, 374, 433, 442, 450, 455, 463, 469, 476, 494, 502, 515, 552, 564, 571, 586, 592, 593, 606, 608, 643, 650, 661, 667, 678, 689, 746, 792, 808, 811, 840, 845, 846, 900, 920, 941, 943, 955, 994]


## Parte 3: Evaluación de tiempos de búsqueda
### Actividad

1. Realiza la búsqueda de varias palabras usando:
      -  Corpus pequeño.
      -  Corpus grande.
2. Mide el tiempo de ejecución:
      -  Para búsqueda lineal.
      -  Para búsqueda usando índice invertido.
      -  Grafica o presenta los resultados en una tabla comparativa.

In [11]:
df_large = pd.read_csv("/kaggle/input/clapper-massive-rotten-tomatoes-movies-and-reviews/rotten_tomatoes_movie_reviews.csv")
#df_large = pd.read_csv(path + 'rotten_tomatoes_movie_reviews.csv.zip', compression='zip')
df_large

Unnamed: 0,id,reviewId,creationDate,criticName,isTopCritic,originalScore,reviewState,publicatioName,reviewText,scoreSentiment,reviewUrl
0,beavers,1145982,2003-05-23,Ivan M. Lincoln,False,3.5/4,fresh,Deseret News (Salt Lake City),Timed to be just long enough for most youngste...,POSITIVE,http://www.deseretnews.com/article/700003233/B...
1,blood_mask,1636744,2007-06-02,The Foywonder,False,1/5,rotten,Dread Central,It doesn't matter if a movie costs 300 million...,NEGATIVE,http://www.dreadcentral.com/index.php?name=Rev...
2,city_hunter_shinjuku_private_eyes,2590987,2019-05-28,Reuben Baron,False,,fresh,CBR,The choreography is so precise and lifelike at...,POSITIVE,https://www.cbr.com/city-hunter-shinjuku-priva...
3,city_hunter_shinjuku_private_eyes,2558908,2019-02-14,Matt Schley,False,2.5/5,rotten,Japan Times,The film's out-of-touch attempts at humor may ...,NEGATIVE,https://www.japantimes.co.jp/culture/2019/02/0...
4,dangerous_men_2015,2504681,2018-08-29,Pat Padua,False,,fresh,DCist,Its clumsy determination is endearing and some...,POSITIVE,http://dcist.com/2015/11/out_of_frame_dangerou...
...,...,...,...,...,...,...,...,...,...,...,...
1444958,thor_love_and_thunder,102706151,2022-07-05,Christie Cronan,False,7/10,fresh,Raising Whasians,Solid but not totally sold&#44; Thor&#58; Ragn...,POSITIVE,https://raisingwhasians.com/thor-love-and-thun...
1444959,thor_love_and_thunder,102706150,2022-07-05,Ian Sandwell,False,4/5,fresh,Digital Spy,Thor&#58; Love and Thunder is the most enterta...,POSITIVE,https://www.digitalspy.com/movies/a40496050/th...
1444960,thor_love_and_thunder,102706149,2022-07-05,Lauren LaMagna,False,8/10,fresh,Next Best Picture,&quot;Thor&#58; Love and Thunder&quot; is a st...,POSITIVE,https://www.nextbestpicture.com/thor-love-and-...
1444961,thor_love_and_thunder,102706148,2022-07-05,Jake Cole,True,1/4,rotten,Slant Magazine,Across Taika Waititi&#8217;s film&#44; a war a...,NEGATIVE,https://www.slantmagazine.com/film/thor-love-a...


In [92]:
# creacion de dic2, se almacenan los indices en el dataFrame 2 (df_large)
dic2 = recorrer_palabras_columna(df_large, 'reviewText')

In [96]:
print(dic2['movie'])
len(dic2['movie'])

[1, 2, 7, 11, 18, 20, 40, 48, 83, 87, 88, 123, 139, 188, 196, 198, 234, 237, 262, 269, 272, 273, 285, 304, 306, 365, 381, 396, 410, 419, 426, 432, 442, 452, 463, 469, 471, 474, 487, 489, 512, 516, 521, 522, 526, 529, 539, 577, 619, 621, 622, 624, 627, 671, 711, 738, 756, 781, 797, 834, 858, 863, 910, 962, 982, 1036, 1039, 1054, 1071, 1077, 1084, 1094, 1096]


73

In [100]:
import time

def comparar_tiempos_busqueda(indice1, indice2, consulta):
    def buscar_palabras(indice, consulta):
        palabras = consulta.lower().split()
        resultados = None

        for palabra in palabras:
            if palabra in indice:
                indices = set(indice[palabra])
                if resultados is None:
                    resultados = indices
                else:
                    resultados = resultados.intersection(indices)
            else:
                return set()
        return resultados if resultados is not None else set()

    # Medir tiempo en indice1
    start1 = time.perf_counter()
    resultado1 = buscar_palabras(indice1, consulta)
    end1 = time.perf_counter()
    tiempo1 = end1 - start1

    # Medir tiempo en indice2
    start2 = time.perf_counter()
    resultado2 = buscar_palabras(indice2, consulta)
    end2 = time.perf_counter()
    tiempo2 = end2 - start2

    print(f"Tiempo en df pequeño: {tiempo1:.6f} segundos")
    print(f"Tiempo en df grande:  {tiempo2:.6f} segundos")

In [101]:
comparar_tiempos_busqueda(dic1, dic2, 'a review')

Tiempo en df pequeño: 0.000038 segundos
Tiempo en df grande:  0.000030 segundos
