# Ejercicio 1: Introducción a Recuperación de Información

## Objetivo de la práctica
- Entender el problema de **buscar información** en colecciones de texto.
- Comprender por qué se necesita un **índice invertido** en recuperación de información.
- Programar una primera solución manual y luego optimizarla con un índice.
- Evaluar la mejora en tiempos de búsqueda cuando usamos estructuras adecuadas.

## Parte 1: Búsqueda lineal en documentos

### Actividad
1. Se te proporcionará un dataset con reviews de películas.
2. Escribe una función que:
   - Lea todos los documentos.
   - Busque una palabra ingresada por el usuario.
   - Muestre en qué documentos aparece la palabra.

In [3]:
import pandas as pd

1. cargo el primer datased

In [4]:
df = pd.read_csv('/kaggle/input/imdb-dataset-of-50k-movie-reviews/IMDB Dataset.csv')
df

Unnamed: 0,review,sentiment
0,One of the other reviewers has mentioned that ...,positive
1,A wonderful little production. <br /><br />The...,positive
2,I thought this was a wonderful way to spend ti...,positive
3,Basically there's a family where a little boy ...,negative
4,"Petter Mattei's ""Love in the Time of Money"" is...",positive
...,...,...
49995,I thought this movie did a down right good job...,positive
49996,"Bad plot, bad dialogue, bad acting, idiotic di...",negative
49997,I am a Catholic taught in parochial elementary...,negative
49998,I'm going to have to disagree with the previou...,negative


2. defino la funcion buscar para una palabra

In [5]:
df = pd.read_csv('/kaggle/input/imdb-dataset-of-50k-movie-reviews/IMDB Dataset.csv')
def buscar(docs, querry, na=False):
    mask = docs.str.contains(querry)
    return docs[mask]

In [6]:
buscar(df['review'], 'wonderfull')

29       'War movie' is a Hollywood genre that has been...
72       I thought that Mukhsin has been wonderfully wr...
142      After hearing about George Orwell's prophetic ...
499      Such a joyous world has been created for us in...
572      I attended an advance screening of this film n...
                               ...                        
49328    Michael Ritchie's "The Couch Trip" is a wonder...
49401    Many of us who went through high school probab...
49694    An unexpected pleasure as I had heard nothing ...
49812    My first impression would be this is Beowulf o...
49833    THE SHOP AROUND THE CORNER is one of the sweet...
Name: review, Length: 563, dtype: object

## Parte 2: Construcción de un índice invertido

### Actividad
1. Escribe un programa que:
   - Recorra todos los documentos.
   - Construya un **índice invertido**, es decir, un diccionario donde:
     - Cada palabra clave apunta a una lista de documentos donde aparece.

2. Escribe una nueva función de búsqueda que:
   - Consulte directamente el índice para encontrar los documentos relevantes.
   - Sea mucho más rápida que la búsqueda lineal.

1. Crea el indice invertido para un dataset, solo busca 10 filas, por cuestion de tiempo

In [23]:
def recorrer_palabras_columna(doc, review):
    diccionario_palabras = {}

    for i, fila in doc[review].dropna().head(1000).items():
        palabras = str(fila).split()
        for palabra in palabras:
            palabra = palabra.lower().strip(".,!¡¿?:;\"'()[]") 
            if palabra not in diccionario_palabras:
                diccionario_palabras[palabra] = [i]
            else:
                if i not in diccionario_palabras[palabra]:
                    diccionario_palabras[palabra].append(i)
    
    return diccionario_palabras


In [25]:
indice_invertido = recorrer_palabras_columna(df, 'review')
print('finished')

finished


2. prueba de busqueda invertida

In [28]:
indice_invertido['review']

[111,
 128,
 170,
 263,
 276,
 322,
 341,
 348,
 352,
 367,
 395,
 418,
 435,
 450,
 461,
 485,
 489,
 514,
 523,
 559,
 566,
 590,
 612,
 640,
 700,
 833,
 875,
 889,
 901,
 907,
 917,
 972,
 985]

## Parte 3: Evaluación de tiempos de búsqueda
### Actividad

1. Realiza la búsqueda de varias palabras usando:
      -  Corpus pequeño.
      -  Corpus grande.
2. Mide el tiempo de ejecución:
      -  Para búsqueda lineal.
      -  Para búsqueda usando índice invertido.
      -  Grafica o presenta los resultados en una tabla comparativa.

1. cargo el segundo dataset

In [30]:
df_large = pd.read_csv('/kaggle/input/clapper-massive-rotten-tomatoes-movies-and-reviews/rotten_tomatoes_movie_reviews.csv')
df_large

Unnamed: 0,id,reviewId,creationDate,criticName,isTopCritic,originalScore,reviewState,publicatioName,reviewText,scoreSentiment,reviewUrl
0,beavers,1145982,2003-05-23,Ivan M. Lincoln,False,3.5/4,fresh,Deseret News (Salt Lake City),Timed to be just long enough for most youngste...,POSITIVE,http://www.deseretnews.com/article/700003233/B...
1,blood_mask,1636744,2007-06-02,The Foywonder,False,1/5,rotten,Dread Central,It doesn't matter if a movie costs 300 million...,NEGATIVE,http://www.dreadcentral.com/index.php?name=Rev...
2,city_hunter_shinjuku_private_eyes,2590987,2019-05-28,Reuben Baron,False,,fresh,CBR,The choreography is so precise and lifelike at...,POSITIVE,https://www.cbr.com/city-hunter-shinjuku-priva...
3,city_hunter_shinjuku_private_eyes,2558908,2019-02-14,Matt Schley,False,2.5/5,rotten,Japan Times,The film's out-of-touch attempts at humor may ...,NEGATIVE,https://www.japantimes.co.jp/culture/2019/02/0...
4,dangerous_men_2015,2504681,2018-08-29,Pat Padua,False,,fresh,DCist,Its clumsy determination is endearing and some...,POSITIVE,http://dcist.com/2015/11/out_of_frame_dangerou...
...,...,...,...,...,...,...,...,...,...,...,...
1444958,thor_love_and_thunder,102706151,2022-07-05,Christie Cronan,False,7/10,fresh,Raising Whasians,Solid but not totally sold&#44; Thor&#58; Ragn...,POSITIVE,https://raisingwhasians.com/thor-love-and-thun...
1444959,thor_love_and_thunder,102706150,2022-07-05,Ian Sandwell,False,4/5,fresh,Digital Spy,Thor&#58; Love and Thunder is the most enterta...,POSITIVE,https://www.digitalspy.com/movies/a40496050/th...
1444960,thor_love_and_thunder,102706149,2022-07-05,Lauren LaMagna,False,8/10,fresh,Next Best Picture,&quot;Thor&#58; Love and Thunder&quot; is a st...,POSITIVE,https://www.nextbestpicture.com/thor-love-and-...
1444961,thor_love_and_thunder,102706148,2022-07-05,Jake Cole,True,1/4,rotten,Slant Magazine,Across Taika Waititi&#8217;s film&#44; a war a...,NEGATIVE,https://www.slantmagazine.com/film/thor-love-a...


In [31]:
indice_invertido_large = recorrer_palabras_columna(df_large, 'reviewText')
print('finished')


finished


3. creo una funcion para buscar con mas de una palabra

In [32]:
def buscar_palabras(indice_invertido, consulta):
    palabras = consulta.lower().split()
    resultados = None

    for palabra in palabras:
        if palabra in indice_invertido:
            indices = set(indice_invertido[palabra])
            if resultados is None:
                resultados = indices
            else:
                resultados = resultados.intersection(indices)
        else:
            # Si una palabra no está en el índice, no puede haber resultados
            return set()

    return resultados if resultados is not None else set()


In [34]:
print(buscar_palabras(indice_invertido_large, "a review"))

{1095, 40, 555, 543, 1005, 1006, 720, 858, 918, 857, 152, 153, 154, 315, 156, 925, 698, 922}


4. creo una funcion para comparar el tiempo de busqueda en ambos indices invertidos

In [40]:
import time

def comparar_tiempos_busqueda(indice1, indice2, consulta):
    def buscar_palabras(indice, consulta):
        palabras = consulta.lower().split()
        resultados = None

        for palabra in palabras:
            if palabra in indice:
                indices = set(indice[palabra])
                if resultados is None:
                    resultados = indices
                else:
                    resultados = resultados.intersection(indices)
            else:
                return set()
        return resultados if resultados is not None else set()

    # Medir tiempo en indice1
    start1 = time.perf_counter()
    resultado1 = buscar_palabras(indice1, consulta)
    end1 = time.perf_counter()
    tiempo1 = end1 - start1

    # Medir tiempo en indice2
    start2 = time.perf_counter()
    resultado2 = buscar_palabras(indice2, consulta)
    end2 = time.perf_counter()
    tiempo2 = end2 - start2

    print(f"Consulta: '{consulta}'")
    print(f"Tiempo en índice pequeño: {tiempo1:.6f} segundos")
    print(f"Tiempo en índice grande:  {tiempo2:.6f} segundos")



5. Resultados

In [41]:
comparar_tiempos_busqueda(indice_invertido, indice_invertido_large, 'a review')

Consulta: 'a review'
Tiempo en índice pequeño: 0.000041 segundos
Tiempo en índice grande:  0.000031 segundos
