# Ejercicio 1: Introducción a Recuperación de Información

## Objetivo de la práctica
- Entender el problema de **buscar información** en colecciones de texto.
- Comprender por qué se necesita un **índice invertido** en recuperación de información.
- Programar una primera solución manual y luego optimizarla con un índice.
- Evaluar la mejora en tiempos de búsqueda cuando usamos estructuras adecuadas.

## Parte 1: Búsqueda lineal en documentos

### Actividad
1. Se te proporcionará un dataset con reviews de películas.
2. Escribe una función que:
   - Lea todos los documentos.
   - Busque una palabra ingresada por el usuario.
   - Muestre en qué documentos aparece la palabra.

In [14]:
# Listas, diccionarios y conjuntos en Estructuras de datos
import pandas as pd

In [15]:
df = pd.read_csv('/kaggle/input/imdb-dataset-of-50k-movie-reviews/IMDB Dataset.csv')
df

Unnamed: 0,review,sentiment
0,One of the other reviewers has mentioned that ...,positive
1,A wonderful little production. <br /><br />The...,positive
2,I thought this was a wonderful way to spend ti...,positive
3,Basically there's a family where a little boy ...,negative
4,"Petter Mattei's ""Love in the Time of Money"" is...",positive
...,...,...
49995,I thought this movie did a down right good job...,positive
49996,"Bad plot, bad dialogue, bad acting, idiotic di...",negative
49997,I am a Catholic taught in parochial elementary...,negative
49998,I'm going to have to disagree with the previou...,negative


In [16]:
def lineal_search(column, query):
    mask = column.str.contains(query, case=False, na=False)
    return column[mask]

In [17]:
lineal_search(df["review"], "hello")

17       This movie made it into one of my top 10 most ...
33       One of the most significant quotes from the en...
169      The Lives of the Saints starts off with an atm...
214      holy Sh*t this was god awful. i sat in the the...
649      1983's "Frightmare" is an odd little film. The...
                               ...                        
48740    Hello again, I have to comment on this wonderf...
49310    I claim no matter how hard I seek I'll never f...
49856    Man, this gets a lot of good reviews in the re...
49960    John Carpenter's career is over if this sad ex...
49984    Hello it is I Derrick Cannon and I welcome you...
Name: review, Length: 185, dtype: object

## Parte 2: Construcción de un índice invertido

### Actividad
1. Escribe un programa que:
   - Recorra todos los documentos.
   - Construya un **índice invertido**, es decir, un diccionario donde:
     - Cada palabra clave apunta a una lista de documentos donde aparece.

2. Escribe una nueva función de búsqueda que:
   - Consulte directamente el índice para encontrar los documentos relevantes.
   - Sea mucho más rápida que la búsqueda lineal.

Este código construye un vocabulario de todas las palabras encontradas con una limpieza muy básica del texto procesado.

In [19]:
vocab = set(" ".join(df["review"].astype(str)).lower().replace(".", "").replace(",", "").split())
vocab

{'dearest',
 'amigos',
 'shown?',
 'lieutenant-governor',
 'pankin',
 "speedman's",
 'sexed',
 'creature/sharikov',
 'swaile',
 'warde',
 'mitosis',
 'nonchalant',
 'talentlessness',
 'independent-minded',
 'deniro-obsessed',
 'movie"sir"',
 'vuh',
 'ncos',
 '(siyasiyabend',
 'flat-lined',
 'ambricourt',
 '/>merrill',
 '"blues"',
 'malcovik',
 'matey',
 'semi-clad',
 'playing!',
 'hard-hearted',
 '05/10',
 'adaptation:',
 'fashion)<br',
 'crummyand',
 'universe<br',
 'surgically',
 'arent',
 '/>greystoke:',
 'haruhi',
 '(abe',
 'sybok?',
 '"eeeevil"',
 '/>like',
 'pirouetted',
 '3)',
 "3'",
 '/>tenacious',
 'any-',
 'grips',
 'cousin)',
 'vilanch',
 'suicidedivided',
 'that<br',
 'un-human',
 'intellectual',
 'wwi<br',
 '"costumes"',
 'time)º',
 'hot<br',
 'real-man',
 'energy"',
 'woman-unfriendly',
 '/>partial',
 "90's!<br",
 'bather',
 'servant/confidant',
 "'monsters'",
 'troupe)',
 'pseudo-controversial',
 '/>"une',
 'johnston-coslow',
 'przybyszewska',
 '"solarbabies"',
 'abishai

In [20]:
len(vocab)

297583

En esta parte construimos el diccionario que nos servirá de índice para ayudarnos en la búsqueda después.

In [22]:
results = dict()
for word in vocab:
    try:
        results[word] = lineal_search(df["review"], word).index
    except Exception as e:
        print(word)

results

(siyasiyabend
fashion)<br
(abe
3)
cousin)
time)º
troupe)


  mask = column.str.contains(query, case=False, na=False)


disagreements)
gelin)
(marge
(does
skit)
characters(except
touch)<br
sergei(rade
judges)
wallpaper?)
(easy
ward")
cotten)
meyer)
jr);
brodský)
carribbean)
fürmann)
(incredibles
doom")<br
ontkean)
(melanie
category)
actor(tom
(moon
men)?<br
(fleischer
humor(who
poetry?)
****/****
him;)
nicoli)
little)
dwarfs')
(chico
comments)<br
sayin'")
woodard(or
relationships(reallyits
co-operate)
("look
classic(check
(perfect
house")&
period)<br
journey)
strudel?)
(nadine
attic)
man(that
khaki)
chick(who
mandela)
renant)
at)<br
scent)<br
meaninglessly)
malfatti)?
traeger)
balk)
emperor)
here!)but
predator)
skammen)
director)
cargo)
summers(candice
cambodia)a
brother-in-law)
head!)
approximate):
role(though
cop)
favorite)armand
kicks!)
buttons)
(valenti
(imbd
olmstead)
attitude)<br
tornadoes)
lantos(producer9and
advertised);
real])<br
schoolroom)
realistically(i
rings(
"special"?)
many);
masters(kyd
threesome):
wogs(the
spoilers)well
dark(eventually
"loser")
marriage)
emoting)
forgetfulness)
law"!)


KeyboardInterrupt: 

Después, definimos una función que se encarga de consultar el anterior diccionario para traernos los documentos que contengan la palabra.

In [None]:
def inverted_index_search(dataframe, dictionary, query):
    return dataframe.loc[dictionary[query]]

Este es un ejemplo de una consulta indexada

In [None]:
# Quiero buscar la palabra wait

inverted_index_search(df, results, "wait")

## Parte 3: Evaluación de tiempos de búsqueda
### Actividad

1. Realiza la búsqueda de varias palabras usando:
      -  Corpus pequeño.
      -  Corpus grande.
2. Mide el tiempo de ejecución:
      -  Para búsqueda lineal.
      -  Para búsqueda usando índice invertido.
      -  Grafica o presenta los resultados en una tabla comparativa.

In [None]:
# df_large = pd.read_csv('rotten_tomatoes_movie_reviews.csv.zip', compression='zip')
df_large = pd.read_csv("/kaggle/input/rotten-tomatoes-movies-and-critic-reviews-dataset/rotten_tomatoes_critic_reviews.csv")
df_large

In [None]:
vocab = set(" ".join(df_large["review_content"].astype(str)).lower().replace(".", "").replace(",", "").split())

results = dict()
for word in vocab:
    try:
        results[word] = lineal_search(df["review"], word).index
    except Exception as e:
        print(word)

results

In [None]:
# Ahora buscare la palabra tomatoes
inverted_index_search(df_large, results, "tomatoes")

# Medir tiempos

Búsqueda lineal:

In [None]:
import time

In [None]:
inicio = time.time()

lineal_search(df_large["review_content"], "tomatoes")

final = time.time()

tiempo_ejecucion_ms = (final - inicio) * 1000
print(f"Tiempo de ejecución: {tiempo_ejecucion_ms:.2f} milisegundos")

Búsqueda por índices invertidos

In [None]:
inicio = time.time()

inverted_index_search(df_large, results, "tomatoes")

final = time.time()

tiempo_ejecucion_ms = (final - inicio) * 1000
print(f"Tiempo de ejecución: {tiempo_ejecucion_ms:.2f} milisegundos")