# Ejercicio 1: Introducción a Recuperación de Información

## Objetivo de la práctica
- Entender el problema de **buscar información** en colecciones de texto.
- Comprender por qué se necesita un **índice invertido** en recuperación de información.
- Programar una primera solución manual y luego optimizarla con un índice.
- Evaluar la mejora en tiempos de búsqueda cuando usamos estructuras adecuadas.

## Parte 1: Búsqueda lineal en documentos

### Actividad
1. Se te proporcionará un dataset con reviews de películas.
2. Escribe una función que:
   - Lea todos los documentos.
   - Busque una palabra ingresada por el usuario.
   - Muestre en qué documentos aparece la palabra.

In [5]:
import pandas as pd

In [15]:
path = '/kaggle/input/imdb-dataset-of-50k-movie-reviews/IMDB Dataset.csv'
df = pd.read_csv(path)
df

Unnamed: 0,review,sentiment
0,One of the other reviewers has mentioned that ...,positive
1,A wonderful little production. <br /><br />The...,positive
2,I thought this was a wonderful way to spend ti...,positive
3,Basically there's a family where a little boy ...,negative
4,"Petter Mattei's ""Love in the Time of Money"" is...",positive
...,...,...
49995,I thought this movie did a down right good job...,positive
49996,"Bad plot, bad dialogue, bad acting, idiotic di...",negative
49997,I am a Catholic taught in parochial elementary...,negative
49998,I'm going to have to disagree with the previou...,negative


In [31]:
query = input("Ingresa la palabra a buscar: ").lower()

palabras_encontrados = []

# Búsqueda lineal en la columna 'review'
for i, review in enumerate(df['review']):
    if query in review.lower():  
        palabras_encontrados.append(i + 1)

# Mostramos resultados
if palabras_encontrados:
    print(f"\nLa palabra '{query}' aparece en las siguientes reseñas:")
    for doc in palabras_encontrados[:10]:  # 10 primeras  coincidencias
        print(f"Reseña {doc}:")
        print(df['review'][doc - 1][:300], '...\n')  # 300 primeros caracteres
    print(f"Total de reseñas donde aparece la palabra: {len(palabras_encontrados)}")
else:
    print(f"\nLa palabra '{query}' no se encuentra en ninguna reseña.")

Ingresa la palabra a buscar:  family



La palabra 'family' aparece en las siguientes reseñas:
Reseña 4:
Basically there's a family where a little boy (Jake) thinks there's a zombie in his closet & his parents are fighting all the time.<br /><br />This movie is slower than a soap opera... and suddenly, Jake decides to become Rambo and kill the zombie.<br /><br />OK, first of all when you're going to ma ...

Reseña 28:
This film tried to be too many things all at once: stinging political satire, Hollywood blockbuster, sappy romantic comedy, family values promo... the list goes on and on. It failed miserably at all of them, but there was enough interest to keep me from turning it off until the end.<br /><br />Altho ...

Reseña 29:
This movie was so frustrating. Everything seemed energetic and I was totally prepared to have a good time. I at least thought I'd be able to stand it. But, I was wrong. First, the weird looping? It was like watching "America's Funniest Home Videos". The damn parents. I hated them so much. The stereo

## Parte 2: Construcción de un índice invertido

### Actividad
1. Escribe un programa que:
   - Recorra todos los documentos.
   - Construya un **índice invertido**, es decir, un diccionario donde:
     - Cada palabra clave apunta a una lista de documentos donde aparece.

2. Escribe una nueva función de búsqueda que:
   - Consulte directamente el índice para encontrar los documentos relevantes.
   - Sea mucho más rápida que la búsqueda lineal.

In [46]:
path = '/kaggle/input/imdb-dataset-of-50k-movie-reviews/IMDB Dataset.csv'

# Construir el índice invertido ---
def construir_indice_invertido(df):
    indice = {}

    # Recorre cada reseña 
    for i, review in enumerate(df['review']):
        palabras = re.findall(r'\b\w+\b', review.lower())

        for palabra in set(palabras):
            if palabra not in indice:
                indice[palabra] = []
            indice[palabra].append(i + 1) 
    return indice

# Función para buscar una palabra en el índice 
def buscar_palabra(indice, palabra):
    palabra = palabra.lower()
    return indice.get(palabra, [])

#  Construimos el índice invertido
print("Construyendo el índice invertido...")
indice_invertido = construir_indice_invertido(df)

# --- Búsqueda ---
query = input("Ingresa la palabra a buscar: ").lower()
documentos = buscar_palabra(indice_invertido, query)

# Mostrarmos resultados
if documentos:
    print(f"\nLa palabra '{query}' aparece en {len(documentos)} reseñas.")
    print("Reseñas donde aparece:\n")
    for doc in documentos[:5]:  # Muestra solo las primeras 5 reseñas
        print(f"Reseña {doc}")
else:
    print(f"\nLa palabra '{query}' no se encuentra en ninguna reseña.")

Construyendo el índice invertido...
Índice invertido creado correctamente ✅


Ingresa la palabra a buscar:  wonderful



La palabra 'wonderful' aparece en 2780 reseñas.
Reseñas donde aparece:

Reseña 2
Reseña 3
Reseña 30
Reseña 42
Reseña 60


## Parte 3: Evaluación de tiempos de búsqueda
### Actividad

1. Realiza la búsqueda de varias palabras usando:
      -  Corpus pequeño.
      -  Corpus grande.
2. Mide el tiempo de ejecución:
      -  Para búsqueda lineal.
      -  Para búsqueda usando índice invertido.
      -  Grafica o presenta los resultados en una tabla comparativa.

# Palabras a buscar:
 - dangerous
 - beavers
 - green
 - zombie



In [65]:
df_large = '/kaggle/input/clapper-massive-rotten-tomatoes-movies-and-reviews/rotten_tomatoes_movie_reviews.csv'
df = pd.read_csv(df_large)
df


Unnamed: 0,id,reviewId,creationDate,criticName,isTopCritic,originalScore,reviewState,publicatioName,reviewText,scoreSentiment,reviewUrl
0,beavers,1145982,2003-05-23,Ivan M. Lincoln,False,3.5/4,fresh,Deseret News (Salt Lake City),Timed to be just long enough for most youngste...,POSITIVE,http://www.deseretnews.com/article/700003233/B...
1,blood_mask,1636744,2007-06-02,The Foywonder,False,1/5,rotten,Dread Central,It doesn't matter if a movie costs 300 million...,NEGATIVE,http://www.dreadcentral.com/index.php?name=Rev...
2,city_hunter_shinjuku_private_eyes,2590987,2019-05-28,Reuben Baron,False,,fresh,CBR,The choreography is so precise and lifelike at...,POSITIVE,https://www.cbr.com/city-hunter-shinjuku-priva...
3,city_hunter_shinjuku_private_eyes,2558908,2019-02-14,Matt Schley,False,2.5/5,rotten,Japan Times,The film's out-of-touch attempts at humor may ...,NEGATIVE,https://www.japantimes.co.jp/culture/2019/02/0...
4,dangerous_men_2015,2504681,2018-08-29,Pat Padua,False,,fresh,DCist,Its clumsy determination is endearing and some...,POSITIVE,http://dcist.com/2015/11/out_of_frame_dangerou...
...,...,...,...,...,...,...,...,...,...,...,...
1444958,thor_love_and_thunder,102706151,2022-07-05,Christie Cronan,False,7/10,fresh,Raising Whasians,Solid but not totally sold&#44; Thor&#58; Ragn...,POSITIVE,https://raisingwhasians.com/thor-love-and-thun...
1444959,thor_love_and_thunder,102706150,2022-07-05,Ian Sandwell,False,4/5,fresh,Digital Spy,Thor&#58; Love and Thunder is the most enterta...,POSITIVE,https://www.digitalspy.com/movies/a40496050/th...
1444960,thor_love_and_thunder,102706149,2022-07-05,Lauren LaMagna,False,8/10,fresh,Next Best Picture,&quot;Thor&#58; Love and Thunder&quot; is a st...,POSITIVE,https://www.nextbestpicture.com/thor-love-and-...
1444961,thor_love_and_thunder,102706148,2022-07-05,Jake Cole,True,1/4,rotten,Slant Magazine,Across Taika Waititi&#8217;s film&#44; a war a...,NEGATIVE,https://www.slantmagazine.com/film/thor-love-a...


In [72]:
df_large1 = '/kaggle/input/clapper-massive-rotten-tomatoes-movies-and-reviews/rotten_tomatoes_movies.csv'
df = pd.read_csv(df_large1)
df


  has_large_values = (abs_vals > 1e6).any()
  has_small_values = ((abs_vals < 10 ** (-self.digits)) & (abs_vals > 0)).any()
  has_small_values = ((abs_vals < 10 ** (-self.digits)) & (abs_vals > 0)).any()


Unnamed: 0,id,title,audienceScore,tomatoMeter,rating,ratingContents,releaseDateTheaters,releaseDateStreaming,runtimeMinutes,genre,originalLanguage,director,writer,boxOffice,distributor,soundMix
0,space-zombie-bingo,Space Zombie Bingo!,50.0,,,,,2018-08-25,75.0,"Comedy, Horror, Sci-fi",English,George Ormrod,"George Ormrod,John Sabotta",,,
1,the_green_grass,The Green Grass,,,,,,2020-02-11,114.0,Drama,English,Tiffany Edwards,Tiffany Edwards,,,
2,love_lies,"Love, Lies",43.0,,,,,,120.0,Drama,Korean,"Park Heung-Sik,Heung-Sik Park","Ha Young-Joon,Jeon Yun-su,Song Hye-jin",,,
3,the_sore_losers_1997,Sore Losers,60.0,,,,,2020-10-23,90.0,"Action, Mystery & thriller",English,John Michael McCarthy,John Michael McCarthy,,,
4,dinosaur_island_2002,Dinosaur Island,70.0,,,,,2017-03-27,80.0,"Fantasy, Adventure, Animation",English,Will Meugniot,John Loy,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
143253,nadia_the_secret_of_blue_water_the_motion_pict...,Nadia: The Secret of Blue Water: The Motion Pi...,14.0,,,,2002-08-27,,90.0,"Action, Adventure, Anime",Japanese,Sho Aono,Kaoru Umeno,,ADV Films,
143254,everyone_i_knew_and_loved,Everyone I Knew and Loved,,,,,,,99.0,Drama,English,Andrew Behringer,Erika Heidewald,,,
143255,the-human-body,The Human Body,71.0,89.0,,,,,43.0,Documentary,English,Peter Georgi,Richard Dale,,,
143256,flying_fists,Flying Fists,,,,,,2006-11-21,63.0,Drama,English,Robert F. Hill,"Robert F. Hill,Basil Dickey",,,


# Actividad parte 1

 - Corpus  pequeño

In [81]:
import time
import pandas as pd

df_large = '/kaggle/input/clapper-massive-rotten-tomatoes-movies-and-reviews/rotten_tomatoes_movies.csv'

# Palabras a buscar
queries = ["zombie" ,"green"]

resultados_lineal = []

for query in queries:
    documentos_encontrados = []
    
    # Registramos el tiempo de inicio de la búsqueda
    inicio = time.time()
    
    # Realizar la búsqueda en la columna 'id' del DataFrame
    for i, review in enumerate(df['id']):
        if query.lower() in review.lower(): 
            documentos_encontrados.append(f"Reseña {i + 1}")
    # Fin de busqueda
    fin = time.time()
    
    # Guardar los resultados en la lista
    resultados_lineal.append({
        'Palabra': query,
        'Documentos encontrados': documentos_encontrados if documentos_encontrados else "No encontrado",
        'Tiempo de búsqueda (s)': round(fin - inicio, 6)
    })


df_lineal = pd.DataFrame(resultados_lineal)

# Mostrar los resultados
print("Corpus pequeño: Búsqueda lineal")
print(df_lineal)


Corpus pequeño: Búsqueda lineal
  Palabra                             Documentos encontrados  \
0  zombie  [Reseña 1, Reseña 445, Reseña 659, Reseña 792,...   
1   green  [Reseña 2, Reseña 359, Reseña 1145, Reseña 200...   

   Tiempo de búsqueda (s)  
0                0.055243  
1                0.048317  


- Corpus grande

In [80]:
import time
import pandas as pd

df_large = '/kaggle/input/clapper-massive-rotten-tomatoes-movies-and-reviews/rotten_tomatoes_movies.csv'

# Palabras a buscar
queries = ["beavers" , 'dangerous']

resultados_lineal = []

for query in queries:
    documentos_encontrados = []
    
    # Registramos el tiempo de inicio de la búsqueda
    inicio = time.time()
    
    # Realizar la búsqueda en la columna 'id' del DataFrame
    for i, review in enumerate(df['id']):
        if query.lower() in review.lower():  
            documentos_encontrados.append(f"Reseña {i + 1}")
    
    
    fin = time.time()
    
    resultados_lineal.append({
        'Palabra': query,
        'Documentos encontrados': documentos_encontrados if documentos_encontrados else "No encontrado",
        'Tiempo de búsqueda (s)': round(fin - inicio, 6)
    })

df_lineal = pd.DataFrame(resultados_lineal)

# Mostrar los resultados
print("Corpus pequeño: Búsqueda lineal")
print(df_lineal)


Corpus pequeño: Búsqueda lineal
     Palabra                             Documentos encontrados  \
0    beavers  [Reseña 670, Reseña 78628, Reseña 101171, Rese...   
1  dangerous  [Reseña 132, Reseña 886, Reseña 1108, Reseña 1...   

   Tiempo de búsqueda (s)  
0                0.050349  
1                0.050764  
