# Ejercicio 1: Introducción a Recuperación de Información

## Objetivo de la práctica
- Entender el problema de **buscar información** en colecciones de texto.
- Comprender por qué se necesita un **índice invertido** en recuperación de información.
- Programar una primera solución manual y luego optimizarla con un índice.
- Evaluar la mejora en tiempos de búsqueda cuando usamos estructuras adecuadas.

## Parte 1: Búsqueda lineal en documentos

### Actividad
1. Se te proporcionará un dataset con reviews de películas.
2. Escribe una función que:
   - Lea todos los documentos.
   - Busque una palabra ingresada por el usuario.
   - Muestre en qué documentos aparece la palabra.

In [2]:
import pandas as pd

In [3]:
ruta = r'C:\Users\DELL\Downloads\RI\data\archive\IMDB Dataset.csv'
datos = pd.read_csv(ruta)
datos

Unnamed: 0,review,sentiment
0,One of the other reviewers has mentioned that ...,positive
1,A wonderful little production. <br /><br />The...,positive
2,I thought this was a wonderful way to spend ti...,positive
3,Basically there's a family where a little boy ...,negative
4,"Petter Mattei's ""Love in the Time of Money"" is...",positive
...,...,...
49995,I thought this movie did a down right good job...,positive
49996,"Bad plot, bad dialogue, bad acting, idiotic di...",negative
49997,I am a Catholic taught in parochial elementary...,negative
49998,I'm going to have to disagree with the previou...,negative


In [None]:
def buscar_palabra_en_review(reviews , buscar): 
    buscar_palabra = buscar.lower()
    
    palabras_encontradas = []
    
    #Busqueda lineal  en la columna review
    for  i , review in enumerate(reviews):
       if buscar in review.lower():
          palabras_encontradas.append(i + 1)
          
    #Resultado
    if palabras_encontradas :
        print(f"La palabra '{buscar}' se encuentra en la siguientes reseñas: ")
        for i in palabras_encontradas[:5]: # Mostramos las  5 primeras coincidencias
            print(f"Reseña: {i}")
            print(f"Texto: \n{reviews[i-1][:200]}, '..\n'")#Mostramos los 200 primeros caracteres
        print(f"Total de reseñas donde aparece la palabra '{buscar}'es {len(palabras_encontradas)}")
    else :
        print("La palabra no existe")

In [8]:
buscar_palabra_en_review(datos['review'], "wonderful")

La palabra 'wonderful' se encuentra en la siguientes reseñas: 
Reseña: 2
Texto: 
A wonderful little production. <br /><br />The filming technique is very unassuming- very old-time-BBC fashion and gives a comforting, and sometimes discomforting, sense of realism to the entire piece, '..
'
Reseña: 3
Texto: 
I thought this was a wonderful way to spend time on a too hot summer weekend, sitting in the air conditioned theater and watching a light-hearted comedy. The plot is simplistic, but the dialogue is wi, '..
'
Reseña: 30
Texto: 
'War movie' is a Hollywood genre that has been done and redone so many times that clichéd dialogue, rehashed plot and over-the-top action sequences seem unavoidable for any conflict dealing with large, '..
'
Reseña: 42
Texto: 
This movie is based on the book, "A Many Splendored Thing" by Han Suyin and tackles issues of race relations between Asians and Whites, a topic that comes from Han's personal experiences as an Eurasia, '..
'
Reseña: 60
Texto: 
I just watch

## Parte 2: Construcción de un índice invertido

### Actividad
1. Escribe un programa que:
   - Recorra todos los documentos.
   - Construya un **índice invertido**, es decir, un diccionario donde:
     - Cada palabra clave apunta a una lista de documentos donde aparece.

2. Escribe una nueva función de búsqueda que:
   - Consulte directamente el índice para encontrar los documentos relevantes.
   - Sea mucho más rápida que la búsqueda lineal.

In [None]:
def indice_invertido(reviews , buscar):
    print("Construyendo el índice invertido...")
    palabras = {}

    # Recorremos cada reseña
    for i, texto in enumerate(reviews):
        for palabra in texto.lower().split():
            if palabra not in palabras:
                palabras[palabra] = set()
            palabras[palabra].add(i + 1)
    
    

    # Búsqueda
    buscar = buscar.lower()
    if buscar in palabras:
        print(f"La palabra '{buscar}' aparece en las siguientes reseñas:\n")
        print(list(palabras[buscar])[:5] )
        print(f"Total de reseñas donde aparece: {len(palabras[buscar])}")
    else:
        print("La palabra no existe")

In [10]:
indice_invertido(datos['review'],'family')

Construyendo el índice invertido...
La palabra 'family' aparece en las siguientes reseñas:

[16384, 40961, 24578, 40962, 4]
Total de reseñas donde aparece: 3153


## Parte 3: Evaluación de tiempos de búsqueda
### Actividad

1. Realiza la búsqueda de varias palabras usando:
      -  Corpus pequeño.
      -  Corpus grande.
2. Mide el tiempo de ejecución:
      -  Para búsqueda lineal.
      -  Para búsqueda usando índice invertido.
      -  Grafica o presenta los resultados en una tabla comparativa.

# Palabras a buscar:
 - dangerous
 - beavers
 - green
 - zombie



# Corpus Pequeño

In [3]:
ruta = r'C:\Users\DELL\Downloads\RI\data\archive (1)\rotten_tomatoes_movies.csv'
datos1 = pd.read_csv(ruta)
datos1

Unnamed: 0,id,title,audienceScore,tomatoMeter,rating,ratingContents,releaseDateTheaters,releaseDateStreaming,runtimeMinutes,genre,originalLanguage,director,writer,boxOffice,distributor,soundMix
0,space-zombie-bingo,Space Zombie Bingo!,50.0,,,,,2018-08-25,75.0,"Comedy, Horror, Sci-fi",English,George Ormrod,"George Ormrod,John Sabotta",,,
1,the_green_grass,The Green Grass,,,,,,2020-02-11,114.0,Drama,English,Tiffany Edwards,Tiffany Edwards,,,
2,love_lies,"Love, Lies",43.0,,,,,,120.0,Drama,Korean,"Park Heung-Sik,Heung-Sik Park","Ha Young-Joon,Jeon Yun-su,Song Hye-jin",,,
3,the_sore_losers_1997,Sore Losers,60.0,,,,,2020-10-23,90.0,"Action, Mystery & thriller",English,John Michael McCarthy,John Michael McCarthy,,,
4,dinosaur_island_2002,Dinosaur Island,70.0,,,,,2017-03-27,80.0,"Fantasy, Adventure, Animation",English,Will Meugniot,John Loy,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
143253,nadia_the_secret_of_blue_water_the_motion_pict...,Nadia: The Secret of Blue Water: The Motion Pi...,14.0,,,,2002-08-27,,90.0,"Action, Adventure, Anime",Japanese,Sho Aono,Kaoru Umeno,,ADV Films,
143254,everyone_i_knew_and_loved,Everyone I Knew and Loved,,,,,,,99.0,Drama,English,Andrew Behringer,Erika Heidewald,,,
143255,the-human-body,The Human Body,71.0,89.0,,,,,43.0,Documentary,English,Peter Georgi,Richard Dale,,,
143256,flying_fists,Flying Fists,,,,,,2006-11-21,63.0,Drama,English,Robert F. Hill,"Robert F. Hill,Basil Dickey",,,


In [4]:
datos1['id'].iloc[0]

'space-zombie-bingo'

In [5]:
datos1['id'].iloc[1]

'the_green_grass'

In [None]:
import time
#Busqueda Lineal Corpus Pequeño
def buscar_lineal_corpusP(reseñas, palabras):
    resultados = []

    for palabra in palabras:
        coincidencias = []
        inicio = time.time()

        # Búsqueda lineal en cada reseña
        for indice, texto in enumerate(reseñas):
            if palabra.lower() in texto.lower():
                coincidencias.append(f"Reseña {indice+1}")

        fin = time.time()

        resultados.append({
            'Palabra': palabra,
            'Coincidencias': coincidencias if coincidencias else "No encontrado",
            'Tiempo de búsqueda (s)': round(fin - inicio, 6)
        })

    return resultados    

In [7]:
palabras = ["zombie", "green"] 
resultado = buscar_lineal_corpusP(datos1['id'], palabras)  

In [8]:
resultado_CP = pd.DataFrame(resultado)
resultado_CP

Unnamed: 0,Palabra,Coincidencias,Tiempo de búsqueda (s)
0,zombie,"[Reseña 1, Reseña 445, Reseña 659, Reseña 792,...",0.029657
1,green,"[Reseña 2, Reseña 359, Reseña 1145, Reseña 200...",0.028389


# Corpus Grande

In [9]:
ruta = r'c:\Users\DELL\Downloads\RI\data\archive (1)\rotten_tomatoes_movie_reviews.csv'
datos2 = pd.read_csv(ruta)
datos2

Unnamed: 0,id,reviewId,creationDate,criticName,isTopCritic,originalScore,reviewState,publicatioName,reviewText,scoreSentiment,reviewUrl
0,beavers,1145982,2003-05-23,Ivan M. Lincoln,False,3.5/4,fresh,Deseret News (Salt Lake City),Timed to be just long enough for most youngste...,POSITIVE,http://www.deseretnews.com/article/700003233/B...
1,blood_mask,1636744,2007-06-02,The Foywonder,False,1/5,rotten,Dread Central,It doesn't matter if a movie costs 300 million...,NEGATIVE,http://www.dreadcentral.com/index.php?name=Rev...
2,city_hunter_shinjuku_private_eyes,2590987,2019-05-28,Reuben Baron,False,,fresh,CBR,The choreography is so precise and lifelike at...,POSITIVE,https://www.cbr.com/city-hunter-shinjuku-priva...
3,city_hunter_shinjuku_private_eyes,2558908,2019-02-14,Matt Schley,False,2.5/5,rotten,Japan Times,The film's out-of-touch attempts at humor may ...,NEGATIVE,https://www.japantimes.co.jp/culture/2019/02/0...
4,dangerous_men_2015,2504681,2018-08-29,Pat Padua,False,,fresh,DCist,Its clumsy determination is endearing and some...,POSITIVE,http://dcist.com/2015/11/out_of_frame_dangerou...
...,...,...,...,...,...,...,...,...,...,...,...
1444958,thor_love_and_thunder,102706151,2022-07-05,Christie Cronan,False,7/10,fresh,Raising Whasians,Solid but not totally sold&#44; Thor&#58; Ragn...,POSITIVE,https://raisingwhasians.com/thor-love-and-thun...
1444959,thor_love_and_thunder,102706150,2022-07-05,Ian Sandwell,False,4/5,fresh,Digital Spy,Thor&#58; Love and Thunder is the most enterta...,POSITIVE,https://www.digitalspy.com/movies/a40496050/th...
1444960,thor_love_and_thunder,102706149,2022-07-05,Lauren LaMagna,False,8/10,fresh,Next Best Picture,&quot;Thor&#58; Love and Thunder&quot; is a st...,POSITIVE,https://www.nextbestpicture.com/thor-love-and-...
1444961,thor_love_and_thunder,102706148,2022-07-05,Jake Cole,True,1/4,rotten,Slant Magazine,Across Taika Waititi&#8217;s film&#44; a war a...,NEGATIVE,https://www.slantmagazine.com/film/thor-love-a...


In [10]:
import time
#Busqueda lineasl  Corpus Grande
def buscar_lineal_corpusG(reseñas, palabras):
    resultados = []

    for palabra in palabras:
        coincidencias = []
        inicio = time.time()

        # Búsqueda lineal en cada reseña
        for indice, texto in enumerate(reseñas):
            if palabra.lower() in texto.lower():
                coincidencias.append(f"Reseña {indice+1}")

        fin = time.time()
        tiempo_busquedaL = round(fin - inicio, 6)

        resultados.append({
            'Palabra': palabra,
            'Coincidencias': coincidencias if coincidencias else "No encontrado",
            'Tiempo de búsqueda (s)': tiempo_busquedaL
        })

    return resultados

In [11]:
palabras = ["beavers", "dangerous"] 
resultadoG = buscar_lineal_corpusG(datos2['id'], palabras) 

In [12]:
resultado_CG = pd.DataFrame(resultadoG)
resultado_CG

Unnamed: 0,Palabra,Coincidencias,Tiempo de búsqueda (s)
0,beavers,"[Reseña 1, Reseña 796302, Reseña 796303, Reseñ...",0.240522
1,dangerous,"[Reseña 5, Reseña 6, Reseña 7, Reseña 8, Reseñ...",0.250993
