## Carga del dataset IMDb.csv
- **Importar Pandas**: Importamos la biblioteca Pandas para trabajar con el DataFrame.
- **Especificar la Ruta del Archivo**: Definimos la ruta del archivo CSV que vamos a cargar.
- **Cargar el Archivo CSV**: Intentamos cargar el archivo CSV utilizando `pd.read_csv`. Hemos añadido el parámetro `delimiter='|'` para asegurarnos de que las barras verticales se usen como delimitador.
- **Mostrar las Primeras Filas**: Utilizamos `imdb_df.head(10)` para mostrar las primeras filas del DataFrame y verificar que se haya cargado correctamente.

In [1]:
import pandas as pd

# Specify the file path
file_path = 'IMDb.csv'

# Load the CSV file with the correct delimiter
imdb_df = pd.read_csv(file_path, delimiter='|')

# Display the first few rows of the DataFrame
print(imdb_df.head(10))


      ID                                              TITLE     GENRE  \
0  11355                           WWF Insurrextion (2001)    action    
1   9718                                 Bus Driver (2016)    action    
2  27523               Emergency: Fighters for Life (1998)    action    
3  43529                                      Raven (1996)    action    
4  14293                            Innocent Devils (????)    action    
5  42925                         "Angels from Hell" (2016)    action    
6   3658                        Wings of the Dragon (2014)    action    
7  40871                            Tainted Kingdom (2008)    action    
8  47551                                Switchcraft (????)    action    
9  28322   Sette ore di violenza per una soluzione impre...   action    

                                         DESCRIPTION  
0   WWF World/Intercontinental/Tag Team Titles: S...  
1   A high school bus on its way to a retreat blo...  
2   Emergency - Fighters for Li

## Exploración y comprensión de los datos:
- **Mostrar Resumen del DataFrame**: Utilizamos `print(imdb_df.info())` para mostrar un resumen del *DataFrame* y verificar su estructura. Esto incluye el número de entradas, el tipo de datos de cada columna y si hay valores nulos.
- **Mostrar los Géneros Únicos**: Utilizamos `print(imdb_df['GENRE'].unique())` para mostrar los géneros únicos presentes en el *DataFrame*. Esto nos ayudará a entender la diversidad de géneros en el dataset.

In [2]:
# Display the summary of the DataFrame
print(imdb_df.info())

# Display the unique genres in the DataFrame
print(imdb_df['GENRE'].unique())


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 60 entries, 0 to 59
Data columns (total 4 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   ID           60 non-null     int64 
 1   TITLE        60 non-null     object
 2   GENRE        60 non-null     object
 3   DESCRIPTION  60 non-null     object
dtypes: int64(1), object(3)
memory usage: 2.0+ KB
None
[' action ' ' comedy ' ' drama ' ' horror ' ' sci-fi ' ' thriller ']


## Generación del Prompt
- **Seleccionar una Película de Ejemplo**: Utilizamos `imdb_df.iloc[0]` para seleccionar la primera película del *DataFrame* como ejemplo.
- **Extraer la Descripción y la Lista de Géneros**: Extraemos la descripción de la película y creamos una lista de géneros únicos disponibles en el DataFrame.
- **Crear el Prompt**: Formulamos un prompt que describe la tarea al modelo de lenguaje. El *prompt* incluye la descripción de la película y la lista de géneros, y solicita la salida en formato JSON con el género y el nombre del protagonista.
- **Mostrar el Prompt**: Utilizamos `print(prompt)` para mostrar el prompt generado.

In [12]:
# Select a sample movie description
sample_movie = imdb_df.iloc[0]  # Select the first movie as an example

# Extract the description and the list of genres
description = sample_movie['DESCRIPTION']
genres = ", ".join(imdb_df['GENRE'].unique())

# Create the prompt
prompt = f"""
Description of a movie: "{description}". 
Based on this description, return the genre of the movie from the following list: {genres} and the name of the protagonist in JSON format.

Output format:
{{
  "genre": "Genre of the movie",
  "protagonist": "Name of the protagonist"
}}
"""

# Display the prompt
print(prompt)


Description of a movie: " WWF World/Intercontinental/Tag Team Titles: Steve Austin & Triple H vs. Kane & The Undertaker, WWF European Title: Matt Hardy vs. Eddy Guererro vs. Christian, WWF Hardcore Title: Rhyno vs. Raven, 30 Minute Submission Match: Chris Benoit vs. Kurt Angle, Dutchess of Queensbury Rules: William Regal vs. Chris Jericho, Last Man Standing: Shane McMahon vs. The Big Show, X-Factor vs. The Dudley Boyz & Spike Dudley WWF Title (handicap match) Steve Austin & Triple H vs. The Undertaker, Queen's Cup Rules: William Regal vs. Chris Jericho, 2 Out of 3 Falls: Chris Benoit vs. Kurt Angle, Edge & Christian vs. The Dudley Boyz vs. The Hardy Boyz vs. X-Factor, Bradshaw vs. The Big Show, Dean Malenko & Perry Saturn vs. Hardcore & Crash Holly, Eddy Guererro vs. Grandmaster Sexay". 
Based on this description, return the genre of the movie from the following list:  action ,  comedy ,  drama ,  horror ,  sci-fi ,  thriller  and the name of the protagonist in JSON format.

Output fo