# PRELOAD

In [1]:
from typing import Dict
import pandas as pd

In [2]:
df_cast = pd.read_parquet("https://github.com/alejocampos1/Henry_PI1_Alejandro-Campos/raw/main/Datasets/Datasets_Limpios/Parquet/cast.parquet")
df_collections = pd.read_parquet("https://github.com/alejocampos1/Henry_PI1_Alejandro-Campos/raw/main/Datasets/Datasets_Limpios/Parquet/collections.parquet")
df_crew = pd.read_parquet("https://github.com/alejocampos1/Henry_PI1_Alejandro-Campos/raw/main/Datasets/Datasets_Limpios/Parquet/crew.parquet")
df_genres = pd.read_parquet("https://github.com/alejocampos1/Henry_PI1_Alejandro-Campos/raw/main/Datasets/Datasets_Limpios/Parquet/genres.parquet")
df_movies = pd.read_parquet("https://github.com/alejocampos1/Henry_PI1_Alejandro-Campos/raw/main/Datasets/Datasets_Limpios/Parquet/movies.parquet")
df_prodcompanies = pd.read_parquet("https://github.com/alejocampos1/Henry_PI1_Alejandro-Campos/raw/main/Datasets/Datasets_Limpios/Parquet/prodcompanies.parquet")
df_prodcountries = pd.read_parquet("https://github.com/alejocampos1/Henry_PI1_Alejandro-Campos/raw/main/Datasets/Datasets_Limpios/Parquet/prodcountries.parquet")

# TESTING

In [3]:
df_movies.info()

<class 'pandas.core.frame.DataFrame'>
Index: 45376 entries, 0 to 45465
Data columns (total 20 columns):
 #   Column                 Non-Null Count  Dtype         
---  ------                 --------------  -----         
 0   id                     45376 non-null  object        
 1   title                  45376 non-null  object        
 2   genres                 45376 non-null  object        
 3   overview               44435 non-null  object        
 4   tagline                20398 non-null  object        
 5   runtime                45130 non-null  float64       
 6   release_date           45376 non-null  datetime64[ns]
 7   production_companies   45376 non-null  object        
 8   belongs_to_collection  4480 non-null   Int64         
 9   original_language      45365 non-null  object        
 10  spoken_languages       45376 non-null  object        
 11  budget                 45376 non-null  float64       
 12  revenue                45376 non-null  float64       
 13  status

# FUNCION 1

In [4]:
def cantidad_filmaciones_mes(mes: str) -> Dict[str, str]:
    meses = {
    "enero": 1, "febrero": 2, "marzo": 3, "abril": 4, "mayo": 5, "junio": 6, "julio": 7, "agosto": 8, "septiembre": 9, "octubre": 10, "noviembre": 11, "diciembre": 12
    }
    mes = mes.lower()
    if mes not in meses:
        return {'Ingrese un mes válido'}
    numero_mes = meses.get(mes)
    cantidad_peliculas = df_movies[df_movies['release_date'].dt.month == numero_mes]['release_date'].count()

    return f"{cantidad_peliculas} cantidad de películas fueron estrenadas en el mes de {mes}"

In [5]:
cantidad_filmaciones_mes('enero')

'5912 cantidad de películas fueron estrenadas en el mes de enero'

# FUNCION 2

In [6]:
def cantidad_filmaciones_dia(dia: str) -> Dict[str, str]:
    dias_semana = {
        "lunes": 0,
        "martes": 1,
        "miércoles": 2,
        "jueves": 3,
        "viernes": 4,
        "sábado": 5,
        "domingo": 6
    }
    
    dia = dia.lower()
    if dia not in dias_semana:
        return 'Ingrese un día de la semana válido'
    numero_dia = dias_semana.get(dia)
    cantidad_peliculas = df_movies[df_movies['release_date'].dt.dayofweek == numero_dia]['release_date'].count()

    return f"{cantidad_peliculas} películas fueron estrenadas un {dia}"

In [7]:
cantidad_filmaciones_dia('martes')

'4641 películas fueron estrenadas un martes'

# FUNCION 3

In [8]:
def score_titulo(titulo: str) -> Dict[str, str]:
    


    return {"mensaje": f"La película {titulo} fue estrenada en el año X con un score/popularidad de X"}

# FUNCION 4

In [9]:
def normalizar_texto(texto: str) -> str:
# Eliminar espacios en blanco al inicio y al final, y convertir a minúsculas
    return ''.join(texto.split()).lower()

def votos_titulo(titulo: str) -> Dict[str, str]:
    # Normalizar el título ingresado por el usuario
    titulo_normalizado = normalizar_texto(titulo)

    # Filtrar las filas donde el título normalizado coincida
    df_filtrado = df_movies[df_movies['title'].apply(normalizar_texto) == titulo_normalizado]

    if not df_filtrado.empty:
        # Obtener el número total de votos
        vote_total = int(df_filtrado['vote_count'].iloc[0])
        
        # Si el total de votos es mayor o igual que 2000
        if vote_total >= 2000:
            # Obtener el valor de la votación promedio
            vote_average = df_filtrado['vote_average'].iloc[0]
            
            # Obtener el título original
            titulo_original = df_filtrado['title'].iloc[0]
                    
            # Retornar el mensaje con la información
            return {"mensaje": f"La película '{titulo_original}' tiene {vote_total} valoraciones con un promedio de {vote_average}"}
        else:
            # Retornar mensaje si la película tiene menos de 2000 votos
            return {"mensaje": f"El título '{titulo}' contiene menos de 2000 valoraciones."}
    else:
        # Retornar mensaje si el título no existe
        return {"mensaje": "Por favor, ingrese un título válido."}

In [10]:
votos_titulo('ghostbusters')

{'mensaje': "La película 'Ghostbusters' tiene 2431 valoraciones con un promedio de 7.3"}

# FUNCION 5

In [19]:
def get_actor(nombre_actor: str) -> Dict[str, str]:
    # Normalizar el nombre ingresado por el usuario
    nombre_normalizado = normalizar_texto(nombre_actor)
    
    # Filtrar las filas donde el nombre normalizado coincida
    df_actor_filtrado = df_cast[df_cast['nombre'].apply(normalizar_texto) == nombre_normalizado]

    # Verificar si se encontró el actor antes de acceder a los datos
    if df_actor_filtrado.empty:
        return {"mensaje": "Por favor, ingrese un nombre de actor o actriz válido."}
    
    # Obtener el nombre original del actor
    nombre_original = df_actor_filtrado['nombre'].iloc[0]
    
    # Obtener los IDs de las películas del actor y la cantidad de películas únicas
    peliculas_actor = df_actor_filtrado['idPelicula'].unique()
    
    # Número de películas únicas
    num_peliculas = len(peliculas_actor)
    
    if num_peliculas == 0:
        return {"mensaje": f"{nombre_original} no tiene películas registradas."}
    
    # Convertir df_movies['id'] a int
    df_movies['id'] = df_movies['id'].astype(int)
    
    # Filtrar las películas en df_movies usando los ids en peliculas_actor
    retorno_peliculas_actor = df_movies[df_movies['id'].isin(peliculas_actor)]['return']
    
    # Calcular el total de retorno
    total_retorno = retorno_peliculas_actor.sum()
    
    # Calcular el promedio de retorno por película
    total_promedio = total_retorno / num_peliculas if num_peliculas > 0 else 0
    
    # Devolver el mensaje con la información calculada
    return {
        "mensaje": f"{nombre_original} ha participado en {num_peliculas} filmaciones, "
                   f"ha conseguido un retorno total de {total_retorno} con un promedio de {total_promedio:.2f} por filmación."
    }

In [20]:
get_actor('tomcruise')

{'mensaje': 'Tom Cruise ha participado en 47 filmaciones, ha conseguido un retorno total de 183.0450280877977 con un promedio de 3.89 por filmación.'}

# FUNCION 6

In [None]:
def get_director(nombre_director: str) -> Dict[str, str]:
    # Normalizar el nombre ingresado por el usuario
    nombre_normalizado = normalizar_texto(nombre_director)
    
    # Filtrar las filas donde el nombre normalizado coincida
    df_director_filtrado = df_crew[df_crew['nombre'].apply(normalizar_texto) == nombre_normalizado]

    # Verificar si se encontró el actor antes de acceder a los datos
    if df_director_filtrado.empty:
        return {"mensaje": "Por favor, ingrese un nombre de actor o actriz válido."}
    
    # Obtener el nombre original del actor
    nombre_original = df_director_filtrado['nombre'].iloc[0]
    
    # Obtener los IDs de las películas del actor y la cantidad de películas únicas
    peliculas_actor = df_director_filtrado['idPelicula'].unique()
    
    # Número de películas únicas
    num_peliculas = len(peliculas_actor)
    
    if num_peliculas == 0:
        return {"mensaje": f"{nombre_original} no tiene películas registradas."}
    
    # Convertir df_movies['id'] a int
    df_movies['id'] = df_movies['id'].astype(int)
    
    # Filtrar las películas en df_movies usando los ids en peliculas_actor
    retorno_peliculas_actor = df_movies[df_movies['id'].isin(peliculas_actor)]['return']
    
    # Calcular el total de retorno
    total_retorno = retorno_peliculas_actor.sum()
    
    # Calcular el promedio de retorno por película
    total_promedio = total_retorno / num_peliculas if num_peliculas > 0 else 0
    
    # Devolver el mensaje con la información calculada
    return {
        "mensaje": f"{nombre_original} ha participado en {num_peliculas} filmaciones, "
                   f"ha conseguido un retorno total de {total_retorno} con un promedio de {total_promedio:.2f} por filmación."
    }