In [1]:
# carga de librerías
import numpy as np
import pandas as pd
from ast import literal_eval
import datetime as dt
# import matplotlib.pyplot as plt
# import missingno as msno

In [2]:
movies = pd.read_csv("datasets/movies_dataset.csv", low_memory=False)
credits = pd.read_csv("datasets/credits.csv")

In [3]:
movies.head(1)

Unnamed: 0,adult,belongs_to_collection,budget,genres,homepage,id,imdb_id,original_language,original_title,overview,...,release_date,revenue,runtime,spoken_languages,status,tagline,title,video,vote_average,vote_count
0,False,"{'id': 10194, 'name': 'Toy Story Collection', ...",30000000,"[{'id': 16, 'name': 'Animation'}, {'id': 35, '...",http://toystory.disney.com/toy-story,862,tt0114709,en,Toy Story,"Led by Woody, Andy's toys live happily in his ...",...,1995-10-30,373554033.0,81.0,"[{'iso_639_1': 'en', 'name': 'English'}]",Released,,Toy Story,False,7.7,5415.0


In [4]:
credits.head(1)
# credits["cast"]
# credits["cast"][0]

Unnamed: 0,cast,crew,id
0,"[{'cast_id': 14, 'character': 'Woody (voice)',...","[{'credit_id': '52fe4284c3a36847f8024f49', 'de...",862


In [5]:
# función para obtener datos varios de los dataframe(info, describe, null, duplicated)
def print_df_info(df):
    
    print("** Info - Información general **")
    print(df.info())

    print("=======================================================")

    print("** Shape **")
    print(f"Filas: {df.shape[0]} - Columnas: {df.shape[1]}")

    print("=======================================================")

    print("** Describe - Estadísticas resumidas **")
    print(df.describe().T)

    print("=======================================================")

    print("** NaN - Nulos **")
    print(df.isna().sum())

    print("=======================================================")
    print("** Duplicated - Duplicados **")
    print(df.duplicated().sum())

In [6]:
print_df_info(movies)

** Info - Información general **
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 45466 entries, 0 to 45465
Data columns (total 24 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   adult                  45466 non-null  object 
 1   belongs_to_collection  4494 non-null   object 
 2   budget                 45466 non-null  object 
 3   genres                 45466 non-null  object 
 4   homepage               7782 non-null   object 
 5   id                     45466 non-null  object 
 6   imdb_id                45449 non-null  object 
 7   original_language      45455 non-null  object 
 8   original_title         45466 non-null  object 
 9   overview               44512 non-null  object 
 10  popularity             45461 non-null  object 
 11  poster_path            45080 non-null  object 
 12  production_companies   45463 non-null  object 
 13  production_countries   45463 non-null  object 
 14  release_date         

In [7]:
print_df_info(credits)

** Info - Información general **
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 45476 entries, 0 to 45475
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   cast    45476 non-null  object
 1   crew    45476 non-null  object
 2   id      45476 non-null  int64 
dtypes: int64(1), object(2)
memory usage: 1.0+ MB
None
** Shape **
Filas: 45476 - Columnas: 3
** Describe - Estadísticas resumidas **
      count           mean            std  min       25%      50%       75%  \
id  45476.0  108345.997537  112443.796536  2.0  26443.25  60002.5  157302.0   

         max  
id  469172.0  
** NaN - Nulos **
cast    0
crew    0
id      0
dtype: int64
** Duplicated - Duplicados **
37


**Transformaciones**
* Eliminar las columnas que no serán utilizadas:   
video, imdb_id, adult, original_title, poster_path y homepage.

In [8]:
# eliminar columnas
movies.drop(["adult", "homepage", "imdb_id", "original_title", "popularity", "poster_path", "spoken_languages", "status", "video", "vote_average", "vote_count"], axis=1, inplace=True)

In [9]:
# visualizar columnas restantes
movies.columns

Index(['belongs_to_collection', 'budget', 'genres', 'id', 'original_language',
       'overview', 'production_companies', 'production_countries',
       'release_date', 'revenue', 'runtime', 'tagline', 'title'],
      dtype='object')

* **Los valores nulos de los campos revenue, budget deben ser rellenados por el número 0.**

In [10]:
# eliminar los duplicados
movies.drop_duplicates(inplace=True)
credits.drop_duplicates(inplace=True)

In [11]:
movies["budget"] = movies["budget"].fillna(0)
movies["revenue"] = movies["revenue"].fillna(0)

Crear la columna con el retorno de inversión, llamada **`return`** con los campos **`revenue`** y **`budget`**, dividiendo estas dos últimas **`revenue / budget`**, cuando no hay datos disponibles para calcularlo, deberá tomar el valor **`0`**.  
Este paso arroja un error ya que la columna budget es de tipo object y revenue es de tipo float, por lo  
que se procedió a cambiar el tipo de dato, paso que también arroja un error porque algunos campos de la columna budget contienen caracteres y números combinados.  
Para solucionar esto se creó una función que devuelva que campos son solo números, solo letras o combinados, luego dependiendo de la cantidad de filas con el problema se procede a eliminarlas.

In [12]:
# determino los tipos de datos
print(movies.budget.dtype)
print(movies.revenue.dtype)

object
float64


In [13]:
# función para determinar cuantas filas de la columna id de movies tienen caracteres, números
# o una combinación de ambos
def get_column_type(str):
  if str.isdigit():
    return "numbers"
  elif str.isalpha():
    return "characters"
  else:
    return "mixed"

In [14]:
# aplicar la función sobre la columna y el resultado en una nueva columna
movies["types"] = movies["budget"].apply(get_column_type)

In [15]:
# visualizo la cantidad de filas con caracteres o con caracteres y números combinados
# en este caso chequeo characters y mixed
# movies[movies["types"] == "characters"].count()
movies[movies["types"] == "mixed"].count()
# movies[movies["types"] == "numbers"].count()

belongs_to_collection    3
budget                   3
genres                   3
id                       3
original_language        3
overview                 3
production_companies     3
production_countries     3
release_date             3
revenue                  3
runtime                  0
tagline                  0
title                    0
types                    3
dtype: int64

In [16]:
# visualizo las filas específicas
movies[movies["types"] == "mixed"]

Unnamed: 0,belongs_to_collection,budget,genres,id,original_language,overview,production_companies,production_countries,release_date,revenue,runtime,tagline,title,types
19730,0.065736,/ff9qCepilowshEtG2GYWwzt2bs4.jpg,"[{'name': 'Carousel Productions', 'id': 11176}...",1997-08-20,104.0,Released,False,6.0,1,0.0,,,,mixed
29503,1.931659,/zV8bHuSL6WXoD6FWogP9j4x80bL.jpg,"[{'name': 'Aniplex', 'id': 2883}, {'name': 'Go...",2012-09-29,68.0,Released,False,7.0,12,0.0,,,,mixed
35587,2.185485,/zaSf5OG7V8X8gqFvly88zDdRm46.jpg,"[{'name': 'Odyssey Media', 'id': 17161}, {'nam...",2014-01-01,82.0,Released,False,4.3,22,0.0,,,,mixed


In [17]:
# elimino los tres(3) registros por id.
movies = movies.drop([19730, 29503, 35587])

In [18]:
# una vez eliminados se convierte el tipo de dato
movies["budget"] = movies["budget"].astype('float')

In [19]:
print(movies.budget.dtype)

float64


In [20]:
# Crear la columna con el retorno de inversión, llamada return con los campos revenue y budget,
# dividiendo estas dos últimas revenue / budget, cuando no hay datos disponibles para calcularlo, 
# deberá tomar el valor 0.
movies["return"] = movies["revenue"].where(movies["budget"] != 0) / movies["budget"]
# movies["return"] = movies["revenue"] / movies["budget"]
movies["return"]

0        12.451801
1         4.043035
2              NaN
3         5.090760
4              NaN
           ...    
45461          NaN
45462          NaN
45463          NaN
45464          NaN
45465          NaN
Name: return, Length: 45433, dtype: float64

In [21]:
# elimino la columna types(tipos)
movies.drop(["types"], axis=1, inplace=True)

In [22]:
# visualizar las columnas restantes
movies.columns

Index(['belongs_to_collection', 'budget', 'genres', 'id', 'original_language',
       'overview', 'production_companies', 'production_countries',
       'release_date', 'revenue', 'runtime', 'tagline', 'title', 'return'],
      dtype='object')

* **Los valores nulos del campo release date deben eliminarse.**

In [23]:
# conteo de nulos de la columna
print(movies["release_date"].isnull().sum())

# eliminar nulos
movies.dropna(subset=["release_date"], inplace = True)

# conteo de nulos
print(movies["release_date"].isnull().sum())

87
0


De haber fechas, deberán tener el formato **`AAAA-mm-dd`**, además deberán crear la columna **`release_year`** donde extraerán el año de la fecha de estreno.  
la columna release_date al convertirla al formato datetime presentó problemas, para solucionar se creó una función   para extraer las fechas y limpiar las cadenas ya que la columna es de tipo object

In [24]:
fechas = movies["release_date"].to_list()
fechas2 = []
for fecha in fechas:
    fecha.strip
    fechas2.append(fecha)
# fechas2

In [25]:
# creo e inserto la columna
movies.insert(10, "release_date2", fechas2)

In [26]:
# visualizo laas columnas para una rápida comparación
movies[["release_date", "release_date2"]]

Unnamed: 0,release_date,release_date2
0,1995-10-30,1995-10-30
1,1995-12-15,1995-12-15
2,1995-12-22,1995-12-22
3,1995-12-22,1995-12-22
4,1995-02-10,1995-02-10
...,...,...
45460,1991-05-13,1991-05-13
45462,2011-11-17,2011-11-17
45463,2003-08-01,2003-08-01
45464,1917-10-21,1917-10-21


In [27]:
# Elimino la columna original
movies.drop("release_date", axis=1, inplace=True)

In [28]:
# renombro la columna 
movies = movies.rename(columns={"release_date2": "release_date"})

In [29]:
# Convertir a formato fecha:
movies["release_date"] = pd.to_datetime(movies["release_date"], format="%Y-%m-%d")

In [30]:
# chequeo el tipo de dato
movies.release_date.dtype

dtype('<M8[ns]')

In [31]:
# crear la columna release_year extrayendo el año de relaese
movies["release_year"] = movies["release_date"].dt.year

In [32]:
# verifico el tipo de dato
movies.release_year.dtype

dtype('int32')

In [33]:
# visualizar la columna
movies.release_year

0        1995
1        1995
2        1995
3        1995
4        1995
         ... 
45460    1991
45462    2011
45463    2003
45464    1917
45465    2017
Name: release_year, Length: 45346, dtype: int32

**Desanidar las columnas que lo requieran, estas contienen los datos de tipo object, pero contienen  
a su vez listas y diccionarios**

In [34]:
# Función para desanidar la columna 'belongs_to_collection'
def extraer_collection_name(collection):
    if pd.isnull(collection):
        return np.nan
    else:
        try:
            return literal_eval(collection)['name']
        except (ValueError, TypeError):
            return np.nan

In [35]:
# Luego aplicamos la funcion a 'belongs_to_collection'
movies['belongs_to_collection'] = movies['belongs_to_collection'].apply(extraer_collection_name)

In [36]:
# verificar si la columna está desanidada
movies.head(1)

Unnamed: 0,belongs_to_collection,budget,genres,id,original_language,overview,production_companies,production_countries,revenue,release_date,runtime,tagline,title,return,release_year
0,Toy Story Collection,30000000.0,"[{'id': 16, 'name': 'Animation'}, {'id': 35, '...",862,en,"Led by Woody, Andy's toys live happily in his ...","[{'name': 'Pixar Animation Studios', 'id': 3}]","[{'iso_3166_1': 'US', 'name': 'United States o...",373554033.0,1995-10-30,81.0,,Toy Story,12.451801,1995


In [37]:
# función para extraer los datos de columnas anidadas
def convert(obj):
    L = []
    for i in literal_eval(obj):
        L.append(i["name"])
    return L

In [38]:
# desanidar y convertir estas columnas en listas
movies["genres"] = movies["genres"].apply(convert)
movies["production_companies"] = movies["production_companies"].apply(convert)
movies["production_countries"] = movies["production_countries"].apply(convert)
# movies["spoken_languages"] = movies["spoken_languages"].apply(convert)

In [39]:
# visualizar para confirmar la conversión
movies.head(1)

Unnamed: 0,belongs_to_collection,budget,genres,id,original_language,overview,production_companies,production_countries,revenue,release_date,runtime,tagline,title,return,release_year
0,Toy Story Collection,30000000.0,"[Animation, Comedy, Family]",862,en,"Led by Woody, Andy's toys live happily in his ...",[Pixar Animation Studios],[United States of America],373554033.0,1995-10-30,81.0,,Toy Story,12.451801,1995


In [40]:
# función para desanidar la columna cast(actores de la película), por tener demasiada información 
# solo se extrajeron tres(3) actores
def convert_2(obj):
    L = []
    counter = 0
    for i in literal_eval(obj):
        if counter != 3:
            L.append(i["name"])
            counter +=  1
        else:
            break
    return L

In [41]:
# aplicar la función convert_2
credits["cast"] = credits["cast"].apply(convert_2)

In [42]:
# verificamos la extracción
credits["cast"]
credits["cast"][0]

['Tom Hanks', 'Tim Allen', 'Don Rickles']

In [43]:
# función para extraer el director de la película
def fetch_director(obj):
    L = []
    for i in literal_eval(obj):
        if i["job"] == "Director":
            L.append(i["name"])
            break

    return L

In [44]:
# aplicar función fetch_director
credits["crew"] = credits["crew"].apply(fetch_director)

In [45]:
# verificamos la extracción
credits["crew"]
credits["crew"][0]

['John Lasseter']

In [46]:
# credits.crew.value_counts()

**Unir los dataframe**  
Se unen los dataframe para trabajar mejor con un solo conjunto de datos.
Esto presentó problemas por los tipos de datos de las columnas id del dataframe movies y del dataframe credits
por lo siguiente:
1 - El tipo de dato de la columna id de movies es object mientras que en credit es int64.
2 - Al cambiar el tipo de dato de la columna id de movies, salta un error, algunas filas tienen caracteres
ademas de números, lo que precisó buscar la manera de ver cuantas eran para determinar el procedimiento
a seguir. Las filas con el problema eran tres(3), se visualizaron para comprobar que informacíon contenían
y se procedió a elimarlas ya que la mayoría de los campos eran nulos.

In [47]:
# verificar el tipo de datos de los id de ambos dataframe
print(movies.id.dtype)
print(credits.id.dtype)

object
int64


In [48]:
# cambio el tipo de dato de la columna id de movies
movies["id"] = movies["id"].astype('int')

In [49]:
# unir los datasets
df_movies = pd.merge(movies, credits, on="id")

In [50]:
# visualizo registros para confirmar la unión
df_movies.head()

Unnamed: 0,belongs_to_collection,budget,genres,id,original_language,overview,production_companies,production_countries,revenue,release_date,runtime,tagline,title,return,release_year,cast,crew
0,Toy Story Collection,30000000.0,"[Animation, Comedy, Family]",862,en,"Led by Woody, Andy's toys live happily in his ...",[Pixar Animation Studios],[United States of America],373554033.0,1995-10-30,81.0,,Toy Story,12.451801,1995,"[Tom Hanks, Tim Allen, Don Rickles]",[John Lasseter]
1,,65000000.0,"[Adventure, Fantasy, Family]",8844,en,When siblings Judy and Peter discover an encha...,"[TriStar Pictures, Teitler Film, Interscope Co...",[United States of America],262797249.0,1995-12-15,104.0,Roll the dice and unleash the excitement!,Jumanji,4.043035,1995,"[Robin Williams, Jonathan Hyde, Kirsten Dunst]",[Joe Johnston]
2,Grumpy Old Men Collection,0.0,"[Romance, Comedy]",15602,en,A family wedding reignites the ancient feud be...,"[Warner Bros., Lancaster Gate]",[United States of America],0.0,1995-12-22,101.0,Still Yelling. Still Fighting. Still Ready for...,Grumpier Old Men,,1995,"[Walter Matthau, Jack Lemmon, Ann-Margret]",[Howard Deutch]
3,,16000000.0,"[Comedy, Drama, Romance]",31357,en,"Cheated on, mistreated and stepped on, the wom...",[Twentieth Century Fox Film Corporation],[United States of America],81452156.0,1995-12-22,127.0,Friends are the people who let you be yourself...,Waiting to Exhale,5.09076,1995,"[Whitney Houston, Angela Bassett, Loretta Devine]",[Forest Whitaker]
4,Father of the Bride Collection,0.0,[Comedy],11862,en,Just when George Banks has recovered from his ...,"[Sandollar Productions, Touchstone Pictures]",[United States of America],76578911.0,1995-02-10,106.0,Just When His World Is Back To Normal... He's ...,Father of the Bride Part II,,1995,"[Steve Martin, Diane Keaton, Martin Short]",[Charles Shyer]


In [51]:
# visualizo la dimensión del dataframe resultante
print(f"Filas: {df_movies.shape[0]} - Columnas: {df_movies.shape[1]}")

Filas: 45352 - Columnas: 17


In [52]:
df_movies.columns

Index(['belongs_to_collection', 'budget', 'genres', 'id', 'original_language',
       'overview', 'production_companies', 'production_countries', 'revenue',
       'release_date', 'runtime', 'tagline', 'title', 'return', 'release_year',
       'cast', 'crew'],
      dtype='object')

In [53]:
# msno.matrix(df_movies)

In [54]:
# msno.bar(df_movies)

**Reducción del dataset**  
La reducción de los datos es necesaria por las características del hardware de pruebas(disco y memoria limitados) y del servicio donde se hará el deploy(render), tenemos que el conjunto de datos es bastante grande y consume mas memoria que la que permite el servicio de render, por tanto se toma la decisión de recortar los datos, el problema que se presenta para esto es que datos eliminar, ya que un análisis previo demuestra la cantidad de datos faltantes(nulos) en casi todas las columnas, dificultando la escogencia del criterio de eliminación.


In [55]:
# msno.matrix(df_movies)

In [56]:
# guardo con diferentes extensiones
# df_movies.to_parquet('datasets/dataset_despues_del_ETL/movies_processed.parquet')
# df_movies.to_pickle("datasets/dataset_despues_del_ETL/movies_processed.pickle")
# df_movies.to_csv("datasets/dataset_despues_del_ETL/movies_processed.csv")

In [57]:
# creo un dataset a partir de las filas de la columna budget diferentes a 0
df = df_movies[df_movies["budget"] != 0]
# print(df["belongs_to_collection"].to_string())

In [58]:
df.head(1)

Unnamed: 0,belongs_to_collection,budget,genres,id,original_language,overview,production_companies,production_countries,revenue,release_date,runtime,tagline,title,return,release_year,cast,crew
0,Toy Story Collection,30000000.0,"[Animation, Comedy, Family]",862,en,"Led by Woody, Andy's toys live happily in his ...",[Pixar Animation Studios],[United States of America],373554033.0,1995-10-30,81.0,,Toy Story,12.451801,1995,"[Tom Hanks, Tim Allen, Don Rickles]",[John Lasseter]


In [59]:
# guardo con diferentes extensiones
# df.to_parquet('datasets/datasets_reducidos/movies_processed.parquet')
# df.to_pickle("datasets/datasets_reducidos/movies_processed.pickle")
# df.to_csv("datasets/datasets_reducidos/movies_processed.csv")

In [60]:
del df_movies

In [61]:


# Select a random sample of 10,000 rows
# df = df.sample(n=10000)

# Write the data to a new CSV file
# df.to_csv('movies_sample.csv')
# new_df.to_parquet('movies.parquet')
# new_df.to_pickle("movies.pickle")
# new_df.to_csv("movies_model.csv")

**Funciones de retorno de datos**

* def peliculas_idioma( Idioma: str ):  
Se ingresa un idioma (como están escritos en el dataset, no hay que traducirlos!).   Debe devolver la cantidad de películas producidas en ese idioma.  
Ejemplo de retorno: X cantidad de películas fueron estrenadas en idioma  

* def peliculas_duracion( Pelicula: str ):  
Se ingresa una pelicula. Debe devolver la duracion y el año.  
Ejemplo de retorno: X . Duración: x. Año: xx  

* def franquicia( Franquicia: str ):  
Se ingresa la franquicia, retornando la cantidad de peliculas, ganancia  
total y promedio   
Ejemplo de retorno: La franquicia X posee X peliculas, una ganancia total de x y una ganancia promedio de xx  

* def peliculas_pais( Pais: str ):  
Se ingresa un país (como están escritos en el dataset, no hay que traducirlos!),   retornando la cantidad de  peliculas producidas en el mismo.  
Ejemplo de retorno: Se produjeron X películas en el país X  

* def productoras_exitosas( Productora: str ):  
Se ingresa la productora, entregandote el revunue total y la cantidad  
de peliculas que realizo.  
Ejemplo de retorno: La productora X ha tenido un revenue de x  

* def get_director( nombre_director ):  
Se ingresa el nombre de un director que se encuentre dentro de un dataset debiendo devolver el éxito del mismo  medido a través del retorno. Además, deberá devolver el nombre de cada película  
con la fecha de lanzamiento, retorno individual, costo y ganancia de la misma, en formato lista.  


**Análisis exploratorio de los datos: (Exploratory Data Analysis-EDA)**  

Ya los datos están limpios, ahora es tiempo de investigar las relaciones que hay entre las variables de los datasets, ver si hay outliers o anomalías (que no tienen que ser errores necesariamente :eyes: ), y ver si hay algún patrón interesante que valga la pena explorar en un análisis posterior. Las nubes de palabras dan una buena idea de cuáles palabras son más frecuentes en los títulos, ¡podría ayudar al sistema de recomendación! En esta ocasión vamos a pedirte que no uses librerías para hacer EDA automático ya que queremos que pongas en practica los conceptos y tareas involucrados en el mismo. Puedes leer un poco más sobre EDA en este articulo

**Sistema de recomendación:**

Una vez que toda la data es consumible por la API, está lista para consumir por los departamentos de Analytics y Machine Learning, y nuestro EDA nos permite entender bien los datos a los que tenemos acceso, es hora de entrenar nuestro modelo de machine learning para armar un sistema de recomendación de películas. El EDA debería incluir gráficas interesantes para extraer datos, como por ejemplo una nube de palabras con las palabras más frecuentes en los títulos de las películas. Éste consiste en recomendar películas a los usuarios basándose en películas similares, por lo que se debe encontrar la similitud de puntuación entre esa película y el resto de películas, se ordenarán según el score de similaridad y devolverá una lista de Python con 5 valores, cada uno siendo el string del nombre de las películas con mayor puntaje, en orden descendente. Debe ser deployado como una función adicional de la API anterior y debe llamarse:

* def recomendacion( titulo ):  
Se ingresa el nombre de una película y te recomienda las similares en una lista de 5 valores.

In [None]:
def peliculas_idioma( Idioma: str ):
    ''' Se ingresa un idioma (como están escritos en el dataset, no hay que traducirlos!). 
        Debe devolver la cantidad de películas producidas en ese idioma.
        Ejemplo de retorno: X cantidad de películas fueron estrenadas en idioma'''
    # res = df_movies["original_language"] == Idioma
    res = df["original_language"] == Idioma
    # print(f"{res.sum()} películas fueron estrenadas en idioma {Idioma}")
    # print(f"{str(res.sum())} cantidad de películas fueron estrenadas en idioma {Idioma}")
    # cantidad_peliculas = res.sum()
    # cantidad_peliculas = str(cantidad_peliculas)
    #print(f"{cantidad_peliculas} cantidad de películas fueron estrenadas en idioma {Idioma}")
    # print(cantidad_peliculas)
    # return res.sum()
    return {"idioma": Idioma, "cantidad": res.sum()}
    
    

In [None]:
language = input("Ingrese el idioma: ")
peliculas_idioma(language)

In [None]:
# df_movies["original_language"].count() # total completo del dataframe
# df_movies["original_language"].values[20000] # array numpy de idiomas
# df_movies["original_language"].value_counts() # total de lenguajes por película

# lenguajes = df_movies.groupby("original_language")["title"]
#lenguajes.value_counts()
# lenguajes.nunique()
# tipo_leng = input("Ingrese el idioma: ")
# lenguajes = df_movies["original_language"] == tipo_leng
# lenguajes.sum()
#print(f"{lenguajes.value_counts()} cantidad de películas se estrenaron en el idioma {tipo_leng}")


In [None]:
# df_movies["original_language"].value_counts()

In [None]:
# df_movies["original_language"].head(50)

In [None]:
def peliculas_duracion( Pelicula: str ):
    '''Se ingresa una pelicula. Debe devolver la duracion y el año.
       Ejemplo de retorno: X . Duración: x. Año: xx '''
    # res = df_movies[df_movies["title"] == Pelicula]
    res = df[df["title"] == Pelicula]
    # print(f"Película: {Pelicula} - Duración: {res.runtime.item()} - Año: {res.release_year.item()}")
    return {"pelicula": Pelicula, "duracion": res.runtime.item(), "anio": res.release_year.item()}

In [None]:
mov = input("Ingresa el nombre de una película: ")
peliculas_duracion(mov)

In [None]:
# peli = df_movies.loc[30364, ["title", "runtime", "release_year"]]
# peli

In [None]:
# print(df_movies["title"].to_string())
# print(df["title"].to_string())
# print(df["original_language"].to_string())

In [None]:
# pel = input("Ingresa el nombre de una película")
# res = df_movies[df_movies["title"] == pel]
# print(f"Película: {pel} - Duración: {res.runtime.values} - Año: {res.release_year.values}")

In [None]:
#def get_movie_info(name):
#   """
#   Esta función recibe un parámetro que es el nombre de la película y devuelve el nombre de la película, la duración (runtime) y el año de estreno (release_year).

#   Args:
#     name: El nombre de la película.

#   Returns:
#     Un diccionario con los siguientes campos:
#       name: El nombre de la película.
#       runtime: La duración de la película en minutos.
#       release_year: El año de estreno de la película.
#   """

  # Importamos la biblioteca Pandas.
  # import pandas as pd

  # Leemos el archivo CSV que contiene la información de las películas.
  # df = pd.read_csv("movies.csv")

  # Filtramos el DataFrame por el nombre de la película.
  # df = df_movies[df_movies["title"] == name]

  # Obtenemos el nombre de la película, la duración y el año de estreno.
  # movie = df["title"].iloc[0]
  # runtime = df["runtime"].iloc[0]
  # release_year = df["release_year"].iloc[0]

  # Devolvemos un diccionario con los datos obtenidos.
  # return {"Película": movie, "Duración": runtime, "Año": release_year}

In [None]:
# p = input("Ingresa el nombre de la película: ")
# get_movie_info(p)

In [None]:
def franquicia( Franquicia: str ):
    '''Se ingresa la franquicia, retornando la cantidad de peliculas, ganancia
    total y promedio
    Ejemplo de retorno: La franquicia X posee X peliculas, una ganancia total de x y una ganancia promedio de xx '''
    # f = df_movies[df_movies["belongs_to_collection"] == Franquicia]
    f = df[df["belongs_to_collection"] == Franquicia]
    cant_pel = len(f)
    ganancia_total = f.revenue.sum()
    promed = ganancia_total / 3
    # print(f"La franquicia: {Franquicia} posee: {cant_pel} películas - Ganancia total: {ganancia_total} y Ganancia promedio de: {promed:.2f}")
    return {'franquicia':Franquicia, 'cantidad':cant_pel, 'ganancia_total':ganancia_total, 'ganancia_promedio':round(promed, 2)}

In [None]:
name_franq = input("Ingresa una franquicia: ")
franquicia(name_franq)

In [None]:
# df_movies["belongs_to_collection"].to_string()
# df["belongs_to_collection"].to_string()

In [None]:
# f = df_movies[df_movies["belongs_to_collection"] == "Balto Collection"] # "Balto Collection" "Toy Story Collection" "Ace Ventura Collection" "Chili Palmer Collection"
# cant_pel = len(f)
# ganancia_total = f.revenue.sum()
# promed = ganancia_total / 3
# print(f"Cantidad de películas: {cant_pel} - Ganancia total: {ganancia_total} - Promedio: {promed:.2f}")
# print(cant_pel)
# print(ganancia_total)
# print(promed)
# print(len(f))

In [None]:
# franq_name = input("Ingresa una franquicia: ")
# franq = df_movies["belongs_to_collection"] == franq_name  # "Toy Story Collection" Balto Collection Ace Ventura Collection Chili Palmer Collection

In [None]:
# df_movies.shape
df.shape

In [None]:
def peliculas_pais( Pais: str ):
    '''Se ingresa un país (como están escritos en el dataset, no hay que traducirlos!), retornando la 
    cantidad de peliculas producidas en el mismo.
    Ejemplo de retorno: Se produjeron X películas en el país X '''
    # prod_movies = df_movies[df_movies.production_countries.apply(pd.Series)[0] == Pais].count()
    #prod_movies = df[df.production_countries.apply(pd.Series)[0] == Pais].production_countries.count()
    # print(f"Se produjeron: {prod_movies.title} películas en el país: {Pais}")
    #return {'pais':Pais, 'cantidad':prod_movies}
    country_movies = Pais
    cont = 0
    for country in df["production_countries"]:
        for pais in country:
            # print(pais)
            if pais == country_movies:
                cont += 1
    
    datos           = dict()
    
    if cont > 0:
        datos       = {
                    "pais"    : Pais,
                    "cantidad": cont
        }
        
    return datos

In [None]:
movie_by_country = input("Ingresa un país: ")
peliculas_pais(movie_by_country)

In [None]:
# df_movies.columns
# print(df_movies["production_countries"].to_string())
# print(df["production_countries"].to_string())

# df.columns
# print(df["production_countries"].to_string())

In [None]:
# pais = df_movies[df_movies["production_countries"] == "United States of America"]
# production_countries_list = df["production_countries"].str.split(",")
# pais = df_movies[df_movies["production_countries"][0] == 'United States of America']
# print(pais)

# funciona
# for country in df_movies["production_countries"]:
#     print(country)


# for i, country in enumerate(df_movies["production_countries"]):
#     print(i, country)
# country_movies = "United States of America"
# cont = 0
# for country in df_movies["production_countries"]:
#     for pais in country:
#         # print(pais)
#         #if pais == country_movies:
#         cont += 1
# print(cont) # 49397


# funciona
# for country in df["production_countries"]:
#     print(country[0])


# for i, country in enumerate(df["production_countries"]):
#     print(i, country)
# country_movies = "France"
# cont = 0
# for country in df["production_countries"]:
#     for pais in country:
#         # print(pais)
#         if pais == country_movies:
#             cont += 1
# print(cont) # 49397

In [None]:
# ver si una columna del dataframe es lista
# df_movies.applymap(lambda x: isinstance(x, list)).all()

In [None]:
# df_movies.production_countries.apply(pd.Series)[0].value_counts()
# df_movies.production_countries.apply(pd.Series)[0].count()
# df_movies[df_movies.production_countries.apply(pd.Series)[0] == 'Canada'].count()
# df_movies[df_movies.production_countries.apply(pd.Series)[0] == 'Germany'].head(10)
# (df_movies.production_countries.apply(pd.Series)[0] == 'Germany').head(10)
# j = df_movies[df_movies.production_countries.apply(pd.Series)[0] == 'United States of America'].count()
# print(j.title)

# print(df_movies.production_countries.apply(pd.Series)[0].to_string())


# df.production_countries.apply(pd.Series)[0].value_counts()
# df.production_countries.apply(pd.Series)[0].count()
# df[df.production_countries.apply(pd.Series)[0] == 'Canada'].count()
val = df[df.production_countries.apply(pd.Series)[0] == 'France']
type(val.production_countries.count())
# df[df.production_countries.apply(pd.Series)[0] == 'Canada'].value_counts() # error

# df_movies[df_movies.production_countries.apply(pd.Series)[0] == 'Germany'].head(10)
# (df_movies.production_countries.apply(pd.Series)[0] == 'Germany').head(10)
# j = df_movies[df_movies.production_countries.apply(pd.Series)[0] == 'United States of America'].count()
# print(j.title)

# print(df_movies.production_countries.apply(pd.Series)[0].to_string())

In [None]:
val = df[]

In [None]:
def productoras_exitosas( Productora: str ):
    '''Se ingresa la productora, entregandote el revenue total y la cantidad
    de peliculas que realizó.
    Ejemplo de retorno: La productora X ha tenido un revenue de x '''
    # producer = df_movies[df_movies.production_companies.apply(pd.Series)[0] == Productora]
    producer = df[df.production_companies.apply(pd.Series)[0] == Productora]
    # print(f"La productora {Productora} ha tenido un revenue de {producer.revenue.sum()} con {producer.title.count()} películas ")
    return {'productora':Productora, 'revenue_total': producer.revenue.sum(),'cantidad':producer.title.count()}

    # producer = df.filter(['production_companies', 'revenue'])[df.production_companies.apply(pd.Series)[0] == Productora]
    # return {'productora':Productora, 'revenue_total': producer.revenue.sum(),'cantidad':len(producer)}

#     prod = "Pixar Animation Studios"
#     cont = 0
#     for company in df["production_companies"]:
#         for productora in company:
#         # print(pais)
#             if productora == prod:
#                 cont += 1
            
#     print(cont)
    

In [None]:
# está mal el resultado
producer = input("Ingrese la productora: ")
productoras_exitosas(producer)

In [None]:
# producer = df.filter(['production_companies', 'revenue'])[df.production_companies.apply(pd.Series)[0] == "Pixar Animation Studios"]
Productora = "Pixar Animation Studios"
# producer = df.dropna(subset=['production_companies'])
# producer = df[df.production_companies.str.contains(Productora)]
# producer

# producer = df['production_companies'].str.contains(Productora, case=False)# .sum()
# print(producer.to_string())

prod = "Pixar Animation Studios"
cont = 0
for company in df["production_companies"]:
    for productora in company:
        # print(pais)
        if productora == prod:
            cont += 1
            
print(cont)

In [None]:
# La productora Pixar Animation Studios ha tenido un revenue de 2546355520.0 con 29 películas
# producer = df_movies[df_movies.production_companies.apply(pd.Series)[0] == 'Pixar Animation Studios'] #.head(10)
# producer
# print(producer.title.count())
# print(producer.revenue.sum())
# df_movies[df_movies.production_companies.apply(pd.Series)[0] == 'Ang Lee Productions'].count()


# producer = df[df.production_companies.apply(pd.Series)[0 o 1] == 'Pixar Animation Studios'] #.head(10)
# len(producer)
# print(producer.title.count())
# print(producer.revenue.sum())
# df_movies[df_movies.production_companies.apply(pd.Series)[0] == 'Ang Lee Productions'].count()

companies = df["production_companies"].tolist()

# Get the number of movies for each company
# count = {}
# for company in companies:
#     if company not in count:
#         count[company] = 0
#     count[company] += 1

# # Print the results
# print(count)

count = {}
for company in companies:
    company = tuple(company)
    if company not in count:
        count[company] = 0
    count[company] += 1

# Print the results
print(count)

In [None]:
# print(df_movies["production_companies"].to_string())
# print(df["production_companies"].to_string())
#df[df["production_companies"] == "Pixar Animation Studios"].count()

# def count_movies(company):
#     # df = pd.read_csv("movies.csv")
#     movies = df[df["production_companies"].str.contains(company)]
#     return len(movies)

# # Count the number of movies for Pixar Animation Studios
# number_of_movies = count_movies("Pixar Animation Studios")
# print(number_of_movies)

In [None]:
# resultados = df.dropna(subset=['production_companies'])
# # se filtra los registros que tienen coincidencia en la columna de prooductoras
# resultados = resultados.loc[resultados['production_companies'].str.contains("Pixar Animation Studios", case=False)]
   
# # se calcula la cantidad y la suma de ganancia  
# cantidad        = len(resultados)
# revenue_total   = resultados['revenue'].sum() 
# datos           = dict()
# if cantidad > 0:
#     datos   = {
#                     "productora"        : productora,
#                     "cantidad"          : cantidad,
#                     "revenue_total"     : revenue_total
#             }
# print (datos)

In [None]:
def get_director( nombre_director: str ):
    '''Se ingresa el nombre de un director que se encuentre dentro de un dataset debiendo devolver el éxito del
    mismo medido a través del retorno. Además, deberá devolver el nombre de cada película
    con la fecha de lanzamiento, retorno individual, costo y ganancia de la misma, en formato lista.'''
    # return {'director':nombre_director, 'retorno_total_director':respuesta, 
    # 'peliculas':respuesta, 'anio':respuesta,, 'retorno_pelicula':respuesta, 
    # 'budget_pelicula':respuesta, 'revenue_pelicula':respuesta}
    # director = df_movies[df_movies.crew.apply(pd.Series)[0] == nombre_director]
    director = df[df.crew.apply(pd.Series)[0] == nombre_director]
    movies = director['title'].tolist()
    rel_years = director.release_year.tolist()
    ind_returns = director["return"].tolist()
    costs = director.budget.tolist()
    revs = director.revenue.tolist()
    
    movie_data = []
    for movie, rel_year, ind_return, cost, rev in zip(movies, rel_years, ind_returns, costs, revs):
        movie_data.append([movie, rel_year, ind_return, cost, rev])
    
    movies_director_dicc = {}
    
    for lista in movie_data:
        # print(lista)
        print({'peliculas':lista[0], 'anio':lista[1], 'retorno_pelicula':lista[2], 
        'budget_pelicula':lista[3], 'revenue_pelicula':lista[4]})
        
    # total_revs = sum(director.revenue)
    # total_cost = sum(director.budget)
    
    
    total_ret_director = sum(director.revenue) / sum(director.budget)
    return {"retorno_total_director": total_ret_director}
    

In [None]:
director_movies = input("Ingresa un director: ")
get_director(director_movies)

In [None]:
# nombre_director = "Joe Johnston"
# director = df.loc[df['crew'].str.contains('Joe Johnston')]
# director.title


df[df["title"] == "Sense and Sensibility"]
# [
#     "Sense and Sensibility",
#     1995,
#     8.18,
#     16500000,
#     135000000
#   ],

In [None]:
# print(df_movies["crew"].to_string())
# print(df["crew"].to_string())

In [None]:
# director = df_movies[df_movies.crew.apply(pd.Series)[0] == 'Joe Johnston'] #.head(10)
# # director

# # print(sum(director.budget))
# movies = director['title'].tolist()
# # len(movies)
# # movies[0]
# rel_years = director.release_year.tolist()
# # rel_years[0]
# ind_returns = director["return"].tolist()
# costs = director.budget.tolist()
# # costs[1]
# revs = director.revenue.tolist()
# revs[0]
# print(type(cost))

# movies_director_dicc = {}
# movie_data = []

# for movie, rel_year, ind_return, cost, rev in zip(movies, rel_years, ind_returns, costs, revs):
#     movie_data.append([movie, rel_year, ind_return, cost, rev])
    
# movies_director_list = []
    
# for lista in movie_data:
#     # print(lista)
#     movies_director_list.append({'peliculas':lista[0], 'anio':lista[1], 'retorno_pelicula':lista[2], 
#         'budget_pelicula':lista[3], 'revenue_pelicula':lista[4]})

# print(movies_director_list)

# total_revs = sum(director.revenue)
# total_revs

# # costo total de las películas
# total_cost = sum(director.budget)
# total_cost

# total_ret_director = total_revs / total_cost
# total_ret_director
# print(retor_ind)

# movie_data = []
# for movie, rel_year, ind_return, cost, rev in zip(movies, rel_years, ind_returns, costs, revs):
#     movie_data.append([movie, rel_year, ind_return, cost, rev])

# for lista in movie_data:
#     # print(lista)
#     print({'peliculas':lista[0], 'anio':lista[1], 'retorno_pelicula':lista[2], 
#     'budget_pelicula':lista[3], 'revenue_pelicula':lista[4]})

# movie_data = []
# for movie, release_date, individual_return, cost, earnings in zip(movies, release_dates, individual_returns, costs, earnings):
#     movie_data.append([movie, release_date, individual_return, cost, earnings])


# print(movies)
# print(len(movies))

# print(type(director))
# director.title
# for inf in director:
#     print(director[inf].items())

# director = df_movies[df_movies.production_companies.apply(pd.Series)[0] == 'Ang Lee Productions'] #.head(10)
#producer
# print(producer.title.count())
# print(producer.revenue.sum())
# df_movies[df_movies.production_companies.apply(pd.Series)[0] == 'Ang Lee Productions'].count()

# ['Jumanji', 1995, 4.0430346, 65000000.0, 262797249.0]
# ['The Pagemaster', 1994, 0.5063217777777778, 27000000.0, 13670688.0]
# ['Honey, I Shrunk the Kids', 1989, 6.960130375, 32000000.0, 222724172.0]
# ['The Rocketeer', 1991, 1.4761904761904763, 42000000.0, 62000000.0]
# ['October Sky', 1999, nan, 0.0, 0.0]
# ['Jurassic Park III', 2001, 3.9653850430107527, 93000000.0, 368780809.0]
# ['Hidalgo', 2004, 1.0810345, 100000000.0, 108103450.0]
# ['The Wolfman', 2010, 0.0, 150000000.0, 0.0]
# ['Captain America: The First Avenger', 2011, 2.646926957142857, 140000000.0, 370569774.0]
# ['Not Safe for Work', 2014, nan, 0.0, 0.0]

In [62]:
# df_movies.columns
df.columns

Index(['belongs_to_collection', 'budget', 'genres', 'id', 'original_language',
       'overview', 'production_companies', 'production_countries', 'revenue',
       'release_date', 'runtime', 'tagline', 'title', 'return', 'release_year',
       'cast', 'crew'],
      dtype='object')

In [None]:
# df_movies.head(3)
# df_movies.info()
# print(df_movies.overview.to_string())
# df_movies.overview.isnull().value_counts()
# df_movies["overview"][0]
# df_movies["genres"]

In [63]:
# df_movies.shape
df.shape

(8880, 17)

**EDA**

In [64]:
df.head(1)

Unnamed: 0,belongs_to_collection,budget,genres,id,original_language,overview,production_companies,production_countries,revenue,release_date,runtime,tagline,title,return,release_year,cast,crew
0,Toy Story Collection,30000000.0,"[Animation, Comedy, Family]",862,en,"Led by Woody, Andy's toys live happily in his ...",[Pixar Animation Studios],[United States of America],373554033.0,1995-10-30,81.0,,Toy Story,12.451801,1995,"[Tom Hanks, Tim Allen, Don Rickles]",[John Lasseter]


In [None]:
df['budget'].corr(df['revenue'])

In [None]:
df[['budget', 'revenue']].plot(kind='box')

In [None]:
# plot = df['genres'].value_counts().plot(kind='bar', title='Géneros mas populares')
# plot.show()

# df[['budget', 'revenue']].plot(kind='scatter')

In [None]:
# conteo de nulos de la columna overview
# print(movies["overview"].isnull().sum())
# eliminar nulos
# movies.dropna(subset=["overview"], inplace = True)

# conteo de nulos
# print(movies["overview"].isnull().sum())

**Arreglo de las columnas escogidas para el modelo**

In [None]:
# df_movies.head(2)

In [65]:
df["overview"] = df["overview"].apply(lambda x: str(x).split())
# df_movies["overview"] = df_movies["overview"].apply(lambda x: str(x).split())
# df_movies.overview
# print(df_movies.genres.to_string())

In [66]:
df["genres"] = df["genres"].apply(lambda x: [i.replace(" ", "") for i in x])
df["cast"] = df["cast"].apply(lambda x: [i.replace(" ", "") for i in x])
df["crew"] = df["crew"].apply(lambda x: [i.replace(" ", "") for i in x])

# print(df_movies["crew"].to_string())

In [67]:
df["tags"] = df["overview"] + df["genres"] + df["cast"] + df["crew"]

In [68]:
# df_movies.head(2)
# df_movies[df_movies["title"] == "Avatar"]

In [69]:
new_df = df[["id", "title", "tags"]]

In [70]:
new_df

Unnamed: 0,id,title,tags
0,862,Toy Story,"[Led, by, Woody,, Andy's, toys, live, happily,..."
1,8844,Jumanji,"[When, siblings, Judy, and, Peter, discover, a..."
3,31357,Waiting to Exhale,"[Cheated, on,, mistreated, and, stepped, on,, ..."
5,949,Heat,"[Obsessive, master, thief,, Neil, McCauley, le..."
6,11860,Sabrina,"[An, ugly, duckling, having, undergone, a, rem..."
...,...,...,...
45290,293654,Corporate Event,"[Igor,, a, furniture, store, manager,, tries, ..."
45296,100152,Mars,"[Somewhere, deep,, deep, in, Russia, there, is..."
45297,62757,Savages,"[The, sea,, August,, interesting, and, simple,..."
45299,63281,Pro Lyuboff,"[У, девушки, Даши,, приехавшей, с, подругой, «..."


In [71]:
new_df.to_parquet('datasets/datasets_modelos/movies_model.parquet')
new_df.to_pickle("datasets/datasets_modelos/movies_model.pickle")
new_df.to_csv("datasets/datasets_modelos/movies_model.csv")

In [72]:
del df

In [73]:
new_df.head()
# new_df.info()

Unnamed: 0,id,title,tags
0,862,Toy Story,"[Led, by, Woody,, Andy's, toys, live, happily,..."
1,8844,Jumanji,"[When, siblings, Judy, and, Peter, discover, a..."
3,31357,Waiting to Exhale,"[Cheated, on,, mistreated, and, stepped, on,, ..."
5,949,Heat,"[Obsessive, master, thief,, Neil, McCauley, le..."
6,11860,Sabrina,"[An, ugly, duckling, having, undergone, a, rem..."


In [None]:
# new_df.to_parquet('movies.parquet')
# new_df.to_pickle("movies.pickle")
# new_df.to_csv("movies_model.csv")

In [None]:
new_df["tags"] = new_df["tags"].apply(lambda x: " ".join(x)) # sale un warning

In [None]:
new_df["tags"][0]

In [None]:
new_df["tags"] = new_df["tags"].apply(lambda x: x.lower()) # sale un warning

In [None]:
new_df.head()

In [None]:
# new_df[new_df["title"] == "Avatar"]

In [None]:
# movies_model = pd.read_parquet("datasets/movies.parquet")

In [None]:
# movies_model.head(1)
# movies_model.info()

**Creación del modelo**

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

In [None]:
cv = CountVectorizer(max_features=5000, stop_words="english")

In [None]:
# cv.fit_transform(movies_model["tags"]).toarray()

cv.fit_transform(new_df["tags"]).toarray()
cv.fit_transform(new_df["tags"]).toarray().shape

In [None]:
vectors = cv.fit_transform(new_df["tags"]).toarray()

In [None]:
# vectors
vectors[0]

In [None]:
cv.get_feature_names_out()
# len(cv.get_feature_names_out())

In [None]:
from nltk.stem.porter import PorterStemmer

In [None]:
ps = PorterStemmer()

In [None]:
def stem(text):
    y = []
    
    for i in text.split():
        y.append(ps.stem(i))
    
    return " ".join(y)

In [None]:
# ps.stem("loving")

In [None]:
#new_df["tags"][0]

In [None]:
# stem("led by woody, andy's toys live happily in his room until andy's birthday brings buzz lightyear onto the scene. afraid of losing his place in andy's heart, woody plots against buzz. but when circumstances separate buzz and woody from their owner, the duo eventually learns to put aside their differences. animation comedy family tomhanks timallen donrickles johnlasseter")

In [None]:
new_df["tags"] = new_df["tags"].apply(stem)

In [None]:
from sklearn.metrics.pairwise import cosine_similarity

In [None]:
cosine_similarity(vectors)

In [None]:
cosine_similarity(vectors).shape

In [None]:
similarity = cosine_similarity(vectors)