# 02. Data Engineering

In this notebook, we will transform the data to fit the format required for our model and we will create new features to add valuable info to it. 

To start this notebook we will use the DataFrame we generated in Cleaning_Data.

## Loading libraries and data

In [1]:
import numpy as np
import pandas as pd
import collections

Aquí cargo las 3 funciones que se utilizan para realizar las transformaciones. Dos de ellas ya se han visto en el primer notebook.

* **word_count**. Lo que hace esta función es devolver un contador a modo de diccionario en el que la key es el valor contenido de la variable que introducimos como input, y el value es el número de veces que ese valor sale en la variable del dataframe.


* **word_mean**. Te devuelve un diccionario parecido a word_count, pero en lugar de ser un contador el valor del diccionario es la media de la variable (revenue, o lo que se quiera). Esta función llama a word_count para saber el contador y así calcular la media.


* **media**. Esta función es para aplicarla a una serie. Lo que hace es sustituye el valor por el número correspondiente contenido en el diccionario que ha devuelto la función word_mean. Una vez se tiene esa lista de valores calcula la media y devuelve ese valor.
    - Es importante saber que hacer en el caso de que al utilizar un modelo e introducir películas a predecir que sucede cuando se introduce un valor que no aparece en el dataframe. Pongamos un ejemplo en el cual es la primera película de un director, que jamás ha salido en ninguna otra. Que valor se toma para esta persona? Esta función lo que toma es el valor medio que tienen todos los directores. He probado con introducir el mínimo pero el modelo comete fallos.

In [2]:
def word_count(dataframe, ref_variable):
    values_list = []
    
    for elements_list in dataframe[ref_variable]:
        for value in elements_list:
            values_list.append(value)
    
    return collections.Counter(values_list)


def word_mean(dataframe, column, variable):
    counter = word_count(dataframe, column)
    
    word_mean_dict = {}

    for i, x in enumerate(dataframe[column]):
        for name in x:
            if name not in word_mean_dict:
                word_mean_dict[name] = dataframe.get_value(i, variable) / counter[name]
            else:
                word_mean_dict[name] = word_mean_dict[name] + (dataframe.get_value(i, variable) / counter[name])
                
    return word_mean_dict

def media(lista):
    return np.mean(list(map(lambda x: diccionario[x] if x in diccionario else np.mean(list(diccionario.values())), lista))) 

In [3]:
reves = pd.read_pickle("data/cleaned_reves_df.pkl")

In [4]:
reves.head(2)

Unnamed: 0,directors,writers,belongs_to_collection,genres,homepage,original_language,production_companies,revenue,runtime,title,keywords,release_year,release_month,release_weekday,cast_names,cast_gender
0,[D.W. Griffith],"[Thomas Dixon Jr., D.W. Griffith, Frank E. Woods]",,"[Drama, History, War]",no,en,[Epoch Film Co.],11000000.0,193.0,The Birth of a Nation,"[ku klux klan, southern usa, patriotism, army,...",1915.0,2.0,0.0,"[Lillian Gish, Mae Marsh, Henry B. Walthall, M...","[1, 1, 2, 1, 0, 2, 2, 1, 2, 1, 2, 2, 0, 0, 0, ..."
1,[Cecil B. DeMille],"[Hector Turnbull, Jeanie Macpherson]",,[Drama],no,en,[Jesse L. Lasky Feature Play Company],137365.0,59.0,The Cheat,[],1915.0,12.0,0.0,"[Fannie Ward, Jack Dean, Sessue Hayakawa, Jame...","[1, 2, 2, 0, 0, 0, 0, 0, 0, 2, 2]"


## Let's perform some data transformation

#### Revenue & Release Year

Aquí lo que se hace es transformar la variable a predecir. Hay que tener en cuenta de que el precio de las entradas al cine ha ido cambiando con los años y no es lo mismo una película que haya recaudado 100 millones en 1930 que una en 2015. Para ello lo que se utiliza es una transformación en base al CPI. 

Los datos están obtenidos de esta web: https://www.usinflationcalculator.com/inflation/consumer-price-index-and-annual-percent-changes-from-1913-to-2008/

Y aquí la explicación de como hacer el cálculo: https://www.usinflationcalculator.com/frequently-asked-questions-faqs/#HowInflationCalculatorWorks

La tabla contenida en la web está descargada en un excel para su uso en pandas. La transformación se hace hasta el dato del cpi del año 2017.

In [5]:
cpi_df = pd.read_excel("data/CPI_data.xlsx")
cpi_dict = dict(zip(cpi_df["Year"], cpi_df["Avg"]))
reves["cpi"] = reves["release_year"].apply(lambda x: cpi_dict[x] if x in cpi_dict else 0)
reves["revenue_inflated"] = reves["revenue"] * (cpi_dict[2017] / reves["cpi"])

In [6]:
reves[["revenue", "revenue_inflated", "release_year", "title"]].sort_values(by = "revenue_inflated", ascending = False).head(5)

Unnamed: 0,revenue,revenue_inflated,release_year,title
58,400176500.0,7056925000.0,1939.0,Gone with the Wind
123,572000000.0,5392640000.0,1951.0,Alice in Wonderland
75,267447200.0,4021880000.0,1942.0,Bambi
4537,2787965000.0,3185399000.0,2009.0,Avatar
54,184925500.0,3147843000.0,1937.0,Snow White and the Seven Dwarfs


Esta celda únicamente la utilizo para probar el modelo. Ahora está puesta como que el criterio que utilizo es la variable revenue_inflated. Pero también se podría hacer pruebas para ver como funciona el modelo para la variable revenue, sin tener en cuenta la inflación.

In [7]:
criterio = "revenue_inflated"

#### Homepage 

Obtenemos el valor medio del revenue_inflated para las películas con homepage o no_homepage y sustimos.

In [8]:
no_homepage = reves.groupby("homepage")[criterio].describe()["mean"][0]
yes_homepage = reves.groupby("homepage")[criterio].describe()["mean"][1]
reves["homepage"] = reves["homepage"].apply(lambda x: no_homepage if x == "no" else yes_homepage)

#### Belongs to collection

As we explained in the first notebook, what we really need from this column is to know whether a movie belongs to a series or a collection or not. The name of the collection by itself woulnd't add any knowledge to our model. That's why we are going to overwrite this column with 2 possible values:
- 1 for movies that belong to a collection
- 0 for movies that don't

Lo que he hecho es calcular la media de revenue_inflated que tiene cada franquicia con la función word_mean. Y sustituyo ese valor en el dataframe. Para las películas que no son de ninguna franquicia en el diccionario están como si fuese la franquicia "No" con su correspondiente valor medio de revenue_inflated.

In [9]:
reves["belongs_to_collection"] = reves["belongs_to_collection"].apply(lambda x: ["No"] if pd.isnull(x) else [x])
diccionario = word_mean(reves, "belongs_to_collection", criterio)
reves["belongs_to_collection"] = reves["belongs_to_collection"].apply(media)

In [10]:
collection_dict = diccionario

In [11]:
reves[["belongs_to_collection", criterio, "title"]].sort_values(by = "belongs_to_collection", ascending = False).head(5)

Unnamed: 0,belongs_to_collection,revenue_inflated,title
75,4021880000.0,4021880000.0,Bambi
4537,3185399000.0,3185399000.0,Avatar
118,2680976000.0,2680976000.0,Cinderella
233,1769783000.0,1769783000.0,One Hundred and One Dalmatians
2666,1584568000.0,1066831000.0,Star Wars: Episode III - Revenge of the Sith


#### Genres

From "Genres" we are going to create the following columns that will add more valuable an actionable information to reves:
- **Genres count:** We think that the number of genres associated to a movie could be related to the complexity of the plot, and eventually to the movie's potential revenue.
- **Dummy genres**: we will transform a list of N genres to N dummy columns that will contain 1 or 0 values according to whether the movie has that genre associated (1) or not (0).

Aquí pasa lo mismo, para cada género calculo su valor medio de revenue_inflated con la función word_mean y luego sustituyo por cada película

In [12]:
reves = reves[reves["genres"].str.len() != 0].reset_index(drop = True)
diccionario = word_mean(reves, "genres", criterio)
reves["genres"] = reves["genres"].apply(media)

In [13]:
genres_dict = diccionario

In [14]:
reves[["genres", criterio, "title"]].sort_values(by = "genres", ascending = False).head(5)

Unnamed: 0,genres,revenue_inflated,title
7036,267982000.0,16268460.0,Mune: Guardian of the Moon
2958,267982000.0,246089400.0,Pokémon: The First Movie: Mewtwo Strikes Back
2100,267982000.0,16162140.0,The Swan Princess
6596,267982000.0,254651200.0,The Peanuts Movie
983,267982000.0,48497060.0,The Black Cauldron


 
 
#### Original Language

As we stablished in the preliminar exploration, we will transform this feature into a categorical variable with 2 possible values:

- English = 1
- Not english = 0

Aquí hago lo mismo para cada idioma que aparece en el dataframe

In [15]:
reves["original_language"] = reves["original_language"].apply(lambda x: [x])
diccionario = word_mean(reves, "original_language", criterio)
reves["original_language"] = reves["original_language"].apply(media)

In [16]:
language_dict = diccionario

In [17]:
reves[["original_language", criterio, "title"]].sort_values(by = "original_language", ascending = False).head(5)

Unnamed: 0,original_language,revenue_inflated,title
0,118878300.0,266962400.0,The Birth of a Nation
4210,118878300.0,17395830.0,The Assassination of Jesse James by the Coward...
4208,118878300.0,94741250.0,The Sentinel
6768,118878300.0,31263460.0,Far from the Madding Crowd
4206,118878300.0,3371057.0,Killshot


  
#### Production company

Lo mismo que antes. Aquí primero elimino las películas que no tienen datos de productoras y luego creo una columna con el número de productoras que tiene la película

In [18]:
#production companies
reves = reves[reves["production_companies"].str.len() != 0].reset_index(drop = True)
reves["production_companies_counter"] = reves["production_companies"].apply(lambda x: len(x))
diccionario = word_mean(reves, "production_companies", criterio)
reves["production_companies"] = reves["production_companies"].apply(media)

In [19]:
production_company_dict = diccionario

In [20]:
reves[["production_companies", criterio, "title"]].sort_values(by = "production_companies", ascending = False).head(5)

Unnamed: 0,production_companies,revenue_inflated,title
95,2419100000.0,95324440.0,Spellbound
68,2419100000.0,105051400.0,Rebecca
434,1312827000.0,2436328000.0,The Exorcist
58,1281629000.0,7056925000.0,Gone with the Wind
2148,1113898000.0,12801720.0,Strange Days



#### Cast

Lo mismo. Lo que no hago es calcular cuantos actores hay en el reparto, porque luego a la hora de que el usuario interactúe, no es práctico ir metiendo todos los actores de la película (hay películas con más de 100 actores), entonces únicamente se tiene en cuenta los 4 actores principales.

In [21]:
#cast names
reves = reves[reves["cast_names"].str.len() != 0].reset_index(drop = True)
diccionario = word_mean(reves, "cast_names", criterio)
reves["cast_names"] = reves["cast_names"].apply(lambda x: x[:4])
reves["cast_names"] = reves["cast_names"].apply(media)

In [22]:
cast_dict = diccionario

In [23]:
reves[["cast_names", criterio, "title"]].sort_values(by = "cast_names", ascending = False).head(5)

Unnamed: 0,cast_names,revenue_inflated,title
75,4401261000.0,4021880000.0,Bambi
54,2769516000.0,3147843000.0,Snow White and the Seven Dwarfs
123,2297925000.0,5392640000.0,Alice in Wonderland
118,1889114000.0,2680976000.0,Cinderella
58,1870523000.0,7056925000.0,Gone with the Wind


Para el género lo que se tiene en cuenta es de los 4 actores principales cuantos son hombres y cuantas son mujeres.

In [24]:
#cast gender
reves = reves[reves["cast_gender"].str.len() != 0].reset_index(drop = True)

def contar_male(lista):   
    male = 0
    for genero in lista:
        if genero == 2:
            male += 1
    return male

def contar_female(lista):   
    female = 0
    for genero in lista:
        if genero == 1:
            female += 1
    return female

reves["cast_gender"] = reves["cast_gender"].apply(lambda x: x[:4])

reves["N_male"] = reves["cast_gender"].apply(contar_male)
reves["N_female"] = reves["cast_gender"].apply(contar_female)

#### Directors

Para los directores es lo mismo. Se calcula la media y se susituye el valor

In [25]:
reves = reves[reves["directors"].str.len() != 0].reset_index(drop = True)
diccionario = word_mean(reves, "directors", criterio)
reves["directors"] = reves["directors"].apply(media)

In [26]:
directors_dict = diccionario

In [27]:
reves[["directors", criterio, "title"]].sort_values(by = "directors", ascending = False).head(5)

Unnamed: 0,directors,revenue_inflated,title
58,3899356000.0,7056925000.0,Gone with the Wind
75,2730483000.0,4021880000.0,Bambi
54,2637869000.0,3147843000.0,Snow White and the Seven Dwarfs
83,2575623000.0,74691960.0,A Guy Named Joe
63,2065520000.0,40030390.0,The Women


#### Writers

Lo mismo que con los directores

In [28]:
reves = reves[reves["writers"].str.len() != 0].reset_index(drop = True)
diccionario = word_mean(reves, "writers", criterio)
reves["writers"] = reves["writers"].apply(media)

In [29]:
writers_dict = diccionario

In [30]:
reves[["writers", criterio, "title"]].sort_values(by = "writers", ascending = False).head(5)

Unnamed: 0,writers,revenue_inflated,title
58,4628770000.0,7056925000.0,Gone with the Wind
123,3052142000.0,5392640000.0,Alice in Wonderland
75,2517277000.0,4021880000.0,Bambi
54,2292087000.0,3147843000.0,Snow White and the Seven Dwarfs
118,1861384000.0,2680976000.0,Cinderella


#### Keywords

Para los keywords es exactamente lo mismo

In [31]:
reves = reves[reves["keywords"].str.len() != 0].reset_index(drop = True)
diccionario = word_mean(reves, "keywords", criterio)
reves["keywords"] = reves["keywords"].apply(media)

In [32]:
keywords_dict = diccionario

In [33]:
reves[["keywords", criterio, "title"]].sort_values(by = "keywords", ascending = False).head(5)

Unnamed: 0,keywords,revenue_inflated,title
119,1913561000.0,5392640000.0,Alice in Wonderland
55,1589665000.0,7056925000.0,Gone with the Wind
533,1384135000.0,3136395000.0,Star Wars
627,1085052000.0,1601609000.0,The Empire Strikes Back
288,1007425000.0,2227201000.0,The Sound of Music


#### Release Month and Release Weekday

Estas dos variables aunque son números, en realidad son categóricas por lo que se podría realizar la misma transformación. Con la media de revenue_inflated por cada valor y sustituir

In [34]:
reves = reves[reves["release_month"].notnull()].reset_index(drop = True)

reves["release_month"] = reves["release_month"].apply(lambda x: [x])
reves["release_weekday"] = reves["release_weekday"].apply(lambda x: [x])

diccionario = word_mean(reves, "release_month", criterio)
reves["release_month"] = reves["release_month"].apply(media)
month_dict = diccionario

diccionario = word_mean(reves, "release_weekday", criterio)
reves["release_weekday"] = reves["release_weekday"].apply(media)
weekday_dict = diccionario

Eliminamos las variables que no hacen falta para el modelo

In [35]:
reves.drop(["revenue", "title", "release_year", "cpi", "cast_gender"], axis = 1, inplace = True)

In [36]:
reves.head()

Unnamed: 0,directors,writers,belongs_to_collection,genres,homepage,original_language,production_companies,runtime,keywords,release_month,release_weekday,cast_names,revenue_inflated,production_companies_counter,N_male,N_female
0,266962400.0,266962400.0,70923800.0,105986000.0,79412970.0,118878300.0,266962400.0,193.0,226922500.0,82720770.0,140883900.0,175986000.0,266962400.0,1,1,3
1,179904600.0,196294600.0,70923800.0,166715100.0,79412970.0,118878300.0,179904600.0,105.0,117570700.0,179744800.0,90587220.0,179904600.0,179904600.0,1,0,0
2,129864900.0,129864900.0,70923800.0,82792680.0,79412970.0,118878300.0,129864900.0,93.0,214913200.0,82513730.0,127917600.0,146860600.0,129864900.0,1,1,1
3,71121130.0,71121130.0,70923800.0,82792680.0,79412970.0,118878300.0,44549150.0,68.0,122595400.0,55217100.0,83165840.0,40694360.0,34234640.0,2,2,1
4,2919561.0,4166173.0,70923800.0,73531050.0,79412970.0,118878300.0,5839109.0,117.0,58429990.0,55217100.0,169155400.0,10520700.0,5839109.0,1,1,0


In [37]:
reves.to_pickle("data/reves.pkl")

### Values for the dataframe transformation

Esta celda a continuación es únicamente guardar los diccionarios generados en un pickle para su uso posterior a la hora de probar el modelo con películas nuevas. Las guardo en una carpeta llamada "transformation".

Hay que tener en cuenta que en cuanto se prueba el modelo para películas nuevas, se va poniendo los datos y hacen falta estos diccionarios para realizar las transformaciones correspondientes.

In [38]:
homepage_dict = {"yes" : yes_homepage, "no" : no_homepage}

In [39]:
import pickle

homepage_dict = {"yes" : yes_homepage, "no" : no_homepage}
with open("transformation/homepage_dict.pickle", "wb") as handle:
    pickle.dump(homepage_dict, handle, protocol=pickle.HIGHEST_PROTOCOL)

with open("transformation/collection_dict.pickle", "wb") as handle:
    pickle.dump(collection_dict, handle, protocol=pickle.HIGHEST_PROTOCOL)
    
with open("transformation/genres_dict.pickle", "wb") as handle:
    pickle.dump(genres_dict, handle, protocol=pickle.HIGHEST_PROTOCOL)

with open("transformation/language_dict.pickle", "wb") as handle:
    pickle.dump(language_dict, handle, protocol=pickle.HIGHEST_PROTOCOL)
    
with open("transformation/production_company_dict.pickle", "wb") as handle:
    pickle.dump(production_company_dict, handle, protocol=pickle.HIGHEST_PROTOCOL)
    
with open("transformation/cast_dict.pickle", "wb") as handle:
    pickle.dump(cast_dict, handle, protocol=pickle.HIGHEST_PROTOCOL)
    
with open("transformation/directors_dict.pickle", "wb") as handle:
    pickle.dump(directors_dict, handle, protocol=pickle.HIGHEST_PROTOCOL)
    
with open("transformation/writers_dict.pickle", "wb") as handle:
    pickle.dump(directors_dict, handle, protocol=pickle.HIGHEST_PROTOCOL)
    
with open("transformation/keywords_dict.pickle", "wb") as handle:
    pickle.dump(keywords_dict, handle, protocol=pickle.HIGHEST_PROTOCOL)
    
with open("transformation/month_dict.pickle", "wb") as handle:
    pickle.dump(month_dict, handle, protocol=pickle.HIGHEST_PROTOCOL)
    
with open("transformation/weekday_dict.pickle", "wb") as handle:
    pickle.dump(weekday_dict, handle, protocol=pickle.HIGHEST_PROTOCOL)