# Aprendizagem de máquina aplicada à previsão de premiações em metadados de cinema

Esse trabalho tem como objetivo investigar como os dados de orçamento, receita, data de lançamento, linguagens, país de produção e empresas produtoras, palavras-chave da trama, créditos de elenco e equipe influenciam nas chances de premiação no Oscar. Especificamente, objetiva-se:

- detectar quais fatores são os mais preditivos com relação à chance de nomeação ou vitória de um filme no Oscar, e com qual grau de certeza é possível fazer essa previsão;
- prever quais as categorias mais prováveis de premiação;
- considerar dados adicionais que possam complementar a atividade preditiva;
- analisar a importância individual dos fatores nas indicações e premiações;
- extrapolar as conclusões, se possível, para fatores que influenciam e permitem o cálculo de chances de indicações e vitórias em outras premiações.

A metodologia para fazer essa investigação seguirá os seguintes passos:

1. [utilização de histórico de metadados de filmes e indicações ao Oscar](#1) obtidos na plataforma Kaggle;
2. [limpeza e tratamento dos dados](#2), verificando-se por dados faltantes, espúrios, e extremos indicados por meio de análises de distribuição;
3. criação de um [arcabouço de análise exploratória](#3) em ambiente Python fazendo-se uso dos pacotes Pandas, Numpy, e Scikit Learn;
4. criação de [modelos de regressão](#4) para a chance de premiação, utilizando redes neurais;
5. avaliação comparativa dos resultados usando as métricas de mean squared error, root mean squared error, e mean absolute error;
6. avaliação da importância de cada fator (metadado) baseando-se no feedback dos algoritmos testados;
7. interpretação dos resultados para elaboração das conclusões com indicação das técnicas mais promissoras.

<a id="1"></a>
## 1. Utilização de histórico de metadados e indicações ao Oscar do Kaggle

In [None]:
# importação das bibliotecas utilizadas
import json
from difflib import SequenceMatcher
from math import ceil

import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import seaborn as sns
from mpl_toolkits.mplot3d import Axes3D
from sklearn.decomposition import PCA
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from tensorflow import keras
from tensorflow.keras.optimizers import RMSprop, Adadelta, Adam

print('Imports concluded')

In [None]:
# Marcar como True para reproduzir as etapas mais lentas e verbosas do processo
VERBOSE = False

print(f'VERBOSE: {VERBOSE}')

In [None]:
# carregando os filmes indicados ou vencedores do Oscar em um dataframe
# e examinando as características do dataframe
oscar_nominations = pd.read_csv('/kaggle/input/the-oscar-award/the_oscar_award.csv')

oscar_nominations.info()
oscar_nominations.describe()

In [None]:
# A única coluna com itens faltantes é a coluna film.
# Vamos explorar as linhas em que faltam esses dados para entender o porquê,
# e em quais categorias isso está ocorrendo
print(oscar_nominations[oscar_nominations['film'].isnull()]['category'].unique())
oscar_nominations[oscar_nominations['film'].isnull()].head()

In [None]:
# Alguns desses casos se tratam de prêmios honorários, humanitários e memoriais -
# ou seja, não relacionados a filmes específicos. Podemos desconsiderar essas linhas
rows_to_drop = oscar_nominations[
    (oscar_nominations['category'] == 'HONORARY AWARD') |
    (oscar_nominations['category'] == 'SPECIAL AWARD') |
    (oscar_nominations['category'] == 'IRVING G. THALBERG MEMORIAL AWARD') |
    (oscar_nominations['category'] == 'JEAN HERSHOLT HUMANITARIAN AWARD') |
    (oscar_nominations['category'] == 'SPECIAL ACHIEVEMENT AWARD')
].index

oscar_nominations = oscar_nominations.drop(rows_to_drop)

print(oscar_nominations[oscar_nominations['film'].isnull()]['category'].unique())
oscar_nominations[oscar_nominations['film'].isnull()].head()

In [None]:
# As linhas restantes com dados faltantes na coluna filme são de categorias
# que precisam necessariamente estar ligadas a um filme.

# Para duas dessas categorias, ligadas a filmes estrangeiros, o nome do filme parece constar
# na coluna 'name'

for row in oscar_nominations[
    (oscar_nominations['category'] == 'SPECIAL FOREIGN LANGUAGE FILM AWARD') |
    (oscar_nominations['category'] == 'HONORARY FOREIGN LANGUAGE FILM AWARD')
].iterrows():
    print(row[1][4])

# em todos esses casos, com exceção do último, o nome do filme consta na coluna 'name',
# seguido de hífen. Podemos aplicar a mesma regra para todos os casos, e transpor o nome do
# filme para a coluna film
oscar_nominations['film'] = oscar_nominations.apply(
    lambda x: x['name'].split('-')[0] if x['category'] in (
        'SPECIAL FOREIGN LANGUAGE FILM AWARD', 'HONORARY FOREIGN LANGUAGE FILM AWARD'
    )
    else x['film'],
    axis=1
)

In [None]:
# Com os dados dessas categorias corrigidos,
# é hora de checar os dados que ainda são faltantes
print(oscar_nominations[oscar_nominations['film'].isnull()]['category'].unique())
oscar_nominations[oscar_nominations['film'].isnull()].head()

In [None]:
# Outras linhas com dados faltantes na coluna 'film' são de obtenção difícil ou imprecisa:
# um assistente de direção, por exemplo, pode ter tido mais de um filme lançado num mesmo
# ano, o que faria a checagem dos dados restantes muito trabalhosa.
# Essas colunas serão ignoradas.
rows_to_drop = oscar_nominations[
    (
        (oscar_nominations['category'] == 'ENGINEERING EFFECTS') |
        (oscar_nominations['category'] == 'WRITING (Title Writing)') |
        (oscar_nominations['category'] == 'SOUND RECORDING') |
        (oscar_nominations['category'] == 'ASSISTANT DIRECTOR')
    ) & (oscar_nominations['film'].isnull())
].index

oscar_nominations = oscar_nominations.drop(rows_to_drop)

oscar_nominations.info()

In [None]:
# Um fato que pode ser observado analisando esses dados restantes é que algumas das
# categorias tiveram mudanças de nomes - como foi o caso na premiação de filme de língua
# estrangeira. Já outras categorias desapareceram da premiação ("melhor filme em preto e
# branco") ou foram incluídas.

# A categoria mais recente incluída na premiação é a de melhor filme de animação, criada em
# 2002. Por isso, iremos desconsiderar filmes anteriores a essa data.

rows_to_drop = oscar_nominations[(oscar_nominations['year_ceremony'] < 2002)].index
oscar_nominations = oscar_nominations.drop(rows_to_drop)

# Iremos desconsiderar ainda a premiação de edição de som (sound editing),
# que foi descontinuada em 2019, a única removida após o ano de 2002.
rows_to_drop = oscar_nominations[(oscar_nominations['category'] == 'SOUND EDITING')].index
oscar_nominations = oscar_nominations.drop(rows_to_drop)

list(oscar_nominations['category'].unique())

In [None]:
# Algumas dessas categorias também precisaram de consolidação, já que seus nomes
# aparecem de formas diferentes. Foram utilizados os nomes mais recentes.

category_renaming = {
    'FOREIGN LANGUAGE FILM': 'INTERNATIONAL FEATURE FILM',
    'ART DIRECTION': 'PRODUCTION DESIGN',
    'WRITING (Screenplay Based on Material Previously Produced or Published)': 'WRITING (Adapted Screenplay)',
    'WRITING (Screenplay Written Directly for the Screen)': 'WRITING (Original Screenplay)',
    'SOUND MIXING': 'SOUND',
    'MAKEUP': 'MAKEUP AND HAIRSTYLING',
}

oscar_nominations['category'] = oscar_nominations.apply(
    lambda x: category_renaming[x['category']]
    if x['category'] in category_renaming
    else x['category'],
    axis=1
)

# Checando que agora temos as 23 categorias atuais do Oscar
list(oscar_nominations['category'].unique())

In [None]:
# Agora precisamos integrar os esquemas dos datasets do Oscar e de metadados de filmes.

# carregando os metadados de todos os filmes
movies_metadata = pd.read_csv(
    '/kaggle/input/the-movies-dataset/movies_metadata.csv',
)

# converter coluna release_date para datetime
movies_metadata['release_date'] = movies_metadata['release_date'].apply(
    lambda x: pd.to_datetime(x, errors='coerce'),
)

# examinando as características do dataframe
movies_metadata.info()
movies_metadata.describe()

In [None]:
# Adicionando uma coluna com o ano de lançamento do filme
movies_metadata['release_year'] = movies_metadata['release_date'].apply(lambda x: float(x.year))
movies_metadata['release_year'].describe()

<a id="2"></a>
## 2. Limpeza e tratamento dos dados

In [None]:
# Tratamentos de formato de colunas
def convert_to_float(x):
    if isinstance(x, float) or isinstance(x, int):
        return float(x)
    elif isinstance(x, str) and x.isnumeric():
        return float(x)
    else:
        return 0.0

# Convertendo as colunas adult, video, budget e popularity para float
for column in [
    'adult',
    'video',
    'budget',
    'popularity',
]:
    movies_metadata[column] = movies_metadata[column].apply(convert_to_float)
    print(f'Converted column {column} on movies dataset')

In [None]:
# Há títulos originais erroneamente em formato json na tabela. Vamos analisá-los
json_titles = [
    title for title in movies_metadata['original_title'].values if not isinstance(title, float) and "{" in title
]

movies_to_adjust = movies_metadata.loc[
    movies_metadata['original_title'].isin(json_titles)
]

movies_to_adjust

In [None]:
# Essas três instâncias parecem ter o mesmo problema: colunas desalinhadas pela falta de algum valor.
# É possível que estejam na seguinte ordem:
# overview, popularity, poster_path, production_companies, production_countries, release_date, revenue, runtime, spoken_languages, 'status', 'tagline', 'title', 'video', 'vote_average', 'vote_count', 'adult', 'belongs_to_collection', 'budget', 'genres', 'homepage', 'id', 'imdb_id', 'original_language', 'original_title', 
# na impossibilidade de confirmar exatamente quais dados pertencem a quais colunas, vamos eliminá-los
movies_metadata.drop(movies_to_adjust.index, inplace=True)
print('Dropped broken instances')

In [None]:
# Confirmando a exclusão
json_titles = [
    title for title in movies_metadata['original_title'].values if not isinstance(title, float) and "{" in title
]

movies_to_adjust = movies_metadata.loc[
    movies_metadata['original_title'].isin(json_titles)
]

movies_to_adjust

In [None]:
def days_since_start_of_year(release_date):
    start_of_year = release_date.replace(day=1, month=1)
    days = float((release_date - start_of_year).days)
    return days

# Convertendo release_date em um inteiro release_day, que representa 
# o número de dias desde o começo do ano até o lançamento
movies_metadata['release_day'] = movies_metadata['release_date'].apply(days_since_start_of_year)

# Conferindo a transformação em release_day
movies_metadata[['title', 'release_date', 'release_day']]

In [None]:
# removendo a coluna release_date
movies_metadata.drop('release_date', 1, inplace=True)
print('Dropped column release_date')

In [None]:
# Precisamos retirar os filmes pós 2017 do dataset do oscar, já que não estão presentes no The Movie Dataset
rows_to_drop = oscar_nominations[(oscar_nominations['year_film'] > 2017)].index
oscar_nominations = oscar_nominations.drop(rows_to_drop)

oscar_nominations['year_film'].describe()

In [None]:
# Precisamos retirar os filmes pré-2001 e pós 2017 que existam no The Movie Dataset
rows_to_drop = movies_metadata[
    (movies_metadata['release_year'] < 2001) |
    (movies_metadata['release_year'] > 2017)
].index
movies_metadata = movies_metadata.drop(rows_to_drop)

movies_metadata['release_year'].describe()

In [None]:
# Criando uma função de normalização de nomes para comparação entre os dois datasets
# Essa função será utilizada para evitar que nomes idênticos não sejam encontrados por conta de
# pontuação, capitalização ou caracteres especiais encontrados em exemplos de nomes de filmes
def normalize(name):
    normalized_name = name
    try:
        normalized_name = normalized_name.lower()

        for character in [
            ':', '!', '?', ' -', '- ', '-', '/', '.', '·', ',', '"', '\u200e'
        ]:
            normalized_name = normalized_name.replace(character, '')

        for character_to_replace, replacement in {
            'ž': 'z',
            'ń': 'n',
            '&': 'and',
            '...': ' ',
        }.items():
            if character_to_replace in normalized_name:
                normalized_name = normalized_name.replace(character_to_replace, replacement)

        normalized_name = normalized_name.strip()
                
    except:
        pass

    return normalized_name

for column in [
    'title', 'original_title'
]:
    movies_metadata[f'normalized_{column}'] = movies_metadata[column].apply(normalize)
    print(f'Normalized column {column} in the movies dataset')
    
for column in [
    'film'
]:
    oscar_nominations[f'normalized_{column}'] = oscar_nominations[column].apply(normalize)
    print(f'Normalized column {column} in the Oscar dataset')

In [None]:
# checar filmes do Oscar que não estão no dataset de metadados,
# considerando títulos exatos e dando margem de +- 2 anos de diferença
# entre as datas existentes nas tabelas
not_found_movies = []
found_movies = []

total_nominations = len(oscar_nominations)

i = 0
for nomination in oscar_nominations.iterrows():
    i += 1
    print(f'Analysing nomination {i} of {total_nominations}', end='\r')
    
    data = nomination[1]
    normalized_film = data['normalized_film']
    year_film = data['year_film']
    
    found_title = None
    
    # Checando nos títulos em inglês
    if len(
        movies_metadata.loc[
            (movies_metadata['normalized_title'] == normalized_film) & 
            (movies_metadata['release_year'] >= year_film - 2) &
            (movies_metadata['release_year'] <= year_film + 2)
        ]
    ):
        found_title = normalized_film

    # Checando nos títulos originais
    elif len(
        movies_metadata.loc[
            (movies_metadata['normalized_original_title'] == normalized_film) & 
            (movies_metadata['release_year'] >= year_film - 2) &
            (movies_metadata['release_year'] <= year_film + 2)
        ]
    ):
        # separar título em inglês
        found_title = movies_metadata.loc[
            (movies_metadata['normalized_original_title'] == normalized_film) & 
            (movies_metadata['release_year'] >= year_film - 2) &
            (movies_metadata['release_year'] <= year_film + 2)
        ]['normalized_title'].values[0]
    
    # Se não encontrado, considerar caso especial: filmes com os dois títulos no nome,
    # separados por parênteses, "'s" ou outros caracteres especiais
    else:
        titles = [
            title.strip() for title in
            normalized_film.replace("'s", '*****').replace('(', '*****').replace(')', '*****').split('*****')
            if title
        ]
        
        for title in titles:
            # título parcial encontrado na coluna normalized_title
            if len(
                movies_metadata.loc[
                    (movies_metadata['normalized_title'] == title) & 
                    (movies_metadata['release_year'] >= year_film - 2) &
                    (movies_metadata['release_year'] <= year_film + 2)
                ]
            ):
                found_title = title
            
            # título parcial encontrado na coluna normalized_original_title
            elif len(
                movies_metadata.loc[
                    (movies_metadata['normalized_original_title'] == title) & 
                    (movies_metadata['release_year'] >= year_film - 2) &
                    (movies_metadata['release_year'] <= year_film + 2)
                ]
            ):
                found_title = movies_metadata.loc[
                    (movies_metadata['normalized_original_title'] == title) & 
                    (movies_metadata['release_year'] >= year_film - 2) &
                    (movies_metadata['release_year'] <= year_film + 2)
                ]['normalized_title'].values[0]
                
            
    if found_title:
        found_movies.append((found_title, year_film))

        found_year = movies_metadata.loc[
            (movies_metadata['normalized_title'] == found_title) & 
            (movies_metadata['release_year'] >= year_film - 2) &
            (movies_metadata['release_year'] <= year_film + 2)
        ]['release_year'].values[0]
        
        # se o título encontrado é diferente do presente no dataset dos Oscars, atualizar o dataset
        if found_title != normalized_film:            
            oscar_nominations.loc[
                (oscar_nominations['normalized_film'] == normalized_film) & 
                (oscar_nominations['year_film'] == year_film),
                'normalized_film'
            ] = found_title
        
        # se o ano encontrado é diferente do presente no dataset dos Oscars, atualizar o dataset
        if found_year != year_film:            
            oscar_nominations.loc[
                (oscar_nominations['normalized_film'] == normalized_film) & 
                (oscar_nominations['year_film'] == year_film),
                'year_film'
            ] = found_year

    else:
        not_found_movies.append((normalized_film, year_film))
    
        
found_movies = list(set(found_movies))
print('\n\nFound', len(found_movies), 'movies')

not_found_movies = list(set(not_found_movies))
print('Did not find', len(not_found_movies), 'movies')

In [None]:
# Checar caso a caso filmes que podem estar com nomes levemente diferentes,
# (ou com anos de lançamento diferentes) em cada um dos dois datasets,
# realizando uma análise de similaridade entre os títulos normalizados
# e considerando até dois anos de margem de erro para mais ou para menos

def similarity(a, b):
    try:
        return SequenceMatcher(None, a, b).ratio()
    except:
        return 0


i = 0
total = len(not_found_movies)
possibly_found = {}

if not VERBOSE:
    print('Skipping')
else:
    for oscar_title, year_film in not_found_movies:
        i += 1
        print(f'Analysing not found movie {i} of {total}', end="\r")
        best_match = 0

        for movie in movies_metadata.iterrows():
            data = movie[1]
            normalized_title = data['normalized_title']
            normalized_original_title = data['normalized_original_title']
            release_year = data['release_year']

            # análise 1 - similaridade com o título em inglês
            normalized_title_similarity = similarity(oscar_title, normalized_title)
            if (normalized_title_similarity > best_match) and (release_year - 2 <= year_film <= release_year + 2):
                best_match = normalized_title_similarity
                possibly_found[oscar_title, year_film] = (
                    'normalized_title',
                    normalized_title,
                    release_year,
                    normalized_title_similarity,
                )

            # análise 2 - similaridade com o título original
            normalized_original_title_similarity = similarity(oscar_title, normalized_original_title)
            if (normalized_original_title_similarity > best_match) and (release_year - 2 <= year_film <= release_year + 2):
                best_match = normalized_original_title_similarity
                possibly_found[oscar_title, year_film] = (
                    'normalized_original_title',
                    normalized_original_title,
                    release_year,
                    normalized_original_title_similarity,
                )

    possibly_found
    
    # Salvar possibly_found em arquivo - sem ordenação
    with open('possibly_found', 'w') as file:
        file.write(str(possibly_found))

    possibly_found_formatted = sorted(
        [
            (title_oscar, oscar_year, title_field, title_metadata, metadata_year, title_similarity)
            for (title_oscar, oscar_year), (title_field, title_metadata, metadata_year, title_similarity)
            in possibly_found.items()
        ],
        key=lambda x: x[4]
    )

    print('Not found movies:', possibly_found_formatted, end='\n\n')

    # Salvar possibly_found em arquivo - com ordenação
    with open('possibly_found_formatted', 'w') as file:
        file.write(str(possibly_found_formatted))
        print('file created')

In [None]:
# Títulos equivalentes que podem ser reconhecidos nas duas listas a partir do arquivo gerado:
movies_to_rename = {
    ("glen campbelli'll be me", 2014): ('normalized_title', "glen campbell i'll be me", 2014.0, 0.9787234042553191),
    ('mt head', 2002): ('normalized_title', 'mount head', 2002.0, 0.8235294117647058),
    ('the story of the weeping camel', 2004): ('normalized_title', 'the weeping camel', 2003.0, 0.723404255319149),
    ('the lady and the reaper (la dama y la muerte)', 2009): ('normalized_title', 'the lady and the reaper', 2009.0, 0.6764705882352942),
    ('harry potter and the sorcerer\'s stone', 2001): ('normalized_title', 'harry potter and the philosopher\'s stone', 2001.0, 0.8533333333333334),
    ('wardance', 2007): ('normalized_title', 'war dance', 2007.0, 0.9411764705882353),
    ('wallace and gromit in the curse of the wererabbit', 2005): ('normalized_title', 'the curse of the wererabbit', 2005.0, 0.7105263157894737),
    ('the lady in number 6 music saved my life', 2013): ('normalized_title', 'the lady in number 6', 2013.0, 0.6666666666666666),
    ('5 broken cameras', 2012): ('normalized_title', 'five broken cameras', 2011.0, 0.8571428571428571),
    ("precious based on the novel 'push' by sapphire", 2009): ('normalized_title', 'precious', 2009.0, 0.2962962962962963),
    ('birdman or (the unexpected virtue of ignorance)', 2014): ('normalized_title', 'birdman', 2014.0, 0.25925925925925924),
}

# padronizar a tabela do Oscar a partir dos dados da tabela de metadados
for oscar_movie, metadata_movie in movies_to_rename.items():
    oscar_title = oscar_movie[0]
    oscar_year = oscar_movie[1]

    metadata_title = metadata_movie[1]
    metadata_year = metadata_movie[2]
    
    print(f'Renaming movie "{oscar_title}" ({oscar_year}) to "{metadata_title}" ({metadata_year})')
    
    oscar_nominations.loc[
        (oscar_nominations['normalized_film'] == oscar_title) & 
        (oscar_nominations['year_film'] == oscar_year),
        ['normalized_film', 'year_film']
    ] = metadata_title, metadata_year

In [None]:
# Finalmente as duas tabelas estão prontas para serem integradas
# Vamos usar one-hot enconding e utilizar abreviações para os nomes das categorias

CATEGORY_CODES = {
    'ACTOR IN A LEADING ROLE': 'leading_actor',
    'ACTOR IN A SUPPORTING ROLE': 'supporting_actor',
    'ACTRESS IN A LEADING ROLE': 'leading_actress',
    'ACTRESS IN A SUPPORTING ROLE': 'supporting_actress',
    'ANIMATED FEATURE FILM': 'animated_feature',
    'PRODUCTION DESIGN': 'production_design',
    'CINEMATOGRAPHY': 'cinematography',
    'COSTUME DESIGN': 'costume_design',
    'DIRECTING': 'directing',
    'DOCUMENTARY (Feature)': 'documentary_feature',
    'DOCUMENTARY (Short Subject)': 'documentary_short subject',
    'FILM EDITING': 'editing',
    'INTERNATIONAL FEATURE FILM': 'international_feature',
    'MAKEUP AND HAIRSTYLING': 'makeup',
    'MUSIC (Original Score)': 'original_score',
    'MUSIC (Original Song)': 'original_song',
    'BEST PICTURE': 'best_picture',
    'SHORT FILM (Animated)': 'animated_short',
    'SHORT FILM (Live Action)': 'live_action_short',
    'SOUND': 'sound',
    'VISUAL EFFECTS': 'visual_effects',
    'WRITING (Adapted Screenplay)': 'writing_adapted',
    'WRITING (Original Screenplay)': 'writing_original',
}

category_slugs = CATEGORY_CODES.values()

# Criando as colunas para indicação e vitória em cada categoria
for category in category_slugs:    
    movies_metadata[f'nominated_{category}'] = 0.0
    movies_metadata[f'won_{category}'] = 0.0
    
movies_metadata['year_ceremony'] = None

i = 0
found_movies = []
found_nominations = 0
for index, nomination_data in oscar_nominations.iterrows():
    i += 1
    print(f'Analysing nomination {i} of {total_nominations}', end='\r')
    title = nomination_data['normalized_film']
    year_film = float(nomination_data['year_film'])
    year_ceremony = float(nomination_data['year_ceremony'])

    category = nomination_data['category']
    category_code = CATEGORY_CODES[category]
    winner = float(nomination_data['winner'])

    correlated_movies = movies_metadata.loc[
        (movies_metadata['normalized_title'] == title) & 
        (movies_metadata['release_year'] == year_film),
        [f'nominated_{category_code}', f'won_{category_code}', 'year_ceremony']
    ]
    
    if len(correlated_movies) == 1:
        found_nominations += 1
        found_movies.append((title, year_film))
        movies_metadata.loc[
            (movies_metadata['normalized_title'] == title) & 
            (movies_metadata['release_year'] == year_film),
            [f'nominated_{category_code}', f'won_{category_code}', 'year_ceremony']
        ] = 1.0, winner, year_ceremony

In [None]:
# teste 1 - validando filmes vencedores do Oscar de melhor filme diretamente na tabela de metadados
movies_metadata[movies_metadata['won_best_picture'] == 1][
    ['title', 'nominated_best_picture', 'year_ceremony']
].values

In [None]:
# teste 2 - validando filmes indicados ao Oscar em 2002
movies_metadata[
    (movies_metadata['nominated_best_picture'] == 1) &
    (movies_metadata['year_ceremony'] == 2002)
][
    ['title', 'nominated_best_picture', 'won_best_picture', 'year_ceremony']
].values

In [None]:
# checando o número de gêneros existentes, e o número de ocorrências de cada um
all_genres = {}
for genres in movies_metadata[movies_metadata['genres'].notna()]['genres'].values:
    genres = json.loads(genres.replace("'", '"'))

    for genre in genres:
        name = genre['name']
        if name.lower() not in all_genres:
            all_genres[name.lower()] = 0
            
        all_genres[name.lower()] += 1
            
all_genres

In [None]:
# alguns gêneros apresentam apenas uma ocorrência - serão eliminados
valid_genres = []
for genre_name, occurrences in all_genres.items():
    if occurrences > 1:
        valid_genres.append(genre_name.replace(' ', '_'))
        
valid_genres

In [None]:
# convertendo os códigos de gênero em colunas usando one-hot encoding:
for genre in valid_genres:
    movies_metadata[f'genre_{genre}'] = 0.0

total_movies = len(movies_metadata)
i = 0

for movie in movies_metadata.iterrows():
    i += 1
    print(f'Analysing movie {i} of {total_movies}', end='\r')
    index = movie[0]
    genres = movie[1]['genres']
    
    genres = json.loads(genres.replace("'", '"'))
    for genre in genres:
        name = genre['name'].lower().replace(' ', '_')
        if name in valid_genres:
            movies_metadata.loc[
                index,
                f'genre_{name}'
            ] = 1.0
            
movies_metadata.drop('genres', 1, inplace=True)

In [None]:
# analisando manualmente filmes de um gênero para conferir
animation_movies = movies_metadata[movies_metadata['genre_animation'] == 1]['title'].values

animation_movies, len(animation_movies)

In [None]:
# checando o número de países de produção existentes, e o número de ocorrências de cada um
all_countries = {}
for countries in movies_metadata[movies_metadata['production_countries'].notna()]['production_countries'].values:
    countries = json.loads(countries.replace("D'I", 'DI').replace("People's", "Peoples").replace("'", '"'))

    if isinstance(countries, list):
        for country in countries:
            code = country['iso_3166_1']
            if code not in all_countries:
                all_countries[code] = 0

            all_countries[code] += 1
        
    
print(f'{len(all_countries)} countries found')

# convertendo os países de produção em colunas usando one-hot encoding:
for country in all_countries:
    movies_metadata[f'country_{country}'] = 0.0

total_movies = len(movies_metadata)
i = 0

for movie in movies_metadata.iterrows():
    i += 1
    print(f'Adding country columns to movie {i} of {total_movies}', end='\r')
    index = movie[0]
    countries = movie[1]['production_countries']
    
    if isinstance(countries, str):
        countries = json.loads(countries.replace("D'I", 'DI').replace("People's", "Peoples").replace("'", '"'))
        if isinstance(countries, list):
            for country in countries:
                code = country['iso_3166_1']
                movies_metadata.loc[
                    index,
                    f'country_{code}'
                ] = 1
            
movies_metadata.drop('production_countries', 1, inplace=True)

In [None]:
# checando o número de linguagens existentes, e o número de ocorrências de cada uma
all_languages = {}
for languages in movies_metadata[movies_metadata['spoken_languages'].notna()]['spoken_languages'].values:
    languages = json.loads(languages.replace('\\x9akai', '').replace("'", '"'))
        
    if isinstance(languages, list):
        for language in languages:
            code = language['iso_639_1'].upper()
            if code not in all_languages:
                all_languages[code] = 0

            all_languages[code] += 1


print(f'{len(all_languages)} languages found')

# convertendo as linguagens em colunas usando one-hot encoding:
for language in all_languages:
    movies_metadata[f'spoken_language_{language}'] = 0.0

total_movies = len(movies_metadata)
i = 0

for movie in movies_metadata.iterrows():
    i += 1
    print(f'Adding language columns to movie {i} of {total_movies}', end='\r')
    index = movie[0]
    languages = movie[1]['spoken_languages']

    if isinstance(languages, str):
        languages = json.loads(languages.replace('\\x9akai', '').replace("'", '"'))
        if isinstance(languages, list):
            for language in languages:
                code = language['iso_639_1'].upper()
                movies_metadata.loc[
                    index,
                    f'spoken_language_{code}'
                ] = 1.0

In [None]:
# conferindo manualmente os valores para cada linguagem falada
language_columns = [f'spoken_language_{language}' for language in all_languages]
movies_metadata[language_columns].sum()

In [None]:
# repetindo o processo para a coluna de linguagem original
all_languages = {}
for language in movies_metadata[movies_metadata['original_language'].notna()]['original_language'].values:
    if isinstance(language, str) and not language.replace('.', '').isnumeric():
        language = language.upper()
        if language not in all_languages:
            all_languages[language] = 0
        all_languages[language] += 1

print(f'{len(all_languages)} languages found')

# convertendo as linguagens em colunas usando one-hot encoding:
for language in all_languages:
    movies_metadata[f'original_language_{language}'] = 0.0

total_movies = len(movies_metadata)
i = 0

for movie in movies_metadata.iterrows():
    i += 1
    print(f'Adding language columns to movie {i} of {total_movies}', end='\r')
    index = movie[0]
    language = movie[1]['original_language']

    if isinstance(language, str) and not language.replace('.', '').isnumeric():
        language = language.upper()
        movies_metadata.loc[
            index,
            f'original_language_{language}'
        ] = 1.0

In [None]:
# conferindo manualmente os valores para a coluna linguagem original
language_columns = [f'original_language_{language}' for language in all_languages]
movies_metadata[language_columns].sum()

In [None]:
# Analisando a quantidade de empresas produtoras
all_companies = {}
i = 0
for companies in movies_metadata[movies_metadata['production_companies'].notna()]['production_companies'].values:
    i += 1
    print(f'Analysing movie {i} of {total_movies}. Number of companies: {len(all_companies)}', end='\r')

    try:
        # evitando caracteres problema em nomes estrangeiros
        companies = companies.replace("'", '"')
        companies = json.loads(companies)
        for company in companies:
            name = company['name']
            if name.lower() not in all_companies:
                all_companies[name.lower()] = 0

            all_companies[name.lower()] += 1
            
    except Exception as e:
        pass

# mesmo ignorando nomes problemáticos de produtoras, temos mais de 22 mil empresas listadas.
# a análise desse item poderia trazer informações relevantes, mas seria extremamente problemática

# removendo a coluna 
movies_metadata.drop('production_companies', 1, inplace=True)

In [None]:
# checando as transformações
for column in ['adult', 'budget', 'popularity']:
    print('Column', column, 'types:', movies_metadata[column].apply(lambda x: type(x)).unique())

In [None]:
# ainda há filmes sem valor na coluna título.
titles_to_correct = movies_metadata.loc[
    movies_metadata['title'].apply(type) == float,
    ['title', 'original_title']
]
print(titles_to_correct)

# vamos aplicar a esses filmes 
# o título existente na coluna de título original
movies_metadata.loc[titles_to_correct.index, 'title'] = titles_to_correct['original_title']


movies_metadata.loc[titles_to_correct.index, ['title', 'original_title']]

In [None]:
# Última análise e tratamento necessária: coluna 'status'
print(movies_metadata['status'].value_counts())

In [None]:
# Há filmes marcados no dataset como especulados, em produção... 
# Mas apenas podem ser considerados ao Oscar filmes que efetivamente tenham sido lançados
# Vamos checar se algum dos filmes especulados, em produção, etc, recebeu alguma indicação ou prêmio

unreleased = movies_metadata[
    movies_metadata['status'] != 'Released'
]
print(f'{len(unreleased)} movies marked as unreleased', '\n')

nomination_columns = [
    column for column in movies_metadata.columns if 'nominated_' in column
]
award_columns = [
    column for column in movies_metadata.columns if 'won_' in column
]

nominated = []
for index, movie in unreleased.iterrows():
    nominations = []
    awards = []

    for column in nomination_columns:
        if movie[column]:
            nominations.append(column)
    for column in award_columns:
        if movie[column]:
            awards.append(column)
            
    if nominations or awards:
        nominated.append((movie['title'], movie['release_year']))
        print(f"{movie['title']} ({int(movie['release_year'])})")
        print('Nominations:', ','.join(nominations))
        print('Awards:', ','.join(awards), '\n')

unreleased_to_drop = [
    index for index, movie in unreleased.iterrows()
    if (movie['title'], movie['release_year']) not in nominated
]

movies_metadata.drop(unreleased_to_drop, inplace=True)

print(f'{len(unreleased_to_drop)} unreleased movies dropped')

In [None]:
# Confirmando a exclusão
unreleased = movies_metadata[
    movies_metadata['status'] != 'Released'
]
print(f'{len(unreleased)} movies marked as unreleased')

In [None]:
# Não serão interpretadas as colunas a seguir,
# por não dizerem respeito ao problema em questão,
# ou por não serem quantificáveis para a análise
for column in [
    'belongs_to_collection',
    'homepage',
    'imdb_id',
    'id',
    'original_title',
    'overview',
    'poster_path',
    'tagline',
    'original_language',
    'spoken_languages',
    'normalized_title',
    'normalized_original_title',
    'status',
]:
    movies_metadata.drop(column, 1, inplace=True)

In [None]:
# Preencher campos faltantes
movies_metadata.fillna(value=0, inplace=True)
print('Filled n/a values')

In [None]:
# mover para o índice da tabela os campos de identificação do filme
movies_metadata.set_index(['release_year', 'title'], inplace=True)
movies_metadata.head()

In [None]:
# Adicionando colunas 'atalho' para as classes-alvo:
# uma que indica se o filme obteve ao menos uma indicação
# e outra que indica se o filme obteve ao menos uma vitória
columns_nominations = [
    column for column in movies_metadata.columns 
    if 'nominated_' in column
]
columns_wins = [
    column for column in movies_metadata.columns 
    if 'won_' in column
]

movies_metadata['nominated_at_least_once'] = movies_metadata[columns_nominations].any(axis=1)
movies_metadata['won_at_least_once'] = movies_metadata[columns_wins].any(axis=1)

# Conferindo: filmes que receberam pelo menos uma indicação e não ganharam nenhum prêmio
movies_metadata[
    (movies_metadata['nominated_at_least_once'] == True) &
    (movies_metadata['won_at_least_once'] == False) 
][['nominated_at_least_once', 'won_at_least_once']]

<a id="3"></a>
## 3. Análise Exploratória

In [None]:
# Esquema após as transformações
movies_metadata.info(verbose=True)

In [None]:
# Conferindo manualmente as primeiras instâncias
movies_metadata.head()

In [None]:
# calculando as correlações entre as colunas
corrs = movies_metadata.corr().abs()
sorted_corrs = corrs.unstack().sort_values(kind="quicksort", ascending=False)

# número de correlações para cada threshold testado
CORR_THRESHOLDS = [1, 0.9, 0.8, 0.7, 0.6, 0.5, 0.4, 0.3, 0.2, 0.1]

# função que retorna as maiores correlações únicas entre duas colunas.
# Ignora a correlação entre países de produção, idiomas, e a correlação
# (previsível) entre indicações e vitórias numa mesma categoria
def large_corrs(sorted_corrs, threshold, include_nominations_and_victories=True):
    corrs = {}
    for (a, b), row in sorted_corrs.iteritems():
        if a != b and row > threshold and \
            (a, b) not in corrs and \
            (b, a) not in corrs and \
            not ('country_' in a or 'country_' in b) and \
            not ('spoken_language' in a or 'spoken_language' in b) and \
            not ('original_language' in a or 'original_language' in b) and \
            not (a.replace('won_', '').replace('nominated_', '') == b.replace('won_', '').replace('nominated_', '')):
            corrs[(a,b)] = row

    if include_nominations_and_victories:
        result = corrs
    else:
        result = {}
        for corr, value in corrs.items():
            if 'nominated_' not in corr[0] and 'nominated_' not in corr[1] and \
                'won_' not in corr[0] and 'won_' not in corr[1]:
                result[corr] = value
    
    return result

number_of_corrs = []

for threshold in CORR_THRESHOLDS:
    corrs = large_corrs(sorted_corrs, threshold)
    number_of_corrs.append(len(corrs))
    
plt.plot(CORR_THRESHOLDS, number_of_corrs)
plt.xlabel('Correlação mínima definida')
plt.ylabel('Número de correlações encontradas')
plt.title('Correlações encontradas x correlação mínima (inclui indicações)')
plt.show()

In [None]:
# escolhendo um threshold arbitrário, para imprimir apenas as maiores correlações
CORR_THRESHOLD = 0.4
        
corrs = large_corrs(sorted_corrs, CORR_THRESHOLD)

print(f'{len(corrs)} correlations found larger than {CORR_THRESHOLD} (includes nominations)')
corrs

In [None]:
# Análise: lista de filmes ganhadores do Oscar de Efeitos Visuais
movies_metadata[movies_metadata['won_visual_effects'] == True].index

In [None]:
# contagem das colunas que mais aparecem nas correlações, incluindo indicações
# foram excluídas as colunas de vitória em uma categoria
# ('won_****'), que não serão usadas como atributo
counts = {}
for a, b in corrs:
    counts[a] = counts.get(a, 0) + 1
    counts[b] = counts.get(b, 0) + 1


sorted_counts = sorted(
    [
        (column, value) for column, value in counts.items()
        if 'won_' not in column
    ],
    key=lambda x: x[1],
)
sorted_dict = {
    column: value for column, value in sorted_counts
}

plt.barh(list(sorted_dict.keys()), list(sorted_dict.values()))
plt.title('Atributos mais presentes nas maiores correlações (incluindo indicações)')
plt.ylabel('Atributo')
plt.xlabel('Número de correlações')
plt.show()

In [None]:
# uma versão do cálculo de correlações mais altas que não inclui
# atributos relacionados a indicações e vitórias 
# (que serão utilizados como classes nos modelos criados)

number_of_corrs = []
for threshold in CORR_THRESHOLDS:
    corrs = large_corrs(sorted_corrs, threshold, include_nominations_and_victories=False)
    number_of_corrs.append(len(corrs))
    
plt.plot(CORR_THRESHOLDS, number_of_corrs)
plt.xlabel('Correlação mínima definida')
plt.ylabel('Número de correlações encontradas')
plt.title('Correlações encontradas x correlação mínima (não inclui indicações)')
plt.show()

In [None]:
# escolhendo um novo threshold arbitrário para o caso sem indicações
CORR_THRESHOLD = 0.15
        
corrs = large_corrs(sorted_corrs, CORR_THRESHOLD, include_nominations_and_victories=False)

print(f'{len(corrs)} correlations found larger than {CORR_THRESHOLD} (without nominations and victories):')
corrs

In [None]:
# contagem das colunas que mais aparecem nas correlações, não incluindo indicações

counts = {}
for a, b in corrs:
    counts[a] = counts.get(a, 0) + 1
    counts[b] = counts.get(b, 0) + 1

sorted_counts = sorted(
    [
        (column, value) for column, value in counts.items()
        if 'won_' not in column
    ],
    key=lambda x: x[1],
)
sorted_dict = {
    column: value for column, value in sorted_counts
}

plt.barh(list(sorted_dict.keys()), list(sorted_dict.values()))
plt.title('Atributos mais presentes nas maiores correlações (sem incluir indicações)')
plt.ylabel('Atributo')
plt.xlabel('Número de correlações')
plt.show()

In [None]:
# Normalização dos dados para análise de PCA: obtendo as colunas de atributos
columns_attributes = columns_nominations = [
    column for column in movies_metadata.columns
    if column not in columns_nominations and
    column not in columns_wins
]

# attribute columns
attributes_data = movies_metadata[columns_attributes]

X = np.asarray(attributes_data).astype(np.float32)
y_nominations = movies_metadata['nominated_at_least_once'].to_numpy()
y_wins = movies_metadata['won_at_least_once'].to_numpy()

print("Attributes shape = ", X.shape)
print("Nominations shape = ", y_nominations.shape)
print("Wins shape = ", y_wins.shape)

In [None]:
# Análise de componente principal
X_reduced = PCA(n_components=2).fit_transform(X)

colors = ['b', 'g']
labels = ['Did not win', 'Won']

plt.clf()

plt.figure(2, figsize=(8, 6))
for index, c in enumerate(np.unique(y_wins)):
    nodes = np.where(y_wins == c)
    plt.scatter(
        X_reduced[nodes, 0],
        X_reduced[nodes, 1],
        color = colors[index],
        label = labels[index],
        cmap=plt.cm.Set1,
        edgecolor="k"
    )

plt.title("Componentes principais")
plt.xlabel("1o componente")
plt.ylabel("2o componente")
plt.legend()

plt.show()

X_reduced = PCA(n_components=3).fit_transform(X)
fig = plt.figure(1, figsize=(8, 6))
ax = Axes3D(fig, elev=-150, azim=110)
for index, c in enumerate(np.unique(y_wins)):
    nodes = np.where(y_wins == c)
    ax.scatter(
        X_reduced[nodes, 0],
        X_reduced[nodes, 1],
        X_reduced[nodes, 2],
        c=colors[index],
        cmap=plt.cm.Set1,
        edgecolor="k",
        label = labels[index],
        s=40,
    )

ax.view_init(elev=45, azim=45)
ax.legend()
plt.show()

In [None]:
# test - remove outliers
movies_without_outliers = movies_metadata.copy()

for column in [
    'budget',
    'popularity',
    'revenue',
    'runtime',
    'vote_average',
    'vote_count',
    'release_day',
]:
    movies_without_outliers = movies_without_outliers[
        np.abs(
            movies_without_outliers[column] - movies_without_outliers[column].mean()
        ) <= (3 * movies_without_outliers[column].std())
    ]
    
movies_without_outliers.head()

In [None]:
# Análise de histograma de algumas das colunas numéricas
for column, bins in [
    ('budget', 20),
    ('popularity', 10),
    ('revenue', 10),
    ('runtime', 10),
    ('vote_average', 10),
    ('vote_count', 10),
    ('release_day', 10),
]:
    fig, (ax1, ax2, ax3) = plt.subplots(1, 3, sharey=True)

    general_average = str(
        round(
            movies_without_outliers[column].mean()
        )
    )
    ax1.hist(
        movies_without_outliers[column],
        bins=bins,
    )
    ax1.set_title(
        f'Average\n{column},\nall movies:\n{general_average}'
    )
    ax1.set_yscale('log')

    nominated_average = str(
        round(
            movies_without_outliers[
                movies_without_outliers['nominated_at_least_once'] == True
            ][column].mean(),
            2
        )
    )
    ax2.hist(
        movies_without_outliers[movies_without_outliers['nominated_at_least_once'] == True][column],
        bins=bins,
    )
    
    nominated_average = str(
        round(
            movies_without_outliers[
                movies_without_outliers['nominated_at_least_once'] == True
            ][column].mean(),
            2
        )
    )
    ax2.set_title(
        f'Average\n{column},\nnominated:\n{nominated_average}'
    )
    ax2.set_yscale('log')
    
    winner_average = str(
        round(
            movies_without_outliers[
                movies_without_outliers['won_at_least_once'] == True
            ][column].mean(),
            2
        )
    )
    ax3.hist(
        movies_without_outliers[movies_without_outliers['won_at_least_once'] == True][column],
        bins=bins,
    )
    ax3.set_title(
        f'Average\n{column},\nwinners:\n{winner_average}'
    )
    ax3.set_yscale('log')

    plt.show()

In [None]:
# Remoção das colunas criadas apenas para análise exploratória
movies_metadata.drop('nominated_at_least_once', 1, inplace=True)
print('Dropped column "nominated_at_least_once"')

movies_metadata.drop('won_at_least_once', 1, inplace=True)
print('Dropped column "won_at_least_once"')

<a id="4"></a>
## 4. Criação das redes neurais

In [None]:
# Caso 1 - análise das chances de indicação
columns_nominations = [
    column for column in movies_metadata.columns if 'nominated_' in column
]

y_nominations = movies_metadata[columns_nominations].to_numpy()

print('x shape', X.shape)
print('y_nominations shape', y_nominations.shape)

In [None]:
# preparação dos conjuntos de treinamento e de teste
X_train, X_test, y_train, y_test = train_test_split(
    X, y_nominations, test_size=0.2, random_state=0
)
print("Exemplos de treinamento:", len(X_train))
print("Shape treinamento:", X_train.shape)
print("Exemplos de teste:", len(X_test))
print("Shape teste:", X_test.shape)

In [None]:
batch_size = 50
epochs = 50

keras.backend.clear_session()
model = keras.models.Sequential(
    [
        keras.layers.Dense(
            46, activation="sigmoid", input_shape=(X_train.shape[-1],)
        ),
        keras.layers.Dense(23, activation="softmax"),
    ]
)
model.summary()

metrics = [
    keras.metrics.FalseNegatives(name="fn"),
    keras.metrics.FalsePositives(name="fp"),
    keras.metrics.TrueNegatives(name="tn"),
    keras.metrics.TruePositives(name="tp"),
    keras.metrics.Precision(name="precision"),
    keras.metrics.Recall(name="recall"),
]

# compilando com otimizador SGD, função de perda entropia cruzada e as métricas definidas acima
model.compile(
    optimizer=keras.optimizers.SGD(), loss="binary_crossentropy", metrics=metrics
)

print('Model compiled')

In [None]:
history = model.fit(
    X_train,
    y_train,
    batch_size=batch_size,
    epochs=epochs,
    verbose=1,
    validation_data=(X_test, y_test),
)

# plotando as funções de perda ao longo do treinamento
plt.plot(history.history["loss"])
plt.plot(history.history["val_loss"])
plt.title("model loss")
plt.ylabel("loss")
plt.xlabel("epoch")
plt.legend(["train", "test"], loc="upper left")
plt.show()

# Computando as métricas para o teste
score = model.evaluate(X_test, y_test, verbose=0)
# vendo os resultados da primeira iteração
print(f"%s: %.2f%%" % (model.metrics_names[1], score[1]*100))

# # vendo os resultados dessa iteração
print("Falsos negativos: ", score[1])
print("Falsos positivos: ", score[2])
print("Verdadeiros negativos: ", score[3])
print("Verdadeiros positivos: ", score[4])
print("Precisao: ", score[5])
print("Revocacao: ", score[6])