## Importação das Bibliotecas, Leitura e Adaptação dos Dados

In [None]:
#Importação das Bibliotecas
import pandas as pd
import matplotlib.pyplot as plt

In [None]:
#Leitura do Banco de Dados
bd = pd.read_csv("dataset.csv")
bd.info()

In [None]:
#Mudança dos tipos das colunas de orçamento e bilheteria (de object para float64)
bd['budget'] = pd.to_numeric(bd['budget'], errors='coerce')
bd['box_office'] = pd.to_numeric(bd['box_office'], errors='coerce')

In [None]:
#Criação da coluna de lucro (bilheteria - custo)
bd['profit'] = bd['box_office']-bd['budget']

In [None]:
#Criação da coluna com a década de lançamento
bd['decade'] = (bd['year']-1)//10*10

In [None]:
#Conversão do tempo de object (com horas e minutos) para float64 (minutos) e criação da coluna de uma coluna com o tempo em valor numérico
tempomin = []
for k in range(len(bd)):
    filme = bd['run_time'][k]
    if filme.count('h') == 0 and filme != 'Not Available':
        filme ='0h' + filme
    a = filme.replace('m', 'h').split('h')
    soma = 0
    for i in range(len(a)):
        if a[i] == 'Not Available':
            tempomin.append('Not Available')
        else:
            if i == 0:
                soma += (60*int(a[i]))
            if i == 1 and a[i] != '':
                soma += int(a[i])
    if a[0] != 'Not Available':
        tempomin.append(soma)
bd['run_time_minutes'] = tempomin
bd['run_time_minutes'] = pd.to_numeric(bd['run_time_minutes'], errors='coerce')

In [None]:
#Informações sobre o banco de dados após as modificações
bd.describe()

## Análise dos Dados

In [None]:
#Média das notas dos filmes
bd['rating'].mean()

In [None]:
#Média de duração dos filmes
print(round(bd['run_time_minutes'].mean(), 2), 'min')

In [None]:
#Moda dos diretores
print('O número de aparições dos diretores que mais possuem filmes na lista é', bd['directors'].value_counts().max())
print(bd['directors'].value_counts())

In [None]:
#Coeficiente de correlação entre nota e ano de lançamento
bd[['rating', 'year']].corr()

In [None]:
#Coeficiente de correlação entre ano de lançamento e bilheteria
bd[['year', 'box_office']].corr()

In [None]:
#Coeficiente de correlação entre orçamento e duração
bd[['box_office', 'run_time_minutes']].corr()

In [None]:
#Filmes que geraram prejuízo (custo de produção maior que bilheteria)
prejuizo = bd[bd['profit']<0]
print(len(prejuizo))
prejuizo

## Geração de Gráficos

In [None]:
#Gŕafico da quantidade de filmes por classificação indicativa
plt.figure(figsize=(15,6))
plt.title('Filmes por Classificação Indicativa')
plt.xlabel('Classificação')
plt.ylabel('Número de filmes')
plt.bar(bd['certificate'].value_counts().index, bd['certificate'].value_counts().values)
plt.show()

In [None]:
#Gráfico da quantidade de filmes por década
plt.figure(figsize=(15,6))
plt.title('Filmes Lançados por Década')
plt.xlabel('Década')
plt.ylabel('Número de filmes')
plt.bar(bd['decade'].value_counts().index, bd['decade'].value_counts().values, width=5, color='green')
plt.show()

In [None]:
#Gráfico da média de bilheteria por década
plt.figure(figsize=(15,6))
plt.title('Média de Bilheteria por Década')
plt.xlabel('Década')
plt.ylabel('Média de bilheteria (bilhões)')
plt.bar(bd.groupby(['decade'])['box_office'].mean().index, bd.groupby(['decade'])['box_office'].mean().values, width=5, color='red')
plt.show()

In [None]:
#Gráfico da média de custo de produção por década
plt.figure(figsize=(15,6))
plt.title('Média de Custo de Produção por Década')
plt.xlabel('Década')
plt.ylabel('Média de custo (bilhões)')
plt.bar(bd.groupby(['decade'])['budget'].mean().index, bd.groupby(['decade'])['budget'].mean().values, width=5, color='orange')
plt.show()