# Importando as bibliotecas que vão ser usadas 

In [1]:
import pandas as pd
import re
import matplotlib.pyplot as plt
import plotly.offline as py
import plotly.graph_objs as go
import plotly.express as px
import seaborn as sns

## Carregando a base de dados da pesquisa 

In [2]:
df = pd.read_csv("df_filmes_populares.csv")
df.drop(columns = "Unnamed: 0", inplace = True)

In [3]:
df

Unnamed: 0,ranking,titulo,ano_filme,duracao,genero_primario,generos_secundarios,generos,nota,descricao,diretor,estrelas,votos,faturamento,genero_link
0,1,Shang-Chi e a Lenda dos Dez Anéis,2021.0,132.0,Action,"[' Adventure', ' Fantasy']","['Action', ' Adventure', ' Fantasy']",8.0,"Shang-Chi, the master of unarmed weaponry-base...",['Destin Daniel Cretton'],"['Simu Liu', ' Awkwafina', ' Tony Chiu-Wai Leu...",67200.0,,action
1,2,Matrix Resurrections,2021.0,,Action,[' Sci-Fi'],"['Action', ' Sci-Fi']",,The plot is currently unknown.,['Lana Wachowski'],"['Keanu Reeves', ' Jessica Henwick', ' Yahya A...",,,action
2,3,Maligno,2021.0,111.0,Action,"[' Crime', ' Horror']","['Action', ' Crime', ' Horror']",6.3,Madison is paralyzed by shocking visions of gr...,['James Wan'],"['Annabelle Wallis', ' Maddie Hasson', ' Georg...",20362.0,,action
3,4,Free Guy: Assumindo o Controle,2021.0,115.0,Action,"[' Adventure', ' Comedy']","['Action', ' Adventure', ' Comedy']",7.6,A bank teller discovers that he's actually an ...,['Shawn Levy'],"['Ryan Reynolds', ' Jodie Comer', ' Taika Wait...",53199.0,,action
4,5,O Esquadrão Suicida,2021.0,132.0,Action,"[' Adventure', ' Comedy']","['Action', ' Adventure', ' Comedy']",7.4,"Supervillains Harley Quinn, Bloodsport, Peacem...",['James Gunn'],"['Margot Robbie', ' Idris Elba', ' John Cena',...",195527.0,,action
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
194158,8832,Cowboy,,,Western,[],['Western'],,Add a Plot,[''],[''],,,western
194159,8833,O Agente Desconhecido,1936.0,57.0,Music,"[' Romance', ' Western']","['Music', ' Romance', ' Western']",4.8,Bob Allen in his starring debut gets a job on ...,['Spencer Gordon Bennet'],"['Robert Allen', ' Martha Tibbetts', ' Harry W...",24.0,,western
194160,8834,Romance do Sertão,1919.0,50.0,Drama,[' Western'],"['Drama', ' Western']",,Dreamer dairyman Phineas Dobbs of Cow Hollow s...,['Arthur Rosson'],"['Tom Mix', ' Juanita Hansen', ' Pat Chrisman'...",,,western
194161,8835,Trumpin' Trouble,1926.0,,Western,[],['Western'],,"John Lawson stakes out a gold mining claim, bu...",['Richard Thorpe'],"['Jay Wilsey', ' Bob Fleming', ' Alma Rayford'...",,,western


## Início do processo de manipulação das bases e montar os rankings 

In [4]:
# Calculando a nota média de cada gênero
media_por_genero_link = df.groupby(by = df["genero_link"])[["nota"]].mean()

In [5]:
# Calculando o faturamento e a quantidade de votos em cada gênero
fat_votos_genero_link = df.groupby(by = df["genero_link"])[["faturamento", "votos"]].sum()

In [6]:
# Mesclando as 2 tabelas anteriores
df_metricas_genero_link = media_por_genero_link.join(fat_votos_genero_link)

In [8]:
len(df_metricas_genero_link)

22

In [9]:
# Montando a lista que vai ser o ranking, como temos 22 gêneros, temos que separar 22 posições
lista_nota = list()
for nota in range(1, 23):
    lista_nota.append(nota)

## O dataframe é ordenado pelo critério em questão e depois é rankeado de 1 a 22 

In [10]:
df_metricas_genero_link.sort_values(by = "nota", ascending = False, inplace=True)

In [11]:
df_metricas_genero_link["ranking_nota"] = lista_nota

In [12]:
df_metricas_genero_link.sort_values(by = "faturamento", ascending = False, inplace=True)

In [13]:
df_metricas_genero_link["ranking_faturamento"] = lista_nota

In [14]:
df_metricas_genero_link.sort_values(by = "votos", ascending = False, inplace=True)

In [15]:
df_metricas_genero_link["ranking_votos"] = lista_nota

## A soma das 3 notas vai definir a classificação geral:
* Ranking de nota
* Ranking de votos
* Ranking de faturamento
> A soma dos 3 resulta no ranking geral
* Quanto menor a nota, mais no topo da tabela fica:
> Quanto menor a nota melhor

In [16]:
df_metricas_genero_link["ranking_geral"] = df_metricas_genero_link["ranking_faturamento"] + df_metricas_genero_link["ranking_nota"] + df_metricas_genero_link["ranking_votos"]

In [17]:
df_metricas_genero_link.sort_values(by = "ranking_geral", ascending = True, inplace=True)

## Levando em consideração nota, votos e faturamento esse é o nosso top 3 melhores gêneros: 

In [20]:
df_metricas_genero_link[["ranking_geral", "nota", "votos", "faturamento"]]

Unnamed: 0_level_0,ranking_geral,nota,votos,faturamento
genero_link,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
superhero,7,6.418099,772501975.0,275162400000.0
drama,7,6.583138,426009754.0,116136700000.0
comedy,21,6.042087,261204434.0,124918100000.0
adventure,26,5.858586,244311181.0,117200600000.0
romance,27,6.27649,151518639.0,59291330000.0
action,28,5.759287,293710790.0,110234900000.0
thriller,29,5.841255,281179703.0,77450330000.0
crime,31,6.081354,177016088.0,46135990000.0
biography,31,6.576073,57496866.0,14514130000.0
fantasy,33,5.904976,136198029.0,64208170000.0


In [46]:
fig = px.bar(data_frame= df_metricas_genero_link, x = df_metricas_genero_link.index, y = df_metricas_genero_link["faturamento"])
fig.update_layout(title_text='Faturamento Por Gênero')
fig.show()

## Calculando o faturamento de cada gênero por ano 

In [121]:
df_fat_por_ano_genero = pd.DataFrame()
df_fat_por_ano_genero

In [122]:
df_fat_por_ano_genero = df.groupby(by = ["genero_link", "ano_filme"]).sum()

Unnamed: 0_level_0,Unnamed: 1_level_0,duracao,nota,votos,faturamento
genero_link,ano_filme,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
action,1906.0,70.0,6.1,694.0,0.0
action,1914.0,419.0,12.8,1110.0,0.0
action,1915.0,421.0,7.3,4562.0,0.0
action,1916.0,105.0,6.2,1675.0,8000000.0
action,1918.0,73.0,5.8,782.0,3270000.0
...,...,...,...,...,...
western,2020.0,3814.0,180.4,91183.0,0.0
western,2021.0,4625.0,147.7,8156.0,0.0
western,2022.0,291.0,0.0,0.0,0.0
western,2023.0,0.0,0.0,0.0,0.0


In [134]:
lista_ano = list()
for ano in df_fat_por_ano_genero.index:
    lista_ano.append(ano[1])

lista_genero = list()
for ano in df_fat_por_ano_genero.index:
    lista_genero.append(ano[0])

In [136]:
df_fat_por_ano_genero["ano_adj"] = lista_ano
df_fat_por_ano_genero["genero_adj"] = lista_genero

In [153]:
fig = px.line(df_fat_por_ano_genero, x = "ano_adj", y = "faturamento", color = "genero_adj")
fig.update_layout(title_text='Faturamento Por Gênero e Ano')
fig.show()