# Projeto 1: Análise Exploratória & Apresentação de Dados

# (Movies Dataset)

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

In [None]:
# o número máximo de colunas que irão aparecer
pd.options.display.max_columns = 30 

#números float irão ser apresentados com até duas casas decimais
pd.options.display.float_format = '{:.2f}'.format

In [None]:
# lendo CSV e gerando um objeto do tipo pandas dataframe
df = pd.read_csv("filmes.csv", parse_dates= ["release_date"])

In [None]:
df

In [None]:
df.info()

In [None]:
# (número de linhas, número de colunas)
df.shape

__Features__:

In [None]:
df.columns

* **id:** O ID do filme (Identificador único).
* **title:** O título oficial do filme.
* **tagline:** O slogan do filme.
* **release_date:** Data de lançamento teatral do filme.
* **genres:** Gêneros associados ao filme.
* **belongs_to_collection:** Dá informações sobre a série de filmes/franquia à qual o filme pertence.
* **original_language:** O idioma em que o filme foi originalmente filmado.
* **budget_musd:** O orçamento do filme em milhões de dólares.
* **revenue_musd:** A receita total do filme em milhões de dólares.
* **production_companies:** Produtoras envolvidas na produção do filme.
* **production_countries:** Países onde o filme foi filmado / produzido.
* **vote_count:** O número de votos dos usuários, contados pelo TMDB.
* **vote_average:** TA classificação média do filme.
* **popularity:** A Pontuação de popularidade atribuída pelo TMDB.
* **runtime:** O tempo de execução do filme em minutos.
* **overview:** Uma breve sinopse do filme.
* **spoken_languages:** idiomas falados no filme.
* **poster_path:** URL da imagem do pôster.
* **cast:**  Atores principais que aparecem no filme.
* **cast_size:** número de atores que aparecem no filme.
* **director:** Diretor do filme.
* **crew_size:** Tamanho da equipe de filmagem (incluindo diretor, excluindo atores).

In [None]:
# amostra: gênero do filme na primeira linha
df.genres[0]

In [None]:
# amostra: Elenco no filme na linha 2
df.cast[1]

In [None]:
df.describe()

In [None]:
# bins => Número de posições no histograma a serem usadas.
df.hist(figsize = (20, 12), bins = 100)
plt.show()

In [None]:
df.budget_musd.value_counts(dropna = False).head(20)

In [None]:
df.revenue_musd.value_counts(dropna = False).head(20)

In [None]:
df.vote_average.value_counts(dropna = False)

In [None]:
df.vote_count.value_counts()

In [None]:
df.describe(include = "object")

In [None]:
df[df.title == "Cinderella"]

## Os melhores e Piores Filmes

In [None]:
# importa dependências
from IPython.display import HTML
# estabelece configurações
pd.options.display.max_colwidth = 200

In [None]:
df_best = df[["poster_path", "title", "budget_musd", "revenue_musd",
              "vote_count", "vote_average", "popularity"]].copy()

In [None]:
df_best

In [None]:
# Aqui criamos uma nova coluna chamada "profit_musd"(lucro) 
#formada pela subtração do gasto para produzir o filme da receita gerada por ele
df_best["profit_musd"] = df.revenue_musd.sub(df.budget_musd)

In [None]:
# Aqui criamos uma nova coluna chamada "return"(retorno) 
#formada pela divisão da receita gerada pelo orçamento
df_best["return"] = df.revenue_musd.div(df.budget_musd)

In [None]:
df_best

In [None]:
#aqui fornecemos novos nomes para as colunas(séries)
df_best.columns = ["", "Title", "Budget", "Revenue", "Votes", 
                   "Average Rating", "Popularity", "Profit", "ROI"]

In [None]:
# Aqui transformamos a coluna título em índice, ou seja, poderemos selecionar um filme pelo nome
df_best.set_index("Title", inplace = True)

In [None]:
df_best

In [None]:
df_best.iloc[0,0]

In [None]:
# selecione as cinco primeiras linhas das duas primeiras colunas
subset = df_best.iloc[:5, :2]
subset

In [None]:
HTML(subset.to_html(escape=False))

In [None]:
# ascending : ascendendo ou descendendo
df_best.sort_values(by = "Average Rating", ascending = False)

In [None]:
df_best.sort_values(by = "ROI", ascending = False)

In [None]:
# selecionar os filmes(linhas) em que o orçamento é maior do que  milhões de dólares e ordena-los baseado
# no ROI(Retorno sob investimento) 
df_best.loc[df_best.Budget >= 5].sort_values(by = "ROI", ascending = False)

In [None]:
# substituir nans na coluna "Budget" por zero
df_best.Budget.fillna(0, inplace = True)
# substituir nans na coluna "Votes" por zero
df_best.Votes.fillna(0, inplace = True)

In [None]:
df_best.info()

In [None]:
# Definimos aqui uma função que receberá como parâmetro:
# n => número de linhas
# by => feture(coluna) desejada
# ascending => se o resultado será ordenado de forma crescente ou decrescente 
# min_bud => orçamento mínimo em milhões de reais
# min_votes => quantidade mínima de votos

def best_worst(n, by, ascending = False, min_bud = 0, min_votes = 0):
    
    
    df2 = df_best.loc[(df_best.Budget >= min_bud) & (df_best.Votes >= min_votes), 
                      ["", by]].sort_values(by = by, ascending = ascending).head(n).copy()
    
    return HTML(df2.to_html(escape=False))

__Top 5 filmes - Maiores Receitas__

In [None]:
best_worst(n = 5, by = "Revenue")

__Top 5 Filmes - Maiores Orçamentos__

In [None]:
best_worst(5, "Budget")

__Top 5 Filmes Mais Lucrativos__

In [None]:
best_worst(5, "Profit")

__Top 5 Filmes Menos Lucrativos__

In [None]:
best_worst(5, "Profit", ascending = True)

__Top 5 Filmes de Maior ROI__

In [None]:
best_worst(5, "ROI", min_bud = 50)

__Top 5 Filmes com Pior ROI__

In [None]:
best_worst(5, "ROI", ascending = True, min_bud = 100)

__Top 5 Filmes Mais Votados__

In [None]:
best_worst(5, "Votes")

__Top 5 Filmes Mais bem Avaliados__

In [None]:
best_worst(5, "Average Rating", min_votes = 50)

__Top 5 Filmes Pior Avaliados__

In [None]:
best_worst(5, "Average Rating", ascending = True, min_votes = 100)

In [None]:
best_worst(5, "Average Rating", ascending = True, min_votes = 20, min_bud = 20)

__Top 5 Filmes Mais Populares__

In [None]:
best_worst(5, "Popularity")

## Procurando indicações de filmes...

__Indicação 1: Um filme de Ficção Científica e ação com Bruce Willis (Bem avaliado)__

In [None]:
# amostra, o valor da primeira linha na coluna "genres"(gênero)
df.genres[0]

In [None]:
# Aqui filtramos o dataframe baseado dos tipos de filmes que queremos assistir: ação e ficção científica
mask_genres = df.genres.str.contains("Action") & df.genres.str.contains("Science Fiction")
mask_genres

In [None]:
# amostra:  valor da primeira liinha na coluna "cast"
df.cast[0]

In [None]:
# aqui filtramos o dataframe baseado na coluna "cast"(elenco)
# somente linhas em que a coluna cast possui "Bruce Willis"
mask_actor = df.cast.str.contains("Bruce Willis")
mask_actor

In [None]:
# temos uma visualização da seleção baseada em 2 critérios
# filmes com Bruce Willis
# filmes de ação e/ou ficção científica

# essa seleção de filmes mostrará apenas duas colunas: "title" e "vote_average"
# essa seleção será ordenada de acordo com a média da avaliação de forma decrescente

df.loc[mask_actor & mask_genres, ["title", "vote_average"]].sort_values(by = "vote_average", 
                                                                        ascending = False)

In [None]:
bruce = df.loc[mask_actor & mask_genres, ["title", "poster_path", "vote_average"]].sort_values(by = "vote_average", ascending = False).set_index("title")

In [None]:
HTML(bruce.to_html(escape=False))

__Indicação 2: Filmes com a atriz Uma Thurman e dirigidos por by Quentin Tarantino (menor duração)__

In [None]:
# amostra: coluna diretor
df.director

In [None]:
# criamos um filtro paa diretor
mask_director = df.director == "Quentin Tarantino"

In [None]:
# criamos um filtro para elenco que contenha a atriz Uma Thurman
mask_actor = df.cast.str.contains("Uma Thurman")

In [None]:
# selecionamos filmes de acordo com os filtros criados
# A seleção irá ter apenas 3 colunas: "title", "poster_path", "runtime"
# ordenados de acordo com a "runtime"(duração) do filme
quentin = df.loc[mask_director & mask_actor, 
               ["title", "poster_path", "runtime"]].sort_values(by = "runtime").set_index("title")

In [None]:
HTML(quentin.to_html(escape=False))

__Indicação 3: Filme Mais bbem sucedido da Pixar Studio Movies entre 2010 e 2015 (high Revenue)__

In [None]:
# amostra: valor do index 1 na coluna "production_companies"
df.production_companies[1]

In [None]:
# criamos um filtro: linhas(filmes) em que a coluna "production_companies" contém "pixar"
mask_studio = df.production_companies.str.contains("Pixar").fillna(False)

In [None]:
# amostra: coluna data de lançamento
df.release_date

In [None]:
# criamos um filtro: seleciona linhas(filmes) em que a data de lançamento está entre "2010-01-01" e "2015-12-31"
mask_time = df.release_date.between("2010-01-01", "2015-12-31")

In [None]:
# selecionamos filmes usando os filtros criados
pixar = df.loc[mask_studio & mask_time, 
               ["title", "poster_path", "revenue_musd", "release_date"]].sort_values(by = "revenue_musd", ascending = False).set_index("title")

In [None]:
HTML(pixar.to_html(escape=False))

__Indicação 4: Um filme de ação ou suspense com Inglês como lingua original e avaliação mínima de 7.5 (Mais recente)__

In [None]:
# criamos u filtro baseado no gênero
mask_genre = df.genres.str.contains("Action") | df.genres.str.contains("Thriller")

In [None]:
# criamos um filtro baseado na lingu original
mask_lan = df.original_language == "en"

In [None]:
# criamos um filtro baseado na valiação média
mask_vote_av = df.vote_average >= 7.5 

In [None]:
# criamos um fitro baseado na quantidade de votos
mask_vote_co = df.vote_count >= 10

In [None]:
# aplicamos os filtros
next_mov = df.loc[mask_genre & mask_lan & mask_vote_av & mask_vote_co, 
               ["title", "poster_path", "genres", "vote_average", "vote_count", "release_date"]].sort_values(by = "release_date", ascending = False).set_index("title").head(20)

In [None]:
HTML(next_mov.to_html(escape=False))

## Quais ão as palavras mais comuns nos títulos e slogans dos filmes?

In [None]:
from wordcloud import WordCloud

In [None]:
df

In [None]:
# amostra
df.tagline[1]

In [None]:
# amostra
df.overview[1]

In [None]:
title = df.title.dropna() # copiamos a coluna Title excluindo valores nans
overview = df.overview.dropna() # copiamos a coluna overview excluindo valores nans
tagline = df.tagline.dropna() # copiamos a coluna tagline excluindo valores nans

In [None]:
title

In [None]:
' '.join(title)

In [None]:
title_corpus = ' '.join(title) # inicializamos uma variável para armazenar dos os títulos concatenados
overview_corpus = ' '.join(overview) # inicializamos uma variável para armazenar dos as avaliações concatenados
tagline_corpus = ' '.join(tagline) # inicializamos uma variável para armazenar dos os slogans concatenados

In [None]:
tagline_corpus

In [None]:
title_wordcloud = WordCloud(background_color='white', height=2000, width=4000, max_words= 200).generate(title_corpus)
title_wordcloud

In [None]:
plt.figure(figsize=(16,8))
plt.imshow(title_wordcloud, interpolation= "bilinear")
plt.axis('off')
plt.show()

In [None]:
tagline_wordcloud = WordCloud(background_color='white', height=2000, width=4000).generate(tagline_corpus)
plt.figure(figsize=(16,8))
plt.imshow(tagline_wordcloud, interpolation= "bilinear")
plt.axis('off')
plt.show()

In [None]:
overview_wordcloud = WordCloud(background_color='white', height=2000, width=4000).generate(overview_corpus)
plt.figure(figsize=(16,8))
plt.imshow(overview_wordcloud, interpolation= "bilinear")
plt.axis('off')
plt.show()

## As franquias são mais bem sucedidas que filmes independentes?

In [None]:
# amostra
df.belongs_to_collection

In [None]:
# criamos uma nova coluna com valores do tipo boolean que idicam se o filme faz parte de uma franquia ou não
df["Franchise"] = df.belongs_to_collection.notna()

In [None]:
df.Franchise

In [None]:
# a quantidade de cada valor único
df.Franchise.value_counts()

__Franquias vs. Independentes: receita média__

In [None]:
df.groupby("Franchise").revenue_musd.mean()
# de acordo com a receita média, franquias geralmente são bem mais sucedidas

__Franquias vs. Independentes: Retorno sobre Investimento/Lucratividade__

In [None]:
# criamos uma nova coluna 
df["ROI"] = df.revenue_musd.div(df.budget_musd)

In [None]:
# calculamos a média do ROI para cada valor único na coluna franquia(sim,não)
df.groupby("Franchise").ROI.median()
# de acordo com o ROI, franquias costuman ser mais bem sucedidas

__Franquias vs. Independentes: Orçamento Médio__

In [None]:
df.groupby("Franchise").budget_musd.mean()
# franquias constumam ter um orçamento maior

__Franquias vs. Independentes: Popularidade Média__

In [None]:
df.groupby("Franchise").popularity.mean()
# franquias costuman ser mais populares

__Franquias vs. Independentes: Avaliação média__

In [None]:
df.groupby("Franchise").vote_average.mean()

In [None]:
df.groupby("Franchise").agg({"budget_musd": "mean", "revenue_musd": "mean", "vote_average": "mean",
                            "popularity": "mean", "ROI":"median", "vote_count":"mean"})

## Franquias Mais Bem Sucedidas

In [None]:
df.belongs_to_collection

In [None]:
df.belongs_to_collection.value_counts()

In [None]:
# criamos um novo dataframe contendo apenas filmes de franquias
# o método .agg() agrega usando uma ou mais operações no eixo especificado. ex.: soma, média...
franchises = df.groupby("belongs_to_collection").agg({"title":"count", "budget_musd": ["sum", "mean"], 
                                                      "revenue_musd": ["sum", "mean"],
                                                      "vote_average": "mean", "popularity": "mean",
                                                      "ROI":"median", 
                                                      "vote_count":"mean"})

In [None]:
franchises

In [None]:
franchises.nlargest(20, ("title", "count"))

In [None]:
franchises.nlargest(20, ("revenue_musd", "mean"))

In [None]:
franchises.nlargest(20, ("budget_musd", "mean"))

In [None]:
franchises[franchises[("vote_count", "mean")] >=1000].nlargest(20, ("vote_average", "mean"))


## Diretores Mais Bem Sucedidos

In [None]:
# amostra: coluna diretor
df.director

In [None]:
df.director.value_counts().head(20)

In [None]:
plt.figure(figsize = (12, 8))
df.director.value_counts().head(20).plot(kind='bar', fontsize = 15)
plt.title("Diretores mais ativos",fontsize = 20)
plt.ylabel("Quantidade de Filmes", fontsize = 15)
plt.show()

In [None]:
df.groupby("director").revenue_musd.sum().nlargest(20)

In [None]:
plt.figure(figsize = (12, 8))
df.groupby("director").revenue_musd.sum().nlargest(20).plot(kind='bar', fontsize = 15)
plt.title("Receita Total",fontsize = 20)
plt.ylabel("Receita em Milhões de Dólares", fontsize = 15)
plt.show()

In [None]:
directors = df.groupby("director").agg({"title": "count", "vote_average" :"mean", "vote_count": "sum"})

In [None]:
directors

In [None]:
directors[(directors.vote_count >= 10000) & (directors.title >= 10)].nlargest(20, "vote_average")

In [None]:
df.genres = df.genres.astype(str)

In [None]:
# 
df.loc[df.genres.str.contains("Horror")].groupby("director").revenue_musd.sum().nlargest(20)

## Atores Mais Bem Sucedidos

In [None]:
# amostra: coluna elenco
df.cast

In [None]:
df

In [None]:
df.set_index("id", inplace = True)

In [None]:
df.info()

In [None]:
df.cast

In [None]:
df.cast.str.split("|", expand = True)

In [None]:
act = df.cast.str.split("|", expand = True)
act

In [None]:
act.stack().reset_index(level=1, drop=True).to_frame()

In [None]:
act = act.stack().reset_index(level=1, drop=True).to_frame()

In [None]:
act

In [None]:
act.columns = ["Actor"]

In [None]:
act = act.merge(df[["title", "revenue_musd", "vote_average", "popularity"]],
                how = "left", left_index = True, right_index = True)

In [None]:
act

## Atores Mais bem Sucedidos

In [None]:
act

In [None]:
act.Actor.nunique()

In [None]:
act.Actor.unique()

In [None]:
act.Actor.value_counts().head(20)

In [None]:
plt.figure(figsize = (12, 8))
act.Actor.value_counts().head(20).plot(kind='bar', fontsize = 15)
plt.title("Atores Mais Ativos",fontsize = 20)
plt.ylabel("Quantidade de Filmes", fontsize = 15)
plt.show()

In [None]:
agg = act.groupby("Actor").agg(Total_Revenue = ("revenue_musd", "sum"), 
                               Mean_Revenue = ("revenue_musd", "mean"),
                               Mean_Rating = ("vote_average", "mean"), 
                               Mean_Pop = ("popularity", "mean"), 
                               Total_Movies = ("Actor", "count"))

In [None]:
agg.nlargest(10, "Total_Movies")

In [None]:
agg.nlargest(10, "Total_Revenue")

In [None]:
plt.figure(figsize = (12, 8))
agg.Total_Revenue.nlargest(10).plot(kind='bar', fontsize = 15)
plt.title("Receita Total",fontsize = 20)
plt.ylabel("Receita em Milhões de Dólares", fontsize = 15)
plt.show()

In [None]:
agg.Mean_Revenue.nlargest(10)

In [None]:
act[act.Actor == "Ashley Jeffery"]

In [None]:
agg[agg.Total_Movies >= 10].nlargest(10, "Mean_Revenue")

In [None]:
agg[agg.Total_Movies >= 10].nlargest(10, "Mean_Rating")

In [None]:
agg[agg.Total_Movies >= 10].nlargest(10, "Mean_Pop")