---

# IMDB 5000 -  Análise de tendência de lançamento 

Análise de tendências de lançamentos: Identificar e visualizar as tendências de lançamentos de filmes ao longo do tempo, como número de lançamentos por ano, distribuição de lançamentos por gênero, etc.

---


---
## DIA 1 - IMPORTAÇÃO E ESTATÍSTICAS DESCRITIVAS  
---

In [117]:
# IMPORTANDO BIBLIOTECAS PRINCIPAIS

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [118]:
# IMPORTANDO BASE DE DADOS

df = pd.read_csv('tmdb_5000_movies.csv')
df.columns

Index(['budget', 'genres', 'homepage', 'id', 'keywords', 'original_language',
       'original_title', 'overview', 'popularity', 'production_companies',
       'production_countries', 'release_date', 'revenue', 'runtime',
       'spoken_languages', 'status', 'tagline', 'title', 'vote_average',
       'vote_count'],
      dtype='object')

In [119]:
# RENOMEANDO AS COLUNAS

traducao = {
    'budget': 'Orçamento',
    'genres': 'Gêneros',
    'homepage': 'Página inicial',
    'id': 'ID',
    'keywords': 'Palavras-chave',
    'original_language': 'Idioma original',
    'original_title': 'Título original',
    'overview': 'Visão geral',
    'popularity': 'Popularidade',
    'production_companies': 'Empresas de produção',
    'production_countries': 'Países de produção',
    'release_date': 'Data de lançamento',
    'revenue': 'Receita',
    'runtime': 'Duração',
    'spoken_languages': 'Idiomas falados',
    'status': 'Status',
    'tagline': 'Slogan',
    'title': 'Título',
    'vote_average': 'Média de votos',
    'vote_count': 'Contagem de votos'
}

df = df.rename(columns=traducao)
df.head(2)

Unnamed: 0,Orçamento,Gêneros,Página inicial,ID,Palavras-chave,Idioma original,Título original,Visão geral,Popularidade,Empresas de produção,Países de produção,Data de lançamento,Receita,Duração,Idiomas falados,Status,Slogan,Título,Média de votos,Contagem de votos
0,237000000,"[{""id"": 28, ""name"": ""Action""}, {""id"": 12, ""nam...",http://www.avatarmovie.com/,19995,"[{""id"": 1463, ""name"": ""culture clash""}, {""id"":...",en,Avatar,"In the 22nd century, a paraplegic Marine is di...",150.437577,"[{""name"": ""Ingenious Film Partners"", ""id"": 289...","[{""iso_3166_1"": ""US"", ""name"": ""United States o...",2009-12-10,2787965087,162.0,"[{""iso_639_1"": ""en"", ""name"": ""English""}, {""iso...",Released,Enter the World of Pandora.,Avatar,7.2,11800
1,300000000,"[{""id"": 12, ""name"": ""Adventure""}, {""id"": 14, ""...",http://disney.go.com/disneypictures/pirates/,285,"[{""id"": 270, ""name"": ""ocean""}, {""id"": 726, ""na...",en,Pirates of the Caribbean: At World's End,"Captain Barbossa, long believed to be dead, ha...",139.082615,"[{""name"": ""Walt Disney Pictures"", ""id"": 2}, {""...","[{""iso_3166_1"": ""US"", ""name"": ""United States o...",2007-05-19,961000000,169.0,"[{""iso_639_1"": ""en"", ""name"": ""English""}]",Released,"At the end of the world, the adventure begins.",Pirates of the Caribbean: At World's End,6.9,4500


In [120]:
# DANDO UMA OLHADA NA COLUNA DE LANÇAMENTOS

display(type(df['Data de lançamento'][0]))

#Converter representação de data em formato de string para um objeto de data no Python
 
from datetime import datetime

df['Data de lançamento'] = pd.to_datetime(df['Data de lançamento']) 

display(type(df['Data de lançamento'][0]))

str

pandas._libs.tslibs.timestamps.Timestamp

In [122]:
# ESTATÍSTICA DESCRITIVAS

df[['Orçamento', 'Média de votos', 'Data de lançamento',  'Contagem de votos']].describe()

# VERIFICANDO SE HÁ VALORES NULOS NA COLUNA 

display(df[df['Data de lançamento'].isnull() == True]) # claramente um filme sem dados suficientes, então ...

# removendo
df = df[df['Data de lançamento'].notnull()]
display(df.head(2))


# CRIAR COLUNA COM APENAS OS ANOS DE LANÇAMENTO

df['Ano de lancamento'] = df['Data de lançamento'].dt.year.astype(int)
display(df['Ano de lancamento'])

Unnamed: 0,Orçamento,Gêneros,Página inicial,ID,Palavras-chave,Idioma original,Título original,Visão geral,Popularidade,Empresas de produção,Países de produção,Data de lançamento,Receita,Duração,Idiomas falados,Status,Slogan,Título,Média de votos,Contagem de votos


Unnamed: 0,Orçamento,Gêneros,Página inicial,ID,Palavras-chave,Idioma original,Título original,Visão geral,Popularidade,Empresas de produção,Países de produção,Data de lançamento,Receita,Duração,Idiomas falados,Status,Slogan,Título,Média de votos,Contagem de votos
0,237000000,"[{""id"": 28, ""name"": ""Action""}, {""id"": 12, ""nam...",http://www.avatarmovie.com/,19995,"[{""id"": 1463, ""name"": ""culture clash""}, {""id"":...",en,Avatar,"In the 22nd century, a paraplegic Marine is di...",150.437577,"[{""name"": ""Ingenious Film Partners"", ""id"": 289...","[{""iso_3166_1"": ""US"", ""name"": ""United States o...",2009-12-10,2787965087,162.0,"[{""iso_639_1"": ""en"", ""name"": ""English""}, {""iso...",Released,Enter the World of Pandora.,Avatar,7.2,11800
1,300000000,"[{""id"": 12, ""name"": ""Adventure""}, {""id"": 14, ""...",http://disney.go.com/disneypictures/pirates/,285,"[{""id"": 270, ""name"": ""ocean""}, {""id"": 726, ""na...",en,Pirates of the Caribbean: At World's End,"Captain Barbossa, long believed to be dead, ha...",139.082615,"[{""name"": ""Walt Disney Pictures"", ""id"": 2}, {""...","[{""iso_3166_1"": ""US"", ""name"": ""United States o...",2007-05-19,961000000,169.0,"[{""iso_639_1"": ""en"", ""name"": ""English""}]",Released,"At the end of the world, the adventure begins.",Pirates of the Caribbean: At World's End,6.9,4500


0       2009
1       2007
2       2015
3       2012
4       2012
        ... 
4798    1992
4799    2011
4800    2013
4801    2012
4802    2005
Name: Ano de lancamento, Length: 4802, dtype: int32

In [124]:
# ESTATÍSTICAS DESCRITIVAS

df[['Duração', 'Contagem de votos', 'Média de votos', 'Ano de lancamento']].describe()

Unnamed: 0,Duração,Contagem de votos,Média de votos,Ano de lancamento
count,4800.0,4802.0,4802.0,4802.0
mean,106.898125,690.361724,6.09344,2002.468763
std,22.561593,1234.674268,1.191496,12.414354
min,0.0,0.0,0.0,1916.0
25%,94.0,54.0,5.6,1999.0
50%,103.0,235.5,6.2,2005.0
75%,118.0,737.0,6.8,2011.0
max,338.0,13752.0,10.0,2017.0


---

&nbsp;
   * Podemos notar, por exemplo, que **75%** dos filmes tem uma duração menor do que 2 horas

   * Provavelmente esse filme com **338 min** deve ser algum ruído, outlier, necessário verificar

   * mesma observação se aplica a filme com duração **0**, necessario verificar
 
   * é necessário avaliar a relevância de filmes sem votos a depender da análise que se recomenda
   
&nbsp; 

---
