# Bibliotecas

In [1]:
import numpy as np
import pandas as pd

import seaborn as sns
import matplotlib.pyplot as plt
import plotly.express as px
# import plotly as px
from sklearn.preprocessing import StandardScaler

# Base

In [2]:
df = pd.read_csv('/kaggle/input/horror-movies/horror_movies.csv', sep=',')

df.head()

Unnamed: 0.1,Unnamed: 0,id,original_title,title,original_language,overview,tagline,release_date,poster_path,popularity,...,vote_average,budget,revenue,runtime,status,adult,backdrop_path,genre_names,collection,collection_name
0,1,760161,Orphan: First Kill,Orphan: First Kill,en,After escaping from an Estonian psychiatric fa...,There's always been something wrong with Esther.,2022-07-27,/pHkKbIRoCe7zIFvqan9LFSaQAde.jpg,5088.584,...,6.9,0.0,9572765.0,99,Released,False,/5GA3vV1aWWHTSDO5eno8V5zDo8r.jpg,"Horror, Thriller",760193.0,Orphan Collection
1,2,760741,Beast,Beast,en,A recently widowed man and his two teenage dau...,Fight for family.,2022-08-11,/xIGr7UHsKf0URWmyyd5qFMAq4d8.jpg,2172.338,...,7.1,0.0,56000000.0,93,Released,False,/2k9tBql5GYH328Krj66tDT9LtFZ.jpg,"Adventure, Drama, Horror",,
2,3,882598,Smile,Smile,en,"After witnessing a bizarre, traumatic incident...","Once you see it, it’s too late.",2022-09-23,/hiaeZKzwsk4y4atFhmncO5KRxeT.jpg,1863.628,...,6.8,17000000.0,45000000.0,115,Released,False,/mVNPfpydornVe4H4UCIk7WevWjf.jpg,"Horror, Mystery, Thriller",,
3,4,756999,The Black Phone,The Black Phone,en,"Finney Blake, a shy but clever 13-year-old boy...",Never talk to strangers.,2022-06-22,/lr11mCT85T1JanlgjMuhs9nMht4.jpg,1071.398,...,7.9,18800000.0,161000000.0,103,Released,False,/AfvIjhDu9p64jKcmohS4hsPG95Q.jpg,"Horror, Thriller",,
4,5,772450,Presencias,Presences,es,A man who loses his wife and goes to seclude h...,,2022-09-07,/dgDT3uol3mdvwEg0jt1ble3l9hw.jpg,1020.995,...,7.0,0.0,0.0,0,Released,False,/ojfzhdwRemcDt1I6pao6vVLw9AA.jpg,Horror,,


# 1. Explorando e entendendo os dados
#### 1.1 Criando uma prévia das colunas 'popularity', 'vote_count', 'vote_average', 'budget' e 'revenue'.

In [3]:
# Padronizando os valores númericos para que não aparecam como valor cientifico.

# sumario estatistico das colunas.
df[['popularity', 'budget', 'revenue']].describe()

Unnamed: 0,popularity,budget,revenue
count,32540.0,32540.0,32540.0
mean,4.013456,543126.6,1349747.0
std,37.513472,4542668.0,14430480.0
min,0.0,0.0,0.0
25%,0.6,0.0,0.0
50%,0.84,0.0,0.0
75%,2.24325,0.0,0.0
max,5088.584,200000000.0,701842600.0


#### 1.2 Visualizando a distribuição do orçamento, receita e popularidade.

In [4]:
# Bibliotecas
import plotly.graph_objects as go
from plotly.subplots import make_subplots

# Criando um subplot
fig = make_subplots(rows=3, cols=1, subplot_titles=(
    'Distribuição do orçamento', 'Distribuição da receita', 'Distribuição da popularidade'))

# Gráfico de distribuição para 'budget'
fig.add_trace(go.Histogram(
    x=df['budget'], name='Orçamento', marker_color='blue', nbinsx=50), row=1, col=1)

# Gráfico para distribuição de 'revenue'
fig.add_trace(go.Histogram(
    x=df['revenue'], name='Receita', marker_color='green', nbinsx=50), row=2, col=1)

# Gráfico para distribuição de 'popularity'
fig.add_trace(go.Histogram(
    x=df['popularity'], name='Popularidade', marker_color='red', nbinsx=50), row=3, col=1)

# Layout do gráfico
fig.update_layout(height=800, width=800,
                  title_text="Distribuição do orçamento, receita e popularidade", showlegend=False)
fig.update_xaxes(title_text="Orçamento", row=1, col=1)
fig.update_xaxes(title_text="Receita", row=2, col=1)
fig.update_xaxes(title_text="Popularidade", row=3, col=1)
fig.update_yaxes(title_text="Quantidade", row=1, col=1)
fig.update_yaxes(title_text="Quantidade", row=2, col=1)
fig.update_yaxes(title_text="Quantidade", row=3, col=1)

# Monstrar
fig.show()

# 2. Processando os dados.
#### 2.1 Contando os dados faltantes.

In [5]:
df[['popularity', 'budget', 'revenue']].isnull().sum()

popularity    0
budget        0
revenue       0
dtype: int64

#### 2.2 Checando os valores duplicados.

In [6]:
df.duplicated().sum()

0

#### 2.3 Normatizando
Este código faz uso da biblioteca Scikit-Learn (sklearn) para realizar o pré-processamento de escala padrão (standardization) em um DataFrame do Pandas.

In [7]:
# Normatizar as colunas 'budget', 'revenue', e 'popularity'.
scaler = StandardScaler()
df[['budget', 'revenue', 'popularity']] = scaler.fit_transform(
    df[['budget', 'revenue', 'popularity']])

#### 2.4 Convertendo formato datetime.

In [8]:
# Convertendo para datetime.
df['release_date'] = pd.to_datetime(df['release_date'])

# Criando a coluna com o mês de lançamento.
df['release_month'] = df['release_date'].dt.month

## 3. Analise.
#### 3.1 Verificando a correlação entre a receita e o orçamento da coleção de filmes.


In [9]:
correlation_matrix = df[['budget', 'revenue', 'popularity']].corr()
fig1 = px.scatter(df, x='budget', y='revenue', color='popularity', title='Relação de receita e orçamento por popularidade')
fig1.show()

#### 3.2 Verificando a corelação entre a receita, orçamento e a popularidade.

In [10]:
correlacao = df[['budget', 'revenue', 'popularity']].corr()
print(correlacao)

              budget   revenue  popularity
budget      1.000000  0.630493    0.115664
revenue     0.630493  1.000000    0.155160
popularity  0.115664  0.155160    1.000000


#### 3.3 Filmes mais populares.

In [11]:
top_filmes = pd.DataFrame(df.groupby('original_title')[['overview', 'popularity']].sum(
).sort_values('popularity', ascending=False).round(2).head(10))

fig = px.bar(top_filmes, x=top_filmes.index, y='popularity',
             title='Popularidade ', template='seaborn', color=top_filmes.index, text='popularity')
fig.show()