# Bibliotecas 

In [None]:
import numpy as np
import pandas as pd

import seaborn as sns
import matplotlib.pyplot as plt
import plotly.express as px
# import plotly as px
from sklearn.preprocessing import StandardScaler

# Bases

Gosto sempre de deixar uma base de BackUp po segurança.

In [None]:
df = pd.read_csv('./Datasets/horror_movies.csv', sep=',')
bkp = pd.read_csv('./Datasets/horror_movies.csv', sep=',')

df.head()

# 1. Explorando e entendendo os dados

#### 1.1 Criando uma prévia das colunas 'popularity', 'vote_count', 'vote_average', 'budget' e 'revenue'.

In [None]:
# Padronizando os valores númericos para que não aparecam como valor cientifico.

# sumario estatistico das colunas.
df[['popularity', 'budget', 'revenue']].describe()

#### 1.2 Visualizando a distribuição do orçamento, receita e popularidade.

In [None]:
# Bibliotecas
import plotly.graph_objects as go
from plotly.subplots import make_subplots

# Create a subplot layout
fig = make_subplots(rows=3, cols=1, subplot_titles=(
    'Distribuição do orçamento', 'Distribuição da receita', 'Distribuição da popularidade'))

# Plot distribution for 'budget'
fig.add_trace(go.Histogram(
    x=df['budget'], name='Orçamento', marker_color='blue', nbinsx=50), row=1, col=1)

# Plot distribution for 'revenue'
fig.add_trace(go.Histogram(
    x=df['revenue'], name='Receita', marker_color='green', nbinsx=50), row=2, col=1)

# Plot distribution for 'popularity'
fig.add_trace(go.Histogram(
    x=df['popularity'], name='Popularidade', marker_color='red', nbinsx=50), row=3, col=1)

# Update layout for better appearance
fig.update_layout(height=800, width=800,
                  title_text="Distribuição do orçamento, receita e popularidade", showlegend=False)
fig.update_xaxes(title_text="Orçamento", row=1, col=1)
fig.update_xaxes(title_text="Receita", row=2, col=1)
fig.update_xaxes(title_text="Popularidade", row=3, col=1)
fig.update_yaxes(title_text="Quantidade", row=1, col=1)
fig.update_yaxes(title_text="Quantidade", row=2, col=1)
fig.update_yaxes(title_text="Quantidade", row=3, col=1)

# Display the plots
fig.show()

# 2. Processando os dados.

#### 2.1 Contando os dados faltantes.

In [None]:
df[['popularity', 'budget', 'revenue']].isnull().sum()

#### 2.2 Checando os valores duplicados.

In [None]:
df.duplicated().sum()

#### 2.3 Normatizando
Este código faz uso da biblioteca Scikit-Learn (sklearn) para realizar o pré-processamento de escala padrão (standardization) em um DataFrame do Pandas.

In [None]:
# Normatizar as colunas 'budget', 'revenue', e 'popularity'.
scaler = StandardScaler()
df[['budget', 'revenue', 'popularity']] = scaler.fit_transform(
    df[['budget', 'revenue', 'popularity']])

#### 2.4 Convertendo formato datetime.

In [None]:
# Convertendo para datetime.
df['release_date'] = pd.to_datetime(df['release_date'])

# Criando a coluna com o mês de lançamento.
df['release_month'] = df['release_date'].dt.month

## 3. Analise.


#### 3.1 Verificando a correlação entre a receita e o orçamento da coleção de filmes.

In [None]:
correlation_matrix = df[['budget', 'revenue', 'popularity']].corr()
fig1 = px.scatter(df, x='budget', y='revenue', color='popularity', title='Relação de receita e orçamento por popularidade')
fig1.show()

#### 3.2 Verificando a corelação entre a receita, orçamento e a popularidade.

In [None]:
correlacao = df[['budget', 'revenue', 'popularity']].corr()
print(correlacao)

#### 3.3 Filmes mais populares.

In [None]:
top_filmes = pd.DataFrame(df.groupby('original_title')[['overview', 'popularity']].sum(
).sort_values('popularity', ascending=False).round(2).head(10))

fig = px.bar(top_filmes, x=top_filmes.index, y='popularity',
             title='Popularidade ', template='seaborn', color=top_filmes.index, text='popularity')
fig.show()