# Notebook Predict Codes

## üìÑ Introdu√ß√£o

&nbsp;&nbsp;&nbsp;&nbsp;Este notebook criado pelo grupo Predict Codes cont√©m a an√°lise de dados da Rede Gazeta. O objetivo √© identificar padr√µes de receita, analisar o impacto de diferentes ve√≠culos, setores e segmentos para que, assim, seja poss√≠vel prever a receita futura.
<br>
&nbsp;&nbsp;&nbsp;&nbsp; Agora, para a plena execu√ß√£o do notebook, √© necess√°rio primeiramente acessar [este link do drive](https://drive.google.com/drive/folders/1gPtxw2ZwFKJgWMN1R-kwkeerCG9_fNwz?usp=drive_link) com o email institucional do Inteli, baixar os arquivos necess√°rios e inserir eles na pasta "base_de_dados", dentro da pasta "notebooks". Ap√≥s isso, ser√° poss√≠vel executar o comando Run All.

## üìÇ Carregamento de dados

Nessa etapa, ser√£o instaladas e importadas as principais bibliotecas que ser√£o utilizadas em todo o notebook, bem como a importa√ß√£o das bases de dados utilizadas no modelo preditivo.

In [None]:
! pip install pandas matplotlib seaborn scikit-learn scipy lightgbm optuna ipywidgets pingouin

In [2]:
# Importa√ß√£o das principais bibliotecas
import itertools
import warnings

# Manipula√ß√£o de dados e estat√≠sticas
import numpy as np
import pandas as pd
from scipy import stats

# Plotagem de gr√°ficos e visualiza√ß√£o de dados
import matplotlib.pyplot as plt
import seaborn as sns

# Widgets interativos
import ipywidgets as widgets
from IPython.display import display

# Machine Learning
import lightgbm as lgb
from sklearn.ensemble import RandomForestRegressor
from sklearn.linear_model import LinearRegression
from sklearn.metrics import (
    mean_absolute_error, 
    mean_absolute_percentage_error, 
    mean_squared_error, 
    r2_score
)
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder, StandardScaler
from statsmodels.tsa.statespace.sarimax import SARIMAX

# Otimiza√ß√£o
import optuna

# Configura√ß√µes de exibi√ß√£o do Pandas e alertas
pd.set_option('display.max_columns', 500)
warnings.filterwarnings("ignore")


In [3]:
# Importa√ß√£o das bases de dados
# Base de de dados de agosto (principal)
df = pd.read_csv('base_de_dados/BaseDados_ProjetoINTELI_RG_01_AGOSTO_2024.xlsx - BASE.csv')
# Base de de dados de ocup
df_ocup = pd.read_csv('base_de_dados/BASE INTELI_META_OCUP.xlsx - OCUPA√á√ÉO .csv')
# Base de dados de meta
df_meta = pd.read_csv('base_de_dados/BASE INTELI_META_OCUP.xlsx - META.csv')
# Base de dados de audi√™ncia
df_audiencia = pd.read_csv('base_de_dados/AUDIENCIA_07_08_2024_COMPLETA.xlsx - AUDIENCIA.csv')
# Base de dados econ√¥micos
df_dados_economicos = pd.read_csv('base_de_dados/DadosEconomicos_ES_Inteli.xlsx - VarejoTotal.csv')



## üîé Explora√ß√£o dos dados

&nbsp;&nbsp;&nbsp;&nbsp;A explora√ß√£o de dados pode ser compreendida como a etapa inicial para o tratamento dos dados, na qual os se examinam suas principais caracter√≠sticas, padr√µes e distribui√ß√µes.

### Identifica√ß√£o das colunas num√©ricas e categ√≥ricas

&nbsp;&nbsp;&nbsp;&nbsp;Ao realizar a explora√ß√£o de dados, √© necess√°rio compreender quais s√£o os tipos dos dados que comp√µem as bases de dados utilizadas. Para a realiza√ß√£o da classifica√ß√£o das colunas, foi feita uma an√°lise visual, na qual observamos e classificamos manualmente os dados presentes em cada coluna. Esse m√©todo foi necess√°rio devido a inconsist√™ncias identificadas na descri√ß√£o autom√°tica dos tipos de dados por meio do c√≥digo, que apresentava erros, que podem ser obvervados abaixo. Esses erros foram corrigidos posteriormente durante a etapa de limpeza dos dados, permitindo uma classifica√ß√£o mais precisa entre colunas num√©ricas e categ√≥ricas.

#### Base de dados principal:

In [None]:
# Exibe os tipos de dados de cada coluna no df principal
df.dtypes

#### Base de dados de meta/ocupa√ß√£o:

In [None]:
# Exibe os tipos de dados de cada coluna no df_meta
df_meta.dtypes

In [None]:
# Exibe os tipos de dados de cada coluna no df_ocup
df_ocup.dtypes

#### Base de dados de audi√™ncia:

In [None]:
# Exibe os tipos de dados de cada coluna no df_audiencia
df_audiencia.dtypes

### Estat√≠stica descritiva das colunas

Base de dados principal:

In [None]:
df.describe()

Base de dados econ√¥micos:

In [None]:
df_dados_economicos.describe()

Base de dados de audi√™ncia:

In [None]:
df_audiencia.describe()

### Gr√°ficos para visualiza√ß√£o 

In [None]:
# C√≥digo para implanta√ß√£o dos gr√°ficos
corr_df = df.select_dtypes(include=[np.number])
corr_matrix = corr_df.corr()
sns.heatmap(corr_matrix, annot=True)
plt.show()

## üõ†Ô∏è Pr√©-Processamento dos dados

&nbsp;&nbsp;&nbsp;&nbsp;Etapa fundamental para evitar o surgimento de vieses nos dados. Dados que s√£o mal preparados ou n√£o passam por um bom pr√©-processamento podem diminuir a assertividade do modelo preditivo.
Ao longo dessa se√ß√£o, as bases de dados foram limpadas, corrigidas e normalizadas.

### ‚ö†Ô∏è Tratamento de missing values, identifica√ß√£o de outliers e corre√ß√£o

&nbsp;&nbsp;&nbsp;&nbsp;Nessa etapa foram tratados os valores ausentes e duplicados, corrigido os tipos de colunas e identificado os outliers da base de dados principal, de meta/ocupa√ß√£o e de audi√™ncia.

#### Base de dados principal:

Ao longo desse bloco de c√≥digos, foram tratados os problemas existentes nessa base de dados, como missing values, colunas num√©ricas que est√£o com tipo "object", identifica√ß√£o de outliers, remo√ß√£o de colunas com valores ausentes.

In [None]:
# Identifica√ß√£o dos valores nulos
df.isnull().sum()

In [None]:
# Verifica√ß√£o das colunas num√©ricas que est√£o sendo tratadas como objetos
df.info()

In [14]:
# Remo√ß√£o de coluna com valores vazios
df = df.dropna(axis=1, thresh=int(0.6 * len(df)))

In [None]:
# Corre√ß√£o das colunas num√©ricas
colunas_numericas = ['VL Tabela', 'Desconto R$','Desc %', 'Vl Bruto', 'Vl Liquido Final', 'IPCA ES', 'IPCA BR', 'Taxa Ac. TRI % PIB']
for coluna in colunas_numericas:
  if df[coluna].dtype == 'object':
    df[coluna] = df[coluna].str.replace('.', '')
    df[coluna] = df[coluna].str.replace(',', '.')
    df[coluna] = df[coluna].str.replace('%', '.')
    df[coluna] = df[coluna].astype(float)
df.head()

In [16]:
# Os valores nulos da coluna do PIB dizem respeito ao segundo trimestre de 2024
# Como o resultado ainda n√£o foi divulgado, os valores nulos foram completados com estimativas do resultado do PIB
df['Taxa Ac. TRI % PIB'].fillna(2.1, inplace = True)

In [None]:
df = df.dropna(subset=['Setor'])
df

In [None]:
# Verifica√ß√£o se ainda h√° valores faltantes
df.isnull().sum()

In [None]:
colunas_principais = ['VL Tabela', 'Vl Bruto', 'Vl Liquido Final']
# Calcular o Z-Score para cada coluna num√©rica
z_scores_df = stats.zscore(df[colunas_principais])

# Criar um DataFrame com os Z-Scores
z_scores_df = pd.DataFrame(z_scores_df, columns=colunas_principais)

# Identificar os outliers (considerando Z-Score > 3 ou < -3 como outliers)
outliers_df = (z_scores_df > 3) | (z_scores_df < -3)

# Visualizar as linhas que possuem outliers em alguma das colunas
outliers_df = df[outliers_df.any(axis=1)]

outliers_df

In [None]:
# Verificar o menor outlier em cada uma das colunas
menor_outlier_vl_tabela = outliers_df['VL Tabela'].min()
menor_outlier_vl_bruto = outliers_df['Vl Bruto'].min()
menor_outlier_vl_liquido_final = outliers_df['Vl Liquido Final'].min()

# Exibir os menores outliers para cada coluna
print(f"Menor outlier em 'VL Tabela': {menor_outlier_vl_tabela}")
print(f"Menor outlier em 'Vl Bruto': {menor_outlier_vl_bruto}")
print(f"Menor outlier em 'Vl Liquido Final': {menor_outlier_vl_liquido_final}")


In [None]:
# Identifica√ß√£o dos valores duplicados
principal_duplicadas = df[df.duplicated()]
principal_duplicadas

In [22]:
# Remo√ß√£o das linhas duplicadas
df.drop_duplicates(inplace=True)

#### Base de dados de meta/ocupa√ß√£o:

Na base de meta/ocupa√ß√£o, verificou-se que n√£o existiam outliers, valores faltando e linhas duplicadas. No entanto, foi necess√°rio a adequa√ß√£o da coluna de m√™s ano e ocupa√ß√£o(%) para valores mais adequados para se trabalhar.

In [None]:
# Identifica√ß√£o dos valores nulos
df_ocup.isnull().sum()

In [None]:
# Verifica√ß√£o das colunas num√©ricas que est√£o sendo tratadas como objetos
df_ocup.info()

In [None]:
# Transformando as datas em um formato de datetime
meses = {
    'jan.': '01',
    'fev.': '02',
    'mar.': '03',
    'abr.': '04',
    'mai.': '05',
    'jun.': '06',
    'jul.': '07',
    'ago.': '08',
    'set.': '09',
    'out.': '10',
    'nov.': '11',
    'dez.': '12'
}

for mes_pt, mes_num in meses.items():
    df_ocup['M√™s/ano'] = df_ocup['M√™s/ano'].str.replace(mes_pt, mes_num)

df_ocup['M√™s/ano'] = pd.to_datetime(df_ocup['M√™s/ano'], format='%m-%y')

# Transformando a coluna de 'Ocupa√ß√£o (%)' em num√©rica
if df_ocup['Ocupa√ß√£o (%)'].dtype == 'object':
    df_ocup['Ocupa√ß√£o (%)'] = df_ocup['Ocupa√ß√£o (%)'].str.replace('%', '')
    df_ocup['Ocupa√ß√£o (%)'] = df_ocup['Ocupa√ß√£o (%)'].astype(float)
df_ocup.dtypes

In [None]:
# Calcular o Z-Score para a coluna de Ocupa√ß√£o (%)
z_scores_df_ocup = stats.zscore(df_ocup['Ocupa√ß√£o (%)'])

# Criar um DataFrame com os Z-Scores
z_scores_df_ocup = pd.DataFrame(z_scores_df_ocup)

# Exibir os primeiros valores dos Z-Scores
z_scores_df_ocup

In [None]:
# Identificar os outliers (considerando Z-Score > 3 ou < -3 como outliers)
outliers_df_ocup = (z_scores_df_ocup > 3) | (z_scores_df_ocup < -3)

# Visualizar as linhas que possuem outliers na coluna de Ocupa√ß√£o (%)
outliers_df_ocup = df_ocup[outliers_df_ocup.any(axis=1)]

outliers_df_ocup

In [None]:
# Identifica√ß√£o dos valores duplicados
ocup_duplicadas = df_ocup[df_ocup.duplicated()]
ocup_duplicadas

#### Base de dados de audi√™ncia:

Na limpeza da base de dados de audi√™ncia, notou-se que n√£o haviam valores duplicados e faltantes. Havia a presen√ßa apenas de um outlier, e foi necess√°rio transformar as colunas de Internet e "Portal G1/GE/Home" de string para num√©ricas.

In [None]:
# Identifica√ß√£o dos valores nulos
df_audiencia.isnull().sum()

In [None]:
# Verifica√ß√£o das colunas num√©ricas que est√£o sendo tratadas como objetos
df_audiencia.info()

In [None]:
# Transformando colunas em string para num√©ricas
colunas_audiencia = ['GAZETA FM VIT√ìRIA', 'LITORAL FM', 'CBN VITORIA', 
                     'R√ÅDIO MIX VIT√ìRIA', 'INTERNET', 'PORTAL G1/GE/HOME']
colunas_audiencia_string = ['INTERNET', 'PORTAL G1/GE/HOME']

for coluna in colunas_audiencia_string:
  if df_audiencia[coluna].dtype == 'object':
    df_audiencia[coluna] = df_audiencia[coluna].str.replace('.', '')
    df_audiencia[coluna] = df_audiencia[coluna].astype(float)
df_audiencia.dtypes

In [None]:
# Calcular o Z-Score para cada coluna num√©rica
z_scores_df_audiencia = stats.zscore(df_audiencia[colunas_audiencia])

# Criar um DataFrame com os Z-Scores
z_scores_df_audiencia = pd.DataFrame(z_scores_df_audiencia, columns=colunas_audiencia)

# Identificar os outliers (considerando Z-Score > 3 ou < -3 como outliers)
outliers_df_audiencia = (z_scores_df_audiencia > 3) | (z_scores_df_audiencia < -3)

# Visualizar as linhas que possuem outliers em alguma das colunas
outliers_df_audiencia = df_audiencia[outliers_df_audiencia.any(axis=1)]

outliers_df_audiencia

In [None]:
# Identifica√ß√£o dos valores duplicados
duplicadas_audiencia = df_audiencia[df_audiencia.duplicated()]
duplicadas_audiencia

In [None]:
df.describe()

In [35]:
# cria coluna de Vl Liquido Final sem normaliza√ß√£o para ser usada na modelo LightGBM
df['Vl Liquido Final s/ normaliza√ß√£o'] = df['Vl Liquido Final']

In [36]:
df['Vl Liquido Final s/ norm'] = df['Vl Liquido Final']

In [None]:
df_veiculo_grafico = df.groupby('Veiculo')['Vl Liquido Final'].sum().reset_index()
df_veiculo_grafico.sort_values(by='Vl Liquido Final', ascending=False, inplace=True)
df_veiculo_principais = df_veiculo_grafico.head(2)
df_veiculo_menores = df_veiculo_grafico.tail(17)
df_veiculo_menores['Vl Liquido Final'].sum()

grafico_pizza = [df_veiculo_menores['Vl Liquido Final'].sum(), df_veiculo_principais['Vl Liquido Final'].sum()]
keys = ['Outros ve√≠culos', 'TV Gazeta e Internet']
explode = (0.1, 0) 
# plotting data on chart 
plt.pie(grafico_pizza, labels=keys, explode=explode, shadow=True, startangle=90,
        autopct='%.0f%%') 
  
# displaying chart 
plt.show() 

### üìè Normaliza√ß√£o das vari√°veis

&nbsp;&nbsp;&nbsp;&nbsp;A normaliza√ß√£o de vari√°veis num√©ricas √© um processo realizado para a transforma√ß√£o dos dados para uma escala comum, feita para garantir que n√£o haja uma domin√¢ncia de algumas vari√°veis no modelo, devido sua magnitude. Portanto, realizou-se a an√°lise da distribui√ß√£o dos dados das colunas das nossas base de dados para assim compreender quais necessitavam de normaliza√ß√£o e depois essa foi aplicada como √© demonstrado abaixo.

#### Base de dados principal

&nbsp;&nbsp;&nbsp;&nbsp;A base de dados possui as seguintes colunas num√©ricas: 'VL Tabela', 'Desconto R$', 'Desc %', 'Vl Bruto', 'Vl Liquido Final', 'IPCA ES', 'IPCA BR' e 'Taxa Ac. TRI % PIB'. A an√°lise descritiva revelou uma grande disparidade nos valores relacionados √† receita e ao desconto, o que justifica a aplica√ß√£o da transforma√ß√£o logar√≠tmica para normalizar essas colunas e tratar os outliers presentes.

In [None]:
# An√°lise descritiva das colunas de receita
df[['VL Tabela', 'Desconto R$', 'Vl Bruto', 'Vl Liquido Final']].describe()

&nbsp;&nbsp;&nbsp;&nbsp;Para aplicar essa normaliza√ß√£o, utilizamos a fun√ß√£o `np.log1p`, que calcula o logaritmo natural de (1 + valor) para cada dado. Sendo uma transforma√ß√£o, adequada para ajustar vari√°veis com ampla varia√ß√£o, pois reduz a diferen√ßa entre valores altos e baixos, estabilizando a vari√¢ncia. 

##### Coluna "VL Tabela"

&nbsp;&nbsp;&nbsp;&nbsp;Primeiramente, realizou-se a normaliza√ß√£o, por meio da Transforma√ß√£o Logar√≠tmica, da coluna "VL Tabela":

In [39]:
# Aplica a transforma√ß√£o logar√≠tmica √† coluna 'VL Tabela'
df['VL Tabela'] = np.log1p(df['VL Tabela'])

#Adiciona o m√©todo a uma vari√°vel para que ele possa ser utilizado na normaliza√ß√£o
scaler = StandardScaler()

df['VL Tabela'] = scaler.fit_transform(df[['VL Tabela']])


&nbsp;&nbsp;&nbsp;&nbsp;Ao aplicar a transforma√ß√£o logar√≠tmica, conseguimos reduzir a assimetria da distribui√ß√£o dos dados na coluna 'VL Tabela'. Isso pode ser observado no gr√°fico de distribui√ß√£o a seguir, onde a forma dos dados est√° mais centralizada e pr√≥xima de uma distribui√ß√£o normal.

In [None]:
cor_barras = "lightsalmon"
cor_kde = "black"

# Gr√°fico de Histograma
sns.histplot(df['VL Tabela'], kde=False, stat="density", color=cor_barras, label="Histograma de Frequ√™ncia")

# Adicionar o KDE separadamente com cor e label personalizados
sns.kdeplot(df['VL Tabela'], color=cor_kde, label='Curva de Densidade Estimada (KDE)')

# Adicionando a legenda
plt.legend(title="Legenda", loc="upper right", fontsize=6)  # Adiciona a legenda no canto superior direito

# Ajustando o t√≠tulo e os eixos
plt.title('Gr√°fico de Distribui√ß√£o: VL Tabela"', fontsize=12)
plt.xlabel('                                     Valores de VL Tabela               ln(1+x)', fontsize=12)
plt.ylabel('Densidade', fontsize=12)

plt.show()

##### Coluna "Desconto R$" 

&nbsp;&nbsp;&nbsp;&nbsp;Antes de realizar a normaliza√ß√£o, foi necess√°rio a transforma√ß√£o dos valores de descontos negativos em valores absolutos, para que assim o m√©todo de normaliza√ß√£o escolhido realizasse a normaliza√ß√£o da forma esperada.

In [41]:
# Altera os valores da coluna de desconto para valores absolutos
df[['Desconto R$']] = df[['Desconto R$']].abs()

&nbsp;&nbsp;&nbsp;&nbsp;Ap√≥s a adequa√ß√£o dos valores, aplicou-se o mesmo m√©todo de normaliza√ß√£o da coluna anterior:

In [42]:
# Aplica a transforma√ß√£o logar√≠tmica √† coluna 'Desconto R$'
df['Desconto R$'] = np.log1p(df['Desconto R$'])
df['Desconto R$']= scaler.fit_transform(df[['Desconto R$']])


&nbsp;&nbsp;&nbsp;&nbsp;Assim, percebe-se que transforma√ß√£o logar√≠tmica reduziu a assimetria na coluna 'Desconto R$', melhorando a distribui√ß√£o dos dados. Embora ainda haja concentra√ß√£o em torno de zero, a curva de densidade mostra uma distribui√ß√£o mais equilibrada, como √© poss√≠vel observar no gr√°fico abaixo.

In [None]:
# Gr√°fico de Distribui√ß√£o com a linha de densidade (KDE)
sns.histplot(df['Desconto R$'], kde=False, stat="density", color=cor_barras, label="Histograma de Frequ√™ncia")
sns.kdeplot(df['Desconto R$'], color=cor_kde, linewidth=1.3, label="Curva de Densidade Estimada (KDE)")  # Limita a KDE para come√ßar no 0

# Adicionando a legenda
plt.legend(title="Legenda", loc="upper right")  # Adiciona a legenda no canto superior direito

# Ajustando o t√≠tulo e os eixos
plt.title('Gr√°fico de Distribui√ß√£o dos Valores da Coluna "Desconto R$"', fontsize=12)
plt.xlabel('                                                       Valores da coluna "Desconto R$"                                       ln(1+x)', fontsize=12)
plt.ylabel('Densidade', fontsize=12)

# Remover legendas extras e linhas desnecess√°rias
plt.grid(False)
plt.tight_layout()

# Exibindo o gr√°fico
plt.show()

##### Coluna "Vl Bruto" 

In [44]:
# Aplica a transforma√ß√£o logar√≠tmica √† coluna "Vl Bruto"
df['Vl Bruto'] = np.log1p(df['Vl Bruto'])
df['Vl Bruto'] = scaler.fit_transform(df[['Vl Bruto']])


&nbsp;&nbsp;&nbsp;&nbsp;Assim como nas colunas acima, a aplica√ß√£o da normaliza√ß√£o reduziu a dispers√£o dos dados, aproximando os valores de uma distribui√ß√£o normal, como √© poss√≠vel observar no gr√°fico abaixo.

In [None]:
# Gr√°fico de Histograma
sns.histplot(df['Vl Bruto'], kde=False, stat="density", color=cor_barras, label="Histograma de Frequ√™ncia")

# Adicionar o KDE separadamente com cor e label personalizados
sns.kdeplot(df['Vl Bruto'], color=cor_kde, label='Curva de Densidade Estimada (KDE)')

# Adicionando a legenda
plt.legend(title="Legenda", loc="upper right", fontsize=6)  # Adiciona a legenda no canto superior direito

# Ajustando o t√≠tulo e os eixos
plt.title('Gr√°fico de Distribui√ß√£o: Vl Bruto"', fontsize=12)
plt.xlabel('                                                       Valores de Vl Bruto                                       ln(1+x)', fontsize=12)
plt.ylabel('Densidade', fontsize=12)

plt.show()

##### Coluna "Vl Liquido Final"

In [None]:
# Aplica a transforma√ß√£o logar√≠tmica √† coluna "Vl Liquido Final"
df_sem_escala = df.copy()
df['Vl Liquido Final'] = np.log1p(df['Vl Liquido Final'])
df['Vl Liquido Final'] = scaler.fit_transform(df[['Vl Liquido Final']])
df['Vl Liquido Final']


&nbsp;&nbsp;&nbsp;&nbsp;Por fim, a normaliza√ß√£o da coluna "VL L√≠quido Final" tamb√©m apresentou os resultados esperados, possibilitando uma redu√ß√£o na variabilidade dos dados e atenuando a influ√™ncia dos outliers.

In [None]:
# Gr√°fico de Histograma
sns.histplot(df['Vl Bruto'], kde=False, stat="density", color=cor_barras, label="Histograma de Frequ√™ncia")

# Adicionar o KDE separadamente com cor e label personalizados
sns.kdeplot(df['Vl Bruto'], color=cor_kde, label='Curva de Densidade Estimada (KDE)')

# Adicionando a legenda
plt.legend(title="Legenda", loc="upper right", fontsize=6)  # Adiciona a legenda no canto superior direito

# Ajustando o t√≠tulo e os eixos
plt.title('Gr√°fico de Distribui√ß√£o: Vl Liquido Final', fontsize=12)
plt.xlabel('                              Valores de Vl Liquido Final           ln(1+x)', fontsize=12)
plt.ylabel('Densidade', fontsize=12)

plt.show()

#### Base de dados econ√¥micos


Na base de dados Economicos , existem tr√™s colunas com vari√°veis num√©ricas que necessitavam ser normalizadas para que pudessem ser utilizadas em modelos preditivos e an√°lises estat√≠sticas. As colunas normalizadas foram as  'PMC - N√∫mero-√≠ndice (2022=100) (N√∫mero-√≠ndice)' , 'PMC - N√∫mero-√≠ndice com ajuste sazonal (2022=100) (N√∫mero-√≠ndice)'e 'PMC - Varia√ß√£o m√™s/m√™s imediatamente anterior, com ajuste sazonal (M/M-1) (%)'.


In [48]:
#Simplifica os nomes das colunas para que elas fiquem com uma visualiza√ß√£o mais simplificada e direta
df_dados_economicos.rename(columns={'PMC - N√∫mero-√≠ndice (2022=100) (N√∫mero-√≠ndice)': 'pmc_indice',
                                    'PMC - N√∫mero-√≠ndice com ajuste sazonal (2022=100) (N√∫mero-√≠ndice)': 'pmc_indice_sazonal',
                                    'PMC - Varia√ß√£o m√™s/m√™s imediatamente anterior, com ajuste sazonal (M/M-1) (%)': 'pmc_variacao' }, inplace=True)


In [49]:
#Deleta duas linhas da tabela onde continham dados faltantes
df_dados_economicos = df_dados_economicos.drop(index=0)
df_dados_economicos = df_dados_economicos.drop(index=1)

In [None]:
#Transforma as colunas as c√©lulas strings em num√©ricas
col_num_economicos = ['pmc_indice', 'pmc_indice_sazonal', 'pmc_variacao']
for coluna in col_num_economicos:
  if df_dados_economicos[coluna].dtype == 'object':
    df_dados_economicos[coluna] = df_dados_economicos[coluna].str.replace(',', '.')
    df_dados_economicos[coluna] = df_dados_economicos[coluna].astype(float)
df_dados_economicos.head()


Escolher o m√©todo Z-Score de Normaliza√ß√£o √© ideal para dados que seguem uma distribui√ß√£o aproximadamente normal (esse √© o caso das colunas dessa tabela), pois ele transforma os dados para uma escala com m√©dia 0 e desvio padr√£o 1. Isso √© especialmente √∫til para modelos estat√≠sticos que assumem normalidade e s√£o sens√≠veis √† escala dos dados, como regress√£o linear e modelos baseados em dist√¢ncia, garantindo consist√™ncia e comparabilidade entre as vari√°veis.

In [None]:
#Aplica o m√©todo "Z-Score Normalization" √†s colunas num√©ricas
df_dados_economicos[col_num_economicos] = scaler.fit_transform(df_dados_economicos[col_num_economicos])

df_dados_economicos.describe()


##### Coluna "pmc_indice"

Demonstra√ß√£o do Gr√°fico de Densidada da coluna "pmc_indice'"

In [None]:
sns.histplot(df_dados_economicos['pmc_indice'], kde=False, stat="density", color=cor_barras, label="Histograma de Frequ√™ncia")
# Adicionar o KDE separadamente com cor e label personalizados
sns.kdeplot(df_dados_economicos['pmc_indice'], color=cor_kde, label='Curva de Densidade Estimada (KDE)')
plt.title('Gr√°fico de Distribui√ß√£o: pmc_indice', fontsize=12)
# Adicionando a legenda
plt.legend(title="Legenda", loc="upper right", fontsize=6)  # Adiciona a legenda no canto superior direito
plt.xlabel('N√∫mero-√çndice do PMC')
plt.ylabel('Densidade')
plt.show()

##### Coluna "mpc_indice_sazonal"

Demonstra√ß√£o do Gr√°fico de Densidada da coluna "pmc_variacao"

In [None]:
sns.histplot(df_dados_economicos['pmc_indice_sazonal'], kde=False, stat="density", color=cor_barras, label="Histograma de Frequ√™ncia")
# Adicionar o KDE separadamente com cor e label personalizados
sns.kdeplot(df_dados_economicos['pmc_indice_sazonal'], color=cor_kde, label='Curva de Densidade Estimada (KDE)')
plt.title('Gr√°fico de Distribui√ß√£o: pmc_indice_sazonal', fontsize=12)
# Adicionando a legenda
plt.legend(title="Legenda", loc="upper right", fontsize=6)  # Adiciona a legenda no canto superior direito
plt.xlabel('√çndice Sazonal do PMC')
plt.ylabel('Densidade')
plt.show()

##### Coluna "pmc_variacao"

Demonstra√ß√£o do Gr√°fico de Densidada da coluna "pmc_variacao"

In [None]:
sns.histplot(df_dados_economicos['pmc_variacao'], kde=False, stat="density", color=cor_barras, label="Histograma de Frequ√™ncia")
# Adicionar o KDE separadamente com cor e label personalizados
sns.kdeplot(df_dados_economicos['pmc_variacao'], color=cor_kde, label='Curva de Densidade Estimada (KDE)')
plt.title('Gr√°fico de Distribui√ß√£o: pmc_variacao', fontsize=12)
# Adicionando a legenda
plt.legend(title="Legenda", loc="upper right", fontsize=6)  # Adiciona a legenda no canto superior direito
plt.xlabel('Varia√ß√£o do PMC')
plt.ylabel('Densidade')
plt.show()

Agora √© mostrado o come√ßinho da tabela para que seja poss√≠vel visualizar um peda√ßo do resultado

In [None]:
df_dados_economicos.head()

###  üî§ Codifica√ß√£o das vari√°veis categ√≥ricas


A aplica√ß√£o de vari√°veis categ√≥ricas em an√°lise de dados e machine learning envolve a convers√£o de dados qualitativos, como r√≥tulos ou categorias, em uma forma num√©rica que pode ser compreendida por algoritmos. Vari√°veis categ√≥ricas representam diferentes grupos ou n√≠veis, como "M√™s", "Setor" ou "Origem", e s√£o utilizados para titular de forma qualitativa certos atributos em um conjunto de dados. A correta codifica√ß√£o dessas vari√°veis √© indispens√°vel, pois permite que modelos preditivos e an√°lises estat√≠sticas utilizem informa√ß√µes categ√≥ricas de maneira eficaz, garantindo a integridade dos resultados e a melhoria da precis√£o dos modelos. Tamb√©m √© importante ressaltar que a codifica√ß√£o errada de vari√°veis pode acarretar em grave erro de c√°lculo nos modelos preditivos.

Foi utilizado inicialmente o m√©todo de 'Label Encoder' para codificar todas as colunas que continham vari√°veis categ√≥ricas. 

In [56]:
# Adiciona √† vari√°vel um m√©todo de Label Encoder, que ir√° aplicar o m√©todo Label √†s colunas
le = LabelEncoder()

#Faz com que o programa pare de realizar downcasting, pois isso ser√° impossibilitado de acontecer \
# nas pr√≥ximas vers√µes do pandas e estava deixando uma c√≥digo de exe√ß√£o ap√≥s algumas codifica√ß√µes
pd.set_option('future.no_silent_downcasting', True)

#### Base de dados principal:


Na base de dados principal, foram identificadas colunas com vari√°veis categ√≥ricas que necessitavam de codifica√ß√£o para que pudessem ser utilizadas em modelos preditivos e an√°lises estat√≠sticas. As colunas codificadas incluem "UEN", "Veiculo", "Cliente", "Origem", "Segmento", "Setor" e "M√™s/ano".

In [None]:
# Codifica a coluna 'UEN'
df['UEN'] = df['UEN'].fillna('')
df['UEN_encoded'] = le.fit_transform(df['UEN'])
df[['UEN','UEN_encoded']]

In [None]:
#Codifica a coluna 'Ve√≠culo'
df['Veiculo'] = df['Veiculo'].fillna('')
df['Veiculo_encoded'] = le.fit_transform(df['Veiculo'])
df[['Veiculo','Veiculo_encoded']]


In [None]:
#Codifica a coluna 'Cliente'
df['Cliente'] = df['Cliente'].fillna('')
df['Cliente_encoded'] = le.fit_transform(df['Cliente'])
df[['Cliente','Cliente_encoded']]

In [None]:
#Codifica a coluna 'Origem'
df['Origem'] = df['Origem'].fillna('')
df['Origem_encoded'] = le.fit_transform(df['Origem'])
df[['Origem','Origem_encoded']].drop_duplicates()

In [None]:
#Codifica a coluna 'Segmento'
df['Segmento'] = df['Segmento'].fillna('')
df['Segmento_encoded'] = le.fit_transform(df['Segmento'])
df[['Segmento','Segmento_encoded']].drop_duplicates()

In [None]:
#Codifica a coluna 'Setor'
df['Setor'] = df['Setor'].fillna('')
df['Setor_encoded'] = le.fit_transform(df['Setor'])
df[['Setor','Setor_encoded']]

A codifica√ß√£o da coluna 'M√™s/ano' √© um pouco diferente das outras pois exige alguns passos a mais para se adequar aos par√¢metros de codifica√ß√£o dos m√©todos utilizados

In [63]:
# Mapeamento manual dos meses em portugu√™s, o m√©tedo de encoding s√≥ funciona corretamente quando os meses est√£o em ingl√™s
meses = {'jan.': 'Jan', 'fev.': 'Feb', 'mar.': 'Mar', 'abr.': 'Apr',
         'mai.': 'May', 'jun.': 'Jun', 'jul.': 'Jul', 'ago.': 'Aug',
         'set.': 'Sep', 'out.': 'Oct', 'nov.': 'Nov', 'dez.': 'Dec'}

# Muda os meses para ingl√™s
df['M√™s/ano'] = df['M√™s/ano'].replace(meses, regex=True)

In [64]:
#Converte os meses escritos para n√∫mero
df['M√™s/ano'] = pd.to_datetime(df['M√™s/ano'], format='%b-%y', errors='coerce')

# Formata para o formato esperado de apresenta√ß√£o
df['M√™s/ano'] = df['M√™s/ano'].dt.strftime('%Y%m')

In [65]:
# Renomeaia o nome da coluna para se adequar a um padr√£o de escrita;
df.rename(columns={'M√™s/ano': 'Ano/m√™s'}, inplace=True)

Nesta parte, as colunas que passaram por codifica√ß√£o ser√£o removidas do dataframe.

In [None]:
excluir_colunas = ['UEN', 'Veiculo', 'Cliente', 'Origem', 'Segmento', 'Setor', 'CONCATENAR']
substituir_colunas = {
    'UEN_encoded': 'UEN',
    'Veiculo_encoded': 'Veiculo',
    'Cliente_encoded': 'Cliente',
    'Origem_encoded': 'Origem',
    'Segmento_encoded': 'Segmento',
    'Setor_encoded': 'Setor',
}

#Exclui as colunas que foram definidas na lista
df = df.drop(columns=excluir_colunas)
df = df.rename(columns=substituir_colunas)
df

In [None]:
#Assim ficaram as colunas e as codifica√ß√µes desse 'data frame'
df.head(5)

#### Base de dados de meta/ocupa√ß√£o:

Esta √© a p√°gina de **Meta** da base de dados, foram identificadas colunas com vari√°veis categ√≥ricas que necessitavam de codifica√ß√£o. As colunas codificadas incluem "Uen", "M√™s" e "M√™s/ano".

In [None]:
#Codificando vari√°veis para que elas fiquem codificadas iguais a numera√ß√£o real dos meses do ano 
df_meta['M√™s'] = df_meta['M√™s'].fillna('')

df_meta['mes_encoded'] = (df_meta['M√™s'].replace('Janeiro', 1)
                                     .replace('Fevereiro', 2)
                                     .replace('Mar√ßo', 3)
                                     .replace('Abril', 4)
                                     .replace('Maio', 5)
                                     .replace('Junho', 6)
                                     .replace('Julho', 7)
                                     .replace('Agosto', 8)
                                     .replace('Setembro', 9)
                                     .replace('Outubro', 10)
                                     .replace('Novembro', 11)
                                     .replace('Dezembro', 12))

df_view = df_meta['M√™s'].drop_duplicates()
df_view

In [None]:
#Substitui os valores vazios por strings vazias
df_meta['Uen'] = df_meta['Uen'].fillna('')

#Define exatamente quais vari√°veis ser√£o trocadas por quais n√∫meros
df_meta['Uen_encoded'] = (df_meta['Uen'].replace('Digital',0)
                                              .replace('R√°dio',1)
                                              .replace('Televis√£o',2))

#mostra a equival√™ncia entre a coluna normal e a codificada
df_view2 = df_meta[['Uen_encoded','Uen']].drop_duplicates()
df_view2.sort_values(by='Uen_encoded', ascending=True)

In [70]:
#Muda o nome da coluna para padroniza√ß√£o
df_meta.rename(columns={'M√™s/ano': 'Ano/m√™s'}, inplace=True)

#muda os nomes dos meses para ingl√™s
df_meta['Ano/m√™s'] = df_meta['Ano/m√™s'].replace(meses, regex=True)

In [71]:
#Convers√£o dos meses escritos para n√∫mero
df_meta['Ano/m√™s'] = pd.to_datetime(df_meta['Ano/m√™s'], format='%b-%y', errors='coerce')

# Formata para o formato de apresenta√ß√£o do n√∫mero esperado
df_meta['Ano/m√™s'] = df_meta['Ano/m√™s'].dt.strftime('%Y%m')

Selecionando as colunas que ser√£o exclu√≠das da tabela.

In [None]:
substituir_colunas = {
    'Uen_encoded': 'UEN',
    'mes_encoded': 'Mes'
}

#lista de colunas que ser√£o exclu√≠das
meta_excluir_colunas = ['M√™s', 'Uen']

#retira as colunas n√£o codificadas
df_meta = df_meta.drop(columns=meta_excluir_colunas)

df_meta = df_meta.rename(columns=substituir_colunas)

#Primeiras 5 linhas do resultado final:
df_meta.head()

Esta √© a parte de **Ocupa√ß√£o** da base de dados. As colunas codificadas incluem "Uen", "M√™s" e "M√™s/ano".

In [None]:
df_ocup['Ve√≠culo'].unique()

In [None]:
#Codificando vari√°veis para que elas sejam atribu√≠das a um n√∫mero inteiro para o modelo conseguir interpretar elas.
df_ocup['Ve√≠culo'] = df_ocup['Ve√≠culo'].fillna('')

df_ocup['Ve√≠culo_encoded'] = (df_ocup['Ve√≠culo'].replace('CBN VITORIA', 0)
                                     .replace('GAZETA FM LINHARES', 1)
                                     .replace('GAZETA FM VITORIA', 2)
                                     .replace('LITORAL FM', 5)
                                     .replace('LITORAL FM NOROESTE', 6)
                                     .replace('LITORAL FM NORTE', 7)
                                     .replace('LITORAL FM SUL', 8)
                                     .replace('R√ÅDIO MIX VIT√ìRIA', 11)
                                     .replace('TV GAZETA', 12)
                                     .replace('TV GAZETA NOROESTE', 13)
                                     .replace('TV GAZETA NORTE', 14)
                                     .replace('TV GAZETA SUL', 15))
df_ocup_unique = df_ocup[['Ve√≠culo', 'Ve√≠culo_encoded']].drop_duplicates(subset=['Ve√≠culo', 'Ve√≠culo_encoded'])

# Exibe o DataFrame resultante sem duplicatas
df_ocup_unique

In [None]:
df_ocup = df_ocup.drop('Ve√≠culo', axis=1)
substituir_colunas = {'Ve√≠culo_encoded': 'Veiculo'}
df_ocup = df_ocup.rename(columns=substituir_colunas)
df_ocup

#### Base de dados econ√¥micos

Na base de dados referentes aos Dados Econ√¥micos, foi identificada a coluna de "M√™s" que necessita de codifica√ß√£o. 

In [76]:
# Muda os meses para ingl√™s
df_dados_economicos['M√™s'] = df_dados_economicos['M√™s'].replace(meses, regex=True)

In [77]:
#Converte os meses escritos para n√∫mero
df_dados_economicos['M√™s'] = pd.to_datetime(df_dados_economicos['M√™s'], format='%b-%y', errors='coerce')

# Formata para o formato esperado de apresenta√ß√£o
df_dados_economicos['M√™s'] = df_dados_economicos['M√™s'].dt.strftime('%Y%m')

In [78]:
# Renomeaia o nome da coluna para se adequar a um padr√£o de escrita;
df_dados_economicos.rename(columns={'M√™s': 'Ano/m√™s'}, inplace=True)

In [None]:
#Primeiras 5 linhas do resultado final:
df_dados_economicos.head()

#### Base de dados de audi√™ncia:

Na base de dados de audi√™ncia, existem alguns processos que precisam ser realizados antes da codifica√ß√£o de vari√°veis, para que cada registro dessa tabela relacione per√≠odo, ve√≠culo e audi√™ncia.

In [None]:
# Reformula o formato da tabela, de modo que siga o mesmo formato das outras tabelas tratadas
df_audiencia = pd.melt(df_audiencia, id_vars=['PERIODO'], var_name='VEICULO', value_name='AUDIENCIA')

df_audiencia

In [None]:
# Converte o registro dos per√≠odos para formata√ß√£o em ingl√™s
df_audiencia['PERIODO'] = df_audiencia['PERIODO'].replace(meses, regex=True)

df_audiencia

In [None]:
#Converte os meses escritos para n√∫mero
df_audiencia['PERIODO'] = pd.to_datetime(df_audiencia['PERIODO'], format='%b-%y', errors='coerce')

df_audiencia

In [None]:
# Formata para o formato esperado de apresenta√ß√£o
df_audiencia['PERIODO'] = df_audiencia['PERIODO'].dt.strftime('%Y%m')

df_audiencia

In [None]:
# Formata o tipo de dados da vari√°vel 'PERIODO' para n√∫mero
df_audiencia['PERIODO'] = df_audiencia['PERIODO'].astype(int)

df_audiencia.dtypes

In [None]:
# Codifica os ve√≠culos da tabela
df_audiencia['VEICULO'] = df_audiencia['VEICULO'].fillna('')
df_audiencia['VEICULO_encoded'] = le.fit_transform(df_audiencia['VEICULO'])
df_audiencia[['VEICULO','VEICULO_encoded']]

In [None]:
# Mant√©m apenas os valores codificados
df_audiencia['VEICULO'] = df_audiencia['VEICULO_encoded']
df_audiencia.drop('VEICULO_encoded', axis=1)

### üß© Concatena√ß√£o de tabelas

In [87]:
# Faz com que todas as colunas de cada tabela sejam mostrados
pd.set_option('display.max_columns', None)

In [88]:
#Define duas vari√°veis diferentes que ir√£o guardar apenas os dados da regi√µes espec√≠ficas, sendo Brasil ou Espirto Santo 
df_pmc_es = df_dados_economicos[df_dados_economicos['Brasil e Unidade da Federa√ß√£o'] == 'Esp√≠rito Santo']
df_pmc_br = df_dados_economicos[df_dados_economicos['Brasil e Unidade da Federa√ß√£o'] == 'Brasil']


In [89]:
#Muda o nome das colunas para que elas se adequem a nova organiza√ß√£o -> regi√£o Brasil
df_pmc_br = df_pmc_br.rename(columns={'pmc_indice': 'pmc_indice_Brasil', 'pmc_indice_sazonal': 'pmc_indice_sazonal_Brasil', 'pmc_variacao': 'pmc_variacao_Brasil'})

In [90]:
#Muda o nome das colunas para que elas se adequem a nova organiza√ß√£o -> regi√£o Espirito Santo
df_pmc_es = df_pmc_es.rename(columns={'pmc_indice': 'pmc_indice_ES', 'pmc_indice_sazonal': 'pmc_indice_sazonal_ES', 'pmc_variacao': 'pmc_variacao_ES'})

In [91]:
#adiciona as colunas que cont√©m pmc na tabela principal seguindo a distin√ß√£o de Ano/m√™s:
df_combinedES = pd.merge(df, df_pmc_es, on='Ano/m√™s', how='inner', validate='many_to_one')

In [92]:
#Combina ambas as tabelas com as colunas atualizadas em uma nova tabela atualizada:
df_combined_total = pd.merge(df_combinedES , df_pmc_br, on='Ano/m√™s', how='inner', validate='many_to_one')

In [93]:
#Exclui as colunas duplicadas ou que n√£o ser√£o mais utilizadas na nova tabela
df = df_combined_total.drop(['Brasil e Unidade da Federa√ß√£o_y', 'Brasil e Unidade da Federa√ß√£o_x', 'Tipos de √≠ndice_y', 'Tipos de √≠ndice_x'], axis=1)

In [None]:
#Mostra as um pouco de como ficou a nova tabela com suas colunas:
df.head()

## üß™ Explora√ß√£o dos dados p√≥s realiza√ß√£o de pr√©-processamento

### üìä Estat√≠stica Descritiva 

&nbsp;&nbsp;&nbsp;&nbsp;Nessa etapa, ap√≥s a realiza√ß√£o do pr√©-processamento, transforma√ß√£o e normaliza√ß√£o das vari√°veis num√©ricas, √© poss√≠vel visualizar gr√°ficos e visualizar as estat√≠sticas descritivas das colunas de modo mais assertivo.

In [None]:
# An√°lise descritiva da base de dados principal
df.describe()

In [None]:
# An√°lise descritiva da base de dados de ocupa√ß√£o
df_ocup.describe()

In [None]:
# An√°lise descritiva da base de dados de meta
df_meta.describe()

In [None]:
# An√°lise descritiva da base de dados de audi√™ncia
df_audiencia.describe()

In [None]:
# An√°lise descritiva da base de dados ecom√¥micos
df_dados_economicos.describe()

### üìà Gr√°ficos para Visualiza√ß√£o

In [None]:
#adcionado
df_hist = df.drop(['Ano', 'M√™s'], axis=1)
df_hist.hist(bins=30, figsize=(20,15))
plt.show()

In [None]:
# Matriz de correla√ß√£o
numericas_colunas = ['Ano', 'M√™s', 'Ano/m√™s', 'Vl Liquido Final', 'Vl Bruto', 'VL Tabela', 'Desconto R$', 'Desc %', 'IPCA ES', 'IPCA BR', 'Taxa Ac. TRI % PIB', 'pmc_indice_ES', 'pmc_indice_sazonal_ES', 'pmc_variacao_ES', 'pmc_indice_Brasil','pmc_indice_sazonal_Brasil', 'pmc_variacao_Brasil']
corr_df = df[numericas_colunas]
corr_matrix = corr_df.corr()


# Ajusta o tamanho do gr√°fico e a formata√ß√£o das anota√ß√µes
plt.figure(figsize=(15, 8))  # Ajusta o tamanho da figura
sns.heatmap(corr_matrix, annot=True, fmt=".3f", cmap='coolwarm', annot_kws={"size": 10})  # fmt=".4f" para limitar a 4 casas decimais 
plt.show()

In [None]:
df_veiculo_grafico = df.groupby('Veiculo')['Vl Liquido Final'].sum().reset_index()
df_veiculo_grafico.sort_values(by='Vl Liquido Final', ascending=False)

## üí° Hip√≥teses

&nbsp;&nbsp;&nbsp;&nbsp;As hip√≥teses s√£o suposi√ß√µes criadas sobre os dados, com base na an√°lise explorat√≥ria realizada inicialmente. Elas representam poss√≠veis rela√ß√µes, padr√µes ou comportamentos que esperamos encontrar nos dados ap√≥s o pr√©-processamento. Apresenta-se abaixo as hip√≥teses desenvolvidas a partir das observa√ß√µes iniciais, seguidas dos gr√°ficos e an√°lises que visam comprovar sua veracidade.

- Hip√≥tese 1 - Correla√ß√£o entre Condi√ß√µes Econ√¥micas e Faturamento: Vari√°veis macroecon√¥micas, como a infla√ß√£o ou PIB regional, est√£o correlacionadas com o faturamento dos ve√≠culos de comunica√ß√£o, refletindo a capacidade de investimento dos anunciantes, afetando diretamente a organiza√ß√£o.

In [None]:
# Matriz de correla√ß√£o
numericas_colunas = ['Ano', 'M√™s', 'Ano/m√™s', 'Vl Liquido Final', 'Vl Bruto', 'VL Tabela', 'Desconto R$', 'Desc %', 'IPCA ES', 'IPCA BR', 'Taxa Ac. TRI % PIB', 'pmc_indice_ES', 'pmc_indice_sazonal_ES', 'pmc_variacao_ES', 'pmc_indice_Brasil','pmc_indice_sazonal_Brasil', 'pmc_variacao_Brasil']
corr_df = df[numericas_colunas]
corr_matrix = corr_df.corr()


# Ajusta o tamanho do gr√°fico e a formata√ß√£o das anota√ß√µes
plt.figure(figsize=(15, 8))  # Ajusta o tamanho da figura
sns.heatmap(corr_matrix, annot=True, fmt=".3f", cmap='coolwarm', annot_kws={"size": 10})  # fmt=".4f" para limitar a 4 casas decimais 
plt.show()

- Hip√≥tese 2 - Sazonalidade Impacta o Faturamento: O faturamento da Rede Gazeta varia significativamente conforme as esta√ß√µes do ano, meses ou datas comemorativas. Por exemplo, o faturamento tende a aumentar durante o per√≠odo de festas de fim de ano devido ao maior investimento em publicidade.

In [None]:
df_grouped = df[['VL Tabela', 'Vl Bruto', 'Vl Liquido Final', 'M√™s']].groupby('M√™s').mean().reset_index()

plt.figure(figsize=(10, 6))

sns.lineplot(x='M√™s', y='VL Tabela', data=df_grouped, marker='o', label='VL Tabela')
sns.lineplot(x='M√™s', y='Vl Bruto', data=df_grouped, marker='o', label='Vl Bruto')
sns.lineplot(x='M√™s', y='Vl Liquido Final', data=df_grouped, marker='o', label='Vl Liquido Final')

plt.title('Sazonalidade por M√™s')
plt.ylabel('Valores')
plt.xlabel('M√™s')
plt.legend(title='Legenda')
plt.show()

- Hip√≥tese 3 - Origem Geogr√°fica da Venda e o Faturamento: A origem geogr√°fica da venda (cidade espec√≠fica do Esp√≠rito Santo ou mercado nacional) influencia significativamente o faturamento da Rede Gazeta. Vendas provenientes do mercado nacional geram maior faturamento em compara√ß√£o com vendas realizadas em cidades do Esp√≠rito Santo, devido ao maior alcance e potencial de investimento de clientes de fora do estado. Dessa forma, pode-se prever a propor√ß√£o entre clientes do mercado nacional e regional.

In [None]:
barplot_columns = ['VL Tabela', 'Vl Bruto', 'Desc %', 'Vl Liquido Final']

fig, axes = plt.subplots(nrows=2, ncols=2, figsize=(12, 12), sharex=True)

for i, barplot_column in enumerate(barplot_columns):
    row = i // 2
    col = i % 2  
    sns.barplot(x='Origem', y=barplot_column, data=df, estimator=sum, ax=axes[row, col])
    axes[row, col].set_title(f'Soma de {barplot_column} por Origem')
    axes[row, col].set_xlabel('Origem')
    axes[row, col].set_ylabel(f'Soma de {barplot_column}')
    axes[row, col].tick_params(axis='x', rotation=70)

plt.tight_layout()
plt.show()

## üìà Gr√°ficos

&nbsp;&nbsp;&nbsp;&nbsp;Nesta se√ß√£o ser√£o apresentados e documentados todos os gr√°ficos produzidos a partir da an√°lise explorat√≥ria dos dados, os quais s√£o essenciais para entendimento visual acerca dos dados fornecidos, bem como para confirma√ß√£o ou nega√ß√£o das hip√≥teses levantadas.

### Base de dados principal

&nbsp;&nbsp;&nbsp;&nbsp;Aqui ser√£o disponibilizados os gr√°ficos que se relacionam, isto √©, que foram formulados a partir das an√°lises descritivas feitas sobre a base de dados principal.

#### Diagrama de caixa

&nbsp;&nbsp;&nbsp;&nbsp;Um diagrama de caixa √© uma representa√ß√£o gr√°fica que resume a distribui√ß√£o de um conjunto de dados atrav√©s de cinco principais estat√≠sticas: m√≠nimo, primeiro quartil (Q1), mediana, terceiro quartil (Q3) e m√°ximo. Ele visualiza a dispers√£o e a assimetria dos dados, destacando a presen√ßa de *outliers* e a concentra√ß√£o dos dados em torno da mediana.

In [None]:
# Diagrama de caixa personalizado
df_bp = df_hist.drop('Desc %', axis=1)
colunas_categoricas = ['Ano/m√™s', 'Veiculo', 'Cliente', 'Origem', 'Segmento', 'Setor', 'UEN']
colunas_financeiras = ['VL Tabela', 'Desconto R$', 'Vl Bruto', 'Vl Liquido Final']
colunas_indicadores_econ = ['IPCA ES', 'IPCA BR', 'Taxa Ac. TRI % PIB', 'pmc_indice_ES', 'pmc_indice_sazonal_ES', 'pmc_variacao_ES', 'pmc_indice_Brasil', 'pmc_indice_sazonal_Brasil', 'pmc_variacao_Brasil']
df_bp

In [None]:
plt.figure(figsize=(16, 10))
sns.boxplot(data=df_bp[colunas_indicadores_econ])
plt.title('Distribui√ß√£o dos Indicadores Econ√¥micos')
plt.ylabel('Valores dos Indicadores (%)')
plt.xlabel('Indicadores Econ√¥micos')
plt.xticks(rotation=45)
plt.show()

In [None]:
plt.figure(figsize=(16, 10))
sns.boxplot(data=df_bp[colunas_financeiras])
plt.title('Distribui√ß√£o das Colunas Financeiras')
plt.ylabel('Valores das Colunas Financeiras (em base logari√≠timica)')
plt.xlabel('Colunas Financeiras')
plt.show()

In [None]:
plt.figure(figsize=(16, 10))
sns.boxplot(data=df_bp['Vl Liquido Final s/ normaliza√ß√£o'])
plt.title('Distribui√ß√£o dos Valores L√≠quidos Finais de cada contrato')
plt.ylabel('Valores L√≠quidos (em milh√µes)')
plt.xlabel('Valor L√≠quido Final sem normaliza√ß√£o')
plt.show()

#### Histogramas

&nbsp;&nbsp;&nbsp;&nbsp;Um histograma √© uma representa√ß√£o gr√°fica que mostra a distribui√ß√£o de um conjunto de dados num√©ricos ao dividir os dados em intervalos e contar a frequ√™ncia de valores dentro de cada intervalo. No gr√°fico, os intervalos s√£o representados por barras, cuja altura indica o n√∫mero de ocorr√™ncias em cada intervalo.

In [None]:
# Histogramas
df_hist.hist(bins=30, figsize=(20,15))
plt.show()

In [None]:
# Gr√°fico de histograma
columns_sct = ['VL Tabela', 'Vl Bruto', 'Vl Liquido Final']

n = len(columns_sct)
fig, axes = plt.subplots(nrows=1, ncols=n, figsize=(5 * n, 6), sharex=True, sharey=True)

if n == 1:
    axes = [axes]

for i, column_sct in enumerate(columns_sct):
    sns.histplot(df_hist[column_sct], kde=True, stat="density", ax=axes[i])
    axes[i].set_title(f'Histograma de {column_sct}')
    axes[i].set_xlabel(f'{column_sct}')
    axes[i].set_ylabel('Densidade')

plt.tight_layout()
plt.show()

#### Gr√°fico de linhas

&nbsp;&nbsp;&nbsp;&nbsp;Um gr√°fico de linhas √© uma representa√ß√£o visual que conecta pontos de dados individuais ao longo de uma linha cont√≠nua, geralmente usada para mostrar a evolu√ß√£o de uma vari√°vel ao longo do tempo. No eixo horizontal (x), s√£o plotados os valores de uma vari√°vel independente, enquanto no eixo vertical (y), s√£o exibidos os valores da vari√°vel dependente.

In [None]:
# Line plot
df_grouped = df[['VL Tabela', 'Vl Bruto', 'Vl Liquido Final', 'M√™s']].groupby('M√™s').mean().reset_index()

plt.figure(figsize=(10, 6))

sns.lineplot(x='M√™s', y='VL Tabela', data=df_grouped, marker='o', label='VL Tabela')
sns.lineplot(x='M√™s', y='Vl Bruto', data=df_grouped, marker='o', label='Vl Bruto')
sns.lineplot(x='M√™s', y='Vl Liquido Final', data=df_grouped, marker='o', label='Vl Liquido Final')

plt.title('Sazonalidade por M√™s')
plt.ylabel('Valores')
plt.xlabel('M√™s')
plt.legend(title='Legenda')
plt.show()


#### Gr√°ficos de barras

&nbsp;&nbsp;&nbsp;&nbsp;Um gr√°fico de barras √© uma representa√ß√£o visual que utiliza barras retangulares para comparar valores entre diferentes categorias ou grupos. No gr√°fico, o comprimento de cada barra √© proporcional ao valor que ela representa. O eixo horizontal exibe as categorias, enquanto o outro eixo mostra as frequ√™ncias ou valores associados.

In [None]:
# Gr√°ficos de barras
barplot_columns = ['VL Tabela', 'Vl Bruto', 'Desc %', 'Vl Liquido Final']

fig, axes = plt.subplots(nrows=2, ncols=2, figsize=(12, 12), sharex=True)

for i, barplot_column in enumerate(barplot_columns):
    row = i // 2
    col = i % 2  
    sns.barplot(x='Origem', y=barplot_column, data=df, estimator=sum, ax=axes[row, col])
    axes[row, col].set_title(f'Soma de {barplot_column} por Origem')
    axes[row, col].set_xlabel('Origem')
    axes[row, col].set_ylabel(f'Soma de {barplot_column}')
    axes[row, col].tick_params(axis='x', rotation=70)

plt.tight_layout()
plt.show()

#### Matriz de correla√ß√£o

&nbsp;&nbsp;&nbsp;&nbsp;Uma matriz de correla√ß√£o √© uma tabela que mostra os coeficientes de correla√ß√£o entre todas as poss√≠veis combina√ß√µes de vari√°veis em um conjunto de dados. Cada c√©lula na matriz exibe um valor que indica a for√ßa e a dire√ß√£o da rela√ß√£o linear entre duas vari√°veis, variando de -1 (correla√ß√£o negativa perfeita) a 1 (correla√ß√£o positiva perfeita), com 0 indicando aus√™ncia de correla√ß√£o.

In [None]:
# Matriz de correla√ß√£o
numericas_colunas = ['Ano', 'M√™s', 'Ano/m√™s', 'Vl Liquido Final', 'Vl Bruto', 'VL Tabela', 'Desconto R$', 'Desc %', 'IPCA ES', 'IPCA BR', 'Taxa Ac. TRI % PIB', 'pmc_indice_ES', 'pmc_indice_sazonal_ES', 'pmc_variacao_ES', 'pmc_indice_Brasil','pmc_indice_sazonal_Brasil', 'pmc_variacao_Brasil']
corr_df = df[numericas_colunas]
corr_matrix = corr_df.corr()


# Ajusta o tamanho do gr√°fico e a formata√ß√£o das anota√ß√µes
plt.figure(figsize=(15, 8))  # Ajusta o tamanho da figura
sns.heatmap(corr_matrix, annot=True, fmt=".4f", cmap='coolwarm', annot_kws={"size": 10})  # fmt=".4f" para limitar a 4 casas decimais 
plt.show()

## üß† Modelagem

### ‚öôÔ∏è Modelos Avaliados

#### √Årvore de Decis√£o

O Random Forest √© uma modelo supervisionado baseada em √°rvores de decis√£o que combina diversas √°rvores para melhorar a precis√£o das previs√µes e reduzir o overfitting. Ao longo desse bloco de c√≥digo, foi feita a escolha de features, separa√ß√£o do dataframe em conjuntos de treino, teste e valida√ß√£o e, por fim, √© exibido as m√©tricas.

In [113]:
x = df[['M√™s', 'Veiculo', 'Origem', 'Segmento', 'Setor']] #df apenas com as features desejadas
y = df['Vl Liquido Final'] #Coluna desejada para a previs√£o

# Separando os dados em treino (60%), valida√ß√£o (20%) e teste (20%)
X_train, X_temp, y_train, y_temp = train_test_split(x, y, test_size=0.4, random_state=42)

# Dividindo o conjunto tempor√°rio (X_temp) em valida√ß√£o e teste
X_val, X_test, y_val, y_test = train_test_split(X_temp, y_temp, test_size=0.5, random_state=42)

In [None]:
# Inicializando o modelo Random Forest com hiperpar√¢metros padr√µes
rf_model = RandomForestRegressor(n_estimators=200, random_state=42, max_depth=30, min_samples_leaf=2, min_samples_split=10, max_features='sqrt')

# Treinando o modelo com os dados de treino (somente colunas categ√≥ricas)
rf_model.fit(X_train, y_train)

# Fazendo previs√µes no conjunto de valida√ß√£o
y_val_pred = rf_model.predict(X_val)

# Avaliando o desempenho no conjunto de valida√ß√£o
val_r2 = r2_score(y_val, y_val_pred)
val_rmse = np.sqrt(mean_squared_error(y_val, y_val_pred))
val_mae = mean_absolute_error(y_val, y_val_pred)
val_mape = mean_absolute_percentage_error(y_val, y_val_pred)*100

# Exibindo os resultados do conjunto de valida√ß√£o
print(f"Valida√ß√£o - R¬≤: {val_r2:.4f}")
print(f"Valida√ß√£o - RMSE: {val_rmse:.2f}")
print(f"Valida√ß√£o - MAE: {val_mae:.2f}")
print(f"Valida√ß√£o - MAPE: {val_mape:.2f}%")

In [None]:
y_test_pred = rf_model.predict(X_test)
# Avaliando o modelo no conjunto de teste
test_r2 = r2_score(y_test, y_test_pred)
test_rmse = np.sqrt(mean_squared_error(y_test, y_test_pred))
test_mae = mean_absolute_error(y_test, y_test_pred)

# Exibindo os resultados do conjunto de teste
print(f"Teste - R¬≤: {test_r2:.4f}")
print(f"Teste - RMSE: {test_rmse:.2f}")
print(f"Teste - MAE: {test_mae:.2f}")

#### Regress√£o Linear M√∫ltipla

No modelo de regress√£o linear m√∫ltipla, foi necess√°rio criar um novo dataframe, agrupando as colunas com base no ve√≠culo, ano e m√™s. Ap√≥s isso, foi aplicado a normaliza√ß√£o em uma coluna, selecionado as features e feita a separa√ß√£o do dataframe em conjuntos de treino, teste e valida√ß√£o. Ap√≥s o treinamento do modelo, foram calculadas e exibidas as m√©tricas. Por fim, h√° a presen√ßa de gr√°ficos para facilitar a visualiza√ß√£o dos resultados do modelo.

In [None]:
#Agrupa dados na tentativa de gerar um modelo mais preciso na predi√ß√£o
df_veiculoR = df.groupby(['Veiculo', 'Ano', 'M√™s']).agg({
    'Vl Liquido Final': 'sum', 
    'IPCA ES': 'mean',                  
    'IPCA BR': 'mean',                 
    'Taxa Ac. TRI % PIB': 'mean',    
    'Vl Liquido Final s/ norm': 'sum', 
    'UEN': 'first',                    
    'pmc_indice_ES': 'mean',            
    'pmc_indice_sazonal_ES': 'mean',    
    'pmc_variacao_ES': 'mean',         
    'pmc_indice_Brasil': 'mean',       
    'pmc_indice_sazonal_Brasil': 'mean',
    'pmc_variacao_Brasil': 'mean'       
}).reset_index()

# Exibir o DataFrame resultante
df_veiculoR

In [117]:
df_veiculoR['Vl Liquido Final normalizado'] = np.log1p(df_veiculoR['Vl Liquido Final s/ norm'])

In [118]:
xR = df_veiculoR[['Ano', 'M√™s', 'Veiculo', 'Taxa Ac. TRI % PIB', 'pmc_indice_sazonal_ES', 'UEN']] #df apenas com as features desejadas
yR = df_veiculoR['Vl Liquido Final normalizado'] #Coluna desejada para a previs√£o

# Separando os dados em treino (60%), valida√ß√£o (20%) e teste (20%)
X_trainR, X_tempR, y_trainR, y_tempR = train_test_split(xR, yR, test_size=0.4, random_state=42)

# Dividindo o conjunto tempor√°rio (X_temp) em valida√ß√£o e teste
X_valR, X_testR, y_valR, y_testR = train_test_split(X_tempR, y_tempR, test_size=0.5, random_state=42)

In [None]:
# Relaciona a fun√ß√£o da  regress√£o linear M√∫ltipla com uma vari√°vel que ser√° aplicada ao projeto
modelR = LinearRegression()

#Treina o modelo com os dados de treino
modelR.fit(X_trainR, y_trainR)

In [120]:
# Fazer previs√µes com o conjunto de teste, ja utilizando o algoritmo que acabou de ser treinado
y_predR = modelR.predict(X_testR)

In [None]:
#Avalia a performance do modelo

# Calcula o MSE mede a m√©dia das diferen√ßas absolutas entre os valores reais e previstos. 
# Ele indica, em m√©dia, o quanto os valores previstos se desviam dos valores reais.-> quanto menor o valor presvisto, melhor √© a qualidade da previs√£o 
mseR = mean_squared_error(y_testR, y_predR)
print(f'MSE: {mseR}')

# Calcula o R^2 √© uma m√©trica que indica o qu√£o bem o modelo explica a variabilidade dos dados. Ele varia de 0 a 1 -> quanto mais pr√≥ximo de 1 o resultado 
# estiver, melhor √© o modelo para os dados de treinamento
r2R = r2_score(y_testR, y_predR)
print(f'R^2: {r2R}')

#Calcula o MAPE, expressa o erro m√©dio absoluto como uma porcentagem dos valores reais, 
# o que facilita a interpreta√ß√£o, pois mostra o erro em termos percentuais. -> quanto menor a porcentagem, melhor
mapeR = np.mean(np.abs((y_testR - y_predR) / y_testR)) * 100
print(f"Mean Absolute Percentage Error (MAPE): {mapeR}")

In [None]:
# Mostra os coeficientes das vari√°veis independentes
print(f'Coeficientes: {modelR.coef_}')

# Mosta a Intercepta√ß√£o
print(f'Intercepta√ß√£o: {modelR.intercept_}')

In [None]:
# Mostra um gr√°fico do valor real contra o ideal do modelo
plt.scatter(y_testR, y_predR, color='blue', label='Valores Previstos')
plt.plot([y_testR.min(), y_testR.max()], [y_testR.min(), y_testR.max()], color='red', lw=1, label='Linha de Refer√™ncia/Modelo Ideal', linestyle='dashed')
plt.xlabel('Valores Reais (log(1+x))')
plt.ylabel('Previs√µes (log(1+x))')
plt.title('Valores Reais vs Previs√µes Estat√≠sticas')
plt.legend()  # Mostra a legenda
plt.grid(linewidth = 0.2)
plt.show()

In [None]:
# Exibi os coeficietes -> esses coeficientes mostram o qu√£o diretamente relacionados cada t√≥pico est√° para o resultado final da predi√ß√£o
coef_dfR = pd.DataFrame(modelR.coef_, xR.columns, columns=['Coeficientes'])

print(coef_dfR)

#### SARIMA

In [None]:
coluna = 'Veiculo'
indice = 0

veiculos_nomes = {
    0: 'CBN VITORIA',
    1: 'GAZETA FM LINHARES',
    2: 'GAZETA FM VITORIA',
    3: 'GAZETA PRODUCOES',
    4: 'INTERNET',
    5: 'LITORAL FM',
    6: 'LITORAL FM NOROESTE',
    7: 'LITORAL FM NORTE',
    8: 'LITORAL FM SUL',
    9: 'PORTAL G1/GE/HOME',
    10: 'PRODUCAO',
    11: 'RADIO MIX VITORIA',
    12: 'TV GAZETA',
    13: 'TV GAZETA NOROESTE',
    14: 'TV GAZETA N0RTE',
    15: 'TV GAZETA SUL',
    16: 'TV NOROESTE PRODUCOES',
    17: 'TV NORTE PRODUCOES',
    18: 'TV SUL PRODUCOES'
}

origens_nomes = {
    0: 'CH - CONTATO - CACHOEIRO',
    1: 'CO - CONTATO - COLATINA',
    2: 'LI - CONTATO - LINHARES',
    3: 'MP - M√çDIA PROGRAM√ÅTICA',
    4: 'RN - MERCADO NACIONAL',
    5: 'VT - CONTATO - VIT√ìRIA'
}

segmentos_nomes = {
    0: 'AGROPECUARIA',
    1: 'ALIMENTOS',
    2: 'BEBIDAS',
    3: 'BENS INDUSTRIAIS MAT. PRIMA',
    4: 'BRINQUEDOS E DIVERSOES',
    5: 'COMERCIO',
    6: 'CONDOMINIOS',
    7: 'EDUCACAO/MEIOS DE COMUNICACAO',
    8: 'EQUIP/MAT/ESCRIT/LOJA/ESCOLA',
    9: 'FOTO / OTICA / CINE / SOM',
    10: 'INDUSTRIA DA CONSTRUCAO',
    11: 'INTERNET',
    12: 'LIMPEZA / HIGIENE DOMESTICA',
    13: 'MEIOS DE TRANSPORTES E AFINS',
    14: 'MERCADO FINANCEIRO',
    15: 'MOVEIS E DECORACOES',
    16: 'OUTRAS RECEITAS',
    17: 'OUTROS',
    18: 'PERFUMARIA / FARMACIA',
    19: 'SERVICOS',
    20: 'SERVICOS DE TELECOMUNICACOES',
    21: 'TEXTIL / VESTUARIO',
    22: 'UTILIDADES DOMESTICAS'
}

dropdown1 = widgets.Dropdown(
    options=['Veiculo', 'Origem', 'Segmento'],
    value=None,
    description='Prever por:',
    disabled=False,
)

dropdown2 = widgets.Dropdown(
    options=[],
    value = None,
    description='√çndice:',
    disabled=False,
)

def atualizar_dropdown2(opcao):
    global coluna
    coluna = opcao['new']
    
    if coluna == 'Veiculo':
        dropdown2.options = [(v, k) for k, v in veiculos_nomes.items()]
    elif coluna == 'Origem':
        dropdown2.options = [(v, k) for k, v in origens_nomes.items()]
    elif coluna == 'Segmento':
        dropdown2.options = [(v, k) for k, v in segmentos_nomes.items()]
    
    dropdown2.value = None
    
def on_value_change_dropdown2(opcao):
    global indice
    indice = opcao['new']

dropdown1.observe(atualizar_dropdown2, names='value')
dropdown2.observe(on_value_change_dropdown2, names='value')

display(dropdown1)
display(dropdown2)


In [None]:
print(f'Selecionado: {coluna} ({indice})\nPor favor, execute as c√©lulas abaixos novamentes para o resultado atualizado')

In [127]:
if coluna == 'Veiculo' or coluna == 'Origem' or coluna == 'Segmento':
    df_temp = df.sort_values(by=coluna)
    df_coluna = df_temp.groupby(coluna)

dfs_novos = []
for item_unico in df_temp[coluna].unique():
    dfs_novos.append(df_coluna.get_group(item_unico))

In [128]:
if coluna == 'Veiculo':
    indice_max = df['Veiculo'].nunique()-1
elif coluna == 'Origem':
    indice_max = df['Origem'].nunique()-1
elif coluna == 'Segmento':
    indice_max = df['Segmento'].nunique()-1

def escolher_df (df_escolhido):
    if df_escolhido >= 0 or df_escolhido <= indice_max:
        return dfs_novos[df_escolhido]

In [None]:
print(f'√çndice m√°ximo ve√≠culo:', df['Veiculo'].nunique()-1)
print(f'√çndice m√°ximo origem:', df['Origem'].nunique()-1)
print(f'√çndice m√°ximo segmento:', df['Segmento'].nunique()-1)

In [None]:
df_sarima = escolher_df(indice)
df_sarima = df_sarima[['Ano/m√™s', 'Vl Liquido Final']]
df_sarima

In [None]:
df_sarima['Vl Liquido Final'] = df_sem_escala['Vl Liquido Final']
df_sarima

In [None]:
df_sarima['Ano/m√™s'] = pd.to_datetime(df_sarima['Ano/m√™s'], format='%Y%m')
df_sarima.set_index('Ano/m√™s', inplace=True)
df_sarima = df_sarima.sort_index()

df_sarima

In [None]:
df_sarima = df_sarima.groupby(df_sarima.index).sum()
df_sarima = np.log1p(df_sarima)
df_sarima

In [None]:
df_sarima = df_sarima.asfreq('MS')
df_sarima

In [None]:
df_sarima = df_sarima.fillna(method='ffill')
df_sarima

In [None]:
p = d = q = range(0, 3)
pdq = list(itertools.product(p, d, q))

seasonal_pdq = [(x[0], x[1], x[2], 6) for x in pdq]

results = []

y = df_sarima

for param in pdq:
    for param_seasonal in seasonal_pdq:
        try:
            model = SARIMAX(y, order=param, seasonal_order=param_seasonal, enforce_stationarity=False, enforce_invertibility=False)
            result = model.fit()
            results.append((param, param_seasonal, result.aic))
        except Exception as e:
            print(f'Erro ao ajustar ARIMA{param}x{param_seasonal}12: {e}')
            continue

if results:
    best_params = sorted(results, key=lambda x: x[2])[0]
    print(f'Melhor combina√ß√£o de par√¢metros: {best_params[0]}x{best_params[1]}12 - AIC: {best_params[2]}')
else:
    print("Nenhuma combina√ß√£o de par√¢metros conseguiu ajustar o modelo.")

In [139]:
train_size = int(len(df_sarima) * 0.8)
train, test = df_sarima['Vl Liquido Final'][:train_size], df_sarima['Vl Liquido Final'][train_size:]

In [140]:
model = SARIMAX(train,
                order=best_params[0],
                seasonal_order=best_params[1],
                enforce_stationarity=False,
                enforce_invertibility=False)

In [None]:
sarima_model = model.fit(disp=False)

sarima_model.summary()

In [None]:
predictions = sarima_model.get_forecast(steps=len(test))
forecasted_values = predictions.predicted_mean
pred_ci = predictions.conf_int()

ax = test.plot(label='Real', figsize=(10, 6))
predictions.predicted_mean.plot(ax=ax, label='Previs√µes', alpha=0.7)
ax.fill_between(pred_ci.index, pred_ci.iloc[:, 0], pred_ci.iloc[:, 1], color='k', alpha=0.2)
plt.legend()
plt.show()

In [None]:
r2 = r2_score(test, forecasted_values)*100
mae = mean_absolute_error(test, forecasted_values)
mae_real = np.expm1(mae)
mape = mean_absolute_percentage_error(test, forecasted_values)*100

print(f'R¬≤ do modelo: {r2:.2f}%')
print(f"MAE do modelo: {mae}")
print(f'MAE real: {mae_real}')
print(f"MAPE do modelo: {mape:.2f}%")

### ‚úÖ Modelo Final - LightGBM

Por conta do excelente desempenho na capacidade de previs√£o de receita e por ser capaz de criar previs√µes de diferentes combina√ß√µes, como por ve√≠culo e segmento e por ve√≠culo e origem, optamos por utilizar o modelo LightGBM como nosso modelo final. 

#### Modelo 1 - Previs√£o por Ve√≠culo

In [None]:
df_veiculo = df.groupby(['Veiculo', 'Ano', 'M√™s']).agg({
    'IPCA ES': 'mean',                  
    'IPCA BR': 'mean',                 
    'Taxa Ac. TRI % PIB': 'mean',    
    'Vl Liquido Final s/ normaliza√ß√£o': 'sum', 
    'UEN': 'first',                    
    'pmc_indice_ES': 'mean',            
    'pmc_indice_sazonal_ES': 'mean',    
    'pmc_variacao_ES': 'mean',         
    'pmc_indice_Brasil': 'mean',       
    'pmc_indice_sazonal_Brasil': 'mean',
    'pmc_variacao_Brasil': 'mean'       
}).reset_index()

# Exibir o DataFrame resultante
df_veiculo

In [138]:
# Normaliza√ß√£o da Coluna Vl Liquido ap√≥s somar os valores
df_veiculo['Vl Liquido Final normalizado'] = np.log1p(df_veiculo['Vl Liquido Final s/ normaliza√ß√£o'])

In [139]:
x_veiculo = df_veiculo[['Veiculo','Ano','M√™s', 'Taxa Ac. TRI % PIB']] #df apenas com as features desejadas
y_veiculo = df_veiculo['Vl Liquido Final normalizado'] #Coluna alvo

# Separando os dados em treino (60%), valida√ß√£o (20%) e teste (20%)
X_train_veiculo, X_temp_veiculo, y_train_veiculo, y_temp_veiculo = train_test_split(x_veiculo, y_veiculo, test_size=0.4, random_state=42)

# Dividindo o conjunto tempor√°rio (X_temp) em valida√ß√£o e teste
X_val_veiculo, X_test_veiculo, y_val_veiculo, y_test_veiculo = train_test_split(X_temp_veiculo, y_temp_veiculo, test_size=0.5, random_state=42)

In [None]:
train_data_veiculo = lgb.Dataset(X_train_veiculo, label=y_train_veiculo)
val_data_veiculo = lgb.Dataset(X_val_veiculo, label=y_val_veiculo)

params_veiculo = {'learning_rate': 0.06, 
          'num_leaves': 126, 
          'feature_fraction': 0.7, 
          'bagging_fraction': 0.9, 
          'bagging_freq': 10, 
          'n_estimators': 790,
          'seed': 42}

callbacks = [lgb.early_stopping(stopping_rounds=100)]
model_veiculo = lgb.train(params_veiculo, 
                  train_data_veiculo, 
                  num_boost_round=1000, 
                  valid_sets=[val_data_veiculo], 
                  callbacks=callbacks)


y_pred_veiculo = model_veiculo.predict(X_test_veiculo, num_iteration=model_veiculo.best_iteration)

In [None]:
# C√°lculo das m√©tricas para o modelo
rmse_veiculo = mean_squared_error(y_test_veiculo, y_pred_veiculo, squared=False)
r2_veiculo = r2_score(y_test_veiculo, y_pred_veiculo)
mae_veiculo = mean_absolute_error(y_test_veiculo, y_pred_veiculo)
mape_veiculo = mean_absolute_percentage_error(y_test_veiculo, y_pred_veiculo)

# Exibi√ß√£o das m√©tricas para o modelo
print(f'Teste - RMSE: {rmse_veiculo:.4f}')
print(f'Teste - R¬≤: {r2_veiculo:.4f}')
print(f'Teste - MAE: {mae_veiculo:.4f}')
print(f'Teste - MAPE: {mape_veiculo:.4f}')

##### Modelo 1 com otimiza√ß√£o dos hiperpar√¢metros

In [None]:
# Definir o n√≠vel de log do Optuna como WARNING para evitar impress√µes detalhadas
optuna.logging.set_verbosity(optuna.logging.WARNING)

# Ignorar avisos
warnings.filterwarnings("ignore")

# Definir a fun√ß√£o objetivo para a otimiza√ß√£o
def objective_veiculo_opt(trial):
    params_veiculo_opt = {
        'learning_rate': trial.suggest_loguniform('learning_rate', 0.01, 0.07),
        'num_leaves': trial.suggest_int('num_leaves', 31, 130),
        'feature_fraction': trial.suggest_uniform('feature_fraction', 0.6, 0.8),
        'bagging_fraction': trial.suggest_uniform('bagging_fraction', 0.7, 1),
        'bagging_freq': trial.suggest_int('bagging_freq', 1, 10),
        'n_estimators': trial.suggest_int('n_estimators', 500, 1000),
        'verbose': -1,  # Desativar logs desnecess√°rios
        'seed': 42  
    }
    
    train_data_veiculo_opt = lgb.Dataset(X_train_veiculo, label=y_train_veiculo)
    val_data_veiculo_opt = lgb.Dataset(X_val_veiculo, label=y_val_veiculo)
    
    model_veiculo_opt = lgb.train(params_veiculo_opt, 
                                  train_data_veiculo_opt, 
                                  num_boost_round=1000, 
                                  valid_sets=[val_data_veiculo_opt], 
                                  callbacks=[lgb.early_stopping(stopping_rounds=100)])
    
    y_pred_veiculo_opt = model_veiculo_opt.predict(X_val_veiculo, num_iteration=model_veiculo_opt.best_iteration)
    
    mape_veiculo_opt = mean_absolute_percentage_error(y_val_veiculo, y_pred_veiculo_opt) * 100
    return mape_veiculo_opt

# Otimiza√ß√£o
study_veiculo_opt = optuna.create_study(direction='minimize')  
study_veiculo_opt.optimize(objective_veiculo_opt, n_trials=50)

# Mostrar melhores hiperpar√¢metros
print("Melhores hiperpar√¢metros encontrados para Ve√≠culo (Otimizado):", study_veiculo_opt.best_params)

# Treinar o modelo com os melhores hiperpar√¢metros
best_params_veiculo_opt = study_veiculo_opt.best_params
best_params_veiculo_opt['verbose'] = -1  # Desativar logs desnecess√°rios

train_data_veiculo_opt = lgb.Dataset(X_train_veiculo, label=y_train_veiculo)
val_data_veiculo_opt = lgb.Dataset(X_val_veiculo, label=y_val_veiculo)

best_model_veiculo_opt = lgb.train(best_params_veiculo_opt, 
                                   train_data_veiculo_opt, 
                                   num_boost_round=1000, 
                                   valid_sets=[val_data_veiculo_opt], 
                                   callbacks=[lgb.early_stopping(stopping_rounds=100)])

# Avalia√ß√£o final no conjunto de teste
y_pred_test_veiculo_opt = best_model_veiculo_opt.predict(X_test_veiculo, num_iteration=best_model_veiculo_opt.best_iteration)


In [None]:
# C√°lculo das m√©tricas para o modelo otimizado
rmse_veiculo_opt = mean_squared_error(y_test_veiculo, y_pred_test_veiculo_opt, squared=False)
r2_veiculo_opt = r2_score(y_test_veiculo, y_pred_test_veiculo_opt)
mae_veiculo_opt = mean_absolute_error(y_test_veiculo, y_pred_test_veiculo_opt)
mape_veiculo_opt = mean_absolute_percentage_error(y_test_veiculo, y_pred_test_veiculo_opt)

# Exibi√ß√£o das m√©tricas para o modelo otimizado
print('M√©tricas com a Otimiza√ß√£o dos Hiperpar√¢metros')
print(f'Teste - RMSE: {rmse_veiculo_opt:.4f}')
print(f'Teste - R¬≤: {r2_veiculo_opt:.4f}')
print(f'Teste - MAE: {mae_veiculo_opt:.4f}')
print(f'Teste - MAPE: {mape_veiculo_opt:.4f}')

In [None]:
# Plotar valores reais vs previstos para o modelo otimizado
plt.figure(figsize=(12, 6))

# Garantir que os dados de teste estejam alinhados e sem reset de √≠ndices desnecess√°rios
plt.plot(y_test_veiculo.reset_index(drop=True)[:100], label='Valores Reais', color='#6baed6', linestyle='-')
plt.plot(y_pred_test_veiculo_opt[:100], label='Valores Previstos', color='red', linestyle='--')

# Configura√ß√µes do gr√°fico
plt.xlabel('√çndice')
plt.ylabel('Valor ( ln(1+x) )')
plt.title('An√°lise das Predi√ß√µes do Modelo 1: Valores Reais vs. Valores Previstos (Primeiros 100 Dados)')
plt.legend()
plt.grid(True)
plt.show()

In [None]:
# Tamanho do gr√°fico
plt.figure(figsize=(10, 6))

# Gr√°fico de dispers√£o dos valores reais vs previstos
plt.scatter(y_test_veiculo, y_pred_test_veiculo_opt, alpha=0.6, edgecolors='k', color='blue', label='Valores reais em compara√ß√£o com os preditos')

# Adicionar uma linha de refer√™ncia (linha ideal onde os valores reais s√£o iguais aos previstos)
plt.plot([y_test_veiculo.min(), y_test_veiculo.max()], [y_test_veiculo.min(), y_test_veiculo.max()], 'r--', lw=2, label='Linha de Posi√ß√£o Ideal')

# Adicionando a legenda
plt.legend(title="Legenda", loc="lower right", fontsize = 10)  # Adiciona a legenda no canto inferior direito

# R√≥tulos e t√≠tulo
plt.xlabel('Valores Reais ( ln(1+x) )')
plt.ylabel('Valores Preditos ( ln(1+x) )')
plt.title('Diagrama de Dispers√£o das Predi√ß√µes do Modelo 1 (Ve√≠culo)')

# Adicionar grid
plt.grid(True)

# Exibir gr√°fico
plt.show()

#### Modelo 2 - Previs√£o por Ve√≠culo e Segmento

In [None]:
df_segmento = df.groupby(['Veiculo', 'Ano', 'M√™s', 'Segmento']).agg({
    'IPCA ES': 'mean',                  
    'IPCA BR': 'mean',                 
    'Taxa Ac. TRI % PIB': 'mean',    
    'Vl Liquido Final s/ normaliza√ß√£o': 'sum', 
    'UEN': 'first',                    
    'pmc_indice_ES': 'mean',            
    'pmc_indice_sazonal_ES': 'mean',    
    'pmc_variacao_ES': 'mean',         
    'pmc_indice_Brasil': 'mean',       
    'pmc_indice_sazonal_Brasil': 'mean',
    'pmc_variacao_Brasil': 'mean'       
}).reset_index()

# Exibir o DataFrame resultante
df_segmento

In [147]:
df_segmento['Vl Liquido Final normalizado'] = np.log1p(df_segmento['Vl Liquido Final s/ normaliza√ß√£o'])

In [148]:
x_segmento = df_segmento[['Veiculo','Ano','M√™s', 'Taxa Ac. TRI % PIB', 'Segmento']] #df apenas com as features desejadas
y_segmento = df_segmento['Vl Liquido Final normalizado'] #Coluna desejada para a previs√£o

# Separando os dados em treino (60%), valida√ß√£o (20%) e teste (20%)
X_train_segmento, X_temp_segmento, y_train_segmento, y_temp_segmento = train_test_split(x_segmento, y_segmento, test_size=0.4, random_state=42)

# Dividindo o conjunto tempor√°rio (X_temp) em valida√ß√£o e teste
X_val_segmento, X_test_segmento, y_val_segmento, y_test_segmento = train_test_split(X_temp_segmento, y_temp_segmento, test_size=0.5, random_state=42)

In [None]:
train_data_segmento = lgb.Dataset(X_train_segmento, label=y_train_segmento)
val_data_segmento = lgb.Dataset(X_val_segmento, label=y_val_segmento)

params_segmento = {'learning_rate': 0.06, 
          'num_leaves': 126, 
          'feature_fraction': 0.7, 
          'bagging_fraction': 0.9, 
          'bagging_freq': 10, 
          'n_estimators': 790,
          'seed': 42}

callbacks = [lgb.early_stopping(stopping_rounds=100)]
model_segmento = lgb.train(params_segmento, 
                  train_data_segmento, 
                  num_boost_round=1000, 
                  valid_sets=[val_data_segmento], 
                  callbacks=callbacks)


y_pred_segmento = model_segmento.predict(X_test_segmento, num_iteration=model_segmento.best_iteration)

In [None]:
# C√°lculo das m√©tricas para o modelo
rmse_segmento = mean_squared_error(y_test_segmento, y_pred_segmento, squared=False)
r2_segmento = r2_score(y_test_segmento, y_pred_segmento)
mae_segmento = mean_absolute_error(y_test_segmento, y_pred_segmento)
mape_segmento = mean_absolute_percentage_error(y_test_segmento, y_pred_segmento)

# Exibi√ß√£o das m√©tricas para o modelo
print(f'Teste - RMSE: {rmse_segmento:.4f}')
print(f'Teste - R¬≤: {r2_segmento:.4f}')
print(f'Teste - MAE: {mae_segmento:.4f}')
print(f'Teste - MAPE: {mape_segmento:.4f}')

##### Modelo 2 com otimiza√ß√£o dos hiperpar√¢metros

In [None]:
# Ignorar avisos
warnings.filterwarnings("ignore")

# definir a fun√ß√£o objetivo para a otimiza√ß√£o
def objective_segmento_opt(trial):
    params_segmento_opt = {
        'learning_rate': trial.suggest_loguniform('learning_rate', 0.01, 0.07),
        'num_leaves': trial.suggest_int('num_leaves', 31, 130),
        'feature_fraction': trial.suggest_uniform('feature_fraction', 0.6, 0.8),
        'bagging_fraction': trial.suggest_uniform('bagging_fraction', 0.7, 1),
        'bagging_freq': trial.suggest_int('bagging_freq', 1, 10),
        'n_estimators': trial.suggest_int('n_estimators', 500, 1000),
        'verbose': -1,  # Desativar logs desnecess√°rios
        'seed': 42  
    }
    
    train_data_segmento_opt = lgb.Dataset(X_train_segmento, label=y_train_segmento)
    val_data_segmento_opt = lgb.Dataset(X_val_segmento, label=y_val_segmento)
    
    model_segmento_opt = lgb.train(params_segmento_opt, 
                                   train_data_segmento_opt, 
                                   num_boost_round=1000, 
                                   valid_sets=[val_data_segmento_opt], 
                                   callbacks=[lgb.early_stopping(stopping_rounds=100)])
    
    y_pred_segmento_opt = model_segmento_opt.predict(X_val_segmento, num_iteration=model_segmento_opt.best_iteration)
    
    mape_segmento_opt = mean_absolute_percentage_error(y_val_segmento, y_pred_segmento_opt) * 100
    return mape_segmento_opt

# Otimiza√ß√£o
study_segmento_opt = optuna.create_study(direction='minimize')  
study_segmento_opt.optimize(objective_segmento_opt, n_trials=50)

# Mostrar melhores hiperpar√¢metros
print("Melhores hiperpar√¢metros encontrados para Segmento (Otimizado):", study_segmento_opt.best_params)

# Treinar o modelo com os melhores hiperpar√¢metros
best_params_segmento_opt = study_segmento_opt.best_params
best_params_segmento_opt['verbose'] = -1  # Desativar logs desnecess√°rios

train_data_segmento_opt = lgb.Dataset(X_train_segmento, label=y_train_segmento)
val_data_segmento_opt = lgb.Dataset(X_val_segmento, label=y_val_segmento)

best_model_segmento_opt = lgb.train(best_params_segmento_opt, 
                                    train_data_segmento_opt, 
                                    num_boost_round=1000, 
                                    valid_sets=[val_data_segmento_opt], 
                                    callbacks=[lgb.early_stopping(stopping_rounds=100)])

# Avalia√ß√£o final no conjunto de teste
y_pred_test_segmento_opt = best_model_segmento_opt.predict(X_test_segmento, num_iteration=best_model_segmento_opt.best_iteration)

In [None]:
# C√°lculo das m√©tricas para o modelo otimizado
rmse_segmento_opt = mean_squared_error(y_test_segmento, y_pred_test_segmento_opt, squared=False)
r2_segmento_opt = r2_score(y_test_segmento, y_pred_test_segmento_opt)
mae_segmento_opt = mean_absolute_error(y_test_segmento, y_pred_test_segmento_opt)
mape_segmento_opt = mean_absolute_percentage_error(y_test_segmento, y_pred_test_segmento_opt)

# Exibi√ß√£o das m√©tricas para o modelo otimizado
print('M√©tricas com a Otimiza√ß√£o dos Hiperpar√¢metros')
print(f'Teste - RMSE: {rmse_segmento_opt:.4f}')
print(f'Teste - R¬≤: {r2_segmento_opt:.4f}')
print(f'Teste - MAE: {mae_segmento_opt:.4f}')
print(f'Teste - MAPE: {mape_segmento_opt:.4f}')

In [None]:
# Plotar valores reais vs previstos para o modelo otimizado
plt.figure(figsize=(12, 6))

# Garantir que os dados de teste estejam alinhados e sem reset de √≠ndices desnecess√°rios
plt.plot(y_test_segmento.reset_index(drop=True)[:100], label='Valores Reais', color='#6baed6', linestyle='-')
plt.plot(y_pred_test_segmento_opt[:100], label='Valores Previstos', color='red', linestyle='--')

# Configura√ß√µes do gr√°fico
plt.xlabel('√çndice')
plt.ylabel('Valor ( ln(1+x) )')
plt.title('An√°lise das Predi√ß√µes do Modelo 2: Valores Reais vs. Valores Previstos (Primeiros 100 Dados)')
plt.legend()
plt.grid(True)
plt.show()


In [None]:
# Tamanho do gr√°fico
plt.figure(figsize=(10, 6))

# Gr√°fico de dispers√£o dos valores reais vs previstos
plt.scatter(y_test_segmento, y_pred_test_segmento_opt, alpha=0.6, edgecolors='k', color='blue', label='Valores reais em compara√ß√£o com os preditos')

# Adicionar uma linha de refer√™ncia (linha ideal onde os valores reais s√£o iguais aos previstos)
plt.plot([y_test_segmento.min(), y_test_segmento.max()], [y_test_segmento.min(), y_test_segmento.max()], 'r--', lw=2, label='Linha de Posi√ß√£o Ideal')

# Adicionando a legenda
plt.legend(title="Legenda", loc="lower right", fontsize = 10)  # Adiciona a legenda no canto inferior direito

# R√≥tulos e t√≠tulo
plt.xlabel('Valores Reais ( ln(1+x) )')
plt.ylabel('Valores Preditos ( ln(1+x) )')
plt.title('Diagrama de Dispers√£o das Predi√ß√µes do Modelo 2 (Ve√≠culo e Segmento)')

# Adicionar grid
plt.grid(True)

# Exibir gr√°fico
plt.show()

#### Modelo 3 - Previs√£o por Ve√≠culo e Origem

In [None]:
df_origem = df.groupby(['Veiculo', 'Ano', 'M√™s', 'Origem']).agg({
    'IPCA ES': 'mean',                  
    'IPCA BR': 'mean',                 
    'Taxa Ac. TRI % PIB': 'mean',    
    'Vl Liquido Final s/ normaliza√ß√£o': 'sum', 
    'UEN': 'first',                    
    'pmc_indice_ES': 'mean',            
    'pmc_indice_sazonal_ES': 'mean',    
    'pmc_variacao_ES': 'mean',         
    'pmc_indice_Brasil': 'mean',       
    'pmc_indice_sazonal_Brasil': 'mean',
    'pmc_variacao_Brasil': 'mean'       
}).reset_index()

# Exibir o DataFrame resultante
df_origem

In [153]:
df_origem['Vl Liquido Final normalizado'] = np.log1p(df_origem['Vl Liquido Final s/ normaliza√ß√£o'])

In [154]:
x_origem = df_origem[['Veiculo','Ano','M√™s', 'Taxa Ac. TRI % PIB', 'Origem']] #df apenas com as features desejadas
y_origem = df_origem['Vl Liquido Final normalizado'] #Coluna desejada para a previs√£o

# Separando os dados em treino (60%), valida√ß√£o (20%) e teste (20%)
X_train_origem, X_temp_origem, y_train_origem, y_temp_origem = train_test_split(x_origem, y_origem, test_size=0.4, random_state=42)

# Dividindo o conjunto tempor√°rio (X_temp) em valida√ß√£o e teste
X_val_origem, X_test_origem, y_val_origem, y_test_origem = train_test_split(X_temp_origem, y_temp_origem, test_size=0.5, random_state=42)

In [None]:
train_data_origem = lgb.Dataset(X_train_origem, label=y_train_origem)
val_data_origem = lgb.Dataset(X_val_origem, label=y_val_origem)

params_origem = {'learning_rate': 0.06, 
          'num_leaves': 126, 
          'feature_fraction': 0.7, 
          'bagging_fraction': 0.9, 
          'bagging_freq': 10, 
          'n_estimators': 790,
          'seed': 42}

callbacks = [lgb.early_stopping(stopping_rounds=100)]
model_origem = lgb.train(params_origem, 
                  train_data_origem, 
                  num_boost_round=1000, 
                  valid_sets=[val_data_origem], 
                  callbacks=callbacks)


y_pred_origem = model_origem.predict(X_test_origem, num_iteration=model_origem.best_iteration)

In [None]:
# C√°lculo das m√©tricas para o modelo
rmse_origem = mean_squared_error(y_test_origem, y_pred_origem, squared=False)
r2_origem = r2_score(y_test_origem, y_pred_origem)
mae_origem = mean_absolute_error(y_test_origem, y_pred_origem)
mape_origem = mean_absolute_percentage_error(y_test_origem, y_pred_origem)

# Exibi√ß√£o das m√©tricas
print(f'Teste - RMSE: {rmse_origem:.4f}')
print(f'Teste - R¬≤: {r2_origem:.4f}')
print(f'Teste - MAE: {mae_origem:.4f}')
print(f'Teste - MAPE: {mape_origem:.4f}')

##### Modelo 3 com otimiza√ß√£o dos hiperpar√¢metros

In [None]:
# Ignorar avisos
warnings.filterwarnings("ignore")

# definir a fun√ß√£o objetivo para a otimiza√ß√£o
def objective_origem_opt(trial):
    params_origem_opt = {
        'learning_rate': trial.suggest_loguniform('learning_rate', 0.01, 0.07),
        'num_leaves': trial.suggest_int('num_leaves', 31, 130),
        'feature_fraction': trial.suggest_uniform('feature_fraction', 0.6, 0.8),
        'bagging_fraction': trial.suggest_uniform('bagging_fraction', 0.7, 1),
        'bagging_freq': trial.suggest_int('bagging_freq', 1, 10),
        'n_estimators': trial.suggest_int('n_estimators', 500, 1000),
        'verbose': -1,  # Desativar logs desnecess√°rios
        'seed': 42  
    }
    
    train_data_origem_opt = lgb.Dataset(X_train_origem, label=y_train_origem)
    val_data_origem_opt = lgb.Dataset(X_val_origem, label=y_val_origem)
    
    model_origem_opt = lgb.train(params_origem_opt, 
                      train_data_origem_opt, 
                      num_boost_round=1000, 
                      valid_sets=[val_data_origem_opt], 
                      callbacks=[lgb.early_stopping(stopping_rounds=100)])  # Sem log_evaluation
    
    y_pred_origem_opt = model_origem_opt.predict(X_val_origem, num_iteration=model_origem_opt.best_iteration)
    
    mape_origem_opt = mean_absolute_percentage_error(y_val_origem, y_pred_origem_opt) * 100
    return mape_origem_opt

# otimiza√ß√£o
study_origem_opt = optuna.create_study(direction='minimize')  
study_origem_opt.optimize(objective_origem_opt, n_trials=50)

# mostrar melhores hiperpar√¢metros
print("Melhores hiperpar√¢metros encontrados:", study_origem_opt.best_params)

# treinar o modelo com os melhores hiperpar√¢metros
best_params_origem_opt = study_origem_opt.best_params
best_params_origem_opt['verbose'] = -1  # Desativar logs desnecess√°rios

train_data_origem_opt = lgb.Dataset(X_train_origem, label=y_train_origem)
val_data_origem_opt = lgb.Dataset(X_val_origem, label=y_val_origem)

best_model_origem_opt = lgb.train(best_params_origem_opt, 
                       train_data_origem_opt, 
                       num_boost_round=1000, 
                       valid_sets=[val_data_origem_opt], 
                       callbacks=[lgb.early_stopping(stopping_rounds=100)])

# avalia√ß√£o final no conjunto de teste
y_pred_test_origem_opt = best_model_origem_opt.predict(X_test_origem, num_iteration=best_model_origem_opt.best_iteration)

In [None]:
# C√°lculo das m√©tricas para o modelo
rmse_origem_opt = mean_squared_error(y_test_origem, y_pred_test_origem_opt, squared=False)
r2_origem_opt = r2_score(y_test_origem, y_pred_test_origem_opt)
mae_origem_opt = mean_absolute_error(y_test_origem, y_pred_test_origem_opt)
mape_origem_opt = mean_absolute_percentage_error(y_test_origem, y_pred_test_origem_opt)

# Exibi√ß√£o das m√©tricas
print('M√©tricas com a Otimiza√ß√£o dos Hiperpar√¢metros')
print(f'Teste - RMSE: {rmse_origem_opt:.4f}')
print(f'Teste - R¬≤: {r2_origem_opt:.4f}')
print(f'Teste - MAE: {mae_origem_opt:.4f}')
print(f'Teste - MAPE: {mape_origem_opt:.4f}')

In [None]:
# Plotar valores reais vs previstos para o modelo otimizado
plt.figure(figsize=(12, 6))

# Garantir que os dados de teste estejam alinhados e sem reset de √≠ndices desnecess√°rios
plt.plot(y_test_origem.reset_index(drop=True)[:100], label='Valores Reais', color='#6baed6', linestyle='-')
plt.plot(y_pred_test_origem_opt[:100], label='Valores Previstos', color='red', linestyle='--')

# Configura√ß√µes do gr√°fico
plt.xlabel('√çndice')
plt.ylabel('Valor ( ln(1+x) )')
plt.title('An√°lise das Predi√ß√µes do Modelo 3: Valores Reais vs. Valores Previstos (Primeiros 100 Dados)')
plt.legend()
plt.grid(True)
plt.show()


In [None]:
# Tamanho do gr√°fico
plt.figure(figsize=(10, 6))

# Gr√°fico de dispers√£o dos valores reais vs previstos
plt.scatter(y_test_origem, y_pred_test_origem_opt, alpha=0.6, edgecolors='k', color='blue', label='Valores reais em compara√ß√£o com os preditos')

# Adicionar uma linha de refer√™ncia (linha ideal onde os valores reais s√£o iguais aos previstos)
plt.plot([y_test_origem.min(), y_test_origem.max()], [y_test_origem.min(), y_test_origem.max()], 'r--', lw=2, label='Linha de Posi√ß√£o Ideal')

# Adicionando a legenda
plt.legend(title="Legenda", loc="lower right", fontsize = 10)  # Adiciona a legenda no canto inferior direito

# R√≥tulos e t√≠tulo
plt.xlabel('Valores Reais ( ln(1+x) )')
plt.ylabel('Valores Preditos ( ln(1+x) )')
plt.title('Diagrama de Dispers√£o das Predi√ß√µes do Modelo 3 (Ve√≠culo e Origem)')

# Adicionar grid
plt.grid(True)

# Exibir gr√°fico
plt.show()

## üìà Sistema de Previs√µes

Nessa se√ß√£o, ser√° poss√≠vel realizar as previs√µes de receita, utilizando o modelo LightGBM. Ser√° necess√°rio fornecer o ano, m√™s, estimativa da 'Taxa Ac. TRI % PIB', o ve√≠culo e, se desejado, a origem ou segmento espec√≠fico que se deseja prever.

##### ‚ö†Ô∏è Antes de utilizar os sistemas de previs√£o execute a c√©lula que possui o sistema que deseja utilizar mais uma vez. 

### Modelo 1 - Previs√£o por Ve√≠culo

In [None]:
# Dicion√°rio com os nomes dos ve√≠culos
veiculos_nomes = {
    0: 'CBN VITORIA',
    1: 'GAZETA FM LINHARES',
    2: 'GAZETA FM VITORIA',
    3: 'GAZETA PRODUCOES',
    4: 'INTERNET',
    5: 'LITORAL FM',
    6: 'LITORAL FM NOROESTE',
    7: 'LITORAL FM NORTE',
    8: 'LITORAL FM SUL',
    9: 'PORTAL G1/GE/HOME',
    10: 'PRODUCAO',
    11: 'RADIO MIX VITORIA',
    12: 'TV GAZETA',
    13: 'TV GAZETA NOROESTE',
    14: 'TV GAZETA N0RTE',
    15: 'TV GAZETA SUL',
    16: 'TV NOROESTE PRODUCOES',
    17: 'TV NORTE PRODUCOES',
    18: 'TV SUL PRODUCOES'
}

# Estilo para aumentar o espa√ßo reservado para a descri√ß√£o
style = {'description_width': '160px'}

# Dropdown para selecionar o ve√≠culo
veiculo_dropdown = widgets.Dropdown(
    options=[(v, k) for k, v in veiculos_nomes.items()],
    value=None, 
    description='Ve√≠culo:',
    disabled=False
)

# Widgets para o ano e taxas trimestrais
ano_widget_veiculo = widgets.IntText(value=None, description='Ano:')
taxa_ac_q1_veiculo = widgets.FloatText(value=None, description='Taxa Ac. do PIB - TRI 1 (%):', style= style)
taxa_ac_q2_veiculo = widgets.FloatText(value=None, description='Taxa Ac. do PIB - TRI 2 (%):',style= style)
taxa_ac_q3_veiculo = widgets.FloatText(value=None, description='Taxa Ac. do PIB - TRI 3 (%):', style= style)
taxa_ac_q4_veiculo = widgets.FloatText(value=None, description='Taxa Ac. do PIB - TRI 4 (%):', style= style)

# Fun√ß√£o para realizar a previs√£o dos pr√≥ximos 12 meses com taxas trimestrais diferentes
def fazer_previsao_veiculo(veiculo, ano, taxas):
    # Distribuir as taxas trimestrais ao longo dos meses
    meses = list(range(1, 13))
    taxas_trimestrais = [taxas[0]] * 3 + [taxas[1]] * 3 + [taxas[2]] * 3 + [taxas[3]] * 3
    
    # Criar DataFrame para os 12 meses
    data_para_previsao = pd.DataFrame({
        'Veiculo': [veiculo] * 12,
        'Ano': [ano] * 12,
        'M√™s': meses,
        'Taxa Ac. TRI % PIB': taxas_trimestrais
    })
    
    # Fazer previs√£o com o modelo para os 12 meses
    previsoes_veiculo = model_veiculo.predict(data_para_previsao)
    previsoes_originais_veiculo = np.expm1(previsoes_veiculo)
    
    # Exibir previs√µes por m√™s
    print(f'Previs√µes para {veiculos_nomes[veiculo]} em {ano}:')
    for mes, previsao_original in zip(meses, previsoes_originais_veiculo):
        print(f'M√™s {mes}: {previsao_original:.2f}')

     # Gerar gr√°fico de linhas com as previs√µes
    plt.figure(figsize=(10, 6))
    plt.plot(meses, previsoes_originais_veiculo, marker='o', linestyle='-', color='b', label='Previs√£o')
    plt.title(f'Previs√µes Mensais para {veiculos_nomes[veiculo]} - ({ano})')
    plt.xlabel('M√™s')
    plt.ylabel('Previs√£o de Receita (R$)')
    plt.xticks(meses)
    plt.grid(True)
    plt.legend()
    plt.show()
    
    # Mostrar resultados anteriores separadamente para cada m√™s
    for mes in meses:
        resultados_anteriores = df_veiculo[['M√™s', 'Ano', 'Vl Liquido Final s/ normaliza√ß√£o']].loc[
            (df_veiculo['Veiculo'] == veiculo) & (df_veiculo['M√™s'] == mes)
        ]
        
        print(f'\nReceitas anteriores - M√™s {mes}:')
        display(resultados_anteriores)

# Bot√£o para acionar a previs√£o
botao_previsao_veiculo = widgets.Button(description="Fazer Previs√£o")

# Fun√ß√£o do bot√£o
def on_button_click(b):
    taxas_veiculo = [taxa_ac_q1_veiculo.value, taxa_ac_q2_veiculo.value, taxa_ac_q3_veiculo.value, taxa_ac_q4_veiculo.value]
    fazer_previsao_veiculo(veiculo_dropdown.value, ano_widget_veiculo.value, taxas_veiculo)

botao_previsao_veiculo.on_click(on_button_click)

# Exibir os widgets e o bot√£o
display(veiculo_dropdown, ano_widget_veiculo, taxa_ac_q1_veiculo, taxa_ac_q2_veiculo, taxa_ac_q3_veiculo, taxa_ac_q4_veiculo, botao_previsao_veiculo)

### Modelo 2 - Previs√£o por Ve√≠culo e Segmento

In [None]:
# Dicion√°rios com os nomes dos segmentos
segmentos_nomes = {
    0: 'AGROPECUARIA',
    1: 'ALIMENTOS',
    2: 'BEBIDAS',
    3: 'BENS INDUSTRIAIS MAT. PRIMA',
    4: 'BRINQUEDOS E DIVERSOES',
    5: 'COMERCIO',
    6: 'CONDOMINIOS',
    7: 'EDUCACAO/MEIOS DE COMUNICACAO',
    8: 'EQUIP/MAT/ESCRIT/LOJA/ESCOLA',
    9: 'FOTO / OTICA / CINE / SOM',
    10: 'INDUSTRIA DA CONSTRUCAO',
    11: 'INTERNET',
    12: 'LIMPEZA / HIGIENE DOMESTICA',
    13: 'MEIOS DE TRANSPORTES E AFINS',
    14: 'MERCADO FINANCEIRO',
    15: 'MOVEIS E DECORACOES',
    16: 'OUTRAS RECEITAS',
    17: 'OUTROS',
    18: 'PERFUMARIA / FARMACIA',
    19: 'SERVICOS',
    20: 'SERVICOS DE TELECOMUNICACOES',
    21: 'TEXTIL / VESTUARIO',
    22: 'UTILIDADES DOMESTICAS'
}

# Estilo para ajustar a largura da descri√ß√£o dos widgets
style = {'description_width': '160px'}

# Dropdowns para selecionar o ve√≠culo e o segmento
veiculo_dropdown = widgets.Dropdown(
    options=[(v, k) for k, v in veiculos_nomes.items()],
    value=None,  # Default para 'TV GAZETA'
    description='Ve√≠culo:',
    disabled=False,
    style=style
)

segmento_dropdown = widgets.Dropdown(
    options=[(v, k) for k, v in segmentos_nomes.items()],
    value=None,  # Default para 'AGROPECUARIA'
    description='Segmento:',
    disabled=False,
    style=style
)

# Widgets para o ano e as taxas trimestrais
ano_widget_segmento = widgets.IntText(value=None, description='Ano:', style=style)
taxa_ac_q1_segmento = widgets.FloatText(value=None, description='Taxa Ac. do PIB - TRI 1 (%):', style=style)
taxa_ac_q2_segmento = widgets.FloatText(value=None, description='Taxa Ac. do PIB - TRI 2 (%):', style=style)
taxa_ac_q3_segmento = widgets.FloatText(value=None, description='Taxa Ac. do PIB - TRI 3 (%):', style=style)
taxa_ac_q4_segmento = widgets.FloatText(value=None, description='Taxa Ac. do PIB - TRI 4 (%):', style=style)

# Fun√ß√£o para realizar a previs√£o
def fazer_previsao_segmento(veiculo, segmento, ano, taxas):
    meses = list(range(1, 13))
    taxas_trimestrais = [taxas[0]] * 3 + [taxas[1]] * 3 + [taxas[2]] * 3 + [taxas[3]] * 3
    
    # Criar DataFrame para os 12 meses
    data_para_previsao = pd.DataFrame({
        'Veiculo': [veiculo] * 12,
        'Ano': [ano] * 12,
        'M√™s': meses,
        'Segmento': [segmento] * 12,
        'Taxa Ac. TRI % PIB': taxas_trimestrais
    })
    
    # Fazer previs√£o com o modelo para os 12 meses
    previsoes_segmento = model_segmento.predict(data_para_previsao)
    previsoes_originais_segmento = np.expm1(previsoes_segmento)
    
    # Exibir previs√µes por m√™s
    print(f'Previs√µes para {veiculos_nomes[veiculo]} no segmento {segmentos_nomes[segmento]} em {ano}:')
    for mes, previsao_original in zip(meses, previsoes_originais_segmento):
        print(f'M√™s {mes}: {previsao_original:.2f}')

         # Gerar gr√°fico de linhas com as previs√µes
    plt.figure(figsize=(10, 6))
    plt.plot(meses, previsoes_originais_segmento, marker='o', linestyle='-', color='b', label='Previs√£o')
    plt.title(f'Previs√µes Mensais para {veiculos_nomes[veiculo]} - Segmento {segmentos_nomes[segmento]} ({ano})')
    plt.xlabel('M√™s')
    plt.ylabel('Previs√£o de Receita (R$)')
    plt.xticks(meses)
    plt.grid(True)
    plt.legend()
    plt.show()
    
    # Mostrar receitas anteriores para cada m√™s
    for mes in meses:
        resultados_anteriores = df_segmento[['M√™s', 'Ano', 'Vl Liquido Final s/ normaliza√ß√£o']].loc[
            (df_segmento['Veiculo'] == veiculo) & 
            (df_segmento['M√™s'] == mes) & 
            (df_segmento['Segmento'] == segmento)
        ]
        
        print(f'\nReceitas anteriores - M√™s {mes}:')
        display(resultados_anteriores)

# Bot√£o para acionar a previs√£o
botao_previsao_segmento = widgets.Button(description="Fazer Previs√£o")

# Fun√ß√£o do bot√£o
def on_button_click(b):
    taxas_segmento = [taxa_ac_q1_segmento.value, taxa_ac_q2_segmento.value, taxa_ac_q3_segmento.value, taxa_ac_q4_segmento.value]
    fazer_previsao_segmento(veiculo_dropdown.value, segmento_dropdown.value, ano_widget_segmento.value, taxas_segmento)

botao_previsao_segmento.on_click(on_button_click)

# Exibir os widgets e o bot√£o
display(veiculo_dropdown, segmento_dropdown, ano_widget_segmento, taxa_ac_q1_segmento, taxa_ac_q2_segmento, taxa_ac_q3_segmento, taxa_ac_q4_segmento, botao_previsao_segmento)

### Modelo 3 - Previs√£o por Ve√≠culo e Origem

In [None]:
# Dicion√°rios com os nomes das origens
origens_nomes = {
    0: 'CH - CONTATO - CACHOEIRO',
    1: 'CO - CONTATO - COLATINA',
    2: 'LI - CONTATO - LINHARES',
    3: 'MP - M√çDIA PROGRAM√ÅTICA',
    4: 'RN - MERCADO NACIONAL',
    5: 'VT - CONTATO - VIT√ìRIA'
}

# Estilo para ajustar a largura da descri√ß√£o dos widgets
style = {'description_width': '160px'}

# Dropdowns para selecionar o ve√≠culo e o segmento
veiculo_dropdown = widgets.Dropdown(
    options=[(v, k) for k, v in veiculos_nomes.items()],
    value=None, 
    description='Ve√≠culo:',
    disabled=False,
    style=style
)

origem_dropdown = widgets.Dropdown(
    options=[(v, k) for k, v in origens_nomes.items()],
    value=None,  # Default 
    description='Origem:',
    disabled=False,
    style=style
)

# Widgets para o ano e as taxas trimestrais
ano_widget_origem = widgets.IntText(value=None, description='Ano:', style=style)
taxa_ac_q1_origem = widgets.FloatText(value=None, description='Taxa Ac. do PIB - TRI 1 (%):', style=style)
taxa_ac_q2_origem = widgets.FloatText(value=None, description='Taxa Ac. do PIB - TRI 2 (%):', style=style)
taxa_ac_q3_origem = widgets.FloatText(value=None, description='Taxa Ac. do PIB - TRI 3 (%):', style=style)
taxa_ac_q4_origem = widgets.FloatText(value=None, description='Taxa Ac. do PIB - TRI 4 (%):', style=style)

# Fun√ß√£o para realizar a previs√£o
def fazer_previsao_origem(veiculo, origem, ano, taxas):
    meses = list(range(1, 13))
    taxas_trimestrais = [taxas[0]] * 3 + [taxas[1]] * 3 + [taxas[2]] * 3 + [taxas[3]] * 3
    
    # Criar DataFrame para os 12 meses
    data_para_previsao = pd.DataFrame({
        'Veiculo': [veiculo] * 12,
        'Ano': [ano] * 12,
        'M√™s': meses,
        'Origem': [origem] * 12,
        'Taxa Ac. TRI % PIB': taxas_trimestrais
    })
    
    # Fazer previs√£o com o modelo para os 12 meses
    previsoes_origem = model_origem.predict(data_para_previsao)
    previsoes_originais_origem = np.expm1(previsoes_origem)
    
    # Exibir previs√µes por m√™s
    print(f'Previs√µes para {veiculos_nomes[veiculo]} na origem {origens_nomes[origem]} em {ano}:')
    for mes, previsao_original in zip(meses, previsoes_originais_origem):
        print(f'M√™s {mes}: {previsao_original:.2f}')

     # Gerar gr√°fico de linhas com as previs√µes
    plt.figure(figsize=(10, 6))
    plt.plot(meses, previsoes_originais_origem, marker='o', linestyle='-', color='b', label='Previs√£o')
    plt.title(f'Previs√µes Mensais para {veiculos_nomes[veiculo]} - Origem {origens_nomes[origem]} ({ano})')
    plt.xlabel('M√™s')
    plt.ylabel('Previs√£o de Receita (R$)')
    plt.xticks(meses)
    plt.grid(True)
    plt.legend()
    plt.show()
    
    # Mostrar receitas anteriores para cada m√™s
    for mes in meses:
        resultados_anteriores = df_origem[['M√™s', 'Ano', 'Vl Liquido Final s/ normaliza√ß√£o']].loc[
            (df_origem['Veiculo'] == veiculo) & 
            (df_origem['M√™s'] == mes) & 
            (df_origem['Origem'] == origem)
        ]
        
        print(f'\nReceitas anteriores - M√™s {mes}:')
        display(resultados_anteriores)

# Bot√£o para acionar a previs√£o
botao_previsao_origem = widgets.Button(description="Fazer Previs√£o")

# Fun√ß√£o do bot√£o
def on_button_click(b):
    taxas_origem = [taxa_ac_q1_origem.value, taxa_ac_q2_origem.value, taxa_ac_q3_origem.value, taxa_ac_q4_origem.value]
    fazer_previsao_origem(veiculo_dropdown.value, origem_dropdown.value, ano_widget_origem.value, taxas_origem)

botao_previsao_origem.on_click(on_button_click)

# Exibir os widgets e o bot√£o
display(veiculo_dropdown, origem_dropdown, ano_widget_origem, taxa_ac_q1_origem, taxa_ac_q2_origem, taxa_ac_q3_origem, taxa_ac_q4_origem, botao_previsao_origem)

## üìÉ Refer√™ncias

PYTHON. Documenta√ß√£o Python. Wiki Python Brasil. Dispon√≠vel em: https://wiki.python.org.br/DocumentacaoPython. Acesso em: 11 set. 2024.

MATPLOTLIB. matplotlib.pyplot API. Vers√£o 3.5.3. Dispon√≠vel em: https://matplotlib.org/3.5.3/api/_as_gen/matplotlib.pyplot.html. Acesso em: 11 set. 2024.

SCIPY. SciPy Documentation. Dispon√≠vel em: https://docs.scipy.org/doc/scipy/. Acesso em: 11 set. 2024.

PANDAS. Pandas Documentation. Dispon√≠vel em: https://pandas.pydata.org/docs/index.html#. Acesso em: 11 set. 2024.

NUMPY. NumPy Documentation. Dispon√≠vel em: https://numpy.org/devdocs/. Acesso em: 11 set. 2024.

SCIKIT-LEARN. Scikit-learn Documentation. Vers√£o 0.21. Dispon√≠vel em: https://scikit-learn.org/0.21/documentation.html. Acesso em: 11 set. 2024.

SCIPY. SciPy Documentation. Dispon√≠vel em: https://docs.scipy.org/doc/. Acesso em: 11 set. 2024.

SEABORN. Seaborn Documentation. Dispon√≠vel em: https://seaborn.pydata.org/. Acesso em: 11 set. 2024.