1

In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from datetime import datetime, timedelta


2

In [None]:
# Caminho para a planilha
file_path = 'planilhas\Dados.xlsx'

# Carregar a planilha, começando da linha 4 e especificando o índice correto
df = pd.read_excel(file_path, skiprows=2)  # Pula as primeiras 3 linhas (começa na linha 4)

# Exibir os nomes das colunas para inspeção
print("Colunas carregadas na planilha:")
print(df.columns)


3

In [None]:
# Definir a coluna de data (já carregada e convertida)
data_col = df.columns[0]  # Primeira coluna do DataFrame, assumida como a de data

# Garantir que a coluna de data foi convertida corretamente
if df[data_col].dtype != 'datetime64[ns]':
    df[data_col] = pd.to_datetime(df[data_col], errors='coerce')

# Determinar a data atual e o limite de 365 dias atrás
data_atual = datetime.now()
limite_data = data_atual - timedelta(days=365)

# Filtrar as linhas dentro do intervalo de 365 dias
df_filtrado = df[df[data_col] >= limite_data]


4

In [None]:
# Exibir as primeiras linhas da planilha filtrada
print("\nPrimeiras 5 linhas da planilha filtrada (últimos 365 dias):")
print(df_filtrado.head())


5

In [None]:
# Exibir o número total de linhas no DataFrame filtrado
print(f"\nTotal de linhas filtradas: {len(df_filtrado)}")


6

In [None]:
# (Opcional) Salvar os dados filtrados em um arquivo Excel
df_filtrado.to_excel('planilhas\dados_filtrados_1_ano.xlsx', index=False)
print("\nDados filtrados foram salvos em 'dados_filtrados_1_ano.xlsx'")


7

In [None]:
# Carregar o arquivo gerado anteriormente
file_path = 'planilhas\dados_filtrados_1_ano.xlsx'
df = pd.read_excel(file_path)

# Identificar as colunas numéricas (da coluna C em diante)
colunas_numericas = df.columns[2:]  # Colunas de C em diante (índice começa em 0, então 2 é a terceira coluna)


8

In [None]:
# Garantir que as colunas numéricas realmente contenham valores numéricos
for col in colunas_numericas:
    # Converter valores não numéricos para NaN
    df[col] = pd.to_numeric(df[col], errors='coerce')

# Exibir um resumo dos dados após a limpeza
print("\nResumo das colunas numéricas após limpeza:")
print(df[colunas_numericas].describe())


9

In [None]:
# Salvar o DataFrame limpo em um novo arquivo Excel
df.to_excel('planilhas\dados_filtrados_limpos.xlsx', index=False)
print("\nDados limpos foram salvos em 'dados_filtrados_limpos.xlsx'")
print(df.head())


10

In [None]:
df_sem_nan = df.dropna()

# Exibir o número total de linhas restantes
print(f"\nTotal de linhas após remover células vazias: {len(df_sem_nan)}")

# Exibir as primeiras linhas do DataFrame resultante
print("\nPrimeiras 5 linhas após remoção de células vazias:")
print(df_sem_nan.head())


11

In [None]:
# Salvar o DataFrame limpo em um novo arquivo Excel
df_sem_nan.to_excel('planilhas\dados_filtrados_sem_nan.xlsx', index=False)
print("\nDados sem células vazias foram salvos em 'dados_filtrados_sem_nan.xlsx'")


12

In [None]:
# Exibir os nomes das colunas carregadas no DataFrame
print("Nomes das colunas disponíveis:", df_sem_nan.columns)


13

In [None]:
# Garantir que a coluna "Datas" seja convertida para datetime
df_sem_nan['Datas'] = pd.to_datetime(df_sem_nan['Datas'], errors='coerce')  # Converter para datetime

# Criar uma cópia da coluna 'Datas' para não perder a informação
df_sem_nan['Datas_Copy'] = df_sem_nan['Datas']

# Definir a coluna "Datas" como índice
df_sem_nan.set_index('Datas', inplace=True)  # Definir a coluna "Datas" como índice

# Identificar as colunas de C em diante (começando da terceira coluna)
colunas_variaveis = df_sem_nan.columns[1:]  # Exclui a coluna de índice

# Configurar o tamanho do gráfico
plt.figure(figsize=(20, 10))


14

In [None]:
# Plotar todas as colunas em função da coluna "Datas"
for coluna in colunas_variaveis:
    plt.plot(df_sem_nan.index, df_sem_nan[coluna], label=coluna, linewidth=0.8)

# Adicionar título e rótulos
plt.title("Variação de Todas as Variáveis ao Longo do Tempo", fontsize=16)
plt.xlabel("Data", fontsize=14)
plt.ylabel("Valores", fontsize=14)
plt.legend(loc='upper left', bbox_to_anchor=(1.05, 1), ncol=1, fontsize=8)  # Legenda fora do gráfico
plt.tight_layout()

# Exibir o gráfico
plt.show()


15

In [None]:
# Exibir os nomes das colunas carregadas no DataFrame
print("Nomes das colunas disponíveis:", df_sem_nan.columns)


16

In [None]:
# Garantir que a coluna "Datas_Copy" seja convertida para datetime
df_sem_nan['Datas_Copy'] = pd.to_datetime(df_sem_nan['Datas_Copy'], errors='coerce')  # Converter para datetime

# Calcular a correlação entre "SAL EM PETROLEO MET.POTEN" e as outras colunas
coluna_alvo = "SAL EM PETROLEO MET.POTEN"
correlacao = df_sem_nan.corr()[coluna_alvo]

# Exibir as correlações
print(f"Correlação entre '{coluna_alvo}' e as outras colunas:")
print(correlacao)


17

In [None]:
# Selecionar as colunas para comparação (excluindo a coluna alvo "SAL EM PETROLEO MET.POTEN")
colunas_para_comparar = df_sem_nan.columns[df_sem_nan.columns != coluna_alvo]

# Definir o número de linhas e colunas para os gráficos
n_linhas = 14  # Número de linhas de gráficos
n_colunas = 6  # Número de colunas de gráficos

# Configurar o tamanho do gráfico (aumentado para gráficos maiores)
plt.figure(figsize=(n_colunas * 8, n_linhas * 6))  # Ajuste os valores conforme necessário

# Gerar gráfico de dispersão para cada coluna em relação à coluna alvo
for i, coluna in enumerate(colunas_para_comparar):
    ax = plt.subplot(n_linhas, n_colunas, i+1)  # Ajuste o layout de acordo com o número de colunas
    plt.scatter(df_sem_nan['Datas_Copy'], df_sem_nan[coluna], alpha=0.9)  # Usando 'Datas_Copy' como eixo x
    
    # Títulos e rótulos
    plt.title(f'{coluna}', fontsize=22)  # Aumentando o tamanho do título
    plt.xlabel('Datas', fontsize=20)  # Rótulo do eixo X (Datas)
    plt.ylabel(coluna, fontsize=20)  # Rótulo do eixo Y
    
    # Ajustar o tamanho das marcas nos eixos (ticks)
    plt.tick_params(axis='x', labelsize=12)  # Aumentando o tamanho das marcações no eixo X
    plt.tick_params(axis='y', labelsize=12)  # Aumentando o tamanho das marcações no eixo Y
    
    # Adicionar linha divisória vertical e horizontal
    if (i + 1) % n_colunas == 0:  # Divisória a cada n_colunas gráficos
        ax.spines['right'].set_linestyle('dashed')
        ax.spines['right'].set_linewidth(2)
    
    if (i + 1) // n_colunas == 0:  # Divisória a cada linha
        ax.spines['bottom'].set_linestyle('dashed')
        ax.spines['bottom'].set_linewidth(2)

    if (i + 1) % n_colunas == 0:  # Divisória a cada n_colunas gráficos
        ax.spines['left'].set_linestyle('dashed')
        ax.spines['left'].set_linewidth(2)

# Ajustar o espaçamento entre os gráficos (horizontal e vertical)
plt.subplots_adjust(hspace=0.5, wspace=0.5)  # Ajuste o espaçamento conforme necessário

# Exibir os gráficos
plt.show()


18

In [None]:
# Selecionar as colunas para comparação (excluindo "SAL EM PETROLEO MET.POTEN" e "Datas_Copy")
colunas_para_comparar = df_sem_nan.columns.difference(['SAL EM PETROLEO MET.POTEN', 'Datas_Copy'])

# Definir o número de linhas e colunas para os gráficos
n_linhas = 14  # Número de linhas de gráficos
n_colunas = 6  # Número de colunas de gráficos

# Configurar o tamanho do gráfico (aumentado para gráficos maiores)
plt.figure(figsize=(n_colunas * 8, n_linhas * 6))  # Ajuste os valores conforme necessário

# Gerar gráfico para cada coluna em relação à coluna alvo
for i, coluna in enumerate(colunas_para_comparar):
    ax = plt.subplot(n_linhas, n_colunas, i + 1)
    
    # Garantir que tanto eixo X quanto eixo Y sejam numéricos
    if pd.api.types.is_numeric_dtype(df_sem_nan[coluna]) and pd.api.types.is_numeric_dtype(df_sem_nan[coluna_alvo]):
        eixo_y = df_sem_nan['Datas_Copy'] if 'Datas_Copy' in df_sem_nan.columns else df_sem_nan.index
        
        # Gerar o gráfico de dispersão (kdeplot)
        sns.kdeplot(
            x=df_sem_nan[coluna_alvo],
            y=df_sem_nan[coluna],
            fill=True,
            cmap='viridis',
            alpha=0.8,
            ax=ax
        )
        
        # Títulos e rótulos
        plt.title(f'Heatmap: {coluna}', fontsize=22)
        plt.xlabel(coluna_alvo, fontsize=20)
        plt.tick_params(axis='x', labelsize=20)
        plt.tick_params(axis='y', labelsize=20)
    else:
        # Caso não seja numérica, podemos simplesmente pular o gráfico ou usar outro tipo de visualização
        plt.axis('off')  # Desabilita o gráfico se não for numérico

# Ajustar o espaçamento entre os gráficos (horizontal e vertical)
plt.subplots_adjust(hspace=1, wspace=1)  # Ajuste o espaçamento conforme necessário

# Exibir os gráficos
plt.show()


19

In [None]:
# Selecionar as colunas para comparação (excluindo "SAL EM PETROLEO MET.POTEN" e "Datas_Copy")
colunas_para_comparar = df_sem_nan.columns.difference(['SAL EM PETROLEO MET.POTEN', 'Datas_Copy'])

# Definir o número de linhas e colunas para os gráficos
n_linhas = 14  # Ajuste conforme o número de gráficos
n_colunas = 9

# Configurar o tamanho do gráfico
plt.figure(figsize=(n_colunas * 6, n_linhas * 4))  # Ajuste o tamanho conforme necessário

# Gerar gráfico de barras para cada coluna em relação à coluna "SAL EM PETROLEO MET.POTEN"
for i, coluna in enumerate(colunas_para_comparar):
    ax = plt.subplot(n_linhas, n_colunas, i + 1)
    
    # Plotar os valores das colunas em relação à coluna "SAL EM PETROLEO MET.POTEN"
    plt.bar(df_sem_nan['SAL EM PETROLEO MET.POTEN'], df_sem_nan[coluna], alpha=0.7)
    
    # Títulos e rótulos
    plt.title(f'{coluna}', fontsize=22)
    plt.xlabel('SAL EM PETROLEO MET.POTEN', fontsize=20)
    plt.tick_params(axis='x', labelsize=20)
    plt.tick_params(axis='y', labelsize=20)

# Ajustar o espaçamento entre os gráficos
plt.tight_layout()
plt.subplots_adjust(hspace=0.5, wspace=0.5)

# Exibir os gráficos
plt.show()
