In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from datetime import datetime, timedelta

In [7]:
# Caminho para a planilha
file_path = 'Dados.xlsx'

# Carregar a planilha, começando da linha 4 e especificando o índice correto
df = pd.read_excel(file_path, skiprows=2)  # Pula as primeiras 3 linhas (começa na linha 4)

# Exibir os nomes das colunas para inspeção
print("Colunas carregadas na planilha:")
print(df.columns)

Colunas carregadas na planilha:
Index(['Datas', 'SAL EM PETROLEO MET.POTEN', 'SUCCAO 01-P-01A/B',
       'PET P/ 1a.BATERIA', 'PET P/ 01-E-03A/B', 'PET P/ 01-E-04A/F',
       'AGUA BAT.', 'PET E04AF', 'ENTRADA E33 CRU', 'ABR E-15', 'PET P/V3A',
       'DELTA V3A', '01-V-03A', '01-V-03A.1', 'SALMOURA', 'AGUA V3',
       'AGUA E-25 P/ V-03', 'PET V-03A', 'DELTA V3B', 'PET P/V3B', '01-V-03B',
       '001V3B ALIVIO P/ TOCHA', 'PET V-03B SAIDA', 'AGUA TRAT P/ U-01/101',
       'succao 01-P-16', 'SAL P/E26', 'SAL P/E25 SALMOURA',
       'ANALISADOR DE NH3', 'SUCCAO P23A/B', 'CRU ENTRADA 01E5',
       'PET P/ 01-E-05A/B', 'RCS P/ 01-P-04A/B', 'PET P/ 01-E-06A/B',
       'GOP-1 E7B SAIDA', 'GOP-1 E7D SAIDA', 'PET P/ 01-E-27B', 'CARGA 01',
       'SUCCAO P28A/B', 'DESCARGA 01P28A/B', 'SAIDA E32 CRU',
       'SAIDA E32 CRU.1', 'DP-1 P/ 01-C-02D', 'PET E-06A SAIDA',
       'PET E-06B SAIDA', 'PRESSAO E27', 'DL-1 P/ 01-P-05A/B', 'PET P/E27B',
       'GOP-1 E27A SAIDA', 'DL-1 E-09 Saida', 'PET E-27

In [8]:
data_col = df.columns[0]  # Supondo que a primeira coluna seja a de data

# Converter a coluna de data para o formato datetime
df[data_col] = pd.to_datetime(df[data_col], errors='coerce')

# Exibir as primeiras linhas da planilha
print("\nPrimeiras 5 linhas da planilha original (após processamento inicial):")
print(df.head())


Primeiras 5 linhas da planilha original (após processamento inicial):
                Datas  SAL EM PETROLEO MET.POTEN SUCCAO 01-P-01A/B  \
0 2024-12-03 09:00:00                        2.0          3.985596   
1 2024-12-02 09:00:00                        2.0          3.989899   
2 2024-12-01 09:00:00                        4.0          4.280632   
3 2024-11-30 21:00:00                        6.0          3.803757   
4 2024-11-30 09:00:00                        9.0          4.009426   

  PET P/ 1a.BATERIA PET P/ 01-E-03A/B PET P/ 01-E-04A/F   AGUA BAT.  \
0         26.744247         52.792759         70.117332  347.581207   
1         25.399412         50.566494         69.303711  367.763092   
2         26.929869         51.511902         68.766235  366.493958   
3         27.977982          53.04414         69.639572  367.638977   
4         28.566402         53.916306         69.948586  368.045013   

    PET E04AF ENTRADA E33 CRU   ABR E-15  ... SAIDA BATERIA  \
0   128.49588     

In [None]:
# Selecionar colunas numéricas a partir da coluna C (index 2 em Python)
df_numeric_before = df.iloc[:, 2:]

# Converter todas as colunas para valores numéricos, substituindo não numéricos por NaN
df_numeric_before = df_numeric_before.apply(pd.to_numeric, errors='coerce')

# Gerar a matriz de correlação antes da limpeza
corr_before = df_numeric_before.corr()

# Gerar o heatmap para a matriz de correlação antes da limpeza
plt.figure(figsize=(10, 8))
sns.heatmap(corr_before, annot=True, cmap='coolwarm', fmt='.2f', linewidths=0.5)
plt.title('Matriz de Correlação Antes da Limpeza')
plt.show()

In [None]:
# Remover linhas com valores ausentes
df_numeric_after = df_numeric_before.dropna()

# Gerar a matriz de correlação após a limpeza
corr_after = df_numeric_after.corr()

# Gerar o heatmap para a matriz de correlação após a limpeza
plt.figure(figsize=(10, 8))
sns.heatmap(corr_after, annot=True, cmap='coolwarm', fmt='.2f', linewidths=0.5)
plt.title('Matriz de Correlação Após a Limpeza')
plt.show()

In [None]:
# Salvar o DataFrame limpo em um novo arquivo
df_numeric_after.to_excel('variaveis_limpos.xlsx', index=False)
print("\nArquivo limpo salvo como 'variaveis_limpos.xlsx'")

In [None]:
# Identificar a primeira coluna (coluna A sem nome)
data_col = df.columns[0]  # A primeira coluna, mesmo que esteja sem nome

# Converter a coluna A (datas) para datetime
df[data_col] = pd.to_datetime(df[data_col], errors='coerce')

# Renomear a coluna de data para algo mais amigável
df.rename(columns={data_col: 'Data'}, inplace=True)

# Selecionar as colunas relevantes (C até BP)
df_numeric = df.iloc[:, 2:68]  # C está no índice 2, BP no índice 67 em Python

# Adicionar as colunas Data (antiga A) e B
df_numeric['Data'] = df['Data']
df_numeric['SAL EM PETROLEO MET.POTEN'] = df['SAL EM PETROLEO MET.POTEN']

# Garantir que os dados numéricos sejam tratados corretamente
df_numeric.iloc[:, :-2] = df_numeric.iloc[:, :-2].apply(pd.to_numeric, errors='coerce')

In [None]:
# Filtrar os dados por grupo na coluna B
groups = df_numeric['SAL EM PETROLEO MET.POTEN'].unique()
for group in groups:
    print(f"\nAnalisando o grupo: {group}")
    group_data = df_numeric[df_numeric['SAL EM PETROLEO MET.POTEN'] == group]
    
    # Gerar a matriz de correlação para o grupo
    corr_group = group_data.iloc[:, :-2].corr()
    
    # Gerar o heatmap
    plt.figure(figsize=(10, 8))
    sns.heatmap(corr_group, annot=False, cmap='coolwarm', fmt='.2f', linewidths=0.5)
    plt.title(f'Matriz de Correlação para o Grupo "{group}"')
    plt.show()

In [None]:
# Gerar análise temporal (resumo por data)
df_grouped_by_date = df_numeric.groupby(['Data', 'SAL EM PETROLEO MET.POTEN']).mean().reset_index()

# Salvar o resultado agrupado por data em Excel
df_grouped_by_date.to_excel('analise_por_data_e_grupo.xlsx', index=False)
print("\nAnálise agrupada por data e grupo salva em 'analise_por_data_e_grupo.xlsx'")