In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import numpy as np
import os
from pathlib import Path

In [25]:
# Diretório onde estão os arquivos
base_dir = "dados/"

# Lista dos arquivos de geração e sensores, com caminhos completos
generation_files = [os.path.join(base_dir, "power_generation_plant_1.csv"),
                    os.path.join(base_dir, "power_generation_plant_2.csv")]

sensor_files = [os.path.join(base_dir, "weather_sensor_plant_1.csv"),
                os.path.join(base_dir, "weather_sensor_plant_2.csv")]

# Lê e concatena todos os arquivos de geração
generation_data = pd.concat([pd.read_csv(file) for file in generation_files], ignore_index=True)
sensor_data = pd.concat([pd.read_csv(file) for file in sensor_files], ignore_index=True)

# Contagem de linhas e colunas antes da transformação
print("Dados originais - Geração de Energia:")
print(generation_data.shape)

print("\nDados originais - Sensores Climáticos:")
print(sensor_data.shape)

Dados originais - Geração de Energia:
(136476, 7)

Dados originais - Sensores Climáticos:
(6441, 6)


In [22]:
# Função para padronizar e converter o campo DATE_TIME para timestamp
def convert_to_timestamp(df, date_column):
    """
    Converte a coluna de data para timestamp e garante formato padronizado.
    """
    # Define dayfirst=True para evitar ambiguidade
    df[date_column] = pd.to_datetime(df[date_column], dayfirst=True, errors='coerce')
    
    # Padroniza o formato para 'YYYY-MM-DD HH:MM:SS'
    df[date_column] = df[date_column].dt.strftime('%Y-%m-%d %H:%M:%S')
    return df

# Função para carregar e processar dados do CSV
def load_and_convert_csv(file_path, date_column='DATE_TIME'):
    """
    Lê o arquivo CSV e converte a coluna DATE_TIME para um formato padronizado.
    """
    df = pd.read_csv(file_path)
    df = convert_to_timestamp(df, date_column)
    return df

# Fluxo principal de execução
if __name__ == "__main__":
    # Caminhos para os arquivos
    generation_file_1 = "dados/power_generation_plant_1.csv"
    generation_file_2 = "dados/power_generation_plant_2.csv"
    
    # Processamento dos arquivos
    df_plant_1 = load_and_convert_csv(generation_file_1)
    df_plant_2 = load_and_convert_csv(generation_file_2)

    # Verificação da conversão
    print("Arquivo 1:")
    print(df_plant_1[['DATE_TIME']].head())
    print("Arquivo 2:")
    print(df_plant_2[['DATE_TIME']].head())


Arquivo 1:
             DATE_TIME
0  2020-05-15 00:00:00
1  2020-05-15 00:00:00
2  2020-05-15 00:00:00
3  2020-05-15 00:00:00
4  2020-05-15 00:00:00
Arquivo 2:
             DATE_TIME
0  2020-05-15 00:00:00
1  2020-05-15 00:00:00
2  2020-05-15 00:00:00
3  2020-05-15 00:00:00
4  2020-05-15 00:00:00


  df[date_column] = pd.to_datetime(df[date_column], dayfirst=True, errors='coerce')


In [None]:
generation_data.head()

In [None]:
sensor_data.head()

In [None]:
# Agrupar dados por hora para facilitar a análise
generation_data['HOUR'] = generation_data['DATE_TIME'].dt.hour
weather_data['HOUR'] = weather_data['DATE_TIME'].dt.hour

In [None]:

# Verifica se houve alguma conversão falha (por exemplo, valores que não puderam ser convertidos)
print(df_plant_1['DATE_TIME'].isnull().sum(), "erros no arquivo 1")
print(df_plant_2['DATE_TIME'].isnull().sum(), "erros no arquivo 2")

# Exibe uma amostra dos dados para verificar a conversão
print(df_plant_1[['DATE_TIME']].head())
print(df_plant_2[['DATE_TIME']].head())