

# Previsão de Colaboradores aaaaa
## Sumário de Conteúdos:
---
#### [**[AI Forecast]** Configurações Iniciais](#prerequisites)
   - [**1.1** Import de Bibliotecas](#prerequisites_authentication)
   - [**1.2** Definição de Funções](#prerequisites_policies)
   - [**1.3** Definição de Variáveis](#prerequisites_policies)

#### [**[23AI]** Conexão com Banco de Dados](#prerequisites)
#### [**[Pre-Model]** Limpeza e Tratamento de Dados](#prerequisites)
   - [**3.1** Divisão do Dataset - Treino | Teste](#prerequisites_authentication)
   - [**3.2** Armazenamento dos Datasets - Treino | Teste](#prerequisites_authentication)
   - [**3.3** Criação dos arquivos YAML - Forecast AI](#prerequisites_authentication)
#### [**[FORECAST]** União das tabelas 1510 | 5428 | 7072](#prerequisites)
#### [**[FORECAST]** Encaminhamento das tabelas ao Banco](#prerequisites)

# **[AI Forecast]** Configurações Iniciais

## **1.1** Import de Bibliotecas

In [1]:
import os
import oci
import ads
import json
import re
import sys
import oracledb
import pandas as pd
import pandas as pd
import yaml

ads.set_auth(auth='resource_principal')

## **1.2** Definição de Funções

In [2]:
def load_table_to_dataframe(conn, table_name):
    """
    Carrega os dados de uma tabela do banco de dados em um DataFrame.

    Parâmetros:
        conn: Conexão ativa com o banco de dados.
        table_name: Nome da tabela a ser carregada.

    Retorno:
        DataFrame contendo os dados da tabela.
    """
    query = f"SELECT * FROM {table_name}"
    return pd.read_sql(query, conn)

def remove_duplicates(data, timestamp_col):
    """
    Remove duplicatas de um DataFrame

    Parâmetros:
        data (pd.DataFrame): Dataset a ser processado.
        timestamp_col (str): Nome da coluna de timestamp.

    Retorna:
        pd.DataFrame: Dataset sem duplicatas.
    """
    if data.duplicated(subset=[timestamp_col]).any():
        print(f"Valores duplicados encontrados na coluna '{timestamp_col}'. Corrigindo...")
        data = data.drop_duplicates(subset=[timestamp_col], keep='first')

    if data.duplicated(subset=[timestamp_col]).any():
        raise ValueError(f"Ainda há valores duplicados na coluna '{timestamp_col}'. Verifique o dataset.")

    print(f"Coluna '{timestamp_col}' validada e sem duplicatas.")
    return data

def remove_nulls(data, timestamp_col):
    """
    Remove linhas com valores nulos.

    Parâmetros:
        data (pd.DataFrame): Dataset a ser processado.
        timestamp_col (str): Nome da coluna a ser verificada.

    Retorna:
        pd.DataFrame: Dataset sem valores nulos na coluna.
    """
    null_count = data[timestamp_col].isnull().sum()
    if null_count > 0:
        print(f"Valores nulos encontrados na coluna '{timestamp_col}': {null_count}. Removendo...")
        data = data.dropna(subset=[timestamp_col])
    
    null_count_after = data[timestamp_col].isnull().sum()
    if null_count_after == 0:
        print(f"Todos os valores nulos foram removidos da coluna '{timestamp_col}'.")
    else:
        raise ValueError(f"Ainda há valores nulos na coluna '{timestamp_col}' após a tentativa de remoção.")
    
    return data

def filter_by_cod_local(df, cod_local_list):
    return {cod: df[df['COD_LOCAL'] == cod] for cod in cod_local_list}

def split_dataset(data, timestamp_col, target_col, test_size):
    """
    Divide um dataset temporal em treino, teste e dados adicionais, preservando a ordem temporal.

    Parameters:
        data (pd.DataFrame): Dataset completo.
        timestamp_col (str): Nome da coluna que representa o timestamp.
        target_col (str): Nome da coluna alvo (target) para a previsão.
        series_col (str): Nome da coluna que identifica a série temporal.
        test_size (float): Proporção do conjunto de teste (default=0.2).

    Returns:
        train_data (pd.DataFrame): Conjunto de treino.
        test_data (pd.DataFrame): Conjunto de teste.
        additional_data (pd.DataFrame): Conjunto adicional, se necessário.
    """
    
    # Ordena os dados pelo timestamp para garantir a preservação da sequência temporal.
    data = data.sort_values(by=timestamp_col)
    
    # Converte a coluna de timestamp para o tipo datetime, garantindo consistência nos dados temporais.
    data[timestamp_col] = pd.to_datetime(data[timestamp_col], format='%d-%b-%y %H:%M:%S', errors='coerce')

    # Seleciona apenas as colunas necessárias (timestamp e target) para evitar excesso de dados irrelevantes.
    colunas= [timestamp_col, target_col]
    data = data[colunas]
    
    # Calcula o índice de separação entre os dados de treino e teste com base no tamanho do conjunto de teste.
    split_index = int(len(data) * (1 - test_size))
    
    # Divide o dataset em treino e teste com base no índice calculado.
    train_data = data.iloc[:split_index]  # Dados de treino.
    test_data = data.iloc[split_index:]  # Dados de teste.
    
    return train_data, test_data

def save_datasets_by_type(results_turno, results_hora, base_folder_turno, base_folder_hora):
    """
    Salva os datasets de treino, teste e adicional (quando disponível) em pastas separadas por tipo e código.

    Parâmetros:
        results_turno (dict): Dicionário contendo os datasets de turno processados.
        results_hora (dict): Dicionário contendo os datasets de hora processados.
        base_folder_turno (str): Caminho base para salvar os arquivos de turno.
        base_folder_hora (str): Caminho base para salvar os arquivos de hora.
    """
    # Função interna para salvar datasets
    def save_datasets(results, base_folder, include_additional):
        for name, data in results.items():
            print(f"Salvando dados para {name}...")

            # Extraindo o código do nome do dataset
            code = name.split('_')[1]
            
            # Criando a pasta específica para o código
            code_folder = os.path.join(base_folder, f"COPEL_{code}")
            os.makedirs(code_folder, exist_ok=True)
            
            # Criando caminhos para os arquivos CSV
            train_data_path = os.path.join(code_folder, "COPEL_TRAIN.csv")
            test_data_path = os.path.join(code_folder, "COPEL_TEST.csv")

            # Salvando os datasets de treino e teste
            data["train_data"].to_csv(train_data_path, index=False)
            data["test_data"].to_csv(test_data_path, index=False)

            # Salvando o conjunto adicional se estiver disponível
            if include_additional and "additional_data" in data:
                additional_data_path = os.path.join(code_folder, "COPEL_DATA_ADDITIONAL.csv")
                data["additional_data"].to_csv(additional_data_path, index=False)
                print(f"Arquivos salvos em {code_folder}:" +
                      f"\n - {train_data_path}" +
                      f"\n - {test_data_path}" +
                      f"\n - {additional_data_path}")
            else:
                print(f"Arquivos salvos em {code_folder}:" +
                      f"\n - {train_data_path}" +
                      f"\n - {test_data_path}")

    # Salvando datasets de turno
    print("\nSalvando datasets de turno...")
    save_datasets(results_turno, base_folder_turno, include_additional=True)

    # Salvando datasets de hora
    print("\nSalvando datasets de hora...")
    save_datasets(results_hora, base_folder_hora, include_additional=False)

def create_forecast_yaml(datasets, base_folder, output_folder, 
                         timestamp_col, target_col, horizon, model):
    """
    Cria arquivos YAML para cada dataset, com configuração de previsão e gera comandos para execução.

    Parâmetros:
        datasets (dict): Dicionário contendo os datasets processados.
        base_folder (str): Caminho base para os arquivos CSV.
        output_folder (str): Pasta onde os YAMLs serão salvos.
        timestamp_col (str): Nome da coluna de timestamp.
        target_col (str): Nome da coluna alvo (target).
        horizon (int): Horizonte de previsão.
        model (str): Modelo de previsão.

    Retorna:
        commands (list): Lista de strings com comandos `ads operator run`.
    """
    os.makedirs(output_folder, exist_ok=True)
    commands = []
    
    for name in datasets.keys():
        # Extrai o código do dataset
        code = name.split('_')[1]
        
        # Caminhos dos datasets
        train_data_path = os.path.join(base_folder, f"COPEL_{code}", "COPEL_TRAIN.csv")
        test_data_path = os.path.join(base_folder, f"COPEL_{code}", "COPEL_TEST.csv")
        
        # Configuração do YAML
        forecast_config = {
            "kind": "operator",
            "spec": {
                "datetime_column": {
                    "name": timestamp_col
                },
                "historical_data": {
                    "url": train_data_path
                },
                "test_data": {
                    "url": test_data_path
                },
                "output_directory": {
                    "url": f"COPEL_OUTPUT/{code}/{target_col}"
                },
                "model": model,
                "target_column": target_col,
                "horizon": horizon
            },
            "type": "forecast",
            "version": "v1"
        }
        
        # Nome do YAML
        yaml_file_path = os.path.join(output_folder, f"FORECAST_{code}_{target_col}.yaml")
        
        # Salva o YAML no arquivo
        with open(yaml_file_path, "w") as file:
            yaml.dump(forecast_config, file)
        
        print(f"Arquivo YAML criado: {yaml_file_path}")
        
        # Adiciona o comando à lista
        command = f"ads operator run -f {yaml_file_path} -b local"
        commands.append(command)
    
    return commands

## **1.3** Definição de Variáveis

In [9]:
timestamp_col = "HORARIO_COMPLETO"

target_col_turno='INDIVIDUO_TURNO'
target_col_hora='TEMPO_TOTAL_SIMPLES'

base_folder_turno=f"COPEL_INPUT/{target_col_turno}"
base_folder_hora=f"COPEL_INPUT/{target_col_hora}"

output_folder_turno= f"forecast/COPEL/TURNO/{target_col_turno}"
output_folder_hora= f"forecast/COPEL/HORA/{target_col_hora}"

model="prophet"
       # - prophet
       #  - arima
       #  - neuralprophet
       #  - lgbforecast
       #  - automlx
       #  - autots
       #  - auto-select

horizon_hora=600
horizon_turno=100

test_size_hora=0.1
test_size_turno=0.1

## **[23AI]** Conexão com Banco de Dados

In [4]:
try:
    conn = oracledb.connect(user="FORECAST", password="Oracle123#analytics", dsn="(description= (retry_count=20)(retry_delay=3)(address=(protocol=tcps)(port=1522)(host=adb.us-ashburn-1.oraclecloud.com))(connect_data=(service_name=arj21cwbhl1zqnf_opendata_medium.adwc.oraclecloud.com))(security=(ssl_server_dn_match=yes)))",
                              config_dir="/home/datascience/[WALLET] 23AI",
                              wallet_location="/home/datascience/[WALLET] 23AI",
                              wallet_password="Oracle123#analytics")
    print("Connection successful!")
except Exception as e:
    print("Connection failed!")
    sys.exit(1)

Connection successful!


In [5]:
# Busca os dados do banco
with conn: 
    df_turno = load_table_to_dataframe(conn, "FORECAST.EQUIPE_TURNO_INDIV")
    df_hora = load_table_to_dataframe(conn, "FORECAST.EQUIPE_HORA_INDIV")

# Filtra por código-local
df_hora["COD_LOCAL"] = df_hora["COD_LOCAL"].astype(str)

## **[Pre-Model]** Limpeza e Tratamento de Dados

In [11]:
datasets_to_process

{'filtered_turno_data':         ID COD_LOCAL        DIA    HORARIO_COMPLETO      TURNO  EQUIPE  \
 0    10207      5428  22-DEC-08 2022-12-08 09:00:00     Diurno     427   
 1    19864      7072  23-FEB-11 2023-02-11 19:00:00    Noturno       1   
 2     9342      7072  22-NOV-21 2022-11-21 09:00:00     Diurno     336   
 3     9421      1510  23-JAN-27 2023-01-27 09:00:00     Diurno     288   
 4     9440      7072  23-FEB-16 2023-02-16 19:00:00    Noturno      72   
 ..     ...       ...        ...                 ...        ...     ...   
 857  66796      7072  22-DEC-20 2022-12-20 01:00:00  Madrugada      12   
 858  66878      7072  23-JAN-12 2023-01-12 19:00:00    Noturno     118   
 859  66885      7072  23-JAN-16 2023-01-16 01:00:00  Madrugada       5   
 860  69646      1510  23-JAN-29 2023-01-29 01:00:00  Madrugada       2   
 861  69764      7072  22-NOV-14 2022-11-14 19:00:00    Noturno      67   
 
      TEMPO_TOTAL_SIMPLES   TEMPO_TOTAL  ATIVIDADE  INDIVIDUO_TURNO  \
 0  

In [12]:
# Dicionário contendo os datasets que precisam de processamento
datasets_to_process = {
    "filtered_turno_data": df_turno,
    "filtered_hora_data": df_hora
}

processed_turno_data = {}
processed_hora_data = {}

for dataset_name, dataset in datasets_to_process.items():
        dataset = remove_duplicates(dataset, timestamp_col=timestamp_col)
        dataset = remove_nulls(dataset, timestamp_col=timestamp_col)

        # Armazena no dicionário correto
        if dataset_name == "filtered_turno_data":
            processed_turno_data = dataset
        elif dataset_name == "filtered_hora_data":
            processed_hora_data = dataset

Valores duplicados encontrados na coluna 'HORARIO_COMPLETO'. Corrigindo...
Coluna 'HORARIO_COMPLETO' validada e sem duplicatas.
Todos os valores nulos foram removidos da coluna 'HORARIO_COMPLETO'.
Valores duplicados encontrados na coluna 'HORARIO_COMPLETO'. Corrigindo...
Coluna 'HORARIO_COMPLETO' validada e sem duplicatas.
Todos os valores nulos foram removidos da coluna 'HORARIO_COMPLETO'.


In [12]:
datasets_turno = { 
    f"turno_{cod}": processed_turno_data[cod] for cod in cod_locais
} 

results_turno = {}

# Processar os datasets de turno
for name, dataset in datasets_turno.items():
    print(f"Processando {name}...")
    
    # Dividir os dados usando a função split_dataset
    train_data, test_data = split_dataset(
        data=dataset,
        timestamp_col=timestamp_col,  
        target_col=target_col_turno,     
        test_size=test_size_turno
    )
    
    # Armazenar os resultados para cada dataset de turno
    results_turno[name] = {
        "train_data": train_data,
        "test_data": test_data
    }

Processando turno_1510...
Processando turno_5428...
Processando turno_7072...


## **3.1** Divisão do Dataset - Treino | Teste 

In [13]:
datasets_hora = { 
    f"hora": processed_hora_data
}

results_hora = {}

# Processar os datasets de turno
for name, dataset in datasets_hora.items():
    print(f"Processando {name}...")
    
    # Dividir os dados usando a função split_dataset
    train_data, test_data = split_dataset(
        data=dataset,
        timestamp_col=timestamp_col,  
        target_col=target_col_hora,     
        test_size=test_size_hora
    )
    
    # Armazenar os resultados para cada dataset de turno
    results_hora[name] = {
        "train_data": train_data,
        "test_data": test_data
    }

Processando hora...


## **3.2** Armazenamento dos Datasets - Treino | Teste

In [44]:
save_datasets_by_type(
    results_turno=results_turno,
    results_hora=results_hora,
    base_folder_turno=base_folder_turno,
    base_folder_hora='CATEGORY_HORA/'
)


Salvando datasets de turno...
Salvando dados para turno_1510...
Arquivos salvos em COPEL_INPUT/INDIVIDUO_TURNO/COPEL_1510:
 - COPEL_INPUT/INDIVIDUO_TURNO/COPEL_1510/COPEL_TRAIN.csv
 - COPEL_INPUT/INDIVIDUO_TURNO/COPEL_1510/COPEL_TEST.csv
Salvando dados para turno_5428...
Arquivos salvos em COPEL_INPUT/INDIVIDUO_TURNO/COPEL_5428:
 - COPEL_INPUT/INDIVIDUO_TURNO/COPEL_5428/COPEL_TRAIN.csv
 - COPEL_INPUT/INDIVIDUO_TURNO/COPEL_5428/COPEL_TEST.csv
Salvando dados para turno_7072...
Arquivos salvos em COPEL_INPUT/INDIVIDUO_TURNO/COPEL_7072:
 - COPEL_INPUT/INDIVIDUO_TURNO/COPEL_7072/COPEL_TRAIN.csv
 - COPEL_INPUT/INDIVIDUO_TURNO/COPEL_7072/COPEL_TEST.csv

Salvando datasets de hora...
Salvando dados para hora_1510...
Arquivos salvos em COPEL_INPUT/TEMPO_TOTAL_SIMPLES/COPEL_1510:
 - COPEL_INPUT/TEMPO_TOTAL_SIMPLES/COPEL_1510/COPEL_TRAIN.csv
 - COPEL_INPUT/TEMPO_TOTAL_SIMPLES/COPEL_1510/COPEL_TEST.csv
Salvando dados para hora_5428...
Arquivos salvos em COPEL_INPUT/TEMPO_TOTAL_SIMPLES/COPEL_5428:


## **3.3** Criação dos arquivos YAML - Forecast AI

In [228]:
# Criação dos YAMLs para turno
create_forecast_yaml(
    datasets= datasets_turno,
    base_folder= base_folder_turno,
    output_folder= output_folder_turno,
    timestamp_col= timestamp_col,
    target_col= target_col_turno,
    horizon= horizon_turno,
    model= model
)

Arquivo YAML criado: forecast/COPEL/TURNO/INDIVIDUO_TURNO/FORECAST_1510_INDIVIDUO_TURNO.yaml
Arquivo YAML criado: forecast/COPEL/TURNO/INDIVIDUO_TURNO/FORECAST_5428_INDIVIDUO_TURNO.yaml
Arquivo YAML criado: forecast/COPEL/TURNO/INDIVIDUO_TURNO/FORECAST_7072_INDIVIDUO_TURNO.yaml


['ads operator run -f forecast/COPEL/TURNO/INDIVIDUO_TURNO/FORECAST_1510_INDIVIDUO_TURNO.yaml -b local',
 'ads operator run -f forecast/COPEL/TURNO/INDIVIDUO_TURNO/FORECAST_5428_INDIVIDUO_TURNO.yaml -b local',
 'ads operator run -f forecast/COPEL/TURNO/INDIVIDUO_TURNO/FORECAST_7072_INDIVIDUO_TURNO.yaml -b local']

In [45]:
# Criação dos YAMLs para hora
create_forecast_yaml(
    datasets= datasets_hora,
    base_folder= base_folder_hora,
    output_folder= output_folder_hora,
    timestamp_col= timestamp_col,
    target_col= target_col_hora,
    horizon= horizon_hora,
    model= model
)

Arquivo YAML criado: forecast/COPEL/HORA/TEMPO_TOTAL_SIMPLES/FORECAST_1510_TEMPO_TOTAL_SIMPLES.yaml
Arquivo YAML criado: forecast/COPEL/HORA/TEMPO_TOTAL_SIMPLES/FORECAST_5428_TEMPO_TOTAL_SIMPLES.yaml
Arquivo YAML criado: forecast/COPEL/HORA/TEMPO_TOTAL_SIMPLES/FORECAST_7072_TEMPO_TOTAL_SIMPLES.yaml


['ads operator run -f forecast/COPEL/HORA/TEMPO_TOTAL_SIMPLES/FORECAST_1510_TEMPO_TOTAL_SIMPLES.yaml -b local',
 'ads operator run -f forecast/COPEL/HORA/TEMPO_TOTAL_SIMPLES/FORECAST_5428_TEMPO_TOTAL_SIMPLES.yaml -b local',
 'ads operator run -f forecast/COPEL/HORA/TEMPO_TOTAL_SIMPLES/FORECAST_7072_TEMPO_TOTAL_SIMPLES.yaml -b local']

In [155]:
import pandas as pd

# Lista de arquivos e respectivos códigos
files_and_codes = [
    (f"COPEL_OUTPUT/1510/{target_col_turno}/forecast.csv", 1510),
    (f"COPEL_OUTPUT/5428/{target_col_turno}/forecast.csv", 5428),
    (f"COPEL_OUTPUT/7072/{target_col_turno}/forecast.csv", 7072)
]

# Lista para armazenar os DataFrames
dataframes = []

# Iterar pelos arquivos e adicionar a coluna COD_LOCAL
for file_path, code in files_and_codes:
    # Lê o CSV
    df = pd.read_csv(file_path)
    
    # Adiciona a coluna COD_LOCAL
    df['COD_LOCAL'] = code
    
    # Adiciona o DataFrame à lista
    dataframes.append(df)

# Une todos os DataFrames em um único DataFrame
combined_df = pd.concat(dataframes, ignore_index=True)

# Salva o DataFrame combinado em um novo arquivo CSV
output_path = f"COPEL_OUTPUT/combined_forecast_{target_col_turno}.csv"
combined_df.to_csv(output_path, index=False)

print(f"Arquivo combinado salvo em: {output_path}")


Arquivo combinado salvo em: COPEL_OUTPUT/combined_forecast_INDIVIDUO_TURNO.csv


## **[FORECAST]** União das tabelas 1510 | 5428 | 7072

In [46]:
import pandas as pd

# Lista de arquivos e respectivos códigos
files_and_codes = [
    (f"COPEL_OUTPUT/1510/{target_col_hora}/forecast.csv", 1510),
    (f"COPEL_OUTPUT/5428/{target_col_hora}/forecast.csv", 5428),
    (f"COPEL_OUTPUT/7072/{target_col_hora}/forecast.csv", 7072)
]

# Lista para armazenar os DataFrames
dataframes = []

# Iterar pelos arquivos e adicionar a coluna COD_LOCAL
for file_path, code in files_and_codes:
    # Lê o CSV
    df = pd.read_csv(file_path)
    
    # Adiciona a coluna COD_LOCAL
    df['COD_LOCAL'] = code
    
    # Adiciona o DataFrame à lista
    dataframes.append(df)

# Une todos os DataFrames em um único DataFrame
combined_df = pd.concat(dataframes, ignore_index=True)

# Salva o DataFrame combinado em um novo arquivo CSV
output_path = f"COPEL_OUTPUT/combined_forecast_{target_col_hora}.csv"
combined_df.to_csv(output_path, index=False)

print(f"Arquivo combinado salvo em: {output_path}")


Arquivo combinado salvo em: COPEL_OUTPUT/combined_forecast_TEMPO_TOTAL_SIMPLES.csv


## **[FORECAST]** Encaminhamento das tabelas ao Banco

In [47]:
try:
    conn = oracledb.connect(user="FORECAST", password="Oracle123#analytics", dsn="(description= (retry_count=20)(retry_delay=3)(address=(protocol=tcps)(port=1522)(host=adb.us-ashburn-1.oraclecloud.com))(connect_data=(service_name=arj21cwbhl1zqnf_opendata_medium.adwc.oraclecloud.com))(security=(ssl_server_dn_match=yes)))",
                              config_dir="/home/datascience/[WALLET] 23AI",
                              wallet_location="/home/datascience/[WALLET] 23AI",
                              wallet_password="Oracle123#analytics")
    print("Connection successful!")
except Exception as e:
    print("Connection failed!")
    sys.exit(1)

Connection successful!


In [267]:
# Criar tabela usando o estilo direto
cur = conn.cursor()
try:
    # Query para criar a tabela
    create_table_query = f"""
    CREATE TABLE OUTPUT_{target_col_hora} (
        ID NUMBER GENERATED ALWAYS AS IDENTITY,
        DATA_REGISTRO VARCHAR2(100),
        SERIES VARCHAR2(100),
        INPUT_VALUE NUMBER,
        FITTED_VALUE NUMBER,
        FORECAST_VALUE NUMBER,
        P10 NUMBER,
        P90 NUMBER,
        COD_LOCAL VARCHAR2(100),
        PRIMARY KEY (ID)
    )
    """
    # Executa a query
    cur.execute(create_table_query)
    conn.commit()
    print(f"Tabela OUTPUT_{target_col_hora} criada com sucesso!")
finally:
    cur.close()
    conn.close()
    print("Conexão encerrada com sucesso!")



Tabela OUTPUT_TEMPO_TOTAL_SIMPLES criada com sucesso!
Conexão encerrada com sucesso!


In [48]:
# Renomeia as colunas para corresponder à tabela do banco
combined_df = combined_df.rename(columns={
    "Date": "DATA_REGISTRO",
    "Series": "SERIES",
    "input_value": "INPUT_VALUE",
    "fitted_value": "FITTED_VALUE",
    "forecast_value": "FORECAST_VALUE",
    "p10": "P10",
    "p90": "P90",
    "COD_LOCAL": "COD_LOCAL"
})


# Ajuste das colunas do DataFrame
combined_df["DATA_REGISTRO"] = combined_df["DATA_REGISTRO"].astype(str)  # Converte para string
combined_df["FORECAST_VALUE"] = combined_df["FORECAST_VALUE"].fillna(value=0).astype(float)
combined_df["P10"] = combined_df["P10"].fillna(value=0).astype(float)
combined_df["P90"] = combined_df["P90"].fillna(value=0).astype(float)
combined_df["INPUT_VALUE"] = combined_df["INPUT_VALUE"].fillna(value=0).astype(float)
combined_df["FITTED_VALUE"] = combined_df["FITTED_VALUE"].fillna(value=0).astype(float)
combined_df["COD_LOCAL"] = combined_df["COD_LOCAL"].astype(str)

# combined_df["FORECAST_VALUE"] = combined_df["FORECAST_VALUE"].where(combined_df["FORECAST_VALUE"].notna(), None)
# combined_df["P10"] = combined_df["P10"].where(combined_df["P10"].notna(), None)
# combined_df["P90"] = combined_df["P90"].where(combined_df["P90"].notna(), None)
# combined_df["INPUT_VALUE"] = combined_df["INPUT_VALUE"].where(combined_df["INPUT_VALUE"].notna(), None)
# combined_df["FITTED_VALUE"] = combined_df["FITTED_VALUE"].where(combined_df["FITTED_VALUE"].notna(), None)


# Reordena as colunas para corresponder à tabela no banco
combined_df = combined_df[[
    "DATA_REGISTRO", "SERIES", "INPUT_VALUE", "FITTED_VALUE", "FORECAST_VALUE", "P10", "P90", "COD_LOCAL"
]]

# Criar o cursor
cursor = conn.cursor()

# Deletar todos os dados existentes na tabela antes de inserir os novos
delete_query = f"DELETE FROM OUTPUT_{target_col_hora}"
cursor.execute(delete_query)
print(f"Todos os registros da tabela OUTPUT_{target_col_hora} foram excluídos.")

# Query para inserção
insert_query = f"""
    INSERT INTO OUTPUT_{target_col_hora} (
        DATA_REGISTRO, SERIES, INPUT_VALUE, FITTED_VALUE, FORECAST_VALUE, P10, P90, COD_LOCAL
    ) VALUES (:1, :2, :3, :4, :5, :6, :7, :8)
    """

# Converter o DataFrame em uma lista de tuplas
data_to_insert = combined_df.to_records(index=False)
data_to_insert = [tuple(row) for row in data_to_insert]

# Inserir os dados
cursor.executemany(insert_query, data_to_insert)
print(f"{cursor.rowcount} registros substituídos com sucesso na tabela OUTPUT_{target_col_hora}.")

# Commit da transação
conn.commit()

# Fechar o cursor e a conexão
cursor.close()
conn.close()
print("Conexão encerrada com sucesso!")


Todos os registros da tabela OUTPUT_TEMPO_TOTAL_SIMPLES foram excluídos.
5418 registros substituídos com sucesso na tabela OUTPUT_TEMPO_TOTAL_SIMPLES.
Conexão encerrada com sucesso!


In [270]:
# Renomeia as colunas para corresponder à tabela do banco
combined_df = combined_df.rename(columns={
    "Date": "DATA_REGISTRO",
    "Series": "SERIES",
    "input_value": "INPUT_VALUE",
    "fitted_value": "FITTED_VALUE",
    "forecast_value": "FORECAST_VALUE",
    "p10": "P10",
    "p90": "P90",
    "COD_LOCAL": "COD_LOCAL"
})


# Ajuste das colunas do DataFrame
combined_df["DATA_REGISTRO"] = combined_df["DATA_REGISTRO"].astype(str)  # Converte para string
combined_df["FORECAST_VALUE"] = combined_df["FORECAST_VALUE"].fillna(value=0).astype(float)
combined_df["P10"] = combined_df["P10"].fillna(value=0).astype(float)
combined_df["P90"] = combined_df["P90"].fillna(value=0).astype(float)
combined_df["INPUT_VALUE"] = combined_df["INPUT_VALUE"].fillna(value=0).astype(float)
combined_df["FITTED_VALUE"] = combined_df["FITTED_VALUE"].fillna(value=0).astype(float)
combined_df["COD_LOCAL"] = combined_df["COD_LOCAL"].astype(str)

# combined_df["FORECAST_VALUE"] = combined_df["FORECAST_VALUE"].where(combined_df["FORECAST_VALUE"].notna(), None)
# combined_df["P10"] = combined_df["P10"].where(combined_df["P10"].notna(), None)
# combined_df["P90"] = combined_df["P90"].where(combined_df["P90"].notna(), None)
# combined_df["INPUT_VALUE"] = combined_df["INPUT_VALUE"].where(combined_df["INPUT_VALUE"].notna(), None)
# combined_df["FITTED_VALUE"] = combined_df["FITTED_VALUE"].where(combined_df["FITTED_VALUE"].notna(), None)


# Reordena as colunas para corresponder à tabela no banco
combined_df = combined_df[[
    "DATA_REGISTRO", "SERIES", "INPUT_VALUE", "FITTED_VALUE", "FORECAST_VALUE", "P10", "P90", "COD_LOCAL"
]]

    # Criar o cursor
cursor = conn.cursor()

    # Query para inserção
insert_query = f"""
    INSERT INTO OUTPUT_{target_col_hora} (
        DATA_REGISTRO, SERIES, INPUT_VALUE, FITTED_VALUE, FORECAST_VALUE, P10, P90, COD_LOCAL
    ) VALUES (:1, :2, :3, :4, :5, :6, :7, :8)
    """

    # Converter o DataFrame em uma lista de tuplas
data_to_insert = combined_df.to_records(index=False)
data_to_insert = [tuple(row) for row in data_to_insert]

    # Inserir os dados
cursor.executemany(insert_query, data_to_insert)
print(f"{cursor.rowcount} registros inseridos com sucesso na tabela OUTPUT_{target_col_hora}.")

    # Commit da transação
conn.commit()

    # Fechar o cursor e a conexão
cursor.close()
conn.close()
print("Conexão encerrada com sucesso!")

4518 registros inseridos com sucesso na tabela OUTPUT_TEMPO_TOTAL_SIMPLES.
Conexão encerrada com sucesso!


## TURNO

In [87]:
# Criar tabela usando o estilo direto
cur = conn.cursor()
try:
    # Query para criar a tabela
    create_table_query = f"""
    CREATE TABLE OUTPUT_{target_col_hora} (
        ID NUMBER GENERATED ALWAYS AS IDENTITY,
        DATA_REGISTRO VARCHAR2(100),
        SERIES VARCHAR2(100),
        INPUT_VALUE NUMBER,
        FITTED_VALUE NUMBER,
        FORECAST_VALUE NUMBER,
        P10 NUMBER,
        P90 NUMBER,
        COD_LOCAL VARCHAR2(100),
        PRIMARY KEY (ID)
    )
    """
    # Executa a query
    cur.execute(create_table_query)
    conn.commit()
    print(f"Tabela OUTPUT_{target_col_hora} criada com sucesso!")
finally:
    cur.close()
    conn.close()
    print("Conexão encerrada com sucesso!")



Tabela OUTPUT_INDIVIDUO_TURNO criada com sucesso!
Conexão encerrada com sucesso!


In [90]:
# Renomeia as colunas para corresponder à tabela do banco
combined_df = combined_df.rename(columns={
    "Date": "DATA_REGISTRO",
    "Series": "SERIES",
    "input_value": "INPUT_VALUE",
    "fitted_value": "FITTED_VALUE",
    "forecast_value": "FORECAST_VALUE",
    "p10": "P10",
    "p90": "P90",
    "COD_LOCAL": "COD_LOCAL"
})


# Ajuste das colunas do DataFrame
combined_df["DATA_REGISTRO"] = combined_df["DATA_REGISTRO"].astype(str)  # Converte para string
combined_df["FORECAST_VALUE"] = combined_df["FORECAST_VALUE"].where(combined_df["FORECAST_VALUE"].notna(), None)
combined_df["P10"] = combined_df["P10"].where(combined_df["P10"].notna(), None)
combined_df["P90"] = combined_df["P90"].where(combined_df["P90"].notna(), None)
combined_df["INPUT_VALUE"] = combined_df["INPUT_VALUE"].where(combined_df["INPUT_VALUE"].notna(), None)
combined_df["FITTED_VALUE"] = combined_df["FITTED_VALUE"].where(combined_df["FITTED_VALUE"].notna(), None)


# combined_df["FORECAST_VALUE"] = combined_df["FORECAST_VALUE"].fillna(value=0).astype(float)
# combined_df["P10"] = combined_df["P10"].fillna(value=0).astype(float)
# combined_df["P90"] = combined_df["P90"].fillna(value=0).astype(float)
# combined_df["INPUT_VALUE"] = combined_df["INPUT_VALUE"].fillna(value=0).astype(float)
# combined_df["FITTED_VALUE"] = combined_df["FITTED_VALUE"].fillna(value=0).astype(float)


# Reordena as colunas para corresponder à tabela no banco
combined_df = combined_df[[
    "DATA_REGISTRO", "SERIES", "INPUT_VALUE", "FITTED_VALUE", "FORECAST_VALUE", "P10", "P90", "COD_LOCAL"
]]

    # Criar o cursor
cursor = conn.cursor()

    # Query para inserção
insert_query = f"""
    INSERT INTO OUTPUT_{target_col_turno} (
        DATA_REGISTRO, SERIES, INPUT_VALUE, FITTED_VALUE, FORECAST_VALUE, P10, P90, COD_LOCAL
    ) VALUES (:1, :2, :3, :4, :5, :6, :7, :8)
    """

    # Converter o DataFrame em uma lista de tuplas
data_to_insert = combined_df.to_records(index=False)
data_to_insert = [tuple(row) for row in data_to_insert]

    # Inserir os dados
cursor.executemany(insert_query, data_to_insert)
print(f"{cursor.rowcount} registros inseridos com sucesso na tabela OUTPUT_{target_col_turno}.")

    # Commit da transação
conn.commit()

    # Fechar o cursor e a conexão
cursor.close()
conn.close()
print("Conexão encerrada com sucesso!")

875 registros inseridos com sucesso na tabela OUTPUT_INDIVIDUO_TURNO.
Conexão encerrada com sucesso!


In [None]:
def insert_data_into_table(connection, dataframe, table_name):
    """
    Insere os dados de um DataFrame na tabela especificada no banco Oracle.

    Parameters:
        connection (oracledb.Connection): Conexão ativa com o banco.
        dataframe (pd.DataFrame): DataFrame com os dados a serem inseridos.
        table_name (str): Nome da tabela no banco.
    """
    try:
        cursor = connection.cursor()

        # Prepara a query de inserção
        insert_query = f"""
        INSERT INTO {table_name} (
            DATE, SERIES, INPUT_VALUE, FITTED_VALUE, FORECAST_VALUE, P10, P90, COD_LOCAL
        ) VALUES (:1, :2, :3, :4, :5, :6, :7, :8)
        """

        # Converte o DataFrame para uma lista de tuplas
        data_to_insert = dataframe.to_records(index=False)
        data_to_insert = [tuple(row) for row in data_to_insert]

        # Insere os dados
        cursor.executemany(insert_query, data_to_insert)
        print(f"{cursor.rowcount} registros inseridos com sucesso na tabela {table_name}.")

        # Confirma a transação
        connection.commit()
        cursor.close()
    except oracledb.Error as e:
        print("Erro ao inserir os dados na tabela:", e)


In [None]:
combined_df["DATE"] = pd.to_datetime(combined_df["DATE"])
combined_df["FORECAST_VALUE"] = combined_df["FORECAST_VALUE"].astype(float)
combined_df["P10"] = combined_df["P10"].astype(float)
combined_df["P90"] = combined_df["P90"].astype(float)

# Inserir os dados na tabela
insert_data_into_table(conn, combined_df, "OUTPUT_FORECAST")

# Fechar a conexão
conn.close()
print("Conexão encerrada com sucesso!")

In [29]:
# # Remove timestamps duplicados
# results_turno['turno_1510']['test_data'] = results_turno['turno_1510']['test_data'].drop_duplicates(subset='HORARIO_COMPLETO')
# results_turno['turno_1510']['train_data'] = results_turno['turno_1510']['train_data'].drop_duplicates(subset='HORARIO_COMPLETO')

In [32]:
# # Calcula as diferenças entre os timestamps
# time_diffs = results_turno['turno_1510']['test_data']['HORARIO_COMPLETO'].diff()

# # Exibe intervalos que não correspondem à frequência esperada
# print("Intervalos inconsistentes:")
# print(time_diffs[time_diffs != pd.Timedelta('10H')])


Intervalos inconsistentes:
396               NaT
848   0 days 06:00:00
530   0 days 08:00:00
502   0 days 06:00:00
651   0 days 08:00:00
            ...      
573   0 days 08:00:00
575   0 days 14:00:00
706   0 days 06:00:00
258   0 days 08:00:00
169   0 days 14:00:00
Name: HORARIO_COMPLETO, Length: 63, dtype: timedelta64[ns]


In [31]:
# results_turno['turno_1510']['test_data'].to_csv("COPEL_INPUT/INDIVIDUO_TURNO/COPEL_1510/COPEL_TEST.csv", index=False)
# results_turno['turno_1510']['train_data'].to_csv("COPEL_INPUT/INDIVIDUO_TURNO/COPEL_1510/COPEL_TRAIN.csv", index=False)

In [226]:
results_turno['turno_1510']['test_data'].dtypes

HORARIO_COMPLETO    datetime64[ns]
INDIVIDUO_TURNO            float64
dtype: object

In [30]:
import oracledb

# Configurações para o modo Thin
user = "FORECAST"
password = "Oracle123#analytics"
dsn = """
(description=
    (retry_count=20)
    (retry_delay=3)
    (address=(protocol=tcps)(port=1522)(host=adb.us-ashburn-1.oraclecloud.com))
    (connect_data=(service_name=arj21cwbhl1zqnf_opendata_medium.adwc.oraclecloud.com))
    (security=(ssl_server_dn_match=yes))
)
"""
wallet_location = "/home/datascience/[WALLET] 23AI"
wallet_password = "Oracle123#analytics"

try:
    # Conectando ao banco no modo Thin
    connection = oracledb.connect(
        user=user,
        password=password,
        dsn=dsn,
        wallet_location=wallet_location,
        wallet_password=wallet_password
    )
    print("Conexão bem-sucedida com o banco Oracle (modo Thin)!")

    # Consulta simples para testar
    cursor = connection.cursor()
    cursor.execute("SELECT 1 FROM DUAL")
    result = cursor.fetchone()
    print("Teste de consulta bem-sucedido! Resultado:", result)

    # Encerrando o cursor e a conexão
    cursor.close()
    connection.close()
    print("Conexão encerrada com sucesso!")
except oracledb.Error as e:
    print("Erro ao conectar ao banco Oracle:", e)


Conexão bem-sucedida com o banco Oracle (modo Thin)!
Teste de consulta bem-sucedido! Resultado: (1,)
Conexão encerrada com sucesso!
