In [None]:
import pandas as pd

def etl_process(file_path, output_csv, output_xlsx):
    """Executa o processo ETL no arquivo CSV e salva como CSV e XLSX."""
    # Extração: Carregar o arquivo CSV do GitHub
    df = pd.read_csv(file_path, delimiter=';')
    
    # Transformação: Limpeza e ajuste dos dados
    df.columns = [col.strip() for col in df.columns]
    df = df.applymap(lambda x: str(x).replace(" ", "") if isinstance(x, str) else x)
    df["Date"] = df["Date"].str.replace(r"(\d{4})(\d{2}:\d{2})", r"\1 \2", regex=True)
    df["Date"] = pd.to_datetime(df["Date"], format="%d/%m/%Y %H:%M")
    df["Open"] = df["Open"].str.replace(",", ".").astype(float)
    df["High"] = df["High"].str.replace(",", ".").astype(float)
    df["Low"] = df["Low"].str.replace(",", ".").astype(float)
    df["Close"] = df["Close"].str.replace(",", ".").astype(float)
    df["Volume"] = df["Volume"].str.replace(",", ".").astype(float)
    
    # Carga: Salvar os dados limpos em CSV e XLSX
    df.to_csv(output_csv, index=False)
    df.to_excel(output_xlsx, index=False)
    
    return df

# Caminho do arquivo no repositório GitHub e do arquivo processado
github_file_path = "https://raw.githubusercontent.com/Juanpcsdev/Oil-Stock-Project/main/dados/acao_petroleo2.csv"
output_csv = "acao_petroleo2_clean.csv"
output_xlsx = "dados/acao_petroleo2_clean.xlsx"

# Executar o ETL
df_clean = etl_process(github_file_path, output_csv, output_xlsx)

# Exibir os primeiros registros do DataFrame processado
df_clean.head()