In [1]:
import pandas as pd
import numpy as np
import os

In [4]:
import os
import pandas as pd

'''
Arquivos baixados do yFinance vem no formato:
"Price,Close,High,Low,Open,Volume"
"Ticker,ABEV3.SA,...", 
"Date,,,,,"
e os demais valores em apenas uma coluna, separados por vírgula.
O objetivo é padronizar esses arquivos para facilitar a manipulçao dos dados.
retirando o header e mantendo a sequencia de valores em colunas separadas.
'''



def limpar_e_padronizar(df, delimiter=','):
    """
    Função que recebe um CSV possivelmente com apenas uma coluna (todas as colunas
    aglutinadas em uma única string) e garaante o DataFrame utilizavell.
    Se isso ocorrer, faz split com o delimitador especificado.
    Define a primeira linha como cabeçalho, renomeia colunas, e faz limpeza básica.
    """

    # 2) Renomear colunas (incluindo "Price" -> "Date")
    colunas_map = {
        "Price": "Date",
        "Open": "PrecoAbertura",
        "High": "PrecoMaximo",
        "Low": "PrecoMinimo",
        "Close": "PrecoFechamento",
        "Volume": "VolumeNegociado"
    }
    df = df.rename(columns=colunas_map)

   
    # Excluir linhas com valores nulos na coluna de fechamento, se desejar
    if "PrecoFechamento" in df.columns:
        df = df.dropna(subset=["PrecoFechamento"])
   
    
    return df

def main():
    caminho_brutos = "dados/brutos"
    arquivos_csv = [
        os.path.join(caminho_brutos, f)
        for f in os.listdir(caminho_brutos)
        if f.endswith(".csv")
    ]

    os.makedirs("dados/limpos", exist_ok=True)

    for arquivo_csv in arquivos_csv:
        print(f"Processando arquivo: {arquivo_csv}")
        
        # Leitura inicial sem parse_dates e sem index_col
        df_bruto = pd.read_csv(arquivo_csv,skiprows=[1,2] ,header=0, dtype=str, delimiter=',')
        
        # Limpar e padronizar
        df_limpo = limpar_e_padronizar(df_bruto)
        
        # Gerar nome de saída
        nome_arquivo = os.path.basename(arquivo_csv).replace(".csv", "_limpo.csv")
        caminho_limpo = os.path.join("dados", "limpos", nome_arquivo)

        # Salvar
        df_limpo.to_csv(caminho_limpo, index=False, sep=',', encoding='utf-8')
        print(f"Arquivo limpo salvo em: {caminho_limpo}")

if __name__ == "__main__":
    main()


Processando arquivo: dados/brutos\ABEV3.SA_20250330.csv
Arquivo limpo salvo em: dados\limpos\ABEV3.SA_20250330_limpo.csv
Processando arquivo: dados/brutos\BEEF3.SA_20250330.csv
Arquivo limpo salvo em: dados\limpos\BEEF3.SA_20250330_limpo.csv
Processando arquivo: dados/brutos\BRFS3.SA_20250330.csv
Arquivo limpo salvo em: dados\limpos\BRFS3.SA_20250330_limpo.csv
Processando arquivo: dados/brutos\COGN3.SA_20250330.csv
Arquivo limpo salvo em: dados\limpos\COGN3.SA_20250330_limpo.csv
Processando arquivo: dados/brutos\CYRE3.SA_20250330.csv
Arquivo limpo salvo em: dados\limpos\CYRE3.SA_20250330_limpo.csv
Processando arquivo: dados/brutos\EGIE3.SA_20250330.csv
Arquivo limpo salvo em: dados\limpos\EGIE3.SA_20250330_limpo.csv
Processando arquivo: dados/brutos\ITUB4.SA_20250330.csv
Arquivo limpo salvo em: dados\limpos\ITUB4.SA_20250330_limpo.csv
Processando arquivo: dados/brutos\JBSS3.SA_20250330.csv
Arquivo limpo salvo em: dados\limpos\JBSS3.SA_20250330_limpo.csv
Processando arquivo: dados/bruto