In [17]:
# CSV TO PARQUET


import pandas as pd
import os

# Caminhos de entrada e saída
caminho_csv = 'C:\\AFL_GABRIEL\\csv_parser\\Diretos\\csv\\sis'
caminho_parquet = 'C:\\AFL_GABRIEL\\csv_parser\\Diretos\\parquet\\sis'

# Nome do arquivo final Parquet
nome_arquivo_parquet = 'Hope.parquet'
caminho_arquivo_parquet = os.path.join(caminho_parquet, nome_arquivo_parquet)

# Criar o diretório de saída, se necessário
os.makedirs(caminho_parquet, exist_ok=True)

# Lista para armazenar os DataFrames
lista_dfs = []

# Iterar sobre os arquivos CSV
for arquivo in os.listdir(caminho_csv):
    if arquivo.endswith('.csv'):
        caminho_arquivo = os.path.join(caminho_csv, arquivo)

        try:
            df = pd.read_csv(caminho_arquivo, delimiter="|", dtype=str)
            if not df.empty:
                lista_dfs.append(df)
                print(f'Lido: {arquivo} com {df.shape[0]} linhas')
            else:
                print(f'Ignorado (vazio): {arquivo}')
        except Exception as e:
            print(f'Erro ao ler {arquivo}: {e}')

# Verifica se há dados para salvar
if lista_dfs:
    df_final = pd.concat(lista_dfs, ignore_index=True)
    try:
        df_final.to_parquet(caminho_arquivo_parquet, index=False)
        print(f'Dados salvos em: {caminho_arquivo_parquet} ({df_final.shape[0]} linhas)')
    except Exception as e:
        print(f'Erro ao salvar o arquivo Parquet: {e}')
else:
    print('Nenhum dado válido encontrado. Nenhum arquivo Parquet foi criado.')

print('Conversão concluída!')


Lido: ECD - I050, I155 - Hope.csv com 33716 linhas
Dados salvos em: C:\AFL_GABRIEL\csv_parser\Diretos\parquet\sis\Hope.parquet (33716 linhas)
Conversão concluída!


In [31]:
import pandas as pd
import pyperclip
import re

# Caminho do arquivo Parquet
caminho_parquet = 'C:\\AFL_GABRIEL\\csv_parser\\Diretos\\parquet\\sis'

# Lista de palavras-chave que indicam colunas de valor
palavras_chave = [
    "Vlr", "Valor", "vlr", "valor", "Vr", "vr", 
    "base", "Base", "Salário", "Salario", "salário", 
    "salario", "Provento", "provento", "Desconto", "desconto", 
    "diferenca", "Diferenca", "diferença", "Diferença"
]

# Função robusta para converter string em float
def extrair_float(valor):
    try:
        if pd.isna(valor):
            return 0.0
        valor = str(valor).strip().replace('\xa0', '')
        valor = re.sub(r'[^\d,.\-]', '', valor)  # Mantém apenas números, vírgula, ponto e sinal
        valor = valor.replace('.', '')  # Remove milhar
        valor = valor.replace(',', '.')  # Converte decimal
        if valor in ['', '-', '.', '-.']:
            return 0.0
        return float(valor)
    except:
        print(f"[ERRO] Valor inválido: {valor}")
        return 0.0

# Lê o arquivo Parquet
df = pd.read_parquet(caminho_parquet)

# FILTRO POR ANO
# if "Período" in df.columns:
#     df["Ano"] = (
#         df["Período"]
#         .astype(str)
#         .str.extract(r'(\d{4})')[0]
#         .astype(float)
#         .astype("Int64")
#     )
#     df = df[~df["Ano"].isin([2021])]

# Informações iniciais
num_linhas, num_colunas = df.shape
resultado = f"🔹 Total de Linhas: {num_linhas}\n🔹 Total de Colunas: {num_colunas}\n\n📊 Detalhes das Colunas:\n"

# Loop em todas as colunas
for coluna in df.columns:
    if coluna == "Ano":
        continue  # pula a coluna auxiliar "Ano"
    
    linhas_preenchidas = df[coluna].count()
    eh_coluna_valor = any(palavra.lower() in coluna.lower() for palavra in palavras_chave)

    if eh_coluna_valor:
        df[coluna + "_convertido"] = df[coluna].apply(extrair_float)
        soma_valores = df[coluna + "_convertido"].sum()
        valor_formatado = f"{soma_valores:,.2f}".replace(",", "X").replace(".", ",").replace("X", ".")

        resultado += f"\n📌 Coluna: {coluna} (Valor)\n"
        resultado += f"   🔹 Linhas Preenchidas: {linhas_preenchidas}\n"
        resultado += f"   🔹 Soma Total: R$ {valor_formatado}\n"
    else:
        resultado += f"\n📌 Coluna: {coluna}\n"
        resultado += f"   🔹 Linhas Preenchidas: {linhas_preenchidas}\n"

# Copia o resultado para a área de transferência
pyperclip.copy(resultado)

# Exibe o resultado
print("\n✅ Resultado copiado para a área de transferência!\n")


[ERRO] Valor inválido: 5.820766091346741-11
[ERRO] Valor inválido: 5.820766091346741-11
[ERRO] Valor inválido: 2.9103830456733704-11
[ERRO] Valor inválido: 5.820766091346741-11
[ERRO] Valor inválido: 2.9103830456733704-11
[ERRO] Valor inválido: 5.820766091346741-11
[ERRO] Valor inválido: 2.9103830456733704-11
[ERRO] Valor inválido: 5.820766091346741-11
[ERRO] Valor inválido: 2.9103830456733704-11
[ERRO] Valor inválido: 5.820766091346741-11
[ERRO] Valor inválido: 5.820766091346741-11
[ERRO] Valor inválido: 5.820766091346741-11
[ERRO] Valor inválido: 2.9103830456733704-11
[ERRO] Valor inválido: 5.820766091346741-11
[ERRO] Valor inválido: 5.820766091346741-11
[ERRO] Valor inválido: 5.820766091346741-11
[ERRO] Valor inválido: 5.820766091346741-11
[ERRO] Valor inválido: 2.9103830456733704-11
[ERRO] Valor inválido: 2.9103830456733704-11
[ERRO] Valor inválido: 1.862645149230957-09
[ERRO] Valor inválido: 1.862645149230957-09
[ERRO] Valor inválido: 5.820766091346741-11
[ERRO] Valor inválido: 5.