In [1]:
import pandas as pd
import glob
import os

Setando arquivos, lendo e concatenando todos em um único DataFrame

In [25]:
arquivos_csv = glob.glob("../data/transacoes_cartoes_*.csv")

if not arquivos_csv:
    raise FileNotFoundError("Nenhum arquivo CSV encontrado no caminho especificado!")

df_lista = []
for arquivo in arquivos_csv:
    try:
        df_temp = pd.read_csv(arquivo)
        if not df_temp.empty:
            df_lista.append(df_temp)
        else:
            print(f"⚠️ Arquivo vazio ignorado: {arquivo}")
    except pd.errors.EmptyDataError:
        print(f"⚠️ Arquivo com erro ignorado: {arquivo}")

if not df_lista:
    raise ValueError("Nenhum CSV válido encontrado para concatenar.")

dados_df = pd.concat(df_lista, ignore_index=True)

print(f"\n✅ Arquivos carregados: {len(df_lista)}")
print(dados_df.head())



✅ Arquivos carregados: 10
   trimestre      nomeBandeira nomeFuncao modalidade  qtdCartoesEmitidos  \
0      20231              VISA     Débito       Puro              739765   
1      20251  American Express    Crédito       Puro              302476   
2      20232        MasterCard    Crédito    Híbrido                4131   
3      20242               Elo    Crédito       Puro             3137258   
4      20242               Elo    Crédito       Puro               28306   

   qtdCartoesAtivos  
0            404801  
1            228566  
2              3397  
3           1933287  
4             11255  


Verificando valores nulos e vendo tipo de dados

In [13]:
print("🔎 Valores nulos por coluna:")
print(dados_df.isnull().sum())


print("\n🔎 Tipos de dados:")
print(dados_df.dtypes)

🔎 Valores nulos por coluna:
trimestre             0
nomeBandeira          0
nomeFuncao            0
modalidade            0
qtdCartoesEmitidos    0
qtdCartoesAtivos      0
dtype: int64

🔎 Tipos de dados:
trimestre              int64
nomeBandeira          object
nomeFuncao            object
modalidade            object
qtdCartoesEmitidos     int64
qtdCartoesAtivos       int64
dtype: object


Renomeando Colunas e salvando nova versão como um novo csv

In [24]:
# Caminho para os CSVs
arquivos_csv = glob.glob("../data/transacoes_cartoes_*.csv")

# Carrega e concatena todos
df = pd.concat([pd.read_csv(arq) for arq in arquivos_csv], ignore_index=True)

# Renomeia colunas
df_tratado = df.rename(columns={
    "trimestre": "Trimestre",
    "nomeBandeira": "Bandeira",
    "nomeFuncao": "Funcao",
    "modalidade": "Modalidade",
    "qtdCartoesEmitidos": "qtd_emitidos",
    "qtdCartoesAtivos": "qtd_ativos"
})

# Garante que a pasta de saída existe
os.makedirs("../outputs", exist_ok=True)

# Salva o arquivo tratado
df_tratado.to_csv("../outputs/cartoes_tratados.csv", index=False, encoding="utf-8-sig")

print(f"Arquivo tratado salvo em: ../outputs/cartoes_tratados.csv")
print(df_tratado.head())

Arquivo tratado salvo em: ../outputs/cartoes_tratados.csv
   Trimestre          Bandeira   Funcao Modalidade  qtd_emitidos  qtd_ativos
0      20231              VISA   Débito       Puro        739765      404801
1      20251  American Express  Crédito       Puro        302476      228566
2      20232        MasterCard  Crédito    Híbrido          4131        3397
3      20242               Elo  Crédito       Puro       3137258     1933287
4      20242               Elo  Crédito       Puro         28306       11255


Converte para numérico caso o dado venha como string

In [20]:
if "qtd_emitidos" in dados_df.columns:
    dados_df["qtd_emitidos"] = pd.to_numeric(dados_df["qtd_emitidos"], errors="coerce")

if "qtd_ativos" in dados_df.columns:
    dados_df["qtd_ativos"] = pd.to_numeric(dados_df["qtd_ativos"], errors="coerce")


Salvando dados como json já consolidados e tratados

In [21]:
df_tratado.to_csv("../outputs/cartoes_tratados.csv", index=False, encoding="utf-8-sig")
df_tratado.to_json("../outputs/cartoes_tratados.json", orient="records", force_ascii=False, indent=4)

df_tratado.head()

Unnamed: 0,Trimestre,Bandeira,Funcao,Modalidade,qtd_emitidos,qtd_ativos
0,20231,VISA,Débito,Puro,739765,404801
1,20251,American Express,Crédito,Puro,302476,228566
2,20232,MasterCard,Crédito,Híbrido,4131,3397
3,20242,Elo,Crédito,Puro,3137258,1933287
4,20242,Elo,Crédito,Puro,28306,11255


Conferindo os dados tratados

In [22]:
print("Colunas do dataset tratado:")
print(df_tratado.columns.tolist())

Colunas do dataset tratado:
['Trimestre', 'Bandeira', 'Funcao', 'Modalidade', 'qtd_emitidos', 'qtd_ativos']


In [23]:
df_tratado.head()

Unnamed: 0,Trimestre,Bandeira,Funcao,Modalidade,qtd_emitidos,qtd_ativos
0,20231,VISA,Débito,Puro,739765,404801
1,20251,American Express,Crédito,Puro,302476,228566
2,20232,MasterCard,Crédito,Híbrido,4131,3397
3,20242,Elo,Crédito,Puro,3137258,1933287
4,20242,Elo,Crédito,Puro,28306,11255
