In [1]:
import pandas as pd
import glob
import os


#### Setando arquivos, lendo e concatenando todos em um √∫nico DataFrame

In [2]:
arquivos_csv = glob.glob("../data/transacoes_cartoes_*.csv")

df_lista = [pd.read_csv(arquivo) for arquivo in arquivos_csv]
dados_df = pd.concat(df_lista, ignore_index=True)

print(f"Arquivos carregados: {len(arquivos_csv)}")
dados_df.head()


Arquivos carregados: 10


Unnamed: 0,trimestre,nomeBandeira,nomeFuncao,modalidade,qtdCartoesEmitidos,qtdCartoesAtivos
0,20231.0,VISA,D√©bito,Puro,739765,404801
1,20251.0,American Express,Cr√©dito,Puro,302476,228566
2,20232.0,MasterCard,Cr√©dito,H√≠brido,4131,3397
3,20242.0,Elo,Cr√©dito,Puro,3137258,1933287
4,20242.0,Elo,Cr√©dito,Puro,28306,11255


#### Verificando valores nulos e vendo tipo de dados

In [3]:

print("üîé Valores nulos por coluna:")
print(dados_df.isnull().sum())


print("\nüîé Tipos de dados:")
print(dados_df.dtypes)


üîé Valores nulos por coluna:
trimestre             100
nomeBandeira            0
nomeFuncao              0
modalidade              0
qtdCartoesEmitidos      0
qtdCartoesAtivos        0
dtype: int64

üîé Tipos de dados:
trimestre             float64
nomeBandeira           object
nomeFuncao             object
modalidade             object
qtdCartoesEmitidos      int64
qtdCartoesAtivos        int64
dtype: object


#### Renomeando Colunas e salvando nova vers√£o como um novo csv

In [34]:
df = pd.read_csv("../data/transacoes_cartoes_2023.csv")

df_tratado = df.rename(columns={
    "trimestre": "Trimestre",
    "nomeBandeira": "Bandeira",
    "nomeFuncao": "Funcao",
    "modalidade": "Modalidade",
    "qtdCartoesEmitidos": "qtd_emitidos",
    "qtdCartoesAtivos": "qtd_ativos"
})

df_tratado.to_csv("../outputs/cartoes_tratados.csv", index=False, encoding="utf-8-sig")

df_tratado.head()

Unnamed: 0,Bandeira,Funcao,Modalidade,qtd_emitidos,qtd_ativos
0,VISA,D√©bito,Puro,739765,404801
1,MasterCard,Cr√©dito,Puro,983369,771386
2,MasterCard,Cr√©dito,Puro,13454781,5296965
3,VISA,D√©bito,Puro,1017551,525736
4,Elo,Cr√©dito,Puro,28306,11255


#### Converte para num√©rico caso o dado venha como string 

In [6]:
dados_df["qtd_emitidos"] = pd.to_numeric(dados_df["qtd_emitidos"], errors="coerce")
dados_df["qtd_ativos"] = pd.to_numeric(dados_df["qtd_ativos"], errors="coerce")


#### Salvando dados como json j√° consolidados e tratados

In [38]:
df_tratado.to_csv("../outputs/cartoes_tratados.csv", index=False, encoding="utf-8-sig")
df_tratado.to_json("../outputs/cartoes_tratados.json", orient="records", force_ascii=False, indent=4)

df_tratado.head()

Unnamed: 0,Bandeira,Funcao,Modalidade,qtd_emitidos,qtd_ativos
0,VISA,D√©bito,Puro,739765,404801
1,MasterCard,Cr√©dito,Puro,983369,771386
2,MasterCard,Cr√©dito,Puro,13454781,5296965
3,VISA,D√©bito,Puro,1017551,525736
4,Elo,Cr√©dito,Puro,28306,11255


#### Conferindo os dados tratados

In [41]:
print("Colunas do dataset tratado:")
print(df_tratado.columns.tolist())


Colunas do dataset tratado:
['Bandeira', 'Funcao', 'Modalidade', 'qtd_emitidos', 'qtd_ativos']


In [42]:
df_tratado.head()

Unnamed: 0,Bandeira,Funcao,Modalidade,qtd_emitidos,qtd_ativos
0,VISA,D√©bito,Puro,739765,404801
1,MasterCard,Cr√©dito,Puro,983369,771386
2,MasterCard,Cr√©dito,Puro,13454781,5296965
3,VISA,D√©bito,Puro,1017551,525736
4,Elo,Cr√©dito,Puro,28306,11255
