1 - IMPORT MAIN LIBRARIES AND CREATE GLOBAL VARIABLES

In [59]:
import pandas as pd
from datetime import datetime
import unicodedata

raw_path = '..\\Raw\\'
trusted_path = '..\\Trusted\\'

2.0 - Transform Bank Data -> Dataset Counts

In [29]:
# Get banks raw CSV data
df_trusted_banks = pd.read_csv(raw_path + 'banks_raw_data.csv', encoding='cp1252')
df_trusted_banks.count()

Unnamed: 0                                         892
Ano                                                892
Trimestre                                          892
Categoria                                          892
Tipo                                               892
CNPJ IF                                            892
Instituição financeira                             892
Índice                                             892
Quantidade de reclamações reguladas procedentes    892
Quantidade de reclamações reguladas - outras       892
Quantidade de reclamações não reguladas            892
Quantidade total de reclamações                    892
Quantidade total de clientes – CCS e SCR           892
Quantidade de clientes – CCS                       892
Quantidade de clientes – SCR                       892
Unnamed: 14                                          0
dtype: int64

2.1 - Transform Bank Data -> Fix Columns

In [30]:
# Drop blank column and rename unnamed column
df_trusted_banks.drop(df_trusted_banks.columns[15], axis=1, inplace=True)
df_trusted_banks.rename(columns={'Unnamed: 0': 'id'}, inplace=True)
df_trusted_banks.keys()

Index(['id', 'Ano', 'Trimestre', 'Categoria', 'Tipo', 'CNPJ IF',
       'Instituição financeira', 'Índice',
       'Quantidade de reclamações reguladas procedentes',
       'Quantidade de reclamações reguladas - outras',
       'Quantidade de reclamações não reguladas',
       'Quantidade total de reclamações',
       'Quantidade total de clientes – CCS e SCR',
       'Quantidade de clientes – CCS', 'Quantidade de clientes – SCR'],
      dtype='object')

2.2 - Transform Bank Data -> Data Types

In [49]:
# Remove blank strings and convert numeric values
df_trusted_banks = df_trusted_banks.astype(str)
df_trusted_banks["Índice"] = df_trusted_banks["Índice"].str.strip().replace('', None)
df_trusted_banks["Quantidade de reclamações reguladas procedentes"] = df_trusted_banks["Quantidade de reclamações reguladas procedentes"].str.strip().replace('', None)
df_trusted_banks["Quantidade de reclamações reguladas - outras"] = df_trusted_banks["Quantidade de reclamações reguladas - outras"].str.strip().replace('', None)
df_trusted_banks["Quantidade de reclamações não reguladas"] = df_trusted_banks["Quantidade de reclamações não reguladas"].str.strip().replace('', None)
df_trusted_banks["Quantidade total de reclamações"] = df_trusted_banks["Quantidade total de reclamações"].str.strip().replace('', None)
df_trusted_banks["Quantidade total de clientes – CCS e SCR"] = df_trusted_banks["Quantidade total de clientes – CCS e SCR"].str.strip().replace('', None)
df_trusted_banks["Quantidade de clientes – CCS"] = df_trusted_banks["Quantidade de clientes – CCS"].str.strip().replace('', None)
df_trusted_banks["Quantidade de clientes – SCR"] = df_trusted_banks["Quantidade de clientes – SCR"].str.strip().replace('', None)

df_trusted_banks = df_trusted_banks.astype({
    'id': int,
    'Ano': int,
    'Trimestre': str,
    'Categoria': str,
    'Tipo': str,
    'CNPJ IF': str,
    'Instituição financeira': str,
    'Índice': str,
    'Quantidade de reclamações reguladas procedentes': int,
    'Quantidade de reclamações reguladas - outras': int,
    'Quantidade de reclamações não reguladas': int,
    'Quantidade total de reclamações': int,
    'Quantidade total de clientes – CCS e SCR': int,
    'Quantidade de clientes – CCS': int, 
    'Quantidade de clientes – SCR': int
})

df_trusted_banks.info()     

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 892 entries, 0 to 891
Data columns (total 15 columns):
 #   Column                                           Non-Null Count  Dtype 
---  ------                                           --------------  ----- 
 0   id                                               892 non-null    int32 
 1   Ano                                              892 non-null    int32 
 2   Trimestre                                        892 non-null    object
 3   Categoria                                        892 non-null    object
 4   Tipo                                             892 non-null    object
 5   CNPJ IF                                          892 non-null    object
 6   Instituição financeira                           892 non-null    object
 7   Índice                                           892 non-null    object
 8   Quantidade de reclamações reguladas procedentes  892 non-null    int32 
 9   Quantidade de reclamações reguladas - outra

2.3 - Transform Bank Data -> Load to trusted

In [51]:
# Load data to trusted path
df_trusted_banks.to_csv(trusted_path + 'banks.csv', encoding='cp1252')

3.0 - Transform Taxes Data -> Dataset Counts

In [72]:
# Get taxes raw CSV data
df_trusted_taxes = pd.read_csv(raw_path + 'taxes_raw_data.csv', encoding='cp1252')
df_trusted_taxes.count()

Unnamed: 0       9744
CodigoServico    9744
Servico          9744
Unidade          9744
DataVigencia     9744
ValorMaximo      9744
TipoValor        9744
Periodicidade    9744
CNPJ             9744
dtype: int64

3.1 - Transform Taxes Data -> Fix Columns

In [73]:
# Rename unnamed column 
df_trusted_taxes.rename(columns={'Unnamed: 0': 'id'}, inplace=True)
df_trusted_taxes.keys()

Index(['id', 'CodigoServico', 'Servico', 'Unidade', 'DataVigencia',
       'ValorMaximo', 'TipoValor', 'Periodicidade', 'CNPJ'],
      dtype='object')

3.2 - Transform Taxes Data -> Data Types

In [79]:
# Fix encoding and data ypes
df_trusted_taxes = df_trusted_taxes.astype(str)
df_trusted_taxes['Unidade'] = df_trusted_taxes['Unidade'].str.normalize('NFKD').str.encode('ascii','ignore').str.decode('ascii','ignore').str.lower()

df_trusted_taxes = df_trusted_taxes.astype({
    'id': int,
    'CodigoServico': int,
    'Servico': str,
    'Unidade': str,
    'DataVigencia': str,
    'ValorMaximo': float,
    'TipoValor': str,
    'Periodicidade': str,
    'CNPJ': str
})
df_trusted_taxes.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9744 entries, 0 to 9743
Data columns (total 9 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   id             9744 non-null   int32  
 1   CodigoServico  9744 non-null   int32  
 2   Servico        9744 non-null   object 
 3   Unidade        9744 non-null   object 
 4   DataVigencia   9744 non-null   object 
 5   ValorMaximo    9744 non-null   float64
 6   TipoValor      9744 non-null   object 
 7   Periodicidade  9744 non-null   object 
 8   CNPJ           9744 non-null   object 
dtypes: float64(1), int32(2), object(6)
memory usage: 609.1+ KB


3.3 - Transform Taxes Data -> Load to trusted

In [80]:
# Load data to trusted path
df_trusted_taxes.to_csv(trusted_path + 'taxes.csv', encoding='cp1252')