# Moedas uniformes

Será tratado o dataframe <code>banking</code>. Ele contem dados como :

* acc_amount - quantidade de dinheiro armazenada nas contas
* acc_cur - moeda 
* inv_amount - quantia investida
* accound_opened - data de abertuda da conta
* last_transaction - data da última transação realizada



In [19]:
# importando pandas
import pandas as pd

# carregando o arquivo csv
filename = 'banking_dirty.csv'
banking = pd.read_csv(filename)

# encontrando valores em euro
acct_eu = banking['acct_cur'] == 'euro'

# convertendo os valores em euro para dolar
banking.loc[acct_eu, 'acct_amount'] = banking.loc[acct_eu, 'acct_amount'] * 1.1

# unificando a coluna acct_cur alterando os valores 'euro' por 'dolar'
banking.loc[acct_eu, 'acct_cur'] = 'dollar'

# checando se dolar é a única moeda presente
assert banking['acct_cur'].unique() == 'dollar'

# Datas uniformes

Como os dados foram consolidados de diversas fontes, é necessário termos certeza que todas as datas estão no mesmo formato. Será tratada a coluna <code>account_opened</code>, sendo convertida para um objeto _datetime_ .

In [20]:
# imprimindo o header da coluna account_opend
print(banking['account_opened'].head())

# convertendo account_opened para datetime
banking['account_opened'] = pd.to_datetime(banking['account_opened'],
                                           # Infer datetime format
                                           infer_datetime_format = True,
                                           # Return missing value for error
                                           errors = 'coerce') 

# extraindo o ano de account opened
banking['acct_year'] = banking['account_opened'].dt.strftime('%Y')

# imprimindo acct_year
print(banking['acct_year'])

0    02-09-18
1    28-02-19
2    25-04-18
3    07-11-17
4    14-05-18
Name: account_opened, dtype: object
0     2018
1     2019
2     2018
3     2017
4     2018
      ... 
95    2018
96    2017
97    2017
98    2017
99    2017
Name: acct_year, Length: 100, dtype: object


# Como está a integridade dos dados?

No dataframe foram inseridas colunas com investimentos em quatro fundos : A, B, C e D. O total destas colunas deve ser o mesmo que o contido em <code>inv_amount</code>. Além disso, é desejado saber como cada perfil de cliente, classificado em faixas etárias, investe. No entanto devemos antes checar se o campo idade está corretamente preenchido.

In [21]:
# armazenando as colunas dos fundos para fazer a soma
fund_columns = ['fund_A', 'fund_B', 'fund_C', 'fund_D']

# encontrando linhas em que a somafund_columns  == inv_amount
inv_equ = banking[fund_columns].sum(axis=1) == banking['inv_amount']

# armazenando dados consistentes e inconsistentes
consistent_inv = banking[inv_equ]
inconsistent_inv = banking[~inv_equ]

# imprimindo o número de linhas inconsistentes
print("Number of inconsistent investments: ", inconsistent_inv.shape[0])


Number of inconsistent investments:  13


In [22]:
# importando biblioteca datetime
import datetime as dt

# armazenando a data atual e calculando as idades
# como o arquivo utilizado é de 2020, foi subtraído 3 do valor do ano no cálculo de ages_manual
today = dt.date.today()
banking['birth_date'] = pd.to_datetime(banking['birth_date'])
ages_manual = (today.year -3 ) - banking['birth_date'].dt.year

# encontrando as linhas em que age column == ages_manual
age_equ = banking['Age'] == ages_manual

# armazenando dados consistentes e inconsistentes
consistent_ages = banking[age_equ]
inconsistent_ages = banking[~age_equ]

# imprimindo o número de linhas com idades inconsistentes
print("Number of inconsistent ages: ", inconsistent_ages.shape[0])

Number of inconsistent ages:  8
