In [158]:
import pandas as pd

### Cambiando nombre de las columnas, y removiendo registros duplicados

In [159]:
transacciones = pd.read_csv("provided_datasets\desafiocripto_transacciones.csv", sep = ';', low_memory = False)
transacciones.drop(columns = ['pay_id', 'SIT_SITE_ID', 'CRIPTO_QUOTE_PROVIDER_NAME', 'CRIPTO_TRX_FEE_CURRENCY', 'PAY_METHOD_OW_ID', 'PAY_OPERATION_TYPE_ID', 'PAY_STATUS_DETAIL_CODE', 'PAY_STATUS_ID'], inplace = True)
transacciones.columns = ['trx_id', 'cust_id', 'cripto_market', 'cripto_trx_created_at', 'crypto_trx_from_currency', 'cripto_trx_status', 'cripto_trx_status_detail', 'cripto_trx_to_currency', 'cripto_trx_type', 'cripto_trx_updated_at', 'cripto_trx_expires_at', 'cripto_exchange_rate', 'cripto_trx_fee_amount', 'cripto_trx_from_amount', 'cripto_trx_to_amount', 'cripto_trx_total_amount']

In [160]:
## replace commas with dots for every numeric column
for col in transacciones.columns:

    if transacciones[col].dtype == 'O':
        transacciones[col] = transacciones[col].str.replace(',', '.')

In [161]:
# se lee el csv de cuentas
cuentas = pd.read_csv("provided_datasets\desafiocripto_cuentas.csv", sep = ";")
# see cambia el nombre de las columnas para que sean mas legibles
cuentas.columns = ["cust_id", "cripto_acc_status", "cripto_acc_created_at"]
# se eliminar las filas con registros duplicados (el cust_id es único)
cuentas.drop_duplicates(subset=['cust_id'], keep = 'last', inplace = True)

In [162]:
# se lee el csv de estados de los clientes (provincias de brasil)
estados = pd.read_csv("provided_datasets\desafiocripto_usuarios.csv", sep = ";")
estados.columns = ["cust_id", "cust_sex", "cus_province", "cust_member_since"]

#### Se hace un merge de ambos dataframes

In [163]:
customers = cuentas.merge(estados, on = "cust_id", how = "left")

#### Se hacen cambios para mayor legibilidad del dataframe

In [164]:
gender_dictionary = {"M": "male" ,"N": "unspecified", "F": "female"}

In [165]:
customers["cust_sex"] = customers["cust_sex"].map(gender_dictionary)

In [166]:
diccionario_estados = {'BR-PR': 'Paraná', 'BR-MG': 'Minas Gerais', 'BR-SP': 'São Paulo', 'BR-BA': 'Bahia', 'BR-RN': 'Rio Grande do Norte', 'BR-DF': 'Distrito Federal',
 'BR-AM': 'Amazonas', 'BR-ES': 'Espírito Santo', 'BR-MA': 'Maranhão', 'BR-GO': 'Goiás', 'BR-RJ': 'Rio de Janeiro', 'BR-TO': 'Tocantins',
 'BR-MT': 'Mato Grosso', 'BR-MS': 'Mato Grosso do Sul', 'BR-SC': 'Santa Catarina', 'BR-RS': 'Rio Grande do Sul', 'BR-PE': 'Pernambuco', 'BR-PB': 'Paraíba', 
 'BR-CE': 'Ceará', 'BR-PI': 'Piauí', 'BR-SE': 'Sergipe', 'BR-AL': 'Alagoas', 'BR-AP': 'Amapá', 'BR-AC': 'Acre', 'BR-RO': 'Rondônia', 'BR-RR': 'Roraima', 'BR-PA': 'Pará'}

In [167]:
customers["cus_province"] = customers["cus_province"].replace(diccionario_estados)
customers["cus_province"] = customers["cus_province"].str.lower()

In [179]:
customers["cus_country"] = "BRA"
customers.loc[(~customers["cus_province"].isin([x.lower() for x in diccionario_estados.values()])) & (~customers["cus_province"].isnull()), "cus_country"] = "OTHER"
customers.loc[customers["cus_province"].isnull(), "cus_country"] = "UNDEFINED"


### Cambios a Estado Cuentas

In [169]:
estado_cuentas = pd.read_csv("provided_datasets\desafiocripto_cuentas.csv", sep = ";")

In [170]:
estado_cuentas.columns = ["cust_id", "cripto_acc_status", "cripto_acc_created_at"]

#### Se exporta la base de datos final

In [180]:
customers.to_csv("clean_datasets\\customers.csv", sep = ";", index = False)
transacciones.to_csv("clean_datasets\\transacciones.csv", sep = ";", index = False, decimal = ",")
estado_cuentas.to_csv("clean_datasets\\estado_cuentas.csv", sep = ";", index = False)

In [181]:
customers = pd.read_csv("clean_datasets\\customers.csv", sep = ";")