### Estudo de Caso 1: Limpeza e Preparação de um dataset

In [183]:
#Versão do Python:
from platform import python_version
print("A versão do Python usada é ", python_version())

A versão do Python usada é  3.9.12


In [184]:
# Importações

import numpy as np

In [185]:
import warnings

warnings.filterwarnings('ignore')

In [186]:
# Configuração de impressão do numpy:

np.set_printoptions(suppress = True, linewidth = 200, precision = 2)

In [187]:
#Carregando os dados:

dados = np.genfromtxt('dataset1.csv',
                     delimiter = ';',
                     skip_header = 1,
                     autostrip = True,
                     encoding = 'cp1252')

In [188]:
type(dados)

numpy.ndarray

In [189]:
dados.shape

(10000, 14)

In [190]:
dados.view()

array([[48010226.  ,         nan,    35000.  , ...,         nan,         nan,     9452.96],
       [57693261.  ,         nan,    30000.  , ...,         nan,         nan,     4679.7 ],
       [59432726.  ,         nan,    15000.  , ...,         nan,         nan,     1969.83],
       ...,
       [50415990.  ,         nan,    10000.  , ...,         nan,         nan,     2185.64],
       [46154151.  ,         nan,         nan, ...,         nan,         nan,     3199.4 ],
       [66055249.  ,         nan,    10000.  , ...,         nan,         nan,      301.9 ]])

In [191]:
# Podemos observar que o numpy conseguiu carregar as colunas numéricas mas falhou em carrregar as do tipo string.
# O Numpy carrega tanto dados numéricos como do tipo string, porém o dataset possui vários tipos de caracteres 
# que o Numpy não conseguiu identificar logo ele considerou como nan.

In [192]:
# Verificando a quantidade de números ausentes:
np.isnan(dados).sum()

88005

In [193]:
#Resolvendo:

# Pegar o maior valor numérico do dataset e somar + 1.

# Usar esse valor para preencher valores nan na hora da carga das variáveis numéricas.

# Depois da carga tratar esse valor como valor ausente.

maior_valor_mais_um = np.nanmax(dados) + 1

In [194]:
# Calculando a média das colunas numéricas ignorando os valores nan.

# Vamos usar isso para separa variáveis numéricas de strings.

media_sem_nan = np.nanmean(dados, axis = 0) # axis = 0 significa pegar as médias por colunas
print(media_sem_nan)

[54015809.19         nan    15273.46         nan    15311.04         nan       16.62      440.92         nan         nan         nan         nan         nan     3143.85]


In [195]:
# Agora podemos separar as colunas strings das colunas numéricas. 

# O mais interessante que não há strings no dataset, mas usaremos o media_sem_nan para marcar os valores string

cols_strings = np.argwhere(np.isnan(media_sem_nan)).squeeze() #squeeze para colocar tudo em um array.
cols_strings

array([ 1,  3,  5,  8,  9, 10, 11, 12])

In [196]:
#Colunas numéricas

cols_num = np.argwhere(np.isnan(media_sem_nan)== False).squeeze()
cols_num

array([ 0,  2,  4,  6,  7, 13])

In [197]:
# Importando novamente os dados mas separando colunas numéricas de strings:

arr_string = np.genfromtxt('dataset1.csv',
                     delimiter = ';',
                     skip_header = 1,
                     usecols = cols_strings,
                     dtype = str,
                     autostrip = True,
                     encoding = 'cp1252')

In [198]:
arr_string 

array([['May-15', 'Current', '36 months', ..., 'Verified', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=48010226', 'CA'],
       ['', 'Current', '36 months', ..., 'Source Verified', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=57693261', 'NY'],
       ['Sep-15', 'Current', '36 months', ..., 'Verified', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=59432726', 'PA'],
       ...,
       ['Jun-15', 'Current', '36 months', ..., 'Source Verified', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=50415990', 'CA'],
       ['Apr-15', 'Current', '36 months', ..., 'Source Verified', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=46154151', 'OH'],
       ['Dec-15', 'Current', '36 months', ..., '', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=66055249', 'IL']], dtype='<U69')

In [199]:
arr_num = np.genfromtxt('dataset1.csv',
                     delimiter = ';',
                     skip_header = 1,
                     usecols = cols_num,
                     filling_values = maior_valor_mais_um,
                     autostrip = True,
                     encoding = 'cp1252')

In [200]:
arr_num

array([[48010226.  ,    35000.  ,    35000.  ,       13.33,     1184.86,     9452.96],
       [57693261.  ,    30000.  ,    30000.  , 68616520.  ,      938.57,     4679.7 ],
       [59432726.  ,    15000.  ,    15000.  , 68616520.  ,      494.86,     1969.83],
       ...,
       [50415990.  ,    10000.  ,    10000.  , 68616520.  , 68616520.  ,     2185.64],
       [46154151.  , 68616520.  ,    10000.  ,       16.55,      354.3 ,     3199.4 ],
       [66055249.  ,    10000.  ,    10000.  , 68616520.  ,      309.97,      301.9 ]])

In [201]:
# Criando um array com os nomes das colunas:

arr_col_nomes = np.genfromtxt('dataset1.csv',
                     delimiter = ';',
                     autostrip = True,
                     skip_footer = dados.shape[0],
                     dtype = str, 
                     encoding = 'cp1252')

In [202]:
#Separando os nomes das colunas string e numéricas:

header_string, header_num = arr_col_nomes[cols_strings], arr_col_nomes[cols_num]

In [203]:
header_string

array(['issue_d', 'loan_status', 'term', 'grade', 'sub_grade', 'verification_status', 'url', 'addr_state'], dtype='<U19')

In [204]:
header_num

array(['id', 'loan_amnt', 'funded_amnt', 'int_rate', 'installment', 'total_pymnt'], dtype='<U19')

### Função Checkpoint

In [205]:
# Criação de uma função de checkpoint para salvar os resultados intermédiários.

def checkpoint(file_name, checkpoint_header, checkpoint_data):
    
    np.savez(file_name, header = checkpoint_header, data = checkpoint_data)
    checkpoint_variable = np.load(file_name + ".npz")
    return(checkpoint_variable)

In [206]:
checkpoint_inicial = checkpoint("Checkpoint_inicial", header_string, arr_string)

In [207]:
checkpoint_inicial['data']

array([['May-15', 'Current', '36 months', ..., 'Verified', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=48010226', 'CA'],
       ['', 'Current', '36 months', ..., 'Source Verified', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=57693261', 'NY'],
       ['Sep-15', 'Current', '36 months', ..., 'Verified', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=59432726', 'PA'],
       ...,
       ['Jun-15', 'Current', '36 months', ..., 'Source Verified', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=50415990', 'CA'],
       ['Apr-15', 'Current', '36 months', ..., 'Source Verified', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=46154151', 'OH'],
       ['Dec-15', 'Current', '36 months', ..., '', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=66055249', 'IL']], dtype='<U69')

### Manipulação de Variáveis Categóricas

In [208]:
# Colunas categoricas
header_string

array(['issue_d', 'loan_status', 'term', 'grade', 'sub_grade', 'verification_status', 'url', 'addr_state'], dtype='<U19')

In [209]:
#Mudando o nome da coluna 'issue_d'
header_string[0] = 'issue_date'; header_string

array(['issue_date', 'loan_status', 'term', 'grade', 'sub_grade', 'verification_status', 'url', 'addr_state'], dtype='<U19')

In [210]:
# Pré processando a variável 'issue_date':

np.unique(arr_string[:,0])

array(['', 'Apr-15', 'Aug-15', 'Dec-15', 'Feb-15', 'Jan-15', 'Jul-15', 'Jun-15', 'Mar-15', 'May-15', 'Nov-15', 'Oct-15', 'Sep-15'], dtype='<U69')

In [211]:
# Removendo o sufixo '-15'
arr_string[:, 0] = np.chararray.strip(arr_string[:,0], '-15'); np.unique(arr_string[:, 0])

array(['', 'Apr', 'Aug', 'Dec', 'Feb', 'Jan', 'Jul', 'Jun', 'Mar', 'May', 'Nov', 'Oct', 'Sep'], dtype='<U69')

In [212]:
# Array com os meses + o valor faltante:
meses = np.array(['', 'Jan', 'Feb', 'Mar', 'Apr', 'May', 'Jun', 'Jul', 'Aug', 'Sep', 'Oct', 'Nov', 'Dec'])

In [213]:
#Label encoding: Converter uma variável numérica categórica para sua correspondente numérica sem perder informação.

for i in range(len(meses)):
    arr_string[:,0] = np.where(arr_string[:,0] == meses[i], i, arr_string[:,0])

In [214]:
np.unique(arr_string[:, 0])

array(['0', '1', '10', '11', '12', '2', '3', '4', '5', '6', '7', '8', '9'], dtype='<U69')

In [215]:
# Tratando a variável 'loan_status':
np.unique(arr_string[:,1])

array(['', 'Charged Off', 'Current', 'Default', 'Fully Paid', 'In Grace Period', 'Issued', 'Late (16-30 days)', 'Late (31-120 days)'], dtype='<U69')

In [216]:
#Número de variáveis:
np.unique(arr_string[:,1]).size

9

In [217]:
#Binarização: Neste casos criaremos uma lista de negativos, logo ou a variável loan_status' estará nessa categoria
# ou na outra
status_bad = np.array(['', 'Charged Off', 'Default', 'Late (31-120 days)'])

In [218]:
# Se um dos status estiver no array status_bad a observação recebe o valor 0, senão recebe 1
arr_string[:,1] = np.where(np.isin(arr_string[:,1], status_bad), 0,1)
np.unique(arr_string[:,1])

array(['0', '1'], dtype='<U69')

In [219]:
# Tratando a variável 'term':

#1) Extraindo os valores únicos:
np.unique(arr_string[:, 2])

array(['', '36 months', '60 months'], dtype='<U69')

In [220]:
#Removendo a palavra months e o espaço também !!

arr_string[:, 2] = np.chararray.strip(arr_string[:, 2], ' months'); np.unique(arr_string[:, 2])

array(['', '36', '60'], dtype='<U69')

In [221]:
#Renomeandoa variável:
header_string[2] ='term_months'

In [222]:
# Substituindo o valor ausente pelo maior valor da variável (neste caso 60):

arr_string[:, 2] = np.where(arr_string[:, 2] == '', '60', arr_string[:, 2]); np.unique(arr_string[:, 2])

array(['36', '60'], dtype='<U69')

In [223]:
# Ao analisar as variáveis 'grade' e 'sub_grade' nota-se uma similaridade. É provével que ambas tragam informações
#parecidas, checando:
np.unique(arr_string[:, 3])


array(['', 'A', 'B', 'C', 'D', 'E', 'F', 'G'], dtype='<U69')

In [224]:
np.unique(arr_string[:, 4])

array(['', 'A1', 'A2', 'A3', 'A4', 'A5', 'B1', 'B2', 'B3', 'B4', 'B5', 'C1', 'C2', 'C3', 'C4', 'C5', 'D1', 'D2', 'D3', 'D4', 'D5', 'E1', 'E2', 'E3', 'E4', 'E5', 'F1', 'F2', 'F3', 'F4', 'F5', 'G1',
       'G2', 'G3', 'G4', 'G5'], dtype='<U69')

In [225]:
# Observa-se que foi criada uma subcategoria pra cada categoria de risco.

# Uma decisão precisa ser tomada: qual variável deve ficar no dataset? 

# Podemos observar que a variável 'subgrade' tem mais informações sobre o tipo de risco. Logo a princípio essa variável
# ficará no dataset.

# Mas é a melhor decisão? 

# Com a informações que temos agora não há como saber. Talvez ao construir o modelo de ML poderemos chegar a 
#conclusão que a melhor variável para o modelo seria a 'grade'.



In [226]:
# Obtendo os valores únicos da variável grade excetuando o valor ausente:

np.unique(arr_string[:,3])[1:]

array(['A', 'B', 'C', 'D', 'E', 'F', 'G'], dtype='<U69')

In [227]:
# Ajustando a variável subgrade através de um loop:

for i in np.unique(arr_string[:,3])[1:]:
    arr_string[:,4] = np.where((arr_string[:,4] == '') & (arr_string[:,3]==i), i + '5', arr_string[:,4])

In [228]:
np.unique(arr_string[:,4], return_counts = True)

(array(['', 'A1', 'A2', 'A3', 'A4', 'A5', 'B1', 'B2', 'B3', 'B4', 'B5', 'C1', 'C2', 'C3', 'C4', 'C5', 'D1', 'D2', 'D3', 'D4', 'D5', 'E1', 'E2', 'E3', 'E4', 'E5', 'F1', 'F2', 'F3', 'F4', 'F5', 'G1',
        'G2', 'G3', 'G4', 'G5'], dtype='<U69'),
 array([  9, 285, 278, 239, 323, 592, 509, 517, 530, 553, 633, 629, 567, 586, 564, 577, 391, 267, 250, 255, 288, 235, 162, 171, 139, 160,  94,  52,  34,  43,  24,  19,  10,   3,   7,   5]))

In [229]:
#Substituindo o valor ausente por uma nova categoria:
arr_string[:,4] = np.where(arr_string[:,4] =='', 'H1', arr_string[:,4]); np.unique(arr_string[:,4])

array(['A1', 'A2', 'A3', 'A4', 'A5', 'B1', 'B2', 'B3', 'B4', 'B5', 'C1', 'C2', 'C3', 'C4', 'C5', 'D1', 'D2', 'D3', 'D4', 'D5', 'E1', 'E2', 'E3', 'E4', 'E5', 'F1', 'F2', 'F3', 'F4', 'F5', 'G1', 'G2',
       'G3', 'G4', 'G5', 'H1'], dtype='<U69')

In [230]:
# Agora podemos remover a variável grade:
arr_string = np.delete(arr_string, 3, axis = 1)

In [231]:
# Removendo também do header_string
header_string = np.delete(header_string, 3)

In [232]:
header_string

array(['issue_date', 'loan_status', 'term_months', 'sub_grade', 'verification_status', 'url', 'addr_state'], dtype='<U19')

In [233]:
# Ainda falta converter a variável subgrade para numérica
np.unique(arr_string[:,3])

array(['A1', 'A2', 'A3', 'A4', 'A5', 'B1', 'B2', 'B3', 'B4', 'B5', 'C1', 'C2', 'C3', 'C4', 'C5', 'D1', 'D2', 'D3', 'D4', 'D5', 'E1', 'E2', 'E3', 'E4', 'E5', 'F1', 'F2', 'F3', 'F4', 'F5', 'G1', 'G2',
       'G3', 'G4', 'G5', 'H1'], dtype='<U69')

In [234]:
#Criando um dicionário:

#1) Criando as chaves:
key = list(np.unique(arr_string[:,3]))
key[0]

'A1'

In [235]:
#2) Criando valores:

values = list(range(1, np.unique(arr_string[:,3]).shape[0] +1)) # np.unique(arr_string[:,3]).shape[0] é o número
#de linhas (36) ou seja vai de 1 a 37 (37 fica excluído)

In [236]:
values

[1,
 2,
 3,
 4,
 5,
 6,
 7,
 8,
 9,
 10,
 11,
 12,
 13,
 14,
 15,
 16,
 17,
 18,
 19,
 20,
 21,
 22,
 23,
 24,
 25,
 26,
 27,
 28,
 29,
 30,
 31,
 32,
 33,
 34,
 35,
 36]

In [237]:
#3) Construindo o dicionário:
dict_subgrade = dict(zip(key, values)); dict_subgrade

{'A1': 1,
 'A2': 2,
 'A3': 3,
 'A4': 4,
 'A5': 5,
 'B1': 6,
 'B2': 7,
 'B3': 8,
 'B4': 9,
 'B5': 10,
 'C1': 11,
 'C2': 12,
 'C3': 13,
 'C4': 14,
 'C5': 15,
 'D1': 16,
 'D2': 17,
 'D3': 18,
 'D4': 19,
 'D5': 20,
 'E1': 21,
 'E2': 22,
 'E3': 23,
 'E4': 24,
 'E5': 25,
 'F1': 26,
 'F2': 27,
 'F3': 28,
 'F4': 29,
 'F5': 30,
 'G1': 31,
 'G2': 32,
 'G3': 33,
 'G4': 34,
 'G5': 35,
 'H1': 36}

In [238]:
# Loop para fazer a conversão:

for i in np.unique(arr_string[:,3]):
    arr_string[:,3] = np.where(arr_string[:,3] ==i, dict_subgrade[i], arr_string[:,3])

In [239]:
np.unique(arr_string[:,3])

array(['1', '10', '11', '12', '13', '14', '15', '16', '17', '18', '19', '2', '20', '21', '22', '23', '24', '25', '26', '27', '28', '29', '3', '30', '31', '32', '33', '34', '35', '36', '4', '5', '6',
       '7', '8', '9'], dtype='<U69')

In [240]:
# Tratando a variável 'verification_status':

#Pegando os valores únicos:

np.unique(arr_string[:,4])

array(['', 'Not Verified', 'Source Verified', 'Verified'], dtype='<U69')

In [241]:
#Neste casos vamos assumir que 'Source Verified', 'Verified' são a mesma coisa e representam uma classe positiva.
# Logo podemos simplismente binarizar essa variáel.

arr_string[:,4] = np.where((arr_string[:,4] == '') | (arr_string[:,4] == 'Not Verified'), 0, 1)
# Neste caso o dado faltante entra como categoria negativa (0)

In [242]:
# Tratando a variável 'url'

#Pegando os valores únicos:

np.unique(arr_string[:,5])

array(['https://www.lendingclub.com/browse/loanDetail.action?loan_id=12606806', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=13026045',
       'https://www.lendingclub.com/browse/loanDetail.action?loan_id=1312426', ..., 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=8138291',
       'https://www.lendingclub.com/browse/loanDetail.action?loan_id=8214572', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=849994'], dtype='<U69')

In [243]:
# Podemos observar que temos um id (loan_id) em cada url.

#Observa-se que o que difere uma url de outra é extamente o id, portanto vamos extrair o id de cada url:

arr_string[:,5] = np.chararray.strip(arr_string[:,5], 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=')
np.unique(arr_string[:,5])

array(['12606806', '13026045', '1312426', ..., '8138291', '8214572', '849994'], dtype='<U69')

In [244]:
# Mudando o tipo para int32

arr_string[:,5].astype(dtype= np.int32)

array([48010226, 57693261, 59432726, ..., 50415990, 46154151, 66055249], dtype=int32)

In [245]:
# Pode-se observar que a coluna id (numérica) é exatamente igual ao id retirado da url.

# Podemos comparar:

arr_num[:,0].astype(dtype = np.int32) # convertendo para int32 primeiro!

array([48010226, 57693261, 59432726, ..., 50415990, 46154151, 66055249], dtype=int32)

In [246]:
np.array_equal(arr_num[:,0].astype(dtype = np.int32), arr_string[:,5].astype(dtype= np.int32))



True

In [247]:
# Confirmado!!

# Podemos remover uma das variáveis!

# Iremos deletar o id oriundo da url

arr_string = np.delete(arr_string, 5, axis=1)

In [248]:
# Removendo do header_string:

header_string = np.delete(header_string, 5)

In [249]:
# Nova variável de índice 5:
arr_string[:,5]

array(['CA', 'NY', 'PA', ..., 'CA', 'OH', 'IL'], dtype='<U69')

In [252]:
# Transformando a última variável categórica.

# variável addr_state

# Primeiro vamos mudar o nome da variável para ajudar no reconhecimento de seu significado.

header_string[5] = 'state_address'

In [253]:
# Extraindo os nomes e as contagens de cada estado
states_name, states_count = np.unique(arr_string[:,5], return_counts = True)

In [255]:
# Ordenando em ordem decrescente

state_count_sorted = np.argsort(-states_count)

In [257]:
#Imprimindo:

states_name[state_count_sorted], states_count[state_count_sorted]

(array(['CA', 'NY', 'TX', 'FL', '', 'IL', 'NJ', 'GA', 'PA', 'OH', 'MI', 'NC', 'VA', 'MD', 'AZ', 'WA', 'MA', 'CO', 'MO', 'MN', 'IN', 'WI', 'CT', 'TN', 'NV', 'AL', 'LA', 'OR', 'SC', 'KY', 'KS', 'OK',
        'UT', 'AR', 'MS', 'NH', 'NM', 'WV', 'HI', 'RI', 'MT', 'DE', 'DC', 'WY', 'AK', 'NE', 'SD', 'VT', 'ND', 'ME'], dtype='<U69'),
 array([1336,  777,  758,  690,  500,  389,  341,  321,  320,  312,  267,  261,  242,  222,  220,  216,  210,  201,  160,  156,  152,  148,  143,  143,  130,  119,  116,  108,  107,   84,   84,   83,
          74,   74,   61,   58,   57,   49,   44,   40,   28,   27,   27,   27,   26,   25,   24,   17,   16,   10]))

In [258]:
# Substituindo valores ausestes por zero

arr_string[:,5] = np.where(arr_string[:,5] == '', 0, arr_string[:,5])

In [259]:
# Uma questão interessante é se é mesmo necessário deixar no dataset o estado de cada cliente que pegar um 
#empréstimo.

#Neste estudo vamos separar por regiões do EUA. 

#Separando por regiões:

states_west = np.array(['WA', 'OR','CA','NV','ID','MT', 'WY','UT','CO', 'AZ','NM','HI','AK'])
states_south = np.array(['TX','OK','AR','LA','MS','AL','TN','KY','FL','GA','SC','NC','VA','WV','MD','DE','DC'])
states_midwest = np.array(['ND','SD','NE','KS','MN','IA','MO','WI','IL','IN','MI','OH'])
states_east = np.array(['PA','NY','NJ','CT','MA','VT','NH','ME','RI'])

In [260]:
# Substituindo o estado pelo id da região:

arr_string[:,5] = np.where(np.isin(arr_string[:,5], states_west), 1, arr_string[:,5])
arr_string[:,5] = np.where(np.isin(arr_string[:,5], states_south), 2, arr_string[:,5])
arr_string[:,5] = np.where(np.isin(arr_string[:,5], states_midwest), 3, arr_string[:,5])
arr_string[:,5] = np.where(np.isin(arr_string[:,5], states_east), 4, arr_string[:,5])

In [261]:
# Verificando os valores únicos
np.unique(arr_string[:,5])

array(['0', '1', '2', '3', '4'], dtype='<U69')

In [262]:
# Portanto transformamos os estados em 4 categorias númericas mais o valor ausente.

In [266]:
# Ajustando os dados do arr_string

arr_string

array([['5', '1', '36', '13', '1', '1'],
       ['0', '1', '36', '5', '1', '4'],
       ['9', '1', '36', '10', '1', '4'],
       ...,
       ['6', '1', '36', '5', '1', '1'],
       ['4', '1', '36', '17', '1', '3'],
       ['12', '1', '36', '4', '0', '3']], dtype='<U69')

In [267]:
# Observa-se que temos dados do tipo string, vamos converter para int

arr_string = arr_string.astype(int); arr_string



array([[ 5,  1, 36, 13,  1,  1],
       [ 0,  1, 36,  5,  1,  4],
       [ 9,  1, 36, 10,  1,  4],
       ...,
       [ 6,  1, 36,  5,  1,  1],
       [ 4,  1, 36, 17,  1,  3],
       [12,  1, 36,  4,  0,  3]])

In [268]:
arr_string.dtype

dtype('int64')

In [270]:
# Fazendo o segundo checkpoint:

checkpoint_strings = checkpoint("Checkpoint-Strings", header_string, arr_string)

### Manipulando variáveis numéricas

In [271]:
# Visualizando os dados numéricos:
arr_num

array([[48010226.  ,    35000.  ,    35000.  ,       13.33,     1184.86,     9452.96],
       [57693261.  ,    30000.  ,    30000.  , 68616520.  ,      938.57,     4679.7 ],
       [59432726.  ,    15000.  ,    15000.  , 68616520.  ,      494.86,     1969.83],
       ...,
       [50415990.  ,    10000.  ,    10000.  , 68616520.  , 68616520.  ,     2185.64],
       [46154151.  , 68616520.  ,    10000.  ,       16.55,      354.3 ,     3199.4 ],
       [66055249.  ,    10000.  ,    10000.  , 68616520.  ,      309.97,      301.9 ]])

In [272]:
#Nomes das colunas
header_num

array(['id', 'loan_amnt', 'funded_amnt', 'int_rate', 'installment', 'total_pymnt'], dtype='<U19')

In [274]:
# Procurando valores NA:
np.isnan(arr_num).sum()

0

In [275]:
# Não temos dados faltantes mas temos ausência de informação.

# No começo da manipulação dos dados númericos substituimos valores nan por maior_valor_mais_um
#(maior valor do dataset +1).

#Verificando se há esses valores em uma coluna:

np.isin(arr_num[:,0], maior_valor_mais_um).sum()

0

In [278]:
# O plano agora é criar um vetor de estatística contento, valor mínimo, média e valor máximo.
# Usaremos iesse array para substituir os maior_valor_mais_um.

arr_estat = np.array([np.nanmin(dados, axis = 0), media_sem_nan, np.nanmax(dados, axis = 0)]); print(arr_estat)

[[  373332.           nan     1000.           nan     1000.           nan        6.         31.42         nan         nan         nan         nan         nan        0.  ]
 [54015809.19         nan    15273.46         nan    15311.04         nan       16.62      440.92         nan         nan         nan         nan         nan     3143.85]
 [68616519.           nan    35000.           nan    35000.           nan       28.99     1372.97         nan         nan         nan         nan         nan    41913.62]]


In [279]:
# Pegando o array estatístico das colunas numéricas:
arr_estat[:, cols_num]

array([[  373332.  ,     1000.  ,     1000.  ,        6.  ,       31.42,        0.  ],
       [54015809.19,    15273.46,    15311.04,       16.62,      440.92,     3143.85],
       [68616519.  ,    35000.  ,    35000.  ,       28.99,     1372.97,    41913.62]])

In [280]:
# Tratando da variável funded_amnt:
arr_num[:, 2]



array([35000., 30000., 15000., ..., 10000., 10000., 10000.])

In [281]:
# Buscando essa variável no array de estatística:
arr_estat[0, cols_num[2]]

1000.0

In [282]:
# Agora substituímos o maior_valor_mais_um pela estatística correspondente.
arr_num[:, 2] = np.where(arr_num[:, 2] == maior_valor_mais_um, arr_estat[0, cols_num[2]], arr_num[:, 2]); arr_num[:, 2]

array([35000., 30000., 15000., ..., 10000., 10000., 10000.])

In [283]:
# Fazendo o mesmo procedimento para as outras variáveis numéricas.
header_num

array(['id', 'loan_amnt', 'funded_amnt', 'int_rate', 'installment', 'total_pymnt'], dtype='<U19')

In [284]:
for i in [1,3,4, 5]:
    arr_num[:, i] = np.where(arr_num[:, i] == maior_valor_mais_um,
                            arr_estat[0, cols_num[i]],
                            arr_num[:, i])

In [285]:
#Verificando:

arr_num

array([[48010226.  ,    35000.  ,    35000.  ,       13.33,     1184.86,     9452.96],
       [57693261.  ,    30000.  ,    30000.  ,        6.  ,      938.57,     4679.7 ],
       [59432726.  ,    15000.  ,    15000.  ,        6.  ,      494.86,     1969.83],
       ...,
       [50415990.  ,    10000.  ,    10000.  ,        6.  ,       31.42,     2185.64],
       [46154151.  ,     1000.  ,    10000.  ,       16.55,      354.3 ,     3199.4 ],
       [66055249.  ,    10000.  ,    10000.  ,        6.  ,      309.97,      301.9 ]])

### Utilizando o segundo dataset para converter os dados para euro.

In [286]:
dados_cot = np.genfromtxt("dataset2.csv", 
                          delimiter = ',', 
                          autostrip = True, 
                          skip_header = 1, 
                          usecols = 3)

In [287]:
dados_cot

array([1.13, 1.12, 1.08, 1.11, 1.1 , 1.12, 1.09, 1.13, 1.13, 1.1 , 1.06, 1.09])

In [289]:
# Nomes de colunas
header_string

array(['issue_date', 'loan_status', 'term_months', 'sub_grade', 'verification_status', 'state_address'], dtype='<U19')

In [291]:
# Dados
arr_string

array([[ 5,  1, 36, 13,  1,  1],
       [ 0,  1, 36,  5,  1,  4],
       [ 9,  1, 36, 10,  1,  4],
       ...,
       [ 6,  1, 36,  5,  1,  1],
       [ 4,  1, 36, 17,  1,  3],
       [12,  1, 36,  4,  0,  3]])

In [292]:
# Observamos que a coluna 0 é o mês!

# Primeiro vamos colocar essa variável do mês em um objeto:

taxa_cambio = arr_string[:, 0]; taxa_cambio

array([ 5,  0,  9, ...,  6,  4, 12])

In [293]:
# O loop abaixo nos retorna a taxa de câmbio correspondente para cada mês.

for i in range(1,13): # 13 fica fora
    taxa_cambio = np.where(taxa_cambio == i, dados_cot[i - 1], taxa_cambio)
# dados_cot[i - 1] porque temos o cabeçalho

In [294]:
taxa_cambio

array([1.1 , 0.  , 1.13, ..., 1.12, 1.11, 1.09])

In [296]:
# Tratando valores ausentes na taxa_cambio

taxa_cambio = np.where(taxa_cambio ==0, np.mean(dados_cot), taxa_cambio); taxa_cambio

array([1.1 , 1.11, 1.13, ..., 1.12, 1.11, 1.09])

In [297]:
# Verificando o formato:
taxa_cambio.shape

(10000,)

In [298]:
arr_num.shape

(10000, 6)

In [301]:
# Fazendo reshape da variável taxa_cambio

taxa_cambio = np.reshape(taxa_cambio, (10000,1))

In [302]:
# Agora concatenando os arrays:

arr_num = np.hstack((arr_num, taxa_cambio)); arr_num

array([[48010226.  ,    35000.  ,    35000.  , ...,     1184.86,     9452.96,        1.1 ],
       [57693261.  ,    30000.  ,    30000.  , ...,      938.57,     4679.7 ,        1.11],
       [59432726.  ,    15000.  ,    15000.  , ...,      494.86,     1969.83,        1.13],
       ...,
       [50415990.  ,    10000.  ,    10000.  , ...,       31.42,     2185.64,        1.12],
       [46154151.  ,     1000.  ,    10000.  , ...,      354.3 ,     3199.4 ,        1.11],
       [66055249.  ,    10000.  ,    10000.  , ...,      309.97,      301.9 ,        1.09]])

In [304]:
header_num = np.concatenate((header_num, np.array(['taxa_cambio'])))

In [305]:
header_num

array(['id', 'loan_amnt', 'funded_amnt', 'int_rate', 'installment', 'total_pymnt', 'taxa_cambio'], dtype='<U19')

In [306]:
# Colunas em dólar

cols_dolar = np.array([1,2,4,5])

In [307]:
# Shape do arr_num
arr_num.shape

(10000, 7)

In [309]:
# Agora vamos acrescentar mais 4 colunas, isto é, as 4 colunas em dólar modificada para euro.

for i in cols_dolar:
    arr_num = np.hstack((arr_num, np.reshape(arr_num[:, i] / arr_num[:, 6], (10000,1))))

In [310]:
arr_num.shape

(10000, 11)

In [311]:
# Visualizando:
arr_num

array([[48010226.  ,    35000.  ,    35000.  , ...,    31933.3 ,     1081.04,     8624.69],
       [57693261.  ,    30000.  ,    30000.  , ...,    27132.46,      848.86,     4232.39],
       [59432726.  ,    15000.  ,    15000.  , ...,    13326.3 ,      439.64,     1750.04],
       ...,
       [50415990.  ,    10000.  ,    10000.  , ...,     8910.3 ,       28.  ,     1947.47],
       [46154151.  ,     1000.  ,    10000.  , ...,     8997.4 ,      318.78,     2878.63],
       [66055249.  ,    10000.  ,    10000.  , ...,     9145.8 ,      283.49,      276.11]])

In [312]:
# Precisamos agora ajustar os nomes das colunas.
# Vamos pegar os nomes das 4 colunas em dólar e adicionar o sufixo EURO.
header_adicional = np.array([nome_coluna + '_EURO' for nome_coluna in header_num[cols_dolar]])

In [313]:
# Visualizando:
header_adicional

array(['loan_amnt_EURO', 'funded_amnt_EURO', 'installment_EURO', 'total_pymnt_EURO'], dtype='<U16')

In [314]:
# Concatenando com o array de nomes:

header_num = np.concatenate((header_num, header_adicional)); header_num

array(['id', 'loan_amnt', 'funded_amnt', 'int_rate', 'installment', 'total_pymnt', 'taxa_cambio', 'loan_amnt_EURO', 'funded_amnt_EURO', 'installment_EURO', 'total_pymnt_EURO'], dtype='<U19')

In [316]:
# Identificando as colunas em dólar:
header_num[cols_dolar] = np.array([nome_coluna + '_USD' for nome_coluna in header_num[cols_dolar]])

In [317]:
# Visualizando:
header_num

array(['id', 'loan_amnt_USD', 'funded_amnt_USD', 'int_rate', 'installment_USD', 'total_pymnt_USD', 'taxa_cambio', 'loan_amnt_EURO', 'funded_amnt_EURO', 'installment_EURO', 'total_pymnt_EURO'],
      dtype='<U19')

In [318]:
# Criando os índices das colunas:

cols_index_ordem = [0,1,7,2,8,3,4,9,5,10,6]

In [319]:
header_num = header_num[cols_index_ordem]

In [321]:
arr_num

array([[48010226.  ,    35000.  ,    35000.  , ...,    31933.3 ,     1081.04,     8624.69],
       [57693261.  ,    30000.  ,    30000.  , ...,    27132.46,      848.86,     4232.39],
       [59432726.  ,    15000.  ,    15000.  , ...,    13326.3 ,      439.64,     1750.04],
       ...,
       [50415990.  ,    10000.  ,    10000.  , ...,     8910.3 ,       28.  ,     1947.47],
       [46154151.  ,     1000.  ,    10000.  , ...,     8997.4 ,      318.78,     2878.63],
       [66055249.  ,    10000.  ,    10000.  , ...,     9145.8 ,      283.49,      276.11]])

In [322]:
# Por último vamos processar a variável int_rate (taxa de juros)

arr_num[:, 5] = (arr_num[:, 5] / 100); arr_num[:, 5]

array([94.53, 46.8 , 19.7 , ..., 21.86, 31.99,  3.02])

In [323]:
# Checkpoint das variáveis numéricas:

checkpoint_numeric = checkpoint("Checkpoint-Numeric", header_num, arr_num)

### Construindo o Dataset Final

In [324]:
checkpoint_strings['data'].shape

(10000, 6)

In [325]:
checkpoint_numeric['data'].shape

(10000, 11)

In [328]:
df_final = np.hstack((checkpoint_numeric['data'], checkpoint_strings['data']))

In [329]:
df_final

array([[48010226.,    35000.,    35000., ...,       13.,        1.,        1.],
       [57693261.,    30000.,    30000., ...,        5.,        1.,        4.],
       [59432726.,    15000.,    15000., ...,       10.,        1.,        4.],
       ...,
       [50415990.,    10000.,    10000., ...,        5.,        1.,        1.],
       [46154151.,     1000.,    10000., ...,       17.,        1.,        3.],
       [66055249.,    10000.,    10000., ...,        4.,        0.,        3.]])

In [331]:
# Verificação final se ficou algum valor NA

np.isnan(df_final).sum()

0

In [332]:
# Concatenação final dos nomes das colunas

header_total = np.concatenate((checkpoint_numeric['header'], checkpoint_strings['header']))

In [333]:
# Ordenando o dataset:
df_final = df_final[np.argsort(df_final[:,0])]; df_final

array([[  373332.,     9950.,     1000., ...,       21.,        0.,        1.],
       [  575239.,    12000.,    12000., ...,       25.,        1.,        2.],
       [  707689.,    10000.,    10000., ...,       13.,        1.,        0.],
       ...,
       [68614880.,     5600.,     5600., ...,        8.,        1.,        1.],
       [68615915.,     4000.,     4000., ...,       10.,        1.,        2.],
       [68616519.,    21600.,    21600., ...,        3.,        0.,        2.]])

In [334]:
# Confirmando a ordenação pela coluna id:

np.argsort(df_final[:,0])

array([   0,    1,    2, ..., 9997, 9998, 9999])

### Gravando em disco o dataset limpo e pré-processado


In [336]:
# Primeiro vamos concatenar o array com os nomes das colunas com o dataset 
df_final = np.vstack((header_total, df_final )) #vstack pois as dimensões são diferentes.

In [337]:
# Salvando:

np.savetxt('dataset_limpo_preprocessado.csv',
          df_final,
          fmt = '%s',
          delimiter = ',')

### Fim do estudo de caso