In [77]:
# pip install -U numpy
# !pip install -q -U watermark

In [78]:
import numpy as np

In [79]:
import warnings
warnings.filterwarnings('ignore')

In [80]:
%reload_ext watermark
%watermark -a "Aprígio Gusmão" --iversions

Author: Aprígio Gusmão

numpy: 1.23.5



In [81]:
    # configuração de impressão do NumPy
np.set_printoptions(suppress = True, linewidth = 200, precision = 2)

In [82]:
dados = np.genfromtxt("dataset/dataset1.csv",
                     delimiter= ";",
                     skip_header= 1,
                     autostrip= True,
                     encoding= 'cp1252')

In [83]:
type(dados)

numpy.ndarray

In [84]:
dados.shape

(10000, 14)

In [85]:
dados.view()

array([[48010226.  ,         nan,    35000.  , ...,         nan,         nan,     9452.96],
       [57693261.  ,         nan,    30000.  , ...,         nan,         nan,     4679.7 ],
       [59432726.  ,         nan,    15000.  , ...,         nan,         nan,     1969.83],
       ...,
       [50415990.  ,         nan,    10000.  , ...,         nan,         nan,     2185.64],
       [46154151.  ,         nan,         nan, ...,         nan,         nan,     3199.4 ],
       [66055249.  ,         nan,    10000.  , ...,         nan,         nan,      301.9 ]])

In [86]:
np.isnan(dados).sum()

88005

In [87]:
# retornaremos o maior valor + 1, ignorando os NAN
# o valor arbitrário que utilizaremos será para preencher com valores ausentes
valor_arbitrario = np.nanmax(dados) + 1
print(valor_arbitrario)

68616520.0


In [88]:
# Calcularemos a média ignorando os valores NAN por coluna
# Faremos isso para poder separar variáveis numéricas das do tipo string
media_ignorando_nan = np.nanmean(dados, axis = 0)
print(media_ignorando_nan)

[54015809.19         nan    15273.46         nan    15311.04         nan       16.62      440.92         nan         nan         nan         nan         nan     3143.85]


In [89]:
# colunas do tipo string com valores ausentes
col_strings = np.argwhere(np.isnan(media_ignorando_nan)).squeeze() # colocar uma lista num array numpy
col_strings

array([ 1,  3,  5,  8,  9, 10, 11, 12], dtype=int64)

In [90]:
# colunas numéricas
col_numericas = np.argwhere(np.isnan(media_ignorando_nan) == False).squeeze()
col_numericas

array([ 0,  2,  4,  6,  7, 13], dtype=int64)

In [91]:
# Carregar as colunas do tipo string
arr_strings = np.genfromtxt("dataset/dataset1.csv",
                            delimiter= ";",
                            skip_header= 1,
                            autostrip= True,
                            usecols= col_strings,
                            dtype= str,
                            encoding= 'cp1252')

In [92]:
arr_strings

array([['May-15', 'Current', '36 months', ..., 'Verified', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=48010226', 'CA'],
       ['', 'Current', '36 months', ..., 'Source Verified', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=57693261', 'NY'],
       ['Sep-15', 'Current', '36 months', ..., 'Verified', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=59432726', 'PA'],
       ...,
       ['Jun-15', 'Current', '36 months', ..., 'Source Verified', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=50415990', 'CA'],
       ['Apr-15', 'Current', '36 months', ..., 'Source Verified', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=46154151', 'OH'],
       ['Dec-15', 'Current', '36 months', ..., '', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=66055249', 'IL']], dtype='<U69')

In [93]:
# Carregar as colunas do tipo numérica preenchendo os valores ausentes
arr_numeric = np.genfromtxt("dataset/dataset1.csv",
                            delimiter= ";",
                            skip_header= 1,
                            autostrip= True,
                            usecols= col_numericas,
                            filling_values= valor_arbitrario,
                            encoding= 'cp1252')

In [94]:
arr_numeric

array([[48010226.  ,    35000.  ,    35000.  ,       13.33,     1184.86,     9452.96],
       [57693261.  ,    30000.  ,    30000.  , 68616520.  ,      938.57,     4679.7 ],
       [59432726.  ,    15000.  ,    15000.  , 68616520.  ,      494.86,     1969.83],
       ...,
       [50415990.  ,    10000.  ,    10000.  , 68616520.  , 68616520.  ,     2185.64],
       [46154151.  , 68616520.  ,    10000.  ,       16.55,      354.3 ,     3199.4 ],
       [66055249.  ,    10000.  ,    10000.  , 68616520.  ,      309.97,      301.9 ]])

In [95]:
# carrega os nomes das colunas
arr_nomes_colunas = np.genfromtxt("dataset/dataset1.csv",
                                  delimiter = ';',
                                  autostrip = True,
                                  skip_footer = dados.shape[0],
                                  dtype = str, 
                                  encoding = 'cp1252')

In [96]:
arr_nomes_colunas

array(['id', 'issue_d', 'loan_amnt', 'loan_status', 'funded_amnt', 'term', 'int_rate', 'installment', 'grade', 'sub_grade', 'verification_status', 'url', 'addr_state', 'total_pymnt'], dtype='<U19')

In [97]:
# Separa cabeçalho de colunas numéricas e string
header_strings, header_numeric = arr_nomes_colunas[col_strings], arr_nomes_colunas[col_numericas]

In [98]:
header_strings

array(['issue_d', 'loan_status', 'term', 'grade', 'sub_grade', 'verification_status', 'url', 'addr_state'], dtype='<U19')

In [99]:
header_numeric

array(['id', 'loan_amnt', 'funded_amnt', 'int_rate', 'installment', 'total_pymnt'], dtype='<U19')

# Função de Checkpoint
#### checkpoint 01

In [100]:
def checkpoint(file_name,checkpoint_header,checkpoint_data):
    np.savez(file_name, header = checkpoint_header, data = checkpoint_data)
    checkpoint_variable = np.load(file_name + ".npz")
    return (checkpoint_variable)

In [101]:
chk_inicial = checkpoint("dataset/Checkpoint-Inicial",header_strings, arr_strings)

In [102]:
chk_inicial['data']

array([['May-15', 'Current', '36 months', ..., 'Verified', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=48010226', 'CA'],
       ['', 'Current', '36 months', ..., 'Source Verified', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=57693261', 'NY'],
       ['Sep-15', 'Current', '36 months', ..., 'Verified', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=59432726', 'PA'],
       ...,
       ['Jun-15', 'Current', '36 months', ..., 'Source Verified', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=50415990', 'CA'],
       ['Apr-15', 'Current', '36 months', ..., 'Source Verified', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=46154151', 'OH'],
       ['Dec-15', 'Current', '36 months', ..., '', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=66055249', 'IL']], dtype='<U69')

In [103]:
np.array_equal(chk_inicial['data'],arr_strings) # verifica se o checkpoint criado (salvo em disco) é igual ou não ao arr_strings

True

# Manipulando as colunas do tipo string

In [104]:
header_strings

array(['issue_d', 'loan_status', 'term', 'grade', 'sub_grade', 'verification_status', 'url', 'addr_state'], dtype='<U19')

In [105]:
# Ajustando o nome da coluna "issue_d" para facilitar a identificação
header_strings[0] = "issue_date"

In [106]:
header_strings

array(['issue_date', 'loan_status', 'term', 'grade', 'sub_grade', 'verification_status', 'url', 'addr_state'], dtype='<U19')

In [107]:
arr_strings

array([['May-15', 'Current', '36 months', ..., 'Verified', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=48010226', 'CA'],
       ['', 'Current', '36 months', ..., 'Source Verified', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=57693261', 'NY'],
       ['Sep-15', 'Current', '36 months', ..., 'Verified', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=59432726', 'PA'],
       ...,
       ['Jun-15', 'Current', '36 months', ..., 'Source Verified', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=50415990', 'CA'],
       ['Apr-15', 'Current', '36 months', ..., 'Source Verified', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=46154151', 'OH'],
       ['Dec-15', 'Current', '36 months', ..., '', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=66055249', 'IL']], dtype='<U69')

### Pré-Processamento da Variável "issue_date" com Label Encoding

In [108]:
# Extrai os valores únicos da variável
np.unique(arr_strings[:,0])

array(['', 'Apr-15', 'Aug-15', 'Dec-15', 'Feb-15', 'Jan-15', 'Jul-15', 'Jun-15', 'Mar-15', 'May-15', 'Nov-15', 'Oct-15', 'Sep-15'], dtype='<U69')

In [109]:
# Vamos remover o sufixo -15 e converter em um array de strings
arr_strings[:,0] = np.chararray.strip(arr_strings[:,0], "-15")

In [110]:
# Extrai os valores únicos da variável
np.unique(arr_strings[:,0])

array(['', 'Apr', 'Aug', 'Dec', 'Feb', 'Jan', 'Jul', 'Jun', 'Mar', 'May', 'Nov', 'Oct', 'Sep'], dtype='<U69')

In [111]:
# Criando um array com os meses (incluindo um elemento como vazio para o que estiver em branco)
meses = np.array(['', 'Jan', 'Feb', 'Mar', 'Apr', 'May', 'Jun', 'Jul', 'Aug', 'Sep', 'Oct', 'Nov', 'Dec'])

In [112]:
# Convertendo os nomes dos meses em valores numéricos (label enconding)
for indice in range(13):
    arr_strings[:,0] = np.where(arr_strings[:,0] == meses[indice], indice, arr_strings[:,0])

In [113]:
np.unique(arr_strings[:,0])

array(['0', '1', '10', '11', '12', '2', '3', '4', '5', '6', '7', '8', '9'], dtype='<U69')

### Pré-Processamento da Variável "loan_status" com Binarização

In [114]:
header_strings

array(['issue_date', 'loan_status', 'term', 'grade', 'sub_grade', 'verification_status', 'url', 'addr_state'], dtype='<U19')

In [115]:
# Extraindo os valores únicos da variável
np.unique(arr_strings[:,1])

array(['', 'Charged Off', 'Current', 'Default', 'Fully Paid', 'In Grace Period', 'Issued', 'Late (16-30 days)', 'Late (31-120 days)'], dtype='<U69')

In [116]:
# Número de elementos da coluna "loan_status" - status do empréstimo que a pessoa fez
np.unique(arr_strings[:,1]).size

9

In [117]:
# Criando um array com 3 status:
# 'Default' -> está com atraso
# 'Late (31-120 days)' -> está atrasado entre 31 e 120 dias
# 'Charged Off' -> Baixa, ou seja, declaração do credor informando que é improvável que a dívida seja cobrada
#
# "status_bad" - indica que o status do empréstimo não está muito bom
status_bad = np.array(['', 'Charged Off', 'Default', 'Late (31-120 days)'])

In [118]:
# Checando os valores da variável e comparando com o array "status_bad", 
# em seguida, convertemos a variável para valores binários (binarização).
# 0: categoria ruim (indica problema no empréstimo)
# 1: categoria boa
arr_strings[:,1] = np.where(np.isin(arr_strings[:,1], status_bad),0,1)

In [119]:
# Extraindo os valores únicos da variável
np.unique(arr_strings[:,1])

array(['0', '1'], dtype='<U69')