# Estudo de Caso 01
Limpeza e Pré-processamento de Dados com NumPy

In [144]:
# Versão da linguagem Pyhton utilizada
from platform import python_version
print('Versão python utilizada: ', python_version())

Versão python utilizada:  3.11.7


# Setup

In [145]:
# Import
import numpy as np

In [146]:
# utilizado para evitar poluição visual
# o objetivo desse notebbok é apenas estudo
import warnings
warnings.filterwarnings('ignore')

In [147]:
# Config de impressão do Numpy
np.set_printoptions(suppress=True, linewidth=200, precision=2)

# Carregando o dataset

In [148]:
dados = np.genfromtxt(
    './DSA_Files/45-Cap02/dados/dataset1.csv',
    delimiter = ';',
    skip_header = 1,    # ignora a primeira linha
    autostrip = True,   # remove espaços dentro de cada coluna (clean)
    encoding = 'cp1252'
)

In [149]:
type(dados)

numpy.ndarray

In [150]:
dados.shape

(10000, 14)

In [151]:
dados.view()

array([[48010226.  ,         nan,    35000.  , ...,         nan,         nan,     9452.96],
       [57693261.  ,         nan,    30000.  , ...,         nan,         nan,     4679.7 ],
       [59432726.  ,         nan,    15000.  , ...,         nan,         nan,     1969.83],
       ...,
       [50415990.  ,         nan,    10000.  , ...,         nan,         nan,     2185.64],
       [46154151.  ,         nan,         nan, ...,         nan,         nan,     3199.4 ],
       [66055249.  ,         nan,    10000.  , ...,         nan,         nan,      301.9 ]])

Observa-se que a importaçao gerou um comportamento inesperado com as colunas do tipo string

## Verificando valores ausentes

In [152]:
# Quantidade de valores nan
np.isnan(dados).sum()

88005

## Tratando importação

Para tratar a importação de colunas com string o dataset original será dividido em dois:
- Um dataset apenas com as colunas numéricas
- Um dataset apenas com as colunas string

### Identificando colunas numéricas / string

In [153]:
# Cria-se um valor definido para preenchimento no lugar de valores ausentes
valor_coringa = np.nanmax(dados) +1
valor_coringa

68616520.0

Crio um array com a média das colunas. As colunas string serão retornadas como "nan"

In [154]:
media_colunas_ignorando_nan = np.nanmean(dados, axis = 0)
media_colunas_ignorando_nan

array([54015809.19,         nan,    15273.46,         nan,    15311.04,         nan,       16.62,      440.92,         nan,         nan,         nan,         nan,         nan,     3143.85])

In [155]:
# separo as colunas do tipo string
colunas_string = np.argwhere(np.isnan(media_colunas_ignorando_nan)).squeeze()
colunas_string

array([ 1,  3,  5,  8,  9, 10, 11, 12], dtype=int64)

In [156]:
# separo as colunas numéricas
colunas_numericas = np.argwhere(np.isnan(media_colunas_ignorando_nan) == False).squeeze()
colunas_numericas

array([ 0,  2,  4,  6,  7, 13], dtype=int64)

Carrego o dataset novamente, mas utilizando apenas as colunas string

In [157]:
arr_string = np.genfromtxt(
    './DSA_Files/45-Cap02/dados/dataset1.csv',
    delimiter = ';',
    skip_header = 1,    # ignora a primeira linha
    autostrip = True,   # remove espaços dentro de cada coluna (clean)
    usecols = colunas_string,
    dtype= str,
    encoding = 'cp1252'
)
arr_string

array([['May-15', 'Current', '36 months', ..., 'Verified', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=48010226', 'CA'],
       ['', 'Current', '36 months', ..., 'Source Verified', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=57693261', 'NY'],
       ['Sep-15', 'Current', '36 months', ..., 'Verified', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=59432726', 'PA'],
       ...,
       ['Jun-15', 'Current', '36 months', ..., 'Source Verified', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=50415990', 'CA'],
       ['Apr-15', 'Current', '36 months', ..., 'Source Verified', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=46154151', 'OH'],
       ['Dec-15', 'Current', '36 months', ..., '', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=66055249', 'IL']], dtype='<U69')

Carrego o dataset novamente, mas utilizando apenas as colunas numéricas

In [158]:
arr_numeric = np.genfromtxt(
    './DSA_Files/45-Cap02/dados/dataset1.csv',
    delimiter = ';',
    skip_header = 1,    # ignora a primeira linha
    autostrip = True,   # remove espaços dentro de cada coluna (clean)
    usecols= colunas_numericas,
    filling_values=valor_coringa,
    encoding = 'cp1252'
)

arr_numeric

array([[48010226.  ,    35000.  ,    35000.  ,       13.33,     1184.86,     9452.96],
       [57693261.  ,    30000.  ,    30000.  , 68616520.  ,      938.57,     4679.7 ],
       [59432726.  ,    15000.  ,    15000.  , 68616520.  ,      494.86,     1969.83],
       ...,
       [50415990.  ,    10000.  ,    10000.  , 68616520.  , 68616520.  ,     2185.64],
       [46154151.  , 68616520.  ,    10000.  ,       16.55,      354.3 ,     3199.4 ],
       [66055249.  ,    10000.  ,    10000.  , 68616520.  ,      309.97,      301.9 ]])

In [159]:
arr_nomes_colunas = np.genfromtxt(
    './DSA_Files/45-Cap02/dados/dataset1.csv',
    delimiter= ";",
    autostrip=True,
    skip_footer=dados.shape[0],
    dtype=str,
    encoding='cp1252'
)
arr_nomes_colunas

array(['id', 'issue_d', 'loan_amnt', 'loan_status', 'funded_amnt', 'term', 'int_rate', 'installment', 'grade', 'sub_grade', 'verification_status', 'url', 'addr_state', 'total_pymnt'], dtype='<U19')

In [160]:
# Carrega apenas o cabeçalho do arquivo - opção melhor segundo o chatGPT
arr_nomes_colunas = np.genfromtxt(
    './DSA_Files/45-Cap02/dados/dataset1.csv',
    delimiter=';',
    dtype=str,
    max_rows=1,
    encoding='cp1252'
)
arr_nomes_colunas

array(['id', 'issue_d', 'loan_amnt', 'loan_status', 'funded_amnt', 'term', 'int_rate', 'installment', 'grade', 'sub_grade', 'verification_status', 'url', 'addr_state', 'total_pymnt'], dtype='<U19')

In [161]:
# separo o cabeçalho das colunas numericas e das colunas string
header_strin, header_numeric = arr_nomes_colunas[colunas_string], arr_nomes_colunas[colunas_numericas]

In [162]:
header_numeric

array(['id', 'loan_amnt', 'funded_amnt', 'int_rate', 'installment', 'total_pymnt'], dtype='<U19')

In [163]:
header_strin

array(['issue_d', 'loan_status', 'term', 'grade', 'sub_grade', 'verification_status', 'url', 'addr_state'], dtype='<U19')

# Função de Checkpoint
Vamos criar uma função de checkpoint para salvar em disco os resultados intermediários

In [164]:
def checkpoint (file_name, checkpoint_header, checkpoint_data):
    np.savez(file_name, header = checkpoint_header, data = checkpoint_data)
    checkpoint_variable = np.load(file_name + '.npz')
    return(checkpoint_variable)

In [165]:
checkpoint_inicial = checkpoint('./DSA_Files/45-Cap02/dados/checkpoint_inicial', header_strin, arr_string)

In [166]:
checkpoint_inicial['data']

array([['May-15', 'Current', '36 months', ..., 'Verified', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=48010226', 'CA'],
       ['', 'Current', '36 months', ..., 'Source Verified', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=57693261', 'NY'],
       ['Sep-15', 'Current', '36 months', ..., 'Verified', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=59432726', 'PA'],
       ...,
       ['Jun-15', 'Current', '36 months', ..., 'Source Verified', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=50415990', 'CA'],
       ['Apr-15', 'Current', '36 months', ..., 'Source Verified', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=46154151', 'OH'],
       ['Dec-15', 'Current', '36 months', ..., '', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=66055249', 'IL']], dtype='<U69')

In [167]:
np.array_equal(checkpoint_inicial['data'], arr_string)

True

# Manipulando as colunas String

In [168]:
header_strin

array(['issue_d', 'loan_status', 'term', 'grade', 'sub_grade', 'verification_status', 'url', 'addr_state'], dtype='<U19')

In [169]:
len(header_strin)

8

In [170]:
#modificar o nome da coluna "issue_d" para "issue_date"
header_strin[0] = 'issue_date'
header_strin

array(['issue_date', 'loan_status', 'term', 'grade', 'sub_grade', 'verification_status', 'url', 'addr_state'], dtype='<U19')

In [171]:
arr_string

array([['May-15', 'Current', '36 months', ..., 'Verified', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=48010226', 'CA'],
       ['', 'Current', '36 months', ..., 'Source Verified', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=57693261', 'NY'],
       ['Sep-15', 'Current', '36 months', ..., 'Verified', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=59432726', 'PA'],
       ...,
       ['Jun-15', 'Current', '36 months', ..., 'Source Verified', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=50415990', 'CA'],
       ['Apr-15', 'Current', '36 months', ..., 'Source Verified', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=46154151', 'OH'],
       ['Dec-15', 'Current', '36 months', ..., '', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=66055249', 'IL']], dtype='<U69')

# Pré-processamento da Variável issue_date com Label Encoding

In [172]:
# extrai os valores únicos da variavel
np.unique(arr_string[:,0])

array(['', 'Apr-15', 'Aug-15', 'Dec-15', 'Feb-15', 'Jan-15', 'Jul-15', 'Jun-15', 'Mar-15', 'May-15', 'Nov-15', 'Oct-15', 'Sep-15'], dtype='<U69')

In [173]:
# remover o sufixo "-15" e converter em um array de strings
arr_string[:,0] = np.chararray.strip(arr_string[:,0], '-15')
np.unique(arr_string[:,0])

array(['', 'Apr', 'Aug', 'Dec', 'Feb', 'Jan', 'Jul', 'Jun', 'Mar', 'May', 'Nov', 'Oct', 'Sep'], dtype='<U69')

In [174]:
# Criamos um array com os meses considerando o vazio
meses = np.array(['','Jan','Feb','Mar','Apr','May','Jun','Jul','Aug','Sep','Oct','Nov','Dec'])
meses

array(['', 'Jan', 'Feb', 'Mar', 'Apr', 'May', 'Jun', 'Jul', 'Aug', 'Sep', 'Oct', 'Nov', 'Dec'], dtype='<U3')

In [175]:
# converte meses para números - modo 1
arr_string_modo_1 = arr_string.copy()

for dado in arr_string_modo_1:
    for mes in range(13):
        if dado[0] == meses[mes]:
            dado[0] = mes

arr_string_modo_1[:,0]


array(['5', '0', '9', ..., '6', '4', '12'], dtype='<U69')

In [176]:
# converte meses para números - modo 2
for i in range(13):
    arr_string[:,0] = np.where(arr_string[:,0] == meses[i], i, arr_string[:,0])

arr_string[:,0]

array(['5', '0', '9', ..., '6', '4', '12'], dtype='<U69')

# Pré-processamento da Variável loan_status com Binarização

In [177]:
header_strin

array(['issue_date', 'loan_status', 'term', 'grade', 'sub_grade', 'verification_status', 'url', 'addr_state'], dtype='<U19')

In [178]:
# valores únicos da coluna 'loan_status'
np.unique(arr_string[:,1])

array(['', 'Charged Off', 'Current', 'Default', 'Fully Paid', 'In Grace Period', 'Issued', 'Late (16-30 days)', 'Late (31-120 days)'], dtype='<U69')

In [179]:
# quantidade de elementos únicos
np.unique(arr_string[:,1]).size

9

In [180]:
# seguindo regra de negócio, os itens abaixo são da mesma categoria
status_bad = np.array(['Charged Off', 'Default', 'Late (31-120 days)'])
status_bad

array(['Charged Off', 'Default', 'Late (31-120 days)'], dtype='<U18')

In [181]:
# binarizo a coluna loan_status
arr_string[:,1] = np.where(np.isin(arr_string[:,1], status_bad), 0, 1)
np.unique(arr_string[:,1])

array(['0', '1'], dtype='<U69')

In [182]:
np.unique(arr_string[:,1]).size

2

# Pré-processamento da Variável 'term' com limpeza de String

# Pré-processamento da Variável 'sub_grade' com dicionário

In [183]:
header_strin

array(['issue_date', 'loan_status', 'term', 'grade', 'sub_grade', 'verification_status', 'url', 'addr_state'], dtype='<U19')

In [184]:
# todas os distintos de todas as linhas da coluna 3 trazendo todos as linhas a partir da segunda linha até o final do array
unique_grade = np.unique(arr_string[:,3])[1:]
unique_grade

array(['A', 'B', 'C', 'D', 'E', 'F', 'G'], dtype='<U69')

In [185]:
# todas os distintos de todas as linhas da coluna 4
np.unique(arr_string[:,4])

array(['', 'A1', 'A2', 'A3', 'A4', 'A5', 'B1', 'B2', 'B3', 'B4', 'B5', 'C1', 'C2', 'C3', 'C4', 'C5', 'D1', 'D2', 'D3', 'D4', 'D5', 'E1', 'E2', 'E3', 'E4', 'E5', 'F1', 'F2', 'F3', 'F4', 'F5', 'G1',
       'G2', 'G3', 'G4', 'G5'], dtype='<U69')

In [186]:
for grade in np.unique(arr_string[:,3])[1:]:
    arr_string[:,4] = np.where((arr_string[:,4] == '') & (arr_string[:,3] == grade), grade + '5', arr_string[:,4])
display(np.unique(arr_string[:,4], return_counts= True))

(array(['', 'A1', 'A2', 'A3', 'A4', 'A5', 'B1', 'B2', 'B3', 'B4', 'B5', 'C1', 'C2', 'C3', 'C4', 'C5', 'D1', 'D2', 'D3', 'D4', 'D5', 'E1', 'E2', 'E3', 'E4', 'E5', 'F1', 'F2', 'F3', 'F4', 'F5', 'G1',
        'G2', 'G3', 'G4', 'G5'], dtype='<U69'),
 array([  9, 285, 278, 239, 323, 592, 509, 517, 530, 553, 633, 629, 567, 586, 564, 577, 391, 267, 250, 255, 288, 235, 162, 171, 139, 160,  94,  52,  34,  43,  24,  19,  10,   3,   7,   5], dtype=int64))

In [187]:
# Substituímos os valores ausentes por uma nova categoria
arr_string[:,4] = np.where(arr_string[:,4] == '', 'H1', arr_string[:,4])
np.unique(arr_string[:,4])

array(['A1', 'A2', 'A3', 'A4', 'A5', 'B1', 'B2', 'B3', 'B4', 'B5', 'C1', 'C2', 'C3', 'C4', 'C5', 'D1', 'D2', 'D3', 'D4', 'D5', 'E1', 'E2', 'E3', 'E4', 'E5', 'F1', 'F2', 'F3', 'F4', 'F5', 'G1', 'G2',
       'G3', 'G4', 'G5', 'H1'], dtype='<U69')

In [188]:
# Não precisamos mais d variável grade, vamos removê-la
arr_string = np.delete(arr_string, 3, axis= 1)

In [189]:
# Não podemos esquecer de remover a coluna do array de nomes de colunas
header_strin = np.delete(header_strin, 3)

In [190]:
arr_string[:,3]

array(['C3', 'A5', 'B5', ..., 'A5', 'D2', 'A4'], dtype='<U69')

Vamos converter o subgrade em variável numérica usando um dicionario

In [191]:
# Crio uma lista de chaves com os dados únicos
keys = list(np.unique(arr_string[:,3]))
len(keys)

36

In [192]:
# crio uma lista de valores
values = list(range(1, np.unique(arr_string[:,3]).shape[0] + 1))
print(values)

[1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36]


In [193]:
# crio o dicionário
dict_sub_grade = dict(zip(keys, values))
dict_sub_grade

{'A1': 1,
 'A2': 2,
 'A3': 3,
 'A4': 4,
 'A5': 5,
 'B1': 6,
 'B2': 7,
 'B3': 8,
 'B4': 9,
 'B5': 10,
 'C1': 11,
 'C2': 12,
 'C3': 13,
 'C4': 14,
 'C5': 15,
 'D1': 16,
 'D2': 17,
 'D3': 18,
 'D4': 19,
 'D5': 20,
 'E1': 21,
 'E2': 22,
 'E3': 23,
 'E4': 24,
 'E5': 25,
 'F1': 26,
 'F2': 27,
 'F3': 28,
 'F4': 29,
 'F5': 30,
 'G1': 31,
 'G2': 32,
 'G3': 33,
 'G4': 34,
 'G5': 35,
 'H1': 36}

In [194]:
# substituo os valores da coluna pelo seu correspondente
for i in np.unique(arr_string[:,3]):
    arr_string[:,3] = np.where(arr_string[:,3] == i, dict_sub_grade[i], arr_string[:,3])

In [195]:
np.unique(arr_string[:,3])

array(['1', '10', '11', '12', '13', '14', '15', '16', '17', '18', '19', '2', '20', '21', '22', '23', '24', '25', '26', '27', '28', '29', '3', '30', '31', '32', '33', '34', '35', '36', '4', '5', '6',
       '7', '8', '9'], dtype='<U69')

# Pré-processamento da Variável 'verification_status' com Binarização

In [196]:
header_strin

array(['issue_date', 'loan_status', 'term', 'sub_grade', 'verification_status', 'url', 'addr_state'], dtype='<U19')

In [197]:
np.unique(arr_string[:,4])

array(['', 'Not Verified', 'Source Verified', 'Verified'], dtype='<U69')

Verificamos que as categorias 'Source Verified' e 'Verified' trazem a mesma informação. Além disso campo nulos podem ser interpretados como 'Not Verified'

In [198]:
# usamos a binarização nessa variável
arr_string[:,4] = np.where((arr_string[:,4] == '') | (arr_string[:,4] == 'Not Verified'), 0, 1)

In [199]:
np.unique(arr_string[:,4])

array(['0', '1'], dtype='<U69')

# Pré-processamento da variável url com extração de ID

In [200]:
np.unique(arr_string[:,5])

array(['https://www.lendingclub.com/browse/loanDetail.action?loan_id=12606806', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=13026045',
       'https://www.lendingclub.com/browse/loanDetail.action?loan_id=1312426', ..., 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=8138291',
       'https://www.lendingclub.com/browse/loanDetail.action?loan_id=8214572', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=849994'], dtype='<U69')