# Estudo de Caso 01
Limpeza e Pré-processamento de Dados com NumPy

In [1]:
# Versão da linguagem Pyhton utilizada
from platform import python_version
print('Versão python utilizada: ', python_version())

Versão python utilizada:  3.11.7


# Setup

In [2]:
# Import
import numpy as np

In [3]:
# utilizado para evitar poluição visual
# o objetivo desse notebbok é apenas estudo
import warnings
warnings.filterwarnings('ignore')

In [4]:
# Config de impressão do Numpy
np.set_printoptions(suppress=True, linewidth=200, precision=2)

# Carregando o dataset

In [5]:
dados = np.genfromtxt(
    './DSA_Files/45-Cap02/dados/dataset1.csv',
    delimiter = ';',
    skip_header = 1,    # ignora a primeira linha
    autostrip = True,   # remove espaços dentro de cada coluna (clean)
    encoding = 'cp1252'
)

In [6]:
type(dados)

numpy.ndarray

In [7]:
dados.shape

(10000, 14)

In [8]:
dados.view()

array([[48010226.  ,         nan,    35000.  , ...,         nan,         nan,     9452.96],
       [57693261.  ,         nan,    30000.  , ...,         nan,         nan,     4679.7 ],
       [59432726.  ,         nan,    15000.  , ...,         nan,         nan,     1969.83],
       ...,
       [50415990.  ,         nan,    10000.  , ...,         nan,         nan,     2185.64],
       [46154151.  ,         nan,         nan, ...,         nan,         nan,     3199.4 ],
       [66055249.  ,         nan,    10000.  , ...,         nan,         nan,      301.9 ]])

Observa-se que a importaçao gerou um comportamento inesperado com as colunas do tipo string

## Verificando valores ausentes

In [9]:
# Quantidade de valores nan
np.isnan(dados).sum()

88005

## Tratando importação

Para tratar a importação de colunas com string o dataset original será dividido em dois:
- Um dataset apenas com as colunas numéricas
- Um dataset apenas com as colunas string

### Identificando colunas numéricas / string

In [10]:
# Cria-se um valor definido para preenchimento no lugar de valores ausentes
valor_coringa = np.nanmax(dados) +1
valor_coringa

68616520.0

Crio um array com a média das colunas. As colunas string serão retornadas como "nan"

In [11]:
media_colunas_ignorando_nan = np.nanmean(dados, axis = 0)
media_colunas_ignorando_nan

array([54015809.19,         nan,    15273.46,         nan,    15311.04,         nan,       16.62,      440.92,         nan,         nan,         nan,         nan,         nan,     3143.85])

In [12]:
# separo as colunas do tipo string
colunas_string = np.argwhere(np.isnan(media_colunas_ignorando_nan)).squeeze()
colunas_string

array([ 1,  3,  5,  8,  9, 10, 11, 12], dtype=int64)

In [13]:
# separo as colunas numéricas
colunas_numericas = np.argwhere(np.isnan(media_colunas_ignorando_nan) == False).squeeze()
colunas_numericas

array([ 0,  2,  4,  6,  7, 13], dtype=int64)

Carrego o dataset novamente, mas utilizando apenas as colunas string

In [14]:
arr_string = np.genfromtxt(
    './DSA_Files/45-Cap02/dados/dataset1.csv',
    delimiter = ';',
    skip_header = 1,    # ignora a primeira linha
    autostrip = True,   # remove espaços dentro de cada coluna (clean)
    usecols = colunas_string,
    dtype= str,
    encoding = 'cp1252'
)
arr_string

array([['May-15', 'Current', '36 months', ..., 'Verified', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=48010226', 'CA'],
       ['', 'Current', '36 months', ..., 'Source Verified', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=57693261', 'NY'],
       ['Sep-15', 'Current', '36 months', ..., 'Verified', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=59432726', 'PA'],
       ...,
       ['Jun-15', 'Current', '36 months', ..., 'Source Verified', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=50415990', 'CA'],
       ['Apr-15', 'Current', '36 months', ..., 'Source Verified', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=46154151', 'OH'],
       ['Dec-15', 'Current', '36 months', ..., '', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=66055249', 'IL']], dtype='<U69')

Carrego o dataset novamente, mas utilizando apenas as colunas numéricas

In [15]:
arr_numeric = np.genfromtxt(
    './DSA_Files/45-Cap02/dados/dataset1.csv',
    delimiter = ';',
    skip_header = 1,    # ignora a primeira linha
    autostrip = True,   # remove espaços dentro de cada coluna (clean)
    usecols= colunas_numericas,
    filling_values=valor_coringa,
    encoding = 'cp1252'
)

arr_numeric

array([[48010226.  ,    35000.  ,    35000.  ,       13.33,     1184.86,     9452.96],
       [57693261.  ,    30000.  ,    30000.  , 68616520.  ,      938.57,     4679.7 ],
       [59432726.  ,    15000.  ,    15000.  , 68616520.  ,      494.86,     1969.83],
       ...,
       [50415990.  ,    10000.  ,    10000.  , 68616520.  , 68616520.  ,     2185.64],
       [46154151.  , 68616520.  ,    10000.  ,       16.55,      354.3 ,     3199.4 ],
       [66055249.  ,    10000.  ,    10000.  , 68616520.  ,      309.97,      301.9 ]])

In [16]:
arr_nomes_colunas = np.genfromtxt(
    './DSA_Files/45-Cap02/dados/dataset1.csv',
    delimiter= ";",
    autostrip=True,
    skip_footer=dados.shape[0],
    dtype=str,
    encoding='cp1252'
)
arr_nomes_colunas

array(['id', 'issue_d', 'loan_amnt', 'loan_status', 'funded_amnt', 'term', 'int_rate', 'installment', 'grade', 'sub_grade', 'verification_status', 'url', 'addr_state', 'total_pymnt'], dtype='<U19')

In [17]:
# Carrega apenas o cabeçalho do arquivo - opção melhor segundo o chatGPT
arr_nomes_colunas = np.genfromtxt(
    './DSA_Files/45-Cap02/dados/dataset1.csv',
    delimiter=';',
    dtype=str,
    max_rows=1,
    encoding='cp1252'
)
arr_nomes_colunas

array(['id', 'issue_d', 'loan_amnt', 'loan_status', 'funded_amnt', 'term', 'int_rate', 'installment', 'grade', 'sub_grade', 'verification_status', 'url', 'addr_state', 'total_pymnt'], dtype='<U19')

In [18]:
# separo o cabeçalho das colunas numericas e das colunas string
header_strin, header_numeric = arr_nomes_colunas[colunas_string], arr_nomes_colunas[colunas_numericas]

In [19]:
header_numeric

array(['id', 'loan_amnt', 'funded_amnt', 'int_rate', 'installment', 'total_pymnt'], dtype='<U19')

In [20]:
header_strin

array(['issue_d', 'loan_status', 'term', 'grade', 'sub_grade', 'verification_status', 'url', 'addr_state'], dtype='<U19')

# Função de Checkpoint
Vamos criar uma função de checkpoint para salvar em disco os resultados intermediários

In [21]:
def checkpoint (file_name, checkpoint_header, checkpoint_data):
    np.savez(file_name, header = checkpoint_header, data = checkpoint_data)
    checkpoint_variable = np.load(file_name + '.npz')
    return(checkpoint_variable)

In [22]:
checkpoint_inicial = checkpoint('./DSA_Files/45-Cap02/dados/checkpoint_inicial', header_strin, arr_string)

In [23]:
checkpoint_inicial['data']

array([['May-15', 'Current', '36 months', ..., 'Verified', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=48010226', 'CA'],
       ['', 'Current', '36 months', ..., 'Source Verified', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=57693261', 'NY'],
       ['Sep-15', 'Current', '36 months', ..., 'Verified', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=59432726', 'PA'],
       ...,
       ['Jun-15', 'Current', '36 months', ..., 'Source Verified', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=50415990', 'CA'],
       ['Apr-15', 'Current', '36 months', ..., 'Source Verified', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=46154151', 'OH'],
       ['Dec-15', 'Current', '36 months', ..., '', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=66055249', 'IL']], dtype='<U69')

In [24]:
np.array_equal(checkpoint_inicial['data'], arr_string)

True

# Manipulando as colunas String

In [25]:
header_strin

array(['issue_d', 'loan_status', 'term', 'grade', 'sub_grade', 'verification_status', 'url', 'addr_state'], dtype='<U19')

In [26]:
len(header_strin)

8

In [27]:
#modificar o nome da coluna "issue_d" para "issue_date"
header_strin[0] = 'issue_date'
header_strin

array(['issue_date', 'loan_status', 'term', 'grade', 'sub_grade', 'verification_status', 'url', 'addr_state'], dtype='<U19')

In [28]:
arr_string

array([['May-15', 'Current', '36 months', ..., 'Verified', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=48010226', 'CA'],
       ['', 'Current', '36 months', ..., 'Source Verified', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=57693261', 'NY'],
       ['Sep-15', 'Current', '36 months', ..., 'Verified', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=59432726', 'PA'],
       ...,
       ['Jun-15', 'Current', '36 months', ..., 'Source Verified', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=50415990', 'CA'],
       ['Apr-15', 'Current', '36 months', ..., 'Source Verified', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=46154151', 'OH'],
       ['Dec-15', 'Current', '36 months', ..., '', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=66055249', 'IL']], dtype='<U69')

# Pré-processamento da Variável issue_date com Label Encoding

In [29]:
# extrai os valores únicos da variavel
np.unique(arr_string[:,0])

array(['', 'Apr-15', 'Aug-15', 'Dec-15', 'Feb-15', 'Jan-15', 'Jul-15', 'Jun-15', 'Mar-15', 'May-15', 'Nov-15', 'Oct-15', 'Sep-15'], dtype='<U69')

In [30]:
# remover o sufixo "-15" e converter em um array de strings
arr_string[:,0] = np.chararray.strip(arr_string[:,0], '-15')
np.unique(arr_string[:,0])

array(['', 'Apr', 'Aug', 'Dec', 'Feb', 'Jan', 'Jul', 'Jun', 'Mar', 'May', 'Nov', 'Oct', 'Sep'], dtype='<U69')

In [31]:
# Criamos um array com os meses considerando o vazio
meses = np.array(['','Jan','Feb','Mar','Apr','May','Jun','Jul','Aug','Sep','Oct','Nov','Dec'])
meses

array(['', 'Jan', 'Feb', 'Mar', 'Apr', 'May', 'Jun', 'Jul', 'Aug', 'Sep', 'Oct', 'Nov', 'Dec'], dtype='<U3')

In [32]:
# converte meses para números - modo 1
arr_string_modo_1 = arr_string.copy()

for dado in arr_string_modo_1:
    for mes in range(13):
        if dado[0] == meses[mes]:
            dado[0] = mes

arr_string_modo_1[:,0]


array(['5', '0', '9', ..., '6', '4', '12'], dtype='<U69')

In [33]:
# converte meses para números - modo 2
for i in range(13):
    arr_string[:,0] = np.where(arr_string[:,0] == meses[i], i, arr_string[:,0])

arr_string[:,0]

array(['5', '0', '9', ..., '6', '4', '12'], dtype='<U69')

# Pré-processamento da Variável loan_status com Binarização

In [34]:
header_strin

array(['issue_date', 'loan_status', 'term', 'grade', 'sub_grade', 'verification_status', 'url', 'addr_state'], dtype='<U19')

In [35]:
# valores únicos da coluna 'loan_status'
np.unique(arr_string[:,1])

array(['', 'Charged Off', 'Current', 'Default', 'Fully Paid', 'In Grace Period', 'Issued', 'Late (16-30 days)', 'Late (31-120 days)'], dtype='<U69')

In [36]:
# quantidade de elementos únicos
np.unique(arr_string[:,1]).size

9

In [37]:
# seguindo regra de negócio, os itens abaixo são da mesma categoria
status_bad = np.array(['Charged Off', 'Default', 'Late (31-120 days)'])
status_bad

array(['Charged Off', 'Default', 'Late (31-120 days)'], dtype='<U18')

In [38]:
# binarizo a coluna loan_status
arr_string[:,1] = np.where(np.isin(arr_string[:,1], status_bad), 0, 1)
np.unique(arr_string[:,1])

array(['0', '1'], dtype='<U69')

In [39]:
np.unique(arr_string[:,1]).size

2

# Pré-processamento da Variável 'term' com limpeza de String

In [40]:
header_strin

array(['issue_date', 'loan_status', 'term', 'grade', 'sub_grade', 'verification_status', 'url', 'addr_state'], dtype='<U19')

In [41]:
# Extrai os valores únicos da variável
np.unique(arr_string[:,2])

array(['', '36 months', '60 months'], dtype='<U69')

In [42]:
# Removemos a palavra months (observe o espaço antes da palavra)
arr_string[:,2] = np.chararray.strip(arr_string[:,2], " months")
arr_string[:,2]

array(['36', '36', '36', ..., '36', '36', '36'], dtype='<U69')

In [43]:
# Mudamos o título da variável
header_strin[2] = "term_months"

In [44]:
# Substituímos os valores ausentes pelo maior valor, em nosso caso 60
arr_string[:,2] = np.where(arr_string[:,2] == '', '60', arr_string[:,2])

In [45]:
arr_string[:,2]

array(['36', '36', '36', ..., '36', '36', '36'], dtype='<U69')

In [46]:
# Extrai os valores únicos da variável
np.unique(arr_string[:,2])

array(['36', '60'], dtype='<U69')

# Pré-processamento da Variável 'sub_grade' com dicionário

In [47]:
header_strin

array(['issue_date', 'loan_status', 'term_months', 'grade', 'sub_grade', 'verification_status', 'url', 'addr_state'], dtype='<U19')

In [48]:
# todas os distintos de todas as linhas da coluna 3 trazendo todos as linhas a partir da segunda linha até o final do array
unique_grade = np.unique(arr_string[:,3])[1:]
unique_grade

array(['A', 'B', 'C', 'D', 'E', 'F', 'G'], dtype='<U69')

In [49]:
# todas os distintos de todas as linhas da coluna 4
np.unique(arr_string[:,4])

array(['', 'A1', 'A2', 'A3', 'A4', 'A5', 'B1', 'B2', 'B3', 'B4', 'B5', 'C1', 'C2', 'C3', 'C4', 'C5', 'D1', 'D2', 'D3', 'D4', 'D5', 'E1', 'E2', 'E3', 'E4', 'E5', 'F1', 'F2', 'F3', 'F4', 'F5', 'G1',
       'G2', 'G3', 'G4', 'G5'], dtype='<U69')

In [50]:
for grade in np.unique(arr_string[:,3])[1:]:
    arr_string[:,4] = np.where((arr_string[:,4] == '') & (arr_string[:,3] == grade), grade + '5', arr_string[:,4])
display(np.unique(arr_string[:,4], return_counts= True))

(array(['', 'A1', 'A2', 'A3', 'A4', 'A5', 'B1', 'B2', 'B3', 'B4', 'B5', 'C1', 'C2', 'C3', 'C4', 'C5', 'D1', 'D2', 'D3', 'D4', 'D5', 'E1', 'E2', 'E3', 'E4', 'E5', 'F1', 'F2', 'F3', 'F4', 'F5', 'G1',
        'G2', 'G3', 'G4', 'G5'], dtype='<U69'),
 array([  9, 285, 278, 239, 323, 592, 509, 517, 530, 553, 633, 629, 567, 586, 564, 577, 391, 267, 250, 255, 288, 235, 162, 171, 139, 160,  94,  52,  34,  43,  24,  19,  10,   3,   7,   5], dtype=int64))

In [51]:
# Substituímos os valores ausentes por uma nova categoria
arr_string[:,4] = np.where(arr_string[:,4] == '', 'H1', arr_string[:,4])
np.unique(arr_string[:,4])

array(['A1', 'A2', 'A3', 'A4', 'A5', 'B1', 'B2', 'B3', 'B4', 'B5', 'C1', 'C2', 'C3', 'C4', 'C5', 'D1', 'D2', 'D3', 'D4', 'D5', 'E1', 'E2', 'E3', 'E4', 'E5', 'F1', 'F2', 'F3', 'F4', 'F5', 'G1', 'G2',
       'G3', 'G4', 'G5', 'H1'], dtype='<U69')

In [52]:
# Não precisamos mais d variável grade, vamos removê-la
arr_string = np.delete(arr_string, 3, axis= 1)

In [53]:
# Não podemos esquecer de remover a coluna do array de nomes de colunas
header_strin = np.delete(header_strin, 3)

In [54]:
arr_string[:,3]

array(['C3', 'A5', 'B5', ..., 'A5', 'D2', 'A4'], dtype='<U69')

Vamos converter o subgrade em variável numérica usando um dicionario

In [55]:
# Crio uma lista de chaves com os dados únicos
keys = list(np.unique(arr_string[:,3]))
len(keys)

36

In [56]:
# crio uma lista de valores
values = list(range(1, np.unique(arr_string[:,3]).shape[0] + 1))
print(values)

[1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36]


In [57]:
# crio o dicionário
dict_sub_grade = dict(zip(keys, values))
dict_sub_grade

{'A1': 1,
 'A2': 2,
 'A3': 3,
 'A4': 4,
 'A5': 5,
 'B1': 6,
 'B2': 7,
 'B3': 8,
 'B4': 9,
 'B5': 10,
 'C1': 11,
 'C2': 12,
 'C3': 13,
 'C4': 14,
 'C5': 15,
 'D1': 16,
 'D2': 17,
 'D3': 18,
 'D4': 19,
 'D5': 20,
 'E1': 21,
 'E2': 22,
 'E3': 23,
 'E4': 24,
 'E5': 25,
 'F1': 26,
 'F2': 27,
 'F3': 28,
 'F4': 29,
 'F5': 30,
 'G1': 31,
 'G2': 32,
 'G3': 33,
 'G4': 34,
 'G5': 35,
 'H1': 36}

In [58]:
# substituo os valores da coluna pelo seu correspondente
for i in np.unique(arr_string[:,3]):
    arr_string[:,3] = np.where(arr_string[:,3] == i, dict_sub_grade[i], arr_string[:,3])

In [59]:
np.unique(arr_string[:,3])

array(['1', '10', '11', '12', '13', '14', '15', '16', '17', '18', '19', '2', '20', '21', '22', '23', '24', '25', '26', '27', '28', '29', '3', '30', '31', '32', '33', '34', '35', '36', '4', '5', '6',
       '7', '8', '9'], dtype='<U69')

# Pré-processamento da Variável 'verification_status' com Binarização

In [60]:
header_strin

array(['issue_date', 'loan_status', 'term_months', 'sub_grade', 'verification_status', 'url', 'addr_state'], dtype='<U19')

In [61]:
np.unique(arr_string[:,4])

array(['', 'Not Verified', 'Source Verified', 'Verified'], dtype='<U69')

Verificamos que as categorias 'Source Verified' e 'Verified' trazem a mesma informação. Além disso campo nulos podem ser interpretados como 'Not Verified'

In [62]:
# usamos a binarização nessa variável
arr_string[:,4] = np.where((arr_string[:,4] == '') | (arr_string[:,4] == 'Not Verified'), 0, 1)

In [63]:
np.unique(arr_string[:,4])

array(['0', '1'], dtype='<U69')

# Pré-processamento da variável url com extração de ID

In [64]:
np.unique(arr_string[:,5])

array(['https://www.lendingclub.com/browse/loanDetail.action?loan_id=12606806', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=13026045',
       'https://www.lendingclub.com/browse/loanDetail.action?loan_id=1312426', ..., 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=8138291',
       'https://www.lendingclub.com/browse/loanDetail.action?loan_id=8214572', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=849994'], dtype='<U69')

In [65]:
# extraímos o id ao final de cada url
arr_string[:,5] = np.chararray.strip(arr_string[:,5], 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=')
arr_string[:,5]

array(['48010226', '57693261', '59432726', ..., '50415990', '46154151', '66055249'], dtype='<U69')

In [66]:
# converte para numero
arr_string[:,5].astype(dtype= np.int32)

array([48010226, 57693261, 59432726, ..., 50415990, 46154151, 66055249])

In [67]:
# Aparentemente esse id está na primeira coluna do array de string
arr_numeric[:,0].astype(dtype= np.int32)

array([48010226, 57693261, 59432726, ..., 50415990, 46154151, 66055249])

In [68]:
np.array_equal(arr_numeric[:,0].astype(dtype=np.int32), arr_string[:,5].astype(dtype= np.int32))

True

Com o resultado sendo TRUE, temos a confirmação de que são infos iguais

Portanto podemos deletar uma das colunas

In [69]:
arr_string = np.delete(arr_string, 5, axis=1)

In [70]:
header_strin = np.delete(header_strin, 5)

In [71]:
# temos uma nova coluna no índice 5
arr_string[:,5]

array(['CA', 'NY', 'PA', ..., 'CA', 'OH', 'IL'], dtype='<U69')

In [72]:
header_numeric

array(['id', 'loan_amnt', 'funded_amnt', 'int_rate', 'installment', 'total_pymnt'], dtype='<U19')

# Pré-processamento da variável adress com Categorização

In [73]:
header_strin

array(['issue_date', 'loan_status', 'term_months', 'sub_grade', 'verification_status', 'addr_state'], dtype='<U19')

In [74]:
# renomeando a coluna
header_strin[5] = 'state_address'

In [75]:
header_strin

array(['issue_date', 'loan_status', 'term_months', 'sub_grade', 'verification_status', 'state_address'], dtype='<U19')

In [76]:
# Extraio os nomes únicos e a quantidade de repetições
states_names, states_count = np.unique(arr_string[:,5], return_counts=True)
print(f'State Names: {states_names}')
print(f'State Count: {states_count}')

State Names: ['' 'AK' 'AL' 'AR' 'AZ' 'CA' 'CO' 'CT' 'DC' 'DE' 'FL' 'GA' 'HI' 'IL' 'IN' 'KS' 'KY' 'LA' 'MA' 'MD' 'ME' 'MI' 'MN' 'MO' 'MS' 'MT' 'NC' 'ND' 'NE' 'NH' 'NJ' 'NM' 'NV' 'NY' 'OH' 'OK' 'OR' 'PA' 'RI' 'SC'
 'SD' 'TN' 'TX' 'UT' 'VA' 'VT' 'WA' 'WI' 'WV' 'WY']
State Count: [ 500   26  119   74  220 1336  201  143   27   27  690  321   44  389  152   84   84  116  210  222   10  267  156  160   61   28  261   16   25   58  341   57  130  777  312   83  108  320   40
  107   24  143  758   74  242   17  216  148   49   27]


In [77]:
# Classifico a contagem em ordem decrescente
states_count_sorted = np.argsort(-states_count)

In [78]:
states_names[states_count_sorted], states_count[states_count_sorted]

(array(['CA', 'NY', 'TX', 'FL', '', 'IL', 'NJ', 'GA', 'PA', 'OH', 'MI', 'NC', 'VA', 'MD', 'AZ', 'WA', 'MA', 'CO', 'MO', 'MN', 'IN', 'WI', 'CT', 'TN', 'NV', 'AL', 'LA', 'OR', 'SC', 'KY', 'KS', 'OK',
        'UT', 'AR', 'MS', 'NH', 'NM', 'WV', 'HI', 'RI', 'MT', 'DE', 'DC', 'WY', 'AK', 'NE', 'SD', 'VT', 'ND', 'ME'], dtype='<U69'),
 array([1336,  777,  758,  690,  500,  389,  341,  321,  320,  312,  267,  261,  242,  222,  220,  216,  210,  201,  160,  156,  152,  148,  143,  143,  130,  119,  116,  108,  107,   84,   84,   83,
          74,   74,   61,   58,   57,   49,   44,   40,   28,   27,   27,   27,   26,   25,   24,   17,   16,   10], dtype=int64))

In [79]:
arr_string[:,5] = np.where(arr_string[:,5] == '', 0, arr_string[:,5])

Vamos separar os estados por regiões. Referência:
https://www2.census.gov/geo/pdfs/maps-data/maps/reference/us_regdiv.pdf

In [80]:
# Separamos os estados por regiões
states_west = np.array(['WA', 'OR','CA','NV','ID','MT', 'WY','UT','CO', 'AZ','NM','HI','AK'])
states_south = np.array(['TX','OK','AR','LA','MS','AL','TN','KY','FL','GA','SC','NC','VA','WV','MD','DE','DC'])
states_midwest = np.array(['ND','SD','NE','KS','MN','IA','MO','WI','IL','IN','MI','OH'])
states_east = np.array(['PA','NY','NJ','CT','MA','VT','NH','ME','RI'])

In [81]:
# Substituímos os estados pela sua região
arr_string[:,5] = np.where(np.isin(arr_string[:,5], states_west), 1, arr_string[:,5])
arr_string[:,5] = np.where(np.isin(arr_string[:,5], states_south), 2, arr_string[:,5])
arr_string[:,5] = np.where(np.isin(arr_string[:,5], states_midwest), 3, arr_string[:,5])
arr_string[:,5] = np.where(np.isin(arr_string[:,5], states_east), 4, arr_string[:,5])

In [82]:
np.unique(arr_string[:,5])

array(['0', '1', '2', '3', '4'], dtype='<U69')

In [83]:
arr_string

array([['5', '1', '36', '13', '1', '1'],
       ['0', '1', '36', '5', '1', '4'],
       ['9', '1', '36', '10', '1', '4'],
       ...,
       ['6', '1', '36', '5', '1', '1'],
       ['4', '1', '36', '17', '1', '3'],
       ['12', '1', '36', '4', '0', '3']], dtype='<U69')

Notamos que o array de string foi totalmente transformado para um array numérico. Cabe a nós então realizar a conversão necessária:

In [84]:
arr_string = arr_string.astype(int)

In [85]:
arr_string

array([[ 5,  1, 36, 13,  1,  1],
       [ 0,  1, 36,  5,  1,  4],
       [ 9,  1, 36, 10,  1,  4],
       ...,
       [ 6,  1, 36,  5,  1,  1],
       [ 4,  1, 36, 17,  1,  3],
       [12,  1, 36,  4,  0,  3]])

In [86]:
arr_string.dtype

dtype('int32')

In [87]:
header_strin

array(['issue_date', 'loan_status', 'term_months', 'sub_grade', 'verification_status', 'state_address'], dtype='<U19')

# Manipulação de Variáveis Numéricas

In [88]:
arr_numeric

array([[48010226.  ,    35000.  ,    35000.  ,       13.33,     1184.86,     9452.96],
       [57693261.  ,    30000.  ,    30000.  , 68616520.  ,      938.57,     4679.7 ],
       [59432726.  ,    15000.  ,    15000.  , 68616520.  ,      494.86,     1969.83],
       ...,
       [50415990.  ,    10000.  ,    10000.  , 68616520.  , 68616520.  ,     2185.64],
       [46154151.  , 68616520.  ,    10000.  ,       16.55,      354.3 ,     3199.4 ],
       [66055249.  ,    10000.  ,    10000.  , 68616520.  ,      309.97,      301.9 ]])

In [89]:
header_numeric

array(['id', 'loan_amnt', 'funded_amnt', 'int_rate', 'installment', 'total_pymnt'], dtype='<U19')

In [90]:
# Verica-se se existem valores nulos
np.isnan(arr_numeric).sum()

0

Ao carregar os dados, os valores ausentes foram substituídos por um valor coringa

In [91]:
valor_coringa

68616520.0

In [92]:
# Podemos checar se uma coluna foi preenchida com o valor coringa
np.isin(arr_numeric[:,0], valor_coringa)

array([False, False, False, ..., False, False, False])

In [93]:
np.isin(arr_numeric[:,0], valor_coringa).sum()

0

Vamos criar um array de estatísticas com valor máximo, mínimo e média

In [94]:
arr_stats = np.array([np.nanmin(dados, axis = 0), media_colunas_ignorando_nan, np.nanmax(dados, axis = 0)])
print(arr_stats)

[[  373332.           nan     1000.           nan     1000.           nan        6.         31.42         nan         nan         nan         nan         nan        0.  ]
 [54015809.19         nan    15273.46         nan    15311.04         nan       16.62      440.92         nan         nan         nan         nan         nan     3143.85]
 [68616519.           nan    35000.           nan    35000.           nan       28.99     1372.97         nan         nan         nan         nan         nan    41913.62]]


In [95]:
arr_stats[:,colunas_numericas]

array([[  373332.  ,     1000.  ,     1000.  ,        6.  ,       31.42,        0.  ],
       [54015809.19,    15273.46,    15311.04,       16.62,      440.92,     3143.85],
       [68616519.  ,    35000.  ,    35000.  ,       28.99,     1372.97,    41913.62]])

# Pré-processamento da Variável funded_amnt

In [96]:
arr_numeric[:,2]

array([35000., 30000., 15000., ..., 10000., 10000., 10000.])

In [97]:
arr_stats[0, colunas_numericas[2]]

1000.0

In [98]:
arr_numeric[:,2] = np.where(arr_numeric[:,2] == valor_coringa, arr_stats[0,colunas_numericas[2]], arr_numeric[:,2])
arr_numeric[:,2]

array([35000., 30000., 15000., ..., 10000., 10000., 10000.])

# Pré-processamento das variáveis loan_amnt, int_rate, installment e total_pymnt

In [99]:
# loop para substituir o valor ausente (valor_coringa) pelos valores do array de estatísticas
for i in [1,2,3,4,5]:
    arr_numeric[:,i] = np.where(
        arr_numeric[:,i] == valor_coringa,
        arr_stats[2,colunas_numericas[i]],
        arr_numeric[:,i]
    )
arr_numeric

array([[48010226.  ,    35000.  ,    35000.  ,       13.33,     1184.86,     9452.96],
       [57693261.  ,    30000.  ,    30000.  ,       28.99,      938.57,     4679.7 ],
       [59432726.  ,    15000.  ,    15000.  ,       28.99,      494.86,     1969.83],
       ...,
       [50415990.  ,    10000.  ,    10000.  ,       28.99,     1372.97,     2185.64],
       [46154151.  ,    35000.  ,    10000.  ,       16.55,      354.3 ,     3199.4 ],
       [66055249.  ,    10000.  ,    10000.  ,       28.99,      309.97,      301.9 ]])