# Intrudução

## Pré-processamento de dados com Numpy

- O pré-processamento é uma das estapas premilimares à Análise Exploratória ou Machine Learning, e, é condizida diferentemente para cada um destes objetivos.

Neste trabalho, o pré-processamento será realizado até a codificação dos dados. Para que possa ser submetido à um algoritmo de ML, ainda seria necessário, dentro da etapa de pré-processamento, a normalização ou padronização dos dados. E, depois, as etapdas seguintes, como a própria análise exploratória (em busca de padrões), feature selection, etc.

### Fonte dos dados:

Fonte: https://www.openintro.org/data/index.php?data=loans_full_schema

Descrição: 

Esse conjunto de dados representa milhares de empréstimos feitos por meio da plataforma Lending Club, que é uma plataforma que permite que indivíduos emprestem a outros indivíduos. Claro, nem todos os empréstimos são criados iguais. Alguém que é essencialmente uma aposta certa para pagar um empréstimo terá mais facilidade em obter um empréstimo com uma taxa de juros baixa do que alguém que parece ser mais arriscado. 

E para pessoas que são muito arriscadas? Eles podem nem receber uma oferta de empréstimo ou podem não ter aceitado a oferta de empréstimo devido a uma alta taxa de juros. É importante ter em mente essa última parte, pois esse conjunto de dados representa apenas os empréstimos realmente feitos, ou seja, não confunda esses dados com pedidos de empréstimo!

### Preparação do ambiente.

In [1]:
# imports
import numpy as np
import os
import warnings
from random import randint

In [2]:
# Configurações
warnings.filterwarnings('ignore')
np.set_printoptions(suppress=True,
                   precision = 2,
                   linewidth=200)

In [3]:
# Função para explorar o diretório
def listFiles():
    diretorio = os.getcwd()
    if os.path.isdir(diretorio):
        arquivo = [arquivo for arquivo in os.listdir(diretorio) if os.path.isfile(os.path.join(diretorio, arquivo))]
        for i in arquivo:
            print(i)

In [4]:
# função para checkPoint dos dados
def checkPoint(filename, checkPointHeader, checkPointData):
    np.savez(file=filename, header = checkPointHeader, data = checkPointData)
    variables = np.load(filename + '.npz')
    return(variables)

### Carga dos dados



In [5]:
# Listando arquivos do diretório
listFiles()

.npz
catDataCheckPointFinal.npz
catDataCheckPoint_1.npz
categoricos.npz
charData.npz
DataMunging com Numpy.ipynb
dataset1.csv
dataset2.csv
dataSetProcessado.csv
EstudoCasoNumpy_pratica.ipynb
EstudoDeCasoNumpy_pratica1.ipynb
EstudoDeCasoNumpy_pratica2.ipynb
EstudoDeCasoNumpy_pratica3.ipynb
EstudoDeCasoNumpy_pratica_4.ipynb
EstudoDeCasoNumpy_pratica_5.ipynb
firstCheckPoint.npz
numDataCheckPoint.npz
numDataCheckPointFinal.npz
numDataCheckPoint_1.npz
numericData.npz
outFile.npz
stringDataFinal.npz


In [6]:
# Carga
dados = np.genfromtxt(fname='dataset1.csv',
                      encoding='cp1252',
                      delimiter=";",
                      autostrip=True,
                      skip_header=1
                      )

In [7]:
# Visualizando
dados.view()

array([[48010226.  ,         nan,    35000.  , ...,         nan,         nan,     9452.96],
       [57693261.  ,         nan,    30000.  , ...,         nan,         nan,     4679.7 ],
       [59432726.  ,         nan,    15000.  , ...,         nan,         nan,     1969.83],
       ...,
       [50415990.  ,         nan,    10000.  , ...,         nan,         nan,     2185.64],
       [46154151.  ,         nan,         nan, ...,         nan,         nan,     3199.4 ],
       [66055249.  ,         nan,    10000.  , ...,         nan,         nan,      301.9 ]])

Existem colunas com valorea nan. Para facilitar o tratamento, faremos o split da base em dados numéricos e categóricos.

#### Tratamento de dados categóricos

Identificação das variáveis numéricas e categóricas

In [8]:
# Buscando indices
index = np.nanmean(dados, axis=0)
index

array([54015809.19,         nan,    15273.46,         nan,    15311.04,         nan,       16.62,      440.92,         nan,         nan,         nan,         nan,         nan,     3143.85])

In [9]:
# Identificando indices de variáveis categóricas

catIndex = np.argwhere(np.isnan(index)).squeeze()
catIndex

array([ 1,  3,  5,  8,  9, 10, 11, 12], dtype=int64)

Carga dos dados categóricos e labels das variáveis

In [10]:
# Carregando dados
catData = np.genfromtxt(fname='dataset1.csv',
                       encoding='cp1252',
                       delimiter=';',
                       skip_header=1,
                       autostrip=True,
                       usecols=catIndex,
                       dtype=str)
catData.view()

array([['May-15', 'Current', '36 months', ..., 'Verified', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=48010226', 'CA'],
       ['', 'Current', '36 months', ..., 'Source Verified', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=57693261', 'NY'],
       ['Sep-15', 'Current', '36 months', ..., 'Verified', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=59432726', 'PA'],
       ...,
       ['Jun-15', 'Current', '36 months', ..., 'Source Verified', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=50415990', 'CA'],
       ['Apr-15', 'Current', '36 months', ..., 'Source Verified', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=46154151', 'OH'],
       ['Dec-15', 'Current', '36 months', ..., '', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=66055249', 'IL']], dtype='<U69')

In [11]:
# Carregando labels
catDataLabels = np.genfromtxt(fname='dataset1.csv',
                       encoding='cp1252',
                       delimiter=';',
                       skip_footer= dados.shape[0],
                       autostrip=True,
                       usecols=catIndex,
                       dtype=str)
catDataLabels.view()

array(['issue_d', 'loan_status', 'term', 'grade', 'sub_grade', 'verification_status', 'url', 'addr_state'], dtype='<U19')

In [12]:
# Checkpoit dos dados numéricos
catDataCheckPoint = checkPoint(filename='catDataCheckPoint_1', checkPointHeader= catDataLabels, checkPointData=catData)

**Iniciando tratamento da variáveil de índice = 0**

In [13]:
# Visualizando
catDataLabels[0]

'issue_d'

In [14]:
# Editando
catDataLabels[0] == "issue_date"

False

In [15]:
# Visualizando dados únicos
catData[:, 0]

array(['May-15', '', 'Sep-15', ..., 'Jun-15', 'Apr-15', 'Dec-15'], dtype='<U69')

Representam datas com mês e dia. Ficaremos somente com os meses.

In [16]:
# Strip dos elementos numéricos
catData[:, 0] = np.chararray.strip(catData[:, 0], '-15')

#Visualizando
np.unique(catData[:, 0])

array(['', 'Apr', 'Aug', 'Dec', 'Feb', 'Jan', 'Jul', 'Jun', 'Mar', 'May', 'Nov', 'Oct', 'Sep'], dtype='<U69')

**Codificação**

In [17]:
#OBS: as intâncias com valor faltante serão identificadas com = 0

# Referência
meses = np.array(['', 'Apr', 'Aug', 'Dec', 'Feb', 'Jan', 'Jul', 'Jun', 'Mar', 'May', 'Nov', 'Oct', 'Sep'])

#Loop
for i in range(0, len(meses)):
    
    catData[:, 0] = np.where(catData[:, 0] == meses[i], i, catData[:, 0])

In [18]:
# Visualização
np.unique(catData[:, 0])

array(['0', '1', '10', '11', '12', '2', '3', '4', '5', '6', '7', '8', '9'], dtype='<U69')

**Iniciando tratamento da variáveil de índice = 1**

In [19]:
# Visualização
catDataLabels[1]

'loan_status'

In [20]:
# Visualização dos dados
np.unique(catData[:, 1])

array(['', 'Charged Off', 'Current', 'Default', 'Fully Paid', 'In Grace Period', 'Issued', 'Late (16-30 days)', 'Late (31-120 days)'], dtype='<U69')

**Codificação**

In [21]:
# Empréstimo bom/ruim

badLoan = np.array([" ", "Charged Off", "Default", "Late (31-120 days)"])

catData[:, 1] = np.where(np.isin(catData[:, 1], badLoan), 0, 1)

In [22]:
# Visualização
np.unique(catData[:, 1])

array(['0', '1'], dtype='<U69')

**Iniciando tratamento da variáveil de índice = 2**

In [23]:
#Visualização
catDataLabels[2]

'term'

In [24]:
# Visualizção dos dados
np.unique(catData[:, 2])

array(['', '36 months', '60 months'], dtype='<U69')

In [25]:
# Striop dos caracteres
catData[:, 2] = np.chararray.strip(catData[:,2], " months")

#Visualização
np.unique(catData[:, 2])

array(['', '36', '60'], dtype='<U69')

**Codificação**

- Neste caso, será necessário somente o preenchimento do valor faltante

In [26]:
# Aplicação

catData[:, 2] = np.where(catData[:, 2] == "", 60, catData[:, 2])

#Visualização
np.unique(catData[:, 2])

array(['36', '60'], dtype='<U69')

**Iniciando tratamento das variáveis dos índices = 3 e 4**

In [27]:
# Visualização
print(catDataLabels[3])
print(catDataLabels[4])

grade
sub_grade


Na leitura dos dados, antes do carregamento, constatou-se tratar da mesma informação, mas, dispostas de formas diferentes.

In [28]:
print(np.unique(catData[:, 3]))
print("____________")
print("\n")
print(np.unique(catData[:, 4]))

['' 'A' 'B' 'C' 'D' 'E' 'F' 'G']
____________


['' 'A1' 'A2' 'A3' 'A4' 'A5' 'B1' 'B2' 'B3' 'B4' 'B5' 'C1' 'C2' 'C3' 'C4' 'C5' 'D1' 'D2' 'D3' 'D4' 'D5' 'E1' 'E2' 'E3' 'E4' 'E5' 'F1' 'F2' 'F3' 'F4' 'F5' 'G1' 'G2' 'G3' 'G4' 'G5']


Por representar informação mais detalhada, ficaremos com a subgrade.

- Vamos preencher o valor faltante da subgrade, criando um numeral = 10, concatenando com a letra correspondente.

In [29]:
# Preenchimento

for i in np.unique(catData[:, 3])[1:]:
    
    catData[:, 4] = np.where((catData[:, 4] == "") & (catData[:, 3] == i), i + "10", catData[:, 4])

In [30]:
# Visualização

np.unique(catData[:, 4])

array(['', 'A1', 'A10', 'A2', 'A3', 'A4', 'A5', 'B1', 'B10', 'B2', 'B3', 'B4', 'B5', 'C1', 'C10', 'C2', 'C3', 'C4', 'C5', 'D1', 'D10', 'D2', 'D3', 'D4', 'D5', 'E1', 'E10', 'E2', 'E3', 'E4', 'E5',
       'F1', 'F10', 'F2', 'F3', 'F4', 'F5', 'G1', 'G10', 'G2', 'G3', 'G4', 'G5'], dtype='<U69')

In [31]:
# Preenchendo o valor faltante com "H10"

catData[:, 4] = np.where(catData[:, 4] == "", "H10", catData[:, 4])

# Visualização

np.unique(catData[:, 4])

array(['A1', 'A10', 'A2', 'A3', 'A4', 'A5', 'B1', 'B10', 'B2', 'B3', 'B4', 'B5', 'C1', 'C10', 'C2', 'C3', 'C4', 'C5', 'D1', 'D10', 'D2', 'D3', 'D4', 'D5', 'E1', 'E10', 'E2', 'E3', 'E4', 'E5', 'F1',
       'F10', 'F2', 'F3', 'F4', 'F5', 'G1', 'G10', 'G2', 'G3', 'G4', 'G5', 'H10'], dtype='<U69')

Remoção do array 3 co conjunto de dados e do array de labels

In [32]:
# Remoção do conjunto de dados
catData = np.delete(catData, 3, axis=1)

In [33]:
# Remoção do conjunto de labels
catDataLabels = np.delete(catDataLabels, 3)

OBS: agora, a variável sub_grade é a de índice 3.

**Codificação**

In [34]:
# Criando dicionário com elementos

key = list(np.unique(catData[:, 3]))

value = list(range(1, len(np.unique(catData[:, 3]))+1))

#Dicionário 
dictSub_grade = dict(zip(key, value))

#Visualização
dictSub_grade

{'A1': 1,
 'A10': 2,
 'A2': 3,
 'A3': 4,
 'A4': 5,
 'A5': 6,
 'B1': 7,
 'B10': 8,
 'B2': 9,
 'B3': 10,
 'B4': 11,
 'B5': 12,
 'C1': 13,
 'C10': 14,
 'C2': 15,
 'C3': 16,
 'C4': 17,
 'C5': 18,
 'D1': 19,
 'D10': 20,
 'D2': 21,
 'D3': 22,
 'D4': 23,
 'D5': 24,
 'E1': 25,
 'E10': 26,
 'E2': 27,
 'E3': 28,
 'E4': 29,
 'E5': 30,
 'F1': 31,
 'F10': 32,
 'F2': 33,
 'F3': 34,
 'F4': 35,
 'F5': 36,
 'G1': 37,
 'G10': 38,
 'G2': 39,
 'G3': 40,
 'G4': 41,
 'G5': 42,
 'H10': 43}

In [35]:
# Aplicando 
for i in np.unique(catData[:, 3]):
    
    catData[:, 3] = np.where(catData[:, 3] == i, dictSub_grade[i], catData[:, 3])

In [36]:
# Visualização

np.unique(catData[:, 3])

array(['1', '10', '11', '12', '13', '14', '15', '16', '17', '18', '19', '2', '20', '21', '22', '23', '24', '25', '26', '27', '28', '29', '3', '30', '31', '32', '33', '34', '35', '36', '37', '38',
       '39', '4', '40', '41', '42', '43', '5', '6', '7', '8', '9'], dtype='<U69')

**Iniciando tratamento da variávei do índice = 4**

In [37]:
# Visualização
catDataLabels[4]

'verification_status'

In [38]:
# Visualização de dados
np.unique(catData[:, 4])

array(['', 'Not Verified', 'Source Verified', 'Verified'], dtype='<U69')

**Codificação**

- Ao valor ausente, atribuiremos o status de não verificado = 0

In [39]:
# Aplicando

notVerified = np.array(['', "Not Verified"])

catData[:, 4] = np.where(np.isin(catData[:, 4], notVerified), 0, 1)

In [40]:
#Visualizando
np.unique(catData[:, 4])

array(['0', '1'], dtype='<U69')

**Iniciando tratamento da variávei do índice = 5**

In [41]:
# Visualizando
catDataLabels[5]

'url'

In [42]:
#Visualizando dados
np.unique(catData[:, 5])

array(['https://www.lendingclub.com/browse/loanDetail.action?loan_id=12606806', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=13026045',
       'https://www.lendingclub.com/browse/loanDetail.action?loan_id=1312426', ..., 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=8138291',
       'https://www.lendingclub.com/browse/loanDetail.action?loan_id=8214572', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=849994'], dtype='<U69')

In [43]:
# Strip da url (extração do id=)
catData[:, 5] = np.chararray.strip(catData[:, 5], "https://www.lendingclub.com/browse/loanDetail.action?loan_id=")

# Visualizando
np.unique(catData[:, 5])

array(['12606806', '13026045', '1312426', ..., '8138291', '8214572', '849994'], dtype='<U69')

OBS: conforme leitura dos dados realizada antes da carga, esta variável parece retornar os mesmos dados que a variável "id", que ainda carregaremos na variável de dados numéricos.

Por isso, verificamos, após carregar os dados numéricos, se esta variável ainda é necessária.

**Iniciando tratamento da variávei do índice = 6**

In [44]:
# Visualização
catDataLabels[6]

'addr_state'

In [45]:
# Dados
np.unique(catData[:, 6])

array(['', 'AK', 'AL', 'AR', 'AZ', 'CA', 'CO', 'CT', 'DC', 'DE', 'FL', 'GA', 'HI', 'IL', 'IN', 'KS', 'KY', 'LA', 'MA', 'MD', 'ME', 'MI', 'MN', 'MO', 'MS', 'MT', 'NC', 'ND', 'NE', 'NH', 'NJ', 'NM',
       'NV', 'NY', 'OH', 'OK', 'OR', 'PA', 'RI', 'SC', 'SD', 'TN', 'TX', 'UT', 'VA', 'VT', 'WA', 'WI', 'WV', 'WY'], dtype='<U69')

In [46]:
# Preenchendo o valor faltante com 0
catData[:, 6] = np.where(catData[:, 6] == "", 0, catData[:, 6])

#  Visualizção
np.unique(catData[:, 6])

array(['0', 'AK', 'AL', 'AR', 'AZ', 'CA', 'CO', 'CT', 'DC', 'DE', 'FL', 'GA', 'HI', 'IL', 'IN', 'KS', 'KY', 'LA', 'MA', 'MD', 'ME', 'MI', 'MN', 'MO', 'MS', 'MT', 'NC', 'ND', 'NE', 'NH', 'NJ', 'NM',
       'NV', 'NY', 'OH', 'OK', 'OR', 'PA', 'RI', 'SC', 'SD', 'TN', 'TX', 'UT', 'VA', 'VT', 'WA', 'WI', 'WV', 'WY'], dtype='<U69')

**Codificação**

- A codificação será feita de acordo com a região, e não por estado.

In [47]:
# Agrupamento estados e regiões

states_west = np.array(['WA', 'OR','CA','NV','ID','MT', 'WY','UT','CO', 'AZ','NM','HI','AK'])
states_south = np.array(['TX','OK','AR','LA','MS','AL','TN','KY','FL','GA','SC','NC','VA','WV','MD','DE','DC'])
states_midwest = np.array(['ND','SD','NE','KS','MN','IA','MO','WI','IL','IN','MI','OH'])
states_east = np.array(['PA','NY','NJ','CT','MA','VT','NH','ME','RI'])

In [48]:
# Agrupando regiões

regions = [states_west, states_south, states_midwest, states_east]

In [49]:
# Aplicando loop

for i, region in enumerate(regions):
    
    catData[:, 6] = np.where(np.isin(catData[:, 6], region), i, catData[:, 6])

In [50]:
# Visualização
np.unique(catData[:, 6])

array(['0', '1', '2', '3'], dtype='<U69')

**A codificação dos dados categóricos foi finalizada**

- Transformar o tipo dos dados
- Fazer um checkPoint

In [51]:
# Visualização
catData.view()

array([['9', '1', '36', ..., '1', '48010226', '0'],
       ['0', '1', '36', ..., '1', '57693261', '3'],
       ['12', '1', '36', ..., '1', '59432726', '3'],
       ...,
       ['7', '1', '36', ..., '1', '50415990', '0'],
       ['1', '1', '36', ..., '1', '46154151', '2'],
       ['3', '1', '36', ..., '0', '66055249', '2']], dtype='<U69')

In [52]:
# Transfornmação

catData = catData.astype(dtype = 'int64')

# Visualização
catData.dtype

dtype('int64')

In [53]:
# checkPOint

catDataCheckPointFinal = checkPoint(filename='catDataCheckPointFinal', checkPointHeader=catDataLabels, checkPointData=catData)

In [54]:
# visualizando checkPointData
catDataCheckPointFinal['data']

array([[       9,        1,       36, ...,        1, 48010226,        0],
       [       0,        1,       36, ...,        1, 57693261,        3],
       [      12,        1,       36, ...,        1, 59432726,        3],
       ...,
       [       7,        1,       36, ...,        1, 50415990,        0],
       [       1,        1,       36, ...,        1, 46154151,        2],
       [       3,        1,       36, ...,        0, 66055249,        2]], dtype=int64)

In [55]:
# Visualizando headers
catDataCheckPointFinal['header']

array(['issue_d', 'loan_status', 'term', 'sub_grade', 'verification_status', 'url', 'addr_state'], dtype='<U19')

#### Tratamento de dados numéricos

In [56]:
# Identificando indices de variáveis numéricas

numIndex = np.argwhere(np.isnan(index) == False).squeeze()
numIndex

array([ 0,  2,  4,  6,  7, 13], dtype=int64)

Carga dos dados e labels

In [57]:
# Carregando dados
numData = np.genfromtxt(fname='dataset1.csv',
                       encoding='cp1252',
                       delimiter=';',
                       skip_header=1,
                       autostrip=True,
                       usecols=numIndex)
numData.view()

array([[48010226.  ,    35000.  ,    35000.  ,       13.33,     1184.86,     9452.96],
       [57693261.  ,    30000.  ,    30000.  ,         nan,      938.57,     4679.7 ],
       [59432726.  ,    15000.  ,    15000.  ,         nan,      494.86,     1969.83],
       ...,
       [50415990.  ,    10000.  ,    10000.  ,         nan,         nan,     2185.64],
       [46154151.  ,         nan,    10000.  ,       16.55,      354.3 ,     3199.4 ],
       [66055249.  ,    10000.  ,    10000.  ,         nan,      309.97,      301.9 ]])

Os dados possuem nan. Para manter a estrutura, até a junção dos dados, atribuíremos um valor arbitrário aos nan's, e, depois, será tratados

In [58]:
# Obtendo valor arbitrário
arbitrario = np.nanmax(dados) *2
arbitrario

137233038.0

In [59]:
# Recarga dos dados, com preenchimento de valores

numData = np.genfromtxt(fname='dataset1.csv',
                       encoding='cp1252',
                       delimiter=';',
                       skip_header=1,
                       autostrip=True,
                       usecols=numIndex,
                       filling_values=arbitrario)

#Visualização
numData.view()

array([[4.80e+07, 3.50e+04, 3.50e+04, 1.33e+01, 1.18e+03, 9.45e+03],
       [5.77e+07, 3.00e+04, 3.00e+04, 1.37e+08, 9.39e+02, 4.68e+03],
       [5.94e+07, 1.50e+04, 1.50e+04, 1.37e+08, 4.95e+02, 1.97e+03],
       ...,
       [5.04e+07, 1.00e+04, 1.00e+04, 1.37e+08, 1.37e+08, 2.19e+03],
       [4.62e+07, 1.37e+08, 1.00e+04, 1.66e+01, 3.54e+02, 3.20e+03],
       [6.61e+07, 1.00e+04, 1.00e+04, 1.37e+08, 3.10e+02, 3.02e+02]])

In [60]:
# Conferindo
np.isnan(numData).sum()

0

In [61]:
# Conferindo se o id foi preenchido com valor arbitrário

np.isin(numData[:, 0], arbitrario).sum()

0

Carregando labels dos dados numéricos

In [62]:
# Carregando labels
numDataLabels = np.genfromtxt(fname='dataset1.csv',
                       encoding='cp1252',
                       delimiter=';',
                       skip_footer= dados.shape[0],
                       autostrip=True,
                       usecols=numIndex,
                       dtype=str)
numDataLabels.view()

array(['id', 'loan_amnt', 'funded_amnt', 'int_rate', 'installment', 'total_pymnt'], dtype='<U11')

In [63]:
# CheckPoint

numDataCheckPoint = checkPoint(filename="numDataCheckPoint", checkPointHeader=numDataLabels, checkPointData= numData)

**Iniciando tratamento do valor arbitrário**

In [64]:
# Calculando estatísticas

estatisticas = np.array([np.nanmax(dados, axis = 0), index, np.nanmin(dados, axis= 0)])

#Visualizando
estatisticas

array([[68616519.  ,         nan,    35000.  ,         nan,    35000.  ,         nan,       28.99,     1372.97,         nan,         nan,         nan,         nan,         nan,    41913.62],
       [54015809.19,         nan,    15273.46,         nan,    15311.04,         nan,       16.62,      440.92,         nan,         nan,         nan,         nan,         nan,     3143.85],
       [  373332.  ,         nan,     1000.  ,         nan,     1000.  ,         nan,        6.  ,       31.42,         nan,         nan,         nan,         nan,         nan,        0.  ]])

In [65]:
# Filtrando - variáveis numéricas
estatisticas = estatisticas[:, numIndex]

#Visualização - retirando o id
estatisticas

array([[68616519.  ,    35000.  ,    35000.  ,       28.99,     1372.97,    41913.62],
       [54015809.19,    15273.46,    15311.04,       16.62,      440.92,     3143.85],
       [  373332.  ,     1000.  ,     1000.  ,        6.  ,       31.42,        0.  ]])

In [66]:
estatisticas.shape

(3, 6)

**Substituição do valor arbitrário**

In [67]:
for i in [1,2,3,4, 5]:
    
    numData[:, i] = np.where(numData[:, i] == arbitrario,
                            estatisticas[randint(0,2),[i]],
                            numData[:, i])

In [68]:
# Visualização
numData.view()

array([[48010226.  ,    35000.  ,    35000.  ,       13.33,     1184.86,     9452.96],
       [57693261.  ,    30000.  ,    30000.  ,       28.99,      938.57,     4679.7 ],
       [59432726.  ,    15000.  ,    15000.  ,       28.99,      494.86,     1969.83],
       ...,
       [50415990.  ,    10000.  ,    10000.  ,       28.99,      440.92,     2185.64],
       [46154151.  ,    35000.  ,    10000.  ,       16.55,      354.3 ,     3199.4 ],
       [66055249.  ,    10000.  ,    10000.  ,       28.99,      309.97,      301.9 ]])

In [69]:
np.isin(numData, arbitrario).sum(axis = 0)

array([0, 0, 0, 0, 0, 0])

**O tratamento das variáveis numéricas terminou**

- formato dos dados
- checkPoint dos dados

In [70]:
# checkPoint
numDataCheckPointFinal = checkPoint(filename='numDataCheckPointFinal', checkPointHeader=numDataLabels, checkPointData=numData)

In [71]:
# Conferindo

print(numDataCheckPointFinal['data'])
print("________\n")
print(numDataCheckPointFinal['header'])

[[48010226.      35000.      35000.         13.33     1184.86     9452.96]
 [57693261.      30000.      30000.         28.99      938.57     4679.7 ]
 [59432726.      15000.      15000.         28.99      494.86     1969.83]
 ...
 [50415990.      10000.      10000.         28.99      440.92     2185.64]
 [46154151.      35000.      10000.         16.55      354.3      3199.4 ]
 [66055249.      10000.      10000.         28.99      309.97      301.9 ]]
________

['id' 'loan_amnt' 'funded_amnt' 'int_rate' 'installment' 'total_pymnt']


### Preparação do dataset final



In [72]:
# Conferindo variáveis duplicadas

np.all(np.equal(catDataCheckPointFinal['data'][:, 5].astype(float), numDataCheckPointFinal['data'][:, 0]))

True

A comparação retornou que os arrays são identicos, portanto, eliminaremos o array de indice 5 do array de categorias.

In [73]:
# Deletando direto no checkPoint - dados
catDataFinal = np.delete(catDataCheckPointFinal['data'], 5, axis = 1)

# Visualização
catDataFinal.view()

array([[ 9,  1, 36, 16,  1,  0],
       [ 0,  1, 36,  6,  1,  3],
       [12,  1, 36, 12,  1,  3],
       ...,
       [ 7,  1, 36,  6,  1,  0],
       [ 1,  1, 36, 21,  1,  2],
       [ 3,  1, 36,  5,  0,  2]], dtype=int64)

In [74]:
# Deletando direto no checkPoint - header
catDataLabelsFinal = np.delete(catDataCheckPointFinal['header'], 5)

#Visualização
catDataLabelsFinal

array(['issue_d', 'loan_status', 'term', 'sub_grade', 'verification_status', 'addr_state'], dtype='<U19')

In [75]:
# Arrays numéricos
numDataFinal = numDataCheckPointFinal['data']
numDataLabelsFinal = numDataCheckPointFinal['header']

In [76]:
catDataLabelsFinal.shape

(6,)

In [77]:
numDataLabelsFinal

array(['id', 'loan_amnt', 'funded_amnt', 'int_rate', 'installment', 'total_pymnt'], dtype='<U11')

**Iniciando união dos datasets**

In [78]:
# Condefindo dimensões
print("Arrays numéricos: \n")
print(numDataFinal.shape)
print("Arrays categorias: \n")
print(catDataFinal.shape)

Arrays numéricos: 

(10000, 6)
Arrays categorias: 

(10000, 6)


In [79]:
#Aplicando
datasetFinal = np.hstack((numDataFinal, catDataFinal))

#Visualizando
datasetFinal.view()

array([[48010226.,    35000.,    35000., ...,       16.,        1.,        0.],
       [57693261.,    30000.,    30000., ...,        6.,        1.,        3.],
       [59432726.,    15000.,    15000., ...,       12.,        1.,        3.],
       ...,
       [50415990.,    10000.,    10000., ...,        6.,        1.,        0.],
       [46154151.,    35000.,    10000., ...,       21.,        1.,        2.],
       [66055249.,    10000.,    10000., ...,        5.,        0.,        2.]])

In [80]:
# Concatenando headers
dataLabelsFinal = np.concatenate((numDataLabelsFinal, catDataLabelsFinal))

#Visualização
dataLabelsFinal

array(['id', 'loan_amnt', 'funded_amnt', 'int_rate', 'installment', 'total_pymnt', 'issue_d', 'loan_status', 'term', 'sub_grade', 'verification_status', 'addr_state'], dtype='<U19')

In [81]:
# Ordenando dataset pelo id
datasetFinal = datasetFinal[np.argsort(datasetFinal[:, 0])]

In [82]:
datasetFinal.shape

(10000, 12)

In [83]:
dataLabelsFinal.shape

(12,)

In [84]:
# concatennando labels com dados
datasetFinal = np.vstack((dataLabelsFinal, datasetFinal))

## Persistindo dados

In [86]:
# em formato .csv

np.savetxt("datasetFinal.csv",
          datasetFinal,
          delimiter=",",
          fmt="%s")