#### Projeto Profissional Numpy

#### Vamos trabalhar com um projeto prático utilizando um dataset público, onde iremos explorar, manipular e transformar este dataset e deixar os dados prontos para aplicar análises, uma tarefa muito comum no dia a dia trabalhando com dados, vamos fazer tudo isso utilizando apenas o NumPy.

#### O dataset será disponibilizado e foi extraído no link abaixo:

#### https://www.openintro.org/data/index.php?data=loans_full_schema

#### É um dataset público disponibilizado por uma plataforma Lending  Club que permitem que individuos emprestem dinheiro para outros individuos, a disponibilidade do empréstimo e o valor de juros variam de acordo com o perfil do individuo, porém não é um dataset com pedidos de empréstimos, mas sim históricos de empréstimos feitos.


In [1]:
# Vamos começar e importar o pacote numpy
# Caso voce não consiga importa-lo tente usar o comando !pip install numpy e depois faça a importacao
import numpy as np

# Veja que importamos o numpy com o "apelido" de np que sempre será utilizado quando formos chamar as funcoes do numpy

In [3]:
# Vamos verificar a versao utilizada neste curso do numpy, e importante que voce utilize a mesma versao
print(np.__version__)

1.26.4


#### manual de funcionamento oficial do criador do NumPy 

https://numpy.org/doc/stable/reference/generated/numpy.set_printoptions.html

In [5]:
# Configurando as saidas do NumPy com set_printoptions
# Vamos usar uma funcao set_printoptions, ela determina opcoes para vc tratar numeros e objetos numpy
# Ela possui uma serie de parametros
# Vamos colocar o precision = 4 pq queremos 4 numeros depois da virgula
# Com essa funcao vc consegue formatar as saidas que vc tem com numpy padronizando seu trabalho

np.set_printoptions(suppress = True, linewidth = 200, precision = 4)

In [7]:
# Vamos tambem remover as mensagens de warning que sao varias para nao deixar o projeto poluido

import warnings
warnings.filterwarnings('ignore')

### Carga dos Dados

https://numpy.org/doc/stable/reference/generated/numpy.genfromtxt.html

In [9]:
# Vamos carregar o data set usando a funcao genfromtxt
# Esta funcao carrega um arquivo do disco, no nosso caso um csv
# E carrega na memoria, tbm tem varios parametros

# datasets/dataset_sujo.csv - Vamos indicar o dataset_sujo que temos no diretorio de dados datasets
# delimiter = ';' - Passamos o delimitador, ou seja o sinal usado para separar as colunas
# skip_header = 1 - Vamos ignorar o cabecalho, nao vamos carregar ele neste inicio
# autostrip = True - Vamos remover espacos dentro de cada coluna que tiver na direita ou esquerda do registro
# encoding = 'cp1252'- Por ultimo vamos definir encoding que e como vou ser lidos os dados
# Caso vc tiver problema com o encoding entre na documentacao e veja outro encoding que possa estar correto
# Outro encoding muito utilizado aqui no brasil é o utf-8 vc vai se deparar ou ja se deparou muito com ele

dados1 = np.genfromtxt("dataset_sujo.csv", 
                       delimiter = ';', 
                       skip_header = 1, 
                       autostrip = True, 
                       encoding = 'cp1252')

In [11]:
# Vamos ver o tipo de objeto criado 
# Veja que e um ndarray
# Ou seja um array de varias dimensoes
type(dados1)

numpy.ndarray

In [13]:
# Vamos verificar o shape
# Temos 10000 linhas para 14 colunas
dados1.shape

(10000, 14)

In [15]:
# Vamos ver uma amostra dos dados
# Perceba que ja temos um problema no dataset
# Temos varios valores nan = valores nullos

# Porem na verdade se vc verificar o arquivo, os valores nao estao ausentes
# Na verdade ele nao conseguiu ler os caracteres especiais
# No momento que carregamos os dados o numpy noa reconheceu as colunas com esses caracteres
# O problema nao esta nos dados mas sim em como  numpy carregou o dataset
# Nosso primeiro desafio vai ser corrigir o carregamento dos dados

dados1.view()

array([[48010226.  ,         nan,    35000.  , ...,         nan,         nan,     9452.96],
       [57693261.  ,         nan,    30000.  , ...,         nan,         nan,     4679.7 ],
       [59432726.  ,         nan,    15000.  , ...,         nan,         nan,     1969.83],
       ...,
       [50415990.  ,         nan,    10000.  , ...,         nan,         nan,     2185.64],
       [46154151.  ,         nan,         nan, ...,         nan,         nan,     3199.4 ],
       [66055249.  ,         nan,    10000.  , ...,         nan,         nan,      301.9 ]])

### Resolvendo problema de carga nos dados

In [17]:
# usar uma saida provisoria ja que usamos apenas o numpy para este projeto
# gerou problemas com as colunas strings

# ver quantos valores ausentes foram gerados
# A funcao isnan vai verificar cada um dos valores do dataset
# isnan vai retornar true ou false para cada valor nan
# usar o sum() para somar a quantidade de True
# o dataset tem valores ausentes
# Porem grande parte deles foram gerados pelo numpy na hora de carregar os dados


np.isnan(dados1).sum()

88005

https://numpy.org/doc/stable/reference/generated/numpy.nanmax.html

In [19]:
# precisamos das variaveis string e das variaveis numericas
# carregar estas variaveis separadamente a principio para trata-las
# criar 2 datasets separado pelo tipo de variavel
# Um dataset numerico e um com strings

# retornar o maior valor + 3 sem considerar valores NAN
# Poderiamos usar qualquer valor, 
# porem usando o nanmax nos criamos um valor personalizado de acordo com o dataset
# Usaremos esse valor para identificar os valores nan do dataset na hora de carregar variaveis numericas
# Depois vamos tratar esse valor_nan como valor ausente
# Estamos apenas mudando o valor NAN para um valor numerico que significa para nós ser o NAN
# E uma especie de encoding numerico de valor ausente

valores_nan = np.nanmax(dados1) + 3
print(valores_nan)

68616522.0


In [21]:
# exemplo
a = np.array([[1, 2], [3, np.nan]])
np.nanmax(a)
#3.0

3.0

https://numpy.org/doc/stable/reference/generated/numpy.nanmean.html

In [23]:
# O próximo passo vai nos ajudar a separar as colunas strings e numéricas

# calculando a média dos valores onde não estiver como NAN
# Usaremos isso para separar variáveis numéricas de variáveis do tipo string

# Vamos aplicar ela em nivel de coluna (axis=0)

# Ele vai ignorar os valores NAN das colunas e aplicar a média

# Veja que ele trouxe a média por coluna
# Veja que as colunas NAN ele trouxe como NAN

media_sem_nan = np.nanmean(dados1, axis = 0) # nivel coluna(axis=0)
print(media_sem_nan)

[54015809.1922           nan    15273.4632           nan    15311.0421           nan       16.6173      440.9222           nan           nan           nan           nan           nan     3143.8509]


https://numpy.org/doc/stable/reference/generated/numpy.argwhere.html

https://numpy.org/doc/stable/reference/generated/numpy.squeeze.html

In [25]:
# Busca Colunas do tipo STRING com valores ausentes

# argwhere encontra os indices dos elementos do array que são diferentes de zero agrupado por elementos
# onde vamos peguntar isnan dentro do media_sem_nan
# Se for NAN (ou seja NAN que o numpy nao conseguiu carregar)

# A função SQUEEZE coloca tudo em um array / lista numpy
cols_str = np.argwhere(np.isnan(media_sem_nan)).squeeze() 
cols_str

# Veja nós sabemos onde estão as colunas strings pois o numpy as leu como NAN
# Então usamos isso para identificá-las e conseguir separá-las

array([ 1,  3,  5,  8,  9, 10, 11, 12])

In [27]:
# Colunas numéricas 

# Vamos fazer a mesma busca agora porém agora queremos == false
# REtorna apenas as colunas numéricas
# E vamos gerar a lista com squeeze 
# Contendo os índices das colunas do tipo numérica com argwhere
# E fazendo a verificação dessas colunas com np.isnan(media_sem_nan) == False
cols_num = np.argwhere(np.isnan(media_sem_nan) == False).squeeze()
cols_num

array([ 0,  2,  4,  6,  7, 13])

#### Vamos importar novamente os datasets, dessa vez separando as colunas do tipo string de colunas numéricas

In [29]:
# Carregando as colunas do tipo string
# Agora vamos carregar porém usando novos argumentos com base no que criamos anteriormente
# Vamos carregar as colunas e passar a lista de indices (cols_str) das colunas do tipo texto
# E ainda falamos para o numpy que essas colunas são do tipo string "dtype = str"
dados_str = np.genfromtxt("dataset_sujo.csv",
                            delimiter = ';',
                            skip_header = 1,
                            autostrip = True, 
                            usecols = cols_str,
                            dtype = str, 
                            encoding = 'cp1252')

In [31]:
# Veja que agora os dados foram carregados
dados_str

array([['May-15', 'Current', '36 months', ..., 'Verified', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=48010226', 'CA'],
       ['', 'Current', '36 months', ..., 'Source Verified', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=57693261', 'NY'],
       ['Sep-15', 'Current', '36 months', ..., 'Verified', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=59432726', 'PA'],
       ...,
       ['Jun-15', 'Current', '36 months', ..., 'Source Verified', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=50415990', 'CA'],
       ['Apr-15', 'Current', '36 months', ..., 'Source Verified', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=46154151', 'OH'],
       ['Dec-15', 'Current', '36 months', ..., '', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=66055249', 'IL']], dtype='<U69')

In [33]:
# Carregando as colunas do tipo numérico preenchendo os valores ausentes
# Porém preenchendo os valores vazios com o encoding que criamos para valores NAN (valores_nan)
dados_num = np.genfromtxt("dataset_sujo.csv",
                            delimiter = ';',
                            autostrip = True,
                            skip_header = 1,
                            usecols = cols_num,
                            filling_values = valores_nan, 
                            encoding = 'cp1252')

In [35]:
# Veja que os valores NAN foram substituídos pelo valor identificador que criamos para NAN
# 68616522.0 - este valor não existe no dataset pois ele é o valor MAX+3
# Assim conseguimos codificar os valores NAN sem ter o risco de criar um valor já existente nos dados
dados_num

array([[48010226.  ,    35000.  ,    35000.  ,       13.33,     1184.86,     9452.96],
       [57693261.  ,    30000.  ,    30000.  , 68616522.  ,      938.57,     4679.7 ],
       [59432726.  ,    15000.  ,    15000.  , 68616522.  ,      494.86,     1969.83],
       ...,
       [50415990.  ,    10000.  ,    10000.  , 68616522.  , 68616522.  ,     2185.64],
       [46154151.  , 68616522.  ,    10000.  ,       16.55,      354.3 ,     3199.4 ],
       [66055249.  ,    10000.  ,    10000.  , 68616522.  ,      309.97,      301.9 ]])

In [37]:
# Agora vamos extrair os nomes das colunas
# Vamos pegar o indice de linha [0] onde estao os nomes (dados1.shape[0])
# se fosse carregado antes, daria problema no numpy pois haveria texto nas colunas numericas
nomes_cols = np.genfromtxt("dataset_sujo.csv",
                                  delimiter = ';',
                                  autostrip = True,
                                  skip_footer = dados1.shape[0],
                                  dtype = str, 
                                  encoding = 'cp1252')


In [39]:
nomes_cols

array(['id', 'issue_d', 'loan_amnt', 'loan_status', 'funded_amnt', 'term', 'int_rate', 'installment', 'grade', 'sub_grade', 'verification_status', 'url', 'addr_state', 'total_pymnt'], dtype='<U19')

In [41]:
# Vamos separar os nomes das colunas strings e numéricas para usar depois
nomes_colunas_str, nomes_colunas_num = nomes_cols[cols_str], nomes_cols[cols_num]

In [43]:
nomes_colunas_str

array(['issue_d', 'loan_status', 'term', 'grade', 'sub_grade', 'verification_status', 'url', 'addr_state'], dtype='<U19')

In [45]:
nomes_colunas_num

array(['id', 'loan_amnt', 'funded_amnt', 'int_rate', 'installment', 'total_pymnt'], dtype='<U19')

In [None]:
# usamos a estratégia de criar um valor identificador de NAN
# Identificamos as colunas numéricas dos textos que estavam como NAN
# Então carregamos os dados separados por tipo de dado
# E no final pegamos os nomes das colunas

#### Salvando resultado intermediario

In [None]:
# Este dataset é relativamente pequeno, ou seja, não precisaria do checkpoint
# Porem será normal termos um grande volume de dados para trabalhar
# Principalmente se estiver usando o numpy

# Esta função permite salvar o resultado das suas transformações, assim no dia a dia vc perde muito menos tempo
# Pois basta fazer as transformações e então gerar um checkpoint para não precisar refazê-las e perder tempo
# Pois dependendo do volume de dados isso pode demorar

In [47]:
# Checkpoint
# Ela vai salvar em disco tudo que fizemos até aqui
# Vamos salvar os dois datasets de strings pois é o mais trabalhoso

# Vamos criar uma função que recebe 3 argumentos:
    # nome do diretorio do arquivo de saida, 
    # cabecalho das colunas
    # e os dados que queremos salvar

def checkpoint(diretorio, cabecalho, dados):
    np.savez(diretorio, header = cabecalho, data = dados)
    checkpoint_var = np.load(diretorio + ".npz")
    return(checkpoint_var)

In [49]:
# Vamos executar a função
# Veja que em seu diretório estará o novo arquivo
checkpoint_str = checkpoint("Checkpoint_str", nomes_cols, dados_str)

In [51]:
checkpoint_str['data']

array([['May-15', 'Current', '36 months', ..., 'Verified', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=48010226', 'CA'],
       ['', 'Current', '36 months', ..., 'Source Verified', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=57693261', 'NY'],
       ['Sep-15', 'Current', '36 months', ..., 'Verified', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=59432726', 'PA'],
       ...,
       ['Jun-15', 'Current', '36 months', ..., 'Source Verified', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=50415990', 'CA'],
       ['Apr-15', 'Current', '36 months', ..., 'Source Verified', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=46154151', 'OH'],
       ['Dec-15', 'Current', '36 months', ..., '', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=66055249', 'IL']], dtype='<U69')

In [53]:
# Apenas para verificação vamos usar a função array_equal
# Para ver se os dados que salvamos são realmente iguais os dados que criamos
# No caso simplesmente as colunas strings ajustadas
# Claro veja que são iguais mesmo ou seja armazenamos corretamente
np.array_equal(checkpoint_str['data'], dados_str)

True

### Trabalhando com as Colunas do Tipo Texto

##### Se fossemos criar depois um modelo de machine learning não poderia haver texto, pois machine learning é pura matematica! Devido isso, precisamos passar os textos para sua representação numérica sem perder a informação no final as colunas texto serao transformadas em números. Em autoML essa transformação é contida dentro do algorítmo em alguns modelos, porém fazemos com Numpy

In [55]:
# Vamos ver os nomes das colunas do tipo texto

nomes_colunas_str

array(['issue_d', 'loan_status', 'term', 'grade', 'sub_grade', 'verification_status', 'url', 'addr_state'], dtype='<U19')

In [57]:
# Vamos mudar o nome da coluna issue_d para issue_date para identificar melhor a coluna
nomes_colunas_str[0] = "issue_date"

In [59]:
nomes_colunas_str

array(['issue_date', 'loan_status', 'term', 'grade', 'sub_grade', 'verification_status', 'url', 'addr_state'], dtype='<U19')

In [61]:
dados_str

array([['May-15', 'Current', '36 months', ..., 'Verified', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=48010226', 'CA'],
       ['', 'Current', '36 months', ..., 'Source Verified', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=57693261', 'NY'],
       ['Sep-15', 'Current', '36 months', ..., 'Verified', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=59432726', 'PA'],
       ...,
       ['Jun-15', 'Current', '36 months', ..., 'Source Verified', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=50415990', 'CA'],
       ['Apr-15', 'Current', '36 months', ..., 'Source Verified', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=46154151', 'OH'],
       ['Dec-15', 'Current', '36 months', ..., '', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=66055249', 'IL']], dtype='<U69')

### Transformando a Variável <b>issue_date</b> com Label Encoding

In [63]:
# Começando pela primeira variável texto do dados_str: a issue_date 
# Vamos ver os valores únicos desta variável / coluna com a função unique usando o slicing 

np.unique(dados_str[:,0])

array(['', 'Apr-15', 'Aug-15', 'Dec-15', 'Feb-15', 'Jan-15', 'Jul-15', 'Jun-15', 'Mar-15', 'May-15', 'Nov-15', 'Oct-15', 'Sep-15'], dtype='<U69')

In [65]:
# Veja que temos os meses dos ano porém os dados vieram com um "-15" junto dos meses
# Isso é o padrão de nome que o sistema gerou, sendo muito comum no dia a dia
# Sistemas tem padrões muitas vezes diferente do qual vc quer trabalhar

# Vamos remover o sufixo "-15" e converter em um array de strings usando a função STRIP()

# No caso do dataset dados_str da coluna de indice 0
# Onde for  "-15"
# Vamos converter a variavel para o tipo chararray
dados_str[:,0] = np.chararray.strip(dados_str[:,0], "-15")

In [67]:
# Veja que os registros desta coluna foram padronizados
# Veja que temos valores ausentes ainda nesta coluna
np.unique(dados_str[:,0])

array(['', 'Apr', 'Aug', 'Dec', 'Feb', 'Jan', 'Jul', 'Jun', 'Mar', 'May', 'Nov', 'Oct', 'Sep'], dtype='<U69')

In [69]:
# Vamos criar um array com os meses, considerando o vazio, precisamos considerá-lo por enquanto
meses = np.array(['', 'Jan', 'Feb', 'Mar', 'Apr', 'May', 'Jun', 'Jul', 'Aug', 'Sep', 'Oct', 'Nov', 'Dec'])

In [71]:
# Precisamos converter os textos para sua representacao numérica
# Então criamos um Loop para converter os nomes dos meses em valores numéricos
# Chamamos isso de LABEL ENCODING

# Para cada elemento de dados_str[:,0]
# Vamos checar se bate com o array de meses criado acima
# Se bater nós vamos alimentar com i; se não bater vamos manter o valor que já existe
# É para funcionar pois consideramos todos os valores dessa coluna na hora de criar o meses 
for i in range(13):
        dados_str[:,0] = np.where(dados_str[:,0] == meses[i], i, dados_str[:,0])

In [73]:
# A forma que criamos o array meses e criamos o loop
# fez com que cada mes recebesse o seu número correspondente na ordem de meses dos anos
# Ou seja, vazio recebeu 0, janeiro-1, fevereiro-2, etc
# Isso foi por causa do jeito que criamos o array meses e verificamos com o loop
# uma forma fácil de mudar os nomes sem precisar usar funções if etc

np.unique(dados_str[:,0])

array(['0', '1', '10', '11', '12', '2', '3', '4', '5', '6', '7', '8', '9'], dtype='<U69')

In [None]:
# Label Encoding é o processo de converter variáveis categóricas de uma variável para sua versão numérica
# Isso sem perder a informação da variável, claro!

### Transformando a variável <b>loan_status</b> com Binarização

In [75]:
# Vamos agora transformar a segunda variável, desta vez vamos usar binarização
nomes_colunas_str

array(['issue_date', 'loan_status', 'term', 'grade', 'sub_grade', 'verification_status', 'url', 'addr_state'], dtype='<U19')

In [77]:
# Verificando os valores únicos com unique
# Da coluna / variável de indice 1
np.unique(dados_str[:,1])

array(['', 'Charged Off', 'Current', 'Default', 'Fully Paid', 'In Grace Period', 'Issued', 'Late (16-30 days)', 'Late (31-120 days)'], dtype='<U69')

In [79]:
# Número de categorias dessa variável
# Analisando o caso, podemos chegar a conclusão que para a análise que estamos fazendo
# não precisamos das nove categorias pois elas podem se dividir em 2 principais grupos:
    # as categorias ruins e as boas, aquilo que foi pago e aquilo que não foi pago basicamente

# Entaão vamos aplicar a binarização para este problema
# Binarizacao é vc binarizar uma variavel em 0 e 1

np.unique(dados_str[:,1]).size

9

In [81]:
# Criamos um array identificando os status que consideramos ruim
# Parecido com o que fizemos com os meses

status_ruins = np.array(['', 'Charged Off', 'Default', 'Late (31-120 days)'])

In [83]:
# Checamos agora os valores da variavel com where
# e comparamos com o array que criamos convertendo as variáveis para valores binários

# Vamos usar a funcao "isin"
# Ela vai verificar se dentro do dados_str[:,1] tem status_ruins
# Se tiver eu coloco 0, senão coloco 1
# 0 a classe ruim e 1 a classe boa

dados_str[:,1] = np.where(np.isin(dados_str[:,1], status_ruins),0,1)

In [85]:
# Agora vemos que essa coluna foi binarizada
# Essa transformação é muito usada na área de dados
# A binarização é uma das melhores técnicas para vc analisar dados
# Ela tem muitas aplicações sempre tenha ela em seu repertório

np.unique(dados_str[:,1])

array(['0', '1'], dtype='<U69')

### Transformando a Variavel <b>term</b> com limpeza de string

In [87]:
nomes_colunas_str

array(['issue_date', 'loan_status', 'term', 'grade', 'sub_grade', 'verification_status', 'url', 'addr_state'], dtype='<U19')

In [89]:
# Valores da coluna term
# Veja que o processo vai se repetindo
# Perceba que esta variável é numérica
# Porém ela tem palavras junto o que atrapalha a análise
# Precisamos limpar esta variável / coluna
np.unique(dados_str[:,2])

array(['', '36 months', '60 months'], dtype='<U69')

In [91]:
# Removemos a palavra months (observe o espaço antes da palavra)
# Vamos usar novamente a função STRIP() para remover a palavra months
# Perceba que incluímos o " " espaco na remoção
# Pois ele impede de convertermos a variável para numérica
dados_str[:,2] = np.chararray.strip(dados_str[:,2], " months")
dados_str[:,2]

array(['36', '36', '36', ..., '36', '36', '36'], dtype='<U69')

In [93]:
# Agora vamos melhorar o nome da coluna
# Indicando que é uma coluna de term months para ajudar na identificação
nomes_colunas_str[2] = "term_months"
nomes_colunas_str[2]

'term_months'

In [95]:
# E também tomamos a decisão de preencher o valor vazio com 60 que é o maior prazo
# Vamos supor que esta foi uma decisao combinada com a equipe de negócios ou por vc mesmo baseado na sua análise
# Com np.where vamos mudar o que for vazio para 60
dados_str[:,2] = np.where(dados_str[:,2] == '', '60', dados_str[:,2])

In [97]:
# Veja que agora nao temos valores vazios
dados_str[:,2]

array(['36', '36', '36', ..., '36', '36', '36'], dtype='<U69')

In [99]:
# Verificando os valores únicos para confirmar
np.unique(dados_str[:,2])

array(['36', '60'], dtype='<U69')

### Transformando a variável <b>grade</b> e <b>sub_grade</b> com dicionario (um tipo de Label Encoding)

In [101]:
# "grade" e uma espécie de nota que o cliente que pede empréstimo recebe
# "sub grade" é uma variável parecida com a grade
nomes_colunas_str

array(['issue_date', 'loan_status', 'term_months', 'grade', 'sub_grade', 'verification_status', 'url', 'addr_state'], dtype='<U19')

In [103]:
# Verificando os valores únicos
np.unique(dados_str[:,3])

array(['', 'A', 'B', 'C', 'D', 'E', 'F', 'G'], dtype='<U69')

In [105]:
# Verificando os valores únicos
np.unique(dados_str[:,4])

# Perceba que as variaveis tem informacoes parecidas

array(['', 'A1', 'A2', 'A3', 'A4', 'A5', 'B1', 'B2', 'B3', 'B4', 'B5', 'C1', 'C2', 'C3', 'C4', 'C5', 'D1', 'D2', 'D3', 'D4', 'D5', 'E1', 'E2', 'E3', 'E4', 'E5', 'F1', 'F2', 'F3', 'F4', 'F5', 'G1',
       'G2', 'G3', 'G4', 'G5'], dtype='<U69')

In [None]:
# Em algumas análises, nós temos que remover variáveis que representam a mesma informacao
# Isso prejudica o modelo de machine learning 
# Por isso iremos remover uma das variáveis
# No caso iremos manter a variável "sub grade" pois ela e mais detalhada

#### Antes de remover a variável "grade" vamos checar se realmente as duas variáveis estão relacionadas

In [107]:
# Verificando os valores unicos da variavel grade
# Veja que existe valor ausente
np.unique(dados_str[:,3])

array(['', 'A', 'B', 'C', 'D', 'E', 'F', 'G'], dtype='<U69')

In [109]:
# Vamos desconsiderar o valor unico com slicing que vc conhece
np.unique(dados_str[:,3])[1:]

array(['A', 'B', 'C', 'D', 'E', 'F', 'G'], dtype='<U69')

In [111]:
# Loop para ajustar a variavel sub_grade
# Vamos verificar se o valor está vazio e ao mesmo tempo (usando & significa E)

# SE a variavel "subgrade" for vazio e "grade" = i (se as duas condições forem True ao mesmo tempo)
#   Vamos substituir o valor vazio por i + 5 
# SENÃO 
#   Manteremos o valor da "sub grade"

# Lembrando que não é uma soma pois o i e uma letra
# Isso vai ser uma concatenação do i com o numero 5, exemplo H1

for i in np.unique(dados_str[:,3])[1:]:
    dados_str[:,4] = np.where((dados_str[:,4] == '') & (dados_str[:,3] == i), i + '5', dados_str[:,4])

In [113]:
# Vamos agora retornar cada categoria unica de "sub grade"
# Com a quantidade de vezes que cada categoria aparece no dataset
np.unique(dados_str[:,4], return_counts = True)

(array(['', 'A1', 'A2', 'A3', 'A4', 'A5', 'B1', 'B2', 'B3', 'B4', 'B5', 'C1', 'C2', 'C3', 'C4', 'C5', 'D1', 'D2', 'D3', 'D4', 'D5', 'E1', 'E2', 'E3', 'E4', 'E5', 'F1', 'F2', 'F3', 'F4', 'F5', 'G1',
        'G2', 'G3', 'G4', 'G5'], dtype='<U69'),
 array([  9, 285, 278, 239, 323, 592, 509, 517, 530, 553, 633, 629, 567, 586, 564, 577, 391, 267, 250, 255, 288, 235, 162, 171, 139, 160,  94,  52,  34,  43,  24,  19,  10,   3,   7,   5]))

In [117]:
# Perceba que ainda temos valor AUSENTE ('') sobrando, pois tratamos os valores com duas condições

# AGORA VAMOS TRATAR VALORES AUSENTES NAS DUAS COLUNAS 

# Agora vamos criar uma nova categoria para os valores que estão vazios em grade e sub grade
# Se o valor for == vazio vamos colocar H1 se não manteremos o valor original do sub grade
dados_str[:,4] = np.where(dados_str[:,4] == '', 'H1', dados_str[:,4])

In [119]:
# Extrai os valores únicos da variável
np.unique(dados_str[:,4], return_counts = True)

(array(['A1', 'A2', 'A3', 'A4', 'A5', 'B1', 'B2', 'B3', 'B4', 'B5', 'C1', 'C2', 'C3', 'C4', 'C5', 'D1', 'D2', 'D3', 'D4', 'D5', 'E1', 'E2', 'E3', 'E4', 'E5', 'F1', 'F2', 'F3', 'F4', 'F5', 'G1', 'G2',
        'G3', 'G4', 'G5', 'H1'], dtype='<U69'),
 array([285, 278, 239, 323, 592, 509, 517, 530, 553, 633, 629, 567, 586, 564, 577, 391, 267, 250, 255, 288, 235, 162, 171, 139, 160,  94,  52,  34,  43,  24,  19,  10,   3,   7,   5,   9]))

#### Agora vamos <B>remover a variável GRADE</B>

In [121]:
# Removendo a variável "grade" com np.delete
# Remoção em nível de linha
# Cuidado com esta função pois estamos passando um indice
# Se executarmos esta função várias vezes, iremos remover mais colunas e não é o que queremos
dados_str = np.delete(dados_str, 3, axis = 1)

In [123]:
# Veja que agora a variável de índice 3 é a sub grade
dados_str[:,3]

array(['C3', 'A5', 'B5', ..., 'A5', 'D2', 'A4'], dtype='<U69')

In [125]:
# Agora vamos remover da nossa lista de cabeçalhos tbm a coluna grade
nomes_colunas_str = np.delete(nomes_colunas_str, 3)

In [127]:
# Mais uma vez veja que o indice 3 agora corresponde a outra coluna
# Cuidado com isso!
nomes_colunas_str[3]

'sub_grade'

#### Agora vamos converter a variável para sua versão numérica

In [129]:
# Verificando os valores unicos da nova variavel do indice 3
np.unique(dados_str[:,3])

array(['A1', 'A2', 'A3', 'A4', 'A5', 'B1', 'B2', 'B3', 'B4', 'B5', 'C1', 'C2', 'C3', 'C4', 'C5', 'D1', 'D2', 'D3', 'D4', 'D5', 'E1', 'E2', 'E3', 'E4', 'E5', 'F1', 'F2', 'F3', 'F4', 'F5', 'G1', 'G2',
       'G3', 'G4', 'G5', 'H1'], dtype='<U69')

In [131]:
# Vamos criar um dicionário em python
# Conjunto de pares de chave e valor
# Na chave vamos colocar as categorias
# Veja que estamos criando a lista de chaves no objeto chaves
chaves = list(np.unique(dados_str[:,3]))     
chaves[0]

'A1'

In [133]:
np.unique(dados_str[:,3]).shape

(36,)

In [135]:
# Criando a lista de valores que serão os números
# A primeira categoria vai receber o número 1 a segunda categoria o número 2, etc
# Vamos criar uma lista com a função "arange"
# Para cada valor unico da coluna "sub grade" vamos fazer +1
# Para ficar a contagem 1 2 3 4 5 certinha que vamos utilizar 
valores = list(range(1, np.unique(dados_str[:,3]).shape[0] + 1)) 
valores[0]

1

In [137]:
print(valores)

[1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36]


In [139]:
# Vamos criar o dicionário com dict 
# e concatenar as chaves e valores do dicionário novo com zip

dicionario_sub_grade = dict(zip(chaves, valores))

In [141]:
# Veja que criamos um número único correspondente para cada categoria única

dicionario_sub_grade

{'A1': 1,
 'A2': 2,
 'A3': 3,
 'A4': 4,
 'A5': 5,
 'B1': 6,
 'B2': 7,
 'B3': 8,
 'B4': 9,
 'B5': 10,
 'C1': 11,
 'C2': 12,
 'C3': 13,
 'C4': 14,
 'C5': 15,
 'D1': 16,
 'D2': 17,
 'D3': 18,
 'D4': 19,
 'D5': 20,
 'E1': 21,
 'E2': 22,
 'E3': 23,
 'E4': 24,
 'E5': 25,
 'F1': 26,
 'F2': 27,
 'F3': 28,
 'F4': 29,
 'F5': 30,
 'G1': 31,
 'G2': 32,
 'G3': 33,
 'G4': 34,
 'G5': 35,
 'H1': 36}

In [143]:
# Agora vamos criar um loop para substituir as categorias que estão em texto
# Ou seja aplicaremos o Label Encoding na coluna "sub grade"

# Para cada valor unico da coluna "sub grade"
        # Onde o valor for igual a i iremos substituilo por seu numero correspondente do dicionario
        # Se nao manteremos o numero
for i in np.unique(dados_str[:,3]):
        dados_str[:,3] = np.where(dados_str[:,3] == i, dicionario_sub_grade[i], dados_str[:,3])

In [145]:
# Extrai os valores únicos da variável
np.unique(dados_str[:,3])

array(['1', '10', '11', '12', '13', '14', '15', '16', '17', '18', '19', '2', '20', '21', '22', '23', '24', '25', '26', '27', '28', '29', '3', '30', '31', '32', '33', '34', '35', '36', '4', '5', '6',
       '7', '8', '9'], dtype='<U69')

### Transformando a variável <b>verification_status</b> com Binarização

In [148]:
# Vamos ver as colunas novamente
nomes_colunas_str

array(['issue_date', 'loan_status', 'term_months', 'sub_grade', 'verification_status', 'url', 'addr_state'], dtype='<U19')

In [150]:
# Verificando valores únicos da variavel
# Veja que possui valor vazio também
# Vamos considerar o vazio como "não verificado" pois é o que faz mais sentido

np.unique(dados_str[:,4])

array(['', 'Not Verified', 'Source Verified', 'Verified'], dtype='<U69')

In [152]:
# Vamos então aplicar a binarização
# SE o valor do dado for igual a vazio '' OU (| = OU LOGICO) se for igual a "Not Verified" 
    # vamos substituir ambos vazio e Not Verified por 0
# SE nao for nem vazio nem Not Verified vamos colocar o 1

dados_str[:,4] = np.where((dados_str[:,4] == '') | (dados_str[:,4] == 'Not Verified'), 0, 1)

In [154]:
# Verificando navemente os valores únicos da variável / coluna
np.unique(dados_str[:,4])

array(['0', '1'], dtype='<U69')

### Transformando a variavel <b>url</b> com extração de ID

In [157]:
# Vamos ver a coluna URL que indica cada empréstimo
# Perceba que existe um padrão no texto padronizadas
# No final de cada url temos um ID
# Com este padrao detectado podemos entao pegar este ID no final de cada URL

dados_str[:,5]

array(['https://www.lendingclub.com/browse/loanDetail.action?loan_id=48010226', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=57693261',
       'https://www.lendingclub.com/browse/loanDetail.action?loan_id=59432726', ..., 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=50415990',
       'https://www.lendingclub.com/browse/loanDetail.action?loan_id=46154151', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=66055249'], dtype='<U69')

In [159]:
# Vamos pegar o ID simplesmente removendo tudo que não seja ele
# Usamos o strip na coluna url e removemos todo o texto menos o ID
# Como a parte inicial da URL é a mesma, vamos remove-la

np.chararray.strip(dados_str[:,5], "https://www.lendingclub.com/browse/loanDetail.action?loan_id=")

chararray(['48010226', '57693261', '59432726', ..., '50415990', '46154151', '66055249'], dtype='<U69')

In [161]:
# Vamos atualizar esta coluna apenas com os ID's mantivemos

dados_str[:,5] = np.chararray.strip(dados_str[:,5], 
                                      "https://www.lendingclub.com/browse/loanDetail.action?loan_id=")

In [163]:
# Vamos converter para o tipo int
# Perceba que agora não é mais uma string

dados_str[:,5].astype(dtype = np.int32)

array([48010226, 57693261, 59432726, ..., 50415990, 46154151, 66055249], dtype=int32)

In [165]:
# Se analisarmos os dados, já temos uma coluna de ID
# Porém está no conjunto de dados numéricos que separamos
# Vamos verificar e converter para int 32 e comparar

dados_num[:,0].astype(dtype = np.int32)

array([48010226, 57693261, 59432726, ..., 50415990, 46154151, 66055249], dtype=int32)

In [167]:
# Além disto, vamos verificar se os valores das duas colunas sao iguais
# Muito provavelmente é para ser igual
# Visto que a URL é feita para cada ID
# Vamos comparar as duas colunas de datasets diferentes 

np.array_equal(dados_num[:,0].astype(dtype = np.int32), dados_str[:,5].astype(dtype = np.int32))

True

#### Já que temos informação duplicada, então vamos remover uma das colunas.

In [169]:
# Vamos remover a coluna URL 
dados_str = np.delete(dados_str, 5, axis = 1)

In [171]:
# Claro, vamos remover tbm a url da nossa lista de cabecalhos
nomes_colunas_str = np.delete(nomes_colunas_str, 5)

In [173]:
# Veja a nova coluna de indice 5
dados_str[:,5]

array(['CA', 'NY', 'PA', ..., 'CA', 'OH', 'IL'], dtype='<U69')

In [175]:
# E veja a nova lista de colunas do tipo texto, a coluna url sumiu
nomes_colunas_str

array(['issue_date', 'loan_status', 'term_months', 'sub_grade', 'verification_status', 'addr_state'], dtype='<U19')

In [177]:
# Veja a coluna que mantivemos
dados_num[:,0]

array([48010226., 57693261., 59432726., ..., 50415990., 46154151., 66055249.])

In [179]:
# A Coluna id esta no conjunto de colunas numericas
nomes_colunas_num

array(['id', 'loan_amnt', 'funded_amnt', 'int_rate', 'installment', 'total_pymnt'], dtype='<U19')

### Trabalhando com a variável <b>address</b> com Categorizacao

In [181]:
nomes_colunas_str

array(['issue_date', 'loan_status', 'term_months', 'sub_grade', 'verification_status', 'addr_state'], dtype='<U19')

In [183]:
# Vamos padronizar o nome da coluna
nomes_colunas_str[5] = "state_address"

https://numpy.org/doc/stable/reference/generated/numpy.argsort.html

In [186]:
# exemplo np.argsort
x = np.array([3, 1, 2])
np.argsort(x)
#array([1, 2, 0])

array([1, 2, 0])

In [188]:
# Vamos pegar cada valor unico e a quantidade de vezes que ele aparece
# Como esta operacao retorna dois valores vamos coloca-los em duas variaveis diferentes
nomes_estados, total_estados = np.unique(dados_str[:,5], return_counts = True)

In [190]:
# Vamos usar o argsort para ordenar os estados em ordem decrescente
# Com base na frequencia que tivemos no comando acima
# O sinal de - é para indicar a ordem decrescente
estados_ordenados = np.argsort(-total_estados)


In [192]:
estados_ordenados

array([ 5, 33, 42, 10,  0, 13, 30, 11, 37, 34, 21, 26, 44, 19,  4, 46, 18,  6, 23, 22, 14, 47,  7, 41, 32,  2, 17, 36, 39, 16, 15, 35, 43,  3, 24, 29, 31, 48, 12, 38, 25,  9,  8, 49,  1, 28, 40, 45,
       27, 20])

In [194]:
np.unique(dados_str[:,5], return_counts = True)

(array(['', 'AK', 'AL', 'AR', 'AZ', 'CA', 'CO', 'CT', 'DC', 'DE', 'FL', 'GA', 'HI', 'IL', 'IN', 'KS', 'KY', 'LA', 'MA', 'MD', 'ME', 'MI', 'MN', 'MO', 'MS', 'MT', 'NC', 'ND', 'NE', 'NH', 'NJ', 'NM',
        'NV', 'NY', 'OH', 'OK', 'OR', 'PA', 'RI', 'SC', 'SD', 'TN', 'TX', 'UT', 'VA', 'VT', 'WA', 'WI', 'WV', 'WY'], dtype='<U69'),
 array([ 500,   26,  119,   74,  220, 1336,  201,  143,   27,   27,  690,  321,   44,  389,  152,   84,   84,  116,  210,  222,   10,  267,  156,  160,   61,   28,  261,   16,   25,   58,  341,   57,
         130,  777,  312,   83,  108,  320,   40,  107,   24,  143,  758,   74,  242,   17,  216,  148,   49,   27]))

In [196]:
# Perceba que temos um array com os estados
# E outro array com o número de vezes que cada estado aparece na ordem decrescente
nomes_estados[estados_ordenados], total_estados[estados_ordenados]

(array(['CA', 'NY', 'TX', 'FL', '', 'IL', 'NJ', 'GA', 'PA', 'OH', 'MI', 'NC', 'VA', 'MD', 'AZ', 'WA', 'MA', 'CO', 'MO', 'MN', 'IN', 'WI', 'CT', 'TN', 'NV', 'AL', 'LA', 'OR', 'SC', 'KY', 'KS', 'OK',
        'UT', 'AR', 'MS', 'NH', 'NM', 'WV', 'HI', 'RI', 'MT', 'DE', 'DC', 'WY', 'AK', 'NE', 'SD', 'VT', 'ND', 'ME'], dtype='<U69'),
 array([1336,  777,  758,  690,  500,  389,  341,  321,  320,  312,  267,  261,  242,  222,  220,  216,  210,  201,  160,  156,  152,  148,  143,  143,  130,  119,  116,  108,  107,   84,   84,   83,
          74,   74,   61,   58,   57,   49,   44,   40,   28,   27,   27,   27,   26,   25,   24,   17,   16,   10]))

In [198]:
# Vamos substituir os valores ausentes por 0
dados_str[:,5] = np.where(dados_str[:,5] == '', 0, dados_str[:,5])

In [200]:
# Vamos criar uma lista de estados pertecentes a cada região
estados_oeste = np.array(['WA', 'OR','CA','NV','ID','MT', 'WY','UT','CO', 'AZ','NM','HI','AK'])
estados_sul = np.array(['TX','OK','AR','LA','MS','AL','TN','KY','FL','GA','SC','NC','VA','WV','MD','DE','DC'])
estados_centro_oeste = np.array(['ND','SD','NE','KS','MN','IA','MO','WI','IL','IN','MI','OH'])
estados_leste = np.array(['PA','NY','NJ','CT','MA','VT','NH','ME','RI'])

In [202]:
# Tomamos a decisão de substituir cada estado pelo ID da Região 
# Com base nas listas que criamos de regiões vamos atribuir um id para cada região e então fazer isso
# Isso é a decisão que tomamos e pode variar de caso para caso
dados_str[:,5] = np.where(np.isin(dados_str[:,5], estados_oeste), 1, dados_str[:,5])
dados_str[:,5] = np.where(np.isin(dados_str[:,5], estados_sul), 2, dados_str[:,5])
dados_str[:,5] = np.where(np.isin(dados_str[:,5], estados_centro_oeste), 3, dados_str[:,5])
dados_str[:,5] = np.where(np.isin(dados_str[:,5], estados_leste), 4, dados_str[:,5])

In [204]:
# A coluna foi alterada contendo os respectivos id's
# E então o valor 0 corresponde a valor nulo
# E os outros ID's para suas respectivas regiões correspondentes
# Chamamos isso de CATEGORIZAÇÃO
# Perceba que a informação que queremos que ela representa nao foi alterada
# Importante preservar a informação mesmo que aplique transformação nos dados
# A informação nao pode ser distorcida

np.unique(dados_str[:,5])

array(['0', '1', '2', '3', '4'], dtype='<U69')

#### Com isso nós tratamos todas as colunas do tipo texto e nao temos mais dados do tipo string, todos os dados foram passados para o tipo número, porém não perdemos a informação.

In [206]:
dados_str

array([['5', '1', '36', '13', '1', '1'],
       ['0', '1', '36', '5', '1', '4'],
       ['9', '1', '36', '10', '1', '4'],
       ...,
       ['6', '1', '36', '5', '1', '1'],
       ['4', '1', '36', '17', '1', '3'],
       ['12', '1', '36', '4', '0', '3']], dtype='<U69')

### Manipulação de Variáveis Numéricas

#### Fazer a correção e até muitas vezes trabalhar com variáveis do tipo texto ou categóricas é muito mais trabalhoso, pois precisamos encontrar padrões, fazer muitas alterações, converter para valores numéricos para modelos de Machine Learning, criar novas categorias dependendo do caso.

#### Porém trabalhar com variáveis numéricas costuma ser mais fácil

In [208]:
# Analisando as colunas numéricas 
dados_num

array([[48010226.  ,    35000.  ,    35000.  ,       13.33,     1184.86,     9452.96],
       [57693261.  ,    30000.  ,    30000.  , 68616522.  ,      938.57,     4679.7 ],
       [59432726.  ,    15000.  ,    15000.  , 68616522.  ,      494.86,     1969.83],
       ...,
       [50415990.  ,    10000.  ,    10000.  , 68616522.  , 68616522.  ,     2185.64],
       [46154151.  , 68616522.  ,    10000.  ,       16.55,      354.3 ,     3199.4 ],
       [66055249.  ,    10000.  ,    10000.  , 68616522.  ,      309.97,      301.9 ]])

In [210]:
# cabeçalhos das colunas numéricas
nomes_colunas_num

array(['id', 'loan_amnt', 'funded_amnt', 'int_rate', 'installment', 'total_pymnt'], dtype='<U19')

In [212]:
# Lembre que já substituímos os valores ausentes
# Por um número identificador que é o MAX + 3 

np.isnan(dados_num).sum()

0

In [214]:
# Este é o número que criamos para identificar os valores "nan"

valores_nan

68616522.0

In [216]:
# Vamos verificar se as colunas foram preenchidas 
# Podemos checar se uma coluna foi preenchida com o "valores_nan"

np.isin(dados_num[:,0], valores_nan)

array([False, False, False, ..., False, False, False])

In [218]:
# Vamos ver quantos valores foram preenchidos da coluna ID o indice 0 
# Podemos checar se uma coluna foi preenchida com o valor coringa
# Veja que realmente nao há valores nulos na coluna id

np.isin(dados_num[:,0], valores_nan).sum()

0

### Uma forma de preencher valores ausentes em dados numéricos é utilizarmos a estatística ou então desconsiderar aquela linha que tem valor vazio, vamos trabalhar para este exemplo com a primeira opção que é a mais trabalhosa e que agrega mais valor ao nosso portfólio.

In [221]:
# Vamos criar um array de estatistica contendo o valor mínimo, valor máximo e a média 
#       (todos ignorando valores "nan")
# Vamos usar estas estatísticas para substituir os valores ausentes
# Vamos usar o "nanmin" para ter valores mínimos em nível de coluna
# Vamos usar o "media_sem_nan" que criamos no início do projeto antes de inserir o valores_nan que criamos

dados_estatisticos = np.array([np.nanmin(dados1, axis = 0), media_sem_nan, np.nanmax(dados1, axis = 0)])

In [223]:
print(dados_estatisticos)

[[  373332.               nan     1000.               nan     1000.               nan        6.           31.42             nan           nan           nan           nan           nan        0.    ]
 [54015809.1922           nan    15273.4632           nan    15311.0421           nan       16.6173      440.9222           nan           nan           nan           nan           nan     3143.8509]
 [68616519.               nan    35000.               nan    35000.               nan       28.99       1372.97             nan           nan           nan           nan           nan    41913.62  ]]


In [225]:
# "cols_num" são os índices das colunas numéricas que criamos no início do projeto

# Vamos ver os valores estatísticos para cada coluna numérica que geramos
# Vamos usar estes valores para substituir os null's de suas respectivas colunas
dados_estatisticos[:, cols_num]

array([[  373332.    ,     1000.    ,     1000.    ,        6.    ,       31.42  ,        0.    ],
       [54015809.1922,    15273.4632,    15311.0421,       16.6173,      440.9222,     3143.8509],
       [68616519.    ,    35000.    ,    35000.    ,       28.99  ,     1372.97  ,    41913.62  ]])

### Trabalhando com a variável <b>funded_amnt</b>

In [228]:
# Vamos verificar os dados da coluna
dados_num[:,2]

array([35000., 30000., 15000., ..., 10000., 10000., 10000.])

In [230]:
# Vamos ver o valor estatistico que iremos substituir nesta coluna
dados_estatisticos[0, cols_num[2]]

1000.0

In [232]:
# Substituindo os valores ausentes da coluna
# Onde o valor da coluna for igual valores_nan (que criamos como identificador)
# Vamos substituí-lo pelos dados_estatisticos de sua coluna correspondente
# SE o valor NÃO for == valores_nan 
#       vamos mante-lo
dados_num[:,2] = np.where(dados_num[:,2] == valores_nan, dados_estatisticos[0, cols_num[2]], dados_num[:,2])

In [234]:
# Então veja que os valores "nan" que codificamos no inicio do projeto
# Foram substituidos por uma medida estatistica
# Essa é uma das saídas para preencher valores ausentes de variáveis/colunas numéricas

dados_num[:,2]

array([35000., 30000., 15000., ..., 10000., 10000., 10000.])

### Trabalhando com as variáveis <b>loan_amnt, int_rate, installment e total_pymnt</b>

In [236]:
# loop fazendo o mesmo para as variáveis que faltam

nomes_colunas_num

array(['id', 'loan_amnt', 'funded_amnt', 'int_rate', 'installment', 'total_pymnt'], dtype='<U19')

In [238]:
# Loop para substituir o valor ausente (valor_coringa) pelos valores do array de estatísticas
# Para cada indice [1,3,4,5] as colunas que faltam corrigir
# SE os valores da coluna for == valores_nan,
    # Substitua pelo valor estatistico de sua respectiva coluna correspondente
# SENAO mantenha o valor original
for i in [1,3,4,5]:
    dados_num[:,i] = np.where(dados_num[:,i] == valores_nan, 
                                dados_estatisticos[2, cols_num[i]], 
                                dados_num[:,i])

In [240]:
dados_num

array([[48010226.  ,    35000.  ,    35000.  ,       13.33,     1184.86,     9452.96],
       [57693261.  ,    30000.  ,    30000.  ,       28.99,      938.57,     4679.7 ],
       [59432726.  ,    15000.  ,    15000.  ,       28.99,      494.86,     1969.83],
       ...,
       [50415990.  ,    10000.  ,    10000.  ,       28.99,     1372.97,     2185.64],
       [46154151.  ,    35000.  ,    10000.  ,       16.55,      354.3 ,     3199.4 ],
       [66055249.  ,    10000.  ,    10000.  ,       28.99,      309.97,      301.9 ]])

#### Agora o projeto estÁ na parte final, vamos unir novamente os datasets de texto e números e vamos gravar este outro dataset sem substituir o dataset sujo original.


In [242]:
# Dados daS variáveis texto que foram transformadas

dados_str.shape

(10000, 6)

In [244]:
# Dados das variaveis numericas que foram transformados
# número de linhas são o mesmo, tem que ser assim se não estaria errado
# Pois estamos trabalhando com apenas 1 dataset só que de forma separada
# o número de colunas não precisa ser o mesmo mas o de linhas sim

dados_num.shape

(10000, 6)

<b>HSTACK</b>

https://datascienceparichay.com/wp-content/uploads/2021/08/numpy-hstack-to-horizontally-stack-arrays-1.png

In [246]:
# Vamos concatenar os dois datasets
# Concatena os arrays

df_final = np.hstack((dados_num, dados_str))
df_final.shape

(10000, 12)

In [248]:
df_final

array([['48010226.0', '35000.0', '35000.0', ..., '13', '1', '1'],
       ['57693261.0', '30000.0', '30000.0', ..., '5', '1', '4'],
       ['59432726.0', '15000.0', '15000.0', ..., '10', '1', '4'],
       ...,
       ['50415990.0', '10000.0', '10000.0', ..., '5', '1', '1'],
       ['46154151.0', '35000.0', '10000.0', ..., '17', '1', '3'],
       ['66055249.0', '10000.0', '10000.0', ..., '4', '0', '3']], dtype='<U69')

In [250]:
# Agora vamos concatenar os cabeçalhos que criamos
# Concatena os arrays de nomes de colunas
cabecalho_completo = np.concatenate((nomes_colunas_num, nomes_colunas_str))
cabecalho_completo.shape

(12,)

### Gravando o Dataset Final Limpo

<b>VSTACK</b>

https://i1.wp.com/www.sharpsightlabs.com/wp-content/uploads/2019/07/np-vstack_combine-two-2D-arrays-1.png?w=542&ssl=1

In [252]:
# Vamos juntar as colunas com seus cabecalhos
# Concatena o array de nomes de colunas com o array de dados
df_final = np.vstack((cabecalho_completo, df_final))

In [254]:
df_final

array([['id', 'loan_amnt', 'funded_amnt', ..., 'sub_grade', 'verification_status', 'state_address'],
       ['48010226.0', '35000.0', '35000.0', ..., '13', '1', '1'],
       ['57693261.0', '30000.0', '30000.0', ..., '5', '1', '4'],
       ...,
       ['50415990.0', '10000.0', '10000.0', ..., '5', '1', '1'],
       ['46154151.0', '35000.0', '10000.0', ..., '17', '1', '3'],
       ['66055249.0', '10000.0', '10000.0', ..., '4', '0', '3']], dtype='<U69')

In [256]:
# Salvando em disco o novo dataset limpo

np.savetxt("dataset_limpo_v03h40.csv", 
           df_final, 
           fmt = '%s',
           delimiter = ',')