# Estudo de Caso - Limpeza e Pré-Processamento de Dados com NumPy

### Contexto:

Imagine que em um determinado projeto de Ciência de Dados você receba um dataset extremamente complicado, contendo dados com muitas strings, caracteres especiais, problemas de encoding, datas  mal  formatadas,  números  e  textos  na  mesma  coluna,  url’s  contendo  Ids importantes para análise, valores ausentes, coluna que contém informação que deveria estar distribuída  em três ou  mais  colunas. E  como  se  não  bastasse  tudo  isso,  parte  dos  dados necessários para análise está em outro dataset, que deve ser combinado com o primeiro.

Seu trabalho seria limpar e pré-processar esse dataset, preparando-o para a sequência do processo de análise.

É exatamente este cenário que estamos reproduzindo no Estudo de Caso 1. A partir de dados complexos e com diversos problemas, iremos fazer um extenso trabalho de limpeza e pré-processamento. E tudo isso usando apenas o NumPy,  poderoso pacote da Linguagem Python para computação e processamento de dados.

#### Este Estudo de Caso traz uma quantidade incrível de conhecimento sobre manipulação de dados em Python.

## Definição do Problema e Fonte de Dados

#### Para este Estudo de Caso trabalharemos com dado reais disponíveis publicamente no link abaixo:
    
    https://www.openintro.org/data/index.php?data=loans_full_schema

Esse conjunto de dados representa milhares de empréstimos feitos por meio da plataforma Lending Club, que é uma
plataforma que permite que indivíduos emprestem para outros indivíduos.

Claro, nem todos os empréstimos são iguais. Alguém que fornece um baixo risco e que provavelmente vai pagar um
empréstimo terá mais facilidade em obter um empréstimo com uma taxa de juros baixa do que alguém que parece ser
mais arriscado.

E para as pessoas com alto risco de não pagar o empréstimo? Essas pessoas podem nem receber uma oferta de empréstimo, ou podem não aceitar uma oferta de empréstimo devido a uma alta taxa de juros. É importante ter em mente essa última parte, pois esse conjunto de dados representa  apenas  empréstimos  efetivamente  feitos,  ou  seja,  não  confunda  esses  dados  com pedidos de empréstimo!

Usamos como fonte de dados o dataset disponível no link acima, mas fizemos modificações nos dados para deixá-los ainda mais problemáticos. O dataset será fornecido a você junto com os demais arquivos do capítulo.

Além  disso  usaremos  um  dataset  com  cotação  do  dólar  em  relação  ao  Euro.  Extraímos uma pequena amostra de dados do site: https://finance.yahoo.com. O dataset será fornecido a você junto com os demais arquivos do capítulo.

## Objetivo:

Nosso trabalho é limpar e pré-processar os dados, deixando-os no formato ideal para um processo de análise posterior e várias decisões terão que ser tomadas no meio do caminho. Ao final do trabalho devemos salvar o dataset com os dados limpos e pré-processados

## Importando Pacotes e Configurando Impressão do NumPy

In [1]:
import numpy as np
import warnings
warnings.filterwarnings('ignore')
np.set_printoptions(suppress = True, linewidth = 200, precision = 2)

## Verificando a Codificação do Arquivo

In [2]:
import chardet

with open('datasets/dataset1.csv', 'rb') as f:
    result = chardet.detect(f.read())  # Lê uma amostra do arquivo
    print(result['encoding'])

windows-1251


## Carregando e Visualizando o Dataset

In [3]:
# Forma 1 (se não justificar o att dtype pois np.genfromtxt por padrão trata todo o arquivo como dados numéricos)

dados = np.genfromtxt("datasets/dataset1.csv",
                     delimiter = ';',
                     skip_header = 1,              # não carrega cabeçalho 
                     autostrip = True,
                     encoding = 'windows-1251'     # 'cp1252'
                     )
print(dados)


[[48010226.           nan    35000.   ...         nan         nan     9452.96]
 [57693261.           nan    30000.   ...         nan         nan     4679.7 ]
 [59432726.           nan    15000.   ...         nan         nan     1969.83]
 ...
 [50415990.           nan    10000.   ...         nan         nan     2185.64]
 [46154151.           nan         nan ...         nan         nan     3199.4 ]
 [66055249.           nan    10000.   ...         nan         nan      301.9 ]]


In [4]:
# Forma 2 (atribuindo valor ao atributo dtype para tratar todo o arquivo como dados string)


dados2 = np.genfromtxt("datasets/dataset1.csv",
                     delimiter = ';',
                     dtype=str,              
                     autostrip = True,
                     encoding = 'windows-1251'     # 'cp1252'
                     )
print(dados2)

[['id' 'issue_d' 'loan_amnt' ... 'url' 'addr_state' 'total_pymnt']
 ['48010226' 'May-15' '35000.0' ... 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=48010226' 'CA' '9452.96']
 ['57693261' '' '30000.0' ... 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=57693261' 'NY' '4679.7']
 ...
 ['50415990' 'Jun-15' '10000.0' ... 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=50415990' 'CA' '2185.64']
 ['46154151' 'Apr-15' '' ... 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=46154151' 'OH' '3199.4']
 ['66055249' 'Dec-15' '10000.0' ... 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=66055249' 'IL' '301.9']]


### Utilizando Pandas Apenas Para Visualizar o Dataset

In [5]:
import pandas as pd

# Convertendo o array NumPy para um DataFrame do Pandas
df = pd.DataFrame(dados)

# Exibindo o DataFrame
df.head(10)

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13
0,48010226.0,,35000.0,,35000.0,,13.33,1184.86,,,,,,9452.96
1,57693261.0,,30000.0,,30000.0,,,938.57,,,,,,4679.7
2,59432726.0,,15000.0,,15000.0,,,494.86,,,,,,1969.83
3,53222800.0,,9600.0,,9600.0,,,300.35,,,,,,1793.68
4,57803010.0,,8075.0,,8075.0,,19.19,296.78,,,,,,1178.51
5,63398019.0,,14400.0,,14400.0,,13.99,334.99,,,,,,681.17
6,60850626.0,,,,13000.0,,24.99,381.5,,,,,,1126.45
7,46816139.0,,7500.0,,7500.0,,13.33,253.9,,,,,,2025.65
8,63918356.0,,8000.0,,8000.0,,,250.29,,,,,,497.07
9,63651616.0,,7200.0,,7200.0,,,241.18,,,,,,512.57


Observe como várias colunas estão com o tipo NaN. Isso se deve a caracteres especiais no conjunto de dados e a forma como o NumPy carrega dados numéricos e do tipo string. Iremos resolver isso

In [6]:
# Convertendo o array NumPy para um DataFrame do Pandas 2 (visualizando dados carregados como string)
df2 = pd.DataFrame(dados2)

# Exibindo o DataFrame
df2.head(10)

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13
0,id,issue_d,loan_amnt,loan_status,funded_amnt,term,int_rate,installment,grade,sub_grade,verification_status,url,addr_state,total_pymnt
1,48010226,May-15,35000.0,Current,35000.0,36 months,13.33,1184.86,C,C3,Verified,https://www.lendingclub.com/browse/loanDetail....,CA,9452.96
2,57693261,,30000.0,Current,30000.0,36 months,юли.89,938.57,A,A5,Source Verified,https://www.lendingclub.com/browse/loanDetail....,NY,4679.7
3,59432726,Sep-15,15000.0,Current,15000.0,36 months,ное.53,494.86,B,B5,Verified,https://www.lendingclub.com/browse/loanDetail....,PA,1969.83
4,53222800,Jul-15,9600.0,Current,9600.0,36 months,юли.89,300.35,A,A5,Not Verified,https://www.lendingclub.com/browse/loanDetail....,OH,1793.68
5,57803010,Aug-15,8075.0,Current,8075.0,36 months,19.19,296.78,,E3,Source Verified,https://www.lendingclub.com/browse/loanDetail....,TX,1178.51
6,63398019,Oct-15,14400.0,Current,14400.0,60 months,13.99,334.99,,C4,Not Verified,https://www.lendingclub.com/browse/loanDetail....,AL,681.17
7,60850626,Sep-15,,Current,13000.0,60 months,24.99,381.5,F,F4,Source Verified,https://www.lendingclub.com/browse/loanDetail....,CA,1126.45
8,46816139,Apr-15,7500.0,Current,7500.0,36 months,13.33,253.9,C,C3,,https://www.lendingclub.com/browse/loanDetail....,GA,2025.65
9,63918356,Nov-15,8000.0,Current,8000.0,36 months,юли.89,250.29,A,A5,Source Verified,https://www.lendingclub.com/browse/loanDetail....,MA,497.07


### Tipo de Dados

In [7]:
print(type(dados))
print(type(df))

print(dados.shape)
print(df.shape)

<class 'numpy.ndarray'>
<class 'pandas.core.frame.DataFrame'>
(10000, 14)
(10000, 14)


## Verificando Valores Ausentes

In [8]:
# Visualizando novamente dataset e dados ausentes

dados.view()

array([[48010226.  ,         nan,    35000.  , ...,         nan,         nan,     9452.96],
       [57693261.  ,         nan,    30000.  , ...,         nan,         nan,     4679.7 ],
       [59432726.  ,         nan,    15000.  , ...,         nan,         nan,     1969.83],
       ...,
       [50415990.  ,         nan,    10000.  , ...,         nan,         nan,     2185.64],
       [46154151.  ,         nan,         nan, ...,         nan,         nan,     3199.4 ],
       [66055249.  ,         nan,    10000.  , ...,         nan,         nan,      301.9 ]])

Observe como várias colunas estão com o tipo NaN. Isso se deve a caracteres especiais no conjunto de dados e a forma como o NumPy carrega dados numéricos e do tipo string. Iremos resolver isso

In [9]:
# Total de Valores Ausentes

np.isnan(dados).sum()

88005

## Tratando Valores Ausentes

In [10]:
# Vamos primeiramente retornar o maior valor + 1 ignorando valores NaN do dataset
# Usaremos este valor arbitrário para preencher os valores ausentes no momento da carga de dados de variáveis
# numéricas e depois tratamos esse valor como ausente

# Portanto pegamos o maior valor do conjunto de dados (sem considerar NaN), somamos 1 e gravamos em valor_coringa
# Vamos usar este valor para preeencher valores ausentes na hora de carregar variáveis numéricas

# Através do NumPy conseguimos passar por todo o conjunto de dados (memso que tenham outros tipos como chr) e ainda
# assim achar o maior valor numérico

valor_coringa = np.nanmax(dados) + 1
print(valor_coringa)

68616520.0


In [11]:
# Calculamos a média (variáveis numéricas) ignorando valores NaN por coluna
# Iremos usar isso para separar variáveis do tipo numéricas de variáveis do tipo string

media_ignorando_nan = np.nanmean(dados, axis = 0)
print(media_ignorando_nan)

[54015809.19         nan    15273.46         nan    15311.04         nan       16.62      440.92         nan         nan         nan         nan         nan     3143.85]


In [12]:
# Colunas do tipo Strings com valores ausentes

colunas_strings = np.argwhere(np.isnan(media_ignorando_nan)).squeeze()
colunas_strings

array([ 1,  3,  5,  8,  9, 10, 11, 12])

In [13]:
# Colunas do tipo Numérica com valores ausentes

colunas_numericas = np.argwhere(np.isnan(media_ignorando_nan) == False).squeeze()
colunas_numericas

array([ 0,  2,  4,  6,  7, 13])

#### Importando novamente o dataset, agora separando colunas do tipo String e colunas do tipo Numérica

In [14]:
# Carregando somente Colunas do Tipo String

arr_strings = np.genfromtxt("datasets/dataset1.csv",
                           delimiter = ';',
                           skip_header = 1,               # não carrega o cabeçalho
                           autostrip = True,
                           usecols = colunas_strings,
                           dtype = str,
                           encoding = 'windows-1251'
                           )

arr_strings

array([['May-15', 'Current', '36 months', ..., 'Verified', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=48010226', 'CA'],
       ['', 'Current', '36 months', ..., 'Source Verified', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=57693261', 'NY'],
       ['Sep-15', 'Current', '36 months', ..., 'Verified', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=59432726', 'PA'],
       ...,
       ['Jun-15', 'Current', '36 months', ..., 'Source Verified', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=50415990', 'CA'],
       ['Apr-15', 'Current', '36 months', ..., 'Source Verified', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=46154151', 'OH'],
       ['Dec-15', 'Current', '36 months', ..., '', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=66055249', 'IL']], dtype='<U69')

In [15]:
# Carregando somente Colunas do Tipo Numérica

arr_numeric = np.genfromtxt("datasets/dataset1.csv",
                           delimiter = ';',
                           skip_header = 1,                      # não carrega o cabeçalho
                           autostrip = True,
                           usecols = colunas_numericas,
                           filling_values = valor_coringa,       # caso tenha valores NaN, ele substitui pelo 
                           encoding = 'windows-1251'             # valor_coringa
                           )

arr_numeric

array([[48010226.  ,    35000.  ,    35000.  ,       13.33,     1184.86,     9452.96],
       [57693261.  ,    30000.  ,    30000.  , 68616520.  ,      938.57,     4679.7 ],
       [59432726.  ,    15000.  ,    15000.  , 68616520.  ,      494.86,     1969.83],
       ...,
       [50415990.  ,    10000.  ,    10000.  , 68616520.  , 68616520.  ,     2185.64],
       [46154151.  , 68616520.  ,    10000.  ,       16.55,      354.3 ,     3199.4 ],
       [66055249.  ,    10000.  ,    10000.  , 68616520.  ,      309.97,      301.9 ]])

#### Importando novamente o dataset, agora carregando apenas o nome das colunas

In [16]:
# Carrega nome das colunas

arr_nomes_colunas = np.genfromtxt("datasets/dataset1.csv",
                    delimiter = ';',
                    autostrip = True,
                    skip_footer = dados.shape[0],
                    dtype = str,
                    encoding = 'windows-1251' 
                    )

arr_nomes_colunas

array(['id', 'issue_d', 'loan_amnt', 'loan_status', 'funded_amnt', 'term', 'int_rate', 'installment', 'grade', 'sub_grade', 'verification_status', 'url', 'addr_state', 'total_pymnt'], dtype='<U19')

In [17]:
# Separa cabeçalho de colunas numéricas e string

header_strings, header_numeric = arr_nomes_colunas[colunas_strings], arr_nomes_colunas[colunas_numericas]

print(header_strings)
print(header_numeric)

['issue_d' 'loan_status' 'term' 'grade' 'sub_grade' 'verification_status' 'url' 'addr_state']
['id' 'loan_amnt' 'funded_amnt' 'int_rate' 'installment' 'total_pymnt']


## Explicação Sobre o Processo de Tratamento de Valores ausentes

#### Verificando Valores Ausentes
Inicialmente, foi observado que o dataset contém uma quantidade significativa de valores NaN, indicando a presença de valores ausentes. Isso pode ser devido a várias razões, incluindo caracteres especiais, mistura de tipos de dados (numéricos e strings) em colunas, ou simplesmente dados faltantes.

#### Total de Valores Ausentes
A quantidade total de valores ausentes foi calculada usando np.isnan(dados).sum(), que forneceu uma visão geral da magnitude do problema.

### Estratégia para Tratar Valores Ausentes
A abordagem adotada para tratar valores ausentes consistiu em várias etapas:

#### Identificação de um Valor Coringa
Foi escolhido um valor coringa, definido como o maior valor no dataset mais um (np.nanmax(dados) + 1). Esse valor coringa foi utilizado para preencher temporariamente os valores ausentes nas colunas numéricas durante a carga do dataset, permitindo uma diferenciação clara entre os dados originalmente ausentes e outros valores numéricos.

#### Cálculo da Média Ignorando NaN
Para cada coluna, foi calculada a média, ignorando valores NaN (np.nanmean(dados, axis=0)). Isso ajudou a identificar quais colunas são puramente numéricas (pois a média de colunas contendo strings ou totalmente ausentes resultaria em NaN).

#### Separação de Colunas Numéricas e Strings
Com base na etapa anterior, as colunas foram classificadas como numéricas ou strings:

#### Colunas Strings:
Identificadas como aquelas cuja média resultou em NaN, indicando que não são puramente numéricas.

#### Colunas Numéricas
Colunas para as quais foi possível calcular uma média, indicando que são puramente numéricas.

#### Carregamento Separado de Dados Numéricos e Strings
Para tratar adequadamente os diferentes tipos de dados, o dataset foi carregado separadamente para colunas numéricas e strings:

#### Dados Numéricos
Carregados especificando usecols para selecionar apenas as colunas numéricas e filling_values para preencher valores ausentes com o valor coringa.

#### Dados de Strings
Carregados especificando usecols para selecionar apenas as colunas de strings, garantindo que o texto seja preservado corretamente.

#### Importação dos Nomes das Colunas
Os nomes das colunas foram importados separadamente, usando np.genfromtxt com parâmetros ajustados para carregar apenas o cabeçalho, fornecendo uma referência clara de quais dados cada coluna contém.

#### Separação dos Nomes das Colunas
Os nomes das colunas foram então divididos em dois grupos, correspondendo às colunas numéricas e de strings, com base na classificação feita anteriormente. Isso facilita a referência e a manipulação de colunas específicas nas etapas subsequentes.

#### Conclusão
Essas etapas formam a base para o tratamento de valores ausentes e a preparação dos dados para análise posterior. A diferenciação entre tipos de dados e o tratamento cuidadoso de valores ausentes são cruciais para garantir a integridade e a usabilidade dos dados em análises futuras.

# Função de Checkpoint

#### Checkpoint 1

Criação de uma função de Checkpoint para salvar os resultados feitos até aqui.

In [18]:
# Função
def checkpoint(file_name, checkpoint_header, checkpoint_data):
    np.savez(file_name, header = checkpoint_header, data = checkpoint_data)
    checkpoint_variable = np.load(file_name + ".npz")
    return(checkpoint_variable)

In [19]:
checkpoint_inicial = checkpoint("datasets/Checkpoint-Inicial", header_strings, arr_strings)

In [20]:
checkpoint_inicial['data']

array([['May-15', 'Current', '36 months', ..., 'Verified', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=48010226', 'CA'],
       ['', 'Current', '36 months', ..., 'Source Verified', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=57693261', 'NY'],
       ['Sep-15', 'Current', '36 months', ..., 'Verified', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=59432726', 'PA'],
       ...,
       ['Jun-15', 'Current', '36 months', ..., 'Source Verified', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=50415990', 'CA'],
       ['Apr-15', 'Current', '36 months', ..., 'Source Verified', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=46154151', 'OH'],
       ['Dec-15', 'Current', '36 months', ..., '', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=66055249', 'IL']], dtype='<U69')

# Manipulando Colunas do Tipo String

In [21]:
# Verificando novamente nome das colunas do Tipo String (iremos tratar cada uma delas)
print(header_strings)

['issue_d' 'loan_status' 'term' 'grade' 'sub_grade' 'verification_status' 'url' 'addr_state']


#### Renomeando coluna issue_d

In [22]:
# Renomeando coluna
header_strings[0] = "issue_date"
print(header_strings)

['issue_date' 'loan_status' 'term' 'grade' 'sub_grade' 'verification_status' 'url' 'addr_state']


### Pré-Processamento da Variável issue_date com Label Encoding

In [23]:
# Extrai os valores únicos
np.unique(arr_strings[:, 0])

array(['', 'Apr-15', 'Aug-15', 'Dec-15', 'Feb-15', 'Jan-15', 'Jul-15', 'Jun-15', 'Mar-15', 'May-15', 'Nov-15', 'Oct-15', 'Sep-15'], dtype='<U69')

In [24]:
# Remove o sufico "-15" 
arr_strings[:, 0] = np.chararray.strip(arr_strings[:, 0], "-15")

# Extrai os valores únicos
print(np.unique(arr_strings[:, 0]))

# Tipo
print(type(arr_strings[:, 0]))

['' 'Apr' 'Aug' 'Dec' 'Feb' 'Jan' 'Jul' 'Jun' 'Mar' 'May' 'Nov' 'Oct' 'Sep']
<class 'numpy.ndarray'>


In [25]:
# Criamos um array com os meses (incluindo um elemento como vazio para o que estiver em branco)
meses = np.array(['', 'Jan', 'Feb', 'Mar', 'Apr', 'May', 'Jun', 'Jul', 'Aug', 'Sep', 'Oct', 'Nov', 'Dec'])

# Loop para converter os nomes dos meses em valores numéricos (valor '' ficará 0)
# Chamamos isso de label encoding
for i in range(13):
        arr_strings[:,0] = np.where(arr_strings[:,0] == meses[i], i, arr_strings[:,0])
        
np.unique(arr_strings[:,0])

array(['0', '1', '10', '11', '12', '2', '3', '4', '5', '6', '7', '8', '9'], dtype='<U69')

### Pré-Processamento da Variável loan_status com Binarização

In [26]:
 # Extrai os valores únicos da variável
np.unique(arr_strings[:,1])

array(['', 'Charged Off', 'Current', 'Default', 'Fully Paid', 'In Grace Period', 'Issued', 'Late (16-30 days)', 'Late (31-120 days)'], dtype='<U69')

Após tomada de decisão decidimos resumir a informação da variável em dois grupos (0 mal pagador e 1 bom pagador)

In [27]:
# Criamos um array com apenas 3 status para mau pagador (0)
status_bad = np.array(['', 'Charged Off', 'Default', 'Late (31-120 days)'])

In [28]:
# Checamos agora os valores da variável e comparamos com o array anterior convertendo a variável para
# valores binários
# Chamamos isso de binarização
arr_strings[:,1] = np.where(np.isin(arr_strings[:,1], status_bad),0,1)

In [29]:
# Extrai os valores únicos da variável
np.unique(arr_strings[:,1])

array(['0', '1'], dtype='<U69')

### Pré-Processamento da Variável term com Limpeza de String

In [30]:
# Extrai os valores únicos da variável
np.unique(arr_strings[:,2])

array(['', '36 months', '60 months'], dtype='<U69')

In [31]:
# Mudamos o título da variável
header_strings[2] = "term_months"

In [32]:
# Removemos a palavra months (observe o espaço antes da palavra)
arr_strings[:,2] = np.chararray.strip(arr_strings[:,2], " months")

# Extrai os valores únicos da variável
np.unique(arr_strings[:,2])

array(['', '36', '60'], dtype='<U69')

In [33]:
# Substituímos os valores ausentes pelo maior valor, em nosso caso 60
arr_strings[:,2] = np.where(arr_strings[:,2] == '', '60', arr_strings[:,2])

In [34]:
# Extrai os valores únicos da variável
np.unique(arr_strings[:,2])

array(['36', '60'], dtype='<U69')

### Pré-Processamento das Variáveis grade e sub_grade com Dicionário (É um Tipo de Label Encoding)

In [35]:
# Extrai os valores únicos da variável grade
np.unique(arr_strings[:,3])

array(['', 'A', 'B', 'C', 'D', 'E', 'F', 'G'], dtype='<U69')

In [36]:
# Extrai os valores únicos da variável sub_grade
np.unique(arr_strings[:,4])

array(['', 'A1', 'A2', 'A3', 'A4', 'A5', 'B1', 'B2', 'B3', 'B4', 'B5', 'C1', 'C2', 'C3', 'C4', 'C5', 'D1', 'D2', 'D3', 'D4', 'D5', 'E1', 'E2', 'E3', 'E4', 'E5', 'F1', 'F2', 'F3', 'F4', 'F5', 'G1',
       'G2', 'G3', 'G4', 'G5'], dtype='<U69')

In [37]:
# Visualiza os valores únicos da variável grade sem NA (será usado no loop)
np.unique(arr_strings[:,3])[1:]

array(['A', 'B', 'C', 'D', 'E', 'F', 'G'], dtype='<U69')

In [38]:
# Loop para ajuste da variável sub_grade
# O loop identifica casos em que a sub_grade está vazia (''), mas a variavel grade correspondente tem um valor.
# Nesses casos, atribui-se à sub_grade o valor da grade com um '5' adicionado ao final. 

for i in np.unique(arr_strings[:,3])[1:]:
    arr_strings[:,4] = np.where((arr_strings[:,4] == '') & (arr_strings[:,3] == i), i + '5', arr_strings[:,4])

In [39]:
# Retorna categorias e suas respectivas contagens
np.unique(arr_strings[:,4], return_counts = True)

(array(['', 'A1', 'A2', 'A3', 'A4', 'A5', 'B1', 'B2', 'B3', 'B4', 'B5', 'C1', 'C2', 'C3', 'C4', 'C5', 'D1', 'D2', 'D3', 'D4', 'D5', 'E1', 'E2', 'E3', 'E4', 'E5', 'F1', 'F2', 'F3', 'F4', 'F5', 'G1',
        'G2', 'G3', 'G4', 'G5'], dtype='<U69'),
 array([  9, 285, 278, 239, 323, 592, 509, 517, 530, 553, 633, 629, 567, 586, 564, 577, 391, 267, 250, 255, 288, 235, 162, 171, 139, 160,  94,  52,  34,  43,  24,  19,  10,   3,   7,   5]))

In [40]:
# Substituímos valores ausentes de sub_grade por uma nova categoria (H1)
arr_strings[:,4] = np.where(arr_strings[:,4] == '', 'H1', arr_strings[:,4])

# Extrai os valores únicos da variável
np.unique(arr_strings[:,4])

array(['A1', 'A2', 'A3', 'A4', 'A5', 'B1', 'B2', 'B3', 'B4', 'B5', 'C1', 'C2', 'C3', 'C4', 'C5', 'D1', 'D2', 'D3', 'D4', 'D5', 'E1', 'E2', 'E3', 'E4', 'E5', 'F1', 'F2', 'F3', 'F4', 'F5', 'G1', 'G2',
       'G3', 'G4', 'G5', 'H1'], dtype='<U69')

In [41]:
# Removendo variável grade (não precisamos mais dela)

arr_strings = np.delete(arr_strings, 3, axis = 1)

In [42]:
# Visualizando a nova variável na coluna de índice 3 (antiga grade)

arr_strings[:,3]

array(['C3', 'A5', 'B5', ..., 'A5', 'D2', 'A4'], dtype='<U69')

In [43]:
# Remover a coluna grade também do conjunto de array com nome dsa colunas
header_strings = np.delete(header_strings, 3)

# Visualizando a nova variável na coluna de índice 3 (antiga grade)
header_strings[3]

'sub_grade'

#### Por fim, convertemos a variável sub_grade para sua representação numérica (através de um dicionário)

In [44]:
# Visualiza como estão os valores únicos da variável sub_grade
print(np.unique(arr_strings[:,3]))

['A1' 'A2' 'A3' 'A4' 'A5' 'B1' 'B2' 'B3' 'B4' 'B5' 'C1' 'C2' 'C3' 'C4' 'C5' 'D1' 'D2' 'D3' 'D4' 'D5' 'E1' 'E2' 'E3' 'E4' 'E5' 'F1' 'F2' 'F3' 'F4' 'F5' 'G1' 'G2' 'G3' 'G4' 'G5' 'H1']


In [45]:
# Cria uma lista de chaves (com valores da categoria)
keys = list(np.unique(arr_strings[:,3]))     
print(keys[0])

A1


In [46]:
# Cria uma lista de valores (números)
values = list(range(1, np.unique(arr_strings[:,3]).shape[0] + 1)) 
print(values[0])


1


In [47]:
# Criamos então o dicionário (cada categoria tem seu valor numérico)
dict_sub_grade = dict(zip(keys, values))

dict_sub_grade

{'A1': 1,
 'A2': 2,
 'A3': 3,
 'A4': 4,
 'A5': 5,
 'B1': 6,
 'B2': 7,
 'B3': 8,
 'B4': 9,
 'B5': 10,
 'C1': 11,
 'C2': 12,
 'C3': 13,
 'C4': 14,
 'C5': 15,
 'D1': 16,
 'D2': 17,
 'D3': 18,
 'D4': 19,
 'D5': 20,
 'E1': 21,
 'E2': 22,
 'E3': 23,
 'E4': 24,
 'E5': 25,
 'F1': 26,
 'F2': 27,
 'F3': 28,
 'F4': 29,
 'F5': 30,
 'G1': 31,
 'G2': 32,
 'G3': 33,
 'G4': 34,
 'G5': 35,
 'H1': 36}

In [48]:
# Loop para substituir a string com as categorias pela representação numérica (frequência)

for i in np.unique(arr_strings[:,3]):
        arr_strings[:,3] = np.where(arr_strings[:,3] == i, dict_sub_grade[i], arr_strings[:,3])
        
# Verifica os valores únicos da variável
np.unique(arr_strings[:,3])

array(['1', '10', '11', '12', '13', '14', '15', '16', '17', '18', '19', '2', '20', '21', '22', '23', '24', '25', '26', '27', '28', '29', '3', '30', '31', '32', '33', '34', '35', '36', '4', '5', '6',
       '7', '8', '9'], dtype='<U69')

### Pré-Processamento da Variável verification_status com Binarização (processo similar a variável loan_status)

In [49]:
 # Extrai os valores únicos da variável
np.unique(arr_strings[:,4])

array(['', 'Not Verified', 'Source Verified', 'Verified'], dtype='<U69')

In [50]:
# Usamos a binarização nesta variável (0 para valores NA e "Not Verified")
arr_strings[:,4] = np.where((arr_strings[:,4] == '') | (arr_strings[:,4] == 'Not Verified'), 0, 1)

In [51]:
# Verifica novamente os valores únicos da variável
np.unique(arr_strings[:,4], return_counts = True)

(array(['0', '1'], dtype='<U69'), array([3173, 6827]))

### Pré-Processamento da Variável url com Extração de ID

In [52]:
# Visualiza amostra dos dados
arr_strings[:,5]

array(['https://www.lendingclub.com/browse/loanDetail.action?loan_id=48010226', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=57693261',
       'https://www.lendingclub.com/browse/loanDetail.action?loan_id=59432726', ..., 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=50415990',
       'https://www.lendingclub.com/browse/loanDetail.action?loan_id=46154151', 'https://www.lendingclub.com/browse/loanDetail.action?loan_id=66055249'], dtype='<U69')

In [53]:
# Verificamos que ao final de cada url temos um ID
# Vamos extrair esse ID
np.chararray.strip(arr_strings[:,5], "https://www.lendingclub.com/browse/loanDetail.action?loan_id=")

chararray(['48010226', '57693261', '59432726', ..., '50415990', '46154151', '66055249'], dtype='<U69')

In [54]:
# Agora vamos remover valor da url e deixar apenas o ID na variável
arr_strings[:,5] = np.chararray.strip(arr_strings[:,5], 
                                      "https://www.lendingclub.com/browse/loanDetail.action?loan_id=")

In [55]:
# Parece que esse id está presente na primeira coluna do conjunto de dados.
# Vamos converter para int 32 para comparação

print(arr_numeric[:,0].astype(dtype = np.int32))

[48010226 57693261 59432726 ... 50415990 46154151 66055249]


In [56]:
# Agora vamos comparar com o resultado da primeira coluna
np.array_equal(arr_numeric[:,0].astype(dtype = np.int32), arr_strings[:,5].astype(dtype = np.int32))

True

In [57]:
# Constatamos que é a mesma informação
# Vamos então apagar a variável url
arr_strings = np.delete(arr_strings, 5, axis = 1)

# Removendo também do array de cabeçalho
header_strings = np.delete(header_strings, 5)

In [58]:
# Verificando Nova lista de colunas (constatando que a coluna ID ja era numérica)
print(header_strings)
print(header_numeric)

['issue_date' 'loan_status' 'term_months' 'sub_grade' 'verification_status' 'addr_state']
['id' 'loan_amnt' 'funded_amnt' 'int_rate' 'installment' 'total_pymnt']


### Pré-Processamento da Variável address com Categorização

In [59]:
header_strings

array(['issue_date', 'loan_status', 'term_months', 'sub_grade', 'verification_status', 'addr_state'], dtype='<U19')

In [60]:
# Vamos ajustar o nome da coluna
header_strings[5] = "state_address"

In [61]:
# Extrai e verifica nomes e contagens
states_names, states_count = np.unique(arr_strings[:,5], return_counts = True)

In [62]:
# Ordena em ordem descrescente
states_count_sorted = np.argsort(-states_count)

In [63]:
# Imprime os resultados (todos os tipos de estado e suas respectivas quantidades)
print(states_names[states_count_sorted]) 
print(states_count[states_count_sorted])

['CA' 'NY' 'TX' 'FL' '' 'IL' 'NJ' 'GA' 'PA' 'OH' 'MI' 'NC' 'VA' 'MD' 'AZ' 'WA' 'MA' 'CO' 'MO' 'MN' 'IN' 'WI' 'CT' 'TN' 'NV' 'AL' 'LA' 'OR' 'SC' 'KY' 'KS' 'OK' 'UT' 'AR' 'MS' 'NH' 'NM' 'WV' 'HI' 'RI'
 'MT' 'DE' 'DC' 'WY' 'AK' 'NE' 'SD' 'VT' 'ND' 'ME']
[1336  777  758  690  500  389  341  321  320  312  267  261  242  222  220  216  210  201  160  156  152  148  143  143  130  119  116  108  107   84   84   83   74   74   61   58   57   49   44
   40   28   27   27   27   26   25   24   17   16   10]


In [64]:
# Substituímos valores ausentes por zero (necessário para transformar a variável em tipo numérico)
arr_strings[:,5] = np.where(arr_strings[:,5] == '', 0, arr_strings[:,5])

In [65]:
# Vamos separar os estados por regiões.
# Referência: https://www2.census.gov/geo/pdfs/maps-data/maps/reference/us_regdiv.pdf

# Criando Arrays Por Região
states_west = np.array(['WA', 'OR','CA','NV','ID','MT', 'WY','UT','CO', 'AZ','NM','HI','AK'])
states_south = np.array(['TX','OK','AR','LA','MS','AL','TN','KY','FL','GA','SC','NC','VA','WV','MD','DE','DC'])
states_midwest = np.array(['ND','SD','NE','KS','MN','IA','MO','WI','IL','IN','MI','OH'])
states_east = np.array(['PA','NY','NJ','CT','MA','VT','NH','ME','RI'])

In [66]:
# Agora substituímos cada estado pelo id da sua região
arr_strings[:,5] = np.where(np.isin(arr_strings[:,5], states_west), 1, arr_strings[:,5])
arr_strings[:,5] = np.where(np.isin(arr_strings[:,5], states_south), 2, arr_strings[:,5])
arr_strings[:,5] = np.where(np.isin(arr_strings[:,5], states_midwest), 3, arr_strings[:,5])
arr_strings[:,5] = np.where(np.isin(arr_strings[:,5], states_east), 4, arr_strings[:,5])

In [67]:
# Verifica novamente os valores únicos da variável
np.unique(arr_strings[:,5], return_counts = True)

(array(['0', '1', '2', '3', '4'], dtype='<U69'),
 array([ 500, 2467, 3384, 1733, 1916]))

### Convertendo o Array
#### Nosso array de strings agora é um array numérico. Vamos ajustar o tipo de dado.
Diferente do R, devemos conveter nosso array com variáveis categóricas em numérica 

In [68]:
# Verificando com nosso array de variáveis categóricas contém somente números agora
arr_strings

array([['5', '1', '36', '13', '1', '1'],
       ['0', '1', '36', '5', '1', '4'],
       ['9', '1', '36', '10', '1', '4'],
       ...,
       ['6', '1', '36', '5', '1', '1'],
       ['4', '1', '36', '17', '1', '3'],
       ['12', '1', '36', '4', '0', '3']], dtype='<U69')

In [69]:
# Modificando para tipo inteiro
arr_strings = arr_strings.astype(int)

# Verificando novo tipo
arr_strings.dtype

dtype('int64')

### Checkpoint com Variáveis do Tipo String Limpas e Pré-Processadas
#### Checkpoint 2

Concluída a primeira parte, vamos gravar o checkpooint.

In [70]:
checkpoint_strings = checkpoint("datasets/Checkpoint-Strings", header_strings, arr_strings)

In [71]:
print(checkpoint_strings["header"])
print(checkpoint_strings["data"])
print(np.array_equal(checkpoint_strings['data'], arr_strings))

['issue_date' 'loan_status' 'term_months' 'sub_grade' 'verification_status' 'state_address']
[[ 5  1 36 13  1  1]
 [ 0  1 36  5  1  4]
 [ 9  1 36 10  1  4]
 ...
 [ 6  1 36  5  1  1]
 [ 4  1 36 17  1  3]
 [12  1 36  4  0  3]]
True


## Manipulando Colunas Numéricas

#### 1. Substituição Inicial por Valor Coringa
Definição do Valor Coringa: Inicialmente, é definido um "valor coringa" que é utilizado para preencher os valores ausentes no momento da carga dos dados. Esse valor é escolhido como sendo o maior valor encontrado no conjunto de dados (np.nanmax(dados)) acrescido de 1. Isso garante que o valor coringa seja único e não conflite com nenhum valor real dos dados.

Substituição de Valores Ausentes: Ao carregar os dados, todos os valores ausentes são substituídos por esse valor coringa. Isso é feito para evitar a perda de informação e facilitar a manipulação subsequente dos dados.

##### 2. Cálculo de Estatísticas Ignorando o Valor Coringa
Cálculo da Média Ignorando Valores Ausentes: A média de cada coluna numérica é calculada ignorando os valores ausentes (e o valor coringa), resultando em media_ignorando_nan. Isso é crucial para obter medidas estatísticas precisas que serão usadas posteriormente para tratar os valores ausentes de maneira mais informada.

Geração de Estatísticas Descritivas: Um array de estatísticas (arr_stats) é criado contendo o valor mínimo, a média e o valor máximo de cada variável, calculados de forma a ignorar tanto os valores NaN quanto o valor coringa. Esse array é fundamental para o tratamento subsequente dos valores ausentes, fornecendo uma base estatística para decisões de imputação.

#### 3. Tratamento de Valores Ausentes com Estatísticas
Verificação da Presença do Valor Coringa: Antes de proceder com a imputação, verifica-se a presença do valor coringa em cada coluna para confirmar quais colunas contêm esses placeholders.

Imputação Baseada em Estatísticas: Para as colunas que foram preenchidas com o valor coringa, utilizam-se as estatísticas calculadas para substituir o valor coringa por um valor mais representativo. Por exemplo, pode-se substituir o valor coringa pelo valor mínimo da coluna, pela média ou por qualquer outro valor estatístico que seja considerado adequado para o contexto dos dados.

In [72]:
# Visualiza os dados
arr_numeric

array([[48010226.  ,    35000.  ,    35000.  ,       13.33,     1184.86,     9452.96],
       [57693261.  ,    30000.  ,    30000.  , 68616520.  ,      938.57,     4679.7 ],
       [59432726.  ,    15000.  ,    15000.  , 68616520.  ,      494.86,     1969.83],
       ...,
       [50415990.  ,    10000.  ,    10000.  , 68616520.  , 68616520.  ,     2185.64],
       [46154151.  , 68616520.  ,    10000.  ,       16.55,      354.3 ,     3199.4 ],
       [66055249.  ,    10000.  ,    10000.  , 68616520.  ,      309.97,      301.9 ]])

In [73]:
# Nomes das colunas
header_numeric

array(['id', 'loan_amnt', 'funded_amnt', 'int_rate', 'installment', 'total_pymnt'], dtype='<U19')

In [74]:
# Não temos valor ausente, pois ao carregar os dados substituímos por um valor arbitrário
print(np.isnan(arr_numeric).sum())

print(valor_coringa)

# Podemos checar se uma coluna foi preenchida com o valor coringa (coluna ID não foi preenchida)
print(np.isin(arr_numeric[:,0], valor_coringa))

# Podemos checar se uma coluna foi preenchida com o valor coringac (coluna loan_amnt tem 500 valores coringas)
print(np.isin(arr_numeric[:,1], valor_coringa).sum())


0
68616520.0
[False False False ... False False False]
500


Vamos criar um array de estatísticas, especificamente valor mínimo, máximo e média de cada variável. Usaremos isso noo tratamento de valores ausentes (preenchidos com o valor coringa).

In [75]:
# Criamos um array com valor mínimo, média e valor máximo das colunas, ignorando os valores tratados como NaN
# e o valor_coringa durante o cálculo.
# Isso permite identificar os verdadeiros valores estatísticos das variáveis numéricas e será utilizado para 
# o tratamento dos valores ausentes (originalmente substituídos pelo valor_coringa).

arr_stats = np.array([np.nanmin(dados, axis = 0), media_ignorando_nan, np.nanmax(dados, axis = 0)])

print(arr_stats)

[[  373332.           nan     1000.           nan     1000.           nan        6.         31.42         nan         nan         nan         nan         nan        0.  ]
 [54015809.19         nan    15273.46         nan    15311.04         nan       16.62      440.92         nan         nan         nan         nan         nan     3143.85]
 [68616519.           nan    35000.           nan    35000.           nan       28.99     1372.97         nan         nan         nan         nan         nan    41913.62]]


In [76]:
# Convertendo o array de estatísticas para um DataFrame do Pandas 2 (visualizando dados carregados como string)
df_stats = pd.DataFrame(arr_stats[:, colunas_numericas])

# Renomeando colunas
df_stats.columns = header_numeric

# Renomeando as linhas
df_stats.index = ['Min', 'Mean', 'Max']

# Exibindo o DataFrame
df_stats

Unnamed: 0,id,loan_amnt,funded_amnt,int_rate,installment,total_pymnt
Min,373332.0,1000.0,1000.0,6.0,31.42,0.0
Mean,54015810.0,15273.463158,15311.042105,16.617295,440.922179,3143.850941
Max,68616520.0,35000.0,35000.0,28.99,1372.97,41913.62


### Pré-Processamento da Variável funded_amnt
#### (substituindo todos os valores coringas pelo valor mínimo)

In [77]:
# Ajustamos o conteúdo da coluna
arr_numeric[:,2] = np.where(arr_numeric[:,2] == valor_coringa, arr_stats[0, colunas_numericas[2]], arr_numeric[:,2])

### Pré-Processamento das Variáveis loan_amnt, int_rate, installment e total_pymnt 
#### (substituindo todos os valores coringas pelo valor máximo)

In [78]:
# Loop para substituir o valor ausente (valor_coringa) pelos valores do array de estatísticas
for i in [1,3,4,5]:
    arr_numeric[:,i] = np.where(arr_numeric[:,i] == valor_coringa, 
                                arr_stats[2, colunas_numericas[i]], 
                                arr_numeric[:,i])

In [79]:
# Visualizando dados numéricos

print(arr_numeric)

[[48010226.      35000.      35000.         13.33     1184.86     9452.96]
 [57693261.      30000.      30000.         28.99      938.57     4679.7 ]
 [59432726.      15000.      15000.         28.99      494.86     1969.83]
 ...
 [50415990.      10000.      10000.         28.99     1372.97     2185.64]
 [46154151.      35000.      10000.         16.55      354.3      3199.4 ]
 [66055249.      10000.      10000.         28.99      309.97      301.9 ]]


# Carregando o segundo Dataset

####  Este dataset contém a taxa de câmbio de dólar para euro. Cada coluna representa uma taxa de cambio de abertura (Open) a fechamento (Close)
#### Vamos usar a coluna Close

#### Iremos pegar estes dados, casar com os dados que estão em dólar, fazer os ajustes e preparar novas colunas.

#### Vamos carregar os dados de cotação USD - EURO. Cada linha do dataset corresponde à taxa de câmbio para um mês em um ano.

In [80]:
# Carrega o segundo dataset
dados_cot = np.genfromtxt("datasets/dataset2.csv", 
                          delimiter = ',', 
                          autostrip = True, 
                          skip_header = 1, 
                          usecols = 3)

In [81]:
# Visualiza
print(dados_cot)

[1.13 1.12 1.08 1.11 1.1  1.12 1.09 1.13 1.13 1.1  1.06 1.09]


In [82]:
# Convertendo o dataset para um DataFrame do Pandas 2 (visualizando dados carregados como string)
df_dados_cot = pd.DataFrame(dados_cot)

# Exibindo o DataFrame
df_dados_cot

Unnamed: 0,0
0,1.128796
1,1.120536
2,1.083025
3,1.111432
4,1.096035
5,1.122297
6,1.093924
7,1.134005
8,1.125594
9,1.100897


In [83]:
# Visualizando o array de colunas string (que neste momento já está processado com todos valores numéricos)

arr_strings

array([[ 5,  1, 36, 13,  1,  1],
       [ 0,  1, 36,  5,  1,  4],
       [ 9,  1, 36, 10,  1,  4],
       ...,
       [ 6,  1, 36,  5,  1,  1],
       [ 4,  1, 36, 17,  1,  3],
       [12,  1, 36,  4,  0,  3]])

In [84]:
# Re-lembrando que a coluna 0 é o mês (issue_date)
arr_strings[:, 0]

array([ 5,  0,  9, ...,  6,  4, 12])

In [85]:
# Vamos atribuir valores da coluna 0 a um novo objeto
exchange_rate = arr_strings[:, 0]

In [86]:
# Precisamos agorar casar o mês (issue_date, dataset1) com a taxa de câmbio daquele mês (dataset2)

# O código itera sobre a coluna issue_date (que contém os meses) do primeiro dataset.
# Para cada valor dessa coluna (cada mês), ele busca a taxa de câmbio correspondente no array dados_cot
# (que já contém as taxas de câmbio para cada mês) e atribui essa taxa a um novo array, baseando-se na posição
# que corresponde ao mês (ajustado pelo fato de que os meses começam do índice 0 em Python).

# Loop para preencher a variável exchange_rate com a taxa correspondente ao mês
# Usamos dados_cot[i - 1] devido a forma como carregamos os meses para comportar o zero
for i in range(1,13):
    exchange_rate = np.where(exchange_rate == i, dados_cot[i - 1], exchange_rate)    

In [87]:
exchange_rate

array([1.1 , 0.  , 1.13, ..., 1.12, 1.11, 1.09])

In [88]:
# Convertendo o dataset para um DataFrame do Pandas 2 (visualizando dados carregados como string)
df_exchange_rate = pd.DataFrame(exchange_rate)
df_exchange_rate

Unnamed: 0,0
0,1.096035
1,0.000000
2,1.125594
3,1.093924
4,1.134005
...,...
9995,1.083025
9996,1.111432
9997,1.122297
9998,1.111432


In [89]:
# Onde a taxa de câmbio estiver com zero substituímos pela média
exchange_rate = np.where(exchange_rate == 0, np.mean(dados_cot), exchange_rate)

In [90]:
# Convertendo o dataset para um DataFrame do Pandas 2 (visualizando dados carregados como string)
df_exchange_rate = pd.DataFrame(exchange_rate)
df_exchange_rate

Unnamed: 0,0
0,1.096035
1,1.105687
2,1.125594
3,1.093924
4,1.134005
...,...
9995,1.083025
9996,1.111432
9997,1.122297
9998,1.111432


#### Casando valores de exchange_rate para nosso array de colunas numéricas

In [91]:
# Realizando Re-Shape necessário para concatenar os arrays
exchange_rate = np.reshape(exchange_rate, (10000,1))
print(exchange_rate)

[[1.1 ]
 [1.11]
 [1.13]
 ...
 [1.12]
 [1.11]
 [1.09]]


In [92]:
# Concatenação dos arrays
arr_numeric = np.hstack((arr_numeric, exchange_rate))

In [93]:
# Inclui o nome da coluna no array de nomes de colunas
header_numeric = np.concatenate((header_numeric, np.array(['exchange_rate'])))

In [94]:
header_numeric

array(['id', 'loan_amnt', 'funded_amnt', 'int_rate', 'installment', 'total_pymnt', 'exchange_rate'], dtype='<U19')

### Criando colunas para as taxas de câmbio em USD e EURO.

In [95]:
# Selecionando colunas que contém valores numéricos que estão em dólar (selecionando colunas 1, 2, 4 e 5)
# Colunas em USD
columns_dollar = np.array([1,2,4,5])
columns_dollar

array([1, 2, 4, 5])

#### Agora vamos criar 4 novas colunas onde pegaremos as colunas numéricas em dólares e iremos converter o valor para EURO

In [96]:
# Verificando shape
arr_numeric.shape

(10000, 7)

In [97]:
# Loop pelas colunas USD para aplicar e criar novas colunas com a taxa de conversão para EURO
for i in columns_dollar:
    arr_numeric = np.hstack((arr_numeric, np.reshape(arr_numeric[:,i] / arr_numeric[:,6], (10000,1))))

In [98]:
# Verificando novamente shape
arr_numeric.shape

(10000, 11)

In [99]:
# Criando um novo objeto contendo o ajuste com o nome das novas colunas
header_additional = np.array([column_name + '_EUR' for column_name in header_numeric[columns_dollar]])
header_additional

array(['loan_amnt_EUR', 'funded_amnt_EUR', 'installment_EUR', 'total_pymnt_EUR'], dtype='<U15')

In [100]:
# Concatenando novo objeto contendo o ajuste com novo das novas colunas com o atual
header_numeric = np.concatenate((header_numeric, header_additional))
header_numeric

array(['id', 'loan_amnt', 'funded_amnt', 'int_rate', 'installment', 'total_pymnt', 'exchange_rate', 'loan_amnt_EUR', 'funded_amnt_EUR', 'installment_EUR', 'total_pymnt_EUR'], dtype='<U19')

In [101]:
# Modificando nome das colunas originais para espeficiar que é Dólar (e ficar igual as novas colunas que tem EURO)
header_numeric[columns_dollar] = np.array([column_name + '_USD' for column_name in header_numeric[columns_dollar]])
header_numeric

array(['id', 'loan_amnt_USD', 'funded_amnt_USD', 'int_rate', 'installment_USD', 'total_pymnt_USD', 'exchange_rate', 'loan_amnt_EUR', 'funded_amnt_EUR', 'installment_EUR', 'total_pymnt_EUR'],
      dtype='<U19')

In [102]:
# Ordenando o Array com Nome das Colunas
columns_index_order = [0,1,7,2,8,3,4,9,5,10,6]
header_numeric = header_numeric[columns_index_order]
header_numeric

array(['id', 'loan_amnt_USD', 'loan_amnt_EUR', 'funded_amnt_USD', 'funded_amnt_EUR', 'int_rate', 'installment_USD', 'installment_EUR', 'total_pymnt_USD', 'total_pymnt_EUR', 'exchange_rate'],
      dtype='<U19')

In [103]:
# Ordenando o Array com dados numéricos igual ao Arra com Nome das Colunas
arr_numeric = arr_numeric[:,columns_index_order]
arr_numeric

array([[48010226.  ,    35000.  ,    31933.3 , ...,     9452.96,     8624.69,        1.1 ],
       [57693261.  ,    30000.  ,    27132.46, ...,     4679.7 ,     4232.39,        1.11],
       [59432726.  ,    15000.  ,    13326.3 , ...,     1969.83,     1750.04,        1.13],
       ...,
       [50415990.  ,    10000.  ,     8910.3 , ...,     2185.64,     1947.47,        1.12],
       [46154151.  ,    35000.  ,    31490.9 , ...,     3199.4 ,     2878.63,        1.11],
       [66055249.  ,    10000.  ,     9145.8 , ...,      301.9 ,      276.11,        1.09]])

### Pré-Processamento da Variável int_rate (convertendo valor por 100)

In [104]:
# Verificando posicao da variável (5)
header_numeric

array(['id', 'loan_amnt_USD', 'loan_amnt_EUR', 'funded_amnt_USD', 'funded_amnt_EUR', 'int_rate', 'installment_USD', 'installment_EUR', 'total_pymnt_USD', 'total_pymnt_EUR', 'exchange_rate'],
      dtype='<U19')

In [105]:
# Aplicando conversão (vamos apenas dividir por 100)
arr_numeric[:,5] = arr_numeric[:,5] / 100

arr_numeric[:, 5]

array([0.13, 0.29, 0.29, ..., 0.29, 0.17, 0.29])

In [106]:
# Convertendo o dataset para um DataFrame do Pandas 2 (visualizando dados carregados como string)
df_arr_numeric = pd.DataFrame(arr_numeric)
df_arr_numeric

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10
0,48010226.0,35000.0,31933.300588,35000.0,31933.300588,0.1333,1184.86,1081.042587,9452.96,8624.691804,1.096035
1,57693261.0,30000.0,27132.459993,30000.0,27132.459993,0.2899,938.57,848.857099,4679.70,4232.392434,1.105687
2,59432726.0,15000.0,13326.299636,15000.0,13326.299636,0.2899,494.86,439.643509,1969.83,1750.036321,1.125594
3,53222800.0,9600.0,8775.743527,9600.0,8775.743527,0.2899,300.35,274.561934,1793.68,1639.674547,1.093924
4,57803010.0,8075.0,7120.777207,8075.0,7120.777207,0.1919,296.78,261.709506,1178.51,1039.245467,1.134005
...,...,...,...,...,...,...,...,...,...,...,...
9995,42974433.0,18000.0,16620.120772,18000.0,16620.120772,0.2899,565.56,522.204195,5639.24,5206.936103,1.083025
9996,45424654.0,11300.0,10167.061971,11300.0,10167.061971,0.2899,364.57,328.018211,3274.86,2946.522528,1.111432
9997,50415990.0,10000.0,8910.299817,10000.0,8910.299817,0.2899,1372.97,1223.357434,2185.64,1947.470769,1.122297
9998,46154151.0,35000.0,31490.899910,10000.0,8997.399974,0.1655,354.30,318.777881,3199.40,2878.628148,1.111432


### Checkpoint com Variáveis Numéricas Limpas e Pré-Processadas
#### Checkpoint 3

In [107]:
checkpoint_numeric = checkpoint("datasets/Checkpoint-Numeric", header_numeric, arr_numeric)

In [108]:
checkpoint_numeric['header'], checkpoint_numeric['data']

(array(['id', 'loan_amnt_USD', 'loan_amnt_EUR', 'funded_amnt_USD', 'funded_amnt_EUR', 'int_rate', 'installment_USD', 'installment_EUR', 'total_pymnt_USD', 'total_pymnt_EUR', 'exchange_rate'],
       dtype='<U19'),
 array([[48010226.  ,    35000.  ,    31933.3 , ...,     9452.96,     8624.69,        1.1 ],
        [57693261.  ,    30000.  ,    27132.46, ...,     4679.7 ,     4232.39,        1.11],
        [59432726.  ,    15000.  ,    13326.3 , ...,     1969.83,     1750.04,        1.13],
        ...,
        [50415990.  ,    10000.  ,     8910.3 , ...,     2185.64,     1947.47,        1.12],
        [46154151.  ,    35000.  ,    31490.9 , ...,     3199.4 ,     2878.63,        1.11],
        [66055249.  ,    10000.  ,     9145.8 , ...,      301.9 ,      276.11,        1.09]]))

# Construindo o Dataset Final

In [109]:
checkpoint_strings['data'].shape

(10000, 6)

In [110]:
checkpoint_numeric['data'].shape

(10000, 11)

In [111]:
# Concatena os arrays
df_final = np.hstack((checkpoint_numeric['data'], checkpoint_strings['data']))

In [112]:
df_final

array([[48010226.  ,    35000.  ,    31933.3 , ...,       13.  ,        1.  ,        1.  ],
       [57693261.  ,    30000.  ,    27132.46, ...,        5.  ,        1.  ,        4.  ],
       [59432726.  ,    15000.  ,    13326.3 , ...,       10.  ,        1.  ,        4.  ],
       ...,
       [50415990.  ,    10000.  ,     8910.3 , ...,        5.  ,        1.  ,        1.  ],
       [46154151.  ,    35000.  ,    31490.9 , ...,       17.  ,        1.  ,        3.  ],
       [66055249.  ,    10000.  ,     9145.8 , ...,        4.  ,        0.  ,        3.  ]])

In [113]:
# Verifica se tem valor ausente
np.isnan(df_final).sum()

0

In [114]:
# Concatena os arrays de nomes de colunas
header_full = np.concatenate((checkpoint_numeric['header'], checkpoint_strings['header']))

In [115]:
# Ordenando o dataset
df_final = df_final[np.argsort(df_final[:,0])]

In [116]:
# Convertendo o dataset para um DataFrame do Pandas 2 (visualizando dados carregados como string)
df_final_pd = pd.DataFrame(df_final)
df_final_pd

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16
0,373332.0,9950.0,9038.082814,1000.0,908.350032,0.1825,360.97,327.887111,1072.82,974.496081,1.100897,10.0,1.0,36.0,21.0,0.0,1.0
1,575239.0,12000.0,10900.200379,12000.0,10900.200379,0.2099,324.58,294.832253,959.75,871.788943,1.100897,10.0,1.0,60.0,25.0,1.0,2.0
2,707689.0,10000.0,8924.299805,10000.0,8924.299805,0.1366,340.13,303.542209,3726.25,3325.417215,1.120536,2.0,1.0,36.0,13.0,1.0,0.0
3,709828.0,27200.0,24707.120859,27200.0,24707.120859,0.2899,553.87,503.107832,41913.62,38072.238051,1.100897,10.0,1.0,60.0,6.0,0.0,4.0
4,849994.0,11400.0,10526.076489,11400.0,10526.076489,0.2899,376.09,347.258957,3753.60,3465.849185,1.083025,3.0,0.0,36.0,10.0,0.0,1.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9995,68603178.0,14000.0,12804.119629,14000.0,12804.119629,0.2899,421.61,385.596063,41913.62,38333.357469,1.093398,12.0,1.0,36.0,1.0,0.0,1.0
9996,68604253.0,20000.0,18291.599470,20000.0,18291.599470,0.2899,631.26,577.337754,0.00,0.000000,1.093398,12.0,1.0,36.0,6.0,0.0,2.0
9997,68614880.0,5600.0,5121.647852,5600.0,5121.647852,0.2899,180.18,164.789020,0.00,0.000000,1.093398,12.0,1.0,36.0,8.0,1.0,1.0
9998,68615915.0,4000.0,3658.319894,4000.0,3658.319894,0.2899,131.87,120.605661,0.00,0.000000,1.093398,12.0,1.0,36.0,10.0,1.0,2.0


In [117]:
header_full

array(['id', 'loan_amnt_USD', 'loan_amnt_EUR', 'funded_amnt_USD', 'funded_amnt_EUR', 'int_rate', 'installment_USD', 'installment_EUR', 'total_pymnt_USD', 'total_pymnt_EUR', 'exchange_rate',
       'issue_date', 'loan_status', 'term_months', 'sub_grade', 'verification_status', 'state_address'], dtype='<U19')

In [118]:
# Atribuindo os nomes das colunas ao DataFrame (objeto em pandas)
df_final_pd.columns = header_full

In [119]:
# Visualizando resultado final (com pandas)
df_final_pd

Unnamed: 0,id,loan_amnt_USD,loan_amnt_EUR,funded_amnt_USD,funded_amnt_EUR,int_rate,installment_USD,installment_EUR,total_pymnt_USD,total_pymnt_EUR,exchange_rate,issue_date,loan_status,term_months,sub_grade,verification_status,state_address
0,373332.0,9950.0,9038.082814,1000.0,908.350032,0.1825,360.97,327.887111,1072.82,974.496081,1.100897,10.0,1.0,36.0,21.0,0.0,1.0
1,575239.0,12000.0,10900.200379,12000.0,10900.200379,0.2099,324.58,294.832253,959.75,871.788943,1.100897,10.0,1.0,60.0,25.0,1.0,2.0
2,707689.0,10000.0,8924.299805,10000.0,8924.299805,0.1366,340.13,303.542209,3726.25,3325.417215,1.120536,2.0,1.0,36.0,13.0,1.0,0.0
3,709828.0,27200.0,24707.120859,27200.0,24707.120859,0.2899,553.87,503.107832,41913.62,38072.238051,1.100897,10.0,1.0,60.0,6.0,0.0,4.0
4,849994.0,11400.0,10526.076489,11400.0,10526.076489,0.2899,376.09,347.258957,3753.60,3465.849185,1.083025,3.0,0.0,36.0,10.0,0.0,1.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9995,68603178.0,14000.0,12804.119629,14000.0,12804.119629,0.2899,421.61,385.596063,41913.62,38333.357469,1.093398,12.0,1.0,36.0,1.0,0.0,1.0
9996,68604253.0,20000.0,18291.599470,20000.0,18291.599470,0.2899,631.26,577.337754,0.00,0.000000,1.093398,12.0,1.0,36.0,6.0,0.0,2.0
9997,68614880.0,5600.0,5121.647852,5600.0,5121.647852,0.2899,180.18,164.789020,0.00,0.000000,1.093398,12.0,1.0,36.0,8.0,1.0,1.0
9998,68615915.0,4000.0,3658.319894,4000.0,3658.319894,0.2899,131.87,120.605661,0.00,0.000000,1.093398,12.0,1.0,36.0,10.0,1.0,2.0


# Gravando o Dataset Final Limpo e Pré-Processado

In [120]:
# Concatena o array de nomes de colunas com o array de dados
df_final = np.vstack((header_full, df_final))
df_final

array([['id', 'loan_amnt_USD', 'loan_amnt_EUR', ..., 'sub_grade', 'verification_status', 'state_address'],
       ['373332.0', '9950.0', '9038.082814338286', ..., '21.0', '0.0', '1.0'],
       ['575239.0', '12000.0', '10900.20037910145', ..., '25.0', '1.0', '2.0'],
       ...,
       ['68614880.0', '5600.0', '5121.647851612413', ..., '8.0', '1.0', '1.0'],
       ['68615915.0', '4000.0', '3658.319894008867', ..., '10.0', '1.0', '2.0'],
       ['68616519.0', '21600.0', '19754.927427647883', ..., '3.0', '0.0', '2.0']], dtype='<U32')

In [121]:
# Salva em disco
np.savetxt("datasets/dataset_limpo_preprocessado.csv", 
           df_final, 
           fmt = '%s',
           delimiter = ',')

# Fim