# <font color='gray'>Problema de Negócio - Tratamento de dados de uma plataforma de Empréstimo</font>

![title](imagens/EstudoCaso1.png)

In [None]:
# Versão da Linguagem Python
from platform import python_version
print('Versão da Linguagem Python Usada Neste Jupyter Notebook:', python_version())

In [None]:
# Import
import numpy as np

In [None]:
import warnings
warnings.filterwarnings('ignore')

In [None]:
# Versões dos pacotes usados neste jupyter notebook
%reload_ext watermark
%watermark -a "Data Science Academy" --iversions

https://numpy.org/doc/stable/reference/generated/numpy.set_printoptions.html

In [None]:
# Configuração de impressão do NumPy
np.set_printoptions(suppress = True, linewidth = 200, precision = 2)

## Carregando o Dataset

https://numpy.org/doc/stable/reference/generated/numpy.genfromtxt.html

In [None]:
dados = np.genfromtxt("dados/dataset1.csv", 
                      delimiter = ';', 
                      skip_header = 1, 
                      autostrip = True, 
                      encoding = 'cp1252')

In [None]:
type(dados)

In [None]:
dados.shape

In [None]:
dados.view()

Observe como várias colunas estão com o tipo nan. Isso se deve a caracteres especiais no conjunto de dados e a forma como o NumPy carrega dados numéricos e do tipo string. Vamos resolver isso.

## Verificando Valores Ausentes

In [None]:
np.isnan(dados).sum()

https://numpy.org/doc/stable/reference/generated/numpy.nanmax.html

In [None]:
# Vamos retornar o maior valor + 1 ignorando valores nan
# Usaremos esse valor arbitrário para preencher os valores ausentes no momento da carga de dados de variáveis
# numéricas e depois tratamos esse valor como valor ausente
valor_coringa = np.nanmax(dados) + 1
print(valor_coringa)

https://numpy.org/doc/stable/reference/generated/numpy.nanmean.html

In [None]:
# Calculamos a média (variáveis numéricas) ignorando valores nan por coluna
# Usaremos isso para separar variáveis numéricas de variáveis do tipo string
media_ignorando_nan = np.nanmean(dados, axis = 0)
print(media_ignorando_nan)

https://numpy.org/doc/stable/reference/generated/numpy.argwhere.html

https://numpy.org/doc/stable/reference/generated/numpy.squeeze.html

In [None]:
# Colunas do tipo string com valores ausentes
colunas_strings = np.argwhere(np.isnan(media_ignorando_nan)).squeeze()
colunas_strings

In [None]:
# Colunas numéricas 
colunas_numericas = np.argwhere(np.isnan(media_ignorando_nan) == False).squeeze()
colunas_numericas

> Importamos novamente o dataset, separando colunas do tipo string de colunas numéricas.

In [None]:
# Carrega as colunas do tipo string
arr_strings = np.genfromtxt("dados/dataset1.csv",
                            delimiter = ';',
                            skip_header = 1,
                            autostrip = True, 
                            usecols = colunas_strings,
                            dtype = str, 
                            encoding = 'cp1252')

In [None]:
arr_strings

In [None]:
# Carrega as colunas do tipo numérico preenchendo os valores ausentes
arr_numeric = np.genfromtxt("dados/dataset1.csv",
                            delimiter = ';',
                            autostrip = True,
                            skip_header = 1,
                            usecols = colunas_numericas,
                            filling_values = valor_coringa, 
                            encoding = 'cp1252')

In [None]:
arr_numeric

> Agora extraímos os nomes das colunas.

In [None]:
# Carrega os nomes das colunas
arr_nomes_colunas = np.genfromtxt("dados/dataset1.csv",
                                  delimiter = ';',
                                  autostrip = True,
                                  skip_footer = dados.shape[0],
                                  dtype = str, 
                                  encoding = 'cp1252')

In [None]:
arr_nomes_colunas

In [None]:
# Separa cabeçalho de colunas numéricas e string
header_strings, header_numeric = arr_nomes_colunas[colunas_strings], arr_nomes_colunas[colunas_numericas]

In [None]:
header_strings

In [None]:
header_numeric

## Função de Checkpoint

**Checkpoint 1**

Vamos criar uma função de checkpoint para salvar os resultados intermédiários.

In [None]:
# Função
def checkpoint(file_name, checkpoint_header, checkpoint_data):
    np.savez(file_name, header = checkpoint_header, data = checkpoint_data)
    checkpoint_variable = np.load(file_name + ".npz")
    return(checkpoint_variable)

In [None]:
checkpoint_inicial = checkpoint("dados/Checkpoint-Inicial", header_strings, arr_strings)

In [None]:
checkpoint_inicial['data']

In [None]:
np.array_equal(checkpoint_inicial['data'], arr_strings)

## Manipulando as Colunas do Tipo String

In [None]:
header_strings

In [None]:
# Vamos ajustar o nome da coluna issue_d para facilitar a identificação da coluna
header_strings[0] = "issue_date"

In [None]:
header_strings

In [None]:
arr_strings

### Pré-Processamento da Variável issue_date com Label Encoding

In [None]:
# Extrai os valores únicos da variável
np.unique(arr_strings[:,0])

In [None]:
# Vamos remover o sufixo -15 e converter em um array de strings
arr_strings[:,0] = np.chararray.strip(arr_strings[:,0], "-15")

In [None]:
# Extrai os valores únicos da variável
np.unique(arr_strings[:,0])

In [None]:
# Criamos um array com os meses (incluindo um elemento como vazio para o que estiver em branco)
meses = np.array(['', 'Jan', 'Feb', 'Mar', 'Apr', 'May', 'Jun', 'Jul', 'Aug', 'Sep', 'Oct', 'Nov', 'Dec'])

In [None]:
# Loop para converter os nomes dos meses em valores numéricos
# Chamamos isso de label encoding
for i in range(13):
        arr_strings[:,0] = np.where(arr_strings[:,0] == meses[i], i, arr_strings[:,0])

In [None]:
np.unique(arr_strings[:,0])

### Pré-Processamento da Variável loan_status com Binarização

In [None]:
header_strings

In [None]:
# Extrai os valores únicos da variável
np.unique(arr_strings[:,1])

In [None]:
# Número de elementos
np.unique(arr_strings[:,1]).size

In [None]:
# Criamos um array com apenas 3 status
status_bad = np.array(['', 'Charged Off', 'Default', 'Late (31-120 days)'])

In [None]:
# Checamos agora os valores da variável e comparamos com o array anterior convertendo a variável para valores binários
# Chamamos isso de binarização
arr_strings[:,1] = np.where(np.isin(arr_strings[:,1], status_bad),0,1)

In [None]:
# Extrai os valores únicos da variável
np.unique(arr_strings[:,1])

### Pré-Processamento da Variável term com Limpeza de String

In [None]:
header_strings

In [None]:
# Extrai os valores únicos da variável
np.unique(arr_strings[:,2])

In [None]:
# Removemos a palavra months (observe o espaço antes da palavra)
arr_strings[:,2] = np.chararray.strip(arr_strings[:,2], " months")
arr_strings[:,2]

In [None]:
# Mudamos o título da variável
header_strings[2] = "term_months"

In [None]:
# Substituímos os valores ausentes pelo maior valor, em nosso caso 60
arr_strings[:,2] = np.where(arr_strings[:,2] == '', '60', arr_strings[:,2])

In [None]:
arr_strings[:,2]

In [None]:
# Extrai os valores únicos da variável
np.unique(arr_strings[:,2])

### Pré-Processamento das  Variáveis grade e sub_grade com Dicionário (Tipo de Label Encoding)

In [None]:
header_strings

In [None]:
# Extrai os valores únicos da variável
np.unique(arr_strings[:,3])

In [None]:
# Extrai os valores únicos da variável
np.unique(arr_strings[:,4])

Vamos ajustar a variável sub_grade.

In [None]:
np.unique(arr_strings[:,3])

In [None]:
np.unique(arr_strings[:,3])[1:]

In [None]:
# Loop para ajuste da variável sub_grade
for i in np.unique(arr_strings[:,3])[1:]:
    arr_strings[:,4] = np.where((arr_strings[:,4] == '') & (arr_strings[:,3] == i), i + '5', arr_strings[:,4])

In [None]:
# Retorna categorias e suas respectivas contagens
np.unique(arr_strings[:,4], return_counts = True)

In [None]:
# Substituímos valores ausentes por uma nova categoria
arr_strings[:,4] = np.where(arr_strings[:,4] == '', 'H1', arr_strings[:,4])

In [None]:
# Extrai os valores únicos da variável
np.unique(arr_strings[:,4])

Vamos remover a variável grade.

In [None]:
# Não precisamos mais da variável grade. Podemos removê-la.
arr_strings = np.delete(arr_strings, 3, axis = 1)

In [None]:
# Nova variável na coluna de índice 3
arr_strings[:,3]

In [None]:
# Não podemos esquecer de remover a coluna do array de nomes de colunas
header_strings = np.delete(header_strings, 3)

In [None]:
# Nova variável na coluna de índice 3
header_strings[3]

Por fim, convertemos a variável sub_grade para sua representação numérica.

In [None]:
# Extrai os valores únicos da variável
np.unique(arr_strings[:,3])

In [None]:
# Cria uma lista de chaves
keys = list(np.unique(arr_strings[:,3]))     
keys[0]

In [None]:
# Cria uma lista de valores
values = list(range(1, np.unique(arr_strings[:,3]).shape[0] + 1)) 
values[0]

In [None]:
# Criamos então o dicionário
dict_sub_grade = dict(zip(keys, values))

In [None]:
dict_sub_grade

In [None]:
# Loop para substituir a string com as categorias pela representação numérica (frequência)
for i in np.unique(arr_strings[:,3]):
        arr_strings[:,3] = np.where(arr_strings[:,3] == i, dict_sub_grade[i], arr_strings[:,3])

In [None]:
# Extrai os valores únicos da variável
np.unique(arr_strings[:,3])

### Pré-Processamento da Variável Verification status com Binarização

In [None]:
# Lista com os nomes das variáveis
header_strings

In [None]:
# Extrai os valores únicos da variável
np.unique(arr_strings[:,4])

In [None]:
# Usamos a binarização nesta variável
arr_strings[:,4] = np.where((arr_strings[:,4] == '') | (arr_strings[:,4] == 'Not Verified'), 0, 1)

In [None]:
# Extrai os valores únicos da variável
np.unique(arr_strings[:,4])

### Pré-Processamento da Variável url com Extração de ID

In [None]:
# Visualiza amostra dos dados
arr_strings[:,5]

In [None]:
# Extraímos o id ao final de cada url
np.chararray.strip(arr_strings[:,5], "https://www.lendingclub.com/browse/loanDetail.action?loan_id=")

In [None]:
# Substituímos a url pelo valor do id na url
arr_strings[:,5] = np.chararray.strip(arr_strings[:,5], 
                                      "https://www.lendingclub.com/browse/loanDetail.action?loan_id=")

In [None]:
# Convertemos o tipo para int32
arr_strings[:,5].astype(dtype = np.int32)

In [None]:
# Parece que esse id está presente na primeira coluna do conjunto de dados.
# Vamos converter para int 32 e comparar
arr_numeric[:,0].astype(dtype = np.int32)

In [None]:
np.array_equal(arr_numeric[:,0].astype(dtype = np.int32), arr_strings[:,5].astype(dtype = np.int32))

Sim, é a mesma informação. Vamos então remover uma das colunas.

In [None]:
# Remove do array de dados
arr_strings = np.delete(arr_strings, 5, axis = 1)

In [None]:
# Remove do array de nome de coluna
header_strings = np.delete(header_strings, 5)

In [None]:
# Nova coluna no índice 5
arr_strings[:,5]

In [None]:
# Nova lista de colunas
header_strings

In [None]:
# Coluna id
arr_numeric[:,0]

In [None]:
# Coluna id agora faz parte do array de numéricos
header_numeric

### Pré-Processamento da Variável address com Categorização

In [None]:
header_strings

In [None]:
# Vamos ajustar o nome da coluna
header_strings[5] = "state_address"

https://numpy.org/doc/stable/reference/generated/numpy.argsort.html

In [None]:
# Extrai nomes e contagens
states_names, states_count = np.unique(arr_strings[:,5], return_counts = True)

In [None]:
# Ordena em ordem descrescente
states_count_sorted = np.argsort(-states_count)

In [None]:
# Imprime o resultado
states_names[states_count_sorted], states_count[states_count_sorted]

In [None]:
# Substituímos valores ausentes por zero
arr_strings[:,5] = np.where(arr_strings[:,5] == '', 0, arr_strings[:,5])

Vamos separar os estados por regiões. Referência:
https://www2.census.gov/geo/pdfs/maps-data/maps/reference/us_regdiv.pdf

In [None]:
# Separamos os estados por regiões
states_west = np.array(['WA', 'OR','CA','NV','ID','MT', 'WY','UT','CO', 'AZ','NM','HI','AK'])
states_south = np.array(['TX','OK','AR','LA','MS','AL','TN','KY','FL','GA','SC','NC','VA','WV','MD','DE','DC'])
states_midwest = np.array(['ND','SD','NE','KS','MN','IA','MO','WI','IL','IN','MI','OH'])
states_east = np.array(['PA','NY','NJ','CT','MA','VT','NH','ME','RI'])

In [None]:
# Agora substituímos cada estado pelo id da sua região
arr_strings[:,5] = np.where(np.isin(arr_strings[:,5], states_west), 1, arr_strings[:,5])
arr_strings[:,5] = np.where(np.isin(arr_strings[:,5], states_south), 2, arr_strings[:,5])
arr_strings[:,5] = np.where(np.isin(arr_strings[:,5], states_midwest), 3, arr_strings[:,5])
arr_strings[:,5] = np.where(np.isin(arr_strings[:,5], states_east), 4, arr_strings[:,5])

In [None]:
# Extrai os valores úinicos
np.unique(arr_strings[:,5])

**Você pode modificar os dados, mas não pode modificar a informação!**

## Convertendo o Array

Nosso array de strings agora é um array numérico. Vamos ajustar o tipo de dado.

In [None]:
arr_strings

In [None]:
arr_strings = arr_strings.astype(int)

In [None]:
arr_strings

In [None]:
arr_strings.dtype

## Checkpoint com Variáveis do Tipo String Limpas e Pré-Processadas

**Checkpoint 2**

Concluída a primeira parte, vamos gravar o checkpooint.

In [None]:
checkpoint_strings = checkpoint("dados/Checkpoint-Strings", header_strings, arr_strings)

In [None]:
checkpoint_strings["header"]

In [None]:
checkpoint_strings["data"]

In [None]:
np.array_equal(checkpoint_strings['data'], arr_strings)

## Manipulando Colunas Numéricas

In [None]:
# Visualiza os dados
arr_numeric

In [None]:
# Nomes das colunas
header_numeric

In [None]:
# Não temos valor ausente, pois ao carregar os dados substituímos por um valor arbitrário
np.isnan(arr_numeric).sum()

In [None]:
valor_coringa

In [None]:
# Podemos checar se uma coluna foi preenchida com o valor coringa
np.isin(arr_numeric[:,0], valor_coringa)

In [None]:
# Podemos checar se uma coluna foi preenchida com o valor coringa
np.isin(arr_numeric[:,0], valor_coringa).sum()

Vamos criar um array de estatísticas, especificamente valor mínimo, máximo e média de cada variável. Usaremos isso noo tratamento de valores ausentes (preenchidos com o valor coringa).

In [None]:
# Criamos um array com valor mínimo, média e valor máximo ignorando nan
# Usaremos isso no tratamento de valores ausentes
arr_stats = np.array([np.nanmin(dados, axis = 0), media_ignorando_nan, np.nanmax(dados, axis = 0)])

In [None]:
print(arr_stats)

In [None]:
arr_stats[:, colunas_numericas]

### Pré-Processamento da Variável funded_amnt

In [None]:
# Visualiza os dados
arr_numeric[:,2]

In [None]:
arr_stats[0, colunas_numericas[2]]

In [None]:
# Ajustamos o conteúdo da coluna
arr_numeric[:,2] = np.where(arr_numeric[:,2] == valor_coringa, arr_stats[0, colunas_numericas[2]], arr_numeric[:,2])

In [None]:
arr_numeric[:,2]

### Pré-Processamento das Variáveis loan_amnt, int_rate, installment e total_pymnt

In [None]:
# Nomes das colunas
header_numeric

In [None]:
# Loop para substituir o valor ausente (valor_coringa) pelos valores do array de estatísticas
for i in [1,3,4,5]:
    arr_numeric[:,i] = np.where(arr_numeric[:,i] == valor_coringa, 
                                arr_stats[2, colunas_numericas[i]], 
                                arr_numeric[:,i])

In [None]:
arr_numeric

### Trabalhando com o Segundo Dataset

Vamos carregar os dados de cotação USD - EURO. Cada linha do dataset corresponde à taxa de câmbio para um mês em um ano.

In [None]:
# Carrega o segundo dataset
dados_cot = np.genfromtxt("dados/dataset2.csv", 
                          delimiter = ',', 
                          autostrip = True, 
                          skip_header = 1, 
                          usecols = 3)

In [None]:
# Visualiza
dados_cot

In [None]:
# Nomes de colunas
header_strings

In [None]:
# Dados
arr_strings

In [None]:
# A coluna 0 do array de strings é o mês
arr_strings[:,0]

In [None]:
# Vamos atribuir a coluna de mês à variável chamada exchange_rate
exchange_rate = arr_strings[:,0]

In [None]:
exchange_rate

In [None]:
# Loop para preencher a variável exchange_rate com a taxa correspondente ao mês
# Usamos dados_cot[i - 1] devido a forma como carregamos os meses para comportar o zero
for i in range(1,13):
    exchange_rate = np.where(exchange_rate == i, dados_cot[i - 1], exchange_rate)    

In [None]:
exchange_rate

In [None]:
# Onde a taxa de câmbio estiver com zero substituímos pela média
exchange_rate = np.where(exchange_rate == 0, np.mean(dados_cot), exchange_rate)

In [None]:
exchange_rate

In [None]:
exchange_rate.shape

In [None]:
arr_numeric.shape

In [None]:
exchange_rate = np.reshape(exchange_rate, (10000,1))

https://numpy.org/doc/stable/reference/generated/numpy.hstack.html

In [None]:
# Concatenação dos arrays
arr_numeric = np.hstack((arr_numeric, exchange_rate))

In [None]:
# Inclui o nome da coluna no array de nomes de colunas
header_numeric = np.concatenate((header_numeric, np.array(['exchange_rate'])))

In [None]:
header_numeric

Vamos criar colunas para as taxas de câmbio em USD e EURO.

In [None]:
header_numeric

In [None]:
# Colunas em USD
columns_dollar = np.array([1,2,4,5])

In [None]:
# Visualiza
arr_numeric[:,6]

In [None]:
# Shape
arr_numeric.shape

In [None]:
# Loop pelas colunas USD para aplicar a taxa de conversão para EURO
for i in columns_dollar:
    arr_numeric = np.hstack((arr_numeric, np.reshape(arr_numeric[:,i] / arr_numeric[:,6], (10000,1))))

In [None]:
# Shape
arr_numeric.shape

In [None]:
# Visualiza
arr_numeric

Vamos expandir o cabeçalho com as novas colunas.

In [None]:
header_additional = np.array([column_name + '_EUR' for column_name in header_numeric[columns_dollar]])

In [None]:
header_additional

In [None]:
header_numeric = np.concatenate((header_numeric, header_additional))

In [None]:
header_numeric

In [None]:
header_numeric[columns_dollar] = np.array([column_name + '_USD' for column_name in header_numeric[columns_dollar]])

In [None]:
header_numeric

In [None]:
columns_index_order = [0,1,7,2,8,3,4,9,5,10,6]

In [None]:
header_numeric = header_numeric[columns_index_order]

In [None]:
arr_numeric

In [None]:
arr_numeric = arr_numeric[:,columns_index_order]

### Pré-Processamento da Variável int_rate

In [None]:
header_numeric

In [None]:
arr_numeric[:,5]

In [None]:
# Vamos apenas dividir por 100
arr_numeric[:,5] = arr_numeric[:,5] / 100

In [None]:
arr_numeric[:,5]

## Checkpoint com Variáveis Numéricas Limpas e Pré-Processadas

**Checkpoint 3**

In [None]:
checkpoint_numeric = checkpoint("dados/Checkpoint-Numeric", header_numeric, arr_numeric)

In [None]:
checkpoint_numeric['header'], checkpoint_numeric['data']

## Construindo o Dataset Final

In [None]:
checkpoint_strings['data'].shape

In [None]:
checkpoint_numeric['data'].shape

In [None]:
# Concatena os arrays
df_final = np.hstack((checkpoint_numeric['data'], checkpoint_strings['data']))

In [None]:
df_final

In [None]:
# Verifica se tem valor ausente
np.isnan(df_final).sum()

In [None]:
# Concatena os arrays de nomes de colunas
header_full = np.concatenate((checkpoint_numeric['header'], checkpoint_strings['header']))

In [None]:
# Ordenando o dataset
df_final = df_final[np.argsort(df_final[:,0])]

In [None]:
df_final

In [None]:
# Conferindo a ordenação da coluna 0
np.argsort(df_final[:,0])

## Gravando o Dataset Final Limpo e Pré-Processado

In [None]:
# Concatena o array de nomes de colunas com o array de dados
df_final = np.vstack((header_full, df_final))

In [None]:
# Salva em disco
np.savetxt("dados/dataset_limpo_preprocessado.csv", 
           df_final, 
           fmt = '%s',
           delimiter = ',')