# Limpeza e pré-processamento de dados com o NumPy

Durante o nosso projeto, iremos utilizar exclusivamente o NumPy para realizar a limpeza e o pré-processamento dos dados. O nosso conjunto de dados representa milhares de empréstimos feitos por meio da plataforma Lending Club, que é uma plataforma que permite que indivíduos emprestem para outros indivíduos.

## O que é o NumPy?

Primeiramente, precisamos entender o que é o NumPy e por que o utilizaremos exclusivamente para a limpeza e o tratamento de nossos dados. O NumPy é uma das bibliotecas fundamentais para a computação científica em Python. Ele oferece suporte para arrays multidimensionais (ou seja, arrays com mais de uma dimensão) e funções matemáticas de alto desempenho para a manipulação desses arrays. O NumPy é amplamente utilizado em áreas como ciência de dados, aprendizado de máquina, processamento de sinais, matemática, física e muitos outros campos. Dado que ela é otimizada e possui funções e módulos preparados para computação científica, tende a ser mais rápida do que se utilizássemos apenas o Python puro.

Visão dos dados:
![visao inicial](imagens/01.png)


_Ueslei Pontarolo_

## Importando o NumPy

In [6]:
#Durante esse projeto iremos útilizar somente o NumPy
import numpy as np

In [11]:
#Ignorar os avisos de warnings
import warnings
warnings.filterwarnings('ignore')


## Carregando o Dataset

Para importar os conjuntos de dados iremos utilizar a função _np.genfromtxt_ do NumPy que carrega os dados de um arquivo de texto e transforma em uma matriz NumPy

In [3]:
#importando os dados
dados = np.genfromtxt("dados/dataset1.csv",
                    delimiter = ';',
                    skip_header = 1,
                    autostrip = True,
                    encoding = 'cp1252'
)

In [4]:
#vamos verificar o tamanho do shape dos nosso dados
dados.shape

(10000, 14)

In [5]:
#vizualizar as entradas
dados.view()

array([[4.8010226e+07,           nan, 3.5000000e+04, ...,           nan,
                  nan, 9.4529600e+03],
       [5.7693261e+07,           nan, 3.0000000e+04, ...,           nan,
                  nan, 4.6797000e+03],
       [5.9432726e+07,           nan, 1.5000000e+04, ...,           nan,
                  nan, 1.9698300e+03],
       ...,
       [5.0415990e+07,           nan, 1.0000000e+04, ...,           nan,
                  nan, 2.1856400e+03],
       [4.6154151e+07,           nan,           nan, ...,           nan,
                  nan, 3.1994000e+03],
       [6.6055249e+07,           nan, 1.0000000e+04, ...,           nan,
                  nan, 3.0190000e+02]])

Ao observarmos os registros dos dados, podemos ver que temos diversos *NaN*, que significa "Not-a-Number" em inglês. Isso nos diz que o Python não conseguiu interpretar os dados corretamente durante a carga dos dados. Vamos resolver isso?

## Resolvendo os problemas ao carregar os dados

### Primeiramente vamos verificar quantos valores ausentes foram carregados

In [7]:
#Para verificar os valores ausentes vamos utilizar a função isnan
np.isnan(dados).sum()

88005

Podemos observar que temos um total de 88.005 registros como NaN. Para resolver os valores ausentes, precisamos separar nossas variáveis em dois arrays, sendo um para as variáveis *numéricas* e o outro para as variáveis do tipo *string*.

Para resolver esse problema, vamos usar um pequeno truque de programação para fazer a separação. Esse truque consiste em utilizar um número arbitrário e colocá-lo na carga de dados e calcular a média dos valores NaN. Depois, iremos tratá-lo como um valor ausente.

Para criar esse número arbitrário iremos utilizar a função _nanmax_ para retornar o maior valor + 1 ignorando os valores NaN

In [9]:
#Usaremos esse valor como o número arbitrário para preencher os valores ausente no momento da carga de dados
num_abt = np.nanmax(dados) + 1
print(num_abt)

68616520.0


Agora vamos calcular a média ignorando os valores _NaN_ e com isso iremos conseguir separar as variáveis numéricas de strings

In [12]:
#Calcular a média
media_ign = np.nanmean(dados, axis = 0)
print(media_ign)

[5.40158092e+07            nan 1.52734632e+04            nan
 1.53110421e+04            nan 1.66172948e+01 4.40922179e+02
            nan            nan            nan            nan
            nan 3.14385094e+03]


Agora vamos verificar as colunas do tipo string com valores ausentes, e para isso, iremos usar a função _argwhere_, que retorna os índices onde uma determinada condição é verdadeira.

In [15]:
#Colunas do tipo strings

columns_strings = np.argwhere(np.isnan(media_ign)).squeeze()
columns_strings

array([ 1,  3,  5,  8,  9, 10, 11, 12], dtype=int64)

Agora que temos as colunas de strings, vamos aplicar a mesma essência para encontrar as colunas numéricas

In [16]:
#Colunas do tipo númericas
columns_num = np.argwhere(np.isnan(media_ign) == False).squeeze()
columns_num

array([ 0,  2,  4,  6,  7, 13], dtype=int64)

Agora que temos os índices correspondentes as colunas númericas e de strings podemos importar novamente o conjunto de dados

In [18]:
#Carregando as colunas do tipo strings

arr_strings = np.genfromtxt('dados/dataset1.csv',
                            delimiter = ';',
                            skip_header = 1,
                            autostrip = True,
                            usecols = columns_strings,
                            dtype = str,
                            encoding = 'cp1252'

)

In [19]:
#Vamos verificar se foi carregada corretamente
arr_strings

array([['May-15', 'Current', '36 months', ..., 'Verified',
        'https://www.lendingclub.com/browse/loanDetail.action?loan_id=48010226',
        'CA'],
       ['', 'Current', '36 months', ..., 'Source Verified',
        'https://www.lendingclub.com/browse/loanDetail.action?loan_id=57693261',
        'NY'],
       ['Sep-15', 'Current', '36 months', ..., 'Verified',
        'https://www.lendingclub.com/browse/loanDetail.action?loan_id=59432726',
        'PA'],
       ...,
       ['Jun-15', 'Current', '36 months', ..., 'Source Verified',
        'https://www.lendingclub.com/browse/loanDetail.action?loan_id=50415990',
        'CA'],
       ['Apr-15', 'Current', '36 months', ..., 'Source Verified',
        'https://www.lendingclub.com/browse/loanDetail.action?loan_id=46154151',
        'OH'],
       ['Dec-15', 'Current', '36 months', ..., '',
        'https://www.lendingclub.com/browse/loanDetail.action?loan_id=66055249',
        'IL']], dtype='<U69')

Você se lembra que criamos um valor arbitrário como um truque para resolver os NaN? Pois bem, iremos utilizá-lo agora, onde iremos colocar no argumento filling_values que, caso tenha um valor faltante, esse argumento irá preencher com o nosso número arbitrário que definimos.

In [21]:
#Carregando as colunas do tipo númerico
arr_numeric = np.genfromtxt('dados/dataset1.csv',
                            delimiter = ';',
                            autostrip = True,
                            skip_header = 1,
                            usecols = columns_num,
                            filling_values = num_abt,
                            encoding = 'cp1252'
)

In [22]:
#Vamos verificar nosso array númerico
arr_numeric

array([[4.8010226e+07, 3.5000000e+04, 3.5000000e+04, 1.3330000e+01,
        1.1848600e+03, 9.4529600e+03],
       [5.7693261e+07, 3.0000000e+04, 3.0000000e+04, 6.8616520e+07,
        9.3857000e+02, 4.6797000e+03],
       [5.9432726e+07, 1.5000000e+04, 1.5000000e+04, 6.8616520e+07,
        4.9486000e+02, 1.9698300e+03],
       ...,
       [5.0415990e+07, 1.0000000e+04, 1.0000000e+04, 6.8616520e+07,
        6.8616520e+07, 2.1856400e+03],
       [4.6154151e+07, 6.8616520e+07, 1.0000000e+04, 1.6550000e+01,
        3.5430000e+02, 3.1994000e+03],
       [6.6055249e+07, 1.0000000e+04, 1.0000000e+04, 6.8616520e+07,
        3.0997000e+02, 3.0190000e+02]])

Agora, nosso processo de carga não gerou nenhum NaN, porque os separamos de maneira apropriada. Também não carregamos o cabeçalho nos arrays de strings e nem nos arrays numéricos, pois ele iria influenciar na hora da separação.

In [23]:
#Pegando os nomes das colunas
arr_name_columns = np.genfromtxt('dados/dataset1.csv',
                                delimiter = ';',
                                autostrip = True,
                                skip_footer = dados.shape[0],
                                dtype = str,
                                encoding = 'cp1252'

)

arr_name_columns

array(['id', 'issue_d', 'loan_amnt', 'loan_status', 'funded_amnt', 'term',
       'int_rate', 'installment', 'grade', 'sub_grade',
       'verification_status', 'url', 'addr_state', 'total_pymnt'],
      dtype='<U19')

Agora que temos os nomes dos cabeçalhos, iremos separá-los entre as colunas numéricas e as colunas de strings.

In [26]:
#Fazendo a separação
header_strings, header_numeric = arr_name_columns[columns_strings], arr_name_columns[columns_num]

#Vamos ver como ficou cada header
header_strings, header_numeric

(array(['issue_d', 'loan_status', 'term', 'grade', 'sub_grade',
        'verification_status', 'url', 'addr_state'], dtype='<U19'),
 array(['id', 'loan_amnt', 'funded_amnt', 'int_rate', 'installment',
        'total_pymnt'], dtype='<U19'))

## Manipulando as colunas do tipo string

Agora que já fizemos o carregamento inicial dos dados, assim como a separação entre strings e variáveis, vamos começar o tratamento das colunas de strings.

O primeiro passo que iremos fazer é alterar o nome da coluna "issue_d" para facilitar na identificação.

In [27]:
header_strings

array(['issue_d', 'loan_status', 'term', 'grade', 'sub_grade',
       'verification_status', 'url', 'addr_state'], dtype='<U19')

In [28]:
#Alterar de issue_d para issue_date
header_strings[0] = 'issue_date'
header_strings

array(['issue_date', 'loan_status', 'term', 'grade', 'sub_grade',
       'verification_status', 'url', 'addr_state'], dtype='<U19')

### Pré-Processamento da variável issue_date com o Label Encoding

In [29]:
#Vamos verificar os valores únicos da variável
np.unique(arr_strings[:,0])

array(['', 'Apr-15', 'Aug-15', 'Dec-15', 'Feb-15', 'Jan-15', 'Jul-15',
       'Jun-15', 'Mar-15', 'May-15', 'Nov-15', 'Oct-15', 'Sep-15'],
      dtype='<U69')

Quando esses dados foram gerados, ninguém estava pensando em análise de datas, portanto, acharam necessário colocar o dia em que esses dados foram gerados, que, no caso, como podemos observar, foi no dia 15 de cada mês.

Vamos remover esse sufixo '-15' aplicando o método strip

In [31]:
#Removendo o sufixo -15
arr_strings[:,0] = np.chararray.strip(arr_strings[:,0], "-15")

#vamos verificar como ficou
np.unique(arr_strings[:,0])

array(['', 'Apr', 'Aug', 'Dec', 'Feb', 'Jan', 'Jul', 'Jun', 'Mar', 'May',
       'Nov', 'Oct', 'Sep'], dtype='<U69')

Agora que já temos somente os meses, vamos aplicar o Label Encoding para transformar as strings em valores numéricos sem perder suas informações. Para isso, iremos criar um loop que irá percorrer cada elemento do array e verificar se ele corresponde ao array de meses (que iremos criar a seguir). Caso haja correspondência, iremos atribuir o valor numérico correspondente.

In [33]:
#Criando o array com os meses, incluindo um elemento vazio para o que estiver em branco
meses = np.array(['', 'Jan', 'Feb', 'Mar', 'Apr', 'May', 'Jun', 'Jul', 'Aug', 'Sep', 'Oct', 'Nov', 'Dec'])

In [34]:
#Loop para converter os nomes dos meses em valores númericos
for i in range(13):
    arr_strings[:,0] = np.where(arr_strings[:,0] == meses[i], i, arr_strings[:,0])

In [35]:
#Verificando como ficou
np.unique(arr_strings[:,0])

array(['0', '1', '10', '11', '12', '2', '3', '4', '5', '6', '7', '8', '9'],
      dtype='<U69')

### Pré-Processamento da coluna loan_status com a binarização

In [36]:
np.unique(arr_strings[:,1])

array(['', 'Charged Off', 'Current', 'Default', 'Fully Paid',
       'In Grace Period', 'Issued', 'Late (16-30 days)',
       'Late (31-120 days)'], dtype='<U69')

Podemos observar que a categoria "loan_status" possui 9 categorias. No entanto, para um futuro modelo de machine learning, precisamos realmente de todas essas categorias? Bem, não existe uma resposta correta para isso. O que precisamos fazer é testar e verificar como essas categorias se comportam. No entanto, para este projeto, iremos trabalhar apenas com as categorias '', 'Charged Off', 'Default' e 'Late (31-120 days)'. Se um empréstimo cair em uma dessas 4 categorias, atribuiremos o valor zero, o que significa que a pessoa está tendo problemas para pagar o empréstimo. Caso contrário, atribuiremos o valor 1, o que significa que as pessoas estão pagando os empréstimos. Esse processo é chamado de binarização.

In [37]:
#Criando um array com os status ruim
status_bad = np.array(['', 'Charged Off', 'Default', 'Late (31-120 days)'])

In [38]:
#Agora vamos fazer a atribuição se o valor for igual ao nosso bad status iremos atribuir o 0 senão o 1
arr_strings[:,1] = np.where(np.isin(arr_strings[:,1], status_bad),0,1)

#Vamos verificar como ficou
np.unique(arr_strings[:,1])

array(['0', '1'], dtype='<U69')

### Pré-processamento da coluna term

In [39]:
#Vamos verificar os valores presentes na coluna term
np.unique(arr_strings[:,2])

array(['', '36 months', '60 months'], dtype='<U69')

Podemos observar que as pessoas têm apenas 2 opções de pagamento, sendo elas 36 meses ou 60 meses. Também temos valores ausentes, e para corrigi-los, iremos utilizar o maior prazo possível de pagamento, que é de 60 meses. Além disso, vamos remover a palavra "months" das variáveis para deixá-las apenas no formato numérico e colocar essa informação no nome da coluna, para que possamos compreender o significado dos valores.

In [42]:
#Removendo a palavra months
arr_strings[:,2] = np.chararray.strip(arr_strings[:,2], ' months')

#renomear o nome da coluna
header_strings[2] = 'term_months'

In [46]:
#Vamos substituir os valores ausentes
arr_strings[:,2] = np.where(arr_strings[:,2] == '', '60', arr_strings[:,2])

#vamos verificar como ficou
arr_strings[:,2], np.unique(arr_strings[:,2])

(array(['36', '36', '36', ..., '36', '36', '36'], dtype='<U69'),
 array(['36', '60'], dtype='<U69'))

### Pré-processamento das colunas grade e sub_grade

In [47]:
#vamos verificar os valores unicos de ambas as colunas

np.unique(arr_strings[:,3]), np.unique(arr_strings[:,4])

(array(['', 'A', 'B', 'C', 'D', 'E', 'F', 'G'], dtype='<U69'),
 array(['', 'A1', 'A2', 'A3', 'A4', 'A5', 'B1', 'B2', 'B3', 'B4', 'B5',
        'C1', 'C2', 'C3', 'C4', 'C5', 'D1', 'D2', 'D3', 'D4', 'D5', 'E1',
        'E2', 'E3', 'E4', 'E5', 'F1', 'F2', 'F3', 'F4', 'F5', 'G1', 'G2',
        'G3', 'G4', 'G5'], dtype='<U69'))

Se repararmos nas duas colunas, elas representam uma espécie de nota para cada pessoa. Além disso, são bem parecidas, o que nos faz questionar se realmente é necessário ter as duas colunas, dado que em um algoritmo de machine learning estaríamos reforçando uma informação. Portanto, vamos manter a coluna "sub_grade", dado que ela possui uma nota mais detalhada do que a "grade".

In [49]:
# Loop para ajuste da variável sub_grade
for i in np.unique(arr_strings[:,3])[1:]:
    arr_strings[:,4] = np.where((arr_strings[:,4] == '') & (arr_strings[:,3] == i), i + '5', arr_strings[:,4])

In [50]:
#vamos verificar as categorias da sub_grade e suas respectivas contagem

np.unique(arr_strings[:,4], return_counts = True)

(array(['', 'A1', 'A2', 'A3', 'A4', 'A5', 'B1', 'B2', 'B3', 'B4', 'B5',
        'C1', 'C2', 'C3', 'C4', 'C5', 'D1', 'D2', 'D3', 'D4', 'D5', 'E1',
        'E2', 'E3', 'E4', 'E5', 'F1', 'F2', 'F3', 'F4', 'F5', 'G1', 'G2',
        'G3', 'G4', 'G5'], dtype='<U69'),
 array([  9, 285, 278, 239, 323, 592, 509, 517, 530, 553, 633, 629, 567,
        586, 564, 577, 391, 267, 250, 255, 288, 235, 162, 171, 139, 160,
         94,  52,  34,  43,  24,  19,  10,   3,   7,   5], dtype=int64))

Vamos substituir os 9 valores ausentes criando uma nova categoria chamada 'H1', já que não sabemos a nota desses clientes. Também poderíamos utilizar a moda, porém vamos continuar com essa abordagem.

In [52]:
#Corrigindo os ausentes
arr_strings[:,4] = np.where(arr_strings[:,4] == '', 'H1', arr_strings[:,4])

Agora que já tratamos a sub_grade não precisamos mais da coluna grade

In [53]:
#Removendo a coluna grade
arr_strings = np.delete(arr_strings, 3, axis=1)

#Removendo também do array de nomes
header_strings = np.delete(header_strings, 3)

Por fim, vamos converter a variável "sub_grade" para sua representação numérica sem perder nenhuma informação e para isso vamos criar um dicionario e extrair os valores

In [54]:
#Criar lista de chaves
keys = list(np.unique(arr_strings[:,3]))

In [56]:
#Criar a lista de valores
values = list(range(1, np.unique(arr_strings[:,3]).shape[0] + 1)) 

In [57]:
#Vamos criar o dicionario
dict_sub_grade = dict(zip(keys, values))
dict_sub_grade

{'A1': 1,
 'A2': 2,
 'A3': 3,
 'A4': 4,
 'A5': 5,
 'B1': 6,
 'B2': 7,
 'B3': 8,
 'B4': 9,
 'B5': 10,
 'C1': 11,
 'C2': 12,
 'C3': 13,
 'C4': 14,
 'C5': 15,
 'D1': 16,
 'D2': 17,
 'D3': 18,
 'D4': 19,
 'D5': 20,
 'E1': 21,
 'E2': 22,
 'E3': 23,
 'E4': 24,
 'E5': 25,
 'F1': 26,
 'F2': 27,
 'F3': 28,
 'F4': 29,
 'F5': 30,
 'G1': 31,
 'G2': 32,
 'G3': 33,
 'G4': 34,
 'G5': 35,
 'H1': 36}

In [58]:
#Substituir a string com a sua representação númerica
for i in np.unique(arr_strings[:,3]):
    arr_strings[:,3] = np.where(arr_strings[:,3] == i, dict_sub_grade[i], arr_strings[:,3])

In [59]:
#vamos verificar comoficou
np.unique(arr_strings[:,3])

array(['1', '10', '11', '12', '13', '14', '15', '16', '17', '18', '19',
       '2', '20', '21', '22', '23', '24', '25', '26', '27', '28', '29',
       '3', '30', '31', '32', '33', '34', '35', '36', '4', '5', '6', '7',
       '8', '9'], dtype='<U69')