# Limpeza e pré-processamento de dados com o NumPy

Durante o nosso projeto, iremos utilizar exclusivamente o NumPy para realizar a limpeza e o pré-processamento dos dados. O nosso conjunto de dados representa milhares de empréstimos feitos por meio da plataforma Lending Club, que é uma plataforma que permite que indivíduos emprestem para outros indivíduos.

## O que é o NumPy?

Primeiramente, precisamos entender o que é o NumPy e por que o utilizaremos exclusivamente para a limpeza e o tratamento de nossos dados. O NumPy é uma das bibliotecas fundamentais para a computação científica em Python. Ele oferece suporte para arrays multidimensionais (ou seja, arrays com mais de uma dimensão) e funções matemáticas de alto desempenho para a manipulação desses arrays. O NumPy é amplamente utilizado em áreas como ciência de dados, aprendizado de máquina, processamento de sinais, matemática, física e muitos outros campos. Dado que ela é otimizada e possui funções e módulos preparados para computação científica, tende a ser mais rápida do que se utilizássemos apenas o Python puro.

Visão dos dados:
![visao inicial](imagens/01.png)


_Ueslei Pontarolo_

## Importando o NumPy

In [6]:
#Durante esse projeto iremos útilizar somente o NumPy
import numpy as np

In [11]:
#Ignorar os avisos de warnings
import warnings
warnings.filterwarnings('ignore')


## Carregando o Dataset

Para importar os conjuntos de dados iremos utilizar a função _np.genfromtxt_ do NumPy que carrega os dados de um arquivo de texto e transforma em uma matriz NumPy

In [3]:
#importando os dados
dados = np.genfromtxt("dados/dataset1.csv",
                    delimiter = ';',
                    skip_header = 1,
                    autostrip = True,
                    encoding = 'cp1252'
)

In [4]:
#vamos verificar o tamanho do shape dos nosso dados
dados.shape

(10000, 14)

In [5]:
#vizualizar as entradas
dados.view()

array([[4.8010226e+07,           nan, 3.5000000e+04, ...,           nan,
                  nan, 9.4529600e+03],
       [5.7693261e+07,           nan, 3.0000000e+04, ...,           nan,
                  nan, 4.6797000e+03],
       [5.9432726e+07,           nan, 1.5000000e+04, ...,           nan,
                  nan, 1.9698300e+03],
       ...,
       [5.0415990e+07,           nan, 1.0000000e+04, ...,           nan,
                  nan, 2.1856400e+03],
       [4.6154151e+07,           nan,           nan, ...,           nan,
                  nan, 3.1994000e+03],
       [6.6055249e+07,           nan, 1.0000000e+04, ...,           nan,
                  nan, 3.0190000e+02]])

Ao observarmos os registros dos dados, podemos ver que temos diversos *NaN*, que significa "Not-a-Number" em inglês. Isso nos diz que o Python não conseguiu interpretar os dados corretamente durante a carga dos dados. Vamos resolver isso?

## Resolvendo os problemas ao carregar os dados

### Primeiramente vamos verificar quantos valores ausentes foram carregados

In [7]:
#Para verificar os valores ausentes vamos utilizar a função isnan
np.isnan(dados).sum()

88005

Podemos observar que temos um total de 88.005 registros como NaN. Para resolver os valores ausentes, precisamos separar nossas variáveis em dois arrays, sendo um para as variáveis *numéricas* e o outro para as variáveis do tipo *string*.

Para resolver esse problema, vamos usar um pequeno truque de programação para fazer a separação. Esse truque consiste em utilizar um número arbitrário e colocá-lo na carga de dados e calcular a média dos valores NaN. Depois, iremos tratá-lo como um valor ausente.

Para criar esse número arbitrário iremos utilizar a função _nanmax_ para retornar o maior valor + 1 ignorando os valores NaN

In [9]:
#Usaremos esse valor como o número arbitrário para preencher os valores ausente no momento da carga de dados
num_abt = np.nanmax(dados) + 1
print(num_abt)

68616520.0


Agora vamos calcular a média ignorando os valores _NaN_ e com isso iremos conseguir separar as variáveis numéricas de strings

In [12]:
#Calcular a média
media_ign = np.nanmean(dados, axis = 0)
print(media_ign)

[5.40158092e+07            nan 1.52734632e+04            nan
 1.53110421e+04            nan 1.66172948e+01 4.40922179e+02
            nan            nan            nan            nan
            nan 3.14385094e+03]


Agora vamos verificar as colunas do tipo string com valores ausentes, e para isso, iremos usar a função _argwhere_, que retorna os índices onde uma determinada condição é verdadeira.

In [15]:
#Colunas do tipo strings

columns_strings = np.argwhere(np.isnan(media_ign)).squeeze()
columns_strings

array([ 1,  3,  5,  8,  9, 10, 11, 12], dtype=int64)

Agora que temos as colunas de strings, vamos aplicar a mesma essência para encontrar as colunas numéricas

In [16]:
#Colunas do tipo númericas
columns_num = np.argwhere(np.isnan(media_ign) == False).squeeze()
columns_num

array([ 0,  2,  4,  6,  7, 13], dtype=int64)

Agora que temos os índices correspondentes as colunas númericas e de strings podemos importar novamente o conjunto de dados

In [18]:
#Carregando as colunas do tipo strings

arr_strings = np.genfromtxt('dados/dataset1.csv',
                            delimiter = ';',
                            skip_header = 1,
                            autostrip = True,
                            usecols = columns_strings,
                            dtype = str,
                            encoding = 'cp1252'

)

In [19]:
#Vamos verificar se foi carregada corretamente
arr_strings

array([['May-15', 'Current', '36 months', ..., 'Verified',
        'https://www.lendingclub.com/browse/loanDetail.action?loan_id=48010226',
        'CA'],
       ['', 'Current', '36 months', ..., 'Source Verified',
        'https://www.lendingclub.com/browse/loanDetail.action?loan_id=57693261',
        'NY'],
       ['Sep-15', 'Current', '36 months', ..., 'Verified',
        'https://www.lendingclub.com/browse/loanDetail.action?loan_id=59432726',
        'PA'],
       ...,
       ['Jun-15', 'Current', '36 months', ..., 'Source Verified',
        'https://www.lendingclub.com/browse/loanDetail.action?loan_id=50415990',
        'CA'],
       ['Apr-15', 'Current', '36 months', ..., 'Source Verified',
        'https://www.lendingclub.com/browse/loanDetail.action?loan_id=46154151',
        'OH'],
       ['Dec-15', 'Current', '36 months', ..., '',
        'https://www.lendingclub.com/browse/loanDetail.action?loan_id=66055249',
        'IL']], dtype='<U69')

Você se lembra que criamos um valor arbitrário como um truque para resolver os NaN? Pois bem, iremos utilizá-lo agora, onde iremos colocar no argumento filling_values que, caso tenha um valor faltante, esse argumento irá preencher com o nosso número arbitrário que definimos.

In [21]:
#Carregando as colunas do tipo númerico
arr_numeric = np.genfromtxt('dados/dataset1.csv',
                            delimiter = ';',
                            autostrip = True,
                            skip_header = 1,
                            usecols = columns_num,
                            filling_values = num_abt,
                            encoding = 'cp1252'
)

In [22]:
#Vamos verificar nosso array númerico
arr_numeric

array([[4.8010226e+07, 3.5000000e+04, 3.5000000e+04, 1.3330000e+01,
        1.1848600e+03, 9.4529600e+03],
       [5.7693261e+07, 3.0000000e+04, 3.0000000e+04, 6.8616520e+07,
        9.3857000e+02, 4.6797000e+03],
       [5.9432726e+07, 1.5000000e+04, 1.5000000e+04, 6.8616520e+07,
        4.9486000e+02, 1.9698300e+03],
       ...,
       [5.0415990e+07, 1.0000000e+04, 1.0000000e+04, 6.8616520e+07,
        6.8616520e+07, 2.1856400e+03],
       [4.6154151e+07, 6.8616520e+07, 1.0000000e+04, 1.6550000e+01,
        3.5430000e+02, 3.1994000e+03],
       [6.6055249e+07, 1.0000000e+04, 1.0000000e+04, 6.8616520e+07,
        3.0997000e+02, 3.0190000e+02]])

Agora, nosso processo de carga não gerou nenhum NaN, porque os separamos de maneira apropriada. Também não carregamos o cabeçalho nos arrays de strings e nem nos arrays numéricos, pois ele iria influenciar na hora da separação.

In [23]:
#Pegando os nomes das colunas
arr_name_columns = np.genfromtxt('dados/dataset1.csv',
                                delimiter = ';',
                                autostrip = True,
                                skip_footer = dados.shape[0],
                                dtype = str,
                                encoding = 'cp1252'

)

arr_name_columns

array(['id', 'issue_d', 'loan_amnt', 'loan_status', 'funded_amnt', 'term',
       'int_rate', 'installment', 'grade', 'sub_grade',
       'verification_status', 'url', 'addr_state', 'total_pymnt'],
      dtype='<U19')

Agora que temos os nomes dos cabeçalhos, iremos separá-los entre as colunas numéricas e as colunas de strings.

In [26]:
#Fazendo a separação
header_strings, header_numeric = arr_name_columns[columns_strings], arr_name_columns[columns_num]

#Vamos ver como ficou cada header
header_strings, header_numeric

(array(['issue_d', 'loan_status', 'term', 'grade', 'sub_grade',
        'verification_status', 'url', 'addr_state'], dtype='<U19'),
 array(['id', 'loan_amnt', 'funded_amnt', 'int_rate', 'installment',
        'total_pymnt'], dtype='<U19'))

## Manipulando as colunas do tipo string

Agora que já fizemos o carregamento inicial dos dados, assim como a separação entre strings e variáveis, vamos começar o tratamento das colunas de strings.

O primeiro passo que iremos fazer é alterar o nome da coluna "issue_d" para facilitar na identificação.

In [27]:
header_strings

array(['issue_d', 'loan_status', 'term', 'grade', 'sub_grade',
       'verification_status', 'url', 'addr_state'], dtype='<U19')

In [28]:
#Alterar de issue_d para issue_date
header_strings[0] = 'issue_date'
header_strings

array(['issue_date', 'loan_status', 'term', 'grade', 'sub_grade',
       'verification_status', 'url', 'addr_state'], dtype='<U19')

## Pré-Processamento da variável issue_date com o Label Encoding

In [29]:
#Vamos verificar os valores únicos da variável
np.unique(arr_strings[:,0])

array(['', 'Apr-15', 'Aug-15', 'Dec-15', 'Feb-15', 'Jan-15', 'Jul-15',
       'Jun-15', 'Mar-15', 'May-15', 'Nov-15', 'Oct-15', 'Sep-15'],
      dtype='<U69')

Quando esses dados foram gerados, ninguém estava pensando em análise de datas, portanto, acharam necessário colocar o dia em que esses dados foram gerados, que, no caso, como podemos observar, foi no dia 15 de cada mês.

Vamos remover esse sufixo '-15' aplicando o método strip

In [31]:
#Removendo o sufixo -15
arr_strings[:,0] = np.chararray.strip(arr_strings[:,0], "-15")

#vamos verificar como ficou
np.unique(arr_strings[:,0])

array(['', 'Apr', 'Aug', 'Dec', 'Feb', 'Jan', 'Jul', 'Jun', 'Mar', 'May',
       'Nov', 'Oct', 'Sep'], dtype='<U69')

Agora que já temos somente os meses, vamos aplicar o Label Encoding para transformar as strings em valores numéricos sem perder suas informações. Para isso, iremos criar um loop que irá percorrer cada elemento do array e verificar se ele corresponde ao array de meses (que iremos criar a seguir). Caso haja correspondência, iremos atribuir o valor numérico correspondente.

In [33]:
#Criando o array com os meses, incluindo um elemento vazio para o que estiver em branco
meses = np.array(['', 'Jan', 'Feb', 'Mar', 'Apr', 'May', 'Jun', 'Jul', 'Aug', 'Sep', 'Oct', 'Nov', 'Dec'])