# Limpeza e pré-processamento de dados com o NumPy

Durante o nosso projeto, iremos utilizar exclusivamente o NumPy para realizar a limpeza e o pré-processamento dos dados. O nosso conjunto de dados representa milhares de empréstimos feitos por meio da plataforma Lending Club, que é uma plataforma que permite que indivíduos emprestem para outros indivíduos.

## O que é o NumPy?

Primeiramente, precisamos entender o que é o NumPy e por que o utilizaremos exclusivamente para a limpeza e o tratamento de nossos dados. O NumPy é uma das bibliotecas fundamentais para a computação científica em Python. Ele oferece suporte para arrays multidimensionais (ou seja, arrays com mais de uma dimensão) e funções matemáticas de alto desempenho para a manipulação desses arrays. O NumPy é amplamente utilizado em áreas como ciência de dados, aprendizado de máquina, processamento de sinais, matemática, física e muitos outros campos. Dado que ela é otimizada e possui funções e módulos preparados para computação científica, tende a ser mais rápida do que se utilizássemos apenas o Python puro.

Visão dos dados:
![visao inicial](imagens/01.png)

## Importando o NumPy

In [6]:
#Durante esse projeto iremos útilizar somente o NumPy
import numpy as np

## Carregando o Dataset

Para importar os conjuntos de dados iremos utilizar a função _np.genfromtxt_ do NumPy que carrega os dados de um arquivo de texto e transforma em uma matriz NumPy

In [3]:
#importando os dados
dados = np.genfromtxt("dados/dataset1.csv",
                    delimiter = ';',
                    skip_header = 1,
                    autostrip = True,
                    encoding = 'cp1252'
)

In [4]:
#vamos verificar o tamanho do shape dos nosso dados
dados.shape

(10000, 14)

In [5]:
#vizualizar as entradas
dados.view()

array([[4.8010226e+07,           nan, 3.5000000e+04, ...,           nan,
                  nan, 9.4529600e+03],
       [5.7693261e+07,           nan, 3.0000000e+04, ...,           nan,
                  nan, 4.6797000e+03],
       [5.9432726e+07,           nan, 1.5000000e+04, ...,           nan,
                  nan, 1.9698300e+03],
       ...,
       [5.0415990e+07,           nan, 1.0000000e+04, ...,           nan,
                  nan, 2.1856400e+03],
       [4.6154151e+07,           nan,           nan, ...,           nan,
                  nan, 3.1994000e+03],
       [6.6055249e+07,           nan, 1.0000000e+04, ...,           nan,
                  nan, 3.0190000e+02]])

Ao observarmos os registros dos dados, podemos ver que temos diversos *NaN*, que significa "Not-a-Number" em inglês. Isso nos diz que o Python não conseguiu interpretar os dados corretamente durante a carga dos dados. Vamos resolver isso?

## Resolvendo os problemas ao carregar os dados

### Primeiramente vamos verificar quantos valores ausentes foram carregados

In [7]:
#Para verificar os valores ausentes vamos utilizar a função isnan
np.isnan(dados).sum()

88005

Podemos observar que temos um total de 88.005 registros como NaN. Para resolver os valores ausentes, precisamos separar nossas variáveis em dois arrays, sendo um para as variáveis numéricas e o outro para as variáveis do tipo string.

Para resolver esse problema, vamos usar um pequeno truque de programação para fazer a separação. Esse truque consiste em utilizar um número arbitrário e colocá-lo na carga de dados e calcular a média dos valores NaN. Depois, iremos tratá-lo como um valor ausente.