# Importando Bibliotecas

In [35]:
import pandas as pd 
import numpy as np


# Importando dados

In [36]:

    dados = pd.read_csv('credit_data.csv')
    dados

Unnamed: 0,i#clientid,income,age,loan,c#default
0,1,66155.925095,59.017015,8106.532131,0
1,2,34415.153966,48.117153,6564.745018,0
2,3,57317.170063,63.108049,8020.953296,0
3,4,42709.534201,45.751972,6103.642260,0
4,5,66952.688845,18.584336,8770.099235,1
...,...,...,...,...,...
1995,1996,59221.044874,48.518179,1926.729397,0
1996,1997,69516.127573,23.162104,3503.176156,0
1997,1998,44311.449262,28.017167,5522.786693,1
1998,1999,43756.056605,63.971796,1622.722598,0


In [37]:
dados.describe()

Unnamed: 0,i#clientid,income,age,loan,c#default
count,2000.0,2000.0,1997.0,2000.0,2000.0
mean,1000.5,45331.600018,40.807559,4444.369695,0.1415
std,577.494589,14326.327119,13.624469,3045.410024,0.348624
min,1.0,20014.48947,-52.42328,1.37763,0.0
25%,500.75,32796.459717,28.990415,1939.708847,0.0
50%,1000.5,45789.117313,41.317159,3974.719419,0.0
75%,1500.25,57791.281668,52.58704,6432.410625,0.0
max,2000.0,69995.685578,63.971796,13766.051239,1.0


In [38]:
# Renomeando os nomes das tabelas do Dataframe
dados.rename({'i#clientid':'id cliente','income': 'salario anual','age':'idade','loan':'emprestimo','c#default':'pagamento'},axis= 1, inplace=True)

In [39]:
dados

Unnamed: 0,id cliente,salario anual,idade,emprestimo,pagamento
0,1,66155.925095,59.017015,8106.532131,0
1,2,34415.153966,48.117153,6564.745018,0
2,3,57317.170063,63.108049,8020.953296,0
3,4,42709.534201,45.751972,6103.642260,0
4,5,66952.688845,18.584336,8770.099235,1
...,...,...,...,...,...
1995,1996,59221.044874,48.518179,1926.729397,0
1996,1997,69516.127573,23.162104,3503.176156,0
1997,1998,44311.449262,28.017167,5522.786693,1
1998,1999,43756.056605,63.971796,1622.722598,0


# Tratando dos dados inconsistentes

In [40]:
# A tabela idade tem registros negativos e isso causará problemas para o dataset
dados.loc[dados['idade'] < 0]

Unnamed: 0,id cliente,salario anual,idade,emprestimo,pagamento
15,16,50501.726689,-28.218361,3977.287432,0
21,22,32197.620701,-52.42328,4244.057136,0
26,27,63287.038908,-36.496976,9595.286289,0


In [41]:
# O comando abaixo apaga a coluna inteira(não recomendado)
# dados.drop('idade', 1, inplace=True)

In [42]:
# O comando abaixo apaga somente os registros problemáticos(não recomendado)
# dados.drop(dados[dados.idade < 0].index, inplace=True)


In [43]:
# Preencher os valores com problema manualmente
# Para isso vamos preencher os valores com a média

dados.mean()


id cliente        1000.500000
salario anual    45331.600018
idade               40.807559
emprestimo        4444.369695
pagamento            0.141500
dtype: float64

In [44]:
# Não será possível nesse caso 'idade' ir diretamente em média por que idade está com
# valor negativo.
dados['idade'].mean()

40.80755937840458

In [45]:
# Comando que pega os valores positivos de idade e gera a média
dados['idade'][dados.idade > 0].mean()

40.92770044906149

In [46]:
# Através da média de números positivos da tabela idade substituir os valores com problema
dados.loc[dados.idade < 0, 'idade'] = 40.92

In [47]:
# Valores da tabela idade com problema finalmente substituídos pela média 
dados.iloc[[15,21,26]]

Unnamed: 0,id cliente,salario anual,idade,emprestimo,pagamento
15,16,50501.726689,40.92,3977.287432,0
21,22,32197.620701,40.92,4244.057136,0
26,27,63287.038908,40.92,9595.286289,0


# Tratamento de valores faltantes

In [48]:
# Comando que mostra se há valores faltantes até o indice 40
pd.isnull(dados['idade']).head(41)

0     False
1     False
2     False
3     False
4     False
5     False
6     False
7     False
8     False
9     False
10    False
11    False
12    False
13    False
14    False
15    False
16    False
17    False
18    False
19    False
20    False
21    False
22    False
23    False
24    False
25    False
26    False
27    False
28     True
29    False
30     True
31     True
32    False
33    False
34    False
35    False
36    False
37    False
38    False
39    False
40    False
Name: idade, dtype: bool

In [49]:
# Comando que mostra dados faltantes da tabela idade com mais precisão
dados.loc[pd.isnull(dados['idade'])]

Unnamed: 0,id cliente,salario anual,idade,emprestimo,pagamento
28,29,59417.805406,,2082.625938,0
30,31,48528.852796,,6155.78467,0
31,32,23526.302555,,2862.010139,0


In [50]:

previsores = dados.iloc[:,1:4].values

In [51]:
classe = dados.iloc[:,4].values

In [52]:
# Importando módulo da biblioteca Sklearn
from sklearn.impute import SimpleImputer 


In [53]:
imputer = SimpleImputer(missing_values = np.nan, strategy='mean')

In [54]:

imputer = imputer.fit(previsores[:,0:3])

In [55]:
# Transformação dos valores
previsores[:,0:3] = imputer.transform(previsores[:,0:3])

In [56]:
# Conferindo mudanças
previsores[[28,30,31]]

array([[5.94178054e+04, 4.09276889e+01, 2.08262594e+03],
       [4.85288528e+04, 4.09276889e+01, 6.15578467e+03],
       [2.35263026e+04, 4.09276889e+01, 2.86201014e+03]])

# Escalonamento dos atributos


In [57]:
# Comando que importa a classe StandardScaler- Responsável por deixar os atributos na mesma escala
from sklearn.preprocessing import StandardScaler

In [58]:
# Criação da variável que representará um objeto da classe StandardScaler
scaler = StandardScaler()

In [59]:
# Ajuste dos dados
previsores = scaler.fit_transform(previsores)

In [64]:
previsores

array([[ 1.45393393,  1.36538093,  1.20281942],
       [-0.76217555,  0.5426602 ,  0.69642695],
       [ 0.83682073,  1.67417189,  1.17471147],
       ...,
       [-0.07122592, -0.97448519,  0.35420081],
       [-0.11000289,  1.73936739, -0.92675625],
       [ 1.682986  ,  1.14917639,  0.96381038]])