### Entendo banco de dados

Atributos previsores = Xxcxxxxx

Atributo classe = Xxxxxxx

### Colunas do banco de dados

- 'clientid', 
- 'income', 
- 'age', 
- 'loan', 
- 'default', 
- dtype='object'

In [1]:
# importando biblioteca pandas

import pandas as pd
import numpy as np

In [2]:
# lendo banco de dados

base = pd.read_csv('C:/Users/Renato/OneDrive/github/generative_algorithm/Evolutionary_computing/2_Machine_Learning/2_Machine_Learning_e_Data_Science_com_Python/Secao 3 - Pre-processamento com Pandas e scikit-learm/credit_data.csv')

In [3]:
# examinando o número de linhas e colunas do banco de dados

base.shape

(2000, 5)

In [4]:
# recebebdo nomes das colunas

base.columns

Index(['i#clientid', 'income', 'age', 'loan', 'c#default'], dtype='object')

In [5]:
# recebendo as primeiras linhas do banco

base.head()

Unnamed: 0,i#clientid,income,age,loan,c#default
0,1,66155.925095,59.017015,8106.532131,0
1,2,34415.153966,48.117153,6564.745018,0
2,3,57317.170063,63.108049,8020.953296,0
3,4,42709.534201,45.751972,6103.64226,0
4,5,66952.688845,18.584336,8770.099235,1


In [6]:
# vesualizando estatísticas

base.describe()

Unnamed: 0,i#clientid,income,age,loan,c#default
count,2000.0,2000.0,1997.0,2000.0,2000.0
mean,1000.5,45331.600018,40.807559,4444.369695,0.1415
std,577.494589,14326.327119,13.624469,3045.410024,0.348624
min,1.0,20014.48947,-52.42328,1.37763,0.0
25%,500.75,32796.459717,28.990415,1939.708847,0.0
50%,1000.5,45789.117313,41.317159,3974.719419,0.0
75%,1500.25,57791.281668,52.58704,6432.410625,0.0
max,2000.0,69995.685578,63.971796,13766.051239,1.0


### Entendendo as estatísticas

- count -> quantidade
- mean -> média
- std -> desvio padrão
- min -> valor mínimo
- max -> valor máximo
- 25% -> primeiro quartil
- 50% -> mediana (quartil)
- 75% -> terceiro quartil

### Tipos de variáveis

- clientid -> variáveis categóricas nominal (caracterisitica única, tal como um nome);

- income -> variável númerica continua (float);

- age -> variável númerica continua (float). Se arredondar converte discreta (integer);

- loan -> variável númerica continua (float);

- default -> variável númerica discreta;

## Tratamento de valores inconsistentes – base crédito

In [7]:
# já sabemos que existe inconsistência. Mas, e se não tivesse está informação?? como achá-las??

# localizando cliente com idades negativas

base.loc[base['age']<0]

Unnamed: 0,i#clientid,income,age,loan,c#default
15,16,50501.726689,-28.218361,3977.287432,0
21,22,32197.620701,-52.42328,4244.057136,0
26,27,63287.038908,-36.496976,9595.286289,0


In [8]:
# 1) apagar a coluna (maneira não boa para lidar com o problema)

# base.drop('age', 1, inplace=True) # apaga a coluna AGE no mesmo DataFrame (base)

# 2) apgar somento os registros com problema (maneira não tão boa para lidar com o problema)

#base.drop[base[base.age < 0].index, inplace=True] # apaga as linhas que contenham dados inconsistentes no mesmo DataFrame (base)

# 3) preencher os valores manualmente (entrar em contato com os clientes e mudar as idades manualmente, inviável em muitos casos)

# 4) preencher os valores com a média

#base.mean() # retorna a média de todos os dados

# base['age'].mean() # retorna a média da idade, porém com os dados inconsistentes juntos

base['age'][base.age > 0].mean()



40.92770044906149

In [9]:
# trocando dados inconsistentes pela média

base.loc[base.age < 0, 'age'] = 40.92

In [10]:
# conferindo se a troca deu certo

base.loc[base['age']<0]

Unnamed: 0,i#clientid,income,age,loan,c#default


Problema resolvido, os clientes com idades negativas agora possuem a idade média de 40.92

## Tratamento de valores faltantes – base crédito

In [11]:
# procurando valor nulo

nulo = pd.isnull(base['age'])

In [12]:
# imprimindo relação nulos
nulo

0       False
1       False
2       False
3       False
4       False
        ...  
1995    False
1996    False
1997    False
1998    False
1999    False
Name: age, Length: 2000, dtype: bool

In [13]:
# somando valores nulos na série AGE

sum(nulo)

3

In [14]:
# uma maneira melhor para fazer isso .loc[]

base.loc[pd.isnull(base['age'])]

Unnamed: 0,i#clientid,income,age,loan,c#default
28,29,59417.805406,,2082.625938,0
30,31,48528.852796,,6155.78467,0
31,32,23526.302555,,2862.010139,0


In [15]:
# Separando previsores e classe em variáveis

previsores = base.iloc[:, 1:4].values # todas as linhas, colunas 1 até 3

In [16]:
previsores

array([[6.61559251e+04, 5.90170151e+01, 8.10653213e+03],
       [3.44151540e+04, 4.81171531e+01, 6.56474502e+03],
       [5.73171701e+04, 6.31080495e+01, 8.02095330e+03],
       ...,
       [4.43114493e+04, 2.80171669e+01, 5.52278669e+03],
       [4.37560566e+04, 6.39717958e+01, 1.62272260e+03],
       [6.94365796e+04, 5.61526170e+01, 7.37883360e+03]])

In [17]:
classe = base.iloc[:, 4].values

In [18]:
classe

array([0, 0, 0, ..., 1, 0, 0], dtype=int64)

### Tratamento de valores faltantes -base crédito

In [19]:
from sklearn.impute import SimpleImputer
imputer = SimpleImputer(missing_values=np.nan, strategy='mean')

In [20]:
imputer = imputer.fit(previsores[:, 0:3])
previsores[:, 0:3] = imputer.transform(previsores[:,0:3])

In [21]:
previsores

array([[6.61559251e+04, 5.90170151e+01, 8.10653213e+03],
       [3.44151540e+04, 4.81171531e+01, 6.56474502e+03],
       [5.73171701e+04, 6.31080495e+01, 8.02095330e+03],
       ...,
       [4.43114493e+04, 2.80171669e+01, 5.52278669e+03],
       [4.37560566e+04, 6.39717958e+01, 1.62272260e+03],
       [6.94365796e+04, 5.61526170e+01, 7.37883360e+03]])

### Escalonamento de atributos – base crédito 

Maneiras de fazer o escalonamento:

- Padronização (Standardisation)

x = média(x) / desvio padrão(x)

- Normalização (Normalization)

x = mínimo(x) / máximo(x) - mínimo(x)

In [22]:
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
previsores = scaler.fit_transform(previsores)

In [23]:
previsores

array([[ 1.45393393,  1.36538093,  1.20281942],
       [-0.76217555,  0.5426602 ,  0.69642695],
       [ 0.83682073,  1.67417189,  1.17471147],
       ...,
       [-0.07122592, -0.97448519,  0.35420081],
       [-0.11000289,  1.73936739, -0.92675625],
       [ 1.682986  ,  1.14917639,  0.96381038]])

## Divisão das bases entre treinamento e teste



In [26]:
# faz divisão automatica dos dados de treinamento e teste

from sklearn.model_selection import train_test_split

previsores_treinamento, previsores_teste, classe_treinamento, classe_teste = train_test_split(previsores, classe, test_size=0.25, random_state=0)

In [28]:
# tamanho da base de dados para treinamento

len(classe_treinamento)

1500

In [30]:
# tamanho da base de dados para teste

len(classe_teste)

500