# Pré-processamento de dados com pandas e scikit-learn



In [12]:
#importando bibliotecas 
import pandas as pd

In [13]:
#importando minha base de dados e a transformando em um data frame
base=pd.read_csv('credit-data.csv')
#type = <class 'pandas.core.frame.DataFrame'>
base.describe() #mostra algumas estatisticas básicas da minha base

Unnamed: 0,clientid,income,age,loan,default
count,2000.0,2000.0,1997.0,2000.0,2000.0
mean,1000.5,45331.600018,40.807559,4444.369695,0.1415
std,577.494589,14326.327119,13.624469,3045.410024,0.348624
min,1.0,20014.48947,-52.42328,1.37763,0.0
25%,500.75,32796.459717,28.990415,1939.708847,0.0
50%,1000.5,45789.117313,41.317159,3974.719419,0.0
75%,1500.25,57791.281668,52.58704,6432.410625,0.0
max,2000.0,69995.685578,63.971796,13766.051239,1.0


## Como acessar os dados

In [None]:
#pelo nome da coluna
base.age


In [None]:
#método mais usual
base['age']

In [None]:
#para acessar mais de uma coluna ao mesmo tempo é necessario passar uma lista como argumento ex:
base[['age','loan']]

In [None]:
#criando uma coluna nova
#para isso precisamos partir do principio que a coluna ja existe
base['nova_coluna']=base['age'] + base['loan']
#agora vamos observar a nova coluna criada
#print(base)

In [None]:
#Apagando uma coluna
base.drop('nova_coluna',axis=1,inplace=True)
#print(base)

In [None]:
print(base)

# Localizando elementos pelo Indice

In [None]:
#usando a Função loc
# a função loc localiza as colunas pelo nome .loc[linha,coluna]
base.loc[:,'age']

In [None]:
# ou demos passsar uma lista de linhas e colunas desejadas
base.loc[1:10,['income','age','loan']]

In [None]:
#usando iloc
#localiza os dados pelos indices 
base.iloc[:,2]

In [None]:
#ou podemos fazer isso para uma lista de variaveis
base.iloc[5:9,2:4] 

# Trabalhando com um exemplo de Pré-Processamento

In [None]:
## Substituindo valores faltantes

In [3]:
base=pd.read_csv('credit-data.csv') # importando novamente toda a base de dados, 
#para evitar possiveis alterações feitas anteriormente
base.describe()


Unnamed: 0,clientid,income,age,loan,default
count,2000.0,2000.0,1997.0,2000.0,2000.0
mean,1000.5,45331.600018,40.807559,4444.369695,0.1415
std,577.494589,14326.327119,13.624469,3045.410024,0.348624
min,1.0,20014.48947,-52.42328,1.37763,0.0
25%,500.75,32796.459717,28.990415,1939.708847,0.0
50%,1000.5,45789.117313,41.317159,3974.719419,0.0
75%,1500.25,57791.281668,52.58704,6432.410625,0.0
max,2000.0,69995.685578,63.971796,13766.051239,1.0


Veja que a idade minima é de -52 anos, não existe idade negativa, logo precisamos fazer um pré-processamento 
para corrigir esses valores fora da curva,a fim de não acabarmos treinando nossos algoritmos com valores errados

In [None]:
#vamos acessar os esses valores cujo a idade é <0 
base.loc[base['age']<0]

In [None]:
#Existem basicamente 3 técnicas para tratar esse tipo de problema
#apagar as linhas com o age<0
base.drop(base[base['age']<0].index,inplace=True)
#agora vamos ver os registros apagados
base.iloc[14:27,:]
#note a ausencia dos valores das linhas  15,21 e 26

In [14]:
#ou igualar esses valores à média que é a maneira mais correta de corrigir o problema
base.loc[base['age']<0,'age'] = base['age'][base['age']>0].mean()
base.iloc[14:27,:]
#note que o valor do atributo 'age' das respectivas colunas mudou para a média

Unnamed: 0,clientid,income,age,loan,default
14,15.0,63061.960174,39.201553,1850.369377,0.0
15,40.9277,40.9277,40.9277,40.9277,40.9277
16,17.0,43548.654711,39.57453,3935.544453,0.0
17,18.0,43378.175194,60.848318,3277.737553,0.0
18,19.0,20542.365073,61.690571,3157.44229,0.0
19,20.0,58887.357549,26.076093,4965.516066,0.0
20,21.0,23000.784002,31.761354,1148.118057,0.0
21,40.9277,40.9277,40.9277,40.9277,40.9277
22,23.0,23329.319414,48.576975,222.622299,0.0
23,24.0,27845.800894,51.970624,4959.921226,0.0


## Tratando de Valores Faltantes

In [13]:
#verificando se existem valores NULOS (nao informados) na base de dados
pd.isnull(base['age'])

0       False
1       False
2       False
3       False
4       False
5       False
6       False
7       False
8       False
9       False
10      False
11      False
12      False
13      False
14      False
15      False
16      False
17      False
18      False
19      False
20      False
21      False
22      False
23      False
24      False
25      False
26      False
27      False
28       True
29      False
        ...  
1970    False
1971    False
1972    False
1973    False
1974    False
1975    False
1976    False
1977    False
1978    False
1979    False
1980    False
1981    False
1982    False
1983    False
1984    False
1985    False
1986    False
1987    False
1988    False
1989    False
1990    False
1991    False
1992    False
1993    False
1994    False
1995    False
1996    False
1997    False
1998    False
1999    False
Name: age, Length: 2000, dtype: bool

In [15]:
#para retornar só as linhas nulas devemos usar a função loc/iloc
base.loc[pd.isnull(base['age'])]

Unnamed: 0,clientid,income,age,loan,default
28,29.0,59417.805406,,2082.625938,0.0
30,31.0,48528.852796,,6155.78467,0.0
31,32.0,23526.302555,,2862.010139,0.0


In [16]:
## separando os atributos previsores e o atributo classe
previsores=base.iloc[:,1:4].values
classe=base.iloc[:,4].values

#o atributo .values transforma o dataframe num array do numpy


# Fazendo o pre-processamento automático com sklearn.preprocessing

In [17]:
from sklearn.preprocessing import Imputer
imputer = Imputer() 
#######
# A função imputer faz o pré-processamento automático 
# Imputer(missing_values,strategy,axis)
# Vale apena olhar a documentação dessa função
imputer=imputer.fit(previsores[:,:])
previsores[:,:]=imputer.transform(previsores[:,:])

# Escalonamento de Atributos

Alguns algoritmos de machine learning usam como base na distancia euclidiana entre os valores, e se esses valores estiverem fora de escala alguns valores terão mais importancia do que outros.
nesse banco de dados por exemplo o valor entre as idades e as rendas são bem distintos e fora de escala.
Existem basicamente 2 maneiras de normalizamos os valores

Padronização:
    x= (x - media)/desvioPadrao
Normalização:
    x=(x - min)/(max - min)
 
 
Existem algoritmos que fazem isso automaticamente


In [9]:
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
previsores=scaler.fit_transform(previsores)
#agora os dados estao na mesma escala 

# Validando o algoritmo

In [28]:
from sklearn.model_selection import train_test_split
previsores_train,previsores_test,classe_train,classe_test=train_test_split(previsores,classe,test_size=0.25,random_state=0)
print ("Previsores Treinamento: %i" %len(previsores_train))
print ("Previsores Teste: %i" %len(previsores_test))
print ("Classe Treinamento: %i" %len(classe_train))
print ("Classe Teste: %i" %len(classe_test))

Previsores Treinamento: 1500
Previsores Teste: 500
Classe Treinamento: 1500
Classe Teste: 500
