In [121]:
import pandas as pd
from sklearn.preprocessing import LabelEncoder, StandardScaler

In [122]:
dataset = pd.read_csv("data/credit_simple.csv", sep=";")

dataset.head()

Unnamed: 0,SALDO_ATUAL,RESIDENCIADESDE,IDADE,OUTROSPLANOSPGTO,DATA,ESTADOCIVIL,PROPOSITO,CLASSE
0,1169.0,4,67,nenhum,01/01/2019,masculino solteiro,radio/tv,bom
1,5951.0,2,22,nenhum,01/01/2020,fem div/cas,radio/tv,ruim
2,2096.0,3,49,nenhum,02/01/2020,masculino solteiro,educação,bom
3,7882.0,4,45,nenhum,02/01/2019,masculino solteiro,mobilia/equipamento,bom
4,4870.0,4,53,nenhum,03/01/2018,masculino solteiro,carro novo,ruim


In [123]:
y = dataset["CLASSE"]
X = dataset.iloc[:, :-1]

X.head()

Unnamed: 0,SALDO_ATUAL,RESIDENCIADESDE,IDADE,OUTROSPLANOSPGTO,DATA,ESTADOCIVIL,PROPOSITO
0,1169.0,4,67,nenhum,01/01/2019,masculino solteiro,radio/tv
1,5951.0,2,22,nenhum,01/01/2020,fem div/cas,radio/tv
2,2096.0,3,49,nenhum,02/01/2020,masculino solteiro,educação
3,7882.0,4,45,nenhum,02/01/2019,masculino solteiro,mobilia/equipamento
4,4870.0,4,53,nenhum,03/01/2018,masculino solteiro,carro novo


In [124]:
X.isna().sum()

SALDO_ATUAL         7
RESIDENCIADESDE     0
IDADE               0
OUTROSPLANOSPGTO    0
DATA                0
ESTADOCIVIL         8
PROPOSITO           0
dtype: int64

In [125]:
# For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.
saldoAtualMedian = X["SALDO_ATUAL"].median()

X.fillna({"SALDO_ATUAL": saldoAtualMedian}, inplace=True)


X.isna().sum()

SALDO_ATUAL         0
RESIDENCIADESDE     0
IDADE               0
OUTROSPLANOSPGTO    0
DATA                0
ESTADOCIVIL         8
PROPOSITO           0
dtype: int64

In [126]:
X["ESTADOCIVIL"].value_counts()

ESTADOCIVIL
masculino solteiro        542
fem div/cas               308
masculino casado/viuvo     92
masculino div/sep          50
Name: count, dtype: int64

In [127]:
X.fillna({"ESTADOCIVIL": "masculino solteiro"}, inplace=True)

X.isna().sum()

SALDO_ATUAL         0
RESIDENCIADESDE     0
IDADE               0
OUTROSPLANOSPGTO    0
DATA                0
ESTADOCIVIL         0
PROPOSITO           0
dtype: int64

In [128]:
desv = X["SALDO_ATUAL"].std()

desv

685936688.9820064

In [129]:
X.loc[X["SALDO_ATUAL"] > 2 * desv, "SALDO_ATUAL"]

127    2.541111e+09
160    2.154441e+10
Name: SALDO_ATUAL, dtype: float64

In [130]:
X.loc[X["SALDO_ATUAL"] > 2 * desv, "SALDO_ATUAL"] = saldoAtualMedian

X.loc[X["SALDO_ATUAL"] > 2 * desv, "SALDO_ATUAL"]

Series([], Name: SALDO_ATUAL, dtype: float64)

In [131]:
X['PROPOSITO'].value_counts()

PROPOSITO
radio/tv               280
carro novo             234
mobilia/equipamento    181
carro usado            103
negócios                97
educação                50
obras                   22
Eletrodomésticos        12
outros                  12
qualificação             9
Name: count, dtype: int64

In [132]:
X.loc[X["PROPOSITO"] == "Eletrodomésticos", "PROPOSITO"] = "outros"
X.loc[X["PROPOSITO"] == "qualificação", "PROPOSITO"] = "outros"

X['PROPOSITO'].value_counts()

PROPOSITO
radio/tv               280
carro novo             234
mobilia/equipamento    181
carro usado            103
negócios                97
educação                50
outros                  33
obras                   22
Name: count, dtype: int64

In [133]:
X['DATA']

0      01/01/2019
1      01/01/2020
2      02/01/2020
3      02/01/2019
4      03/01/2018
          ...    
995    29/06/2018
996    30/06/2018
997    03/07/2018
998    04/07/2019
999    05/07/2018
Name: DATA, Length: 1000, dtype: object

In [134]:
X['DATA'] = pd.to_datetime(X['DATA'], format="%d/%m/%Y")

X['DATA']

0     2019-01-01
1     2020-01-01
2     2020-01-02
3     2019-01-02
4     2018-01-03
         ...    
995   2018-06-29
996   2018-06-30
997   2018-07-03
998   2019-07-04
999   2018-07-05
Name: DATA, Length: 1000, dtype: datetime64[ns]

In [135]:
X['ANO'] = X['DATA'].dt.year
X['MES'] = X['DATA'].dt.month
X['DIASEMANA'] = X['DATA'].dt.day_name()

X.head()

Unnamed: 0,SALDO_ATUAL,RESIDENCIADESDE,IDADE,OUTROSPLANOSPGTO,DATA,ESTADOCIVIL,PROPOSITO,ANO,MES,DIASEMANA
0,1169.0,4,67,nenhum,2019-01-01,masculino solteiro,radio/tv,2019,1,Tuesday
1,5951.0,2,22,nenhum,2020-01-01,fem div/cas,radio/tv,2020,1,Wednesday
2,2096.0,3,49,nenhum,2020-01-02,masculino solteiro,educação,2020,1,Thursday
3,7882.0,4,45,nenhum,2019-01-02,masculino solteiro,mobilia/equipamento,2019,1,Wednesday
4,4870.0,4,53,nenhum,2018-01-03,masculino solteiro,carro novo,2018,1,Wednesday


In [136]:
X['ESTADOCIVIL'].unique()

array(['masculino solteiro', 'fem div/cas', 'masculino div/sep',
       'masculino casado/viuvo'], dtype=object)

In [137]:
X['PROPOSITO'].unique()

array(['radio/tv', 'educação', 'mobilia/equipamento', 'carro novo',
       'carro usado', 'negócios', 'outros', 'obras'], dtype=object)

In [138]:
X['DIASEMANA'].unique()

array(['Tuesday', 'Wednesday', 'Thursday', 'Saturday', 'Sunday', 'Monday',
       'Friday'], dtype=object)

In [139]:
X['OUTROSPLANOSPGTO'].unique()

array(['nenhum', 'banco', 'stores'], dtype=object)

In [140]:
labelEncoder = LabelEncoder()

X['ESTADOCIVIL'] = labelEncoder.fit_transform(X['ESTADOCIVIL'])
X['PROPOSITO'] = labelEncoder.fit_transform(X['PROPOSITO'])
X['DIASEMANA'] = labelEncoder.fit_transform(X['DIASEMANA'])

X.head()

Unnamed: 0,SALDO_ATUAL,RESIDENCIADESDE,IDADE,OUTROSPLANOSPGTO,DATA,ESTADOCIVIL,PROPOSITO,ANO,MES,DIASEMANA
0,1169.0,4,67,nenhum,2019-01-01,3,7,2019,1,5
1,5951.0,2,22,nenhum,2020-01-01,0,7,2020,1,6
2,2096.0,3,49,nenhum,2020-01-02,3,2,2020,1,4
3,7882.0,4,45,nenhum,2019-01-02,3,3,2019,1,6
4,4870.0,4,53,nenhum,2018-01-03,3,0,2018,1,6


In [141]:
z = pd.get_dummies(X['OUTROSPLANOSPGTO'], prefix='OUTROS')

z.head()

Unnamed: 0,OUTROS_banco,OUTROS_nenhum,OUTROS_stores
0,False,True,False
1,False,True,False
2,False,True,False
3,False,True,False
4,False,True,False


In [142]:
sc = StandardScaler()

m =  sc.fit_transform(X.iloc[:, 0:3])

m

array([[-0.74551643,  1.04698668,  1.6392759 ],
       [ 0.95774038, -0.76597727, -0.74024139],
       [-0.41533679,  0.14050471,  0.68746898],
       ...,
       [-0.87552244,  1.04698668,  0.1058092 ],
       [-0.50473818,  1.04698668, -0.68736323],
       [ 0.46799171,  1.04698668, -0.47585058]])

In [143]:
X = pd.concat([X, z, pd.DataFrame(m, columns=['SALDO_ATUAL_N', 'RESIDENCIADESDE_N', 'IDADE_N'])], axis=1)

X.head()

Unnamed: 0,SALDO_ATUAL,RESIDENCIADESDE,IDADE,OUTROSPLANOSPGTO,DATA,ESTADOCIVIL,PROPOSITO,ANO,MES,DIASEMANA,OUTROS_banco,OUTROS_nenhum,OUTROS_stores,SALDO_ATUAL_N,RESIDENCIADESDE_N,IDADE_N
0,1169.0,4,67,nenhum,2019-01-01,3,7,2019,1,5,False,True,False,-0.745516,1.046987,1.639276
1,5951.0,2,22,nenhum,2020-01-01,0,7,2020,1,6,False,True,False,0.95774,-0.765977,-0.740241
2,2096.0,3,49,nenhum,2020-01-02,3,2,2020,1,4,False,True,False,-0.415337,0.140505,0.687469
3,7882.0,4,45,nenhum,2019-01-02,3,3,2019,1,6,False,True,False,1.645526,1.046987,0.475956
4,4870.0,4,53,nenhum,2018-01-03,3,0,2018,1,6,False,True,False,0.572709,1.046987,0.898982


In [144]:
X.drop(['OUTROSPLANOSPGTO', 'SALDO_ATUAL', 'RESIDENCIADESDE', 'IDADE', 'DATA', 'OUTROS_banco'], axis=1, inplace=True)

X.head()

Unnamed: 0,ESTADOCIVIL,PROPOSITO,ANO,MES,DIASEMANA,OUTROS_nenhum,OUTROS_stores,SALDO_ATUAL_N,RESIDENCIADESDE_N,IDADE_N
0,3,7,2019,1,5,True,False,-0.745516,1.046987,1.639276
1,0,7,2020,1,6,True,False,0.95774,-0.765977,-0.740241
2,3,2,2020,1,4,True,False,-0.415337,0.140505,0.687469
3,3,3,2019,1,6,True,False,1.645526,1.046987,0.475956
4,3,0,2018,1,6,True,False,0.572709,1.046987,0.898982
