In [15]:
import pandas as pd

# Ce dataset est tiré d'une banque allemande et indique si les différents clients
# ont été rentable ou non en fonction des prets qu'ils ont eu
# l'objectif est de prédire si on devrait preter à un client ou pas
data = pd.read_csv('datasets/german_credit_data_dataset.csv')

data.head()

Unnamed: 0,checking_account_status,duration,credit_history,purpose,credit_amount,savings,present_employment,installment_rate,personal,other_debtors,...,property,age,other_installment_plans,housing,existing_credits,job,dependents,telephone,foreign_worker,customer_type
0,A11,6,A34,A43,1169.0,A65,A75,4.0,A93,A101,...,A121,67.0,A143,A152,2.0,A173,1,A192,A201,1
1,A12,48,A32,A43,5951.0,A61,A73,2.0,A92,A101,...,A121,22.0,A143,A152,1.0,A173,1,A191,A201,2
2,A14,12,A34,A46,2096.0,A61,A74,2.0,A93,A101,...,A121,49.0,A143,A152,1.0,A172,2,A191,A201,1
3,A11,42,A32,A42,7882.0,A61,A74,2.0,A93,A103,...,A122,45.0,A143,A153,1.0,A173,2,A191,A201,1
4,A11,24,A33,A40,4870.0,A61,A73,3.0,A93,A101,...,A124,53.0,A143,A153,2.0,A173,2,A191,A201,2


In [16]:
data.shape

(1000, 21)

In [17]:
data.columns

Index(['checking_account_status', 'duration', 'credit_history', 'purpose',
       'credit_amount', 'savings', 'present_employment', 'installment_rate',
       'personal', 'other_debtors', 'present_residence', 'property', 'age',
       'other_installment_plans', 'housing', 'existing_credits', 'job',
       'dependents', 'telephone', 'foreign_worker', 'customer_type'],
      dtype='object')

In [18]:
# On commence par supprimer toutes les colonnes que l'on estime inutiles pour notre travail
data = data.drop(['telephone', 'personal', 'present_residence', 'other_installment_plans'], axis=1)

In [19]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 17 columns):
checking_account_status    1000 non-null object
duration                   1000 non-null int64
credit_history             1000 non-null object
purpose                    1000 non-null object
credit_amount              1000 non-null float64
savings                    1000 non-null object
present_employment         1000 non-null object
installment_rate           1000 non-null float64
other_debtors              1000 non-null object
property                   1000 non-null object
age                        1000 non-null float64
housing                    1000 non-null object
existing_credits           1000 non-null float64
job                        1000 non-null object
dependents                 1000 non-null int64
foreign_worker             1000 non-null object
customer_type              1000 non-null int64
dtypes: float64(4), int64(3), object(10)
memory usage: 132.9+ KB


In [20]:
# Ce dataset est très riche en colonnes
# Regardons plus en détails 'savings'
# Ces données doivent être interprétées comme suit:
# A61 : < 100 DM (Deutch Mark) saved
# A62 : 100 < x < 500 DM
# A63 : 500 < x < 1000 DM
# A64 : > 1000 DM
# A65 : unknown
data['savings'].unique()

array(['A65', 'A61', 'A63', 'A64', 'A62'], dtype=object)

In [21]:
# On doit transformer ces données en données numérique donc on choisi assez logiquement 
# l'encodage suivant
from sklearn.preprocessing import LabelEncoder

savings_dict = {"A65" : 0,"A61" : 1, "A62" : 2, "A63" : 3, "A64" : 4}

# La fonction replace prend en paramètre notre dictionnaire et remplace automatique ces éléments
# dans les champs
data['savings'].replace(savings_dict, inplace=True)

data.head()

Unnamed: 0,checking_account_status,duration,credit_history,purpose,credit_amount,savings,present_employment,installment_rate,other_debtors,property,age,housing,existing_credits,job,dependents,foreign_worker,customer_type
0,A11,6,A34,A43,1169.0,0,A75,4.0,A101,A121,67.0,A152,2.0,A173,1,A201,1
1,A12,48,A32,A43,5951.0,1,A73,2.0,A101,A121,22.0,A152,1.0,A173,1,A201,2
2,A14,12,A34,A46,2096.0,1,A74,2.0,A101,A121,49.0,A152,1.0,A172,2,A201,1
3,A11,42,A32,A42,7882.0,1,A74,2.0,A103,A122,45.0,A153,1.0,A173,2,A201,1
4,A11,24,A33,A40,4870.0,1,A73,3.0,A101,A124,53.0,A153,2.0,A173,2,A201,2


In [22]:
# Pour les savings on a créer un dictionnaire perso car cela avait du sens de trier de 0 à 4 
# les datas en fonction de l'argent épargné.
# Par ailleurs, pour les autres colonnes, cela n'a pas spécialement de sens on va donc réaliser
# un 'hot encoding'. Cela veut dire que l'on créé une nouvelle colonne par valeur possible
# dans la colonne que l'on transforme. On rempli ensuite avec des 0 et des 1 comme suit
# C'est la fonction get_dummies qui gère le hot encoding
data = pd.get_dummies(data, columns=['checking_account_status',
                                    'credit_history',
                                    'purpose',
                                    'present_employment',
                                    'property',
                                    'housing',
                                    'other_debtors',
                                    'job',
                                    'foreign_worker'])

data.shape

(1000, 48)

In [23]:
# On peut voir ici que toutes ces colonnes ont été remplacées par des colonnes de l'ensemble des 
# valeurs possible
data.head()

Unnamed: 0,duration,credit_amount,savings,installment_rate,age,existing_credits,dependents,customer_type,checking_account_status_A11,checking_account_status_A12,...,housing_A153,other_debtors_A101,other_debtors_A102,other_debtors_A103,job_A171,job_A172,job_A173,job_A174,foreign_worker_A201,foreign_worker_A202
0,6,1169.0,0,4.0,67.0,2.0,1,1,1,0,...,0,1,0,0,0,0,1,0,1,0
1,48,5951.0,1,2.0,22.0,1.0,1,2,0,1,...,0,1,0,0,0,0,1,0,1,0
2,12,2096.0,1,2.0,49.0,1.0,2,1,0,0,...,0,1,0,0,0,1,0,0,1,0
3,42,7882.0,1,2.0,45.0,1.0,2,1,1,0,...,1,0,0,1,0,0,1,0,1,0
4,24,4870.0,1,3.0,53.0,2.0,2,2,1,0,...,1,1,0,0,0,0,1,0,1,0


In [24]:
# On construit maintenant une méthode par claissificateur
# A suivre