# Previsione dell'affidabilità creditizia per il rilascio della carta di credito

Sei stato assunto dalla Pro National Bank come data scientist, il tuo primo incarico consiste nel realizzare un modello in grado di stimare l'affidabilità creditizia di un clienti, al fine di di aiutare il team dedicato a comprendere se accettare o meno la richiesta per il rilascio della carta di credito.

A tal fine ti vengono consegnati i dati anonimizzati di clienti che hanno già ottenuto la carta di credito e ne pagano regolarmente le rate. 

I dati sono in un file CSV presente a questo indirizzo: https://proai-datasets.s3.eu-west-3.amazonaws.com/credit_scoring.csv 

Il file credit_scoring.csv contiene le informazioni dei correntisti che hanno richiesto l’apertura di una linea di credito.

- *ID*: numero identificativo del cliente
- *CODE_GENDER*: sesso del cleinte
- *FLAG_OWN_CAR*: indicatore del possesso di un'automobile
- *FLAG_OWN_REALTY*: indicatore del possesso di una casa
- *CNT_CHILDREN*: numero di figli
- *AMT_INCOME_TOTAL*: reddito annuale
- *NAME_INCOME_TYPE*: tipo di reddito
- *NAME_EDUCATION_TYPE*: livello di educazione
- *NAME_FAMILY_STATUS*: Stato civile
- *NAME_HOUSING_TYPE*: 
- *DAYS_BIRTH*: Numero di giorni trascorsi dalla nascita
- *DAYS_EMPLOYED*: Numero di giorni trascorsi dalla data di assunzione, se positivo indica il numero di giorni da quando è disoccupato
- *FLAG_MOBIL*: indicatore della presenza di un numero di cellulare
- *FLAG_WORK_PHONE*: indicatore della presenza di un numero di telefono di lavoro
- *FLAG_PHONE*: indicatore della presenza di un numero di telefono
- *FLAG_EMAIL*: indicatore della presenza di un indirizzo email
- *OCCUPATION_TYPE*: tipo di occupazione
- *CNT_FAM_MEMBERS*: numero di familiari
- *TARGET*: una variabile che vale 1 se il cliente ha una elevata affidabilità creditizia data dal pagamento costante delle rate e 0 altrimenti.

Devi realizzare un modello che preveda il target dato.

### PUNTO BONUS

Se ad un cliente viene negata la carta di credito, il team deve essere in grado di fornirgli una motivazione, questo vuol dire che il tuo modello deve fornire delle indicazioni facilmente interpretabili.






In [2]:
#Import starting modules. Other modules will be imported when requested
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

Import data from url

In [6]:
URL = "https://proai-datasets.s3.eu-west-3.amazonaws.com/credit_scoring.csv"

data = pd.read_csv(URL,index_col="ID") #use ID column for indexing
print(f"Dataset size: {data.shape}")

data.head()

Dataset size: (338427, 18)


Unnamed: 0_level_0,CODE_GENDER,FLAG_OWN_CAR,FLAG_OWN_REALTY,CNT_CHILDREN,AMT_INCOME_TOTAL,NAME_INCOME_TYPE,NAME_EDUCATION_TYPE,NAME_FAMILY_STATUS,NAME_HOUSING_TYPE,DAYS_BIRTH,DAYS_EMPLOYED,FLAG_MOBIL,FLAG_WORK_PHONE,FLAG_PHONE,FLAG_EMAIL,OCCUPATION_TYPE,CNT_FAM_MEMBERS,TARGET
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1
5008804,M,Y,Y,0,427500.0,Working,Higher education,Civil marriage,Rented apartment,-12005.0,-4542.0,1.0,1.0,0.0,0.0,,2.0,0
5008805,M,Y,Y,0,427500.0,Working,Higher education,Civil marriage,Rented apartment,-12005.0,-4542.0,1.0,1.0,0.0,0.0,,2.0,0
5008806,M,Y,Y,0,112500.0,Working,Secondary / secondary special,Married,House / apartment,-21474.0,-1134.0,1.0,0.0,0.0,0.0,Security staff,2.0,0
5008808,F,N,Y,0,270000.0,Commercial associate,Secondary / secondary special,Single / not married,House / apartment,-19110.0,-3051.0,1.0,0.0,1.0,1.0,Sales staff,1.0,1
5008809,F,N,Y,0,270000.0,Commercial associate,Secondary / secondary special,Single / not married,House / apartment,-19110.0,-3051.0,1.0,0.0,1.0,1.0,Sales staff,1.0,1


## Data exploration
Before building the ML model, a descriptive analysis is done, in order to explore dataset, see which preprocessing is needed and do a feature selection 

First of all, let's see DataFrame columns types 

In [7]:
data.info()

<class 'pandas.core.frame.DataFrame'>
Index: 338427 entries, 5008804 to 6392180
Data columns (total 18 columns):
 #   Column               Non-Null Count   Dtype  
---  ------               --------------   -----  
 0   CODE_GENDER          338427 non-null  object 
 1   FLAG_OWN_CAR         338427 non-null  object 
 2   FLAG_OWN_REALTY      338427 non-null  object 
 3   CNT_CHILDREN         338427 non-null  int64  
 4   AMT_INCOME_TOTAL     338427 non-null  float64
 5   NAME_INCOME_TYPE     338427 non-null  object 
 6   NAME_EDUCATION_TYPE  338427 non-null  object 
 7   NAME_FAMILY_STATUS   338426 non-null  object 
 8   NAME_HOUSING_TYPE    338426 non-null  object 
 9   DAYS_BIRTH           338426 non-null  float64
 10  DAYS_EMPLOYED        338426 non-null  float64
 11  FLAG_MOBIL           338426 non-null  float64
 12  FLAG_WORK_PHONE      338426 non-null  float64
 13  FLAG_PHONE           338426 non-null  float64
 14  FLAG_EMAIL           338426 non-null  float64
 15  OCCUPATION_TYPE

In dataset the features are both numeric (float64 or int64) and strings. 

From dataset description (and domain knowledge) features have following statistical types:

| Feature             | Type                                | 
|---------------------|-------------------------------------|
| CODE_GENDER         | Qualitative - nominal (dichotomous) | 
| FLAG_OWN_CAR        | Qualitative - nominal (dichotomous) | 
| FLAG_OWN_REALTY     | Qualitative - nominal (dichotomous) |
| CNT_CHILDREN        | Quantitative - discrete             | 
| AMT_INCOME_TOTAL    | Quantitative - continuous           | 
| NAME_INCOME_TYPE    | Qualitative - nominal               | 
| NAME_EDUCATION_TYPE | Qualitative - nominal               | 
| NAME_FAMILY_STATUS  | Qualitative - nominal               | 
| NAME_HOUSING_TYPE   | Qualitative - nominal               | 
| DAYS_BIRTH          |  Quantitative - continuous          | 
| DAYS_EMPLOYED       | Quantitative - continuous           | 
| FLAG_MOBIL          | Qualitative - nominal (dichotomous) | 
| FLAG_WORK_PHONE     | Qualitative - nominal (dichotomous) | 
| FLAG_PHONE          | Qualitative - nominal (dichotomous) | 
| FLAG_EMAIL          | Qualitative - nominal (dichotomous) | 
| OCCUPATION_TYPE     | Qualitative - nominal               | 
| CNT_FAM_MEMBERS     | Quantitative - discrete             | 
| TARGET              | Qualitative - nominal (dichotomous) | 

<br></br>
In summary:
- Features starting with "FLAG_" are dichotomous, since they are binary (yes/no feature); some of them are already encoded in numeric values (e.g. FLAG_PHONE), while others not (e.g. FLAG_OWN_CAR). 
- GENDER_CODE feature is binary too (sorry LGBTQ+ friends), even if it has another meaning than FLAG variables. 
- Features starting with "NAME_" and OCCUPATION_TYPE feature are qualitative in nominal scale, but not dichotomous, since they have more than two levels.
- Other features are quantitative, either continuous or discrete, according to their meaning. 
- Last column is the target, and since it's dichotomous, here we have a classic binary classification problem.