# Projet Machine Learning
## Partie 0 - EDA

In [1]:
import pandas as pd
import pandas_profiling as pp

**Remarque** : Le module `pandas_profiling` s'installe sur Anaconda grâce à la commande `conda install -c conda-forge pandas-profiling` à lancer dans la console d'anaconda.

### Importation des données

Le répertoire de travail est la racine du dossier. Remplacer "./data/..." par "./../data/" si vous vous repérez directement dans le repertoire `python` pour travailler.

In [2]:
train = pd.read_csv("./data/Base_train.csv")
test = pd.read_csv("./data/Base_test.csv")

### Pandas Profiler

Statistiques descriptives de base pour identifier le type de variables à traiter.

**Remarque** : `pool_size` indique le nombre de threads du processeur à utiliser.

In [3]:
if 0:
    report_train = pp.ProfileReport(train, title = 'Pandas Profiling Report : training set', pool_size = 11, correlations = {
        "pearson": False,
        "spearman": False,
        "kendall": False,
        "phi_k": False,
        "cramers": False,
        "recoded": False
    })
    report_train.to_file('./output/profile_report_train.html')

    report_test = pp.ProfileReport(test, title = 'Pandas Profiling Report : testing set', pool_size = 11, correlations = {
        "pearson": False,
        "spearman": False,
        "kendall": False,
        "phi_k": False,
        "cramers": False,
        "recoded": False
    })
    report_test.to_file('./output/profile_report_test.html')

**Étude sur la base d'apprentissage**

* `id` : Aucune aberration dans `id`
* `target` : Aucun problème, ratio 96.3/3.7

* `ps_calc_01` : variable en déciles
* `ps_calc_02` : variable en déciles
* `ps_calc_03` : variable en déciles
* `ps_calc_04` : variable discrète (modalités de 0 à 5) avec une distribution en cloche symmetrique
* `ps_calc_05` : variable discrète (modalités de 0 à 6) avec une distribution en cloche avec queue côté droit
* `ps_calc_06` : variable discrète (modalités de 1 à 10) avec une distribution en cloche avec queue côté gauche
* `ps_calc_07` : variable discrète (modalités de 0 à 9) avec une distribution en cloche avec queue côté droit
* `ps_calc_08` : variable discrète (modalités de 2 à 12) avec une distribution en cloche avec queue côté gauche
* `ps_calc_09` : variable discrète (modalités de 0 à 7) avec une distribution en cloche avec queue côté droit
* `ps_calc_10` : variable discrète (modalités de 0 à 25) avec une distribution en cloche symmetrique (mais avec valeurs extrêmes hautes)
* `ps_calc_11` : variable discrète (modalités de 0 à 18) avec une distribution en cloche symmetrique (mais avec valeurs extrêmes hautes)
* `ps_calc_12` : variable discrète (modalités de 0 à 10) avec une distribution type log-normale
* `ps_calc_13` : variable discrète (modalités de 0 à 13) avec une distribution type log-normale
* `ps_calc_14` : variable discrète (modalités de 0 à 23) avec une distribution en cloche
* `ps_calc_15` : variable binaire - RAS
* `ps_calc_16` : variable binaire - RAS
* `ps_calc_17` : variable binaire - RAS
* `ps_calc_18` : variable binaire - RAS
* `ps_calc_19` : variable binaire - RAS
* `ps_calc_20` : variable binaire - RAS

* `ps_car_01_cat` : variable qualitative (modalités de 0 à 11) avec pics à 11 (35.0%) et 7 (30.1%)
* `ps_car_02_cat` : variable qualitative (modalités de 0 à 1) avec 5 valeurs manquantes
* `ps_car_03_cat` : variable qualitative (modalités de 0 à 1) avec 69% de valeurs manquantes
* `ps_car_04_cat` : variable qualitative (modalités de 0 à 9) avec pic à 0 (83.5%)
* `ps_car_05_cat` : variable qualitative (modalités de 0 à 1) avec 44.8% de valeurs manquantes
* `ps_car_06_cat` : variable qualitative (modalités de 0 à 17) avec pics à 11 (22.1%), 1 (20.0%) et 0 (18.5%)
* `ps_car_07_cat` : variable qualitative (modalités de 0 à 1) avec 1.9% de valeurs manquantes et la modalité 0 à 5.2% d'effectif
* `ps_car_08_cat` : variable qualitative (modalités de 0 à 1) - RAS
* `ps_car_09_cat` : variable qualitative (modalités de 0 à 4) avec 387 valeurs manquantes (0.1%), pics sur 2 (59.4%) et 0 (32.6%)
* `ps_car_10_cat` : variable qualitative (modalités de 0 à 2) avec peu de variabilité (99.2% de la modalité dominante)
* `ps_car_11` : variable discrète (modalités de 0 à 3) avec 4 valeurs manquantes
* `ps_car_11_cat` : variable qualitative (modalités de 1 à 104) - pic à 104 (14.3%) et 103 (4.1%) ... pourquoi `cat` alors qu'elle semble être discrète mais non qualitative ? Pourquoi le numéroter `11` alors qu'il existe déjà une variable avec ce numéro ?
* `ps_car_12` : variable qui semble continue mais a seulement 180 valeurs distinctes ... 1 valeur manquante et pics sur des valeurs sans logique (0.316227766, 0.4 et 0.3741657387)
* `ps_car_13` : variable continue avec une distribution en cloche avec queue côté droite (range min-max : 0.25 à 3.72 aux arrondis près)
* `ps_car_14` : variable continue avec 7.2% de valeurs manquantes, un range min-max à 0.11 ~ 0.64 et distribution sans pattern particulier
* `ps_car_15` : variable qui semble continue mais avec seulement 15 valeurs distinctes ... pics sur des valeurs sans logique et range min-max de 0 à 3.74.

* `ps_ind_01` : variable qualitative (modalités de 0 à 7) - RAS
* `ps_ind_02` : variable qualitative (modalités de 0 à 4) - 152 valeurs manquantes
* `ps_ind_03` : variable qualitative (modalités de 0 à 11) - RAS
* `ps_ind_04` : variable qualitative (modalités de 0 à 1) - 62 valeurs manquantes
* `ps_ind_05_cat` : variable qualitative (modalités de 0 à 6) - 4015 (1%) de valeurs manquantes et peu de variabilité
* `ps_ind_06_bin` jusqu'à `ps_ind_09_bin` : variable binaire - RAS
* `ps_ind_10_bin` : variable binaire - variable peu variable (modalité à 99.9%)
* `ps_ind_11_bin` : variable binaire - variable peu variable (modalité à 99.8%)
* `ps_ind_12_bin` : variable binaire - variable peu variable (modalité à 99.1%)
* `ps_ind_13_bin` : variable binaire - variable peu variable (modalité à 99.9%)
* `ps_ind_14` : variable qualitative (modalités de 0 à 4) - peu de variabilité
* `ps_ind_15` : variable qualitative (modalités de 0 à 13) - RAS
* `ps_ind_16_bin` à `ps_ind_18_bin` : variable binaire - RAS

* `ps_reg_01` : variable qualitative (modalités 0 - 0.1 - ... - 0.9) - avec pic à 0.9 (32.7%)
* `ps_reg_02` : variable qualitative (modalités en pas 0.1 de 0 à 1.8) - avec pic à 0.2 0.3 0.
* `ps_reg_03` : variable continue à normaliser (queue à droite), beaucoup de valeurs manquantes (18.1%)


In [5]:
train.dtypes

id                  int64
target              int64
ps_ind_01           int64
ps_ind_02_cat     float64
ps_ind_03           int64
ps_ind_04_cat     float64
ps_ind_05_cat     float64
ps_ind_06_bin       int64
ps_ind_07_bin       int64
ps_ind_08_bin       int64
ps_ind_09_bin       int64
ps_ind_10_bin       int64
ps_ind_11_bin       int64
ps_ind_12_bin       int64
ps_ind_13_bin       int64
ps_ind_14           int64
ps_ind_15           int64
ps_ind_16_bin       int64
ps_ind_17_bin       int64
ps_ind_18_bin       int64
ps_reg_01         float64
ps_reg_02         float64
ps_reg_03         float64
ps_car_01_cat     float64
ps_car_02_cat     float64
ps_car_03_cat     float64
ps_car_04_cat       int64
ps_car_05_cat     float64
ps_car_06_cat       int64
ps_car_07_cat     float64
ps_car_08_cat       int64
ps_car_09_cat     float64
ps_car_10_cat       int64
ps_car_11_cat       int64
ps_car_11         float64
ps_car_12         float64
ps_car_13         float64
ps_car_14         float64
ps_car_15   

In [34]:
# train.astype({"ps_car_11": str})

liste_cat = train.columns[39:59]
print(liste_cat)

train[liste_cat].astype("category").dtypes


Index(['ps_calc_01', 'ps_calc_02', 'ps_calc_03', 'ps_calc_04', 'ps_calc_05',
       'ps_calc_06', 'ps_calc_07', 'ps_calc_08', 'ps_calc_09', 'ps_calc_10',
       'ps_calc_11', 'ps_calc_12', 'ps_calc_13', 'ps_calc_14',
       'ps_calc_15_bin', 'ps_calc_16_bin', 'ps_calc_17_bin', 'ps_calc_18_bin',
       'ps_calc_19_bin', 'ps_calc_20_bin'],
      dtype='object')


ps_calc_01        category
ps_calc_02        category
ps_calc_03        category
ps_calc_04        category
ps_calc_05        category
ps_calc_06        category
ps_calc_07        category
ps_calc_08        category
ps_calc_09        category
ps_calc_10        category
ps_calc_11        category
ps_calc_12        category
ps_calc_13        category
ps_calc_14        category
ps_calc_15_bin    category
ps_calc_16_bin    category
ps_calc_17_bin    category
ps_calc_18_bin    category
ps_calc_19_bin    category
ps_calc_20_bin    category
dtype: object

In [60]:
pd.crosstab(train.ps_car_03_cat.fillna(999), train.target, normalize='index')
pd.crosstab(train.ps_car_05_cat.fillna(999), train.target, normalize='index')
pd.crosstab(train.ps_car_07_cat.fillna(999), train.target, normalize='index')
pd.crosstab(train.ps_reg_03.fillna(999), train.target, normalize='index')

target,0,1
ps_reg_03,Unnamed: 1_level_1,Unnamed: 2_level_1
0.061237,2,0
0.075000,15,0
0.136931,2,0
0.150000,3,0
0.154110,9,0
0.196850,5,0
0.210654,1,0
0.215058,1,0
0.226385,11,0
0.227761,4,0


In [38]:
train.ps_car_03_cat.isna().sum()

287575