### Chargement des packages et lecture des données

In [1]:
import numpy as np
import pandas as pd
import seaborn as sns
from scipy import stats
import statsmodels.api as sm
from sklearn.model_selection import train_test_split

In [2]:
df = (
    pd.read_excel("C:/Users/papou/OneDrive/Bureau/Etude_de_cas/base3.xlsx")
    .rename(columns = {"CalYear":"YEAR","Group1":"POWER","Poldur":"SENIORITY","Adind":"ALLRISK","Group2":"REGION"})
    .rename(columns = lambda x: x.upper())
)

In [3]:
np.random.seed(28); df.sample(20)

Unnamed: 0,YEAR,GENDER,TYPE,CATEGORY,OCCUPATION,AGE,POWER,BONUS,SENIORITY,VALUE,ALLRISK,REGION,DENSITY,SURV1
26025,2009,Male,C,Small,Housewife,49.0,12,-50,3,9400,0,S,24.137484,1
643,2009,Male,D,Medium,Unemployed,42.0,14,-30,15,17700,1,P,37.761578,0
23425,2009,Male,E,Large,Unemployed,28.0,12,0,3,19250,0,S,23.105117,0
38315,2010,Male,D,Medium,Employed,37.0,13,-50,3,6810,0,R,272.966995,0
38793,2010,Male,D,Medium,Retired,46.0,9,80,4,7710,0,L,45.655642,0
31107,2009,Male,A,Medium,Employed,29.0,18,90,0,21855,1,L,63.521109,1
60535,2010,Female,D,Large,Self-employed,27.0,5,-50,0,6820,0,L,69.889265,0
6445,2009,Female,D,Small,Employed,19.0,14,0,6,7670,0,S,23.95855,0
13150,2009,Male,B,Large,Employed,50.0,9,-20,2,1185,0,Q,222.215127,0
23914,2009,Male,B,Large,Retired,63.0,9,-30,2,7240,1,R,249.811728,0


### PREMIERE PARTIE

L'objectif de cette étude de cas est de construire une classification du niveau de risque des assurés d'une compagnie d'assurance automobile. Nous devrons établir  une règle de segmentation qui va permettre d'affecter un score à un individu, et ce score va être notre indicateur du niveau de risque. Pour ce faire, nous disposons d'une base de donnée qui enregistre 71219 observations reparties sur deux années, 35737 pour 2009 et 35542 pour 2010. Sur ces observations, sont mesurées des variables permettant de les caractériser:

-   YEAR : Les années de collecte des données, 2009 et 2010
-   GENDER : Le genre des assurés, masculin(Male) et féminin(Female)
-   TYPE : le type du véhicule une lettre de A à F
-   CATEGORY : Précise la catégorie du véhicule, Small | Medium | Large
-   OCCUPATION : Précise la catégorie CSP de l'assuré
-   AGE : Donne l'âge de l'assuré
-   POWER : valeur numérique de 0 à 20 caractérisant la puissance du véhicule
-   BONUS : Coefficient de malus et bonus de l'assuré
-   SENIORITY : Ancienneté du contrat en nombre d'année
-   VALUE : Valeur en unité monétaire du véhicule 
-   ALLRISK : Indicateur de garantie assurance tout-risque(0 = non & 1 = oui)
-   REGION : Donne la localité de résidence de l'assuré lettre de L à U
-   DENSITY : Densité de la zone d'habitation
-   SURV1 : survenu d'au moins un accident(0 = non & 1 = oui)

In [4]:
df.info(); print("-"*127); df.isna().sum()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 71279 entries, 0 to 71278
Data columns (total 14 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   YEAR        71279 non-null  int64  
 1   GENDER      71279 non-null  object 
 2   TYPE        71279 non-null  object 
 3   CATEGORY    71279 non-null  object 
 4   OCCUPATION  71279 non-null  object 
 5   AGE         71278 non-null  float64
 6   POWER       71279 non-null  int64  
 7   BONUS       71279 non-null  int64  
 8   SENIORITY   71279 non-null  int64  
 9   VALUE       71279 non-null  int64  
 10  ALLRISK     71279 non-null  int64  
 11  REGION      71279 non-null  object 
 12  DENSITY     71279 non-null  float64
 13  SURV1       71279 non-null  object 
dtypes: float64(2), int64(6), object(6)
memory usage: 7.6+ MB
-------------------------------------------------------------------------------------------------------------------------------


YEAR          0
GENDER        0
TYPE          0
CATEGORY      0
OCCUPATION    0
AGE           1
POWER         0
BONUS         0
SENIORITY     0
VALUE         0
ALLRISK       0
REGION        0
DENSITY       0
SURV1         0
dtype: int64

Seul la variable AGE possède une valeur manquante, étant de donnée que nous ne disposant de variables permettant d'identifier de façon unique les individus, il est préférable de supprimer cet individu de la base de données. Cette suppression n'affectera en rien les résultats de notre analyse on est sur une échelle de 1/71279 soit moins de 0,0014% des observations.

In [5]:
df.describe(include = "number")# Sélectionne des variables numérique et calcul quelques statistiques univariées pour chaque variable

Unnamed: 0,YEAR,AGE,POWER,BONUS,SENIORITY,VALUE,ALLRISK,DENSITY
count,71279.0,71278.0,71279.0,71279.0,71279.0,71279.0,71279.0,71279.0
mean,2009.498632,41.181879,10.697709,-7.008796,5.472874,16418.451297,0.511525,116.944389
std,0.500002,15.249655,4.687986,48.547774,4.586798,10491.294364,0.499871,79.448243
min,2009.0,18.0,1.0,-50.0,0.0,1000.0,0.0,14.377142
25%,2009.0,30.0,7.0,-40.0,1.0,8360.0,0.0,50.566406
50%,2009.0,40.0,11.0,-30.0,4.0,14550.0,1.0,94.364623
75%,2010.0,51.0,14.0,10.0,9.0,22550.0,1.0,171.372936
max,2010.0,688.0,20.0,150.0,15.0,49995.0,1.0,297.38517


La variable ALLRISK étant une variable numérique(à valeurs binaire) et YEAR une variable numérique à deux modalités, nous allons les transformées en variables catégorielles.

In [6]:
df["AGE"].unique()# Affiche les valeurs distinctes de la variable AGE

array([ 25.,  20.,  21.,  33.,  26.,  29.,  31.,  35.,  27.,  65.,  24.,
        22.,  18.,  34.,  41.,  60.,  62.,  37.,  36.,  46.,  45.,  47.,
        40.,  48.,  74.,  43.,  57.,  42.,  30.,  69.,  66.,  51.,  52.,
        38.,  19.,  50.,  73.,  72.,  71.,  28.,  54.,  63.,  49.,  59.,
        39.,  61.,  23.,  56.,  32.,  53.,  58.,  67.,  55.,  75.,  44.,
        70.,  64.,  68., 399.,  nan, 311., 655., 544., 455., 344., 433.,
       488., 688.])

Deux groupes d'individus qu'on observe ici, ceux avec moins de 100 ans dont l'âge maximal est de 75 ans et ceux avec plus de 100 ans dont les valeurs sont dues à des erreurs d'écritures, nous allons conserver pour ces derniers, que les deux premiers éléments.

In [7]:
for col in df.select_dtypes(include = "object").columns:
    print(df[col].value_counts())
    print("-"*127)

GENDER
Male      45147
Female    26111
M            14
F             7
Name: count, dtype: int64
-------------------------------------------------------------------------------------------------------------------------------
TYPE
A    19724
B    15803
D    14042
C     9806
E     7980
F     3924
Name: count, dtype: int64
-------------------------------------------------------------------------------------------------------------------------------
CATEGORY
Medium    26104
Large     25040
Small     20135
Name: count, dtype: int64
-------------------------------------------------------------------------------------------------------------------------------
OCCUPATION
Employed         22117
Self-employed    14584
Housewife        14235
Unemployed       10969
Retired           9374
Name: count, dtype: int64
-------------------------------------------------------------------------------------------------------------------------------
REGION
L    16909
Q    15911
R    10731
M     5407
P     38

Pour les variables non numériques, nous allons les transformées en variables catégorielle en affectant le groupe de référence à la modalité ayant le nombre d'occurrence le plus élevées. Pour la variable GENDER, les modalité M et F, seront transformée en Male et Female, et pour la variable SURV1 no & yes en 0 et 1 respectivement.

In [8]:
df = (
    df.dropna()
    .assign(
        YEAR = lambda x: x["YEAR"].astype(str),
        ALLRISK = lambda x: x["ALLRISK"].astype(str),
        AGE = lambda x: x["AGE"].astype(str).str[:2].astype(int),
        SURV1 = lambda x: np.select([x["SURV1"] == "yes", x["SURV1"] == "no"], [1,0], default = x["SURV1"]),
        GENDER = lambda x: np.select([x["GENDER"] == "M", x["GENDER"] == "F"],["Male","Female"], default = x["GENDER"])
    )
    .reset_index(drop = True)
)

In [9]:
for col in df.select_dtypes(include = "object").columns:
    print(df[col].value_counts())
    print("-"*127)

df.describe(include = "number")

YEAR
2009    35736
2010    35542
Name: count, dtype: int64
-------------------------------------------------------------------------------------------------------------------------------
GENDER
Male      45160
Female    26118
Name: count, dtype: int64
-------------------------------------------------------------------------------------------------------------------------------
TYPE
A    19723
B    15803
D    14042
C     9806
E     7980
F     3924
Name: count, dtype: int64
-------------------------------------------------------------------------------------------------------------------------------
CATEGORY
Medium    26104
Large     25039
Small     20135
Name: count, dtype: int64
-------------------------------------------------------------------------------------------------------------------------------
OCCUPATION
Employed         22117
Self-employed    14584
Housewife        14235
Unemployed       10968
Retired           9374
Name: count, dtype: int64
--------------------------------

Unnamed: 0,AGE,POWER,BONUS,SENIORITY,VALUE,DENSITY
count,71278.0,71278.0,71278.0,71278.0,71278.0,71278.0
mean,41.121833,10.697719,-7.008895,5.472937,16418.460254,116.943442
std,14.291734,4.688018,48.548107,4.586799,10491.367686,79.448397
min,18.0,1.0,-50.0,0.0,1000.0,14.377142
25%,30.0,7.0,-40.0,1.0,8360.0,50.566406
50%,40.0,11.0,-30.0,4.0,14550.0,94.33033
75%,51.0,14.0,10.0,9.0,22550.0,171.372936
max,75.0,20.0,150.0,15.0,49995.0,297.38517


In [10]:
np.random.seed(28); df.sample(n = 60)

Unnamed: 0,YEAR,GENDER,TYPE,CATEGORY,OCCUPATION,AGE,POWER,BONUS,SENIORITY,VALUE,ALLRISK,REGION,DENSITY,SURV1
32106,2009,Male,A,Medium,Retired,60,9,-40,9,33355,1,R,291.31949,0
61530,2010,Male,A,Large,Self-employed,49,11,-20,4,20770,1,M,153.452322,0
14944,2009,Male,A,Medium,Employed,37,13,-50,2,38310,1,L,60.073002,0
61560,2010,Male,E,Large,Housewife,59,13,-50,3,4570,1,O,36.140747,0
6867,2009,Female,C,Small,Employed,31,19,10,10,10825,0,N,106.558304,0
37786,2010,Male,F,Large,Housewife,43,12,-30,0,7620,1,L,120.779372,0
8979,2009,Female,A,Large,Housewife,53,4,-30,5,32785,0,L,58.307557,0
54426,2010,Female,A,Medium,Employed,36,5,-30,12,12535,0,R,275.092341,0
54320,2010,Male,B,Small,Unemployed,45,13,90,10,20410,1,L,59.223868,0
55596,2010,Female,D,Medium,Self-employed,42,9,-40,0,19330,1,Q,201.391807,0


En analysant la base de données complet, la variable AGE est celle où l'on a pu observer des problèmes en particulier. Principalement car on pouvait la classer selon deux groupes, ceux ayant moins de 100 ans et ceux avec plus de 100 ans.
Pour les individus avec moins de 100 ans, l'âge maximal observer était de 75 ans tandis que pour ceux ayant plus de 100 ans, l'âge était du type (311,344,455...) ans, ce qui ressemble le plus à une erreur d'écriture ainsi donc, on a conserver que les deux premiers éléments de la valeur âge pour les individus ayant plus de 100 ans pour avoir une certaine cohérence.

Ensuite, sur la variable SURV1, on observait les modalités "yes" et "no" plutôt que "1" et "0" portant le nombre de modalités à 4 au lieu de 2. On a donc transformé ces valeurs gênante à leur valeur numérique correspondante.

Un pareil vas avec la variable GENDER où sur certains individus, "Male" et "Female" était réduit à "M" et "F", on les donc transformé aux valeurs correspondante pour ramener le nombre de modalités à 2.

A l'issue de ces deux manipulations, on est passé d'une base de données de 71279 observations à 71278 observations soit une suppression de 1 seul individu représentant moins de 0.0014% de l'effectif Total.

In [11]:
X,y = df.drop(columns = ["YEAR","SURV1"]),df["SURV1"]

In [12]:
X_train,X_test,y_train,y_test = train_test_split(X, y, test_size = 0.3, random_state = 42)

In [13]:
np.random.seed(28); print(y_train.sample(20)); print("-"*127); X_train.sample(20)

18337    0
22787    0
33170    1
52832    0
39151    0
19526    0
32167    0
32358    0
61997    0
43420    0
26881    1
66791    0
45019    0
3353     1
59650    1
63768    0
25377    0
337      0
53015    0
54564    1
Name: SURV1, dtype: object
-------------------------------------------------------------------------------------------------------------------------------


Unnamed: 0,GENDER,TYPE,CATEGORY,OCCUPATION,AGE,POWER,BONUS,SENIORITY,VALUE,ALLRISK,REGION,DENSITY
35953,Female,B,Large,Retired,63,18,-40,0,12995,1,N,139.606205
24725,Female,C,Large,Employed,24,12,40,11,15450,1,T,25.714011
57612,Female,A,Medium,Employed,22,11,30,2,11855,1,Q,147.969056
52917,Female,A,Medium,Unemployed,22,12,60,13,8905,0,L,91.550641
45615,Male,A,Large,Retired,56,3,-40,3,5745,1,M,139.283001
10283,Male,E,Small,Housewife,39,3,60,9,9705,0,Q,206.230276
33617,Female,D,Large,Self-employed,46,13,30,2,44765,1,P,37.837282
21352,Female,B,Small,Employed,26,10,-10,0,5895,0,R,275.282263
14464,Male,B,Small,Employed,31,10,-30,3,8805,1,P,33.260934
7432,Male,B,Medium,Unemployed,40,11,-40,12,21430,1,R,238.240414


In [14]:
np.random.seed(28); print(y_test.sample(20)); print("-"*127); X_test.sample(20)

2758     0
5770     0
39289    0
17764    0
71178    0
7875     0
68636    0
26018    1
43808    0
38810    0
56687    0
11583    0
36552    0
60320    0
430      0
16461    0
17662    0
12048    0
70307    1
4699     0
Name: SURV1, dtype: object
-------------------------------------------------------------------------------------------------------------------------------


Unnamed: 0,GENDER,TYPE,CATEGORY,OCCUPATION,AGE,POWER,BONUS,SENIORITY,VALUE,ALLRISK,REGION,DENSITY
58082,Female,A,Small,Self-employed,49,10,0,4,9110,1,M,184.478517
25116,Male,F,Large,Employed,53,20,80,1,35410,1,N,88.896231
1422,Male,B,Large,Unemployed,20,13,40,8,17815,0,L,69.728196
50915,Male,A,Large,Self-employed,19,13,0,1,1780,0,R,250.841326
17485,Male,B,Small,Housewife,35,15,110,0,14775,0,S,17.879958
11077,Male,A,Large,Self-employed,35,13,-50,13,24785,1,Q,169.788555
32426,Female,B,Small,Employed,27,8,80,4,21465,0,Q,208.666718
11451,Male,B,Large,Employed,51,15,-40,0,9440,0,T,28.964593
12680,Female,A,Small,Housewife,36,16,40,7,8455,1,T,25.714011
36922,Male,A,Small,Employed,28,19,30,9,5990,1,R,222.711392


### DEUXIEME PARTIE

Les données d'apprentissage qu'on appelé train sont composées de 49875 observations et 14 variables soit 70% des données de df contenant 71279 observations et 14 variables. Toutes les manipulations et mise en forme ont préalablement été faites sur df, train est donc prête à l'emploi.
df est une base de données d'une compagnie d'assurance pour les années 2009 et 2010. Les variables de train ont été décrite après le 4e chunk.
test représente les 30% de restant de df, ce sont les données qui vont nous permettre de juger de la qualité de notre modèle.