In [None]:
import numpy as np # manip des arrays (tableaux)
import pandas as pd # manip des dataframes
import matplotlib.pyplot as plt # construct des graphes : barplot, cammenberts
import seaborn as sns

# 1. Exploration des données

## 1.1. Importation des données de train et de test

In [None]:
# import train data
train_original_df = pd.read_csv("data_csv/train.csv")
train_original_df.head()
#train_original_df.describe()

In [None]:
# import test data
test_original_df = pd.read_csv("data_csv/test.csv")

In [None]:
# Affichage des premiers lignes
test_original_df.head()

In [None]:
# Affichage des dernieres lignes
test_original_df.tail()

In [None]:
# Description de nos données
test_original_df.describe()

## 1.2. Les statistiques des données (Repésentation graphique)

In [None]:
# La colonne 'Gender'
origin_train_gender_graph = train_original_df.groupby(['Gender'])['Gender'].count()
origin_test_gender_graph = test_original_df.groupby(['Gender'])['Gender'].count()
plt.subplot(121)
plt.tight_layout(w_pad=10.0)
origin_train_gender_graph.plot(kind = 'bar', rot=45, title="train Gender")
plt.subplot(122)
origin_test_gender_graph.plot(kind = 'bar', rot=45, title="test Gender")

In [None]:
# La colonne 'Vehicle_Age'
origin_train_vehicleAge_graph = train_original_df.groupby(['Vehicle_Age'])['Vehicle_Age'].count()
origin_test_vehicleAge_graph = test_original_df.groupby(['Vehicle_Age'])['Vehicle_Age'].count()
plt.subplot(121)
plt.tight_layout(w_pad=10.0)
origin_train_vehicleAge_graph.plot(kind = 'bar', rot=45, title="train Vehicle_Age")
plt.subplot(122)
origin_test_vehicleAge_graph.plot(kind = 'bar', rot=45, title="test Vehicle_Age")

# 2. Pre-Processing

## 2.1. Elimination des colonnes inutiles

In [None]:
 # eliminer la colonne 'id' du train_original_df
train_original_df = train_original_df.drop(['id'], axis=1)

In [None]:
# eliminer la colonne 'id' du test_original_df
test_original_df = test_original_df.drop(['id'], axis=1)

## 2.2. Vérification d'existance de valeurs null

In [None]:
# Vérifier si on a des valeur null dans train_original_df
train_original_df.isnull().sum() # retourne la somme des valeurs nulles dans chaque colonne du dataframe

In [None]:
# Vérifier si on a des valeur null dans test_original_df
test_original_df.isnull().sum() # retourne la somme des valeurs nulles dans chaque colonne du dataframe

## 2.3. Encoding (transformer les valeurs string en valeurs numériques)

In [None]:
train_encoded_df = train_original_df
test_encoded_df = test_original_df

In [None]:
from sklearn.preprocessing import LabelEncoder
def toEncodeData(df, colomn):
    le = LabelEncoder()
    le.fit(df[colomn]) # détecter les classes
    print(le.classes_) # afficher les classes sous forme d'une liste
    df[colomn] = le.transform(df[colomn]) # transformer les classes (toutes les valeurs string) en valeurs numériques

In [None]:
# Encoder la colonne 'Gender'
toEncodeData(train_encoded_df, 'Gender')
toEncodeData(test_encoded_df, 'Gender')

In [None]:
# Encoder la colonne 'Gender'
toEncodeData(train_encoded_df, 'Vehicle_Age')
toEncodeData(test_encoded_df, 'Vehicle_Age')

In [None]:
# Encoder la colonne 'Vehicle_Damage'
toEncodeData(train_encoded_df, 'Vehicle_Damage')
toEncodeData(test_encoded_df, 'Vehicle_Damage')

In [None]:
#train_encoded_df.head()
train_encoded_df.head()

# 3. Entraîner un model de classification

## 3.1. Choix de l'algorithme

In [None]:
from sklearn.neighbors import KNeighborsClassifier
# initialiser notre model
model = KNeighborsClassifier()

## 3.2. Préparation de tableau numpy x et y

In [None]:
""" pour entrainer un model, il faut qu'on aura 2 tableuax numpy,
    mais dans notre dataset on 'a q'un seul tableau pendas ==> donc on doit creer les 2 tableau numpy telque:
    Y: représente la colonne 'Response'
    X: représente le reste (toute les colonnes sauf 'Response') 
    *** X, Y ne sont pas des tableaux numpy, sont des dataframes, sachant que pendas est construit sur la base de numpy
        donc on passe ces 2 tableau à 'scikit-learn' et tous va bien se passé ***
"""

In [None]:
# préparer les tableau X et Y
y = train_encoded_df['Response']
X = train_encoded_df.drop('Response', axis=1).to_numpy() # eliminer la colonne 'Response'

## 3.3. Entraîner notre model

In [None]:
model.fit(X, y)

# 4. Évaluer la performance de notre model

In [None]:
model.score(X, y)

# 5. Prédiction

In [None]:
def interested(gender, age, driving_license, region_code, previously_insured, vehicle_age, vehicle_damage, annual_premium, policy_sales_channel, vintage):
    x_predict = np.array([
        gender, age, driving_license, region_code, previously_insured, vehicle_age, vehicle_damage, annual_premium, policy_sales_channel, vintage
    ]).reshape(1, 10)
    predictClass = model.predict(x_predict) # pédicri à quelle classe (intérissé ou non)
    probaPredict = model.predict_proba(x_predict) # la probabilité d'être intérissé ou non
    return (predictClass, probaPredict)

# 6. Tester le modèle

In [None]:
print(interested(1, 74, 1, 11.0, 1, 2, 1, 35786.0, 152.0, 53))