-----------------------------------------


# Analyses des ventes de l'Entreprise Leasing_Car

In [3]:
#Import des principales librairies Python
import pandas as pd
import seaborn as sns
import datetime as dt

import numpy as np 
import matplotlib as plt
import matplotlib.pyplot as plt

In [8]:
#Chargement du dataset 'test_data_location_voiture.csv'
data = pd.read_csv('data_loca_voit.csv')
data.head(40)

Unnamed: 0,DATE,Num-CDE,CLIENT_ID,SEX,BIRTH,ID_PROD,PRICE_mensuel,Durée total,CATEG
0,2017-01-12,602709,80033,F,1989,274745,19348,49,0
1,2020-10-15,750103,175333,M,1961,194675,23242,31,0
2,2020-10-14,752849,140344,M,1979,165540,42217,31,0
3,2020-10-14,762646,165402,M,1965,192734,42333,31,0
4,2020-10-14,766855,207795,M,1965,277795,23619,43,0
5,2020-10-14,749531,137352,M,1960,192994,35124,43,0
6,2020-10-14,752966,176284,M,1969,15171,35269,31,0
7,2020-10-13,753517,151590,M,1973,126927,4653,31,0
8,2020-10-13,762947,140344,M,1963,194695,32171,43,0
9,2020-10-13,766274,152955,M,1981,194695,23951,43,0


# Nettoyage des données

## Analyse des données manquantes

In [9]:
# Dénombrement des valeurs manquantes
data.isna().sum()

DATE             0
Num-CDE          0
CLIENT_ID        0
SEX              0
BIRTH            0
ID_PROD          0
PRICE_mensuel    0
 Durée total     0
CATEG            0
dtype: int64

Le fichier ne présente pas de données manquantes

## Analyse des données dupliquées

In [10]:
data.duplicated()

0       False
1       False
2       False
3       False
4       False
        ...  
6937    False
6938    False
6939    False
6940    False
6941    False
Length: 6942, dtype: bool

In [11]:
#taille
data.shape

(6942, 9)

## Analyse des types

In [12]:
print(data.dtypes)

DATE             object
Num-CDE           int64
CLIENT_ID         int64
SEX              object
BIRTH             int64
ID_PROD           int64
PRICE_mensuel    object
 Durée total      int64
CATEG             int64
dtype: object


On remarque que toutes les variables sont considérées comme des objets. On peut transformer la variable 'date' en type 'datetime'.

La variable 'sex' apparaît comme un objet, il peut être plus intéressant de changer ce type en variable catégorielle.

In [13]:
# system libraries
import warnings
warnings.filterwarnings('ignore')
warnings.simplefilter(action='ignore', category=FutureWarning)

data['DATE'] = pd.to_datetime(data['DATE'])


In [14]:
data['SEX'] = data['SEX'].astype('category')

In [15]:
print(data.dtypes)

DATE             datetime64[ns]
Num-CDE                   int64
CLIENT_ID                 int64
SEX                    category
BIRTH                     int64
ID_PROD                   int64
PRICE_mensuel            object
 Durée total              int64
CATEG                     int64
dtype: object


In [16]:
#Il serait plus intéressant de modifier le type de la colonne 'categ' en une valeur catégorielle.
data['CATEG'] = data['CATEG'].astype('category')
data.dtypes

DATE             datetime64[ns]
Num-CDE                   int64
CLIENT_ID                 int64
SEX                    category
BIRTH                     int64
ID_PROD                   int64
PRICE_mensuel            object
 Durée total              int64
CATEG                  category
dtype: object

In [17]:
#Une fois cette transformation faite, il est plus simple d'organiser les données par ordre chronologique.
data = data.sort_values('DATE')
data = data.set_index('DATE')
print(data.head())

            Num-CDE  CLIENT_ID SEX  BIRTH  ID_PROD PRICE_mensuel  \
DATE                                                               
2017-01-12   602709      80033   F   1989   274745        193,48   
2017-03-12   600938     135383   M   1968   290426        553,92   
2017-03-12   607529     162349   F   1970   216952        229,21   
2017-03-12   603512      80033   M   1984   290425        260,06   
2017-03-12   602701      80033   F   1983   274745        184,65   

             Durée total CATEG  
DATE                            
2017-01-12            49     0  
2017-03-12            28     0  
2017-03-12            35     0  
2017-03-12            22     0  
2017-03-12            49     0  


In [18]:
#On peut ainsi classer les produits par ordre de catégorie.
data= data.sort_values('CATEG')
print(data)

            Num-CDE  CLIENT_ID SEX  BIRTH  ID_PROD PRICE_mensuel  \
DATE                                                               
2017-01-12   602709      80033   F   1989   274745        193,48   
2020-10-15   755279     155250   F   1978    14531         405,4   
2020-10-14   752849     140344   M   1979   165540        422,17   
2020-10-14   762646     165402   M   1965   192734        423,33   
2020-10-14   766855     207795   M   1965   277795        236,19   
...             ...        ...  ..    ...      ...           ...   
2020-08-11   751324     151590   M   1966    84897        421,37   
2019-02-20   667025     151590   M   1967   229303        475,56   
2021-04-03   770234     151590   M   1971    86124         806,4   
2020-05-21   702311     156075   F   1989   294521        782,85   
2019-07-05   694771     169344   F   1982   275708        386,25   

             Durée total CATEG  
DATE                            
2017-01-12            49     0  
2020-10-15      

In [19]:
# Reset les index pour pas les dupliquer et rename_axis pour éviter que les noms de colonnes soient au dessus des autres.
data.rename_axis(None,axis=1)
data.reset_index(inplace= True)
data.head()

Unnamed: 0,DATE,Num-CDE,CLIENT_ID,SEX,BIRTH,ID_PROD,PRICE_mensuel,Durée total,CATEG
0,2017-01-12,602709,80033,F,1989,274745,19348,49,0
1,2020-10-15,755279,155250,F,1978,14531,4054,31,0
2,2020-10-14,752849,140344,M,1979,165540,42217,31,0
3,2020-10-14,762646,165402,M,1965,192734,42333,31,0
4,2020-10-14,766855,207795,M,1965,277795,23619,43,0


# Enregistrements de fichiers nettoyé

In [20]:
#Une fois le nettoyage des fichiers terminés, on les enregistre en nouveau fichier csv pour l'étape d'analyse qui suit cette partie
data.to_csv("data_loca_voit.csv",index = False)