# 20_HES-SO-ARC_646-2.3 SCIENCE DES DONNÉES
## House Prices: Advanced Regression Techniques
##### Yanick Christe, Mathieu Stalder, Julien Weideli

En bref, le CRISP-DM est une méthodologie et un modèle de processus complet d'exploration de données qui fournit à tout le monde - des novices aux experts en exploration de données - un plan complet pour mener un projet d'exploration de données. CRISP-DM décompose le cycle de vie d'un projet d'exploration de données en six phases : compréhension de l'entreprise, compréhension des données, préparation des données, modélisation, évaluation et déploiement.

**Reference**
- Shearer, C. (2000). The CRISP-DM model: the new blueprint for data mining. *Journal of data warehousing*, 5(4), 13-22.

**Each phase of the process:**
1. [Business understanding](#Businessunderstanding)
    1. [Determine the Business Objectives](#BusinessObjectives)
    2. [Assess the Current Situation](#Assessthecurrentsituation)
        1. [Inventory of resources](#Inventory)
        2. [Requirements, assumptions and constraints](#Requirements)
        3. [Risks and contingencies](#Risks)
        4. [Terminology](#Terminology)
        5. [Costs and benefits](#CostBenefit)
    3. [What are the Desired Outputs](#Desiredoutputs)
    4. [What Questions Are We Trying to Answer?](#QA)
2. [Data Understanding](#Dataunderstanding)
    1. [Initial Data Report](#Datareport)
    2. [Describe Data](#Describedata)
    3. [Initial Data Exploration](#Exploredata) 
    4. [Verify Data Quality](#Verifydataquality)
        1. [Missing Data](#MissingData) 
        2. [Outliers](#Outliers) 
    5. [Data Quality Report](#Dataqualityreport)
3. [Data Preparation](#Datapreparation)
    1. [Select Your Data](#Selectyourdata)
    2. [Cleanse the Data](#Cleansethedata)
        1. [Label Encoding](#labelEncoding)
        2. [Drop Unnecessary Columns](#DropCols)
        3. [Altering Datatypes](#AlteringDatatypes)
        4. [Dealing With Zeros](#DealingZeros)
    3. [Construct Required Data](#Constructrequireddata)
    4. [Integrate Data](#Integratedata)
4. [Exploratory Data Analysis](#EDA)
5. [Modelling](#Modelling)
    1. [Modelling Technique](#ModellingTechnique)
    2. [Modelling Assumptions](#ModellingAssumptions)
    3. [Build Model](#BuildModel)
    4. [Assess Model](#AssessModel)
6. [Evaluation](#Evaluation)
    1. [Evaluate Results](#EvaluateResults)
    2. [Review Process](#ReviewProcess)
    3. [Determine Next Steps](#NextSteps)
7. [Deployment](#Deployment)
    1. [Plan Deployment](#PlanDeployment)
    2. [Plan Monitoring and Maintenance](#Monitoring)
    3. [Produce Final Report](#FinalReport)
    4. [Review Project](#ReviewProject)


# 1. Compréhension du métier  <a class="anchor" id="Businessunderstanding"></a>
Le domaine immobilier est très vaste, il comporte deux activités principale. La location de biens et la vente de biens, dans ce travail nous allons nous intéresser uniquement au côté des ventes. 

Certaines règles peuvent paraître logique si vous avez déjà fait la démarche d'acheter une maison. Il est possible de faire une liste d'éléments qui peuvent influencer le prix, par exemple une maison avec un jardin, peut-être plus cher qu'une maison ne disposant pas de jardin. D'autres aspects comme l'emplacement entre le centre d'une ville et la campagne, la proximité avec des magasins bus etc... , le nombre de chambres, la superficie peuvent influencer les prix. Mais est-ce vraiment le cas? Certains paramètres pèsent-ils plus dans la balance que d'autres?

## 1.1 Déterminer les objectifs métier <a class="anchor" id="BusinessObjectives"></a> 

L'objectif de ce travail est de déterminer se qui peut influencer le prix de biens immobiliers. Il est aussi possible d'établir une liste d'éléments qui n'influence absoluement pas le prix d'un bien afin de ne pas prendre en compte ces paramètres plus tard. Pour cela un dataset est fourni et permet en fonction de données de faire ressortir ces différentes informations

## 1.2 Evaluation de la situation actuelle <a class="anchor" id="Assessthecurrentsituation"></a>

Pour ce projet les données de bases viennent d'une compétition Kaggle "House Prices: Advanced Regression Techniques". Dans le chapitre suivant le dataset sera détaillé, mais afin d'établir une base, il est composé de paramètres qui peuvent potentiellement influencer le prix d'une maison. C'est une liste de différents biens immobiliers ainsi que des paramètres comme la superficie, si elle possède un jardin, combien de places de voiture il-y-a dans le garage etc. Comme ceci est un "exercice", le projet n'a pas de risques financier, en revanche notre note est un risque. 

### 1.2.1 Inventaire des resources <a class="anchor" id="Inventory"></a>
Ci-dessous la liste des ressources à disposition pour résoudre la problématique de ce projet
- Personnel: 3 étudiants (Mathieu Stalder, Julien Weideli, Yanick Christe)
- Data: Le dataset mis à disposition sur kaggle (House Prices)
- Software: Utilisation de Jupyter Notebook
- Langage : Nous utiliserons pour ce projet le Python en version 3
- Outils : Nous utiliserons la plateforme GIT pour le partage des différents documents
- Communication : Dans la situation actuelle, Teams est utilisé pour la communication avec l'équipe 

### 1.2.2 Requirements, assumptions and constraints <a class="anchor" id="Requirements"></a> 
- Requirements of the project including the schedule of completion
- Required comprehensibility and quality of results
- Data security concerns as well as any legal issues. 
- Assumptions made by the project. These may be assumptions about the data that can be verified during data mining, but may also include non-verifiable assumptions about the business related to the project. It is particularly important to list the latter if they will affect the validity of the results. 
- List the constraints on the project. 

### 1.2.3 Risks and contingencies <a class="anchor" id="Risks"></a>
- List the risks or events that might delay the project or cause it to fail. 
- what action will you take if these risks or events take place? 

### 1.2.4 Terminology <a class="anchor" id="Terminology"></a>
- A glossary of relevant business terminology
- A glossary of data mining terminology, illustrated with examples relevant to the business problem in question. 


### 1.2.5 Costs and benefits  <a class="anchor" id="CostBenefit"></a>
- Construct a cost-benefit analysis for the project which compares the costs of the project with the potential benefits to the business if it is successful. This comparison should be as specific as possible. For example, you should use financial measures in a commercial situation. 

 ## 1.3 What are the desired outputs of the project? <a class="anchor" id="Desiredoutputs"></a>


**Business success criteria**
- 
- 



**Data mining success criteria**
- 
- 


**Produce project plan**
- 
- 



 ## 1.4 What Questions Are We Trying To Answer? <a class="anchor" id="QA"></a>

- 
- 

# 2. Compréhension de données <a class="anchor" id="Dataunderstanding"></a>
La phase de compréhension des données commence par une première collecte de données. L'analyste procède ensuite à une meilleure connaissance des données, à l'identification des problèmes de qualité des données, à la découverte des premiers aperçus des données ou à la détection de sous-ensembles intéressants pour former des hypothèses sur les informations cachées. La phase de compréhension des données comporte quatre étapes, dont la collecte des données initiales, la description des données, l'exploration des données et la vérification de la qualité des données.

## 2.1 Rapport sur les données initiales <a class="anchor" id="Datareport"></a>
Rapport sur la collecte initiale de données - 
Énumérez les sources de données acquises avec leur localisation, les méthodes utilisées pour les acquérir et les problèmes éventuels rencontrés. Enregistrez les problèmes rencontrés et les solutions obtenues. Cela permettra de reproduire ce projet à l'avenir et d'exécuter des projets similaires à l'avenir.

In [15]:
# Import Libraries Required
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
import numpy as np
import seaborn as sns

In [16]:
#Data source: 
#Source Query location: 
path =  'train.csv'
# reads the data from the file - denotes as CSV, it has no header, sets column headers
df =  pd.read_csv(path, sep=',') 

## 2.2 Décrire les données <a class="anchor" id="Describedata"></a>
Rapport de description des données - Décrivez les données qui ont été acquises, y compris leur format, leur quantité (par exemple, le nombre d'enregistrements et de champs dans chaque tableau), l'identité des champs et toute autre caractéristique de surface qui a été découverte. Évaluez si les données acquises répondent à vos exigences.

In [17]:
df.columns

Index(['Id', 'MSSubClass', 'MSZoning', 'LotFrontage', 'LotArea', 'Street',
       'Alley', 'LotShape', 'LandContour', 'Utilities', 'LotConfig',
       'LandSlope', 'Neighborhood', 'Condition1', 'Condition2', 'BldgType',
       'HouseStyle', 'OverallQual', 'OverallCond', 'YearBuilt', 'YearRemodAdd',
       'RoofStyle', 'RoofMatl', 'Exterior1st', 'Exterior2nd', 'MasVnrType',
       'MasVnrArea', 'ExterQual', 'ExterCond', 'Foundation', 'BsmtQual',
       'BsmtCond', 'BsmtExposure', 'BsmtFinType1', 'BsmtFinSF1',
       'BsmtFinType2', 'BsmtFinSF2', 'BsmtUnfSF', 'TotalBsmtSF', 'Heating',
       'HeatingQC', 'CentralAir', 'Electrical', '1stFlrSF', '2ndFlrSF',
       'LowQualFinSF', 'GrLivArea', 'BsmtFullBath', 'BsmtHalfBath', 'FullBath',
       'HalfBath', 'BedroomAbvGr', 'KitchenAbvGr', 'KitchenQual',
       'TotRmsAbvGrd', 'Functional', 'Fireplaces', 'FireplaceQu', 'GarageType',
       'GarageYrBlt', 'GarageFinish', 'GarageCars', 'GarageArea', 'GarageQual',
       'GarageCond', 'PavedDrive

In [18]:
df.shape

(1460, 81)

In [19]:
df.dtypes

Id                 int64
MSSubClass         int64
MSZoning          object
LotFrontage      float64
LotArea            int64
                  ...   
MoSold             int64
YrSold             int64
SaleType          object
SaleCondition     object
SalePrice          int64
Length: 81, dtype: object

In [20]:
df.describe()

Unnamed: 0,Id,MSSubClass,LotFrontage,LotArea,OverallQual,OverallCond,YearBuilt,YearRemodAdd,MasVnrArea,BsmtFinSF1,...,WoodDeckSF,OpenPorchSF,EnclosedPorch,3SsnPorch,ScreenPorch,PoolArea,MiscVal,MoSold,YrSold,SalePrice
count,1460.0,1460.0,1201.0,1460.0,1460.0,1460.0,1460.0,1460.0,1452.0,1460.0,...,1460.0,1460.0,1460.0,1460.0,1460.0,1460.0,1460.0,1460.0,1460.0,1460.0
mean,730.5,56.89726,70.049958,10516.828082,6.099315,5.575342,1971.267808,1984.865753,103.685262,443.639726,...,94.244521,46.660274,21.95411,3.409589,15.060959,2.758904,43.489041,6.321918,2007.815753,180921.19589
std,421.610009,42.300571,24.284752,9981.264932,1.382997,1.112799,30.202904,20.645407,181.066207,456.098091,...,125.338794,66.256028,61.119149,29.317331,55.757415,40.177307,496.123024,2.703626,1.328095,79442.502883
min,1.0,20.0,21.0,1300.0,1.0,1.0,1872.0,1950.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,2006.0,34900.0
25%,365.75,20.0,59.0,7553.5,5.0,5.0,1954.0,1967.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,5.0,2007.0,129975.0
50%,730.5,50.0,69.0,9478.5,6.0,5.0,1973.0,1994.0,0.0,383.5,...,0.0,25.0,0.0,0.0,0.0,0.0,0.0,6.0,2008.0,163000.0
75%,1095.25,70.0,80.0,11601.5,7.0,6.0,2000.0,2004.0,166.0,712.25,...,168.0,68.0,0.0,0.0,0.0,0.0,0.0,8.0,2009.0,214000.0
max,1460.0,190.0,313.0,215245.0,10.0,9.0,2010.0,2010.0,1600.0,5644.0,...,857.0,547.0,552.0,508.0,480.0,738.0,15500.0,12.0,2010.0,755000.0


In [21]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1460 entries, 0 to 1459
Data columns (total 81 columns):
Id               1460 non-null int64
MSSubClass       1460 non-null int64
MSZoning         1460 non-null object
LotFrontage      1201 non-null float64
LotArea          1460 non-null int64
Street           1460 non-null object
Alley            91 non-null object
LotShape         1460 non-null object
LandContour      1460 non-null object
Utilities        1460 non-null object
LotConfig        1460 non-null object
LandSlope        1460 non-null object
Neighborhood     1460 non-null object
Condition1       1460 non-null object
Condition2       1460 non-null object
BldgType         1460 non-null object
HouseStyle       1460 non-null object
OverallQual      1460 non-null int64
OverallCond      1460 non-null int64
YearBuilt        1460 non-null int64
YearRemodAdd     1460 non-null int64
RoofStyle        1460 non-null object
RoofMatl         1460 non-null object
Exterior1st      1460 non-n

In [22]:
df.head(5)

Unnamed: 0,Id,MSSubClass,MSZoning,LotFrontage,LotArea,Street,Alley,LotShape,LandContour,Utilities,...,PoolArea,PoolQC,Fence,MiscFeature,MiscVal,MoSold,YrSold,SaleType,SaleCondition,SalePrice
0,1,60,RL,65.0,8450,Pave,,Reg,Lvl,AllPub,...,0,,,,0,2,2008,WD,Normal,208500
1,2,20,RL,80.0,9600,Pave,,Reg,Lvl,AllPub,...,0,,,,0,5,2007,WD,Normal,181500
2,3,60,RL,68.0,11250,Pave,,IR1,Lvl,AllPub,...,0,,,,0,9,2008,WD,Normal,223500
3,4,70,RL,60.0,9550,Pave,,IR1,Lvl,AllPub,...,0,,,,0,2,2006,WD,Abnorml,140000
4,5,60,RL,84.0,14260,Pave,,IR1,Lvl,AllPub,...,0,,,,0,12,2008,WD,Normal,250000


## 2.3 Vérifier la qualité des données <a class="anchor" id="Verifydataquality"></a>

Examiner la qualité des données, en abordant des questions telles que

- Les données sont-elles complètes (couvrent-elles tous les cas requis) ?
- Sont-elles correctes ou contiennent-elles des erreurs et, si elles existent, quelle est leur fréquence ?
- Y a-t-il des valeurs manquantes dans les données ? Dans l'affirmative, comment sont-elles représentées, où se trouvent-elles et dans quelle mesure sont-elles courantes ?

### 2.3.1 Données manquantes <a class="anchor" id="MissingData"></a>
En plus des types de données incorrects, un autre problème courant lors du traitement des données du monde réel est l'absence de valeurs. Celles-ci peuvent survenir pour de nombreuses raisons et doivent être soit remplies, soit supprimées avant que nous ne formions un modèle d'apprentissage machine. Tout d'abord, voyons combien de valeurs manquent dans chaque colonne 

Bien que nous voulions toujours faire attention à la suppression d'informations, si une colonne comporte un pourcentage élevé de valeurs manquantes, elle ne sera probablement pas utile à notre modèle. Le seuil de suppression des colonnes devrait dépendre du problème.

In [None]:
df.isnull().sum()

In [None]:
def missing_values_table(df):
        mis_val = df.isnull().sum()
        mis_val_percent = 100 * df.isnull().sum() / len(df)
        mis_val_table = pd.concat([mis_val, mis_val_percent], axis=1)
        mis_val_table_ren_columns = mis_val_table.rename(
        columns = {0 : 'Missing Values', 1 : '% of Total Values'})
        mis_val_table_ren_columns = mis_val_table_ren_columns[
            mis_val_table_ren_columns.iloc[:,1] != 0].sort_values(
        '% of Total Values', ascending=False).round(1)
        print ("Your selected dataframe has " + str(df.shape[1]) + " columns.\n"      
            "There are " + str(mis_val_table_ren_columns.shape[0]) +
              " columns that have missing values.")
        return mis_val_table_ren_columns

In [None]:
missing_values_table(df)

In [None]:
# Get the columns with > 50% missing
missing_df = missing_values_table(df);
missing_columns = list(missing_df[missing_df['% of Total Values'] > 50].index)
print('We will remove %d columns.' % len(missing_columns))

In [None]:
# Drop the columns
df = df.drop(list(missing_columns))

### 2.3.2 Valeurs aberrantes <a class="anchor" id="Outliers"></a>
À ce stade, nous pourrions également vouloir supprimer les valeurs aberrantes. Celles-ci peuvent être dues à des fautes de frappe dans la saisie des données, à des erreurs dans les unités ou à des valeurs légitimes mais extrêmes. Pour ce projet, nous supprimerons les anomalies en nous basant sur la définition des valeurs aberrantes extrêmes :

https://en.wikipedia.org/wiki/Outlier

- En dessous du premier quartile - 3 ∗ interquartile
- Au-dessus du troisième quartile + 3 ∗ intervalle interquartile

## 2.4 Exploration initiale des données  <a class="anchor" id="Exploredata"></a>
Au cours de cette étape, vous aborderez les questions d'exploration de données en utilisant des techniques d'interrogation, de visualisation des données et de rapport. Ces techniques peuvent comprendre :

- **Distribution** d'attributs clés (par exemple, l'attribut cible d'une tâche de prédiction)
- **Relations** entre paires ou petit nombre d'attributs
- Résultats des **agrégations simples**
- **Propriétés** de sous-populations importantes
- **Simple** analyses statistiques

Ces analyses peuvent répondre directement à vos objectifs d'exploration de données. Elles peuvent également contribuer ou affiner la description des données et les rapports de qualité, et alimenter la transformation et les autres étapes de préparation des données nécessaires à une analyse plus approfondie. 

- **Rapport d'exploration de données** - Décrivez les résultats de votre exploration de données, y compris les premiers résultats ou l'hypothèse initiale et leur impact sur le reste du projet. Le cas échéant, vous pouvez inclure des graphiques et des tracés ici pour indiquer les caractéristiques des données qui suggèrent un examen plus approfondi de sous-ensembles de données intéressants.

### 2.4.1 Distributions  <a class="anchor" id="Distributions"></a>

In [None]:
def count_values_table(df):
        count_val = df.value_counts()
        count_val_percent = 100 * df.value_counts() / len(df)
        count_val_table = pd.concat([count_val, count_val_percent.round(1)], axis=1)
        count_val_table_ren_columns = count_val_table.rename(
        columns = {0 : 'Count Values', 1 : '% of Total Values'})
        return count_val_table_ren_columns

In [None]:
# Histogram
def hist_chart(df, col):
        plt.style.use('fivethirtyeight')
        plt.hist(df[col].dropna(), edgecolor = 'k');
        plt.xlabel(col); plt.ylabel('Number of Entries'); 
        plt.title('Distribution of '+col);

In [None]:
col = 'account_risk_band'
# Histogram & Results
hist_chart(df, col)
count_values_table(df.account_risk_band)

### 2.4.2 Corrélations  <a class="anchor" id="Correlations"></a>
Pouvons-nous déduire une quelconque corrélation de cet ensemble de données. Le graphique en paires nous donne les corrélations, les distributions et le chemin de régression
Les corrélogrammes sont géniaux pour l'analyse exploratoire. Il permet d'observer rapidement la relation entre chaque variable de votre matrice. 
Il est facile de le faire avec Seaborn : il suffit d'appeler la fonction de couplage

Le taxi de la documentation sur les parcelles en couple se trouve ici : https://seaborn.pydata.org/generated/seaborn.pairplot.html

In [None]:
#Seaborn allows to make a correlogram or correlation matrix really easily. 
#sns.pairplot(df.dropna().drop(['x'], axis=1), hue='y', kind ='reg')

#plt.show()


In [None]:
#df_agg = df.drop(['x'], axis=1).groupby(['y']).sum()
df_agg = df.groupby(['y']).sum()

### 2.4.3 Différenciation
Plus précisément, une nouvelle série est construite où la valeur au pas de temps actuel est calculée comme la différence entre l'observation originale et l'observation au pas de temps précédent.
valeur(t) = observation(t) - observation(t-1)

In [None]:
df_dif_agg = df_agg

In [None]:
#Differencing
#Specifically, a new series is constructed where the value at the current time step is calculated 
#as the difference between the original observation and the observation at the previous time step.
#value(t) = observation(t) - observation(t-1)
df_dif = df_dif_agg.diff()

## 2.5 Rapport sur la qualité des données <a class="anchor" id="Dataqualityreport"></a>
Liste des résultats de la vérification de la qualité des données. Si des problèmes de qualité existent, proposez des solutions possibles. Les solutions aux problèmes de qualité des données dépendent généralement beaucoup des données et de la connaissance des entreprises.

# 3. Préparation des données <a class="anchor" id="Datapreparation"></a>
C'est l'étape du projet où vous décidez des données que vous allez utiliser pour l'analyse. Les critères que vous pourriez utiliser pour prendre cette décision doivent comprendre la pertinence des données par rapport à vos objectifs d'exploration de données, la qualité des données, ainsi que les contraintes techniques telles que les limites sur le volume ou les types de données. Notez que la sélection des données couvre la sélection des attributs (colonnes) ainsi que la sélection des enregistrements (lignes) dans un tableau.

## 3.1 Sélection des données <a class="anchor" id="Selectyourdata"></a>
C'est l'étape du projet où vous décidez des données que vous allez utiliser pour l'analyse. Les critères que vous pourriez utiliser pour prendre cette décision comprennent la pertinence des données par rapport à vos objectifs d'exploration de données, la qualité des données, ainsi que les contraintes techniques telles que les limites sur le volume ou les types de données. Notez que la sélection des données couvre la sélection des attributs (colonnes) ainsi que la sélection des enregistrements (lignes) dans un tableau.

Justification de l'inclusion/exclusion - Indiquez les données à inclure/exclure et les raisons de ces décisions.

In [None]:
X_train_regr = df.drop(['date_maint', 'account_open_date'], axis = 1)
X_train = df.drop(['target', 'date_maint', 'account_open_date'], axis = 1)
X_test = test.drop(['date_maint', 'account_open_date'], axis = 1)

## 3.2 Nettoyer les données <a class="anchor" id="Cleansethedata"></a>
Cette tâche consiste à élever la qualité des données au niveau requis par les techniques d'analyse que vous avez sélectionnées. Cela peut impliquer la sélection de sous-ensembles de données propres, l'insertion de valeurs par défaut appropriées, ou des techniques plus ambitieuses telles que l'estimation des données manquantes par modélisation.

### 3.2.1 Encodage des étiquettes <a class="anchor" id="labelEncoding"></a>
Encodage des étiquettes pour transformer les valeurs catégorielles en nombres entiers

Une approche de l'encodage des valeurs catégorielles consiste à utiliser une technique appelée encodage des étiquettes. L'encodage par étiquette consiste simplement à convertir chaque valeur d'une colonne en un nombre. Par exemple, la colonne body_style contient 5 valeurs différentes. Nous pourrions choisir de l'encoder de cette manière :

convertible -> 0
hardtop -> 1
hatchback -> 2
berline -> 3
wagon -> 4
http://pbpython.com/categorical-encoding.html

In [None]:
from sklearn.preprocessing import OneHotEncoder, LabelEncoder
for col in CAT_COLS:
        encoder = LabelEncoder()
        X_train[col] = encoder.fit_transform(X_train[col].astype(str))
        X_test[col] = encoder.transform(X_test[col].astype(str))

In [None]:
df["column"] = df["column"].astype('category')
df.dtypes

In [None]:
df["column"] = df["column"].cat.codes
df.head()

### 3.2.2 Suppression des Colonnes pas nécessaires <a class="anchor" id="DropCols"></a>
Parfois, nous n'avons pas besoin de certaines colonnes. Nous pouvons juste garder les données pertinentes.

In [None]:
del_col_list = ['col1', 'col2']

df = df.drop(del_col_list, axis=1)
df.head()

### 3.2.3 Modification des types de données <a class="anchor" id="AlteringDatatypes"></a>
Parfois, il peut être nécessaire de modifier les types de données. Y compris les types de données d'objets

In [None]:
#df['date'] = pd.to_datetime(df['date'])

### Faire face aux zéros <a class="anchor" id="DealingZeros"></a>
Remplacement de tous les zéros des cols. **Note** ajouter / supprimer selon les besoins

In [None]:
#cols = ['col1', 'col2']
#df[cols] = df[cols].replace(0, np.nan)

In [None]:
# dropping all the rows with na in the columns mentioned above in the list.

# df.dropna(subset=cols, inplace=True)


### 3.2.5 Faire face aux duplications <a class="anchor" id="DealingDuplicates"></a>
Supprimer les lignes en double. **Note** : ajouter / supprimer selon les besoins

In [None]:
#df = df.drop_duplicates(keep='first')

## 3.3 Construire les données requises   <a class="anchor" id="Constructrequireddata"></a>
Cette tâche comprend des opérations constructives de préparation des données, telles que la production d'attributs dérivés ou de nouveaux enregistrements entiers, ou de valeurs transformées pour des attributs existants.

**Attributs dérivés** - Il s'agit de nouveaux attributs qui sont construits à partir d'un ou plusieurs attributs existants dans le même enregistrement. Par exemple, vous pouvez utiliser les variables de longueur et de largeur pour calculer une nouvelle variable de surface.

**Enregistrements générés** - Vous décrivez ici la création de tout enregistrement complètement nouveau. Par exemple, vous pouvez avoir besoin de créer des enregistrements pour les clients qui n'ont fait aucun achat au cours de l'année écoulée. Il n'y a aucune raison d'avoir de tels enregistrements dans les données brutes, mais à des fins de modélisation, il peut être utile de représenter explicitement le fait que certains clients n'ont effectué aucun achat.


## 3.4 Integration des Données  <a class="anchor" id="Integratedata"></a>
Il s'agit de méthodes par lesquelles des informations sont combinées à partir de plusieurs bases de données, tables ou enregistrements pour créer de nouveaux enregistrements ou valeurs.

**Données fusionnées** - La fusion de tables fait référence à la réunion de deux ou plusieurs tables qui contiennent des informations différentes sur les mêmes objets. Par exemple, une chaîne de vente au détail peut avoir un tableau contenant des informations sur les caractéristiques générales de chaque magasin (par exemple, la superficie, le type de centre commercial), un autre tableau contenant des données résumées sur les ventes (par exemple, le bénéfice, le pourcentage de variation des ventes par rapport à l'année précédente), et un autre contenant des informations sur la démographie de la région environnante. Chacun de ces tableaux contient un enregistrement pour chaque magasin. Ces tableaux peuvent être fusionnés en un nouveau tableau contenant un enregistrement pour chaque magasin, en combinant les champs des tableaux sources.

**Aggrégations** - Les agrégations font référence aux opérations dans lesquelles de nouvelles valeurs sont calculées en résumant les informations de plusieurs enregistrements et/ou tables. Par exemple, la conversion d'une table d'achats de clients où il y a un enregistrement pour chaque achat en une nouvelle table où il y a un enregistrement pour chaque client, avec des champs tels que le nombre d'achats, le montant moyen des achats, le pourcentage de commandes facturées par carte de crédit, le pourcentage d'articles en promotion, etc.


### Construire notre premier Data Set
Join data 

# 4. Exploratory Data Analysis <a class="anchor" id="EDA"></a>

Now that the dataset has been prepared, you'll need to analyze it and summarize it's main characteristics, often with visual methods. A statistical model can be used or not, but primarily EDA is for seeing what the data can tell us beyond the formal modeling or hypothesis testing task. 

# 5. Modelling <a class="anchor" id="Modelling"></a>
As the first step in modelling, you'll select the actual modelling technique that you'll be using. Although you may have already selected a tool during the business understanding phase, at this stage you'll be selecting the specific modelling technique e.g. decision-tree building with C5.0, or neural network generation with back propagation. If multiple techniques are applied, perform this task separately for each technique.

## 5.1. Modelling technique <a class="anchor" id="ModellingTechnique"></a>
Document the actual modelling technique that is to be used.

Import Models below:

## 5.2 Modelling assumptions <a class="anchor" id="ModellingAssumptions"></a>
Many modelling techniques make specific assumptions about the data, for example that all attributes have uniform distributions, no missing values allowed, class attribute must be symbolic etc. Record any assumptions made.

- 
- 


## 5.3 Build Model <a class="anchor" id="BuildModel"></a>
Run the modelling tool on the prepared dataset to create one or more models.

**Parameter settings** - With any modelling tool there are often a large number of parameters that can be adjusted. List the parameters and their chosen values, along with the rationale for the choice of parameter settings.

**Models** - These are the actual models produced by the modelling tool, not a report on the models.

**Model descriptions** - Describe the resulting models, report on the interpretation of the models and document any difficulties encountered with their meanings.

## 5.4 Assess Model <a class="anchor" id="AssessModel"></a>
Interpret the models according to your domain knowledge, your data mining success criteria and your desired test design. Judge the success of the application of modelling and discovery techniques technically, then contact business analysts and domain experts later in order to discuss the data mining results in the business context. This task only considers models, whereas the evaluation phase also takes into account all other results that were produced in the course of the project.

At this stage you should rank the models and assess them according to the evaluation criteria. You should take the business objectives and business success criteria into account as far as you can here. In most data mining projects a single technique is applied more than once and data mining results are generated with several different techniques. 

**Model assessment** - Summarise the results of this task, list the qualities of your generated models (e.g.in terms of accuracy) and rank their quality in relation to each other.

**Revised parameter settings** - According to the model assessment, revise parameter settings and tune them for the next modelling run. Iterate model building and assessment until you strongly believe that you have found the best model(s). Document all such revisions and assessments.

# 6. Evaluation <a class="anchor" id="Evaluation"></a>

Before proceeding to final deployment of the model built by the data analyst, it is important to more thoroughly evaluate the model and review the model’s construction to be certain it properly achieves the business objectives. Here it is critical to determine if some important business issue has not been sufficiently considered. At the end of this phase, the project leader then should decide exactly how to use the data mining results. The key steps here are the evaluation of results, the process review, and the determination of next steps.

## 6.1 Evaluate Results <a class="anchor" id="EvaluateResults"></a>

Previous evaluation steps dealt with factors such as the accuracy and generality of the model. This step assesses the degree to which the model meets the business objectives and determines if there is some business reason why this model is deficient. Another option here is to test the model(s) on real-world applications—if time and budget constraints permit. Moreover, evaluation also seeks to unveil additional challenges, information, or hints for future directions.

At this stage, the data analyst summarizes the assessment results in terms of business success criteria, including a final statement about whether the project already meets the initial
business objectives.

## 6.2 Review Process <a class="anchor" id="ReviewProcess"></a>

It is now appropriate to do a more thorough review of the data mining engagement to determine if there is any important factor or task that has somehow been overlooked. This review also covers quality assurance issues (e.g., did we correctly build the model? Did we only use allowable attributes that are available for future deployment?).

## 6.3 Determine Next Steps <a class="anchor" id="NextSteps"></a>

At this stage, the project leader must decide whether to finish this project and move on to deployment or whether to initiate further iterations or set up new data mining projects.

# 7. Deployment  <a class="anchor" id="Deployment"></a>

Model creation is generally not the end of the project. The knowledge gained must be organized and presented in a way that the customer can use it, which often involves applying “live” models within an organization’s decision-making processes, such as the real-time personalization of Web pages or repeated scoring of marketing databases.

Depending on the requirements, the deployment phase can be as simple as generating a report or as complex as implementing a repeatable data mining process across the enterprise. Even though it is often the customer, not the data analyst, who carries out the deployment steps, it is important for the customer to understand up front what actions must be taken in order to actually make use of the created models. The key steps here are plan deployment, plan monitoring and maintenance, the production of the final report, and review of the project.

## 7.1 Plan Deployment <a class="anchor" id="PlanDeployment"></a>

In order to deploy the data mining result(s) into the business, this task takes the evaluation results and develops a strategy for deployment.

## 7.2 Plan Monitoring and Maintenance <a class="anchor" id="Monitoring"></a>
Monitoring and maintenance are important issues if the data mining result is to become part of the day-to-day business and its environment. A carefully prepared maintenance strategy avoids incorrect usage of data mining results.

## 7.3 Produce Final Report <a class="anchor" id="FinalReport"></a>
At the end of the project, the project leader and his or her team write up a final report. Depending on the deployment plan, this report may be only a summary of the project and its experiences (if they have not already been documented as an ongoing activity) or it may be a final and comprehensive presentation of the data mining result(s). This report includes all of the previous deliverables and summarizes and organizes the results. Also, there often will be a meeting at the conclusion of the project, where the results are verbally presented to the customer.

## 7.4 Review Project <a class="anchor" id="ReviewProject"></a>
The data analyst should assess failures and successes as well as potential areas of improvement for use in future projects. This step should include a summary of important experiences during the project and can include interviews with the significant project participants. This document could include pitfalls, misleading approaches, or hints for selecting the best-suited data mining techniques in similar situations. In ideal projects, experience documentation also covers any reports written by individual project members during the project phases and tasks.