# Machine Learning with Python

## Exemple : Location de vélos

#### **Overview**

Bike sharing systems are a means of renting bicycles where the process of obtaining membership, rental, and bike return is automated via a network of kiosk locations throughout a city. Using these systems, people are able rent a bike from a one location and return it to a different place on an as-needed basis. Currently, there are over 500 bike-sharing programs around the world.

#### **Data Fields**

* **datetime** : hourly date + timestamp  
* **season** : 1 = spring, 2 = summer, 3 = fall, 4 = winter 
* **holiday** : whether the day is considered a holiday
* **workingday** : whether the day is neither a weekend nor holiday
* **weather** : 
    * 1: Clear, Few clouds, Partly cloudy, Partly cloudy
    * 2: Mist + Cloudy, Mist + Broken clouds, Mist + Few clouds, Mist
    * 3: Light Snow, Light Rain + Thunderstorm + Scattered clouds, Light Rain + Scattered clouds
    * 4: Heavy Rain + Ice Pallets + Thunderstorm + Mist, Snow + Fog 
* **temp** : temperature in Celsius
* **atemp** : "feels like" temperature in Celsius
* **humidity** : relative humidity
* **windspeed** : wind speed
* **casual** : number of non-registered user rentals initiated
* **registered** : number of registered user rentals initiated
* **count** : number of total rentals (Dependent Variable)

In [1]:
import pylab
import calendar
import numpy as np
import pandas as pd
import seaborn as sn
from scipy import stats
from datetime import datetime
import matplotlib.pyplot as plt
import warnings
pd.options.mode.chained_assignment = None
warnings.filterwarnings("ignore", category=DeprecationWarning)
%matplotlib inline

### Déroulé des questions : 

**Partie 1 exploration et visualisation des données**
1. Lire le dataset vlib.csv et décrire rapidement le dataset (nombre de ligne, colonne, types des variables)
2. Etudier les types des données, peux-t-on trouver un schéma de donner plus judicieux 
3. Etudier la variable datetime, quelles features peut-t-on créer/extraire avec cette variable ? Créer ces variables
4. Changer la structure des données pour que les variables qui sont catégorielles soient considérés comme tels
5. Catégoriser les outliers de la population du label ==> Proposer un petit script pour retirer les outliers de la population (hors de la limite [-3*std , + 3* std]. Combien d'outliers à-t-on filtré ?
6. Etudier les corrélations entre les différentes variables grâce à la fonction, Quelles variables sont très corrélées ? Visualiser ces corrélations grâce à la fonction heatmap de seaborn.
7. Visualisation des données : Peut-on visualiser la distribution du nombre de vélos loués par jour en fonction de l'heure de la journée, quels sont les pics ? Vérifier que les gens louent plus de vélos en été.

Bonus : Quelle est la différence au niveau des distributions de registered et de casual ?

Indice sur amélioration : La colonne windspeed ? Quels remarque pouvons nous faire ? Quelle technique pouvons nous employer pour corriger les données ? 

** Partie 2 modélisation**

1. Verifier votre dataset et si besoin, créer de nouvelles features, verifier leur type et supprimer les variables inutiles. 
2. Randomiser les données et séparer le jeu de données. Verifier la taille de vos 2 sous ensembles train / test.
3. Tester un premier modèle simple : la régression linéaire. Choisissez votre metrique et analyser les résultats. Faire un graphe. **BONUS** : Utiliser la librarie statsmodels et afficher un summary de la régression.
4. Choisir les modèles à tester. Effectuer un GridSearch et une cross-validation (avec K=5) pour chacun des modèles choisi. Afficher les meilleurs paramètres pour chacun des modèles ainsi que les résultats sur le sous ensemble train. 
5. Conclure. Identifier le meilleur modèle et ré-entrainer le modèle avec ses paramètres optimaux. Afficher les résultats sur le sous ensemble de test.

## Partie 1 : Visualisation et feature engineering

This notebook explains how we can go about explore and prepare data for model building.The notebook is structured in the following way 

 - About Dataset
 - Data Summary
 - Feature Engineering
 - Missing Value Analysis
 - Outlier Analysis
 - Correlation Analysis
 - Visualizing Distribution Of Data
 - Visualizing Count Vs (Month,Season,Hour,Weekday,Usertype)
 - Filling 0's In Windspeed Using Random Forest
 - Linear Regression Model
 - Regularization Models
 - Ensemble Models

### Question 1
Lire le dataset vlib.csv et décrire rapidement le dataset (nombre de ligne, colonne, types des variables)

### Question 2 :
Etudier les types des données, peux-t-on trouver un schéma de donner plus judicieux ? Si oui transformer le dataset en prenant en compte les nouveaux types de features.

### Question 3 :
Etudier la variable datetime, quelles features peut-t-on créer/extraire avec cette variable ? Créer ces variables

### Question 4 :
Transformer les variables qui devraient être catégorielles en variables catégorielles en utilisations pandas

### Question 5
Catégoriser les outliers de la population du label ==> 
Proposer un petit script pour visualiser les outliers sur la variable count.
Proposer une méthode pour filtrer ces données anormales (Par exemple en utilisant la variance de la distribution). Combien d'outliers à-t-on filtré ?

### Question 6
Etudier les corrélations entre les différentes variables grâce à la fonction, Quelles variables sont très corrélées ? Visualiser ces corrélations grâce à la fonction heatmap de seaborn.

### Question 7 et bonus


## Partie 2 : Modélisation

### Question 1 
Verifier votre dataset et si besoin, créer de nouvelles features, verifier leur type et supprimer les variables inutiles.

### Question 2 
Randomiser les données et séparer le jeu de données. Verifier la taille de vos 2 sous ensembles train / test.

### Question 3
Tester un premier modèle simple : la régression linéaire. 
Choisissez votre metrique et analyser les résultats. Faire un graphe. 

**BONUS** : Utiliser la librarie statsmodels et afficher un summary de la régression.

### Question 4 : Sélection de modèle
Choisir les modèles à tester. 
Effectuer un GridSearch et une cross-validation (avec K=5) pour chacun des modèles choisi.

Afficher les meilleurs paramètres pour chacun des modèles ainsi que les résultats sur le sous ensemble train. 

** Cross-Validation for Linear Regression **

** GridSearch for Ridge Regression **

** GridSearch for Lasso Regression **

** GridSearch for Random Forest **

** GridSearch for Gradient Boosting **

### Question 5 : Conclusion
Identifier le meilleur modèle et ré-entrainer le modèle avec ses paramètres optimaux. 

Afficher les résultats sur le sous ensemble de test.