![vlille](img/vlille.png "vlille")

Contexte du projet

VéLille est une société de bicyclettes en libre service dans la région lilloise

La société lance un appel d'offres afin de développer un outil de prédiction du nombre d’utilisateurs de ses vélos en fonction des données météorologiques.

Data scientist dans l’entreprise SimplonIA, vous êtes chargé de répondre à cet appel d’offre en développant un outil pour effectuer des prédictions

Vous devrez donc entraîner un algorithme de machine learning qui pourra permettre de prédire avec un taux d’erreur minimale le nombre d’utilisateurs par jour. Une fois que vous aurez atteint un taux de précision acceptable vous devrez déployer une application afin d’effectuer des prédictions en fonction de différentes variables.

Attention au feature engineering, les modifications que vous effectuerez sur le jeu de données d’entraînement (création de nouvelles variables, réduction de dimensions) devront être effectuées également lors de la prédiction.

Les outils:

- Utiliser Streamlit ou flask pour développer l’application. (un modèle de streamlit est fourni en lien, il peut être pris ainsi ou amélioré)
- Créer un pickle et s’en servir dans une application
- Vous avez la possibilité d’utiliser l’algorithme de régression de votre choix (vous pouvez éventuellement vous servir de pycaret pour explorer les pistes les plus prometteuses).
- Déployer votre application avec heroku
- Collaborer avec github (pensez à utiliser un workflow adapté, comme des branchs basé sur des features) et MLFlow pour tracker la performance de vos algorithmes
- Indications pour les tâches de machine learning:

- Vous devez prédire la variable "count" du jeu de "train" de Kaggle.
- Vous diviserez ce jeu train en deux. Les données de janvier 2011 à aout 2012 vous servirons de base d'entrainement quand les données de septembre 2012 à décembre 2012 constituerons votre base de test.
- Vous choisirez la métrique de régression qui vous semble la plus pertinente d'utilisation.
- Le loueur veut faire un forfait en fonction de la météo pour encourager à faire du vélo quand la météo est moins bonne. Il voudrait savoir combien de forfaits faudrait-il proposer? Réaliser un clustering pour répondre à sa question.

Bonus

- utiliser MLflow déployé sur Azure pour suivre les performances
- Plutôt que d’utiliser un pickle, déployer votre modèle sous forme API (mlflow, pycaret ou autre) et appelez là dans votre application.

Développer un outil pour effectuer des prédictions en collab sur github
⇒ Objectifs : 
- 1/ Data analyse (nettoyage et analyse univariée et bivariée)
- 2/ Division de ‘train’ ⇒ Entrainement : 01/2011 à 08/2012    Test : 09/2012 à 12/2012 
- 3/ Choix de la metrique de regression
- 4/ Utilisation de pycaret avant ou apres?
- 5/ Choix des feature engeneering (creation de nouvelles variables, reduction de dimensions)
- 6/ Entrainement du model 
- 7/ Predire la variable count du jeu de train.csv
- 8/ Mettre les differentes versions en commun
- 9/ Création d’un pickle
- 10/ Developper l’application via Streamlit
- 11/ Déployer l’ application avec heroku
- 12/ Réaliser un clustering pour répondre à la question combien de forfaits faudrait-il proposer?(Le loueur veut faire un forfait en fonction de la météo pour encourager à faire du vélo quand la météo est moins bonne.)

Si le temps nous le permet ⇒

- 13/ Bonus ⇒  Déployer le modèle sous forme API (mlflow, pycaret ou autre) et appelez là dans l’application
- 14/ Bonus ⇒ Développer l’application via flask/ django
- 15/ Bonus ⇒ Déployer l’ application avec heroku

In [82]:
import pandas as pd


In [83]:
df = pd.read_csv("/home/michelle/Documents/DEV_IA/Projet/Brief_machine_learning_Vlille_210322/data/train.csv")

In [84]:
df.sample(5)

Unnamed: 0,datetime,season,holiday,workingday,weather,temp,atemp,humidity,windspeed,casual,registered,count
1681,2011-04-15 23:00:00,2,1,0,2,14.76,17.425,81,12.998,8,56,64
1518,2011-04-09 03:00:00,2,0,0,3,12.3,14.395,100,16.9979,3,11,14
8956,2012-08-15 13:00:00,3,0,1,2,31.98,35.605,49,12.998,88,206,294
5894,2012-02-01 19:00:00,1,0,1,1,22.14,25.76,52,19.0012,20,315,335
1073,2011-03-09 06:00:00,1,0,1,2,9.84,12.88,85,7.0015,5,44,49


# 1/ Data analyse 
- a/ Nettoyage 
- b/ Analyse univariée et bivariée

In [85]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10886 entries, 0 to 10885
Data columns (total 12 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   datetime    10886 non-null  object 
 1   season      10886 non-null  int64  
 2   holiday     10886 non-null  int64  
 3   workingday  10886 non-null  int64  
 4   weather     10886 non-null  int64  
 5   temp        10886 non-null  float64
 6   atemp       10886 non-null  float64
 7   humidity    10886 non-null  int64  
 8   windspeed   10886 non-null  float64
 9   casual      10886 non-null  int64  
 10  registered  10886 non-null  int64  
 11  count       10886 non-null  int64  
dtypes: float64(3), int64(8), object(1)
memory usage: 1020.7+ KB


## a/ Nettoyage

In [86]:
# Traitement des types 

df["datetime"]= df["datetime"].astype("datetime64")

In [87]:
# Traitement des valeurs nuls

df.isna().sum()

datetime      0
season        0
holiday       0
workingday    0
weather       0
temp          0
atemp         0
humidity      0
windspeed     0
casual        0
registered    0
count         0
dtype: int64

In [88]:
# Fonction qui determine si la valeur en parametre est manquante

def num_missing(x):
    return sum(x.isnull())

# Application sur chaque cols

print("Valeurs manquantes par colonne:")
print(df.apply(num_missing, axis=0))

# Application sur chaque rows

print("\n Valeurs manquantes par ligne:")
print(df.apply(num_missing, axis=1).head())

Valeurs manquantes par colonne:
datetime      0
season        0
holiday       0
workingday    0
weather       0
temp          0
atemp         0
humidity      0
windspeed     0
casual        0
registered    0
count         0
dtype: int64

 Valeurs manquantes par ligne:
0    0
1    0
2    0
3    0
4    0
dtype: int64


In [89]:
# Traitements des duplicats

df.duplicated().sum()

0

In [90]:
df["datetime"].duplicated().sum()

0

## b/ Analyse univariée et bivariée

- Analyse univariée

In [91]:
# Mesure de tendance centrale (moy, med, mode)

df.describe()

Unnamed: 0,season,holiday,workingday,weather,temp,atemp,humidity,windspeed,casual,registered,count
count,10886.0,10886.0,10886.0,10886.0,10886.0,10886.0,10886.0,10886.0,10886.0,10886.0,10886.0
mean,2.506614,0.028569,0.680875,1.418427,20.23086,23.655084,61.88646,12.799395,36.021955,155.552177,191.574132
std,1.116174,0.166599,0.466159,0.633839,7.79159,8.474601,19.245033,8.164537,49.960477,151.039033,181.144454
min,1.0,0.0,0.0,1.0,0.82,0.76,0.0,0.0,0.0,0.0,1.0
25%,2.0,0.0,0.0,1.0,13.94,16.665,47.0,7.0015,4.0,36.0,42.0
50%,3.0,0.0,1.0,1.0,20.5,24.24,62.0,12.998,17.0,118.0,145.0
75%,4.0,0.0,1.0,2.0,26.24,31.06,77.0,16.9979,49.0,222.0,284.0
max,4.0,1.0,1.0,4.0,41.0,45.455,100.0,56.9969,367.0,886.0,977.0


In [113]:
df.mode().head(1)

Unnamed: 0,datetime,season,holiday,workingday,weather,temp,atemp,humidity,windspeed,casual,registered,count
0,2011-01-01,4.0,0.0,1.0,1.0,14.76,31.06,88.0,0.0,0.0,3.0,5.0


## 2/ Division de ‘train’ ⇒ 
- Entrainement : 01/2011 à 08/2012 
- Test : 09/2012 à 12/2012

# Recherche de datetime == 08/2012

print (df.loc[df['datetime'].str.contains('2012-08')])

In [108]:
#Split a dataframe based on a date in a datetime column

df_train = df.loc[df['datetime'] <= '2012-08-19 23:00:00']
df_test = df.loc[df['datetime'] >= '2012-09']

In [114]:
from sklearn.model_selection import train_test_split

X = df_train.drop(columns=['count'])
y = df_train['count']

#X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state = 3)