# Partie 1: Compréhension du métier (Business Understanding)


### 1.1 Description du métier
Le dataset représente un système de location de vélos à Washington D.C., où les utilisateurs peuvent louer et rendre des vélos à différents points. Des facteurs environnementaux et contextuels comme la saison, la météo, et les jours fériés influencent le comportement de location.

### 1.2 Problématique
Prédire le nombre de vélos loués en fonction des conditions environnementales et calendaires.

### 1.3 Objectifs métier et objectifs de science des données

| **Business Objective (BO)** | **Data Science Objective (DSO)** |
|-----------------------------|----------------------------------|
| BO1: Optimiser la gestion des vélos disponibles en prévoyant les périodes de forte demande. | DSO1: Utiliser les variables environnementales pour prédire le nombre de locations de vélos par heure. |
| BO2: Planifier la maintenance en fonction de la demande. | DSO2: Identifier les périodes à forte utilisation en fonction des conditions météorologiques pour ajuster les opérations de maintenance. |
| BO3: Analyser l'impact des facteurs environnementaux sur la location. | DSO3: Modéliser la relation entre les variables météorologiques (température, humidité, etc.) et le nombre de locations pour comprendre leur influence. |


# Partie 2: Compréhension des données (Data Understanding)


## 2.1 Importer les données


In [21]:
%pip install pandas
import pandas as pd

data = pd.read_csv('datahour.csv') 


Note: you may need to restart the kernel to use updated packages.


## 2.2 Description des Variables du Dataset Bike Sharing



| **Nom de la variable** | **Description** |
|------------------------|-----------------|
| **Instant**            | Identificateur unique pour chaque enregistrement. |
| **dteday**             | Date précise de la location des vélos. |
| **season**             | Saison de l'année, codée de 1 à 4 (1: printemps, 2: été, 3: automne, 4: hiver). |
| **yr**                 | Année (0 pour 2011, 1 pour 2012). |
| **mnth**               | Mois de l'année (1 à 12). |
| **hr**                 | Heure de la journée (0 à 23). |
| **holiday**            | Indique si le jour est un jour férié (0 : non, 1 : oui). |
| **weekday**            | Jour de la semaine (0 pour dimanche, 6 pour samedi). |
| **workingday**         | Indique si le jour est un jour ouvrable (ni week-end, ni jour férié). |
| **weathersit**         | Situation météorologique : <br> 1: Clair, partiellement nuageux <br> 2: Brume + nuages <br> 3: Pluie légère, neige légère <br> 4: Fortes précipitations. |
| **temp**               | Température normalisée (valeurs divisées par 41°C, max possible). |
| **atemp**              | Température ressentie normalisée (valeurs divisées par 50°C, max possible). |
| **hum**                | Humidité relative normalisée (valeurs divisées par 100, max possible). |
| **windspeed**          | Vitesse du vent normalisée (valeurs divisées par 67, max possible). |
| **casual**             | Nombre de locations par des utilisateurs occasionnels. |
| **registered**         | Nombre de locations par des utilisateurs enregistrés. |
| **cnt**                | Nombre total de vélos loués (inclus utilisateurs occasionnels et enregistrés). |

## 2.3 Dimensions des données


In [26]:
print("Dimensions des données: (Nbr lignes, Nbr colonnes)", data.shape)


Dimensions des données: (Nbr lignes, Nbr colonnes) (17484, 17)


## 2.4 Afficher les premières lignes


In [27]:
data.head()


Unnamed: 0,instant,dteday,season,yr,mnth,hr,holiday,weekday,workingday,weathersit,temp,atemp,hum,windspeed,casual,registered,cnt
0,1.0,2011-01-01,1.0,0.0,1.0,0.0,0.0,6.0,0.0,1.0,0.24,0.2879,0.81,0.0,3.0,13.0,16.0
1,2.0,2011-01-01,1.0,0.0,1.0,1.0,0.0,6.0,,1.0,0.22,0.2727,0.8,0.0,8.0,32.0,40.0
2,3.0,2011-01-01,1.0,0.0,1.0,2.0,0.0,6.0,0.0,1.0,0.22,0.2727,0.8,0.0,5.0,27.0,32.0
3,4.0,2011-01-01,1.0,0.0,1.0,3.0,0.0,6.0,0.0,1.0,0.24,0.2879,0.75,0.0,3.0,10.0,13.0
4,5.0,2011-01-01,1.0,0.0,1.0,4.0,0.0,6.0,0.0,1.0,0.24,0.2879,0.75,0.0,0.0,1.0,1.0


## 2.5 Afficher les dernières lignes

In [29]:
data.tail()

Unnamed: 0,instant,dteday,season,yr,mnth,hr,holiday,weekday,workingday,weathersit,temp,atemp,hum,windspeed,casual,registered,cnt
17479,10799.0,2012-03-31,2.0,1.0,3.0,1.0,0.0,6.0,0.0,2.0,0.4,0.4091,0.76,0.194,17.0,65.0,82.0
17480,8080.0,2011-12-08,4.0,0.0,12.0,7.0,0.0,4.0,1.0,1.0,0.22,0.2121,0.6,0.2239,11.0,233.0,244.0
17481,4055.0,2011-06-22,3.0,0.0,6.0,20.0,0.0,3.0,1.0,1.0,0.74,0.7121,0.74,0.1343,,230.0,282.0
17482,,2012-08-15,,1.0,8.0,16.0,0.0,3.0,1.0,1.0,0.76,0.6818,0.48,0.194,91.0,340.0,431.0
17483,4504.0,2011-07-11,3.0,0.0,7.0,13.0,0.0,1.0,1.0,1.0,0.86,0.8182,0.5,0.2537,22.0,119.0,141.0


## 2.6 Statistiques descriptives des colonnes

In [32]:
data.describe()


Unnamed: 0,instant,season,yr,mnth,hr,holiday,weekday,workingday,weathersit,temp,atemp,hum,windspeed,casual,registered,cnt
count,17131.0,17103.0,17141.0,17151.0,17120.0,17126.0,17130.0,17139.0,17130.0,17152.0,17118.0,17169.0,17146.0,17127.0,17168.0,17129.0
mean,8678.806666,2.504239,0.502596,6.540493,11.555315,0.028903,3.000817,0.683237,1.425803,0.497385,0.476085,0.626772,0.190063,35.624394,153.424569,189.441065
std,5013.504186,1.106255,0.500008,3.438079,6.922491,0.16754,2.006237,0.465228,0.639642,0.192669,0.171818,0.192674,0.122163,49.201808,150.831175,181.268088
min,1.0,1.0,0.0,1.0,0.0,0.0,0.0,0.0,1.0,0.02,0.0,0.0,0.0,0.0,0.0,1.0
25%,4342.5,2.0,0.0,4.0,6.0,0.0,1.0,0.0,1.0,0.34,0.3333,0.48,0.1045,4.0,34.0,40.0
50%,8664.0,3.0,1.0,7.0,12.0,0.0,3.0,1.0,1.0,0.5,0.4848,0.63,0.194,17.0,115.0,142.0
75%,13024.5,3.0,1.0,10.0,18.0,0.0,5.0,1.0,2.0,0.66,0.6212,0.78,0.2537,48.0,220.0,281.0
max,17379.0,4.0,1.0,12.0,23.0,1.0,6.0,1.0,4.0,1.0,1.0,1.0,0.8507,367.0,886.0,977.0


## 2.7 Information sur les types de données

In [33]:
data.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 17484 entries, 0 to 17483
Data columns (total 17 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   instant     17131 non-null  float64
 1   dteday      17108 non-null  object 
 2   season      17103 non-null  float64
 3   yr          17141 non-null  float64
 4   mnth        17151 non-null  float64
 5   hr          17120 non-null  float64
 6   holiday     17126 non-null  float64
 7   weekday     17130 non-null  float64
 8   workingday  17139 non-null  float64
 9   weathersit  17130 non-null  float64
 10  temp        17152 non-null  float64
 11  atemp       17118 non-null  float64
 12  hum         17169 non-null  float64
 13  windspeed   17146 non-null  float64
 14  casual      17127 non-null  float64
 15  registered  17168 non-null  float64
 16  cnt         17129 non-null  float64
dtypes: float64(16), object(1)
memory usage: 2.3+ MB


## 2.8 Vérification des doublons

In [34]:
doublons = data.duplicated().sum()
print(f"Nombre de doublons : {doublons}")

Nombre de doublons : 105


## 2.9 Vérification des valeurs manquantes


In [35]:
manquants = data.isnull().sum()
print("Valeurs manquantes par colonne :\n", manquants)

Valeurs manquantes par colonne :
 instant       353
dteday        376
season        381
yr            343
mnth          333
hr            364
holiday       358
weekday       354
workingday    345
weathersit    354
temp          332
atemp         366
hum           315
windspeed     338
casual        357
registered    316
cnt           355
dtype: int64


# Partie 3: Préparation des données



## 3.1 Nettoyage des données

### 3.1.1 Suppression des doublons


In [36]:
data = data.drop_duplicates()


### 3.1.2 Vérification s'il y a encore des doublons après suppression

In [37]:
print(f"Nombre de doublons après suppression : {data.duplicated().sum()}")


Nombre de doublons après suppression : 0


### 3.1.3 Imputation des valeurs manquantes


In [41]:
data = data.copy()
data.fillna(method='ffill', inplace=True)


## 3.2 Transformation

In [44]:
from sklearn.preprocessing import LabelEncoder

label_encoder = LabelEncoder()
data.loc[:, 'season'] = label_encoder.fit_transform(data['season'])

## 3.3 Normalisation

#### Normalisation des variables numériques (MinMaxScaler)

In [45]:
from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
colonnes_a_normaliser = ['temp', 'atemp', 'hum', 'windspeed']
data[colonnes_a_normaliser] = scaler.fit_transform(data[colonnes_a_normaliser])

## 3.4 Création de nouvelles fonctionnalités (Feature Engineering)

#### Extraction des caractéristiques de la date

In [46]:
data['year'] = pd.DatetimeIndex(data['dteday']).year
data['month'] = pd.DatetimeIndex(data['dteday']).month

# Partie 4: Modélisation


## 4.1 Séparation des features et de la cible (X et y)


In [47]:
X = data.drop(columns=['cnt', 'casual', 'registered'])  # Variables explicatives
y = data['cnt']  # Cible

## 4.2 Division des données en train/test


In [48]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

## 4.3 Choix du modèle (par exemple, Régression Linéaire)


In [54]:
from sklearn.linear_model import LinearRegression

modele = LinearRegression()
modele.fit(X_train, y_train)

LinearRegression()

## 4.4 Prédictions


In [55]:
y_pred = modele.predict(X_test)


# Partie 5: Évaluation du modèle


## 5.1 Évaluation des performances du modèle (MAE, RMSE, R2)


In [56]:
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score

mae = mean_absolute_error(y_test, y_pred)
rmse = mean_squared_error(y_test, y_pred, squared=False)
r2 = r2_score(y_test, y_pred)

print(f"MAE : {mae}")
print(f"RMSE : {rmse}")
print(f"R² : {r2}")

MAE : 104.83073198732485
RMSE : 139.32005002587303
R² : 0.3865630528505267


# Partie 6: Déploiement


### Étapes du déploiement :
1. **Enregistrer le modèle** : Vous pouvez utiliser `joblib` ou `pickle` pour sauvegarder votre modèle.
2. **Utiliser Flask ou Streamlit** pour déployer une API ou une application web qui effectue les prédictions en temps réel.
3. **Surveiller les performances** du modèle en production et réentraîner si nécessaire.


### Enregistrement du modèle dans un fichier :



In [57]:
import joblib

# Sauvegarder le modèle
joblib.dump(modele, 'modele_location_velos.pkl')

# Charger le modèle plus tard
modele_charge = joblib.load('modele_location_velos.pkl')