#Projet Data Management – BikeShare

## Objectif du projet
L’objectif de ce projet est d’explorer, nettoyer et analyser le dataset BikeShare afin d’identifier les principales tendances d’utilisation du service de vélos partagés et de les présenter à travers des visualisations interactives.


### Importation des librairies

In [1]:
import pandas as pd
import numpy as np


## 2. Chargement du dataset

In [4]:
df = pd.read_csv("data/bikeshare dataset.csv")


## 1. Analyse exploratoire des données (EDA)


### Dimensions du dataset

In [5]:
df.shape

(822410, 13)

### Structure du dataset

In [6]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 822410 entries, 0 to 822409
Data columns (total 13 columns):
 #   Column              Non-Null Count   Dtype  
---  ------              --------------   -----  
 0   ride_id             822410 non-null  object 
 1   rideable_type       822410 non-null  object 
 2   started_at          822410 non-null  object 
 3   ended_at            822410 non-null  object 
 4   start_station_name  735147 non-null  object 
 5   start_station_id    735148 non-null  object 
 6   end_station_name    729252 non-null  object 
 7   end_station_id      729252 non-null  object 
 8   start_lat           822410 non-null  float64
 9   start_lng           822410 non-null  float64
 10  end_lat             821679 non-null  float64
 11  end_lng             821679 non-null  float64
 12  member_casual       822410 non-null  object 
dtypes: float64(4), object(9)
memory usage: 81.6+ MB


- Le dataset contient 822 410 lignes et 13 colonnes.
- Plusieurs variables présentent des valeurs manquantes : `start_station_name`, `start_station_id`, `end_station_name`, `end_station_id`, ainsi que `end_lat` et `end_lng`.
- Les colonnes `started_at` et `ended_at` sont de type `object` alors qu’elles représentent des dates/heures : elles devront être converties en `datetime` pour permettre les analyses temporelles (durée de trajet, heure, jour, mois…).

### Statistiques descriptives des variables numériques

In [7]:
df.describe()

Unnamed: 0,start_lat,start_lng,end_lat,end_lng
count,822410.0,822410.0,821679.0,821679.0
mean,41.903565,-87.645536,41.903815,-87.645662
std,0.043153,0.026856,0.043289,0.027065
min,41.648501,-87.84,41.63,-87.85
25%,41.88338,-87.65966,41.88338,-87.659753
50%,41.900219,-87.64117,41.90096,-87.64117
75%,41.929143,-87.627691,41.929505,-87.62768
max,42.07,-87.52,42.15,-87.49


Les statistiques descriptives montrent que les coordonnées géographiques
(start_lat, start_lng, end_lat, end_lng) sont cohérentes et correspondent
à une zone géographique restreinte. Les valeurs minimales et maximales
restent réalistes, ce qui indique l’absence de valeurs aberrantes
évidentes dans les données de localisation.

### Analyse des variables catégorielles


In [8]:
df['member_casual'].value_counts()

member_casual
casual    442056
member    380354
Name: count, dtype: int64

In [9]:
df['rideable_type'].value_counts()

rideable_type
classic_bike     506909
electric_bike    257803
docked_bike       57698
Name: count, dtype: int64

L’analyse des variables catégorielles montre une répartition relativement équilibrée
entre les utilisateurs occasionnels (casual) et les abonnés (member), avec une légère
prédominance des utilisateurs occasionnels. En revanche, la variable `rideable_type`
présente une distribution plus déséquilibrée : les vélos classiques sont majoritaires,
suivis des vélos électriques, tandis que les vélos de type `docked_bike` sont nettement
moins représentés, ce qui suggère un usage plus marginal ou un déploiement plus limité
de ce type de vélo.

### Analyse préliminaire des variables temporelles

In [10]:
df[["started_at", "ended_at"]].head()


Unnamed: 0,started_at,ended_at
0,2021-07-02 14:44:36,2021-07-02 15:19:58
1,2021-07-07 16:57:42,2021-07-07 17:16:09
2,2021-07-25 11:30:55,2021-07-25 11:48:45
3,2021-07-08 22:08:30,2021-07-08 22:23:32
4,2021-07-28 16:08:06,2021-07-28 16:27:09


Les variables `started_at` et `ended_at` représentent des informations
temporelles mais sont actuellement stockées sous forme de chaînes de
caractères. Une inspection préliminaire des premières valeurs permet de
confirmer leur format et leur cohérence avant la conversion en type
datetime.

## 2. Nettoyage des données