<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/5/58/Uber_logo_2018.svg/1024px-Uber_logo_2018.svg.png" alt="UBER LOGO" width="50%" />

# UBER Pickups 
## Company's Description 📇

<a href="http://uber.com/" target="_blank">Uber</a> est l'une des startups les plus célèbres au monde. Elle a commencé comme une application de covoiturage pour les personnes qui ne pouvaient pas se permettre un taxi. Maintenant, Uber a étendu ses activités à la livraison de nourriture,  <a href="https://www.ubereats.com/fr-en" target="_blank">Uber Eats</a>, livraison de colis, au transport de marchandises et même au transport urbain avec <a href="https://www.uber.com/fr/en/ride/uber-bike/" target="_blank"> Jump Bike</a> and <a href="https://www.li.me/" target="_blank"> Lime </a> que l'entreprise a financés. 


L'objectif de l'entreprise est de révolutionner le transport à travers le monde. Elle opère désormais dans environ 70 pays et 900 villes, et génère un chiffre d'affaires de plus de 14 milliards de dollars ! 😮
## Projet 🚧

L'une des principales difficultés que l'équipe d'Uber a identifiées est que parfois, les conducteurs ne sont pas disponibles lorsque les utilisateurs en ont besoin. Par exemple, un utilisateur pourrait se trouver dans le quartier financier de San Francisco alors que les chauffeurs Uber recherchent des clients dans le quartier de Castro.

Même si les deux quartiers ne sont pas très éloignés, les utilisateurs doivent quand même attendre 10 à 15 minutes avant d'être pris en charge, ce qui est trop long. Les recherches d'Uber montrent que les utilisateurs acceptent d'attendre 5 à 7 minutes, sinon ils annuleront leur trajet.

Par conséquent, l'équipe de données d'Uber souhaite travailler sur un projet où leur application recommanderait des zones chaudes dans les grandes villes à tout moment de la journée.
## Objectifs 🎯

Uber dispose déjà de données sur les prises en charge dans les grandes villes. Votre objectif est de créer des algorithmes qui détermineront les zones chaudes où les conducteurs devraient se trouver. Par conséquent, vous allez :

* Créer un algorithme pour trouver les zones chaudes.
* Visualiser les résultats sur un tableau de bord attrayant.
## Scope du projet 🖼️

Pour commencer, Uber souhaite essayer cette fonctionnalité dans la ville de New York. Par conséquent, vous vous concentrerez uniquement sur cette ville. Les données peuvent être trouvées ici :

👉👉<a href="https://full-stack-bigdata-datasets.s3.eu-west-3.amazonaws.com/Machine+Learning+non+Supervis%C3%A9/Projects/uber-trip-data.zip" target="_blank"> Uber Trip Data</a> 👈👈

**Vous ne devez vous concentrer que sur la ville de New York pour ce projet.**
## Deliverable 📬

Pour mener à bien ce projet, votre équipe devrait :

* Avoir une carte avec des zones chaudes en utilisant n'importe quelle bibliothèque Python (plotly ou autre).
* Vous devriez au moins décrire les zones chaudes par jour de la semaine.
* Comparer les résultats avec au moins deux algorithmes non supervisés comme KMeans et DBScan.

Vos cartes devraient ressembler à quelque chose comme ceci :

<img src="https://full-stack-assets.s3.eu-west-3.amazonaws.com/images/Clusters_uber_pickups.png" alt="Uber Cluster Map" />

## LIBAIRIES

In [10]:
# Notebook 1 : Préparation et visualisation des données

import pandas as pd
import numpy as np
import plotly.express as px
import plotly.graph_objects as go

## EDA

In [18]:
# 1. Chargement des données de 2014
# On charge tous les fichiers d'Uber
df1 = pd.read_csv("src/uber-raw-data-apr14.csv")
df2 = pd.read_csv("src/uber-raw-data-may14.csv") 
df3 = pd.read_csv("src/uber-raw-data-jun14.csv")
df4 = pd.read_csv("src/uber-raw-data-jul14.csv")
df5 = pd.read_csv("src/uber-raw-data-aug14.csv")
df6 = pd.read_csv("src/uber-raw-data-sep14.csv")


In [None]:
# head de df1 à df6
print(df1.head())
print(df2.head())
print(df3.head())
print(df4.head())
print(df5.head())
print(df6.head())



Structure identique : concaténons les df de courses de d'Avril à Septembre 2014 en un seul df

In [20]:
# 2. Concaténation des dataframes
df = pd.concat([df1, df2, df3, df4, df5, df6], axis=0)
print("Taille du dataset complet:", df.shape)

Taille du dataset complet: (4534327, 4)


4,5 millions de lignes pour 2014 ! Regardons les deux derniers fichiers

In [None]:
# 1. Chargement des données de 2015 et du dernier fichier taxi_zone
df7 = pd.read_csv("src/uber-raw-data-janjune-15.csv")
df8 = pd.read_csv("src/taxi-zone-lookup.csv")

# head de df7 et df8
print(df7.head())
print(df8.head())

- Pour les données de 2015 les données sont différentes : il n'y a pas de données GPS, mais une locationID associé à une base. A l'époque, à NY, chaque chauffeur étant rattaché à une base UBER spécifique.

- Techniquement nous pourrions faire une jointure entre les données 2015 et le taxi-zone-lookup.csv sur locationID et utiliser les coordonnées moyennes/centrales de chaque zone comme point de référence. Mais nous aurions unbe perte de précision car on aurait uniquement le centre de la zone et non le point exact de prise en charge comme pour les datas de 2014.

- Ayant déjà largement assez de data, ous nous concentrerons donc sur 2014 et sur le "df" déjà concaténé


In [23]:
print(df.describe(include='all'))

                Date/Time           Lat           Lon     Base
count             4534327  4.534327e+06  4.534327e+06  4534327
unique             260093           NaN           NaN        5
top     4/7/2014 20:21:00           NaN           NaN   B02617
freq                   97           NaN           NaN  1458853
mean                  NaN  4.073926e+01 -7.397302e+01      NaN
std                   NaN  3.994991e-02  5.726670e-02      NaN
min                   NaN  3.965690e+01 -7.492900e+01      NaN
25%                   NaN  4.072110e+01 -7.399650e+01      NaN
50%                   NaN  4.074220e+01 -7.398340e+01      NaN
75%                   NaN  4.076100e+01 -7.396530e+01      NaN
max                   NaN  4.211660e+01 -7.206660e+01      NaN


Pas de valeurs manquantes à traiter. Passons à la préaprations des données

In [24]:
# 3. Préparation des données temporelles

# Conversion de la colonne Date/Time en datetime
df['Date'] = pd.to_datetime(df['Date/Time'])

# Création des colonnes pour les analyses temporelles
df['weekday'] = df['Date'].dt.dayofweek  # 0 = Lundi, 6 = Dimanche
df['hour'] = df['Date'].dt.hour
df['month'] = df['Date'].dt.month
df['day'] = df['Date'].dt.day


In [None]:
# 4. Visualisations de base
# 4.1 Distribution des courses par jour de la semaine
jours = ['Lundi', 'Mardi', 'Mercredi', 'Jeudi', 'Vendredi', 'Samedi', 'Dimanche']
fig1 = px.histogram(df, 
                   x='weekday',
                   title='Distribution des courses par jour de la semaine',
                   labels={'weekday': 'Jour de la semaine'},
                   category_orders={'weekday': list(range(7))})
fig1.update_xaxes(ticktext=jours, tickvals=list(range(7)))
fig1.show()

- Journée la plus chargée : jeudi
- Journée la moins chargée : dimanche

In [None]:
# 4.2 Distribution des courses par heure
fig2 = px.histogram(df, 
                   x='hour',
                   title='Distribution des courses par heure',
                   labels={'hour': 'Heure de la journée'})
fig2.show()

- 17h, l'heure de pointe
- 2h du matin, l'heure creuse

In [None]:
# 4.3 Carte de chaleur temporelle (jour x heure)
# Création d'un tableau croisé pour la heatmap
heatmap_data = pd.crosstab(df['weekday'], df['hour'])

fig3 = go.Figure(data=go.Heatmap(
    z=heatmap_data,
    x=list(range(24)),
    y=jours,
    colorscale='Viridis'))

fig3.update_layout(
    title='Carte de chaleur des courses par jour et heure',
    xaxis_title='Heure de la journée',
    yaxis_title='Jour de la semaine'
)
fig3.show()


Pics d'activité :
1. Comme vu précedement, les pics sont du lundi au vendredi entre 15h-20h
2. On Constate pour le vendredi et le samedi un décalage de l'activité après 21h

Périodes calmes :
1. Entre 0h et 5h tous les jours
2. Avec un décalage en début de matinée le week end 

Conclusions :
1. La demande suit clairement les rythmes de travail en semaine avec des pics aux heures de sortie de bureau
2. Le weekend montre des patterns différents, orientés loisirs/sorties
3. La nuit profonde (2h-4h) représente systématiquement un creux d'activité important

In [None]:

# 4.4 Carte des points de ramassage (échantillon pour la visualisation)
sample_size = min(10000, len(df))  # On limite à 10000 points pour la visualisation
df_sample = df.sample(n=sample_size, random_state=42)

fig4 = px.scatter_mapbox(df_sample, 
                        lat='Lat', 
                        lon='Lon',
                        title='Points de ramassage Uber à New York',
                        zoom=10,
                        mapbox_style="carto-positron")
fig4.show()

In [29]:
# 5. Sauvegarde du DataFrame nettoyé pour les analyses suivantes
# On garde uniquement les colonnes nécessaires
colonnes_a_garder = ['Lat', 'Lon', 'weekday', 'hour', 'month', 'day']
df_clean = df[colonnes_a_garder]
df_clean.to_csv('src/uber_dfclean.csv', index=False)

print("\nAnalyse descriptive:")
print("Nombre total de courses:", len(df))
print("\nDistribution par jour:")
print(df['weekday'].value_counts().sort_index())
print("\nDistribution par heure:")
print(df['hour'].value_counts().sort_index())


Analyse descriptive:
Nombre total de courses: 4534327

Distribution par jour:
weekday
0    541472
1    663789
2    696488
3    755145
4    741139
5    646114
6    490180
Name: count, dtype: int64

Distribution par heure:
hour
0     103836
1      67227
2      45865
3      48287
4      55230
5      83939
6     143213
7     193094
8     190504
9     159967
10    159148
11    165703
12    170452
13    195877
14    230625
15    275466
16    313400
17    336190
18    324679
19    294513
20    284604
21    281460
22    241858
23    169190
Name: count, dtype: int64
