### Import des Bibliothéques
---

In [2]:
import pandas as pd
import plotly.express as px

### Chargement des données
---

In [3]:
df_taxi = pd.read_csv("data/taxi-zone-lookup.csv")
df_taxi.head()


Unnamed: 0,LocationID,Borough,Zone
0,1,EWR,Newark Airport
1,2,Queens,Jamaica Bay
2,3,Bronx,Allerton/Pelham Gardens
3,4,Manhattan,Alphabet City
4,5,Staten Island,Arden Heights


Location ID : identifinat unique de zone <br>
Borough : arrondissement auquel la zone appartient <br>
Zone : nom de la zone (quartier, aéroport, ...)

### L'EDA Analyse exploratoire des données Basique 
---

In [25]:
print(f"Nous avons {df_taxi.shape[1]} colonnes et {df_taxi.shape[0]} lignes dans le jeu de données df_taxi")

print("\n... Informations sur les colonnes et les types de données ...")
df_taxi.info() 

print("\n... Statistiques descriptives sur les colonnes numériques ...")
display(df_taxi.describe())

print("\n... Valeurs manquantes ...")
nb_valeurs_manquantes = df_taxi.isnull().sum()
pourcentage_valeurs_manquantes = (df_taxi.isnull().mean() * 100).round(2)
df_taxi_manquants = pd.DataFrame({
    'Nombre de Valeurs Manquantes': nb_valeurs_manquantes,
    '% Valeurs Manquantes': pourcentage_valeurs_manquantes
})
# Ne garder que les colonnes avec des valeurs manquantes
df_taxi_manquants[df_taxi_manquants['Nombre de Valeurs Manquantes'] > 0].sort_values('Nombre de Valeurs Manquantes', ascending=False)
print(df_taxi_manquants)

# Vérification des doublons
print(" ... Doublons ... \n")
print("Doublons :", df_taxi.duplicated().sum())

Nous avons 3 colonnes et 265 lignes dans le jeu de données df_taxi

... Informations sur les colonnes et les types de données ...
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 265 entries, 0 to 264
Data columns (total 3 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   LocationID  265 non-null    int64 
 1   Borough     265 non-null    object
 2   Zone        265 non-null    object
dtypes: int64(1), object(2)
memory usage: 6.3+ KB

... Statistiques descriptives sur les colonnes numériques ...


Unnamed: 0,LocationID
count,265.0
mean,133.0
std,76.643112
min,1.0
25%,67.0
50%,133.0
75%,199.0
max,265.0



... Valeurs manquantes ...
            Nombre de Valeurs Manquantes  % Valeurs Manquantes
LocationID                             0                   0.0
Borough                                0                   0.0
Zone                                   0                   0.0
 --- Doublons ---

Doublons : 0


### L'EDA Analyse exploratoire des données Approfondie
---

In [31]:

# Vérifier si chaque LocationID est unique
print(" ... LocationID est unique ... \n")
print("IDs uniques :", df_taxi['LocationID'].nunique(), " / ", len(df_taxi))

# Répartition Arrondissement
print("\n --- Arrondissements ---\n")
print(df_taxi['Borough'].value_counts())

# Visualisation distribution Arrondissement
print("\n--- Distribution 'Borough' --- \n")
fig = px.histogram(
    df_taxi,
    x='Borough',
    title="Distribution Borough"
)
fig.show()

# Calcul du Top 10 des Zones
print(" --- Top 10 des Zones ---\n")
# Compter les occurrences par zone
zone_counts = df_taxi['Zone'].value_counts().head(20)

# Création df 
zone_counts_df = zone_counts.reset_index()
zone_counts_df.columns = ['Zone', 'Count']

# Visualisation top 10
fig = px.bar(
    zone_counts_df,
    x='Count',
    y='Zone',
    orientation='h',  # barre horizontale pour lisibilité
    title='Top 10 Zones les plus fréquentes',
    text='Count'
)
fig.update_layout(yaxis={'categoryorder':'total ascending'})  # tri décroissant
fig.show()



 --- LocationID est unique --- 

IDs uniques : 265  /  265

 --- Arrondissements ---

Borough
Queens           69
Manhattan        69
Brooklyn         61
Bronx            43
Staten Island    20
Unknown           2
EWR               1
Name: count, dtype: int64

--- Distribution 'Borough' --- 



 --- Top 10 des Zones ---



In [None]:
fig = px.scatter_mapbox(
        df_taxi,
        lat="Lat",
        lon="Lon",
        color="Cluster_dbscan",
        height = 500,
        zoom=9,
        title="Clusters DBScan",
        mapbox_style="carto-positron"
)
fig.show()