# **<u>Cleaning the reseau cyclable data:</u>**

In [132]:
import pandas as pd

## **<u>Loading the data using Pandas:</u>**

In [133]:
df = pd.read_csv('../external_data/reseau-cyclable.csv', sep=';')

In [134]:
df.shape

(12259, 18)

In [135]:
df.head()

Unnamed: 0,Typologie,Aménagement bidirectionnel,Régime de vitesse,Sens vélo,Voie,Arrondissement,Bois,Longueur du tronçon en m,Longueur du tronçon en km,Position aménagement,Circulation générale interdite,Piste,Couloir bus,Continuité cyclable,Réseau cyclable,Date de livraison,geo_shape,geo_point_2d
0,Autres itinéraires cyclables (ex : Aires piéto...,Non,ZONE DE RENCONTRE,CONTRESENS,RUE DU COMMERCE,15.0,Non,87.926338,0.087926,,,,,,,2010-06-24,"{""coordinates"": [[2.293083958516798, 48.843748...","48.84409207890453, 2.293380347789903"
1,Autres itinéraires cyclables (ex : Aires piéto...,Oui,AIRE PIETONNE,,RUE BERGER,1.0,Non,529.690126,0.52969,,Oui,,,,,,"{""coordinates"": [[2.3492832350173454, 48.86062...","48.86144634862935, 2.345894785886982"
2,Autres itinéraires cyclables (ex : Aires piéto...,Oui,AIRE PIETONNE,,RUE DES INNOCENTS,1.0,Non,126.965432,0.126965,,Oui,,,,,,"{""coordinates"": [[2.3483798820517454, 48.86035...","48.86046041147555, 2.3475289590661257"
3,Pistes cyclables,Oui,VOIE 50,,QUAI D IVRY,13.0,Non,6.637209,0.006637,,,,,Traversée de carrefour,REVe,2009-01-01,"{""coordinates"": [[2.3885659614618393, 48.82520...","48.82517529257512, 2.3885470936122104"
4,Autres itinéraires cyclables (ex : Aires piéto...,Oui,AIRE PIETONNE,CONTRESENS,RUE SAINTE-APOLLINE,2.0,Non,111.054291,0.111054,,,,,,,,"{""coordinates"": [[2.352386530154109, 48.869240...","48.869096664626994, 2.35311174255617"


## **<u>Checking for null values:</u>**

Overall null values:

In [136]:
df.isna().sum().sort_values(ascending=False)

Réseau cyclable                   11437
Position aménagement              11154
Circulation générale interdite    11141
Couloir bus                       10410
Continuité cyclable                9423
Piste                              9008
Date de livraison                  4011
Sens vélo                          1030
Aménagement bidirectionnel          626
Voie                                 56
Régime de vitesse                    18
Arrondissement                        4
geo_shape                             1
Typologie                             1
geo_point_2d                          1
Longueur du tronçon en km             0
Longueur du tronçon en m              0
Bois                                  0
dtype: int64

Null values percentages:

In [137]:
null_percentages = (df.isnull().sum() / len(df)) * 100
null_percentages.sort_values(ascending=False)

Réseau cyclable                   93.294722
Position aménagement              90.986214
Circulation générale interdite    90.880170
Couloir bus                       84.917204
Continuité cyclable               76.865976
Piste                             73.480708
Date de livraison                 32.718819
Sens vélo                          8.401990
Aménagement bidirectionnel         5.106452
Voie                               0.456807
Régime de vitesse                  0.146831
Arrondissement                     0.032629
geo_shape                          0.008157
Typologie                          0.008157
geo_point_2d                       0.008157
Longueur du tronçon en km          0.000000
Longueur du tronçon en m           0.000000
Bois                               0.000000
dtype: float64

By convention, we drop the columns with null values percentage >70% since they don't provide enough data to be of any help:

In [138]:
cat_to_delete = null_percentages[null_percentages > 70]
df = df.drop(columns = list(cat_to_delete.index))

In [139]:
null_percentages = (df.isnull().sum() / len(df)) * 100
null_percentages.sort_values(ascending=False)

Date de livraison             32.718819
Sens vélo                      8.401990
Aménagement bidirectionnel     5.106452
Voie                           0.456807
Régime de vitesse              0.146831
Arrondissement                 0.032629
Typologie                      0.008157
geo_shape                      0.008157
geo_point_2d                   0.008157
Bois                           0.000000
Longueur du tronçon en m       0.000000
Longueur du tronçon en km      0.000000
dtype: float64

Additionally, we also drop rows for features that have less than 5% of null values by convention:

In [140]:
rows_to_delete = null_percentages[null_percentages < 5]
df = df.dropna(subset=list(rows_to_delete.index))

In [141]:
null_percentages = (df.isnull().sum() / len(df)) * 100
null_percentages.sort_values(ascending=False)

Date de livraison             32.849171
Sens vélo                      8.271787
Aménagement bidirectionnel     5.054981
Typologie                      0.000000
Régime de vitesse              0.000000
Voie                           0.000000
Arrondissement                 0.000000
Bois                           0.000000
Longueur du tronçon en m       0.000000
Longueur du tronçon en km      0.000000
geo_shape                      0.000000
geo_point_2d                   0.000000
dtype: float64

## **<u>Checking for relevance of remaining columns:</u>**

In [142]:
df.head()

Unnamed: 0,Typologie,Aménagement bidirectionnel,Régime de vitesse,Sens vélo,Voie,Arrondissement,Bois,Longueur du tronçon en m,Longueur du tronçon en km,Date de livraison,geo_shape,geo_point_2d
0,Autres itinéraires cyclables (ex : Aires piéto...,Non,ZONE DE RENCONTRE,CONTRESENS,RUE DU COMMERCE,15.0,Non,87.926338,0.087926,2010-06-24,"{""coordinates"": [[2.293083958516798, 48.843748...","48.84409207890453, 2.293380347789903"
1,Autres itinéraires cyclables (ex : Aires piéto...,Oui,AIRE PIETONNE,,RUE BERGER,1.0,Non,529.690126,0.52969,,"{""coordinates"": [[2.3492832350173454, 48.86062...","48.86144634862935, 2.345894785886982"
2,Autres itinéraires cyclables (ex : Aires piéto...,Oui,AIRE PIETONNE,,RUE DES INNOCENTS,1.0,Non,126.965432,0.126965,,"{""coordinates"": [[2.3483798820517454, 48.86035...","48.86046041147555, 2.3475289590661257"
3,Pistes cyclables,Oui,VOIE 50,,QUAI D IVRY,13.0,Non,6.637209,0.006637,2009-01-01,"{""coordinates"": [[2.3885659614618393, 48.82520...","48.82517529257512, 2.3885470936122104"
4,Autres itinéraires cyclables (ex : Aires piéto...,Oui,AIRE PIETONNE,CONTRESENS,RUE SAINTE-APOLLINE,2.0,Non,111.054291,0.111054,,"{""coordinates"": [[2.352386530154109, 48.869240...","48.869096664626994, 2.35311174255617"


In [143]:
df = df.drop(columns=[
    'Longueur du tronçon en km', 
    'geo_shape', 
    'Date de livraison', 
    'Sens vélo', 
    'Aménagement bidirectionnel'
])

## **<u>Modifying the remaining columns:</u>**

First we remove the geo_point_2d column and replace it with latitude and longitude columns:

In [144]:
df[['latitude', 'longitude']] = df['geo_point_2d'].str.split(',', expand=True)

df['latitude'] = df['latitude'].astype(float)
df['longitude'] = df['longitude'].astype(float)

df = df.drop(columns=['geo_point_2d'])

In [145]:
df.head()

Unnamed: 0,Typologie,Régime de vitesse,Voie,Arrondissement,Bois,Longueur du tronçon en m,latitude,longitude
0,Autres itinéraires cyclables (ex : Aires piéto...,ZONE DE RENCONTRE,RUE DU COMMERCE,15.0,Non,87.926338,48.844092,2.29338
1,Autres itinéraires cyclables (ex : Aires piéto...,AIRE PIETONNE,RUE BERGER,1.0,Non,529.690126,48.861446,2.345895
2,Autres itinéraires cyclables (ex : Aires piéto...,AIRE PIETONNE,RUE DES INNOCENTS,1.0,Non,126.965432,48.86046,2.347529
3,Pistes cyclables,VOIE 50,QUAI D IVRY,13.0,Non,6.637209,48.825175,2.388547
4,Autres itinéraires cyclables (ex : Aires piéto...,AIRE PIETONNE,RUE SAINTE-APOLLINE,2.0,Non,111.054291,48.869097,2.353112


## **<u>Creating a csv file with the cleaned data:</u>**

In [147]:
df.to_csv("reseau_cyclable_v1.csv", index=False)