# Projet 2 : Participez à un concours sur la Smart City

# Sommaire

* [1. Contexte](#partie1)
* [2. Mise en Place de l'environnement Python](#partie2)
    * [2.1. Installation de la distribution Anaconda](#partie2.1)
    * [2.2. Création et activation d'un nouvel environnement virtuel](#partie2.2)
    * [2.3. Installation des packages nécessaires](#partie2.3)
* [3. Importation et exploration initiale des données](#partie3)
    * [3.1. Importation des données](#partie3.1)
    * [3.2. Description générale du jeu de données](#partie3.2)
    * [3.3. Aperçu initial des données](#partie3.3)
* [4. Les doublons](#partie4)
    * [4.1. Identification des doublons](#partie4.1)
    * [4.2. Traitement des doublons](#partie4.2)
* [5. Les valeurs manquantes](#partie5)
    * [5.1. Identification des valeurs manquantes](#partie5.1)
    * [5.2. Traitement des valeurs manquantes](#partie5.2)
* [6. Les valeurs aberrantes](#partie6)
    * [6.1 Identification des valeurs aberrantes](#partie6.1)
    * [6.2 Visualisation des valeurs aberrantes](#partie6.2)
    * [6.3 Traitement des valeurs aberrantes](#partie6.3)
    * [6.4 Les valeurs égales à 0](#partie6.4)
* [7. Analyse Univariée](#partie7)
    * [7.1 Analyse des variables quantitatives](#partie7.1)
    * [7.2 Analyse des variables qualitatives](#partie7.2)
* [8. Analyse Bivariée](#partie8)
    * [8.1 Hauteur, circonference et stade de developpement](#partie8.1)
    * [8.2 Hauteur des arbres par domanialité](#partie8.2)
    * [8.3 Répartition des arbres par stade de développement](#partie8.3)
* [9. Synthèse](#partie9)

## 1. Contexte <a class="anchor" id="partie1"></a>

En tant qu'expert en intelligence artificielle, vous participez à un challenge de Data Science proposé par la ville de Paris via l'ONG "Data is for Good". Ce projet vise à analyser les données des arbres de Paris pour optimiser les tournées d'entretien, réduisant ainsi les trajets nécessaires et améliorant la gestion du patrimoine arboré. Votre analyse contribuera à une meilleure gestion environnementale de la ville.

## 2. Mise en Place de l'environnement Python <a class="anchor" id="partie2"></a>

### 2.1. Installation de la distribution Anaconda téléchargeable sur anaconda.com <a class="anchor" id="partie2.1"></a>
 Run Anaconda3-2024.02-1-Windows-x86_64.exe puis suivre les indications.

### 2.2. Création et activation d'un nouvel environnement virtuel <a class="anchor" id="partie2.2"></a>
  
- Ouvrir Anaconda Prompt:
  
  conda create --name arbres_paris python=3.8
- Activer l'environnement:
  
  conda activate arbres_paris
  
### 2.3. Installation des packages nécessaires. (installation aussi possible avec le gestionnaire pip) <a class="anchor" id="partie2.3"></a>

- packages choisis : pandas, numpy, matplotlib, seaborn, missingno et folium
  
    conda install pandas numpy matplotlib seaborn jupyter missingno folium

- Vérifier les versions des packages installés:
  
  conda list
- Mettre à jours les packages:
  
  conda update --all

In [None]:
# Importation des librairies
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import missingno as mno
import folium
from folium.plugins import MarkerCluster
import plotly.express as pe

print("librairies importées avec succès")

librairies importées avec succès


## 3. Importation et exploration initiale des données <a class="anchor" id="partie3"></a>

### 3.1 Importation des données <a class="anchor" id="partie3.1"></a>

In [None]:
# Chargement du jeu de données, avec la librairie pandas, dans un dataframe nommé ici 'data_1'
data_1 = pd.read_csv('les-arbres.csv', sep=';')

### 3.2 Description générale du jeu de données <a class="anchor" id="partie3.2"></a>

In [None]:
# Affichage des 5 premières lignes du dataframe 'data_1'
data_1.head()

##### Observations:

Voici les informations dont nous disposons pour chaque arbre:
- idbase : identifiant de l'arbre
- type emplacement : type de l'emplacement
- domanialite : type de lieu où est situé l'arbre
- arrondissement : arrondissement de Paris où est situé l'arbre
- complement addresse : complement d'adress
- numero : numéro de l'adresse
- lieu / adresse : adresse de l'arbre
- idemplacement : identifiant de l'emplacement
- libelle francais : nom commun de l'espèce de l'arbre
- genre : genre de l'arbre
- espece : espèce de l'arbre
- variete oucultivar: variété de l'arbre
- circonference (cm) : circonférence de l'arbre (en centimètres)
- hauteur (m) : taille de l'arbre (en mètres)
- stade de developpement : stade de développement de l'arbre
- remarquable : si l'arbre est "remarquable" ou non
- geo_point_2d : latitude et longitude de la position de l'arbre

##### Les variables peuvent être classées selon leur type :

- Quantitatives
    * discrètes: idbase, circonference (cm) et hauteur (m)
    * continues: geo_point_2d
- Qualitatives
    * nominales: type emplacement, domanialité, arrondissement, lieu/adresse, idemplacement, libelle français, genre, espece, variete oucultivar,     remarquable
    * ordinales: stade de developpement


### 3.3 Aperçu initial des données <a class="anchor" id="partie3.3"></a>

In [None]:
# Affichage des informations du dataframe 'data_1'
data_1.info()

*Précision: une fois arrivé à ce stade, j'ai remarqué que le jeu de données fourni par OpenClassrooms ne correspondait pas à celui trouvé sur le site  de la ville de Paris.*

*Les dimensions étaient de 200 137 lignes et 18 colonnes. J'ai donc du travailler sur le jeu de données de la ville de Paris qui semble posséder plus de données.*

In [None]:
# Affichage du nombre de colonne par type de données
data_1.dtypes.value_counts()

Nous récupérons les dimensions du jeu de données
- Nombre de lignes: 210 162
- Nombre de colonnes: 17

et le type de donnée de chaque colonne.

In [None]:
# Affichage des données statistiques sur les valeurs
data_1.describe()

##### Observations:

IDBASE:
* le nombre de valeurs (count) est de 210162, il n'y a donc pas de valeurs manquantes.
* la valeur moyenne (mean) est de 510,355.1 avec un écart type de 678,944.9, cela indique une grande dispersion des valeurs.
* la valeur minimale (min) est de 99,874 et la valeur maximale est de 2,043,978; ce qui montre une large gamme de valeurs.

NUMERO:
* le nombre de valeurs (count) est de 0, ce qui signifie que cette colonne ne contient aucune valeur non nulle.
* Toutes les autres statistiques sont NaN (Not A Number), confirmant qu'il n'y a pas de données présentes dans cette colonne.

CIRCONFERENCE(cm):
* le nombre de valeurs (count) est de 210162, il n'y a donc pas de valeurs manquantes.
* La valeur moyenne (mean) est de 80.68 cm, avec un écart-type (std) de 63.28 cm. Cela montre une variation modérée des circonférences.
* La valeur minimale (min) est de 0 cm, ce qui peut indiquer une erreur, un enregistrement incorrect ou une graine récemment plantée.
* La valeur maximale (max) est de 2280 cm, ce qui semble très élevé et peut indiquer des valeurs aberrantes.

HAUTEUR(m):
* le nombre de valeurs (count) est de 210162, il n'y a donc pas de valeurs manquantes.
* La valeur moyenne (mean) est de 8.82 m, avec un écart-type (std) de 5.96 m. Cela montre une variation modérée des hauteurs.
* La valeur minimale (min) est de 0 m, ce qui peut indiquer une erreur, un enregistrement incorrect ou une graine récemment plantée.
* La valeur maximale (max) est de 170 m, ce qui semble très élevé et peut indiquer des valeurs aberrantes.

## 4. Les doublons <a class="anchor" id="partie4"></a>

#### 4.1 Identification des doublons <a class="anchor" id="partie4.1"></a>

*Nous utiliserons ici les valeurs de la série 'IDBASE' pour la recherche de doublons car ces valeurs sont en théorie unique.*

In [None]:
# Affichage du nombre de doublons du jeu de données
nombre_doublons = data_1['IDBASE'].duplicated().sum()
print(f"Nombre de doublons dans la colonne IDBASE: {nombre_doublons}")

Nombre de doublons dans la colonne IDBASE: 2


Nous avons 2 doublons dans notre jeu de données, nous allons maintenant les rechercher.

In [None]:
# Affichage des 2 doublons du jeu de données
toutes_occurrences_doublons = data_1[data_1['IDBASE'].isin(data_1['IDBASE'][data_1['IDBASE'].duplicated()])]
print("Toutes les occurrences des doublons dans la colonne IDBASE sont:")
print(toutes_occurrences_doublons)

Les IDBASE des doublons ont pour valeur 227,160 et 2,009,124.

Il convient maintenant de traiter ces doublons. (2 doublons pourraient considérés comme négligeable, mais on ne sait jamais)

### 4.2 Traitement des doublons <a class="anchor" id="partie4.2"></a>

In [None]:
# Création d'une fonction pour fusionner les doublons
def fusion_doublon(data, key, valeur):
    doublon = data[data[key] == valeur]
    if doublon.shape[0] > 1:
        fusion = doublon.ffill().bfill().iloc[0]
        data_clear = data[data[key] != valeur]
        data_fusion = pd.concat([data_clear, pd.DataFrame([fusion])]).sort_index().reset_index(drop=True)
        return data_fusion
    else:
        return data

# Fusion des doublons avec l'IDBASE = 2000124.
data_1 = fusion_doublon(data_1, 'IDBASE', 2009124)

In [None]:
# Conservation de la première ligne du doublon avec IDBASE = 227160.

data_1 = data_1.drop_duplicates(subset='IDBASE', keep='first')

In [None]:
# Vérification que le traitement des doublons a fonctionné

print("data_1 après traitement des doublons spécifiques :")
print(data_1[data_1['IDBASE'].isin([2009124, 227160])])

Notre jeu de données ne contient plus de doublons mais avant de commencer l'analyse, nous allons traiter les valeurs manquantes, aberrantes et les valeurs égales à 0.

## 5. Les valeurs manquantes <a class="anchor" id="partie5"></a>

### 5.1 Identification des valeurs manquantes <a class="anchor" id="partie5.1"></a>

In [None]:
# Affichage du pourcentage de données manquantes par colonne

taux_remplissage = data_1.isnull().mean() * 100
for column, taux in taux_remplissage.items():
    if taux > 1:
        print(f"{column}: {taux:.2f}% de valeurs manquantes")

In [None]:
# test de représentation graphique du taux de valeurs manquantes avec la librairie Missingno
mno.matrix(data_1)

In [None]:
# Représentation graphique du taux de valeurs manquantes avec les librairies Matplotlib et Seaborn.

taux_remplissage = data_1.isnull().mean() * 100
taux_remplissage = taux_remplissage[taux_remplissage > 1].reset_index()
taux_remplissage.columns = ['Variables', 'Valeurs manquantes en %']

sns.set_theme(style="darkgrid")
plt.figure(figsize=(10, 6))
barplot = sns.barplot(x='Variables', y='Valeurs manquantes en %', data=taux_remplissage)
for index, row in taux_remplissage.iterrows():
    barplot.patches[index].set_label(row['Variables'])
for index, row in taux_remplissage.iterrows():
    barplot.text(index, row['Valeurs manquantes en %'] + 1, f"{row['Valeurs manquantes en %']:.2f}%",
                 color='black', ha="center")
barplot.set_xticklabels([])
plt.legend(title='Variables', bbox_to_anchor=(1.36, 1.02), loc='upper right')
plt.title('Pourcentage de valeurs manquantes')
plt.xlabel('Variables')
plt.ylabel('Valeurs manquantes en %')
plt.show()

Nous Constatons que plusieurs données sont manquantes. A tel point que certaines données ne sont pas exploitables en l'état.

Les données non exploitables en l'état sont:
- Numero
- Complément d'adresse
- Variété

### 5.2 Traitement des valeurs manquantes <a class="anchor" id="partie5.2"></a>

Nous allons supprimer les colonnes avec trop de valeurs manquantes, c'est à dire : Complement d'adresse, Numero et Variete Oucultivar.

Ces colonnes sont très peu remplies voire pas du tout. Elles ne sont donc pas pertinentes pour l'analyse.

In [None]:
# Suppression des colonnes: Complement d'adresse, Numero et Variete Oucultivar.

colonnes_a_supprimer = ['COMPLEMENT ADRESSE', 'NUMERO', 'VARIETE OUCULTIVAR']
data_1 = data_1.drop(columns=colonnes_a_supprimer)

Après la suppression des colonnes avec un fort taux de valeurs manquantes, il reste le cas des colonnes avec peu de valeurs manquantes.

Je fais le choix de ne pas faire d'imputation pour ne pas fausser l'analyse, notamment avec la colonne 'STADE DE DEVELOPPEMENT' pour laquelle il manque 22.75% de valeurs.

Maintenant que les doublons et les valeurs manquantes ont été traités, nous pouvons procéder au traitement des valeurs aberrantes.

## 6. Les valeurs aberrantes <a class="anchor" id="partie6"></a>

#### 6.1 identification des valeurs aberrantes <a class="anchor" id="partie6.1"></a>

Pour identifier les valeurs aberrantes, nous allons utiliser la méthode des Quartiles: Les valeurs aberrantes peuvent être définies comme des valeurs qui se situent à plus de 1,5 fois l'écart interquartile en dessous du premier quartile (Q1) ou au-dessus du troisième quartile (Q3).

Il nous faut donc définir en premier lieu, l'écart intercatile : IQR (InterQuartile Range)

In [None]:
# Calcul des quartiles et de l'IQR
Q1 = data_1[["CIRCONFERENCE (cm)", "HAUTEUR (m)"]].quantile(0.25)
Q3 = data_1[["CIRCONFERENCE (cm)", "HAUTEUR (m)"]].quantile(0.75)
IQR = Q3 - Q1
IQR

Maintenant que l'écart intercartile est définit, nous pouvons définir les limites inférieure et supérieure.

In [None]:
# Calcul des limites supérieure et inférieure
limite_inferieure = Q1 - 1.5 * IQR
limite_superieure = Q3 + 1.5 * IQR

# Assurer que les limites inférieures ne soient pas négatives
limite_inferieure = limite_inferieure.clip(lower=0)

print(f"Limite supérieure : \n{limite_superieure}\n\nLimite inférieure : \n{limite_inferieure}")

Nous pouvons en déduire qu'un arbre normal, aura:
- une circonférence de 0 à  242.5 cm
- une hauteur de 0 à 22.5 m

#### Allons plus loin dans l'analyse et calculons le pourcentage de valeurs aberrantes (outliers).

In [None]:
# Calcul du pourcentage d'outliers pour la circonference et la hauteur

outliers = (data_1[["CIRCONFERENCE (cm)", "HAUTEUR (m)"]] < (Q1 - 1.5 * IQR)) | (data_1[["CIRCONFERENCE (cm)", "HAUTEUR (m)"]] > (Q3 + 1.5 * IQR))
outliers
print((outliers.mean()*100).round(2))

Le nombre de valeurs aberrantes sont:
- Pour la circonference: 1.76%.
- Pour la hauteur: 1.83%.

#### 6.2 Visualisation des valeurs aberrantes <a class="anchor" id="partie6.2"></a>

#### Hauteur

In [None]:
plt.figure(figsize=(12, 6))
sns.boxplot(data_1['HAUTEUR (m)'], orient='h')
plt.title('Box Plot de HAUTEUR (m)')
plt.xlabel('HAUTEUR (m)')
outlier_value = 22.5
plt.annotate('Point de départ des potentielles Valeurs Aberrantes',
             xy=(outlier_value, 0),  # Position de l'annotation
             xytext=(outlier_value + 1, -0.1),  # Position du texte de l'annotation
             arrowprops=dict(facecolor='green', shrink=0.05),  # Propriétés de la flèche
             horizontalalignment='left',
             verticalalignment='center')
plt.show()

#### Circonference

In [None]:
plt.figure(figsize=(12, 6))
sns.boxplot(data_1['CIRCONFERENCE (cm)'], orient='h')
plt.title('Box Plot de CIRCONFERENCE (cm)')
plt.xlabel('CIRCONFERENCE (cm)')
outlier_value = 242.5
plt.annotate('Point de départ des potentielles Valeurs Aberrantes',
             xy=(outlier_value, 0),  # Position de l'annotation
             xytext=(outlier_value + 30, -0.1),  # Position du texte de l'annotation
             arrowprops=dict(facecolor='green', shrink=0.05),  # Propriétés de la flèche
             horizontalalignment='left',
             verticalalignment='center')
plt.show()

In [None]:
# Filtrage des données pour supprimer les valeurs aberrantes
# Créer un masque pour chaque colonne
mask_circonference = (data_1['CIRCONFERENCE (cm)'] >= limite_inferieure['CIRCONFERENCE (cm)']) & (data_1['CIRCONFERENCE (cm)'] <= limite_superieure['CIRCONFERENCE (cm)'])
mask_hauteur = (data_1['HAUTEUR (m)'] >= limite_inferieure['HAUTEUR (m)']) & (data_1['HAUTEUR (m)'] <= limite_superieure['HAUTEUR (m)'])

# Combiner les masques pour les appliquer aux données
mask = mask_circonference & mask_hauteur

# Appliquer le masque pour obtenir les données nettoyées
data_cleaned = data_1[mask]

# Affichage des données nettoyées de toute valeur aberrante
print("Données après suppression des valeurs aberrantes :")
data_cleaned.info()

#### 6.3 Les valeurs égales à 0 <a class="anchor" id="partie6.4"></a>

Nous pouvons aussi remarquer bon nombre de valeurs égales à 0 dans les colonnes Circonférence et Hauteur.

Cette mesure est possible si l'arbre est planté sous forme de graine. encore faut-il que toutes les valeurs égales à 0 correspondent à un stade de développement de "Jeune Arbre". Calculons le pourcentage de ces valeurs par colonne et étudions aussi la corrélation avec le stade de développement.

##### Pourcentage de valeurs égales à 0

In [None]:
# Calcul du pourcentage de valeurs égales à 0 dans les colonnes Circonférence et Hauteur
pourcentage_circonference_zero = (data_cleaned['CIRCONFERENCE (cm)'] == 0).mean() * 100
pourcentage_hauteur_zero = (data_cleaned['HAUTEUR (m)'] == 0).mean() * 100

print(f"Pourcentage de valeurs égales à 0 :\n- Circonférence : {pourcentage_circonference_zero:.2f}%\n- Hauteur : {pourcentage_hauteur_zero:.2f}%")

Il y a donc 9.65% de valeurs égales à 0 pour la variable Circonference et 12.03% pour la variable hauteur.

 Interprétation:
 - Valeurs Aberrantes : Un pourcentage aussi élevé de valeurs égales à zéro est anormal pour les variables telles que la circonférence et la hauteur des arbres. Cela suggère fortement la présence de valeurs aberrantes.
 - Qualité des Données : Ces résultats mettent en évidence des problèmes potentiels de qualité des données. Les valeurs égales à zéro peuvent provenir de mesures incorrectes, de données manquantes mal codées, d'erreurs de saisie ou de mesure d'arbres très jeunes.
 - Impact sur les Analyses : Les valeurs nulles peuvent fausser les analyses si elles ne sont pas correctement traitées.

##### Observation de la corrélation entre les valeurs égales à 0 et le stade de développement

In [None]:
# Créer une copie du DataFrame pour éviter les warnings
data_cleaned_copy = data_cleaned.copy()

# Création de colonnes indicatrices
data_cleaned_copy['CIRCONFERENCE_ZERO'] = data_cleaned_copy['CIRCONFERENCE (cm)'] == 0
data_cleaned_copy['HAUTEUR_ZERO'] = data_cleaned_copy['HAUTEUR (m)'] == 0

In [None]:
# Filtre pour ne conserver que les valeurs égales à 0
data_filtre = data_cleaned_copy[data_cleaned_copy['CIRCONFERENCE (cm)'] == 0]

# Création d'un diagramme en barre
plt.figure(figsize=(12, 6))
sns.countplot(data=data_filtre, x='STADE DE DEVELOPPEMENT')
plt.title('Distribution des Circonférences égales à 0 par Stade de Développement')
plt.xlabel('Stade de Développement')
plt.ylabel('Nombre de Circonférences égales à 0')
plt.show()

In [None]:
# Filtre pour ne conserver que les valeurs égales à 0
data_filtre = data_cleaned_copy[data_cleaned_copy['HAUTEUR (m)'] == 0]

# Création d'un diagramme en barre
plt.figure(figsize=(12, 6))
sns.countplot(data=data_filtre, x='STADE DE DEVELOPPEMENT')
plt.title('Distribution des Hauteurs égales à 0 par Stade de Développement')
plt.xlabel('Stade de Développement')
plt.ylabel('Nombre de Hauteurs égales à 0')
plt.show()

On remarque que les valeurs égales à 0 ne correspondent pas toujours au stade de développement "jeune arbre".

On peut en déduire que ces valeurs sont le résultat de mesures incorrectes, de données manquantes mal codées ou d'erreurs de saisie.

Nous allons donc les filtrer.

##### Traitement des valeurs égales à 0

In [None]:
# Filtrer les lignes où 'CIRCONFERENCE (cm)' et 'HAUTEUR (m)' ne sont pas égales à 0
data_cleaned = data_cleaned[(data_cleaned['CIRCONFERENCE (cm)'] != 0) & (data_cleaned['HAUTEUR (m)'] != 0)]

# Afficher le DataFrame modifié
data_cleaned.describe()

- Les doublons ont été corrigés.
- Les valeurs manquantes ont été supprimées.
- Les valeurs aberrantes ont été filtrées.
- les valeurs égales à 0 ont été filtrées.

Le jeu de donnée est maintenant nettoyé, on procède donc aux analyses univariée et bivariée.

## 7. Analyse Univariée <a class="anchor" id="partie7"></a>

Classons les variables selon leur type et selon leur pertinence dans ce projet.

Les variables pertinentes pour l'analyse univarié sont:
- quantitatives:
    * 'HAUTEUR (m)' et 'CIRCONFERENCE (cm)': la hauteur de la circonférence d'un arbre peuvent influencer les besoins en entretien (élagage, soins ...)
    * 'geo_point_2d': les coordonnées GPS permettent de cartographier les arbres et d'optimiser les tournées d'entretien.
- qualitatives:
    * 'domanialité' et 'stade de developpement': peuvent influer sur la fréquence et le type d'entretien nécessaire.
    * 'arondissement': crucial pour organiser les tournées.
    * 'genre' et 'espèce': peuvent influer sur le type d'entretien nécessaire.
    * 'remarquable': peut nécessiter des soins spéciaux et plus fréquents.

### 7.1 Analyse des variables quantitatives <a class="anchor" id="partie7.1"></a>

In [None]:
# Description des colonnes à analyser
data_cleaned.describe()

Unnamed: 0,IDBASE,CIRCONFERENCE (cm),HAUTEUR (m)
count,179357.0,179357.0,179357.0
mean,520031.3,83.386051,9.553282
std,677744.8,51.460001,4.71451
min,99875.0,1.0,1.0
25%,189249.0,40.0,5.0
50%,241323.0,75.0,9.0
75%,289277.0,115.0,12.0
max,2043975.0,242.0,22.0


#### CIRCONFERENCE

In [None]:
# Histogramme représentant la porportion d'Arbres selon leur circonférence

plt.figure(figsize=(10, 6))
plt.hist(data_cleaned['CIRCONFERENCE (cm)'], bins=30)
plt.title('Distribution de la Circonférence')
plt.xlabel('Circonférence en cm')
plt.ylabel("Nombre d'arbres")
plt.show()

La distribution de la circonférence des arbres n'est pas uniforme.

Le nombre d'arbres diminue au fur et à mesure que la circonférence augmente.

#### HAUTEUR

In [None]:
# Histogramme représentant la porportion d'Arbres selon leur hauteur

plt.figure(figsize=(10, 6))
plt.hist(data_cleaned['HAUTEUR (m)'], bins=30)
plt.title('Distribution de la Hauteur')
plt.xlabel('Hauteur en m')
plt.ylabel("Nombre d'arbres")
plt.show()

La distribution de la hauteur des arbres est irrégulière.

Le nombre d'arbres finit tout de même par diminuer au fur et à mesure que la hauteur augmente.

##### Nous pouvons visualiser le nombre d'arbres sur une carte <a class="anchor" id="carte"></a>

In [None]:
# Visualisation de la répartition des Arbres sur une carte avec la librairie folium.
data_cleaned = data_cleaned.copy()

# Séparation des coordonnées contenues dans la variables "geo_point_2d" en latitude et longitude.
data_cleaned[['latitude', 'longitude']] = data_cleaned['geo_point_2d'].str.split(',', expand=True)
data_cleaned['latitude'] = data_cleaned['latitude'].astype(float)
data_cleaned['longitude'] = data_cleaned['longitude'].astype(float)

# Génération d'une carte centrée sur Paris
map_paris = folium.Map(location=[48.8566, 2.3522], zoom_start=12)

# Ajout des points pour chaque arbre
marker_cluster = MarkerCluster().add_to(map_paris)

for _, row in data_cleaned.iterrows():
    folium.Marker(
        location=[row['latitude'], row['longitude']],
        popup=f"Circonférence: {row['CIRCONFERENCE (cm)']} cm, Hauteur: {row['HAUTEUR (m)']} m"
    ).add_to(marker_cluster)

# Ajouter un titre à la carte
title_html = '''
             <h3 align="center" style="font-size:20px"><b>Carte des Arbres de la ville de Paris</b></h3>
             '''
map_paris.get_root().html.add_child(folium.Element(title_html))

map_paris

On remarque que les arbres sont de moins en moins nombreux au fur et à mesure que l'on s'approche du centre de Paris.

#### 7.2 Analyse des variables qualitatives <a class="anchor" id="partie7.2"></a>

#### DOMANIALITE

In [None]:
# Calcul du nombre d'occurences de chaque catégorie
domanialite_counts = data_cleaned['DOMANIALITE'].value_counts()

# Affichage du nombre d'occurences
print(domanialite_counts)

plt.figure(figsize=(10, 6))
domanialite_counts.plot(kind='bar', edgecolor='black')
plt.title('Répartition des arbres par domanialité')
plt.xlabel('Domanialté')
plt.ylabel('Nombre d\'arbres')
plt.xticks(rotation=45)
plt.show()

Alignement, Jardin et Cimetiere sont les domanialités qui ressortent le plus.

#### STADE DE DEVELOPPEMENT

Je remarque dans cette catégorie que les valeurs ne sont pas claires au premier coup d'oeil.

nous avons 4 différentes valeurs : Jeune (arbre), Jeune (arbre) Adulte, Adulte et Mature.

La précision (arbre) est inutile et nous gêne visuellement sur le graphique, je décide de les enlever.

In [None]:
# Remplacement des valeurs 'Jeune (arbre) et Jeune (arbre)Adulte par Jeune et Jeune Adulte

data_cleaned['STADE DE DEVELOPPEMENT'] = data_cleaned['STADE DE DEVELOPPEMENT'].replace({
    'Jeune (arbre)': 'Jeune',
    'Jeune (arbre)Adulte': 'Jeune Adulte'
})

In [None]:
# Calcul du nombre d'occurences de chaque catégorie
stade_developpement_counts = data_cleaned['STADE DE DEVELOPPEMENT'].value_counts()
# Affichage du nombre d'occurences
print(stade_developpement_counts)

# Création d'un Pie Chart
plt.figure(figsize=(10, 6))
stade_developpement_counts.plot(kind='pie', autopct='%1.1f%%', startangle=90, cmap='Pastel2')
plt.title('Répartition des arbres par stade de développement')
plt.ylabel('')  # Supprimer l'étiquette de l'axe y
plt.show()

On remarque que pratiquement la moitié des arbres sont adultes et que moins de 3% sont matures.

Les jeunes et jeunes adultes représente respectivement moins de 25%.

#### ARRONDISSEMENT

In [None]:
# Calcul du nombre d'occurences de chaque catégorie
arrondissement_counts = data_cleaned['ARRONDISSEMENT'].value_counts()

plt.figure(figsize=(10, 6))
arrondissement_counts.plot(kind='bar', edgecolor='black')
plt.title('Répartition des arbres par arrondissement')
plt.xlabel('Arrondissements')
plt.ylabel('Nombre d\'arbres')
plt.xticks(rotation=45)
plt.show()

On remarque une répartition très disparate entre les arrondissements.

Mais, avec l'aide de la [carte](#carte) de Paris disponible plus haut dans le document, on remarque que les arrondissements qui possèdent le plus grand nombre d'arbres sont ceux qui se trouvent en bordure de Paris et qui sont aussi les plus grands. Plus on se rapproche du centre de Paris, plus l'arrondissement est petit et moins il y a d'arbres.

#### GENRE

On remarque 188 genres différents et on ne peut pas les représenter tous sur un graphique.

On choisit doncl es 10 genres les plus représentés.

In [None]:
# Calcul du nombre d'occurences de chaque catégorie
genre_counts = data_cleaned['LIBELLE FRANCAIS'].value_counts()

# print(genre_counts) => affiche 188 genres différents !

# Sélection des 10 genres les plus représentées
top_genre = genre_counts.head(10)

plt.figure(figsize=(10, 6))
top_genre.plot(kind='bar', edgecolor='black')
plt.title('Répartition des arbres par genre')
plt.xlabel('Genre')
plt.ylabel('Nombre d\'arbres')
plt.xticks(rotation=45)
plt.show()

Les genres 'Platanus', 'Aesculus', 'Tilia' et 'Acer' sont les plus représentés. Avec pratiquement 1/4 des arbres de genre 'Platanus'.

#### ESPECE

On remarque 589 espèces différentes et on ne peut pas les représenter toutes sur un graphique.

On choisit donc les 10 espèces les plus représentées.

In [None]:
# Calcul du nombre d'occurences de chaque catégorie
espece_counts = data_cleaned['ESPECE'].value_counts()

# print(espece_counts) => affiche 589 espèces différentes !

# Sélection des 10 genres les plus représentées
top_espece = espece_counts.head(10)

plt.figure(figsize=(10, 6))
top_espece.plot(kind='bar', edgecolor='black')
plt.title('Répartition des arbres par espèce')
plt.xlabel('Espèces')
plt.ylabel('Nombre d\'arbres')
plt.xticks(rotation=45)
plt.show()

Les espèces 'x hispanica', 'hippocastanum' et 'japonicum' sont les espèces les plus représentées. Avec pratiquement 1/5 des arbres d'espèce 'x hispanica'.

#### REMARQUABLE

In [None]:
# Calcul du nombre d'occurences de chaque catégorie
remarquable_counts = data_cleaned['REMARQUABLE'].value_counts()

print(remarquable_counts)

Les arbres 'Remarquables' sont au nombre de 72.

## 8. Analyse Bivariée <a class="anchor" id="partie8"></a>

#### 8.1 Hauteur, circonference et stade de developpement <a class="anchor" id="partie8.1"></a>

In [None]:
# Création d'un graphique à dispersion
plt.figure(figsize=(12, 8))
scatter_plot = sns.scatterplot(data=data_cleaned, x='CIRCONFERENCE (cm)', y='HAUTEUR (m)', hue='STADE DE DEVELOPPEMENT', palette='Pastel1', s=30)
scatter_plot.set_xlim(0, 300)
scatter_plot.set_ylim(0, 30)
plt.title('Relation entre Hauteur, Circonférence et Stade de Développement des Arbres')
plt.xlabel('Circonférence (cm)')
plt.ylabel('Hauteur (m)')
plt.legend(title='Stade de Développement')
plt.show()

On peut remarquer sur ce diagramme que plus un arbe est agé, plus sa hauteur et sa circonférence sont élevés.

On remarque aussi qu'une fois atteint l'age adulte, l'arbre a tendance a ne plus prendre de hauteur mais en revanche, sa circonférence continue de grandir.

#### 8.2 Hauteur des arbres par domanialité <a class="anchor" id="partie8.2"></a>

In [None]:
plt.figure(figsize=(10, 6))
sns.boxplot(data=data_cleaned, x='DOMANIALITE', y='HAUTEUR (m)')
plt.title('Hauteur des Arbres par Domanialité')
plt.xlabel('Domanialité')
plt.ylabel('Hauteur (m)')
plt.xticks(rotation=45)
plt.show()

#### 8.3 Répartition des arbres par stade de développement<a class="anchor" id="partie8.3"></a>

In [None]:
data_cleaned[['latitude', 'longitude']] = data_cleaned['geo_point_2d'].str.split(',', expand=True)
data_cleaned['latitude'] = data_cleaned['latitude'].astype(float)
data_cleaned['longitude'] = data_cleaned['longitude'].astype(float)

fig = plt.figure(figsize=(10, 10))
ax = sns.scatterplot(data=data_cleaned,
                     x='longitude',
                     y='latitude',
                     hue='STADE DE DEVELOPPEMENT',
                     s=20,
                     hue_order=['Jeune', 'Jeune Adulte', 'Adulte', 'Mature'])

plt.title('Répartition des Arbres par Stade de Développement')
plt.xlabel('Longitude')
plt.ylabel('Latitude')

plt.show()

#### 8.4 Type d'arbre par arrondissement<a class="anchor" id="partie8.4"></a>

In [None]:
# Identifier les 20 types d'arbres les plus fréquents
top_10_types = data_cleaned['LIBELLE FRANCAIS'].value_counts().nlargest(20).index

# Filtrer le DataFrame pour ne conserver que les 10 types d'arbres les plus fréquents
filtered_data = data_cleaned[data_cleaned['LIBELLE FRANCAIS'].isin(top_10_types)]

# Création de la table pivot
table = filtered_data.pivot_table(
    values='IDBASE',
    index='ARRONDISSEMENT',
    columns='LIBELLE FRANCAIS',
    aggfunc='count',
    observed=True,
).fillna(0).astype(int)

# Filtrer pour garder uniquement les colonnes pertinentes
table = table[top_10_types]

# Création de la heatmap avec Plotly Express
fig = pe.imshow(table,
    title="Type d'arbre par arrondissement",
    width=1000,
    height=800,
)
fig.show()


Remarque: Le genre d'arbre le plus planté se trouve majoritairement dans les arrondissements en bordure de Paris.

In [None]:
# Création de la table pivot
table = data_cleaned.pivot_table(
    values='IDBASE',
    index='ARRONDISSEMENT',
    columns='STADE DE DEVELOPPEMENT',
    aggfunc='count',
    observed=True,
).fillna(0).astype(int)

# Création de la heatmap avec Plotly Express
fig = pe.imshow(table,
    title="Stade de développement par arrondissement",
    width=1000,
    height=800,
)
fig.show()

In [None]:
# Séparation des coordonnées GPS en latitude et longitude
data_1[['latitude', 'longitude']] = data_1['geo_point_2d'].str.split(',', expand=True)
data_1['latitude'] = data_1['latitude'].astype(float)
data_1['longitude'] = data_1['longitude'].astype(float)

# Détection des valeurs aberrantes pour les colonnes CIRCONFERENCE (cm) et HAUTEUR (m)
Q1 = data_1[['CIRCONFERENCE (cm)', 'HAUTEUR (m)']].quantile(0.25)
Q3 = data_1[['CIRCONFERENCE (cm)', 'HAUTEUR (m)']].quantile(0.75)
IQR = Q3 - Q1

# Calcul des limites pour identifier les valeurs aberrantes
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

# Filtrer les arbres avec des valeurs aberrantes ou égales à 0
condition_circonference = (data_1['CIRCONFERENCE (cm)'] < lower_bound['CIRCONFERENCE (cm)']) | \
                          (data_1['CIRCONFERENCE (cm)'] > upper_bound['CIRCONFERENCE (cm)']) | \
                          (data_1['CIRCONFERENCE (cm)'] == 0)

condition_hauteur = (data_1['HAUTEUR (m)'] < lower_bound['HAUTEUR (m)']) | \
                    (data_1['HAUTEUR (m)'] > upper_bound['HAUTEUR (m)']) | \
                    (data_1['HAUTEUR (m)'] == 0)

trees_to_remeasure = data_1[condition_circonference | condition_hauteur]

# Génération d'une carte centrée sur Paris
map_paris = folium.Map(location=[48.8566, 2.3522], zoom_start=12)

# Ajout des points pour chaque arbre à remesurer
marker_cluster = MarkerCluster().add_to(map_paris)

for _, row in trees_to_remeasure.iterrows():
    folium.Marker(
        location=[row['latitude'], row['longitude']],
        popup=f"Circonférence: {row['CIRCONFERENCE (cm)']} cm, Hauteur: {row['HAUTEUR (m)']} m, Remarquable: {row['REMARQUABLE']}"
    ).add_to(marker_cluster)

# Ajouter un titre à la carte
title_html = '''
             <h3 align="center" style="font-size:20px"><b>Carte des Arbres à Remesurer</b></h3>
             '''
map_paris.get_root().html.add_child(folium.Element(title_html))

# Afficher la carte
map_paris

Remarque: les arbres les plus jeunes se retrouvent en majorité dans les arrondissement en bordure de Paris.

## 9. Synthèse <a class="anchor" id="partie9"></a>

L'analyse des données des arbres de la ville de Paris a révélé plusieurs insights importants et permis de formuler des recommandations concrètes pour optimiser les tournées d'entretien.

**Description générale** :
- Le jeu de données comporte 210162 arbres sur 17 variables que nous pouvons regrouper en plusieurs familles.
- Les variables peuvent être classées selon leur type, quantitatives (discrètes / continues) ou qualitatives (nominales / ordinales).
- En moyenne, un arbre fait 83 cm de circonférence et 9.5 m de hauteur.

**Résumé des Résultats Principaux** :
- Les arbres de Paris présentent une large gamme de hauteurs et de circonférences, avec une concentration notable d'arbres adultes (50%).
- Les types d'arbres les plus courants incluent le Platane, le Maronnier, et l'Érable, répartis de manière inégale à travers les arrondissements.
- Les arrondissements tels que le 13e, le 16e, et le 20e montrent une densité particulièrement élevée d'arbres, tandis que certains autres arrondissements sont moins arborés.

**Insights Pertinents** :
- Une corrélation significative a été observée entre le stade de développement des arbres et leur emplacement, suggérant que certains arrondissements abritent principalement des arbres plus jeunes ou plus matures.
- La taille (hauteur & circonférence) d'un arbre a un incidence sur ses besoins en entretien.
- Ainsi que le stade de développement, un arbre en pleine croissance aura besoin de plus d'arrosage.
- Le nombre d'arbres par arrondissement doit être pris en compte dans la création des tournées d'entretien, plus il y a d'arbres, plus l'entretien nécessite du matériel et donc de la place de stockage.
- il y a de nombreuses variétés d'arbres, chacune d'elles peu avoir des besoins en entretien spécifiques.

**Recommandations** :
- Optimiser les tournées d'entretien en priorisant les arrondissements avec une forte densité d'arbres et en ciblant les arbres identifiés comme remarquables ou nécessitant une attention particulière.
- Planter de nouveaux arbres dans les arrondissements moins arborés pour équilibrer la répartition de l'espace arboré.
- Mesurer à nouveaux les arbres contenant des valeurs aberrantes ou enregistrées à 0.

**Limites de l'Analyse et Suggestions pour les Travaux Futurs** :
- L'analyse a été limitée par certaines données manquantes et des approximations nécessaires pour traiter les valeurs aberrantes.
- Des analyses futures pourraient intégrer des données supplémentaires, telles que les conditions environnementales, temporelles ou les préférences des résidents, pour affiner les recommandations.iner les recommandations.iner les recommandations.affiner les recommandations.