# Contribition à l'optimisation des tournées pour l’entretien des arbres de la ville de Paris
## OpenClassRooms
## Suan Tay - Juillet 2020
<img src="https://drive.google.com/uc?id=1VkeQ1v3faPXy-1pBWOovlDNIg21NwKrx" alt="Data Paris" style="width: 600px;"/>


## Projet 2 : Smart City
> Dans le cadre du challenge Data sponsorisé par la ville de Paris.  
> je dois aider Paris à devenir une *smart-city* .  
> Je dois effectuer une analyse des données sur les *arbres* de Paris.  
L'analyse se déroulera en 3 phases :
1. Présentation générale du jeu de données
2. Démarche méthodologique d’analyse de données 
3. Synthèse de l’analyse de données

## Environnement virtuel  
  
> Environnement utiliser : *p2smartcity*
 ![image](https://drive.google.com/uc?id=1k0XrIPui99h-smuGSReRHnVWKKyTkrxB)

## Importation des librairies python spécialisées et csv

In [None]:
%matplotlib inline

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

df = pd.read_csv('p2-arbres-fr.csv', sep=';')

# 1. Présentation générale du jeu de données

## Brève description du jeu de données

In [None]:
df.info()

## Calcule des indicateurs statistiques basiques (moyenne et écart-type)  pour les différentes colonnes

#### Nombre de colonnes et de lignes

In [None]:
print('Nombres de lignes : %s , nombres de colonnes : %s' % df.shape)

### Statistiques basiques :

In [None]:
df.describe()

#### Enumération des colonnes

In [None]:
df.columns

#### Type de chaque colonne :

In [None]:
df.dtypes

## Comparaison de l'ordre de grandeur des grandeurs statistiques des différentes colonnes

In [None]:
df.describe()

In [None]:
print('La valeur maximum de la hauteur d\'un arbre est trop grande : %s (m).' % max(df.hauteur_m))
print('Ainsi que la valeur du maximum de la circonference : %s (cm).' % max(df.circonference_cm))

# 2. Démarche méthodologique d’analyse de données

##  Données manquantes :

In [None]:
df.isnull().any()
# False n'a pas de null
# True à des null
# A traiter 
df.columns[df.isnull().any()]

##  Dénombrons les données manquantes :

In [None]:
df.isnull().sum()

In [None]:
print('Nombres de lignes : %s, nombres de colonnes : %s.' % df.shape)

### Suppression des données manquantes

In [None]:
df.dropna(subset=['libelle_francais','espece','domanialite','genre'],inplace=True)

In [None]:
print('Nombres de lignes : %s, nombres de colonnes : %s.' % df.shape)

### Supprimons de doublons

In [None]:
df.drop_duplicates(keep=False, inplace=True)

In [None]:
print('Nombres de lignes : %s, nombres de colonnes : %s.' % df.shape)

# Identification des valeurs aberrantes avec la règle 1,5 x écart interquartile
https://fr.khanacademy.org/math/statistics-probability/summarizing-quantitative-data/box-whisker-plots/a/identifying-outliers-iqr-rule
    
https://www.it-swarm.dev/fr/python/detecter-et-exclure-les-valeurs-aberrantes-dans-le-cadre-de-donnees-pandas/1046331960/

### Valeurs aberrantes avec la règle 1,5 écart interquartile
> L’écart interquartile est une mesure de dispersion qui s'obtient en faisant la différence entre le troisième et le premier quartile :  
> **EI = Q₃ - Q₁**.  
> L'EI est un estimateur statistique robuste.  
>  Une valeur est dite aberrante  
>  si elle est inférieure à  **Q₁ - 1,5 x EI**  
>  et  
>  si elle est supérieure à **Q₃ + 1,5 x EI**.

In [None]:
def remove_outliers(df, column):
    '''IQR
    Cette fonction calcule l'IQR- interquartile range
    Parameters
    ----------
    df : dataframe 
    column : colonne
        Supprime les valeurs aberrantes selon l'IQR.
    Returns
    -------
    df
        df (True/False) avec les valeurs qui sont dans IQR
    '''
    # Calcul Q1, Q2 et IQR
    Q1=df[column].quantile(0.25)
    Q3=df[column].quantile(0.75)
    IQR=Q3 - Q1
    #outliers limits
    upper = Q3 + 1.5 * IQR
    lower = Q1 - 1.5 * IQR
    # mask
    mask = (df[column] >= lower) & (df[column] <= upper)
    return mask

In [None]:
print("Nombre d'enregistrement initial                     : %s \nNombre de colonnes : %s " % df.shape)
#hauteur
df=df[remove_outliers(df,'hauteur_m')]
print("Nombre d'enregistrement après IQR sur la hauteur    : %s \nNombre de colonnes : %s " % df.shape)
#circonference
df=df[remove_outliers(df,'circonference_cm')]
print("Nombre d'enregistrement après IQR sur circonference : %s \nNombre de colonnes : %s " % df.shape)

Les données ont été nettoyées :
1. Suppression des données vides
2. Suppression des doublons
3. Suppression des valeurs aberrantes

# 3. Synthèse de l'analyse de données

# Analyse univarié 

## Variable discrète

> Les variables discrètes sont des variables numériques ayant des valeurs dénombrables entre deux valeurs. 
> Une variable discrète est toujours numérique. Par exemple, le nombre de plaintes de clients ou le nombre de défauts.

## Hauteur

In [None]:
#avec seaborn
plt.style.use('seaborn-whitegrid')
plt.rcParams.update({ 'font.size' : 15})
fig,ax=plt.subplots(1,1, figsize = (15,6))
plt.title("Histogramme hauteur des arbres")
sns.countplot( x='hauteur_m', data=df[df.hauteur_m>0])
ax.set( ylabel="Nombre d'arbres",xlabel="Hauteur des arbres (m)")

## Circonférence 

In [None]:
# avec Matplotlib
plt.subplots(1,1, figsize = (8,6))

#l'histogramme sans bins
df.circonference_cm.hist()
#titre du tableau
plt.title("Histogramme circonférence",fontsize=18)
plt.xlabel("circonférence (cm)",fontsize=15)
plt.ylabel("Nombre d'arbres",fontsize=15)
plt.show()

## Type d'emplacement 

In [None]:
#l'histogramme 
df.type_emplacement.hist()
#titre du tableau
plt.title("Histogramme type d'emplacement",fontsize=18)
plt.xlabel("Type d'emplacement",size=15)
plt.ylabel("Nombre d'arbres",size=15)

## Variable de catégorie

> Les variables de catégorie ont un nombre fini de catégories ou de groupes distincts. Les données de catégorie peuvent ne pas présenter d'ordre logique. 
> Par exemple, les prédicteurs de catégorie incluent le sexe d'individus, le type de matériel et le mode de paiement.

## Domanialité

In [None]:
df[['domanialite']].groupby('domanialite')['domanialite'].count().sort_values(ascending=False)

In [None]:
plt.style.use('seaborn-whitegrid')
fig,ax=plt.subplots(1,1, figsize = (8,6))
plt.title("Histogramme domanialité", size=18)
sns.countplot( y='domanialite', data=df,order = df['domanialite'].value_counts().index)
ax.set( xlabel="Nombre d'arbres",ylabel="Domanialité par type")

## Arrondissement

In [None]:
df[['arrondissement']].groupby('arrondissement')['arrondissement'].count().sort_values(ascending=False)

In [None]:
fig,ax=plt.subplots(1,1, figsize = (15,6))
sns.countplot( y='arrondissement', data=df, order = df['arrondissement'].value_counts().index)
plt.title("Histogramme du nombre d'arbres par arrondissement")
ax.set( xlabel="Nombre d'arbres",ylabel="Arrondissements")
plt.yticks(size=12)

### Notion de classement botanique

![image](https://drive.google.com/uc?id=1w4TAftKPc7nc1LJ9LhPWH7dgYJEp4iQ9)

## Espèce

In [None]:
df[['espece','id']].groupby(['espece']).agg(['count'])

In [None]:
fig,ax=plt.subplots(1,1, figsize = (15,6))
sns.countplot( x="espece", 
              data=df,
              order = df["espece"].value_counts().iloc[:20].index)
plt.title("Histogramme des espèces d'arbres", size=17)
ax.set( xlabel="Espèse d'arbres",ylabel="Nombre d'arbres")
plt.yticks(size=15)
plt.xticks(rotation=60,size=15)

### Variété

In [None]:
df[['variete','id']].groupby(['variete']).agg(['count'])

In [None]:
fig,ax=plt.subplots(1,1, figsize = (15,6))
sns.countplot( y="variete", 
              data=df,
              order = df["variete"].value_counts().iloc[:20].index)
plt.title("Histogramme des variétés d'arbres", size=17)
ax.set( xlabel="Variétés d'arbres",ylabel="Nombre d'arbres")
plt.yticks(size=15)
plt.xticks(rotation=60,size=15)

## Genre

In [None]:
df[['genre','id']].groupby(['genre']).agg(['count']).head()

In [None]:
fig,ax=plt.subplots(1,1, figsize = (15,6))
sns.countplot( x="genre", 
              data=df,
              order = df["genre"].value_counts().iloc[:20].index)
plt.title("Histogramme du genre des arbres, libellé latin", size=17)
ax.set( xlabel="Genre d'arbres",ylabel="Nombre d'arbres")
plt.yticks(size=15)
plt.xticks(rotation=60,size=15)

## Libellé des arbres en français

In [None]:
df[['libelle_francais','id']].groupby(['libelle_francais']).agg(['count'])

In [None]:
fig,ax=plt.subplots(1,1, figsize = (15,6))
sns.countplot( x="libelle_francais", 
              data=df,
              order = df["libelle_francais"].value_counts().iloc[:20].index)
plt.title("Histogramme du genre des arbres, libellé français", size=17)
ax.set( xlabel="Genre d'arbres",ylabel="Nombre d'arbres")
plt.yticks(size=15)
plt.xticks(rotation=60,size=15)

## Exemples d'analyse bivarié 

In [None]:
plt.style.use('seaborn-whitegrid')
plt.rcParams.update({ 'font.size' : 15})
fig,ax=plt.subplots(1,1, figsize = (15,6))
plt.title('Hauteurs et circonférences des arbres',size=18)
sns.lineplot( x='hauteur_m',y='circonference_cm', data=df[df.hauteur_m>0], label = 'Arbres'
             ,err_style="band", color='green',legend="full")
ax.set( xlabel="Hauteur des arbres (m)",ylabel="Circonférence (cm)")

### Boîte à Moustache


> Une *boîte à moustaches* montre la répartition des données quantitatives d'une manière qui facilite la comparaison entre les variables. 
> Elle permet de représenter la médiane, les quartiles et 
>les données aberrantes (outliers).

In [None]:
fig,ax=plt.subplots(1,1, figsize = (15,6))
fig=sns.boxplot(y= 'hauteur_m', x= 'genre' , data = df,order = df["genre"].value_counts().iloc[:20].index)
plt.title("IQR du genre d'arbre et hauteurs", size=18)
ax.set( xlabel="Genre d'arbres",ylabel="Hauteur des arbres (m)")
plt.yticks(size=15)
plt.xticks(rotation=60,size=15)

# Merci de votre écoute  
  
  
  




> # Avez-vous des Questions ?