# <a id='toc1_'></a>[Projet 1 : Participez  un concours sur la smart City](#toc0_)

![image.png](https://www.notre-planete.info/actualites/images/infrastructures/arbres-Paris.jpg)

**Table of contents**<a id='toc0_'></a>    
- [Projet 1 : Participez  un concours sur la smart City](#toc1_)    
  - [Contexte et règle : Concours Smart City](#toc1_1_)    
  - [Analyse des données](#toc1_2_)    
    - [Importation des librairies](#toc1_2_1_)    
    - [Importation du jeu de données (via fichier ou api)](#toc1_2_2_)    
    - [1ère Inspection du dataset](#toc1_2_3_)    
  - [Suppression et renommage des colonnes du dataset](#toc1_3_)    

<!-- vscode-jupyter-toc-config
	numbering=false
	anchor=true
	flat=false
	minLevel=1
	maxLevel=6
	/vscode-jupyter-toc-config -->
<!-- THIS CELL WILL BE REPLACED ON TOC UPDATE. DO NOT WRITE YOUR TEXT IN THIS CELL -->

## <a id='toc1_1_'></a>[Contexte et règle : Concours Smart City](#toc0_)
Vous avez décidé de participer à un challenge proposé par la ville de Paris ! Voici le cahier des charges du challenge, que vous avez trouvé sur le site :

Dans ce challenge, ouvert à tous, vous allez réaliser une analyse exploratoire avec un jeu de données portant sur les arbres de la ville de Paris, dans le cadre du programme “Végétalisons la ville”.

Vos résultats contribueront à une optimisation des tournées pour l’entretien des arbres de la ville. Eh oui, moins de tournées signifie moins de trajets, et plus d’arbres entretenus.

Vous aurez ainsi un impact réel sur le futur de la ville de Paris !

**Données**: 

Téléchargez le jeu de données des arbres de la ville de Paris. Vous pouvez aussi le consulter dans son contexte sur [opendata.paris.fr](https://opendata.paris.fr/explore/dataset/les-arbres/information/?dataChart=eyJxdWVyaWVzIjpbeyJjb25maWciOnsiZGF0YXNldCI6Imxlcy1hcmJyZXMiLCJvcHRpb25zIjp7fX0sImNoYXJ0cyI6W3siYWxpZ25Nb250aCI6dHJ1ZSwidHlwZSI6ImNvbHVtbiIsImZ1bmMiOiJBVkciLCJ5QXhpcyI6ImlkYmFzZSIsInNjaWVudGlmaWNEaXNwbGF5Ijp0cnVlLCJjb2xvciI6IiMwMDMzNjYifV0sInhBeGlzIjoidHlwZWVtcGxhY2VtZW50IiwibWF4cG9pbnRzIjo1MCwic29ydCI6IiJ9XSwidGltZXNjYWxlIjoiIiwiZGlzcGxheUxlZ2VuZCI6dHJ1ZSwiYWxpZ25Nb250aCI6dHJ1ZX0%3D&disjunctive.typeemplacement&disjunctive.arrondissement&disjunctive.libellefrancais&disjunctive.genre&disjunctive.espece&disjunctive.varieteoucultivar&disjunctive.stadedeveloppement&disjunctive.remarquable&location=13,48.86838,2.30953&basemap=jawg.streets) 

**Règles du challenge** :

- Si ce n’est pas fait, installez votre environnement de développement sur votre ordinateur, et créez un environnement virtuel dédié à ce challenge.
- Les données doivent être explorées à l’aide de Python et de ses librairies. 
- Vous soumettrez votre analyse sous forme de présentation, contenant les informations suivantes :
- Présentation générale du jeu de données
- Démarche méthodologique d’analyse de données 
- Synthèse de l’analyse de données

- Le second livrable prendra la forme d’un Notebook Jupyter. 
Le Notebook sera documenté pour expliciter les différents traitements, calculs ou graphiques que vous effectuez en utilisant les fonctionnalités d’édition de texte de Jupyter. Vos explications doivent permettre à un public non technique de comprendre les différentes étapes de votre analyse et votre synthèse.

## <a id='toc1_2_'></a>[Analyse des données](#toc0_)

### <a id='toc1_2_1_'></a>[Importation des librairies](#toc0_)

In [1]:
# Library Import
import pandas as pd
import requests

### <a id='toc1_2_2_'></a>[Importation du jeu de données (via fichier ou api)](#toc0_)

In [2]:
# Read csv dataset from folder 'dataset' contain CSV with separator ;
df_arbre = pd.read_csv('dataset/les-arbres.csv',sep=";")

In [4]:
# Use API for read CSV dataset without downloading CSV files

# Define the API endpoint URL


api_url = "https://opendata.paris.fr/api/explore/v2.0/catalog/datasets/les-arbres/exports/csv?delimiter=%3B&list_separator=%2C&quote_all=false&with_bom=false"

# Make GET request to the API
response = requests.get(api_url)
print(response)
# Check if the request was successful (status code 200)
if response.status_code == 200:

    df_arbre = pd.read_csv(api_url,sep=";")
else:
    print("Request failed with status code:", response.status_code)


<Response [200]>


### <a id='toc1_2_3_'></a>[1ère Inspection du dataset](#toc0_)

Nous allons vérifier que notre Dataframe c'est bien chargé en affichant les deux première ligne de notre Dataframe **df_arbre**

In [5]:
# View 2 first row of dataframe
df_arbre.head(2)

Unnamed: 0,idbase,typeemplacement,domanialite,arrondissement,complementadresse,numero,adresse,idemplacement,libellefrancais,genre,espece,varieteoucultivar,circonferenceencm,hauteurenm,stadedeveloppement,remarquable,geo_point_2d
0,230515,Arbre,Alignement,PARIS 11E ARRDT,,,BOULEVARD DE CHARONNE,000203009,Sophora,Sophora,japonica,,115,15,Adulte,NON,"48.85084508831151, 2.3984921489487445"
1,152291,Arbre,CIMETIERE,VAL-DE-MARNE,,,CIMETIERE DE THIAIS / AVENUE TRANSVERSALE N1 /...,A14900051007,Charme,Carpinus,betulus,''Fastigiata'',0,0,,,"48.76063596486649, 2.371914191091841"


Regardons maintenant combien de lignes et de colonnes nous avons dans notre dataframe

In [6]:
# See the shape of dataframe
f"Notre dataset contient {df_arbre.shape[0]} lignes et {df_arbre.shape[1]} colonnes pour décrire nos données."

'Notre dataset contient 207586 lignes et 17 colonnes pour décrire nos données.'

Vérifions si les types des données des colonnes sont appropriés

In [7]:
# See types of values in the dataframe
df_arbre.dtypes

idbase                  int64
typeemplacement        object
domanialite            object
arrondissement         object
complementadresse      object
numero                float64
adresse                object
idemplacement          object
libellefrancais        object
genre                  object
espece                 object
varieteoucultivar      object
circonferenceencm       int64
hauteurenm              int64
stadedeveloppement     object
remarquable            object
geo_point_2d           object
dtype: object

Pandas a bien converti nos données dans le bon type il n'aura pas de conversion sur le types de données à faire

Regardons maintenant le taux de valeurs manquantes dans chaque colonnes

In [8]:
# See Nan values on dataframe
df_arbre.isna().mean()

idbase                0.000000
typeemplacement       0.000000
domanialite           0.000000
arrondissement        0.000000
complementadresse     0.726301
numero                1.000000
adresse               0.000000
idemplacement         0.000000
libellefrancais       0.005814
genre                 0.000010
espece                0.011923
varieteoucultivar     0.808797
circonferenceencm     0.000000
hauteurenm            0.000000
stadedeveloppement    0.229023
remarquable           0.109107
geo_point_2d          0.000000
dtype: float64

Observation sur les valeurs manquantes : 
- La colonne **typeemplacement** contient seulement mention 'Arbre' pour chaque valeur (colonne à supprimer)
- La colonne **numero** contient que des valeurs nulles (colonne à supprimer)
- La colonne **complementadresse** contient **72%** de valeurs nulle, cette colonne ne nous servira pas pour notre analyse (colonne à supprimer)

### Vérification des duplicatas
Chaque arbre de paris a un identifiant unique valeur contenu dans la colonne **idbase** vérifions que chaque valeurs est bien unique

In [9]:
# Create variable for see all duplicate value in idbase column
duplicated_values = df_arbre[df_arbre['idbase'].duplicated(keep=False)]

# Print the duplicated values to see all values of two
display(duplicated_values)


Unnamed: 0,idbase,typeemplacement,domanialite,arrondissement,complementadresse,numero,adresse,idemplacement,libellefrancais,genre,espece,varieteoucultivar,circonferenceencm,hauteurenm,stadedeveloppement,remarquable,geo_point_2d
80947,227160,Arbre,Alignement,PARIS 6E ARRDT,,,PORT DES SAINTS PERES / QUAI MALAQUAIS,201008,Peuplier,Populus,alba,''Raket'',20,5,Jeune (arbre),NON,"48.85831741176347, 2.3344414199576278"
111297,227160,Arbre,Alignement,PARIS 6E ARRDT,,,PORT DES SAINTS PERES / QUAI MALAQUAIS,201008,Peuplier,Populus,alba,''Raket'',165,15,,NON,"48.85831741176347, 2.3344414199576278"


In [10]:
# Drop the duplicated values and keep the values with more information
df_arbre = df_arbre.drop_duplicates(keep='first')

Notre dataset contient un seul arbre en double, nous avons choisi de gardé la valeur de la ligne 91478 qui contient plus d'information sur l'arbre.

### Arbre remarquable 
La colonne 'remarquable' contient deux valeurs soit 'NON' ou 'OUI' soit 'Nan'. On sait que notre colonne contient environ **10 %** de valeurs nulle.
Pour vérifier le nombre d'arbre remarquable à paris nous allons vérifier nos données grâce a un autre dataset comptabilisant les arbres remarquable [disponible ici](https://opendata.paris.fr/explore/dataset/arbresremarquablesparis/).

- Quesqu'un arbre remarquable ?

Selon l'observatoire des arbres de paris un arbre remarquable se distingue selon plusieurs caractéristiques :
> "La beauté, l’âge, les dimensions, l’histoire, les légendes, les coutumes, la rareté, les curiosités sont autant d’éléments qui permettent d’identifier des arbres hors du commun. Le caractère remarquable d’un arbre reste toutefois librement appréciable."

Comparons maintenant les arbres remarquables de notre dataset avec celui contenant spécifiquement les arbres remarquables

In [28]:
# Compare values of dataset on tree remarquable 

# Use API for read CSV dataset without downloading CSV files

# Define the API endpoint URL
api_url = "https://opendata.paris.fr/api/explore/v2.0/catalog/datasets/arbresremarquablesparis/exports/csv?delimiter=%3B&list_separator=%2C&quote_all=false&with_bom=false"

# Make GET request to the API
response = requests.get(api_url)
print(response)
# Check if the request was successful (status code 200)
if response.status_code == 200:

    df_remarquable = pd.read_csv(api_url,sep=";")
else:
    print("Request failed with status code:", response.status_code)

df_remarquable['arbres_idbase'] = df_remarquable['arbres_idbase'].astype('int64')

<Response [200]>


In [30]:
# Create a dataframe with only remarquable trees 
df_arbre_remarquable = df_arbre[df_arbre['remarquable'] == 'OUI']



### <a id='toc1_3_'></a>[Suppression et renommage des colonnes du dataset](#toc0_)