# Arbres

Cet exercice vise à explorer les opérations de base de Pandas avec des [données ouvertes sur les arbres de Montréal](https://donnees.montreal.ca/ville-de-montreal/arbres) fournies par la Ville de Montréal. Il est la suite logique de l'exercice [Murales](https://colab.research.google.com/drive/17Vx-HGvMgLuLXoMm0_s0fIXUMG-iR2wE) car le jeu de données Arbres est plus grand et l'exercice va plus loin dans les requêtes/filtres (et optionnellement le nettoyage de données).

Le but de l'exercice est d'**identifier l'arrondissement de Montréal ayant le moins de bouleaux**.

Au besoin, se référer au [Guide de base Pandas](https://colab.research.google.com/drive/193iDeAjPXpwVoSZAHaZG_wQleAie7wrq?usp=sharing) de Montréal-Python.

_Note:  
Cet exercice est une réécriture d'un [autre exercice Arbres](https://colab.research.google.com/drive/1R2xh_tflIp0zVU19M9yTmNpWiJ__pRbG?usp=sharing) de Montréal-Python. L'autre visait à s'exercer avec les types de base, celui-ci vise à s'exercer avec pandas._


1+1

## Récupérer vos données

Pour cet exercice, vous pouvez
* soit prendre les [données récentes](https://donnees.montreal.ca/ville-de-montreal/arbres) directement de la Ville de Montréal
    * récupérez-les au format CSV
* soit prendre le [jeu de données fourni par Montréal-Python](https://raw.githubusercontent.com/mtlpy/mtlpy-exercises/main/mtl/arbres/arbres-publics.csv) [~95 Mo]
    * le solutionnaire utilise ce jeu de données

Les données sont assez intuitives mais vous pouvez vous référer au [dictionnaire de données](https://donnees.montreal.ca/ville-de-montreal/arbres) sur la page du jeu de données.

## Charger vos données

Première étape, chargez vos données à l'aide de la _librarie_ Pandas.



### Import

D'abord, dans Colab, importez la _librarie_ `pandas` en suivant la convention de nommage habituelle.



In [2]:
a=1
b=2

1+1
c=a+b
print(c)

3


### Charger

Finalement, chargez vos données CSV dans une variable nommée `data` à l'aide de la fonction appropriée. (Indice: la fonction se trouve au premier niveau du _namespace_ de la _librairie_ `pandas`... introspectez le namespace à la racine.)

Si vous travaillez avec le jeu de données de Montréal-Python
* prenez le fichier https://raw.githubusercontent.com/mtlpy/mtlpy-exercises/main/mtl/arbres/arbres-publics.csv [~95 Mo]

## Explorer et préparer les données


### Vue d'ensemble

Prenez connaissance de manière générale des données chargées
* volumétrie des colonnes et rangées
* noms des colonnes
* aperçu des types et des valeurs des données

Est-ce que le dictionnaire de données semble cohérent avec ce que vous voyez?

### Vérifier les valeurs

Il est utile de vérifier les valeurs de toutes les colonnes (surtout quand les données ne sont pas documentées) afin d'avoir une meilleure idée de leur sémantique et de leurs relations.

Vérifiez
* les valeurs uniques de chaque colonne
    * y a-t-il des valeurs nulles?
    * y a-t-il des erreurs ou des valeurs mal formattées (à transformer)?
* le nombre d'occurence de chaque valeur
    * les valeurs nulles ou erronées sont-elles marginales?


## Analyser les données

Maintenant, vous connaissez votre jeu de données.

Identifiez les colonnes qui sont nécessaires pour trouver l'arrondissement ayant le moins de bouleaux.

### Exercice: arrondissement avec le moins de bouleaux

Identifiez l'arrondissement qui a le moins de bouleaux.

Explorez 2 approches
* une approche naïve qui utilise le string `bouleau` dans le nom français de l'essence de l'arbre
* une approche plus exhaustive qui vise à vraiment identifier les données qui correspondent aux bouleaux, en explorant les noms français, latins voire anglais appropriés et/ou le sigle (genre, espèce, cultivar)
    * se référer au dictionnaire de données
    * peut nécessiter quelques connaissances en botanique :)

Astuce:  
les colonnes ayant des valeurs de type strings donnent accès à des fonctions derrière `.str`
* exemple: `data['Essence_fr'].str.contains('bouleau')`

## Aller plus loin

### Exercice: plus d'occurences en premier

Triez les arrondissements avec en premier les arrondissements ayant le plus d'occurences.

### Exercice: 3 premiers résultats dans un format agréable à lire

Affichez les 3 premiers résultats dans un format plus agréable à lire.  Par exemple: 

* Nom 1: 21
* Nom 2: 10

### Exercice: trier sur nom d'arrondissement


Triez la liste en ordre alphabétique sur le nom de l'arrondissement plutôt que sur le nombre d'occurrences.

### Autres exercices

L'[exercice Hydro](https://colab.research.google.com/drive/1ncLXLOEI4kfp81c6LKvDaRQ4siKK_pfJ?authuser=1) va plus loin dans le **nettoyage des données** et explore la **visualisation de données**.

## Solutionnaire

Voici le [solutionnaire](https://colab.research.google.com/drive/1CiT0-SrPI3USjQ4CU2fAJ2ptQLAdTeot).

# Licence

Copyright 2021 Montréal-Python

Permission is hereby granted, free of charge, to any person obtaining a copy of this software and associated documentation files (the "Software"), to deal in the Software without restriction, including without limitation the rights to use, copy, modify, merge, publish, distribute, sublicense, and/or sell copies of the Software, and to permit persons to whom the Software is furnished to do so, subject to the following conditions:

The above copyright notice and this permission notice shall be included in all copies or substantial portions of the Software.

THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY, FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE SOFTWARE.
