# Arbres - Version avancée

L'exercice original visait à s'exercer avec les types de base Python.

Dans la vraie vie, quand on veut faire de l'analyse de données (à partir d'un fichier CSV, par exemple), on utilise des _libraries_ conçues pour ça.

Ici, dans la version avancée, on va utiliser `pandas`.

Voir [Murales - Version avancée](https://colab.research.google.com/drive/1ml1fkVBqb1mkUQYZPvIuJxIIQBu9PFec?usp=sharing) pour une intro à `pandas`.

Au besoin, se référer au [Guide de base Pandas](https://colab.research.google.com/drive/193iDeAjPXpwVoSZAHaZG_wQleAie7wrq?usp=sharing) de Montréal-Python.

## Load data

In [None]:
import pandas as pd

In [None]:
url = "https://raw.githubusercontent.com/mtlpy/mp-84-atelier/master/arbres_montreal_2021.csv"
data = pd.read_csv(url)

## Explore data

In [None]:
data.columns

len(data['essence_fr'].unique())
# 829 essences en français

len(data['essence_lat'].unique())
# 834 essences en latin

834

Bon, on voit que
* on a un bon volume de données
* on a des minuscules, majuscules dans les champs `essence_*`
* on n'a pas la même volumétrie d'essence en fr et en lat

On va devoir faire des requêtes pour explorer les données.

### Subset

On peut sélectionner un sous-ensemble de données un peu à la manière de requêtes SQL grâce à `query()` du DataFrame (direct sur le jeu de données, pas sur une colonne ni sur une rangée).

Aussi, les colonnes ayant des valeurs de type strings donnent accès à des fonctions derrière `.str`
* https://pandas.pydata.org/pandas-docs/stable/user_guide/text.html

Pour introspecter les opérations possibles, stockez une colonne dans une variable et introspectez
```
colonne = data['essence_fr']
colonne.str. (+ tab)
```


In [None]:
# requête (query) sur le jeu de données pour savoir si essence_fr en minuscule contient 'bouleau'
bouleaux = data.query("essence_fr.str.lower().str.contains('bouleau')", engine="python")

# essence_fr.str.lower() retourne une colonne avec valeurs en string tout en minuscule
# sur cette colonne, aussi en string, on peut utiliser encore `.str` pour d'autres opérations sur string
# on peut donc tester si la chaîne en minuscule contient 'bouleau'
# (note engine="python" pas nécessaire en local, nécessaire pour .ipynb de Colab car default engine est numexpr: merci Ivan!)

In [None]:
len(bouleaux)

1910

## Exercice: arrondissement avec moins de bouleaux

In [None]:
bouleaux['nom_arrond'].value_counts()

Rivière-des-Prairies-Pointe-aux-Trembles    267
Côte-des-Neiges-Notre-Dame-de-Grâce         242
Rosemont-La Petite-Patrie                   231
Pierrefonds-Roxboro                         229
Ahuntsic-Cartierville                       206
LaSalle                                     190
Le Sud-Ouest                                110
Verdun                                      103
Mercier-Hochelaga-Maisonneuve                79
Montréal-Nord                                68
Villeray-Saint-Michel-Parc-Extension         57
Saint-Laurent                                54
Saint-Léonard                                35
Le Plateau-Mont-Royal                        27
Ville-Marie                                  12
Name: nom_arrond, dtype: int64

## Exercice: 3 premiers résultats dans un format agréable à lire


In [None]:
bouleaux['nom_arrond'].value_counts().iloc[0:3]

## Exercice bonus: trier sur nom d'arrondissement

In [None]:
bouleaux['nom_arrond'].value_counts().sort_index()

## Conclusion

Pandas c'est bon
* mais c'est meilleur avec `.query()` pour requêtes sur données
* et `.str` pour opérations sur les strings

# Licence

Copyright 2021 Montréal-Python

Permission is hereby granted, free of charge, to any person obtaining a copy of this software and associated documentation files (the "Software"), to deal in the Software without restriction, including without limitation the rights to use, copy, modify, merge, publish, distribute, sublicense, and/or sell copies of the Software, and to permit persons to whom the Software is furnished to do so, subject to the following conditions:

The above copyright notice and this permission notice shall be included in all copies or substantial portions of the Software.

THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY, FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE SOFTWARE.
