# Murales - Version avancée

L'exercice original visait à s'exercer avec les types de base Python.

Dans la vraie vie, quand on veut faire de l'analyse de données (à partir d'un fichier CSV, par exemple), on utilise des _libraries_ conçues pour ça.

Ici, dans la version avancée, on va utiliser `pandas`.

## Installer pandas

`pandas` n'est pas dans la _Standard Library_ (ne vient pas par défaut avec Python), faut donc l'installer
* Colab `!pip install pandas`
* Machine locale `pip install pandas`

In [None]:
!pip install pandas

## Import

Par convention, on renomme `pd`.

In [None]:
import pandas as pd

## Load data

Pandas a des readers pour différents formats de données, incluant CSV.

In [None]:
url = "https://raw.githubusercontent.com/mtlpy/mp-84-atelier/master/murales_montreal_2021.csv"
data = pd.read_csv(url)

## Explore data

Les données sont loadés dans une structure de données appelée un `DataFrame`. C'est en quelque sorte un gros tableau avec colonnes et rangées (indexées: donc appelables par leurs index).

In [None]:
type(data)
data
data.

### Columns

Voir tous les noms de colonnes.

In [None]:
data.columns

Récupérer toutes les valeurs d'une colonne



In [None]:
data['nom_arrond']

Les colonnes sont des objets de type `Series`.



In [None]:
type(data['nom_arrond'])

Explorer les valeurs pour une colonne

In [None]:
# valeurs uniques
data['nom_arrond'].unique()

# nombre de rangées (rows) pour chaque valeur
data['nom_arrond'].value_counts()

### Rows

On peut accéder à la première rangées en utilisant l'entier (integer) correspondant à sa localisation avec [.iloc](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.iloc.html#pandas.DataFrame.iloc) (`i` pour integer).

In [None]:
data.iloc[0]

Les rangées sont aussi des objets de type `Series`.



In [None]:
type(data.iloc[0])

## Exercice: arrondissement avec le plus de murales

In [None]:
# liste complète
data['nom_arrond'].value_counts()

In [None]:
# value_counts() retourne aussi un object Series
vc = data['nom_arrond'].value_counts()

# vraie réponse à la question (car value_counts retourne résultats triés)
vc.first_valid_index()

In [None]:
# vraie réponse (ne comptant pas sur le tri de value_counts)
vc.idxmax()

## Exercice: plus d'occurences en premier

On l'a par défaut avec `value_counts()`... essayons alors de faire l'inverse? Moins d'occurences en premier?

Une introspection montre rapidement qu'on peut trier (_sort_) sur l'index ou sur les valeurs... ben voilà!

In [None]:
vc.
vc.sort_values?
vc.sort_values()

## Exercice: 3 premiers résultats dans un format agréable à lire

Le format est déjà agréable à lire...

Mais prenons les 3 premiers résultats seulement.

On doit pouvoir slicer, non?

In [None]:
vc.iloc[0:3]

## Exercice bonus: trier sur nom d'arrondissement

On l'a dit... on peut faire _sort_ sur index ou valeurs...

In [None]:
vc.sort_index?
vc.sort_index()

## Conclusion

C'est bon de connaître les types de base :)
* faire l'exercice d'origine est pertinent
* mais c'est fastidieux car ça utilise les types de "bas niveau"

_Right tool for the right job..._
* `pandas` c'est l'outil d'analyse de données de Python

# Licence

Copyright 2021 Montréal-Python

Permission is hereby granted, free of charge, to any person obtaining a copy of this software and associated documentation files (the "Software"), to deal in the Software without restriction, including without limitation the rights to use, copy, modify, merge, publish, distribute, sublicense, and/or sell copies of the Software, and to permit persons to whom the Software is furnished to do so, subject to the following conditions:

The above copyright notice and this permission notice shall be included in all copies or substantial portions of the Software.

THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY, FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE SOFTWARE.
