# Murales : solutionnaire

_Note:  
Ce solutionnaire utilise le **jeu de données de Montréal-Python** car les données sources de la Ville de Montréal peuvent changer dans le temps (structure et données). Le jeu de données de Montréal-Python assure la pérennité du solutionnaire (pas besoin de changer le nom des colonnes, par exemple :) )._

## Installer pandas

`pandas` n'est pas dans la _Standard Library_ (ne vient pas par défaut avec Python), faut donc l'installer
* Pour Colab, c'est installé par défaut, pas besoin d'installer, sinon on pourrait le faire avec `!pip install pandas`
* Machine locale `pip install pandas`

## Charger vos données

### Import

Par convention, on renomme `pd`.

In [None]:
import pandas as pd

### Charger

Pandas a des readers pour différents formats de données, incluant CSV.

In [None]:
url = "https://raw.githubusercontent.com/mtlpy/mtlpy-exercises/main/mtl/murales/murales.csv"
data = pd.read_csv(url)

## Explorer et préparer les données


### Vue d'ensemble

Les données sont chargées dans une structure de données appelée un `DataFrame`. C'est en quelque sorte un tableau avec colonnes et rangées (indexées: donc appelables par leurs index).

In [None]:
type(data)

pandas.core.frame.DataFrame

In [None]:
# volumétrie des colonnes et rangées et
# aperçu des types et valeurs des données
data

Unnamed: 0,id,artiste,organisme,adresse,annee,arrondissement,programme_entente,latitude,longitude,image
0,1,Yannick Picard,MU,"4105, 47e rue (coin Pie IX)",2007,Villeray–Saint-Michel–Parc-Extension,Programme graffitis et murales,45.580410,-73.622218,https://depot.ville.montreal.qc.ca/murales/MU-...
1,2,Artducommun,Corporation de développement urbain Faubourg S...,coin des rues Saint-Laurent et Viger,2007,Ville-Marie,Programme graffitis et murales,45.506855,-73.558029,https://depot.ville.montreal.qc.ca/murales/CDU...
2,3,Carlito Dalceggio,MU,"3 601, rue De Bullion (coin Prince-Arthur)",2008,Le Plateau-Mont-Royal,Programme graffitis et murales,45.515387,-73.571347,https://depot.ville.montreal.qc.ca/murales/MU-...
3,4,Dominique Desbiens,MU,"7255, Lajeunesse (coin Jean-Talon)",2008,Villeray–Saint-Michel–Parc-Extension,Programme graffitis et murales,45.539966,-73.614816,https://depot.ville.montreal.qc.ca/murales/MU-...
4,5,Yannick Picard,MU,"8090, rue des Érables",2008,Villeray–Saint-Michel–Parc-Extension,Programme graffitis et murales,45.555841,-73.616364,https://depot.ville.montreal.qc.ca/murales/MU-...
...,...,...,...,...,...,...,...,...,...,...
229,230,Borrris,Y’a QuelQu’un l’aut’bord du mur (YQQ),"5955, rue de Marseille",2020,Mercier–Hochelaga-Maisonneuve,Programme d'art mural (volet 2),45.574706,-73.542258,https://depot.ville.montreal.qc.ca/murales/202...
230,231,Bryan Beyung,KOLAB,1745 rue Tassé,2020,Saint-Laurent,Programme d'art mural (volet 2),45.514880,-73.692207,https://depot.ville.montreal.qc.ca/murales/202...
231,232,Maliciouz,Corporation de développement communautaire de ...,6262 Chemin Hudson,2020,Côte-des-Neiges–Notre-Dame-de-Grâce,Programme d'art mural (volet 2),45.505707,-73.629566,https://depot.ville.montreal.qc.ca/murales/202...
232,233,Ruben Carrasco,IPAF Festival,2633 rue Ontario Est,2020,Ville-Marie,Programme d'art mural (volet 2),45.534219,-73.553258,https://depot.ville.montreal.qc.ca/murales/202...


Chaque rangée représente une murale. Il est légitime de croire qu'il n'y a pas de doublon car il y a une colonne `id` mais nous pourrions vouloir analyser les données pour en être sûr (exemple, les latitude et longitude de chaque murale sont biens uniques?).

In [None]:
# nom des colonnes
data.columns

Index(['id', 'artiste', 'organisme', 'adresse', 'annee', 'arrondissement',
       'programme_entente', 'latitude', 'longitude', 'image'],
      dtype='object')

### Vérifier les valeurs

In [None]:
# arrondissement: 15 valeurs uniques sans erreur apparente
len(data['arrondissement'].unique())
data['arrondissement'].unique()

array(['Villeray–Saint-Michel–Parc-Extension', 'Ville-Marie',
       'Le Plateau-Mont-Royal', 'Lachine',
       'Côte-des-Neiges–Notre-Dame-de-Grâce', 'Le Sud-Ouest',
       'Montréal-Nord', 'Rosemont–La Petite-Patrie',
       'Rivière-des-Prairies–Pointe-aux-Trembles', 'Verdun',
       'Mercier–Hochelaga-Maisonneuve', 'Ahuntsic-Cartierville',
       'Saint-Laurent', 'LaSalle', 'Outremont'], dtype=object)

## Analyser les données

### Exercice: arrondissement avec le plus de murales

In [None]:
# liste complète
data['arrondissement'].value_counts()

Rosemont–La Petite-Patrie                   62
Ville-Marie                                 47
Mercier–Hochelaga-Maisonneuve               18
Le Sud-Ouest                                17
Le Plateau-Mont-Royal                       17
Lachine                                     16
Villeray–Saint-Michel–Parc-Extension        14
Côte-des-Neiges–Notre-Dame-de-Grâce         11
Montréal-Nord                                9
Verdun                                       8
Ahuntsic-Cartierville                        7
Saint-Laurent                                5
Outremont                                    1
LaSalle                                      1
Rivière-des-Prairies–Pointe-aux-Trembles     1
Name: arrondissement, dtype: int64

In [None]:
# vraie réponse à la question (car value_counts retourne résultats triés)
vc = data['arrondissement'].value_counts()
vc.first_valid_index()

'Rosemont–La Petite-Patrie'

In [None]:
# vraie réponse (ne comptant pas sur le tri de value_counts)
vc.idxmax()

'Rosemont–La Petite-Patrie'

## Aller plus loin

### Exercice: plus d'occurences en premier


On l'a par défaut avec `value_counts()`... essayons alors de faire l'inverse? Moins d'occurences en premier?

Une introspection montre rapidement qu'on peut trier (_sort_) sur l'index ou sur les valeurs... ben voilà!

```
vc.
vc.sort_values?
```

In [None]:
vc.sort_values()

Outremont                                    1
LaSalle                                      1
Rivière-des-Prairies–Pointe-aux-Trembles     1
Saint-Laurent                                5
Ahuntsic-Cartierville                        7
Verdun                                       8
Montréal-Nord                                9
Côte-des-Neiges–Notre-Dame-de-Grâce         11
Villeray–Saint-Michel–Parc-Extension        14
Lachine                                     16
Le Sud-Ouest                                17
Le Plateau-Mont-Royal                       17
Mercier–Hochelaga-Maisonneuve               18
Ville-Marie                                 47
Rosemont–La Petite-Patrie                   62
Name: arrondissement, dtype: int64

### Exercice: 3 premiers résultats dans un format agréable à lire

Le format est déjà agréable à lire...

Mais prenons les 3 premiers résultats seulement.

On doit pouvoir slicer, non?

In [None]:
vc.iloc[0:3]

Rosemont–La Petite-Patrie        62
Ville-Marie                      47
Mercier–Hochelaga-Maisonneuve    18
Name: arrondissement, dtype: int64

### Exercice: trier sur nom d'arrondissement


On l'a dit... on peut faire _sort_ sur index ou valeurs...

```
vc.sort_index?
```

In [None]:
vc.sort_index()

Ahuntsic-Cartierville                        7
Côte-des-Neiges–Notre-Dame-de-Grâce         11
LaSalle                                      1
Lachine                                     16
Le Plateau-Mont-Royal                       17
Le Sud-Ouest                                17
Mercier–Hochelaga-Maisonneuve               18
Montréal-Nord                                9
Outremont                                    1
Rivière-des-Prairies–Pointe-aux-Trembles     1
Rosemont–La Petite-Patrie                   62
Saint-Laurent                                5
Verdun                                       8
Ville-Marie                                 47
Villeray–Saint-Michel–Parc-Extension        14
Name: arrondissement, dtype: int64

# Cheat sheet

In [None]:
import pandas as pd

# data import
url = "https://raw.githubusercontent.com/mtlpy/mtlpy-exercises/main/mtl/murales/murales.csv"
data = pd.read_csv(url)

# data exploration
data
data.columns
data['arrondissement'].unique()

# data analysis
vc = data['arrondissement'].value_counts()
vc.first_valid_index()
vc.idxmax()

# more
vc.sort_values()
vc.iloc[0:3]
vc.sort_index()

Ahuntsic-Cartierville                        7
Côte-des-Neiges–Notre-Dame-de-Grâce         11
LaSalle                                      1
Lachine                                     16
Le Plateau-Mont-Royal                       17
Le Sud-Ouest                                17
Mercier–Hochelaga-Maisonneuve               18
Montréal-Nord                                9
Outremont                                    1
Rivière-des-Prairies–Pointe-aux-Trembles     1
Rosemont–La Petite-Patrie                   62
Saint-Laurent                                5
Verdun                                       8
Ville-Marie                                 47
Villeray–Saint-Michel–Parc-Extension        14
Name: arrondissement, dtype: int64

# Licence

Copyright 2021 Montréal-Python

Permission is hereby granted, free of charge, to any person obtaining a copy of this software and associated documentation files (the "Software"), to deal in the Software without restriction, including without limitation the rights to use, copy, modify, merge, publish, distribute, sublicense, and/or sell copies of the Software, and to permit persons to whom the Software is furnished to do so, subject to the following conditions:

The above copyright notice and this permission notice shall be included in all copies or substantial portions of the Software.

THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY, FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE SOFTWARE.
