# **DATA VISUALISATION**  
Dans cette partie, nous allons voir ensemble comment nous pouvons mettre en valeur les données nettoyées avec de la visualisation.

Comme toujours, faire des visuels impactants nécessite de:
- Manipuler et transofrmer la données pour obtenir les valeurs que l'on souhaite
- Poser les bases du visuel (80% du travail - 20 % du temps)
- Travailler le visuel pour mettre en valeur le message (20% du travail - 80% du temps)

Nous utiliserons la module plotly.express (px) de la librairie plotly, très pratique pour sa syntaxe simple.  
Il permet de se familiariser avec l'environnement plotly, avant de pouvoir passer au module plotly.graph_objects (go),  
dont la syntaxe est plus ardue mais les possibilités bien supérieures.  
Voici le lien de l'API plotly pour voir les différents graphiques possibles : https://plotly.com/python-api-reference/  

Le graphique que nous faire ensemble dans ce Notebook est un visuel que nous avions vu ensemble lors de la séance 1  
et que Vertigo vend à ses clients chaque semaine : l'évolution des entrées hebdomadaires par cible.

Ce que vous devez faire est indiqué dans les cellules de commentaires, il vous reste à écrire le code.  

### **Importer les librairies nécessaires :**  
- numpy
- pandas
- plotly.express (alias px)
- plotly.graph_objects (alias go)

### **Importer les données nettoyées lors de la phase de Nettoyage**
Ne gardez que les colonnes suivantes : vague_cine_inv, pid, age, gender, s3ad, q2ad, sem_cine  
Nommer la variable data

### **Importer le fichier des poids statistiques**
Nommer la variable weights  
Si vous avez des une erreur UnicodeDecodeError, il faut que vous utilisiez le paramètre suivant : encoding='latin'

### **Importer le fichier d'entrées des films et renommer la colonne 'sem_cine_inv' en 'sem_cine'**
Nommer la variable tickets  

### **Faire la somme des entrées par semaine cinéma (colonne sem_cine_inv)** 
Nommer la variable weekly_tickets  
S'assurer que weekly_tickets est bien une DataFrame

### **Réaliser la jointure adéquate entre data et weights**
Vous devez obtenir 9802 lignes  
Rappelez-vous des conditions d'unicité d'une ligne  
Nommer la variable data_weighted

### **Créer une colonne permettant d'avoir les catégories d'âge suivantes :**
- 3-14 ans
- 15-24 ans
- 25-34 ans
- 35-49 ans
- 50-59 ans
- 60 ans et +

Nommer la colonne 'age_cat_6'  
Assurez-vous que la colonne soit bien de type category au moment où vous la créez

### **Calculez le profil par semaine cinema, par âge**
La colonne créée doit s'appeler 'profil_age'  
N'oubliez pas qu'il faut utiliser la colonne 'Entrées Extrapolées' pour les calculs (voir les exercices 8 et 9 de la partie 02_Exploration).  
Nommez le résultat data_agg_age et assurez-vous que ce soit une DataFrame.


In [None]:
# Résultat attendu 
# 		                    profil_age
# sem_cine_inv	age_cat_6	
# 2326	        3-14 ans	0.159081
#               15-24 ans	0.171070
#               25-34 ans	0.136125
#               35-49 ans	0.192822
#               50-59 ans	0.140421
#               60 ans et +	0.200480
# 2327	        3-14 ans	0.188744
#               15-24 ans	0.192692
#               25-34 ans	0.133367
#               35-49 ans	0.191609
#               50-59 ans	0.129968
#               60 ans et +	0.163621
# 2328	        3-14 ans	0.168159
#               15-24 ans	0.177405
#               25-34 ans	0.102985
#               35-49 ans	0.206507
#               50-59 ans	0.133237
#               60 ans et +	0.211706
# 2329	        3-14 ans	0.137017
#               15-24 ans	0.272937
#               25-34 ans	0.152800
#               35-49 ans	0.182990
#               50-59 ans	0.108096
#               60 ans et +	0.146159
# 2330	        3-14 ans	0.134854
#               15-24 ans	0.238800
#               25-34 ans	0.166774
#               35-49 ans	0.184379
#               50-59 ans	0.112589
#               60 ans et +	0.162604


### **Effecuter la jointure adéquate entre data_agg_age et weekly_tickets**
Vous pouvez utiliser .join() pour faire la jointure sur l'index sem_cine.  
Vous pouvez utiliser .reset_index() et utiliser .merge()

In [None]:
# Résultat attendu 
# 		                profil_age	Entrées
# sem_cine	age_cat_6		
# 2326	    3-14 ans	0.159081	3431722
#       15-24 ans	    0.171070	3431722
#       25-34 ans	    0.136125	3431722
#       35-49 ans	    0.192822	3431722
#       50-59 ans	    0.140421	3431722
#       60 ans et +	    0.200480	3431722
# 2327	3-14 ans	    0.188744	3231486
#       15-24 ans	    0.192692	3231486
#       25-34 ans	    0.133367	3231486
#       35-49 ans	    0.191609	3231486
#       50-59 ans	    0.129968	3231486
#       60 ans et +	    0.163621	3231486
# 2328	3-14 ans	    0.168159	2960874
#       15-24 ans	    0.177405	2960874
#       25-34 ans	    0.102985	2960874
#       35-49 ans	    0.206507	2960874
#       50-59 ans	    0.133237	2960874
#       60 ans et +	    0.211706	2960874
# 2329	3-14 ans	    0.137017	4980083
#       15-24 ans	    0.272937	4980083
#       25-34 ans	    0.152800	4980083
#       35-49 ans	    0.182990	4980083
#       50-59 ans	    0.108096	4980083
#       60 ans et +	    0.146159	4980083
# 2330	3-14 ans	    0.134854	4689985
#       15-24 ans	    0.238800	4689985
#       25-34 ans	    0.166774	4689985
#       35-49 ans	    0.184379	4689985
#       50-59 ans	    0.112589	4689985
#       60 ans et +	    0.162604	4689985


### **Créer une nouvelle colonne de tickets par cible**
Appelez la nouvelle colonne 'target_tickets'.  
Elle résulte du produit entre les colonnes 'profil_age' et 'Entrées'.  
Si vous ne l'avez pas déjà, remettez les index parmi les colonnes.

In [122]:
# Sachez qu'il était possible de tout faire en une seule opération.
# Cela présente l'avantage de 
    # Ne pas faire de jointure
    # Ne pas garder les colonnes 'profil_age' et 'Entrées'
    # Et donc de ne pas avoir d'opération de suppression de colonnes
# Cela requiert toutefois une maitrise du produit matriciel et une bonne connaissance de pandas


### **Créez un graphique en lignes des entrées par cible en fonction de la semaine cinéma**
Utilisez plotly.express  
Utilisez le paramètre markers=True pour faire appraitre les points.  
Assurez-vous que l'axe des ordonnées commence bien à 0.   
Sauvegardez le graphique dans une varibale appelée fig.

### **Affichez les 6 catégories d'âge en utilisant le paramètre color.**

### **Changez la couleurs des lignes en utilisant la palette age_colors ci-dessous**  
Renseignez vous sur le paramètre à utiliser en consultant la doc ici : https://plotly.com/python-api-reference/generated/plotly.express.line  
Lisez le nom des paramètres disponibles. Si le nom d'un paramètres vous interpelle, scrollez vers le bas pour voir son utilisation.

In [123]:
age_colors = [
    f'rgba(153,204,255,1)',
    f'rgba(64,153,255,1)',
    f'rgba(153,51,204,1)',
    f'rgba(102,1,153,1)',
    f'rgba(246,102,103,1)',
    f'rgba(204,51,51,1)',
]



### **Il est possible de modifier directement les lignes, si la modification s'appliquent à toutes en même temps**
Utilisez fig.update_traces(line_shape='spline') 

### **Modifier le layout du graphique avec la méthode fig.update_layout()**  
Lien vers la doc : https://plotly.com/python-api-reference/generated/plotly.graph_objects.Layout.html#plotly.graph_objects.Layout  

Ajouter un titre, modifier la hauteur et la largeur à l'aide des paramètres suivants  
- title = dict(  
    * text=..., # str : texte à ajouter  
    font=dict( # modifie la taille, la police, mise en gras etc.  
        size: ... # int  
        family: ... # str ; change la police 'Arial' etc  
        weight: ... # int ou str : mettre en gras ('bold' en anglais)  
    )  
    x= ... #float entre 0 et 1
    xanchor= ... #str 'left', 'center', 'right', permet d'aligner le titre horizontalement
    y=... #float entre 0 et 1
    yanchor=... #str 'top', 'middle', 'center', permet d'aligner le titre verticalement
)  
- height: ... # int  
- width: ... # int 

Lien vrs la doc du titre : https://plotly.com/python-api-reference/generated/plotly.graph_objects.layout.html#plotly.graph_objects.layout.Title

### **Utilisez fig.update_layout(xaxis=dict()) pour personnaliser l'axe des abscisses**  
Lien vers la doc pour découvrir toutes les fonctionnalités : https://plotly.com/python/reference/layout/xaxis/

Par défaut, Plotly affiche les valeurs présentes dans la colonne utilisée pour l'axe des x.  
Mais le formattage de correspond pas souvent à ce que l'on souhaite.  
Ici par exemple, on souhaiterait afficher "Sem XX" où XX est le numéro de la semaine.  
  
Quand on souhaite afficher des valeurs complétement différentes des valeurs par défaut, il faut trois paramètres:  
- tickmode = 'array'  
- tickvals = ... # une liste des valeurs présentes dans la colonne utilisée pour l'axe des x  
- ticktext = ... # Une liste des valeurs à afficher  

Il est également possible de personnaliser la taille, la police, etc. avec le paramètre tickfont.  
Enfin vous pouvez changer le titre de l'axe avec le paramètre title=dict().  
Ces deux derniers paramètres s'utilisent comme dans la case précédente.  

### **Utilisez fig.update_layout(yaxis=dict()) pour personnaliser l'axe des ordonnées**  
Lien vers la doc pour découvrir toutes les fonctionnalités : https://plotly.com/python/reference/layout/yaxis/  

Par défaut, Plotly affiche les valeurs présentes dans la colonne utilisée pour l'axe des y.  
Mais le formattage de correspond pas souvent à ce que l'on souhaite.  
Ici par exemple, on a les bons nombres, mais on voudrait les afficher en entier, et pas sous forme resserrée.
  
Ici, on souhaite donc juste modifier le format d'affichage. Plotly utilise le format D3.  
C'est possible de le modifier avec le paramètre suivant :  
- tickformat = ... # D3-format string  

Voici des exemples de format à passer à tickformat  
  
| Format  | Description                                               | Example output for `12345.678`         |
| ------- | --------------------------------------------------------- | -------------------------------------- |
| `d`     | Integer (no decimals)                                     | `12346`                                |
| `,d`    | Integer with thousands separator                          | `12,346`                               |
| `.2f`   | Fixed-point, 2 decimals                                   | `12345.68`                             |
| `,.1f`  | Fixed-point with thousands separator, 1 decimal           | `12,345.7`                             |
| `e`     | Exponential notation                                      | `1.234568e+4`                          |
| `.2e`   | Exponential with 2 decimals                               | `1.23e+4`                              |
| `r`     | Rounded significant digits                                | `12300`                                |
| `.3r`   | 3 significant digits                                      | `12300`                                |
| `s`     | SI-prefix notation                                        | `12k`                                  |
| `.2s`   | SI-prefix with 2 significant digits                       | `12k`                                  |
| `%`     | Percentage (value ×100 with `%`)                          | `1234568%`                             |
| `.1%`   | Percentage with 1 decimal                                 | `1234567.8%`                           |
| `$,.2f` | Currency (USD style) with thousands separator, 2 decimals | `$12,345.68`                           |
| `.1f€`  | Custom suffix (Euro)                                      | `12345.7€`                             |
| `+,.2f` | Force sign (+/−) with thousands separator, 2 decimals     | `+12,345.68`                           |
| `(.2f`  | Negative numbers in parentheses                           | `12345.68` (if negative: `(12345.68)`) |  
  
L'utilisation des séparturs de milliers (thousands separator) facilite grandement la lecture.   
L'inconvénient est que D3 format ne permet pas de choisir les séparateurs. Mais Plotly lui peut.  
En utilisant fig.update_layout(separators='ab') vous pouvez choisir :  
- le séparateur de decimales (1er caractère, ici a)  
- le séparateur de milliers (2ème caractère, ici b)  
  
Trouver la bonne combinaison dans le code pour afficher les nombres des ordonnées sous ce format : 1 000 000  
fig.update_layout(
    yaxis=dict(
        ...
    ),
    separators=...,
)  

### **Personnaliser la légende avec fig.update_layout(legend=dict())** 
La légende est toujours un sujet de discorde : faut-il la laisser ou l'enlever ?  
  
Pour l'enlever, utiliser fig.update_layout(showlegend=False)
  
Si vous la laisser voici quelques paramètres utiles:
fig.update_layout(
    legend=dict(
        title=dict(...) # le titre, par default le nom de la colonne servant à la couleur, la forme etc.  
        orientation=...# str, 'v' pour vrticale, 'h' pour horizontale  
        xanchor=... #str, 'left', 'center', 'right'. Permet d'ajuster la position de la légende selon x  
        x=... # float la coordonnée en x où d'ajuste la légende  
        yanchor=... #str, 'top', 'middle', 'bottom'. Permet d'ajuster la position de la légende selon y  
        y=... # float la coordonnée en y où d'ajuste la légende  
        font=dict(...) # Personnalise la taille, la police, etc.  
    )
)

Il y a plein d'autres paramètres que vous pouvez découvrir ici : https://plotly.com/python/reference/layout/#layout-showlegend

### **Enlever le background gris et la grille (traits verticaux et horizontaux)**
Plotly permet d'utiliser certains templates avec fig.update_layout(template=...)

Voici quelques exemples :  
| Template name    | Description                                        |
| ---------------- | -------------------------------------------------- |
| `"plotly"`       | Default light theme (white background, gray axes)  |
| `"plotly_white"` | Minimal white background                           |
| `"plotly_dark"`  | Dark background with contrasting gridlines         |
| `"ggplot2"`      | Inspired by R’s ggplot2 style                      |
| `"seaborn"`      | Inspired by Seaborn’s defaults                     |
| `"simple_white"` | Pure white background, no gridlines                |
| `"none"`         | No theming at all (useful for full manual control) |
| ---------------- | -------------------------------------------------- |
| `"presentation"` | Clean style for slides/presentations               |
| `"xgridoff"`     | Like default but gridlines off                     |
| `"ygridoff"`     | Like default but y gridlines off                   |
| `"gridon"`       | Like default but emphasizes grid                   |
| `"none"`         | Removes template (barebones)                       |


Personnellement j'aime beaucoup le template 'plotly_white'. Minimal permet de se concentrer sur l'essentiel.  
Il suffit donc de coder : fig.update_layout(template='plotly_white')  

Il est possible de coder sans le template. Voici ce qu'il faut faire 'plotly_white' :  
fig.update_layout(  
- plot_bgcolor="white",   # background inside the plotting area  
    paper_bgcolor="white",  # background outside the plotting area  
    xaxis=dict(  
    - showgrid=True,      # show gridlines  
        gridcolor="lightgray",  
        zeroline=False      # no bold line at x=0  
        ),  
    yaxis=dict(  
    - showgrid=True,  
        gridcolor="lightgray",  
        zeroline=False  
        )  

)

### **Regarder les différences entre le graphique final avec le premier graphique que vous avez fait 🙂**