# **DATA VISUALISATION**  
Dans cette partie, nous allons voir ensemble comment nous pouvons mettre en valeur les donn√©es nettoy√©es avec de la visualisation.

Comme toujours, faire des visuels impactants n√©cessite de:
- Manipuler et transofrmer la donn√©es pour obtenir les valeurs que l'on souhaite
- Poser les bases du visuel (80% du travail - 20 % du temps)
- Travailler le visuel pour mettre en valeur le message (20% du travail - 80% du temps)

Nous utiliserons la module plotly.express (px) de la librairie plotly, tr√®s pratique pour sa syntaxe simple.  
Il permet de se familiariser avec l'environnement plotly, avant de pouvoir passer au module plotly.graph_objects (go),  
dont la syntaxe est plus ardue mais les possibilit√©s bien sup√©rieures.  
Voici le lien de l'API plotly pour voir les diff√©rents graphiques possibles : https://plotly.com/python-api-reference/  

Le graphique que nous faire ensemble dans ce Notebook est un visuel que nous avions vu ensemble lors de la s√©ance 1  
et que Vertigo vend √† ses clients chaque semaine : le profil par cible dans un graphique en barres empil√©es.

Ce que vous devez faire est indiqu√© dans les cellules de commentaires, il vous reste √† √©crire le code.  

### **Importer les librairies n√©cessaires :**  
- numpy
- pandas
- plotly.express (alias px)
- plotly.graph_objects (alias go)

In [1]:
import pandas as pd
import numpy as np
import plotly.express as px
from plotly import graph_objects as go

### **Importer les donn√©es nettoy√©es lors de la phase de Nettoyage**
Ne gardez que les colonnes suivantes : vague_cine_inv, pid, age, gender, s3ad, q2ad, sem_cine 
Nommer la variable data

### **Importer le fichier des poids statistiques**
Nommer la variable weights  
Si vous avez des une erreur UnicodeDecodeError, il faut que vous utilisiez le param√®tre suivant : encoding='latin'

### **R√©aliser un INNER JOIN entre data et weights**
Vous devez obtenir 9802 lignes  
Rappelez-vous des conditions d'unicit√© d'une ligne  
Nommer la variable data_weighted

### **Cr√©er une colonne permettant d'avoir les cat√©gories d'√¢ge suivantes :**
- 3-14 ans
- 15-24 ans
- 25-34 ans
- 35-49 ans
- 50-59 ans
- 60 ans et +

Nommer la colonne 'age_cat_6'  
Assurez-vous que la colonne soit bien de type category au moment o√π vous la cr√©ez

### **Calculez le profil par semaine cinema, par √¢ge**
La colonne cr√©√©e doit s'appeler 'profil_age'.  
N'oubliez pas qu'il faut utiliser la colonne 'Entr√©es Extrapol√©es' pour les calculs (voir les exercices 8 et 9 de la partie 02_Exploration).  
Nommez le r√©sultat data_agg_age et assurez-vous que ce soit une DataFrame.
Les variables qui ont servies √† l'agr√©gation ne doivent plus √™tre en index, mais dans une colonne.

In [None]:
# R√©sultat attendu 
# sem_cine_inv	age_cat_6       profil_age	
# 2326	        3-14 ans	    0.159081
# 2326	        15-24 ans	    0.171070
# 2326	        25-34 ans	    0.136125
# 2326	        35-49 ans	    0.192822
# 2326	        50-59 ans	    0.140421
# 2326	        60 ans et +	    0.200480
# 2327	        3-14 ans	    0.188744
# 2327	        15-24 ans	    0.192692
# 2327	        25-34 ans	    0.133367
# 2327	        35-49 ans	    0.191609
# 2327	        50-59 ans	    0.129968
# 2327	        60 ans et +	    0.163621
# 2328	        3-14 ans	    0.168159
# 2328	        15-24 ans	    0.177405
# 2328	        25-34 ans	    0.102985
# 2328	        35-49 ans	    0.206507
# 2328	        50-59 ans	    0.133237
# 2328	        60 ans et +	    0.211706
# 2329	        3-14 ans	    0.137017
# 2329	        15-24 ans	    0.272937
# 2329	        25-34 ans	    0.152800
# 2329	        35-49 ans	    0.182990
# 2329	        50-59 ans	    0.108096
# 2329	        60 ans et +	    0.146159
# 2330	        3-14 ans	    0.134854
# 2330	        15-24 ans	    0.238800
# 2330	        25-34 ans	    0.166774
# 2330	        35-49 ans	    0.184379
# 2330	        50-59 ans	    0.112589
# 2330	        60 ans et +	    0.162604


### **Cr√©ez un graphique en barres des profils par √¢ge en fonction de la semaine cin√©ma**
Utilisez plotly.express   
Renseignez vous sur les param√®tres √† utiliser en consultant la doc ici : https://plotly.com/python-api-reference/generated/plotly.express.bar     
Sauvegardez le graphique dans une varibale appel√©e fig.

### **Changez la couleurs des lignes en utilisant la palette age_colors ci-dessous**  
N'h√©sitez pas √† utiliser le liden de la documentation plotly.  
Lisez le nom des param√®tres disponibles. Si le nom d'un param√®tres vous interpelle, scrollez vers le bas pour voir son utilisation.

In [None]:
age_colors = [
    f'rgba(153,204,255,1)',
    f'rgba(64,153,255,1)',
    f'rgba(153,51,204,1)',
    f'rgba(102,1,153,1)',
    f'rgba(246,102,103,1)',
    f'rgba(204,51,51,1)',
]


### **Ajoutez les valeurs formatt√©es de chaque profil**  
Dans le doc au lien donn√©e ci-dessus, trouver les param√®tres qui permettent : 
- d'ajouter la valeur de chaque profil dans chaque barre.  
- de formatter les valeurs en pourcentage avec 1 d√©cimale.  

Vous trouverez ci-dessous les diff√©rentes possibilit√©s de formattages possibles:  
| Format  | Description                                               | Example output for `12345.678`         |
| ------- | --------------------------------------------------------- | -------------------------------------- |
| `d`     | Integer (no decimals)                                     | `12346`                                |
| `,d`    | Integer with thousands separator                          | `12,346`                               |
| `.2f`   | Fixed-point, 2 decimals                                   | `12345.68`                             |
| `,.1f`  | Fixed-point with thousands separator, 1 decimal           | `12,345.7`                             |
| `e`     | Exponential notation                                      | `1.234568e+4`                          |
| `.2e`   | Exponential with 2 decimals                               | `1.23e+4`                              |
| `r`     | Rounded significant digits                                | `12300`                                |
| `.3r`   | 3 significant digits                                      | `12300`                                |
| `s`     | SI-prefix notation                                        | `12k`                                  |
| `.2s`   | SI-prefix with 2 significant digits                       | `12k`                                  |
| `%`     | Percentage (value √ó100 with `%`)                          | `1234568%`                             |
| `.1%`   | Percentage with 1 decimal                                 | `1234567.8%`                           |
| `$,.2f` | Currency (USD style) with thousands separator, 2 decimals | `$12,345.68`                           |
| `.1f‚Ç¨`  | Custom suffix (Euro)                                      | `12345.7‚Ç¨`                             |
| `+,.2f` | Force sign (+/‚àí) with thousands separator, 2 decimals     | `+12,345.68`                           |
| `(.2f`  | Negative numbers in parentheses                           | `12345.68` (if negative: `(12345.68)`) |  

### **Autre m√©thode**  
Vous avez d√ª normalement trouver deux param√®tres √† passer √† px.bar.  
Seulement, ces param√®tres permettent un formattage limit√©.  
Il n'est par exemple pas possible de r√©gler la position des valeurs dans la barre, o√π de les mettre en gras.  
Pour contourner cette limite, il est possible d'utiliser la m√©thode fig.update_traces(), et de passer des arguments utilisables avec go.Bar  
=> https://plotly.com/python-api-reference/generated/plotly.graph_objects.Bar.html

En utilisant les param√®tres suivants :  
- texttemplate
- textposition
- insidetextanchor

Assurez-vous que les valeurs soient centr√©es verticalement et apparaissent en gras (utilisez la balise html <b></b> pour cela).

### **Modifier le layout du graphique avec la m√©thode fig.update_layout()**  
Lien vers la doc : https://plotly.com/python-api-reference/generated/plotly.graph_objects.Layout.html#plotly.graph_objects.Layout  

Ajouter un titre, modifier la hauteur et la largeur √† l'aide des param√®tres suivants  
- title = dict(  
    * text=..., # str : texte √† ajouter  
    font=dict( # modifie la taille, la police, mise en gras etc.  
        size: ... # int  
        family: ... # str ; change la police 'Arial' etc  
        weight: ... # int ou str : mettre en gras ('bold' en anglais)  
    )  
    x= ... #float entre 0 et 1
    xanchor= ... #str 'left', 'center', 'right', permet d'aligner le titre horizontalement
    y=... #float entre 0 et 1
    yanchor=... #str 'top', 'middle', 'center', permet d'aligner le titre verticalement
)  
- height: ... # int  
- width: ... # int 

Lien vrs la doc du titre : https://plotly.com/python-api-reference/generated/plotly.graph_objects.layout.html#plotly.graph_objects.layout.Title

### **Utilisez fig.update_layout(xaxis=dict()) pour personnaliser l'axe des abscisses**  
Lien vers la doc pour d√©couvrir toutes les fonctionnalit√©s : https://plotly.com/python/reference/layout/xaxis/

Par d√©faut, Plotly affiche les valeurs pr√©sentes dans la colonne utilis√©e pour l'axe des x.  
Mais le formattage de correspond pas souvent √† ce que l'on souhaite.  
Ici par exemple, on souhaiterait afficher "Sem XX" o√π XX est le num√©ro de la semaine.  
  
Quand on souhaite afficher des valeurs compl√©tement diff√©rentes des valeurs par d√©faut, il faut trois param√®tres:  
- tickmode = 'array'  
- tickvals = ... # une liste des valeurs pr√©sentes dans la colonne utilis√©e pour l'axe des x  
- ticktext = ... # Une liste des valeurs √† afficher  

Il est √©galement possible de personnaliser la taille, la police, etc. avec le param√®tre tickfont.  
Enfin vous pouvez changer le titre de l'axe avec le param√®tre title=dict().  
Ces deux derniers param√®tres s'utilisent comme dans la case pr√©c√©dente.  

### **Utilisez fig.update_layout(yaxis=dict()) pour personnaliser l'axe des ordonn√©es**  
Lien vers la doc pour d√©couvrir toutes les fonctionnalit√©s : https://plotly.com/python/reference/layout/yaxis/

Ici, ce qu'on retrouver en ordonn√©es est √©vident : il n'y a donc pas besoin de titre.  

Par d√©faut, Plotly affiche les valeurs pr√©sentes dans la colonne utilis√©e pour l'axe des y.  
Mais le formattage de correspond pas souvent √† ce que l'on souhaite.  
Ici par exemple, on a les bonnes valeurs, mais on voudrait les afficher %.
  
Ici, on souhaite donc juste modifier le format d'affichage. Plotly utilise le format D3.  
C'est possible de le modifier avec le param√®tre suivant :  
- tickformat = ... # D3-format string   

Voici des exemples de format √† passer √† tickformat  
  
| Format  | Description                                               | Example output for `12345.678`         |
| ------- | --------------------------------------------------------- | -------------------------------------- |
| `d`     | Integer (no decimals)                                     | `12346`                                |
| `,d`    | Integer with thousands separator                          | `12,346`                               |
| `.2f`   | Fixed-point, 2 decimals                                   | `12345.68`                             |
| `,.1f`  | Fixed-point with thousands separator, 1 decimal           | `12,345.7`                             |
| `e`     | Exponential notation                                      | `1.234568e+4`                          |
| `.2e`   | Exponential with 2 decimals                               | `1.23e+4`                              |
| `r`     | Rounded significant digits                                | `12300`                                |
| `.3r`   | 3 significant digits                                      | `12300`                                |
| `s`     | SI-prefix notation                                        | `12k`                                  |
| `.2s`   | SI-prefix with 2 significant digits                       | `12k`                                  |
| `%`     | Percentage (value √ó100 with `%`)                          | `1234568%`                             |
| `.1%`   | Percentage with 1 decimal                                 | `1234567.8%`                           |
| `$,.2f` | Currency (USD style) with thousands separator, 2 decimals | `$12,345.68`                           |
| `.1f‚Ç¨`  | Custom suffix (Euro)                                      | `12345.7‚Ç¨`                             |
| `+,.2f` | Force sign (+/‚àí) with thousands separator, 2 decimals     | `+12,345.68`                           |
| `(.2f`  | Negative numbers in parentheses                           | `12345.68` (if negative: `(12345.68)`) |  


Pensez √©galement √† bien choisir le nombre de ticks √† afficher.  
C'est notamment pratique sur un diagramme en barres empil√©es pour afficher le tick des 50% !   
Il existe :  
- nticks = ... #int nombre maximum de ticks. Peu pratique.  
- dtick= ... #unit√© de l'axe. Plus fiable  

### **Personnaliser la l√©gende avec fig.update_layout(legend=dict())** 
La l√©gende est toujours un sujet de discorde : faut-il la laisser ou l'enlever ?  
  
Pour l'enlever, utiliser fig.update_layout(showlegend=False)
  
Si vous la laisser voici quelques param√®tres utiles:
fig.update_layout(  
- legend=dict(  
    - title=dict(...) # le titre, par default le nom de la colonne servant √† la couleur, la forme etc.  
    - orientation=...# str, 'v' pour vrticale, 'h' pour horizontale  
    - xanchor=... #str, 'left', 'center', 'right'. Permet d'ajuster la position de la l√©gende selon x   
    - x=... # float la coordonn√©e en x o√π d'ajuste la l√©gende   
    - yanchor=... #str, 'top', 'middle', 'bottom'. Permet d'ajuster la position de la l√©gende selon y   
    - y=... # float la coordonn√©e en y o√π d'ajuste la l√©gende   
    - font=dict(...) # Personnalise la taille, la police, etc. 
    - traceorder=... #str => Choisir 'order dans lequel les items sont affich√©s 
- )  

)

Il y a plein d'autres param√®tres que vous pouvez d√©couvrir ici : https://plotly.com/python/reference/layout/#layout-showlegend

### **Enlever le background gris et la grille (traits verticaux et horizontaux)**
Plotly permet d'utiliser certains templates avec fig.update_layout(template=...)

Voici quelques exemples :  
| Template name    | Description                                        |
| ---------------- | -------------------------------------------------- |
| `"plotly"`       | Default light theme (white background, gray axes)  |
| `"plotly_white"` | Minimal white background                           |
| `"plotly_dark"`  | Dark background with contrasting gridlines         |
| `"ggplot2"`      | Inspired by R‚Äôs ggplot2 style                      |
| `"seaborn"`      | Inspired by Seaborn‚Äôs defaults                     |
| `"simple_white"` | Pure white background, no gridlines                |
| `"none"`         | No theming at all (useful for full manual control) |
| ---------------- | -------------------------------------------------- |
| `"presentation"` | Clean style for slides/presentations               |
| `"xgridoff"`     | Like default but gridlines off                     |
| `"ygridoff"`     | Like default but y gridlines off                   |
| `"gridon"`       | Like default but emphasizes grid                   |
| `"none"`         | Removes template (barebones)                       |


Personnellement j'aime beaucoup le template 'plotly_white'. Minimal permet de se concentrer sur l'essentiel.  
Il suffit donc de coder : fig.update_layout(template='plotly_white')  

Il est possible de coder sans le template. Voici ce qu'il faut faire 'plotly_white' :  
fig.update_layout(  
- plot_bgcolor="white",   # background inside the plotting area  
    paper_bgcolor="white",  # background outside the plotting area  
    xaxis=dict(  
    - showgrid=True,      # show gridlines  
        gridcolor="lightgray",  
        zeroline=False      # no bold line at x=0  
        ),  
    yaxis=dict(  
    - showgrid=True,  
        gridcolor="lightgray",  
        zeroline=False  
        )  

)

### **Regarder les diff√©rences entre le graphique final avec le premier graphique que vous avez fait üôÇ**

### **Travailler et formatter les hover_data**
L'int√©r√™t de plotly est son interactivit√©. Lorsque vous passez le curseur de la souris sur chaque barre, des donn√©es apparaissent : les hover_data.  
Il s'agit des donn√©es que vous avez passez √† plotly lors de la cr√©ation de la figure : 'sem_cine', 'profil_age', 'age_cat_6'.  

Il est tout √† fait possible de retirer certaines de ces donn√©es, d'en ajouter, de les formatter, etc.
Pour cela, on va s'int√©resser fig.update_traces() et √† deux param√®tres:  
- customdata : il vous permet de passer des donn√©es √† ajouter aux hover_data avec df[columns].  
- hovertemplate : il vous permet de s√©lectionner et de formater comme souhaiter les donn√©es √† afficher. Passez une str.  

Le formattage de hovertemplate r√©pond √† des r√®gles pr√©cises:  
- Choisir son placeholder, le mettre entre {}, pr√©c√©d√© de %  
    * %{x} ‚Üí la coordonn√©e en abscisse du point     
    * %{y} ‚Üí la coordonn√©e en ordonn√©e  
    * %{text} ‚Üí le texte si vous avez pass√© text=... √† px  
    * %{customdata[i]} ‚Üí l'√©l√©ment √† l'index i dans customdata. <b>Si un seul √©lement => %{customdata}</b> 
- Choisir le formattage :  
    * %{y:.1f} ‚Üí valeur de y avec 1 d√©cimale  
    * %{customdata[1]:.2f} ‚Üí affiche la seconde donn√©es de customdata avec 2 d√©cimales  
    * %{x:.1%} ‚Üí valeur de x affich√©e en pourcentage avec 1 d√©cimale  
    * %{x:,d} ‚Üí valeur enti√®re de x avec s√©parateur de milliers (1,234,567)  
    * <b>%{text}</b>‚Üí text √©crit en gras (utilisation de balise html => balise ouvrante b entre <>; balise fermante \b entre <>)  


Formattez les donn√©es avec hovertemplate comme suit :  
- sem_cine en gras  
- age_cat_6 en gras 
- profil_25+ en % avec 2 d√©cimales   

Chaque donn√©e doit √™tre pr√©c√©d√©e de sa signification business. Revenir √† la ligne apr√®s chaque donn√©e (balise br entre <>)

### **Faire le graphique en utilisant les cat√©gories d'habitude de fr√©quetation suivantes :**
- Assidus (1 & 2)
- R√©guliers (3 & 4)
- Occasionnels (5, 6, 7 & 8)

Nommer la colonne 'habfreq_3'  
Assurez-vous que la colonne soit bien de type category au moment o√π vous la cr√©ez.  

Lors du calcul des profils, vous nommerez :  
- la dataframe de r√©sultats : data_agg_habfreq  
- La colonne avec les profils : 'profil_habfreq'  

Nommez la figure fig_habfreq. Utilisez les couleurs ci-dessous.

In [84]:
habfreq_colors = [
    "rgba(0,0,102,1)", #Assidus
    "rgba(57,69,185,1)", #R√©guliers
    "rgba(150,157,222,1)", #Occasionnels
]

In [None]:
# R√©sultat attendu 
#   sem_cine	habfreq_3	    profil_habfreq
#   0	2326	Habitu√©s	    0.165083
#   1	2326	R√©guliers	    0.474787
#   2	2326	Occasionnels	0.360130
#   3	2327	Habitu√©s	    0.176426
#   4	2327	R√©guliers	    0.445113
#   5	2327	Occasionnels	0.378461
#   6	2328	Habitu√©s	    0.176271
#   7	2328	R√©guliers	    0.475855
#   8	2328	Occasionnels	0.347875
#   9	2329	Habitu√©s	    0.175218
# 10	2329	R√©guliers	    0.470611
# 11	2329	Occasionnels	0.354171
# 12	2330	Habitu√©s	    0.183535
# 13	2330	R√©guliers	    0.452334
# 14	2330	Occasionnels	0.364131


### **Faire le graphique en utilisant les cat√©gories de sexe suivantes :**
- Hommes (1)
- Femmes (2)

Nommer la colonne 'gender_2'  
Assurez-vous que la colonne soit bien de type category au moment o√π vous la cr√©ez.  

Lors du calcul des profils, vous nommerez :  
- la dataframe de r√©sultats : data_agg_gender  
- La colonne avec les profils : 'profil_gender'  

Nommez la figure fig_gender. Utilisez les couleurs ci-dessous.

In [97]:
gender_colors = [
    "rgba(191,216,238,1)", #Hommes
    "rgba(0,98,188,1)", #Femmes
]

In [None]:
# R√©sultat attendu 
#   sem_cine	gender_2	profil_gender
# 0	2326	    Hommes	    0.531544
# 1	2326	    Femmes	    0.468456
# 2	2327	    Hommes	    0.496985
# 3	2327	    Femmes	    0.503015
# 4	2328	    Hommes	    0.514009
# 5	2328	    Femmes	    0.485991
# 6	2329	    Hommes	    0.489497
# 7	2329	    Femmes	    0.510503
# 8	2330	    Hommes	    0.524315
# 9	2330	    Femmes	    0.475685
