# **DATA VISUALISATION**  
Dans cette partie, nous allons voir ensemble comment nous pouvons mettre en valeur les données nettoyées avec de la visualisation.

Comme toujours, faire des visuels impactants nécessite de:
- Manipuler et transofrmer la données pour obtenir les valeurs que l'on souhaite
- Poser les bases du visuel (80% du travail - 20 % du temps)
- Travailler le visuel pour mettre en valeur le message (20% du travail - 80% du temps)

Nous utiliserons la module plotly.express (px) de la librairie plotly, très pratique pour sa syntaxe simple.  
Il permet de se familiariser avec l'environnement plotly, avant de pouvoir passer au module plotly.graph_objects (go),  
dont la syntaxe est plus ardue mais les possibilités bien supérieures.  
Voici le lien de l'API plotly pour voir les différents graphiques possibles : https://plotly.com/python-api-reference/  

Le graphique que nous faire ensemble dans ce Notebook est un visuel que nous avions vu ensemble lors de la séance 1  
et que Vertigo vend à ses clients chaque semaine : Le mapping du marché cinématographique

Ce que vous devez faire est indiqué dans les cellules de commentaires, il vous reste à écrire le code.  

### **Importer les librairies nécessaires :**  
- numpy
- pandas
- plotly.express (alias px)
- plotly.graph_objects (alias go)

### **Importer également CORRESPONDANCE_CODE_FILMS depuis utils.code_film**  
Si vous avez une erreur d'import, essayez de la comprendre.  
Si après plusieurs essais, vous n'arrivez pas à debugger, copiez-collez la variable dans une cellule de ce Notebook.

### **Importer les données nettoyées lors de la phase de Nettoyage**
Ne gardez que les colonnes suivantes : vague_cine_inv, pid, age, gender, s3ad, q2ad, sem_cine  
Nommer la variable data

### **Importer le fichier des poids statistiques**
Nommer la variable weights  
Si vous avez des une erreur UnicodeDecodeError, il faut que vous utilisiez le paramètre suivant : encoding='latin'

### **Importer le fichier d'entrées des films et renommer la colonne 'sem_cine_inv' en 'sem_cine'**
Nommer la variable tickets  

### **Déterminer le nombre d'entrées par film**
Dans la dataframe tickets:  
- Renommez la colonne 'Code Rentrak' en 'code_film'.  
- Filtrz les semaines dont la valeurs n'est pas entre 2326 et 2330 incluse.  
- Faites l'agrégation par film et nommez la variable monthly_tickets.  

Lors de l'opération groupby, utilisez le paramètre qui permet de ne pas avoir les films en index.
Vous devez obtenir une dataframe de 123 lignes.

In [None]:
# Résultat attendu 
# 	    code_film	Entrées
# 0	    199571	    85369
# 1	    202084	    2620691
# 2	    223992	    60575
# 3	    272417	    1885121
# 4	    285752	    3402
# ...	...	        ...
# 118	391723	    706
# 119	392897	    3209
# 120	393521	    7495
# 121	394471	    369
# 122	394672	    525


### **Réaliser la jointure adéquate entre data et weights**
Vous devez obtenir 9802 lignes.  
Rappelez-vous des conditions d'unicité d'une ligne  
Nommer la variable data_weighted

### **Filtrez les films qui ont moins de 75 lignes dans data_weigthed**
Si un film a moins de 75 interviews, nous considérons que les résultats ne seront pas fiables.  
Procédez de la manière suivante:  
- Dans une nouvelle colonne, appelée 'code_film', transformez les codes de la colonne q2ad avec CORRESPONDANCE_CODE_FILMS.  
- Identifier les code_film ayant au moins 75 interviews.
- Filtrez data, et nommez la nouvelle dataframe filtered_data.

Vous devez obtenir une dataframe avec 8436 lignes.

### **Créer deux nouvelles colonnes catégorielles pour le sexe et l'age**
- Nommer la colonne catégorielle du sexe 'gender_cat'. Elle prend en valeur 'Hommes' et 'Femmes'.  
- Nommer la colonne catégorielle de l'âge '25+'. Elle prend en valeur '-25 ans' et '25 ans et +'.  

Cette partie va nous permettre de placer les films sur le mapping en fonction de :  
- leur part de 25+ sur l'axe des abscisses
- leur part d'Hommes sur la l'axe des ordonnées

Il faudra bien sûr calculer ces valeurs avant.  

Si un message d'erreur de ce type apparait :  
*"""SettingWithCopyWarning:  
A value is trying to be set on a copy of a slice from a DataFrame.  
Try using .loc[row_indexer,col_indexer] = value instead"""*  

Revenez à la case précédente, à la ligne où vous filtrez les données. A la fin de la ligne ajoutez .copy().  

### **Calcul du profil des spectateurs en fonction des sexe et âge catégoriels**
Pour chaque film, calculer séparément la part des spectateurs :
- étant des Hommes, à partir de la colonne 'gender_cat'.  
- ayant 25 ans et +, à partir de la colonne '25+'.  

Assurez-vous, à chaque fois, d'obtenir des dataframes :
- 'gender_cat' => Nommez le résultat agg_data_gender et sa colonne 'profil_homme'
- '25+' => Nommez le résultat agg_data_age et sa colonne 'profil_25+'

In [157]:
# Résultats attendus (5 premières lignes seulement)
    # agg_data_gender
        # 	    code_film	profil_homme
        # 0	    0	        0.431777
        # 1	    14783	    0.612818
        # 2	    199571	    0.666501
        # 3	    202084	    0.623924
        # 4	    223992	    0.591548


In [None]:
# Résultats attendus (5 premières lignes seulement)
    # agg_data_age
        #       code_film	profil_25+
        # 0	    0	        0.640014
        # 1	    14783	    0.524144
        # 2	    199571	    0.668887
        # 3	    202084	    0.785985
        # 4	    223992	    0.391590


### **Compléter les données pour commencer le mapping**
Sur le mapping, la taille des bulles représente le nombre d'entrées du film.  
Egalement, il faut ajouter les titres du top 3.
Nous aurons enfin besoin de formatter les entrées avec des séparateurs de milliers de type espace.

Pour réaliser ces tâches :  
- Faites un INNER JOIN entre agg_data_gender et agg_data_age. Nommer le résultat agg_data  
- Faites un INNER JOIN avec monthy_tickets
- Dans un novuelle colonne nommée 'entrees_str', formattez la colonne 'Entrées' pour avoir des séparateurs de milliers de type espace : 1234567 => 1 234 567.  
- Identifiez les 3 films ayant fait le plus d'entrées, et créez une nouvelle colonne nommée 'top_3_title' où n'apparissent que ces titres.  


In [159]:
# Résultat attendu (5 premières lignes seulement)
# 	    code_film	profil_homme	profil_25+	Entrées	    entrees_str	titre	                                    top_3_title
# 0	    361313	    0.298279	    0.503367	2925960	    2 925 960	BARBIE	                                    BARBIE
# 1	    202084	    0.623924	    0.785985	2620691	    2 620 691	INDIANA JONES ET LE CADRAN DE LA DESTINEE	INDIANA JONES ET LE CADRAN DE LA DESTINEE
# 2	    342472	    0.619201	    0.658833	2115684	    2 115 684	OPPENHEIMER	                                OPPENHEIMER
# 3	    290542	    0.466784	    0.432220	1924619	    1 924 619	ELEMENTAIRE	
# 4	    272417	    0.664825	    0.719615	1885121	    1 885 121	MISSION IMPOSSIBLE DEAD RECKONING PARTIE 1	


### **Tracer la figure de base** 
Documentation : https://plotly.com/python-api-reference/generated/plotly.express.scatter

Commencer par tracer la figure de type scatter avec plotly_express:    
- L'axe des abscisses est la colonne 'profil_25+'.  
- L'axe des ordonnées est la colonne 'profil_homme'.  
- Dans la doc, trouvez le paramètre réglant la taille des bulles. Passez lui la colonne 'Entrées'.  
- Dans la doc, trouvez le paramètre qui permet de régler la taille maximale des bulles. Passer un nombre entre 50 et 70.  
- Dans la doc, trouvez le paramètre faisant apparaitre du texte. Passez lui la colonne 'top_3_title'.  
- Réglez la largeur et la hauteur à 1000 et 600 respectivement. 


### **Ajuster le layout**
Lien ver la doc :  https://plotly.com/python-api-reference/generated/plotly.graph_objects.Layout.html#plotly.graph_objects.Layout  

Utiliser fig.update_layout() pour :  
- Ajouter un titre
- Ajuster la police du graphique et changer la taille
- Choisir un template
- Modifier l'axe des abscisses : https://plotly.com/python/reference/layout/xaxis/ 
    * pas de titre  
    * plage de valeurs allant de 0.19 à 1.03 =>permet de mieux centrer le graphique
    * afficher les valeurs de l'axe en % sans décimale
    * Changer la taille de police et spécifier sa couleur
- Modifier l'axe des ordonnées : https://plotly.com/python/reference/layout/yaxis/
    * pas de titre  
    * plage de valeurs allant de 0.19 à 1.03 =>permet de mieux centrer le graphique
    * afficher les valeurs de l'axe en % sans décimale
    * Changer la taille de police et spécifier sa couleur

### **Customiser les bulles**
Il est égamelement possible de customiser les bulles, pour les rendre plus attrayantes.  
Pour cela, il faut utiliser fig.update_traces() et de s'intéresser au paramètre marker.
Choisissez des styles qui restent lisibles. Gardez la forme de bulles.  
Voici les différents paramètres qu'on peut passer, sous forme de dict, à marker :  

#### Size & Scaling

- **size** → array or number, marker size(s) in pixels.  
- **sizemin** → minimum size if using `sizeref`.  
- **sizemode** → `"diameter"` (default) or `"area"`.  
- **sizeref** → scaling factor when `size` is mapped to a variable.  
- **sizemax** → max size used when scaling.  

---

#### Color & Opacity

- **color** → color of markers (single value or array).  
  Accepts CSS color names, hex, rgb/rgba strings, or numerical arrays (when used with `colorscale`).  
- **opacity** → between 0 (transparent) and 1 (opaque).  
- **colorscale** → colormap when `color` is numeric (e.g., `"Viridis"`, `"Blues"`, custom list).  
- **cmin / cmax** → lower/upper bounds for color scaling.  
- **cmid** → midpoint of color scale (useful for diverging scales).  
- **colorbar** → dictionary to style the legend colorbar (title, ticks, etc.).  
- **showscale** → `True/False`, whether to show the color scale.  
- **reversescale** → reverse the colorscale.  

---

#### Borders (line around markers)

- **line** → dictionary for border styling:  
  - **line.color** → border color.  
  - **line.width** → border width (px).  
  - **line.dash** → border dash style (`"solid"`, `"dot"`, `"dash"`, etc.).  

---

#### Symbols (shape of marker)

- **symbol** → marker symbol (string or number). Examples:  
  `"circle"`, `"square"`, `"diamond"`, `"cross"`, `"x"`, `"triangle-up"`, `"triangle-down"`, `"star"`, `"hexagon"`, …  
  👉 [Full list of Plotly marker symbols](https://plotly.com/python/marker-style/#custom-marker-symbols)  
- **angle** → rotate the symbol (degrees).  




### **Travailler et formatter les hover_data**
L'intérêt de plotly est son interactivité. Lorsque vous passez le curseur de la souris sur chaque point des données apparaissent : les hover_data.  
Il s'agit des données que vous avez passez à plotly lors de la création de la figure : 'profil_25+', 'profil_homme', 'Entrées', 'top_3_title'.  

Il est tout à fait possible de retirer certaines de ces données, d'en ajouter, de les formatter, etc.
Pour cela, on va s'intéresser fig.update_traces() et à deux paramètres:  
- customdata : il vous permet de passer des donnéesà ajouter aux hover_data avec df[columns].values.  
- hovertemplate : il vous permet de sélectionner et de formater comme souhaiter les données à afficher. Passez une str.  

Le formattage de hovertemplate répond à des règles précises:  
- Choisir son placeholder, le mettre entre {}, précédé de %  
    * %{x} → la coordonnée en abscisse du point     
    * %{y} → la coordonnée en ordonnée  
    * %{text} → le texte si vous avez passé text=... à px  
    * %{customdata[i]} → une colonne supplémentaire que vous avez passée dans custom_data  
- Choisir le formattage :  
    * %{y:.1f} → valeur de y avec 1 décimale  
    * %{customdata[1]:.2f} → affiche la seconde données de customdata avec 2 décimales  
    * %{x:.1%} → valeur de x affichée en pourcentage avec 1 décimale  
    * %{x:,d} → valeur entière de x avec séparateur de milliers (1,234,567)  
    * <b>%{text}</b>→ text écrit en gras (utilisation de balise html => balise ouvrante b entre <>; balise fermante \b entre <>)  


Utiliser customdata pour ajouter les données titre et entress_str.  
Puis formattez les données avec hovertemplate comme suit :  
- titre en gras  
- profil_homme en % avec une 1 décimale  
- profil_25+ en % avec 2 décimale  
- entrees en gras  

Chaque donnée doit être précédée de sa signification business. Revenir à la ligne après chaque donnée (balise br entre <>)

### **Ajouter deux lignes visuelles pour faciliter la lecture business**
Il est possible d'ajouter des figures dans plotly, avec la méthode fig.add_shape(). 
Doc : https://plotly.com/python/reference/layout/shapes/  
Quatre versions sont possibles : 'line', 'rect', 'circle', 'path'.

Pour comprendre si le public est plus masculin/féminin et plus jeune/vieux, des lignes sont ajoutées au mapping:  
- Une ligne verticale à 70% de 25+
- Une ligne horizontale à 50% de Homme

Il vous faudra préciser :
- Le type (ici line)
- Les coordonnées en x et y. Rappel une ligne est définie par deux points, chaque point ayant deux coordonnées, il faut donc 4 coordonnées au total.
- Les coordonnées peuvent être définie selon deux références : 
    * 'paper' : les coordonnées de la partie affichée du graphiques. Si la plage de l'axe x va de 0.2 à 0.8, alors 0 <=> 0.2 et 1 <=> 0.8.  
    * 'x'/'y' : les coordonnées réelles de l'axe. Ici 0 <=> 0, etc.
- La couleur et la largeur de la ligne
- La couche d'affichage. Il y a trois valeurs : 'below', 'between', 'above'. Testez les pour voir les différences

In [160]:
#Horizontal


#Vertical


### **Ajouter des annotations pour faciliter la lecture business**
Il est possible d'ajouter des précisions textuelles dans plotly, avec la méthode fig.add_annotation(). 
Doc : https://plotly.com/python/reference/layout/annotations/  

Ici, il nous manque une information sur ce que représente chaque axe, puisque nous n'avons pas mis de titres.
On peut donc les ajouter au niveau des lignes que nous venons de créer.

Pour chaque annotation, il vous faudra préciser :
- Le texte : soit '% Hommes', soit '% 25+ ans'
- Les coordonnées en x et y. Ici deux coordonnées suffisent, car on se s'intéresse qu'au point d'ancrage. (Le reste est construit selon un rectangle englobant le texte).
- Les coordonnées peuvent être définie selon deux références : 
    * 'paper' : les coordonnées de la partie affichée du graphiques. Si la plage de l'axe x va de 0.2 à 0.8, alors 0 <=> 0.2 et 1 <=> 0.8.  
    * 'x'/'y' : les coordonnées réelles de l'axe. Ici 0 <=> 0, etc.
    * une str qui correspond à une regex : ['^x([2-9]|[1-9][0-9]+)?( domain)?$'] => on oublie.  
- La police, sa taille, sa couleur, etc.
- L'affichage de la flèche. Chaque annotation affiche une flèche par défaut, inutile ici

### **Regarder les différences entre le graphique final avec le premier graphique que vous avez fait 🙂**