# Data Visualisation 
## Choix d'un graphique en fonction du problème
Le choix d'un graphique dépend énormement des différents variables qu'on cherche à représenter et de l'information qudont on dispose.
- Pour représenter une évolution dans le temps, on peut utiliser **des diagrammes en ligne** ou **en courbes** ou encore **diagrammes à barres**.
- Pour représenter une comparaison de différentes groupes,généralement lorsqu'on a des données agrégées sur une variable non numérique, on peut utiliser **des diagrammes Circulaires** ou idéalement **les diagrammes à barres**.
- Pour représenter une distribution, lorsqu'on souhaite comprendre les données à disposition, on utilise généralement **l'histogramme** ou une variante de l'histogramme appelé **diagrammes à densité**.
- Dans le cas d'une valeur non numérique, il suffira juste d'agréger les données pour compter le nombres d'occurences au sein de notre variable par catégorie ou groupe et appliqué simplement soit **un diagramme circulaire ou diagramme à barre**.
- Pour représenter la relation entre 2 variables numériques, on peut utiliser **le nuage de points**( qui consiste à tracer plusieurs points en mettant l'une des variables en abscisse et l'autre en ordonnée.

## Les bonnes pratiques en dataviz
      - La simplicité:
   Privilégiez l'idée de faire plusieurs graphiques avec peu d'informations afin de bien faciliter lisibilité et l'interprêtation au premier coup d'oeil.

     - Clarifier le graphique
  Être le plus clair possible sur le graphique, afin que toutes personnes puissent l'interprêter sans mon intervention, ce qui revient à ajouter: 
              <li> Les titres des axes.
          <li> La légende pour la compréhension des couleurs
           <li> le titre, qui nous indique clairement de qui et de quoi on parle.
               <li>
                   Les valeurs indiquées au-dessus des barres pour éviter l'imprécision</li>
                   
     - Choisir le graphique adéquat
  Généralement, un diagramme en barre est beaucoup intéressant qu'un diagramme circulaire dès que nous avons plus de 2 groupes à comparer.
  
Chaque représenation graphique a une fonction correspondante avec Matplotlib:
- Nuage de points ou scatter plot, en anglais :**scatter()** ;

- Diagrammes en ligne ou en courbes :**plot()** ;

- Diagrammes en barres :**bar()** ;

- Histogrammes :**hist()** ;

- Diagrammes circulaires :**pie()**

## Le nuage des points ( scatter )

plt.scatter(x,y, **s** =60, **alpha** =0.5, **c** ='red', **marker** ='P', label='legend')
- la couleur des points, en utilisant l’argument **color** ou **c** ;

- la taille des points, via l’argument **size** ou **s** ;

- le type de marqueur via l’argument **marker** ;

- la transparence des points via l’argument **alpha** .


## Le diagramme Circulaire ( pie )

    - 1ere Etapes, consiste à agréger les données
**data = prets.groupby('ville')['remboursement'].sum()**
<br>
**data = data.reset_index()**
<br>
*Le reset_index est nécessaire car nous allons avoir besoin de la variable  ville dans la création de nos prochains graphiques.*

plt.pie(x=data["remboursement"],labels=data["ville"],autopct="%.2f%%")
- **x**=valeur numérique agrégée
- **labels**= Valeur non numérique 
- **autopct**= "%.2f%%" le pourcentage de chaque catégorie avec 2 chiffre après la virgule suivi du caractère %.

## Le diagramme à barre ( bar )
L'alternative au diagramme circulaire, permettant de représenter la même information, mais avec une perpestives différente.

plt.bar(height=data['remboursement'], x=data['ville'])
- **x**=valeur non numérique
- **height**= Valeur numérique agrégée
- Et pour ordonner du plus grand au plus petit, il faudrait au préalable trier le data frame en avance 

## L'histogramme ( hist )
L’histogramme est particulièrement utile lorsqu’on souhaite avoir une idée de la distribution d’une variable.

plt.hist(data["revenu"])

## Les courbes
On a ici une évolution dans le temps, donc le choix de représentation le plus pertinent serait de tracer une courbe.

plt.plot(colonne_date,colonne_valeur)

plt.plot(evolution_ca['date'], evolution_ca["chiffre d'affaire"], **marker**='o', **linestyle**='--', **color**='red')

Comme pour le nuage de points, il existe de très nombreuses options de personnalisation. Vous pouvez jouer sur la couleur de la ligne (  *color*  ou  *c*  ), son style (  *linestyle*  ou  *ls*  ), son épaisseur (  *linewidth*  ou  *lw*), si on souhaite ajouter un marqueur en plus de la ligne (  *marker*  ), etc

## Créez plusieurs graphiques sur une même fenêtre
On peut réaliser une boucle pour avoir accès à chaque catégorie et ensuite afficher la legend et afficher la figure au fur et à mesure:

In [None]:
for ville in prets["ville"].unique():
    df1=prets.loc[prets["ville"]==ville,:]
    plt.scatter(df1['revenu'],df1["taux_interet"],label=ville)
plt.legend()
plt.show