## Pourquoi apprendre la visualisation des données ?
- 1. Communication Efficace des Informations
  2. Prise de Décision Informée
  3. Détection des Problèmes et des Opportunités
  4. Engagement et Persuasion
  5. Compétence Transversale
  6. Facilitation de la Collaboration
  7. Accessibilité et Inclusion

### Étapes pour Choisir la Bonne Visualisation

#### Comprendre le But de Votre Visualisation

1. **Exploration** : Vous cherchez à explorer les données pour trouver des insights ?
2. **Explication** : Vous souhaitez expliquer ou présenter une conclusion tirée des données ?
3. **Comparaison** : Vous devez comparer des valeurs ou des catégories ?
4. **Distribution** : Vous souhaitez montrer comment les données sont réparties ?
5. **Relation** : Vous voulez montrer la relation entre deux ou plusieurs variables ?
6. **Composition** : Vous souhaitez montrer la composition d'un ensemble ?

#### Connaître Vos Données

1. **Type de données** : S'agit-il de données quantitatives (numériques) ou qualitatives (catégoriques) ?
2. **Dimensions des données** : Combien de variables et d’observations avez-vous ?
3. **Nature des variables** : Sont-elles continues, discrètes, ordonnées, ou nominales ?

### Concepts Clés

#### Types de Visualisation

- **Graphiques en barres** : Pour comparer des catégories distinctes.
- **Graphiques linéaires** : Pour afficher les tendances dans le temps.
- **Graphiques en secteurs** : Pour montrer la part de chaque catégorie dans un ensemble.
- **Graphiques à nuage de points** : Pour explorer les relations entre deux variables.
- **Histogrammes** : Pour représenter la distribution des données.
- **Cartes de chaleur (Heatmaps)** : Pour montrer la densité ou l'intensité des données.

#### Principes de Base

- **Clarté** : La visualisation doit être facile à comprendre.
- **Précision** : Les données doivent être représentées de manière fidèle.
- **Esthétique** : La visualisation doit être attrayante visuellement mais sans sacrifier la précision et la clarté.
- **Interactivité** : Dans certains cas, permettre l'interaction avec la visualisation pour explorer les données en profondeur.

#### Outils Couramment Utilisés

- **Tableau** : Un outil puissant pour la visualisation de données interactives. Il permet de créer des tableaux de bord et des rapports dynamiques.
- **Power BI** : Une autre solution de Microsoft pour les tableaux de bord interactifs et les rapports.
- **Excel** : Offre des capacités de visualisation de base mais est largement utilisé en raison de sa familiarité et de sa facilité d'utilisation.
- **Matplotlib et Seaborn (Python)** : Bibliothèques Python pour créer des visualisations statiques, animées et interactives.
- **D3.js** : Une bibliothèque JavaScript pour produire des visualisations de données dynamiques et interactives dans les navigateurs web.
- **ggplot2 (R)** : Une bibliothèque R pour la création de visualisations basées sur la "grammaire des graphiques".

#### Exemples

- **Analyse des Ventes** : Utilisation de graphiques en barres et de cartes de chaleur pour identifier les produits les plus vendus et les tendances saisonnières.
- **Surveillance de la Santé Publique** : Utilisation de graphiques linéaires et de cartes géographiques pour suivre la propagation d'une maladie.
- **Analyse Financière** : Utilisation de graphiques linéaires et de nuages de points pour analyser les tendances boursières et les relations entre différents indices.

In [None]:
import pandas as pd

In [None]:
# Création du DataFrame avec les caractéristiques comparées
data = {
    'Caractéristique': [
        'Complexité',
        'Personnalisation',
        'Types de graphiques',
        'Esthétique par défaut',
        'Intégration avec pandas'
    ],
    'Matplotlib': [
        'Plus bas niveau, plus flexible',
        'Très élevée',
        'Très variés',
        'Basique',
        'Bonne'
    ],
    'Seaborn': [
        'Plus haut niveau, plus simple',
        'Limitée par rapport à Matplotlib',
        'Axés sur les statistiques',
        'Plus esthétique',
        'Excellente'
    ]
}

df_comparison = pd.DataFrame(data)

In [None]:
df_comparison

In [None]:
# Installation deplotly
!pip install plotly==5.22.0

## Graphique à barres

### Pourquoi Utiliser un Graphique à Barres

1. **Clarté et Lisibilité** :
   - Les graphiques à barres permettent de comparer facilement différentes catégories entre elles.
   - La longueur de chaque barre représente la valeur de chaque catégorie, ce qui facilite la visualisation et la comparaison.

2. **Flexibilité** :
   - Les graphiques à barres peuvent être utilisés pour une large gamme de données, qu'il s'agisse de données absolues ou de pourcentages.
   - Ils peuvent représenter des données continues ou discrètes.

3. **Efficacité Visuelle** :
   - Les graphiques à barres sont visuellement intuitifs.
   - Ils permettent aux spectateurs de comprendre rapidement les différences et les tendances dans les données.

4. **Comparaison Facile** :
   - Ils sont particulièrement efficaces pour comparer les valeurs de plusieurs catégories les unes par rapport aux autres, ce qui est utile pour identifier les plus grandes et les plus petites valeurs dans un ensemble de données.

### Quand Utiliser un Graphique à Barres

1. **Comparaison de Catégories** :
   - Lorsque vous avez des catégories distinctes et que vous souhaitez comparer leurs valeurs.
   - Par exemple, comparer les ventes de différents produits, les notes des étudiants par matière, ou la répartition du budget par département.

2. **Affichage de Fréquences** :
   - Pour montrer la fréquence d'occurrence de différentes catégories dans un ensemble de données.
   - Par exemple, le nombre de réponses pour différentes options dans un sondage.

3. **Visualisation de Données Nominales ou Ordinales** :
   - Les graphiques à barres sont parfaits pour visualiser des données nominales (catégories sans ordre spécifique) ou ordinales (catégories avec un ordre spécifique).

4. **Analyse Temporelle avec Catégories** :
   - Lors de l'analyse des données temporelles où chaque barre représente une période spécifique.
   - Par exemple, les ventes mensuelles d'un produit sur une année.

In [None]:
import pandas as pd
import plotly.express as px

In [None]:
df = pd.read_csv("DataSets/used cars.csv")
df.head(10)

In [None]:
df.columns

In [None]:
## Créer un graphique à barres en utilisant Plotly 
fig = px.bar(df, x="Brand", y="Cars Listings", color="Cars Listings", height=400)
# Afficher le graphique à barres
fig.show()

In [None]:
# Créer un graphique à barres en utilisant Plotly 
fig = px.bar(df, x="Brand", y="Cars Listings", color="Cars Listings", height=400)
# Ajouter un titre et des étiquettes aux axes x et y
fig.update_layout(title_text="Cars Listings by Brand", xaxis_title="Marque", yaxis_title="Fréquence")
# Personnalisez l'échelle de couleur et ajoutez une barre de couleur 
fig.update_traces(marker=dict(color='red', opacity=0.7, line=dict(color='blue', width=2.5)))
fig.update_layout(coloraxis_colorbar=dict(title="Cars Listings"))
# Afficher le graphique à barres
fig.show()

In [None]:
# Liste des couleurs personnalisées pour chaque barre
colors = ['red', 'blue', 'green', 'purple', 'orange', 'yellow', 'pink']

In [None]:
# Créer un graphique à barres en utilisant Plotly 
fig = px.bar(df, x="Brand", y="Cars Listings", color="Cars Listings", height=400)
# Ajouter un titre et des étiquettes aux axes x et y
fig.update_layout(title_text="Cars Listings by Brand", xaxis_title="Marque", yaxis_title="Fréquence")
# Personnalisez l'échelle de couleur et ajoutez une barre de couleur 
fig.update_traces(marker=dict(color=colors, opacity=0.7, line=dict(color='black', width=1.5)))
# Afficher le graphique à barres
fig.show()

In [None]:
df['Brand'].unique

In [None]:
colors = ['gray' if brand != 'Volkswagen'] else 'red' for brand in df['Brand']]

In [None]:
colors = []
for brand in df['Brand']:
    if brand == 'Volkswagen':
        colors.append('red')
    elif brand == 'Audi':
        colors.append('blue')
    else:
        colors.append('gray')
print(colors)

In [None]:
len(colors)

In [None]:
# Créer un graphique à barres en utilisant Plotly 
fig = px.bar(df, x="Brand", y="Cars Listings", color="Cars Listings", height=400)
# Ajouter un titre et des étiquettes aux axes x et y
fig.update_layout(title_text="Cars Listings by Brand", xaxis_title="Marque", yaxis_title="Fréquence")
# Personnalisez l'échelle de couleur et ajoutez une barre de couleur 
fig.update_traces(marker=dict(color=colors, opacity=0.7, line=dict(color='black', width=1.5)))
# Afficher le graphique à barres
fig.show()

## Graphique en Secteurs (Pie Chart).

### Pourquoi Utiliser un Graphique en Secteurs

1. **Visualisation de Proportions** : Les graphiques en secteurs sont excellents pour montrer les proportions ou les pourcentages de chaque catégorie par rapport à l'ensemble.
2. **Impact Visuel** : Ils fournissent un impact visuel fort pour représenter la part de chaque catégorie dans un ensemble, ce qui peut être particulièrement efficace pour les présentations.
3. **Clarté** : Idéal pour afficher une distribution de données en pourcentage lorsqu'il y a peu de catégories distinctes.

### Quand Utiliser un Graphique en Secteurs

1. **Comparaison des Parts** : Lorsque vous voulez comparer les parts relatives de différentes catégories dans un tout.
2. **Données Limitées** : Lorsqu'il y a un nombre limité de catégories (généralement pas plus de 5-7), car un grand nombre de segments peut rendre le graphique difficile à lire.
3. **Visualisation de Pourcentages** : Lorsque les données sont en pourcentage et que vous souhaitez montrer comment le tout est divisé entre différentes catégories.

### Comment Interpréter un Graphique en Secteurs

- **Segments** : Chaque segment représente une catégorie différente. La taille du segment est proportionnelle à la part de cette catégorie dans l'ensemble.
- **Labels** : Les segments sont généralement étiquetés avec les pourcentages ou les valeurs absolues pour chaque catégorie.
- **Couleurs** : Les segments sont souvent colorés différemment pour aider à distinguer facilement les différentes catégories.

### Exemple

**Scénario** : Vous êtes un analyste marketing et vous voulez montrer la répartition des sources de trafic sur le site web de votre entreprise.

In [None]:
# Définir les données comme un dictionnaire
labels = ['Référencement naturel', 'Réseaux sociaux', 'Email', 'Publicité payante', 'Direct']
sizes = [40, 20, 15, 10, 15]
colors = ['skyblue', 'lightgreen', 'lightcoral', 'lightskyblue', 'yellow']

In [None]:
data = {
    'Canal Communication': labels,
    'Nombre Abonne' : sizes
}

In [None]:
df_pie = pd.DataFrame(data)
df_pie.head(10)

In [None]:
# Créez un graphique circulaire à l'aide de Plotly Express
fig = px.pie(df_pie, values='Nombre Abonne', names='Canal Communication', 
             color='Canal Communication', title='Distribution par Canal de Communication')
fig.update_traces(textposition='inside', textinfo='percent+label')
fig.show()

In [None]:
import pandas as pd
import plotly.express as px

## Graphique Régional (Choropleth Map)

### Pourquoi Utiliser un Graphique Régional

1. **Visualisation Géographique** :
   - Les graphiques régionaux permettent de visualiser des données géographiques sur une carte, montrant comment une variable est distribuée ou varie dans différentes régions.

2. **Facilité de Compréhension** :
   - Ils rendent facile l'identification des tendances géographiques et des zones à forte ou faible densité de la variable étudiée.

3. **Impact Visuel** :
   - Ils fournissent un impact visuel puissant, en particulier pour les présentations, car ils peuvent montrer des différences régionales de manière claire et intuitive.

### Quand Utiliser un Graphique Régional

- **Données Géographiques** :
   - Lorsqu'il est nécessaire de représenter des données liées à des régions géographiques spécifiques (pays, états, départements, etc.).
   
- **Comparaison Régionale** :
   - Lorsque vous voulez comparer des valeurs à travers différentes régions pour identifier des tendances ou des anomalies géographiques.
   
- **Analyse Spatiale** :
   - Lors de l'analyse de données où la localisation est une dimension importante, par exemple, les taux de chômage par région, les niveaux de pollution, les résultats électoraux, etc.

### Comment Interpréter un Graphique Régional

- **Couleurs** :
   - Les régions sont colorées selon une échelle de couleurs qui représente les valeurs de la variable étudiée. Les couleurs plus foncées ou plus claires indiquent généralement des valeurs plus élevées ou plus basses.

- **Légende** :
   - Une légende est essentielle pour comprendre ce que représentent les différentes couleurs.

- **Échelle** :
   - L'échelle de la carte doit être appropriée pour représenter clairement les différences entre les régions.

### Exemple

**Scénario** : Vous êtes un analyste en santé publique et vous voulez montrer les taux de vaccination contre la grippe dans les différents départements de la France.

In [None]:
## PQCC = Pourquoi - Quand - Comment Appliquer - Comment Interpreter

In [None]:
# Donnée 
data = {
    'Département': ['Paris', 'Bouches-du-Rhône', 'Nord', 'Rhône', 'Gironde'],
    'Taux de Vaccination (%)': [70, 60, 55, 65, 75]
}
df = pd.DataFrame(data)

In [None]:
df

In [None]:
# Ajout des codes INSEE pour les départements (nécessaire pour la géolocalisation dans Plotly)
df['Code Département'] = ['75', '13', '59', '69', '33']

In [None]:
df

In [None]:
# https://raw.githubusercontent.com/johan/world.geo.json/master/countries/CIV.geo.json

In [None]:
# Création de la carte régionale
fig = px.choropleth(
    df, 
    geojson='https://france-geojson.gregoiredavid.fr/repo/departements.geojson',  
    locations='Code Département',
    featureidkey="properties.code",
    color='Taux de Vaccination (%)',
    hover_name='Département',
    color_continuous_scale="Viridis"
)

In [None]:
fig.update_geos(fitbounds="locations", visible=True)
fig.update_layout(title="Taux de Vaccination contre la Grippe par Département en France")
fig.show()

In [None]:
from urllib.request import urlopen
import json
with urlopen('https://raw.githubusercontent.com/plotly/datasets/master/geojson-counties-fips.json') as response:
    counties = json.load(response)

In [None]:
counties["features"][0]

In [None]:
print(counties["features"][0]["properties"])

In [None]:
from urllib.request import urlopen
import json
with urlopen('https://raw.githubusercontent.com/plotly/datasets/master/geojson-counties-fips.json') as response:
    counties = json.load(response)

import pandas as pd
df = pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/fips-unemp-16.csv",
                   dtype={"fips": str})

In [None]:
fig = px.choropleth(df, geojson=counties, locations='fips', color='unemp',
                           color_continuous_scale="Viridis",
                           range_color=(0, 12),
                           scope="usa",
                           labels={'unemp':'unemployment rate'}
                          )
fig.update_layout(margin={"r":0,"t":0,"l":0,"b":0})
fig.show()

### Graphique en Aires (Area Chart)

#### Pourquoi Utiliser un Graphique en Aires

1. **Visualisation de la Contribution Cumulative** : Les graphiques en aires sont utiles pour montrer comment différentes catégories contribuent à un total au fil du temps ou sur une autre dimension continue.
2. **Représentation des Proportions** : Ils permettent de visualiser les proportions relatives de plusieurs séries de données et leur évolution dans le temps.
3. **Tendance et Volume** : En plus de montrer les tendances, ils peuvent également donner une idée du volume total de la donnée représentée.

#### Quand Utiliser un Graphique en Aires

1. **Données Temporelles** : Lorsque vous souhaitez visualiser la contribution cumulée de différentes catégories sur une période de temps, comme les ventes cumulées par région ou les sources d'énergie au fil des années.
2. **Comparaison de Séries** : Pour comparer plusieurs séries de données en montrant leur contribution au total.
3. **Analyse de Volume** : Lorsque le volume total et la part de chaque composant sont importants pour l'analyse.

#### Comment Interpréter un Graphique en Aires

- **Axes** : L'axe horizontal (x) représente généralement le temps ou une autre variable continue, et l'axe vertical (y) représente la valeur cumulée.
- **Zones Colorées** : Chaque zone colorée représente une catégorie ou une série de données. La taille de la zone indique la contribution de cette catégorie.
- **Tendance Générale** : La forme générale du graphique montre la tendance cumulative des valeurs.

#### Exemple
Scénario : 
- Vous êtes un analyste des ventes et vous voulez montrer la contribution des ventes de différents produits au chiffre d'affaires total de l'entreprise sur une période de six mois.

In [None]:
data = {
    'Mois': ['Janvier', 'Février', 'Mars', 'Avril', 'Mai', 'Juin'],
    'Iphone': [100, 120, 140, 160, 180, 200],
    'Huawei': [150, 130, 170, 180, 160, 190],
    'Samsung': [200, 210, 220, 240, 230, 250]
}

df = pd.DataFrame(data)

In [None]:
df.head(10)

In [None]:
# Transformer les données pour l'utilisation avec Plotly
df_melted = df.melt(id_vars="Mois", var_name="Produit", value_name="Ventes")

In [None]:
df_melted

In [None]:
# Créer un graphique en aires en utilisant Plotly
fig = px.area(df_melted, x="Mois", y="Ventes", line_group="Produit", color="Produit", height=400)

# Ajouter un titre et des étiquettes aux axes x et y
fig.update_layout(title_text="Contribution des Ventes par Produit au Chiffre d'Affaires", xaxis_title="Mois", yaxis_title="Ventes")

fig.show()

### Graphique en Lignes (Line Chart)

#### Pourquoi Utiliser un Graphique en Lignes

1. **Visualisation des Tendances** : Les graphiques en lignes sont excellents pour montrer des tendances et des changements au fil du temps. Ils aident à identifier des motifs et des variations dans les données temporelles.
2. **Comparaison de Séries** : Ils permettent de comparer facilement plusieurs séries de données sur un même graphique, facilitant ainsi l'analyse des relations entre différentes variables.
3. **Clarté et Simplicité** : Ils sont simples à comprendre et à interpréter, rendant les données accessibles même à ceux qui n'ont pas de formation technique.

#### Quand Utiliser un Graphique en Lignes

1. **Données Temporelles** : Lorsqu'il est nécessaire de représenter des données chronologiques, comme les ventes mensuelles, les températures quotidiennes, ou les prix des actions.
2. **Comparaison de Séries Temporelles** : Pour comparer plusieurs séries de données sur la même période, comme les performances de différents produits ou les variations des indicateurs économiques.
3. **Analyse des Tendances** : Pour détecter des tendances à long terme ou des cycles saisonniers dans les données.

#### Comment Interpréter un Graphique en Lignes

- **Axes** : L'axe horizontal (x) représente généralement le temps ou une autre variable continue, tandis que l'axe vertical (y) représente les valeurs mesurées.
- **Lignes** : Chaque ligne représente une série de données. La pente et la direction de la ligne indiquent les tendances et les variations.
- **Points de Données** : Les points sur la ligne montrent les valeurs individuelles à des intervalles spécifiques.

#### Exemple

**Scénario** : Vous êtes un analyste financier et vous voulez montrer l'évolution du cours des actions de deux entreprises sur une période d'un an.

In [None]:
data = {
    'Date': ['Janvier', 'Février', 'Mars', 'Avril', 'Mai', 'Juin', 'Juillet', 'Août', 'Septembre', 'Octobre', 'Novembre', 'Décembre'],
    'CIE': [100, 105, 102, 110, 115, 120, 125, 130, 128, 132, 135, 140],
    'SODECI': [90, 95, 93, 98, 100, 105, 110, 108, 112, 115, 118, 120]
}

df = pd.DataFrame(data)

In [None]:
df.head(10)

In [None]:
# Utilisation de Matplotlib
import matplotlib.pyplot as plt

In [None]:
# Création du graphique en lignes
plt.figure(figsize=(15, 6))
plt.plot(df['Date'], df['CIE'], marker="o", label="CIE", color='orange')
plt.plot(df['Date'], df['SODECI'], marker="o", label="SODECI", color='green')

plt.xlabel('Date')
plt.ylabel('Cours de l\'action')
plt.title('Évolution du Cours des Actions de la CIE & SODECI')

plt.xticks(rotation=45)
plt.legend()
plt.grid(True)

plt.show()

### Histogramme

#### Pourquoi Utiliser un Histogramme

1. **Distribution des Données** : Les histogrammes sont excellents pour montrer la distribution d'un ensemble de données continues ou discrètes. Ils permettent de visualiser comment les données sont réparties sur une plage de valeurs.
2. **Identification des Tendances** : Ils aident à identifier les tendances centrales, la dispersion, et la forme de la distribution des données.
3. **Détection des Anomalies** : Les histogrammes sont utiles pour détecter des valeurs atypiques (outliers) et comprendre la variabilité des données.

#### Quand Utiliser un Histogramme

1. **Analyse de Distribution** : Lorsque vous avez besoin de comprendre la distribution d'une variable continue, comme les notes des étudiants, les temps de réponse, ou les prix des maisons.
2. **Résumé Visuel des Données** : Pour résumer de grandes quantités de données et rendre les informations plus accessibles.
3. **Comparaison de Distributions** : Pour comparer la distribution de la même variable entre différentes sous-populations ou conditions.

#### Comment Interpréter un Histogramme

- **Axes** : L'axe horizontal (x) représente les intervalles de valeurs (bins), et l'axe vertical (y) représente la fréquence ou le nombre de données dans chaque intervalle.
- **Barres** : La hauteur de chaque barre indique combien de données tombent dans cet intervalle. Les barres plus hautes indiquent une fréquence plus élevée.
- **Forme de la Distribution** : La forme globale des barres peut indiquer si la distribution est normale, biaisée, bimodale, etc.

#### Exemple

**Scénario** : Vous êtes un analyste en ressources humaines et vous voulez montrer la distribution des salaires des employés dans votre entreprise.

In [None]:
import matplotlib.pyplot as plt

In [None]:
# Données d'exemple
salaries = [40000, 45000, 50000, 52000, 53000, 55000, 60000, 62000, 65000,
            70000, 75000, 80000, 85000, 90000, 95000, 100000]

df = pd.DataFrame(salaries, columns=['Salaire'])

In [None]:
df.head()

In [None]:
# Création de l'histogramme
plt.figure(figsize=(15, 6))
plt.hist(df['Salaire'], bins=10, color='skyblue', edgecolor='black')

plt.xlabel('Salaire ($)')
plt.ylabel('Nombre d\'employés')
plt.title('Distribution des Salaires des Employés')
plt.grid(True)

# Affichage
plt.show()

#### Exemple 2

In [None]:
# Données d'exemple pour les âges d'une population
ages = [22, 25, 25, 27, 28, 30, 32, 35, 37, 40, 41, 42, 45, 46, 50, 52, 55, 57, 60, 62, 65, 68, 70, 75, 78, 80]

# Création de l'histogramme avec des tranches d'âge de 10 ans
bins = [0, 10, 20, 30, 40, 50, 60, 70, 80, 90]  # Définir les tranches d'âge

plt.figure(figsize=(15, 6))
plt.hist(ages, bins=bins, color='lightgreen', edgecolor='black')

plt.xlabel('Âge')
plt.ylabel('Nombre de personnes')
plt.title('Distribution des Âges dans la Population par Tranches d\'Âge')
plt.grid(True)
# Pour afficher les limites des bins sur l'axe des x
plt.xticks(bins)  
plt.show()

In [None]:
# Avec Plotly
fig = px.histogram(df, x='Salaire', nbins=10)
fig.show()

### Graphique en Nuages de Points (Scatter Plot)

#### Pourquoi Utiliser un Graphique en Nuages de Points

1. **Visualisation de la Relation** : Les graphiques en nuages de points sont parfaits pour visualiser la relation entre deux variables numériques. Ils permettent de voir comment une variable affecte une autre.
2. **Détection des Tendances** : Ils aident à identifier des tendances, des corrélations, et des relations de causalité potentielles entre les variables.
3. **Identification des Anomalies** : Les graphiques en nuages de points sont utiles pour repérer les valeurs atypiques (outliers) et comprendre la variabilité des données.

#### Quand Utiliser un Graphique en Nuages de Points

1. **Analyse Bivariée** : Lorsque vous souhaitez analyser la relation entre deux variables numériques, comme la hauteur et le poids, le prix et la surface d'une maison, ou le temps de réaction et l'âge.
2. **Détection de Corrélation** : Pour détecter des corrélations ou des patterns entre deux variables.
3. **Exploration de Données** : Lors de l'exploration des données pour repérer des tendances générales ou des anomalies.

#### Comment Interpréter un Graphique en Nuages de Points

- **Points** : Chaque point représente une observation dans les données, avec ses coordonnées correspondant aux valeurs des deux variables.
- **Tendance Générale** : La distribution des points peut indiquer une tendance positive, négative, ou nulle entre les variables.
- **Densité des Points** : La concentration des points dans certaines zones peut indiquer une forte relation ou des valeurs fréquemment observées.
- **Outliers** : Les points éloignés des autres peuvent être des valeurs atypiques ou des anomalies.

#### Exemple

**Scénario** : Vous êtes un économiste et vous voulez montrer la relation entre le PIB (Produit Intérieur Brut) par habitant et le taux de chômage de différents pays.

In [None]:
# Exemple de donée
data = {
    'Pays': ['France', 'Allemagne', 'États-Unis', 'Japon', 'Canada', 'Australie', 'Royaume-Uni', 'Italie', 'Brésil', 'Inde'],
    'PIB par habitant (USD)': [42000, 50000, 60000, 40000, 45000, 47000, 41000, 35000, 15000, 8000],
    'Taux de chômage (%)': [6, 5, 4, 3, 7, 5.5, 4.5, 8, 12, 10]
}

df = pd.DataFrame(data)
df.head(10)

In [None]:
pib_per_capita = df['PIB par habitant (USD)']
unemployment_rate = df['Taux de chômage (%)']
countries = df['Pays']

In [None]:
countries

In [None]:
# Création du graphique en nuages de points
plt.figure(figsize=(15, 6))
plt.scatter(pib_per_capita, unemployment_rate, color='blue')

# Annotation des points avec les noms des pays
for index, country in enumerate(countries):
    plt.annotate(country, (pib_per_capita[index], unemployment_rate[index]))
    
plt.xlabel('PIB par habitant (USD)')
plt.ylabel('Taux de chômage (%)')
plt.title('Relation entre le PIB par habitant et le Taux de Chômage')
plt.grid(True)

# Affichage
plt.show()

In [None]:
import pandas as pd
import plotly.express as px

# Données
data = {
    'Pays': ['France', 'Allemagne', 'États-Unis', 'Japon', 'Canada', 'Australie', 'Royaume-Uni', 'Italie', 'Brésil', 'Inde'],
    'PIB par habitant (USD)': [42000, 50000, 60000, 40000, 45000, 47000, 41000, 35000, 15000, 8000],
    'Taux de chômage (%)': [6, 5, 4, 3, 7, 5.5, 4.5, 8, 12, 10]
}

# Convertir le dictionnaire en DataFrame pandas
df = pd.DataFrame(data)

# Créer le diagramme de dispersion
fig = px.scatter(df, x='PIB par habitant (USD)', y='Taux de chômage (%)', text='Pays',
                 title='Relation entre le PIB par habitant et le Taux de Chômage',
                 labels={'PIB par habitant (USD)': 'PIB par habitant (USD)', 'Taux de chômage (%)': 'Taux de chômage (%)'})

# Ajouter les étiquettes des points
fig.update_traces(textposition='top center')

# Afficher le graphique
fig.show()

In [None]:
import plotly.express as px
df = px.data.tips()
df.head()

In [None]:
df.shape

In [None]:
fig = px.scatter(df, x="total_bill", y="tip", color="smoker", facet_col="sex")
fig.show()

In [None]:
df_test = px.data.election()

In [None]:
df_test.head()

In [None]:
df_test.shape

In [None]:
df_test['winner'].unique()

In [None]:
# Créer un diagramme à barres pour visualiser les votes
fig_bar = px.bar(df_test, x='district', y=df_test['winner'].unique(),
                 title="Votes par candidat et par district",
                 labels={'value': 'Nombre de votes', 'variable': 'Candidat', 'district': 'District'},
                 barmode='group')

# Afficher le diagramme à barres
fig_bar.show()

In [None]:
# Créer un diagramme de dispersion pour visualiser les votes de deux candidats

# Créer un dictionnaire pour les couleurs des gagnants
color_map = {'Joly': 'yellow', 'Bergeron': 'blue'}

fig_scatter = px.scatter(df_test, x='Joly', y='Bergeron',
                         title="Votes de Joly vs Bergeron",
                         labels={'Joly': 'Votes pour Joly', 'Bergeron': 'Votes pour Bergeron'},
                         color='winner',
                         color_discrete_map=color_map
                        )

# Afficher le diagramme de dispersion
fig_scatter.show()

In [None]:
# Créer une carte choroplèthe pour visualiser les résultats par district
geojson = px.data.election_geojson()

fig_choropleth = px.choropleth(df_test, geojson=geojson, locations='district', color='winner',
                               featureidkey="properties.district",
                               projection="mercator",
                               title="Résultats par district",
                               labels={'winner': 'Gagnant par district'})

fig_choropleth.update_geos(fitbounds="locations", visible=False)
fig_choropleth.show()

In [None]:
import plotly.express as px
df = px.data.gapminder().query("continent == 'Oceania'")
fig = px.line(df, x='year', y='lifeExp', color='country', symbol="country")
fig.show()


## Checkpoint Objective 
#### Instructions
1. Chargez l'ensemble de données dans un cadre de données à l'aide de Python.
2. Nettoyez les données au besoin.
3. Tracez un graphique linéaire pour montrer les fluctuations moyennes de température en Tunisie et au Cameroun. Interpréter les résultats.
4. Zoomez pour n'inclure que les données entre 1980 et 2005, essayez de personnaliser les étiquettes des axes.
5. Créer des histogrammes pour montrer la distribution de la température au Sénégal entre [1980,2000] et [2000,2023] (dans la même figure). 6. Décrire les résultats obtenus.
7. Sélectionnez le meilleur graphique pour afficher la température moyenne par pays.
8. Posez vos propres questions sur l'ensemble de données et essayez d'y répondre en utilisant les visuels appropriés.

Lien Data : https://drive.google.com/file/d/1I8eV4-8p61CNNlVJzzho2xeoZ5-P7Q0F/view