<a href="https://colab.research.google.com/github/ck7up/skillsforall/blob/ck7up-skillsforall/Visualisation_des_donn%C3%A9es_avec_Pandas_et_Matploit.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Visualisation des données sur PANDAS**
* Référence  : https://pandas.pydata.org/pandas-docs/stable/user_guide/visualization.html
* Auteur : Christian KALLA, christian.kalla@ccnb.ca, CCNB HIVER 2024.
* https://www.linkedin.com/in/christian-kalla/
* kallachristianovich@gmail.com

Bienvenue à ce cours sur la visualisation des données avec Matplotlib dans le contexte de la cybersécurité.
Nous allons explorerer la version 3 de notre fichier csv qui se trouve sur github (https://raw.githubusercontent.com/ck7up/skillsforall/main/cybersecurity_attacks_data_ver3.csv).
 Il va nous permettre de comprendre ensemble des principes fondamentaux de la visualisation de données à l'aide de la bibliothèque **Matplotlib** . À travers ce cours, nous aborderons:
1. la visualisation de base,
2. l'utilisation de différents types de graphiques,
3. la personnalisation des visualisations en utilisant un jeu de données représentant des attaques cybernétiques.

## 1. Visualisation de base

### 1.1. Importons notre DataFrame "cyberdf"

In [None]:
import pandas as pd
import matplotlib.pyplot as plt

# Charger les données depuis le fichier CSV
url = "https://raw.githubusercontent.com/ck7up/skillsforall/main/cybersecurity_attacks_data_ver3.csv"
cyberdf = pd.read_csv(url)

# Afficher les premières lignes du dataframe
cyberdf.head()

### 1.2. Exemple de visualisation de base : `"Nombre d'attaques par type"`


* ```import pandas as pd```: Importe la bibliothèque pandas et la renomme en tant que "pd" pour faciliter l'utilisation.

* `import matplotlib.pyplot` as plt: Importe la sous-bibliothèque pyplot de la bibliothèque matplotlib et la renomme en tant que "plt" pour faciliter l'utilisation lors de la création de graphiques.

* `url="https://raw.githubusercontent.com/ck7up/skillsforall/main/cybersecurity_attacks_data_ver3.csv"`: Définit l'URL du fichier CSV contenant les données sur les attaques informatiques.

* `cyberdf = pd.read_csv(url)`: Utilise la fonction read_csv de pandas pour charger les données du fichier CSV à l'URL spécifiée dans un objet appelé "cyberdf" (DataFrame), qui est une structure de données tabulaire de pandas.

* `attack_type_counts = df['AttackType'].value_counts()`: Compte le nombre d'occurrences de chaque type d'attaque en utilisant la colonne 'AttackType' du DataFrame et stocke les résultats dans la variable "attack_type_counts".

* `plt.figure(figsize=(10, 6))`: Crée une figure (graphique) avec une taille de 10 unités de largeur sur 6 unités de hauteur.

* `attack_type_counts.plot(kind='bar', color='skyblue')`: Utilise la méthode plot pour créer un graphique de type barre en utilisant les données de "attack_type_counts" avec une couleur de barre définie comme "skyblue".

* `plt.title('Nombre d\'attaques par type'):` Ajoute un titre au graphique.

* `plt.xlabel('Type d\'attaque')`: Ajoute une étiquette à l'axe des x (horizontal) du graphique.

* `plt.ylabel('Nombre d\'attaques')`: Ajoute une étiquette à l'axe des y (vertical) du graphique.

* `plt.show()`: Affiche le graphique.

In [None]:
attack_type_counts = cyberdf['AttackType'].value_counts()
plt.figure(figsize=(10, 6))

attack_type_counts.plot(kind='bar', color='skyblue')

plt.title('Nombre d\'attaques par type')
plt.xlabel('Type d\'attaque')
plt.ylabel('Nombre d\'attaques')

plt.show()

### **1.3. Diagramme à secteurs (Pie chart) pour la répartition des attaques par gravité:** `"Répartition des attaques par gravité"`

* `severity_counts = df['Severity'].value_counts()`: Compte le nombre d'occurrences de chaque niveau de gravité d'attaque et stocke les résultats dans la variable severity_counts.

* `plt.figure(figsize=(8, 8))`: Crée une figure (graphique) avec une taille de 8 unités de largeur sur 8 unités de hauteur.

* `severity_counts.plot(kind='pie', autopct='%1.1f%%', colors=['lightcoral', 'lightgoldenrodyellow', 'lightblue'])` : Utilise la méthode plot avec `kind='pie'` pour créer un graphique en secteurs. L'argument `autopct='%1.1f%%' ` ajoute les pourcentages sur chaque secteur, et colors spécifie les couleurs à utiliser pour chaque secteur.

`plt.title('Répartition des attaques par gravité')`: Ajoute un titre au graphique.

`plt.show()`: Affiche le graphique en secteurs.

In [None]:
severity_counts = cyberdf['Severity'].value_counts()
plt.figure(figsize=(8, 8))

severity_counts.plot(kind='pie', autopct='%2.1f%%', colors=['lightcoral', 'lightgoldenrodyellow', 'lightblue'])
plt.title('Répartition des attaques par gravité')

plt.show()

### **1.4. Diagramme à barres empilées :** `Répartition des attaques par statut`.


* `status_counts = cyberdf['Status'].value_counts()`: Compte le nombre d'occurrences de chaque statut d'attaque et stocke les résultats dans la variable `status_counts`.

* `plt.figure(figsize=(10, 6))`: Crée une figure (graphique) avec une taille de 10 unités de largeur sur 6 unités de hauteur.

* `status_plot = status_counts.plot(kind='bar', stacked=True, color=['lightcoral', 'lightblue', 'lightgreen', 'orange'])`: Utilise la méthode `plot` avec `kind='bar'` pour créer un graphique à barres. L'argument `stacked=True` empile les barres, et l'argument `color` spécifie les couleurs à utiliser pour chaque barre. Les couleurs sont définies comme ['lightcoral', 'lightblue', 'lightgreen', 'orange'].

* La boucle `for i, value in enumerate(status_counts):` itère sur les valeurs du comptage des statuts.

* `status_plot.text(i, value + 0.5, str(value), ha='center', va='bottom')`: Ajoute du texte au-dessus de chaque barre dans le graphique. Les coordonnées `(i, value + 0.5)` représentent la position du texte, où `i` est l'indice de la barre, `value + 0.5` ajuste la position verticale pour placer le texte au-dessus de la barre, et `str(value)` est la valeur à afficher. Les arguments `ha='center'` et `va='bottom'` alignent le texte au centre horizontalement et au bas verticalement.

* `plt.title('Répartition des attaques par statut')`: Ajoute un titre au graphique.

* `plt.xlabel('Statut')`: Ajoute une étiquette à l'axe des x (horizontal) du graphique.

* `plt.ylabel('Nombre d\'attaques')`: Ajoute une étiquette à l'axe des y (vertical) du graphique.

* `plt.show()`: Affiche le graphique à barres avec les nombres ajoutés au-dessus de chaque barre.

In [None]:
status_counts = cyberdf['Status'].value_counts()
plt.figure(figsize=(10, 6))

status_plot =status_counts.plot(kind='bar', stacked=True, color=['lightcoral', 'lightblue', 'lightgreen', 'orange'])

# Ajout des nombres sur les barres
for i, value in enumerate(status_counts):
    status_plot.text(i, value + 0.5, str(value), ha='center', va='bottom')

plt.title('Répartition des attaques par statut')
plt.xlabel('Statut')
plt.ylabel('Nombre d\'attaques')

plt.show()


## 1.5. Visualisation de la distribution de la durée des attaques : `"Distribution de la durée des attaques"`  Histogramme.


* `filtered_data = cyberdf.dropna(subset=['AttackDuration'])`: Utilise la méthode `dropna` de pandas pour supprimer les lignes contenant des valeurs nulles dans la colonne 'AttackDuration'. Les données filtrées sont ensuite stockées dans la variable `filtered_data`.

* `plt.figure(figsize=(10, 6))`: Crée une figure (graphique) avec une taille de 10 unités de largeur sur 6 unités de hauteur.

* `plt.hist(filtered_data['AttackDuration'], bins=30, color='skyblue', edgecolor='black')`: Utilise la méthode `hist` pour créer un histogramme. Les valeurs de l'axe des x sont la durée des attaques, l'argument `bins=30` spécifie le nombre de bacs à utiliser, la couleur est définie comme "skyblue", et la couleur des bords est définie comme noir.

* `plt.title('Distribution de la durée des attaques')`: Ajoute un titre au graphique.

* `plt.xlabel('Durée de l\'attaque (secondes)')`: Ajoute une étiquette à l'axe des x (horizontal) du graphique, indiquant la durée de l'attaque en secondes.

* `plt.ylabel('Fréquence')`: Ajoute une étiquette à l'axe des y (vertical) du graphique, indiquant la fréquence (nombre d'occurrences) des différentes durées d'attaque.

* `plt.grid(axis='y', linestyle='--')`: Ajoute une grille en pointillés à l'axe des y pour faciliter la lecture des valeurs.

* `plt.grid(axis='x', linestyle='--')`: Ajoute une grille en pointillés à l'axe des x pour faciliter la lecture des valeurs.

* `plt.show()`: Affiche l'histogramme représentant la distribution de la durée des attaques.

In [None]:
# Comme expliqué en classe, nous filtrons les données nulles pour la durée des attaques
filtered_data = cyberdf.dropna(subset=['AttackDuration'])

plt.figure(figsize=(10, 6))

plt.hist(filtered_data['AttackDuration'], bins=30, color='skyblue', edgecolor='black')

plt.title('Distribution de la durée des attaques')
plt.xlabel('Durée de l\'attaque (secondes)')
plt.ylabel('Fréquence')

plt.grid(axis='y', linestyle='--')
plt.grid(axis='x', linestyle='--')


plt.show()

# 2. Visualisation avancées

## 2.1. Visualisation de la répartition des attaques par type et par statut




* `type_status_counts = cyberdf.groupby(['AttackType', 'Status']).size().unstack()`: Utilise la méthode `groupby` de pandas pour regrouper les données en fonction des colonnes 'AttackType' et 'Status'. Ensuite, `size()` compte le nombre d'occurrences pour chaque combinaison de type d'attaque et de statut, et `unstack()` pivote ces données pour créer un DataFrame où les colonnes représentent les différents statuts et les index représentent les types d'attaques.

* `type_status_counts.plot(kind='bar', stacked=True, colormap='tab10', figsize=(12, 8))`: Utilise la méthode `plot` pour créer un graphique à barres empilées. L'argument `kind='bar'` spécifie le type de graphique, `stacked=True` empile les barres, `colormap='tab10'` spécifie la colormap à utiliser pour les différentes catégories, et `figsize=(12, 8)` définit la taille de la figure.

* `plt.title('Répartition des attaques par type et par statut')`: Ajoute un titre au graphique.

* `plt.xlabel('Type d\'attaque')`: Ajoute une étiquette à l'axe des x (horizontal) du graphique.

* `plt.ylabel('Nombre d\'attaques')`: Ajoute une étiquette à l'axe des y (vertical) du graphique.

* `plt.legend(title='Statut')`: Ajoute une légende au graphique, spécifiant que les couleurs dans le graphique représentent différents statuts. L'argument `title='Statut'` ajoute un titre à la légende.

* `plt.show()`: Affiche le graphique à barres empilées.

In [None]:
type_status_counts = cyberdf.groupby(['AttackType', 'Status']).size().unstack()

type_status_counts.plot(kind='bar', stacked=True, colormap='tab10', figsize=(12, 8))

plt.title('Répartition des attaques par type et par statut')
plt.xlabel('Type d\'attaque')
plt.ylabel('Nombre d\'attaques')

plt.legend(title='Statut')

plt.show()

## 2.2. Visualisation de la durée moyenne des attaques par type

* `duration_by_type = df.groupby('AttackType')['AttackDuration'].mean()`: Utilise la méthode `groupby` de pandas pour regrouper les données en fonction du type d'attaque. Ensuite, la méthode `mean()` calcule la durée moyenne des attaques pour chaque type.

* `plt.figure(figsize=(12, 6))`: Crée une figure (graphique) avec une taille de 12 unités de largeur sur 6 unités de hauteur.

* `plt.scatter(duration_by_type.index, duration_by_type.values, s=100, color='orange')`: Utilise la méthode `scatter` pour créer un nuage de points. Les valeurs de l'axe des x sont les types d'attaques, les valeurs de l'axe des y sont les durées moyennes, et la couleur est définie comme orange. L'argument `s=100` spécifie la taille des points.

* `plt.title('Durée moyenne des attaques par type')`: Ajoute un titre au graphique.

* `plt.xlabel('Type d\'attaque')`: Ajoute une étiquette à l'axe des x (horizontal) du graphique.

* `plt.ylabel('Durée moyenne (secondes)')`: Ajoute une étiquette à l'axe des y (vertical) du graphique.

* `plt.grid(True)`: Ajoute une grille au graphique pour faciliter la lecture des valeurs.

* `plt.show()`: Affiche le graphique de dispersion de la durée moyenne des attaques par type.

In [None]:
duration_by_type = cyberdf.groupby('AttackType')['AttackDuration'].mean()
plt.figure(figsize=(12, 6))

plt.scatter(duration_by_type.index, duration_by_type.values, s=100, color='orange')

plt.title('Durée moyenne des attaques par type')
plt.xlabel('Type d\'attaque')
plt.ylabel('Durée moyenne (secondes)')

# plt.grid(True)

plt.show()

## 2.3. Visualisation de la durée des attaques via un nuage de points (Scatter)

* `filtered_data = cyberdf.dropna(subset=['Severity', 'AttackDuration'])`: Utilise la méthode `dropna` de pandas pour supprimer les lignes contenant des valeurs nulles dans les colonnes 'Severity' et 'AttackDuration'. Les données filtrées sont ensuite stockées dans la variable `filtered_data`.

* `plt.figure(figsize=(10, 6))`: Crée une figure (graphique) avec une taille de 10 unités de largeur sur 6 unités de hauteur.

* `plt.scatter(filtered_data['Severity'], filtered_data['AttackDuration'], color='skyblue', alpha=0.7)`: Utilise la méthode `scatter` pour créer un nuage de points. Les valeurs de l'axe des x sont la gravité des attaques et celles de l'axe des y sont la durée de l'attaque en secondes. La couleur des points est définie comme "skyblue" avec une transparence de 0.7.

* `plt.title('Nuage de points : Gravité des attaques vs Durée')`: Ajoute un titre au graphique.

* `plt.xlabel('Gravité des attaques')`: Ajoute une étiquette à l'axe des x (horizontal) du graphique, indiquant la gravité des attaques.

* `plt.ylabel('Durée de l\'attaque (secondes)')`: Ajoute une étiquette à l'axe des y (vertical) du graphique, indiquant la durée de l'attaque en secondes.

* `plt.show()`: Affiche le graphique de dispersion représentant la relation entre la gravité des attaques et leur durée.

In [None]:
# Nous devons filtrer les données non nulles pour Severity et AttackDuration pour eviter les erreurs :)
filtered_data = cyberdf.dropna(subset=['Severity', 'AttackDuration'])

plt.figure(figsize=(10, 6))

plt.scatter(filtered_data['Severity'], filtered_data['AttackDuration'], color='skyblue', alpha=0.7)

plt.title('Nuage de points : Gravité des attaques vs Durée')
plt.xlabel('Gravité des attaques')
plt.ylabel('Durée de l\'attaque (secondes)')

# plt.grid(True)

plt.show()

## 2.4. Visualisation de la courbe de densité de la durée des attaques

* `import seaborn as sns`: Importe la bibliothèque Seaborn sous l'alias `sns`.

* `filtered_data = cyberdf.dropna(subset=['AttackDuration'])`: Utilise la méthode `dropna` de pandas pour supprimer les lignes contenant des valeurs nulles dans la colonne 'AttackDuration'. Les données filtrées sont ensuite stockées dans la variable `filtered_data`.

* `plt.figure(figsize=(10, 6))`: Crée une figure (graphique) avec une taille de 10 unités de largeur sur 6 unités de hauteur.

* `sns.kdeplot(filtered_data['AttackDuration'], fill=True, color='skyblue')`: Utilise la fonction `kdeplot` de Seaborn pour créer une courbe de densité (KDE) de la distribution de la durée des attaques. L'argument `fill=True` remplit l'aire sous la courbe, et la couleur est définie comme 'skyblue'.

* `plt.title('Courbe de densité de la durée des attaques')`: Ajoute un titre au graphique.

* `plt.xlabel('Durée de l\'attaque (secondes)')`: Ajoute une étiquette à l'axe des x (horizontal) du graphique, indiquant la durée de l'attaque en secondes.

* `plt.ylabel('Densité')`: Ajoute une étiquette à l'axe des y (vertical) du graphique, indiquant la densité de la distribution.

* `plt.grid(axis='y', linestyle='--')`: Ajoute une grille en pointillés à l'axe des y pour faciliter la lecture des valeurs.

* `plt.show()`: Affiche la courbe de densité de la durée des attaques.

In [None]:
import seaborn as sns
filtered_data = cyberdf.dropna(subset=['AttackDuration'])

plt.figure(figsize=(10, 6))

sns.kdeplot(filtered_data['AttackDuration'], fill=True, color='skyblue')

plt.title('Courbe de densité de la durée des attaques')
plt.xlabel('Durée de l\'attaque (secondes)')
plt.ylabel('Densité')

plt.grid(axis='y', linestyle='--')

plt.show()


## 2.5. Visualisation de l'évolution du nombre d'attaques par statut au fil du temps

* `cyberdf['AttackDate'] = pd.to_datetime(cyberdf['AttackDate'])`: Convertit la colonne 'AttackDate' du DataFrame `cyberdf` en format de date en utilisant la méthode `pd.to_datetime()`. Cela permet de traiter les dates comme des objets temporels.

* `.size() `: Renvoie un entier représentant le nombre d'éléments dans cet objet.
Renvoie le nombre de lignes si série. Sinon, renvoie le nombre de lignes multiplié par le nombre de colonnes si DataFrame.

* `attacks_by_status = cyberdf.groupby('Status').size()`: Regroupe les données par la colonne 'Status' (Statut) et compte le nombre d'attaques pour chaque statut à l'aide de `size()`. Les résultats sont stockés dans la variable `attacks_by_status`.

* `plt.figure(figsize=(10, 6))`: Crée une figure (graphique) avec une taille de 10 unités de largeur sur 6 unités de hauteur.

* `attacks_by_status.plot(kind='line', marker='o', color='blue', linestyle='-', label='Nombre d\'attaques')`: Utilise la méthode `plot` pour créer une courbe d'évolution du nombre d'attaques par statut au fil du temps. Les paramètres spécifiés incluent le type de graphique (`kind='line'`), le style du marqueur (`marker='o'`), la couleur de la ligne (`color='blue'`), le style de ligne (`linestyle='-'`), et une étiquette pour la légende (`label='Nombre d\'attaques'`).

* `plt.title('Évolution du nombre d\'attaques par statut au fil du temps')`: Ajoute un titre au graphique.

* `plt.xlabel('Statut')`: Ajoute une étiquette à l'axe des x (horizontal) du graphique, indiquant les différents statuts.

* `plt.ylabel('Nombre d\'attaques')`: Ajoute une étiquette à l'axe des y (vertical) du graphique, indiquant le nombre d'attaques.

* `plt.grid(True)`: Ajoute une grille au graphique pour faciliter la lecture des valeurs.

* `plt.legend()`: Ajoute une légende au graphique en utilisant les étiquettes définies précédemment.

* `plt.show()`: Affiche la courbe d'évolution du nombre d'attaques par statut au fil du temps.

In [None]:
# On converti la colonne 'AttackDate' en format de date avec la methode .to_datetime()
cyberdf['AttackDate'] = pd.to_datetime(cyberdf['AttackDate'])

# Regrouper les données par statut et compter le nombre d'attaques
attacks_by_status = cyberdf.groupby('Status').size()

# Créer une courbe d'évolution du nombre d'attaques par statut
plt.figure(figsize=(10, 6))
attacks_by_status.plot(kind='line', marker='o', color='g', linestyle='--', label='Nombre d\'attaques')

plt.title('Évolution du nombre d\'attaques par statut au fil du temps')
plt.xlabel('Statut')
plt.ylabel('Nombre d\'attaques')

plt.grid(True)
plt.legend()
plt.show()

## 2.6. Visualisation de la distribution des types d'attaques et de la gravité des attaques avec un bloc de trois histogrammes.

* `filtered_data_ip = cyberdf.dropna(subset=['AttackerIP']).copy()`: Utilise la méthode `dropna` de pandas pour supprimer les lignes contenant des valeurs nulles dans la colonne 'AttackerIP'. Les données filtrées sont ensuite copiées dans une nouvelle DataFrame `filtered_data_ip`.

* Convertit les colonnes 'AttackType', 'Severity', et 'AttackerIP' en chaînes de caractères à l'aide des méthodes `astype(str)`.

* `plt.figure(figsize=(18, 5))`: Définit la taille de la figure globale à 18 unités de largeur sur 5 unités de hauteur.

* `plt.subplot(1, 3, 1)`: Crée le premier sous-traceur pour le premier histogramme. La notation `(1, 3, 1)` signifie qu'il y a 1 ligne, 3 colonnes, et celui-ci est le premier sous-traceur.

* `plt.hist(filtered_data_ip['AttackType'], color='skyblue', edgecolor='black', alpha=0.7)`: Utilise la méthode `hist` pour créer un histogramme de la distribution des types d'attaque. La couleur est définie comme 'skyblue', la couleur des bords est définie comme noir, et `alpha=0.7` spécifie la transparence.

* `plt.title('Distribution des types d\'attaque')`: Ajoute un titre au premier histogramme.

* `plt.xlabel('Type d\'attaque')`: Ajoute une étiquette à l'axe des x (horizontal) du premier histogramme.

* `plt.ylabel('Fréquence')`: Ajoute une étiquette à l'axe des y (vertical) du premier histogramme.

* Les étapes similaires sont répétées pour les deuxième et troisième histogrammes, en ajustant les données et les étiquettes correspondantes.

* `plt.xticks(rotation=90)`: Fait pivoter les étiquettes de l'axe des x du troisième histogramme à 90 degrés pour une meilleure lisibilité.

* `plt.tight_layout()`: Ajuste automatiquement la disposition des sous-traceurs pour éviter les chevauchements.

* `plt.show()`: Affiche les trois histogrammes.

In [None]:
filtered_data_ip = cyberdf.dropna(subset=['AttackerIP', 'Severity', 'AttackType']).copy()

filtered_data_ip['AttackType'] = filtered_data_ip['AttackType'].astype(str)
filtered_data_ip['Severity'] = filtered_data_ip['Severity'].astype(str)
filtered_data_ip['AttackerIP'] = filtered_data_ip['AttackerIP'].astype(str)

plt.figure(figsize=(18, 5))

plt.subplot(1, 3, 1)
plt.hist(filtered_data_ip['AttackType'])
plt.title('Distribution des types d\'attaque')
plt.xlabel('Type d\'attaque')
plt.ylabel('Fréquence')
plt.xticks(rotation=90)


plt.subplot(1, 3, 2)
plt.hist(filtered_data_ip['Severity'], edgecolor='black', alpha=0.7)
plt.title('Distribution des niveaux de gravité')
plt.xlabel('Niveau de gravité')
plt.ylabel('Fréquence')
plt.xticks(rotation=90)


plt.subplot(1, 3, 3)
plt.hist(filtered_data_ip['AttackerIP'],  edgecolor='black', alpha=0.7)
plt.title('Distribution des adresses IP des attaquants')
plt.xlabel('Adresse IP de l\'attaquant')
plt.ylabel('Fréquence')
plt.xticks(rotation=90)

# Afficher les graphiques
plt.tight_layout()

plt.show()