<div style="text-align: center;">
  <h1>Cybersecurity Data Analysis</h1>
</div>

## Contexte
La cybersécurité est devenue un enjeu majeur dans un monde de plus en plus connecté.<br> 
Les incidents de cybersécurité peuvent avoir des impacts graves sur les entreprises, allant de la perte de données à des violations massives de confidentialité. 

## Source des Données
Ce dataset est disponible sur le dépôt GitHub : https://github.com/incribo-inc/cybersecurity_attacks.<br>  
Il recense divers incidents de cybersécurité en fournissant des informations détaillées sur le trafic réseau, les actions prises, et le contexte associé.<br> 
Les données concernent principalement des incidents observés en Inde, offrant ainsi un aperçu des vulnérabilités spécifiques à cette région.

## Description des Données
Le fichier contient 25 colonnes et un total de 40000 lignes. Ces données permettent de mieux comprendre les schémas des attaques, les segments vulnérables et les réponses associées.

### Variables Principales et Leur Signification
- **Timestamp** : Horodatage de l'événement, indiquant quand l'incident a eu lieu.
- **Source IP Address** et **Destination IP Address** : Adresses IP de la source et de la destination impliquées dans le trafic.
- **Source Port** et **Destination Port** : Ports réseau utilisés par la source et la destination.
- **Protocol** : Protocole de communication (ex : ICMP, UDP, TCP).
- **Packet Length** : Taille des paquets transmis, mesurée en octets.
- **Packet Type** : Type de paquet (données ou contrôle).
- **Traffic Type** : Type de trafic (HTTP, DNS, etc.).
- **Severity Level** : Niveau de gravité de l'incident (Low, Medium, High, etc.).
- **Geo-location Data** : Localisation géographique associée à l'incident.
- **Action Taken** : Action entreprise pour répondre à l'incident (ex : Bloqué, Ignoré, etc.).
- **User Information** et **Device Information** : Informations sur l'utilisateur et le périphérique impliqués.
- **Network Segment** : Segment réseau où l'incident a été enregistré.
- **IDS/IPS Alerts** : Alertes issues de systèmes de détection et de prévention des intrusions.

Détails des questions et axes d'analyse :

- Quels types de trafic et protocoles sont les plus fréquents et lesquels présentent les niveaux de gravité les plus élevés ?
- Quels segments réseau ou géographiques sont les plus vulnérables ?
- Existe-t-il des corrélations significatives entre les variables, telles que la taille des paquets, les types de trafic, et les niveaux de gravité ?
- Quelles zones géographiques et segments réseau sont les plus souvent ciblés ?
- Y a-t-il des tendances temporelles dans les attaques, comme des pics observés à certains jours ou mois spécifiques ?
- Quelle est la distribution des attaques sur les différentes plateformes, navigateurs ou types de périphériques ?
- Quels privilèges d'accès sont exploités lors des attaques et comment cela affecte-t-il leur gravité ?
- Quelle est la proportion d'attaques détectées ou non détectées ? Quels sont les types d'attaques les plus récurrents ?
- Comment les requêtes réseau, en termes de longueur et fréquence, varient-elles entre différents types d'incidents ?
- Quels types de mesures ont été prises et leur efficacité en termes de niveau de sécurité atteint ?
- Comment les différents types de "network traffic" (HTTP, DNS, etc.) contribuent-ils aux incidents de cybersécurité ?

En synthétisant ces informations, l'analyse visera à identifier des schémas récurrents, explorer des distributions statistiques, et fournir des insights pour améliorer les stratégies de détection et de réponse.<br> 
Cette exploration aidera également à mettre en évidence les segments les plus vulnérables et à formuler des recommandations spécifiques pour renforcer la cybersécurité globale.


In [1]:
import pandas as pd 
import matplotlib.pyplot as plt
import seaborn as sns
import re


## Data Loading

In [2]:
path="../data/raw/cybersecurity_attacks.csv"
data= pd.read_csv(path)
data.head


<bound method NDFrame.head of                  Timestamp Source IP Address Destination IP Address  \
0      2023-05-30 06:33:58     103.216.15.12           84.9.164.252   
1      2020-08-26 07:08:30    78.199.217.198         66.191.137.154   
2      2022-11-13 08:23:25      63.79.210.48          198.219.82.17   
3      2023-07-02 10:38:46     163.42.196.10        101.228.192.255   
4      2023-07-16 13:11:07     71.166.185.76        189.243.174.238   
...                    ...               ...                    ...   
39995  2023-05-26 14:08:42      26.36.109.26         121.100.75.240   
39996  2023-03-27 00:38:27      17.21.163.81         196.108.134.78   
39997  2022-03-31 01:45:49     162.35.217.57            98.107.0.15   
39998  2023-09-22 18:32:38    208.72.233.205         173.79.112.252   
39999  2023-10-10 11:59:52     14.102.21.108           109.198.45.7   

       Source Port  Destination Port Protocol  Packet Length Packet Type  \
0            31225             17616     

## Data Exploration

In [3]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 40000 entries, 0 to 39999
Data columns (total 25 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   Timestamp               40000 non-null  object 
 1   Source IP Address       40000 non-null  object 
 2   Destination IP Address  40000 non-null  object 
 3   Source Port             40000 non-null  int64  
 4   Destination Port        40000 non-null  int64  
 5   Protocol                40000 non-null  object 
 6   Packet Length           40000 non-null  int64  
 7   Packet Type             40000 non-null  object 
 8   Traffic Type            40000 non-null  object 
 9   Payload Data            40000 non-null  object 
 10  Malware Indicators      20000 non-null  object 
 11  Anomaly Scores          40000 non-null  float64
 13  Attack Type             40000 non-null  object 
 14  Attack Signature        40000 non-null  object 
 15  Action Taken            40000 non-null

In [4]:
data.describe()

Unnamed: 0,Source Port,Destination Port,Packet Length,Anomaly Scores
count,40000.0,40000.0,40000.0,40000.0
mean,32970.35645,33150.86865,781.452725,50.113473
std,18560.425604,18574.668842,416.044192,28.853598
min,1027.0,1024.0,64.0,0.0
25%,16850.75,17094.75,420.0,25.15
50%,32856.0,33004.5,782.0,50.345
75%,48928.25,49287.0,1143.0,75.03
max,65530.0,65535.0,1500.0,100.0


In [27]:
print("Missing data :")
data.isnull().sum().sort_values(ascending=False)

Missing data :


IDS/IPS Alerts            20050
Malware Indicators        20000
Firewall Logs             19961
Proxy Information         19851
Attack Type                   0
Geo-location Data             0
Network Segment               0
Device Information            0
User Information              0
Severity Level                0
Action Taken                  0
Attack Signature              0
Timestamp                     0
Source IP Address             0
Anomaly Scores                0
Payload Data                  0
Traffic Type                  0
Packet Type                   0
Packet Length                 0
Protocol                      0
Destination Port              0
Source Port                   0
Destination IP Address        0
Log Source                    0
dtype: int64

## Data Cleaning

+ Suppression de la colonne "Payload Data" :<br>
 Ce champ ne semblait pas nécessaire pour l'analyse, donc on l'a éliminé pour alléger le jeu de données et éviter les confusions.<br>
+ Remplacement des valeurs manquantes :<br>
. "Alerts/Warnings" → "Alert Not Triggered" (précise qu'aucune alerte n'a été déclenchée).<br>
. "Firewall Logs" → "No Data" (indique l'absence d'enregistrements).<br>
. "Proxy Information" → "No Data" (standardise les données manquantes).<br>
. "IDS/IPS Alerts" → "No Data" (évite les valeurs vides).<br>
. "Malware Indicators" → "Unknown" (indique une absence ou une incertitude sur les indicateurs de malware).<br>

In [40]:
cleaned_data=data.drop("Payload Data",axis=1)
cleaned_data["Alerts/Warnings"] = cleaned_data["Alerts/Warnings"].fillna("Alert Not Triggered")
cleaned_data["Firewall Logs"] = cleaned_data["Firewall Logs"].fillna("No Data")
cleaned_data["Proxy Information"] = cleaned_data["Proxy Information"].fillna("No Data")
cleaned_data["IDS/IPS Alerts"] = cleaned_data["IDS/IPS Alerts"].fillna("No Data")
cleaned_data["Malware Indicators"] = cleaned_data["Malware Indicators"].fillna("Unknown")
cleaned_data.isnull().sum().sort_values(ascending=False)


Timestamp                 0
Source IP Address         0
IDS/IPS Alerts            0
Firewall Logs             0
Proxy Information         0
Geo-location Data         0
Network Segment           0
Device Information        0
User Information          0
Severity Level            0
Action Taken              0
Attack Signature          0
Attack Type               0
Anomaly Scores            0
Malware Indicators        0
Traffic Type              0
Packet Type               0
Packet Length             0
Protocol                  0
Destination Port          0
Source Port               0
Destination IP Address    0
Log Source                0
dtype: int64

In [41]:
cleaned_data['Browser'] = cleaned_data['Device Information'].str.split('/').str[0]


In [42]:

platform = r'(Windows|Linux|Android|iPad|iPod|iPhone|Macintosh)'
cleaned_data['Platform'] = cleaned_data['Device Information'].str.extract(platform, flags=re.I).fillna('Unknown')
cleaned_data = cleaned_data.drop('Device Information', axis = 1)

In [43]:
# Extract time features
cleaned_data["Timestamp"] = pd.to_datetime(cleaned_data["Timestamp"], errors='coerce')
cleaned_data['Year'] = cleaned_data["Timestamp"].dt.year
cleaned_data['Month'] = cleaned_data["Timestamp"].dt.month
cleaned_data['Day'] = cleaned_data["Timestamp"].dt.day
cleaned_data['Hour'] = cleaned_data["Timestamp"].dt.hour
cleaned_data['Minute'] = cleaned_data["Timestamp"].dt.minute
cleaned_data['Second'] = cleaned_data["Timestamp"].dt.second
cleaned_data['DayOfWeek'] = cleaned_data["Timestamp"].dt.dayofweek

In [44]:
cleaned_data.head

<bound method NDFrame.head of                 Timestamp Source IP Address Destination IP Address  \
0     2023-05-30 06:33:58     103.216.15.12           84.9.164.252   
1     2020-08-26 07:08:30    78.199.217.198         66.191.137.154   
2     2022-11-13 08:23:25      63.79.210.48          198.219.82.17   
3     2023-07-02 10:38:46     163.42.196.10        101.228.192.255   
4     2023-07-16 13:11:07     71.166.185.76        189.243.174.238   
...                   ...               ...                    ...   
39995 2023-05-26 14:08:42      26.36.109.26         121.100.75.240   
39996 2023-03-27 00:38:27      17.21.163.81         196.108.134.78   
39997 2022-03-31 01:45:49     162.35.217.57            98.107.0.15   
39998 2023-09-22 18:32:38    208.72.233.205         173.79.112.252   
39999 2023-10-10 11:59:52     14.102.21.108           109.198.45.7   

       Source Port  Destination Port Protocol  Packet Length Packet Type  \
0            31225             17616     ICMP        

In [45]:
new_path="../data/processed/processed_cybersecurity_attacks.csv"
cleaned_data.to_csv(new_path)

## Data Visualization