# Exploratory Data Analysis
**Obiettivo**: Analizzare il dataset Global Cybersecurity Threats 2015-2024

### **1. Analisi Geografica**

**Q1**: Quali sono i 5 paesi più colpiti nel dataset?
- **KPI**: Conteggio attacchi per Country (top 5)

**Q2**: Quale paese ha subito le perdite finanziarie totali maggiori?
- **KPI**: Somma Financial Loss per Country

**Q3**: Esiste differenza tra paesi sviluppati (USA, UK, Germany) e emergenti (India, Brazil, China)?
- **KPI**: Loss medio per gruppo di paesi

---

### **2. Analisi Settoriale**

**Q4**: Quali sono i 3 settori più attaccati?
- **KPI**: Frequenza per Target Industry

**Q5**: Quale settore ha le perdite medie più alte?
- **KPI**: Media Financial Loss per settore

**Q6**: Banking e Healthcare sono più colpiti da Ransomware?
- **KPI**: Crosstab Target Industry × Attack Type

---

### **3. Analisi Temporale**

**Q7**: Il numero di attacchi è cresciuto dal 2015 al 2024?
- **KPI**: Conteggio attacchi per Year + trend

**Q8**: Quale anno ha registrato il picco di attacchi?
- **KPI**: Anno con max attacchi

**Q9**: Le perdite finanziarie medie sono aumentate nel tempo?
- **KPI**: Media Financial Loss per Year

---

### **4. Analisi Tipi di Attacco**

**Q10**: Quali sono i 3 tipi di attacco più frequenti?
- **KPI**: Top 3 Attack Type per frequenza

**Q11**: Ransomware causa più danni di Phishing?
- **KPI**: Media Financial Loss per Attack Type

**Q12**: Quale attacco impatta più utenti in media?
- **KPI**: Media Affected Users per Attack Type

---

### **5. Analisi Vulnerabilità**

**Q13**: Qual è la vulnerabilità più sfruttata?
- **KPI**: Top Security Vulnerability Type

**Q14**: "Weak Passwords" causa più danni di "Unpatched Software"?
- **KPI**: Media Financial Loss per Vulnerability Type

**Q15**: Quale Attack Source è più pericoloso (Nation-state vs Hacker Group vs Insider)?
- **KPI**: Distribuzione Attack Source + loss medio

---

### **6. Analisi Difese**

**Q16**: Qual è il meccanismo di difesa più utilizzato?
- **KPI**: Top Defense Mechanism Used

**Q17**: AI-based Detection riduce il tempo di risoluzione?
- **KPI**: Media Resolution Time per Defense Mechanism

**Q18**: Firewall vs VPN vs Encryption: quale è più efficace?
- **KPI**: Loss medio e Resolution Time per difesa

---

### **7. Analisi Impatto**

**Q19**: Qual è la distribuzione delle perdite finanziarie?
- **KPI**: Min, Q1, Median, Q3, Max, Mean di Financial Loss

**Q20**: Quanti attacchi hanno causato perdite > $80M?
- **KPI**: Conteggio outliers (es. loss > P90)

**Q21**: Qual è il tempo medio di risoluzione degli incidenti?
- **KPI**: Media, Mediana, Max Resolution Time

---

### **8. Analisi Correlazioni**

**Q22**: Esiste correlazione tra Financial Loss e Affected Users?
- **KPI**: Correlation coefficient

**Q23**: Attacchi con più utenti impattati richiedono più tempo per risolversi?
- **KPI**: Correlazione Affected Users × Resolution Time

**Q24**: Zero-day vulnerabilities causano più danni?
- **KPI**: Confronto loss medio Zero-day vs altri

In [2]:
# Dependency imports
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns

# Configurazione visualizzazioni
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette('husl')
%matplotlib inline

## Dataset Loading

In [3]:
# Load dataset
df = pd.read_csv('../data/Global_Cybersecurity_Threats_2015-2024.csv')

## Dataset Overview

In [None]:
# Display first few rows of the dataset
df.head()

Unnamed: 0,Country,Year,Attack Type,Target Industry,Financial Loss (in Million $),Number of Affected Users,Attack Source,Security Vulnerability Type,Defense Mechanism Used,Incident Resolution Time (in Hours)
0,China,2019,Phishing,Education,80.53,773169,Hacker Group,Unpatched Software,VPN,63
1,China,2019,Ransomware,Retail,62.19,295961,Hacker Group,Unpatched Software,Firewall,71
2,India,2017,Man-in-the-Middle,IT,38.65,605895,Hacker Group,Weak Passwords,VPN,20
3,UK,2024,Ransomware,Telecommunications,41.44,659320,Nation-state,Social Engineering,AI-based Detection,7
4,Germany,2018,Man-in-the-Middle,IT,74.41,810682,Insider,Social Engineering,VPN,68


In [None]:
# Display last few rows of the dataset
df.tail()

Unnamed: 0,Country,Year,Attack Type,Target Industry,Financial Loss (in Million $),Number of Affected Users,Attack Source,Security Vulnerability Type,Defense Mechanism Used,Incident Resolution Time (in Hours)
2995,UK,2021,Ransomware,Government,51.42,190694,Unknown,Social Engineering,Firewall,52
2996,Brazil,2023,SQL Injection,Telecommunications,30.28,892843,Hacker Group,Zero-day,VPN,26
2997,Brazil,2017,SQL Injection,IT,32.97,734737,Nation-state,Weak Passwords,AI-based Detection,30
2998,UK,2022,SQL Injection,IT,32.17,379954,Insider,Unpatched Software,Firewall,9
2999,Germany,2021,SQL Injection,Retail,48.2,480984,Unknown,Zero-day,VPN,64


## Dataset Understanding

In [12]:
# Dataset information
print(f"Dataset shape: {df.shape}\n")
df.info()

Dataset shape: (3000, 10)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3000 entries, 0 to 2999
Data columns (total 10 columns):
 #   Column                               Non-Null Count  Dtype  
---  ------                               --------------  -----  
 0   Country                              3000 non-null   object 
 1   Year                                 3000 non-null   int64  
 2   Attack Type                          3000 non-null   object 
 3   Target Industry                      3000 non-null   object 
 4   Financial Loss (in Million $)        3000 non-null   float64
 5   Number of Affected Users             3000 non-null   int64  
 6   Attack Source                        3000 non-null   object 
 7   Security Vulnerability Type          3000 non-null   object 
 8   Defense Mechanism Used               3000 non-null   object 
 9   Incident Resolution Time (in Hours)  3000 non-null   int64  
dtypes: float64(1), int64(3), object(6)
memory usage: 234.5+ KB


In [13]:
# Numerical feature summary
df.describe()

Unnamed: 0,Year,Financial Loss (in Million $),Number of Affected Users,Incident Resolution Time (in Hours)
count,3000.0,3000.0,3000.0,3000.0
mean,2019.570333,50.49297,504684.136333,36.476
std,2.857932,28.791415,289944.084972,20.570768
min,2015.0,0.5,424.0,1.0
25%,2017.0,25.7575,255805.25,19.0
50%,2020.0,50.795,504513.0,37.0
75%,2022.0,75.63,758088.5,55.0
max,2024.0,99.99,999635.0,72.0


In [None]:
# Categorical feature summary
df.describe(include=['object'])

Unnamed: 0,Country,Attack Type,Target Industry,Attack Source,Security Vulnerability Type,Defense Mechanism Used
count,3000,3000,3000,3000,3000,3000
unique,10,6,7,4,4,5
top,UK,DDoS,IT,Nation-state,Zero-day,Antivirus
freq,321,531,478,794,785,628


## Dataset Analysis

In [None]:
# Check for missing values
print("Missing values per column:")
print(df.isnull().sum())

Missing values per column:
Country                                0
Year                                   0
Attack Type                            0
Target Industry                        0
Financial Loss (in Million $)          0
Number of Affected Users               0
Attack Source                          0
Security Vulnerability Type            0
Defense Mechanism Used                 0
Incident Resolution Time (in Hours)    0
dtype: int64


In [None]:
# Check for duplicate rows
df.loc[df.duplicated()]

Unnamed: 0,Country,Year,Attack Type,Target Industry,Financial Loss (in Million $),Number of Affected Users,Attack Source,Security Vulnerability Type,Defense Mechanism Used,Incident Resolution Time (in Hours)
