# Exploratory Data Analysis
**Obiettivo**: Analizzare il dataset Global Cybersecurity Threats 2015-2024

### **1. Analisi Geografica**

**Q1**: Quali sono i 5 paesi più colpiti nel dataset?
- **KPI**: Conteggio attacchi per Country (top 5)

**Q2**: Quale paese ha subito le perdite finanziarie totali maggiori?
- **KPI**: Somma Financial Loss per Country

**Q3**: Esiste differenza tra paesi sviluppati (USA, UK, Germany) e emergenti (India, Brazil, China)?
- **KPI**: Loss medio per gruppo di paesi

---

### **2. Analisi Settoriale**

**Q4**: Quali sono i 3 settori più attaccati?
- **KPI**: Frequenza per Target Industry

**Q5**: Quale settore ha le perdite medie più alte?
- **KPI**: Media Financial Loss per settore

**Q6**: Banking e Healthcare sono più colpiti da Ransomware?
- **KPI**: Crosstab Target Industry × Attack Type

---

### **3. Analisi Temporale**

**Q7**: Il numero di attacchi è cresciuto dal 2015 al 2024?
- **KPI**: Conteggio attacchi per Year + trend

**Q8**: Quale anno ha registrato il picco di attacchi?
- **KPI**: Anno con max attacchi

**Q9**: Le perdite finanziarie medie sono aumentate nel tempo?
- **KPI**: Media Financial Loss per Year

---

### **4. Analisi Tipi di Attacco**

**Q10**: Quali sono i 3 tipi di attacco più frequenti?
- **KPI**: Top 3 Attack Type per frequenza

**Q11**: Ransomware causa più danni di Phishing?
- **KPI**: Media Financial Loss per Attack Type

**Q12**: Quale attacco impatta più utenti in media?
- **KPI**: Media Affected Users per Attack Type

---

### **5. Analisi Vulnerabilità**

**Q13**: Qual è la vulnerabilità più sfruttata?
- **KPI**: Top Security Vulnerability Type

**Q14**: "Weak Passwords" causa più danni di "Unpatched Software"?
- **KPI**: Media Financial Loss per Vulnerability Type

**Q15**: Quale Attack Source è più pericoloso (Nation-state vs Hacker Group vs Insider)?
- **KPI**: Distribuzione Attack Source + loss medio

---

### **6. Analisi Difese**

**Q16**: Qual è il meccanismo di difesa più utilizzato?
- **KPI**: Top Defense Mechanism Used

**Q17**: AI-based Detection riduce il tempo di risoluzione?
- **KPI**: Media Resolution Time per Defense Mechanism

**Q18**: Firewall vs VPN vs Encryption: quale è più efficace?
- **KPI**: Loss medio e Resolution Time per difesa

---

### **7. Analisi Impatto**

**Q19**: Qual è la distribuzione delle perdite finanziarie?
- **KPI**: Min, Q1, Median, Q3, Max, Mean di Financial Loss

**Q20**: Quanti attacchi hanno causato perdite > $80M?
- **KPI**: Conteggio outliers (es. loss > P90)

**Q21**: Qual è il tempo medio di risoluzione degli incidenti?
- **KPI**: Media, Mediana, Max Resolution Time

---

### **8. Analisi Correlazioni**

**Q22**: Esiste correlazione tra Financial Loss e Affected Users?
- **KPI**: Correlation coefficient

**Q23**: Attacchi con più utenti impattati richiedono più tempo per risolversi?
- **KPI**: Correlazione Affected Users × Resolution Time

**Q24**: Zero-day vulnerabilities causano più danni?
- **KPI**: Confronto loss medio Zero-day vs altri

In [5]:
# Dependency imports
import pandas as pd
import matplotlib.pyplot as plt
import plotly.express as px
import numpy as np
import seaborn as sns

# Configurazione visualizzazioni
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette('husl')
%matplotlib inline

ModuleNotFoundError: No module named 'light_palette'

## Dataset Loading

In [17]:
# Load dataset
df = pd.read_csv('../data/earthquake_data_tsunami.csv')

## Dataset Overview

In [11]:
# Display first few rows of the dataset
df.head()

Unnamed: 0,magnitude,cdi,mmi,sig,nst,dmin,gap,depth,latitude,longitude,Year,Month,tsunami
0,7.0,8,7,768,117,0.509,17.0,14.0,-9.7963,159.596,2022,11,1
1,6.9,4,4,735,99,2.229,34.0,25.0,-4.9559,100.738,2022,11,0
2,7.0,3,3,755,147,3.125,18.0,579.0,-20.0508,-178.346,2022,11,1
3,7.3,5,5,833,149,1.865,21.0,37.0,-19.2918,-172.129,2022,11,1
4,6.6,0,2,670,131,4.998,27.0,624.464,-25.5948,178.278,2022,11,1


In [12]:
# Display last few rows of the dataset
df.tail()

Unnamed: 0,magnitude,cdi,mmi,sig,nst,dmin,gap,depth,latitude,longitude,Year,Month,tsunami
777,7.7,0,8,912,427,0.0,0.0,60.0,13.049,-88.66,2001,1,0
778,6.9,5,7,745,0,0.0,0.0,36.4,56.7744,-153.281,2001,1,0
779,7.1,0,7,776,372,0.0,0.0,103.0,-14.928,167.17,2001,1,0
780,6.8,0,5,711,64,0.0,0.0,33.0,6.631,126.899,2001,1,0
781,7.5,0,7,865,324,0.0,0.0,33.0,6.898,126.579,2001,1,0


## Dataset Understanding

In [13]:
# Dataset information
print(f"Dataset shape: {df.shape}\n")
df.info()


Dataset shape: (3000, 10)
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 782 entries, 0 to 781
Data columns (total 13 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   magnitude  782 non-null    float64
 1   cdi        782 non-null    int64  
 2   mmi        782 non-null    int64  
 3   sig        782 non-null    int64  
 4   nst        782 non-null    int64  
 5   dmin       782 non-null    float64
 6   gap        782 non-null    float64
 7   depth      782 non-null    float64
 8   latitude   782 non-null    float64
 9   longitude  782 non-null    float64
 10  Year       782 non-null    int64  
 11  Month      782 non-null    int64  
 12  tsunami    782 non-null    int64  
dtypes: float64(6), int64(7)
memory usage: 79.6 KB


In [14]:
# Numerical feature summary
df.describe()

Unnamed: 0,magnitude,cdi,mmi,sig,nst,dmin,gap,depth,latitude,longitude,Year,Month,tsunami
count,782.0,782.0,782.0,782.0,782.0,782.0,782.0,782.0,782.0,782.0,782.0,782.0,782.0
mean,6.941125,4.33376,5.964194,870.108696,230.250639,1.325757,25.03899,75.883199,3.5381,52.609199,2012.280051,6.563939,0.388747
std,0.445514,3.169939,1.462724,322.465367,250.188177,2.218805,24.225067,137.277078,27.303429,117.898886,6.099439,3.507866,0.487778
min,6.5,0.0,1.0,650.0,0.0,0.0,0.0,2.7,-61.8484,-179.968,2001.0,1.0,0.0
25%,6.6,0.0,5.0,691.0,0.0,0.0,14.625,14.0,-14.5956,-71.66805,2007.0,3.25,0.0
50%,6.8,5.0,6.0,754.0,140.0,0.0,20.0,26.295,-2.5725,109.426,2013.0,7.0,0.0
75%,7.1,7.0,7.0,909.75,445.0,1.863,30.0,49.75,24.6545,148.941,2017.0,10.0,1.0
max,9.1,9.0,9.0,2910.0,934.0,17.654,239.0,670.81,71.6312,179.662,2022.0,12.0,1.0


## Dataset Analysis

In [18]:
# Check for missing values
print("Missing values per column:")
print(df.isnull().sum())

Missing values per column:
magnitude    0
cdi          0
mmi          0
sig          0
nst          0
dmin         0
gap          0
depth        0
latitude     0
longitude    0
Year         0
Month        0
tsunami      0
dtype: int64
