<a href="https://colab.research.google.com/github/Younnsss/data-python/blob/main/main.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# TP : Visualisation de données

In [1]:
import pandas as pd
import plotly.graph_objects as go
import numpy as np

df = pd.read_csv("data.csv")

## 1. Exploration des données

À première vue, ces données semblent intéressantes. Elles contiennent plusieurs types d'informations variées et sont bien structurées, sans valeurs nulles ou incohérentes. Les différents champs semblent également bien équilibrés, sans valeurs présentant beaucoup plus d'occurrences que les autres.

In [7]:
df.head()

Unnamed: 0,Country,Year,Attack Type,Target Industry,Financial Loss (in Million $),Number of Affected Users,Attack Source,Security Vulnerability Type,Defense Mechanism Used,Incident Resolution Time (in Hours)
0,China,2019,Phishing,Education,80.53,773169,Hacker Group,Unpatched Software,VPN,63
1,China,2019,Ransomware,Retail,62.19,295961,Hacker Group,Unpatched Software,Firewall,71
2,India,2017,Man-in-the-Middle,IT,38.65,605895,Hacker Group,Weak Passwords,VPN,20
3,UK,2024,Ransomware,Telecommunications,41.44,659320,Nation-state,Social Engineering,AI-based Detection,7
4,Germany,2018,Man-in-the-Middle,IT,74.41,810682,Insider,Social Engineering,VPN,68


In [8]:
df.describe()

Unnamed: 0,Year,Financial Loss (in Million $),Number of Affected Users,Incident Resolution Time (in Hours)
count,3000.0,3000.0,3000.0,3000.0
mean,2019.570333,50.49297,504684.136333,36.476
std,2.857932,28.791415,289944.084972,20.570768
min,2015.0,0.5,424.0,1.0
25%,2017.0,25.7575,255805.25,19.0
50%,2020.0,50.795,504513.0,37.0
75%,2022.0,75.63,758088.5,55.0
max,2024.0,99.99,999635.0,72.0


In [9]:
unique_countries = df['Country'].unique()
unique_attack_types = df['Attack Type'].unique()
unique_attack_sources = df['Attack Source'].unique()
unique_vulnerabilities = df['Security Vulnerability Type'].unique()
unique_defense_mechanisms = df['Defense Mechanism Used'].unique()
unique_target_industries = df['Target Industry'].unique()

print("Pays uniques:")
print(sorted(unique_countries))
print("\nTypes d'attaques uniques:")
print(sorted(unique_attack_types))
print("\nSources d'attaques uniques:")
print(sorted(unique_attack_sources))
print("\nTypes de vulnérabilités uniques:")
print(sorted(unique_vulnerabilities))
print("\nMécanismes de défense uniques:")
print(sorted(unique_defense_mechanisms))
print("\nIndustries ciblées uniques:")
print(sorted(unique_target_industries))

Pays uniques:
['Australia', 'Brazil', 'China', 'France', 'Germany', 'India', 'Japan', 'Russia', 'UK', 'USA']

Types d'attaques uniques:
['DDoS', 'Malware', 'Man-in-the-Middle', 'Phishing', 'Ransomware', 'SQL Injection']

Sources d'attaques uniques:
['Hacker Group', 'Insider', 'Nation-state', 'Unknown']

Types de vulnérabilités uniques:
['Social Engineering', 'Unpatched Software', 'Weak Passwords', 'Zero-day']

Mécanismes de défense uniques:
['AI-based Detection', 'Antivirus', 'Encryption', 'Firewall', 'VPN']

Industries ciblées uniques:
['Banking', 'Education', 'Government', 'Healthcare', 'IT', 'Retail', 'Telecommunications']


## 2. HeatMap

L'heatmap révèle des aspects intéressants et cohérents de nos données. Comme on pourrait s'y attendre, le phishing apparaît très fréquemment dans les secteurs bancaires et informatiques. En revanche, les attaques DDoS sont particulièrement présentes dans les domaines où les services dépendent d'une infrastructure Internet, tels que l'informatique et les télécommunications.

Ce graphique est pertinent et nous permet de visualiser clairement les liens entre les types d'attaques et les secteurs industriels.

In [6]:
heatmap_data = pd.crosstab(df['Attack Type'], df['Target Industry'])

fig = go.Figure(data=go.Heatmap(
    z=heatmap_data.values,
    x=heatmap_data.columns,
    y=heatmap_data.index,
    colorscale='Reds',
    hoverongaps=False,
    colorbar=dict(title='Nombre d\'incidents')
))

fig.update_layout(
    title='Heatmap des types d\'attaques par industrie cible',
    xaxis_title='Industrie cible',
    yaxis_title='Type d\'attaque',
    width=900,
    height=700,
    xaxis=dict(tickangle=-45),
)

fig.show()

## 3. Nuage de points

Ce diagramme indique qu'il n'existe aucune relation entre le nombre d'utilisateurs affectés et la perte financière. Quel que soit le type d'attaque, certains cas présentent peu d'utilisateurs touchés mais une grande perte financière, tandis que d'autres impliquent de nombreux utilisateurs avec peu de perte financière.

Ce résultat est assez logique : l'impact financier d'une attaque dépend principalement de son ampleur ou du secteur d'activité de l'entreprise, plutôt que du nombre d'utilisateurs concernés.

Est-ce que cela vous convient ?

In [5]:
fig = go.Figure()

fig.add_trace(go.Scatter(
    x=df['Number of Affected Users'],
    y=df['Financial Loss (in Million $)'],
    mode='markers',
    marker=dict(
        size=10,
        color=df['Attack Type'].astype('category').cat.codes,
        colorscale='Viridis',
        showscale=True,
        colorbar=dict(title='Attack Type'),
        opacity=0.8
    ),
    text=df['Country'] + '<br>' + df['Attack Type'] + '<br>' + df['Target Industry'],
    hovertemplate='<b>%{text}</b><br>Affected Users: %{x}<br>Financial Loss: $%{y} million<extra></extra>'
))

fig.update_layout(
    title='Financial Loss vs Number of Affected Users in Cyber Attacks',
    xaxis_title='Number of Affected Users',
    yaxis_title='Financial Loss (in Million $)',
    height=700,
    width=1000,
    template='plotly_white'
)

x = df['Number of Affected Users']
y = df['Financial Loss (in Million $)']
z = np.polyfit(x, y, 1)
p = np.poly1d(z)
fig.add_trace(go.Scatter(
    x=x,
    y=p(x),
    mode='lines',
    name=f'Trend Line',
    line=dict(color='red', dash='dash')
))

fig.show()

## 4. Diagramme de séries

Je trouve ces résultats assez surprenants. J'aurais imaginé une augmentation globale des méthodes de défense basées sur l'IA. De plus, toutes les courbes affichent une tendance similaire.

Ce qui me préoccupe particulièrement, c'est qu'en 2019, elles diminuent toutes sans exception.

J'ai donc affiché le nombre d'attaques par année. On observe que le nombre d'attaques reste globalement stable chaque année, sauf en 2019 où les occurrences sont les moins nombreuses. De plus, on comptabilise à peine 300 attaques par année.

Je pense que notre jeu de données est trop limité. Il y a sûrement eu beaucoup plus d'incidents chaque année que 300. Avec ce nombre d'attaques, il n'est pas pertinent de comparer les occurrences de chaque type d'attaque. Le but de cette collecte de données était probablement de récupérer un même nombre d'occurrences pour différents types d'attaques afin d'analyser plutôt les autres champs. Nous atteignons donc les limites de notre dataset.


In [4]:
defense_counts = df.groupby(['Year', 'Defense Mechanism Used']).size().reset_index(name='Count')

pivot_df = defense_counts.pivot(index='Year', columns='Defense Mechanism Used', values='Count').reset_index()
pivot_df = pivot_df.fillna(0)

pivot_df = pivot_df.sort_values('Year')

fig = go.Figure()

colors = ['#1f77b4', '#ff7f0e', '#2ca02c', '#d62728', '#9467bd']

for i, defense_mechanism in enumerate(pivot_df.columns[1:]):
    color = colors[i % len(colors)]
    fig.add_trace(go.Scatter(
        x=pivot_df['Year'],
        y=pivot_df[defense_mechanism],
        mode='lines+markers',
        name=defense_mechanism,
        line=dict(color=color, width=2),
        marker=dict(size=8, color=color),
        hovertemplate='%{y} incidents en %{x}<extra></extra>'
    ))

fig.update_layout(
    title={
        'text': 'Évolution des mécanismes de défense utilisés (2015-2024)',
        'y':0.95,
        'x':0.5,
        'xanchor': 'center',
        'yanchor': 'top'
    },
    xaxis_title='Année',
    yaxis_title='Nombre d\'incidents',
    legend_title='Mécanisme de défense',
    hovermode='x unified',
    template='plotly_white',
    xaxis=dict(
        tickmode='linear',
        tick0=2015,
        dtick=1
    ),
    legend=dict(
        orientation="h",
        yanchor="bottom",
        y=1.02,
        xanchor="right",
        x=1
    )
)

fig.show()

In [3]:
incidents_par_annee = df['Year'].value_counts().sort_index()

print("Nombre d'incidents par année:")
print(incidents_par_annee)

Nombre d'incidents par année:
Year
2015    277
2016    285
2017    319
2018    310
2019    263
2020    315
2021    299
2022    318
2023    315
2024    299
Name: count, dtype: int64


## 5. Diagramme de bande

Ici, on peut faire le même constat qu'avec le diagramme de série : la répartition semble trop parfaite, et le diagramme en bande le met clairement en évidence. Lors de la création de ce jeu de données, le but était probablement de recueillir un nombre égal d'occurrences pour différents types d'attaques afin d'analyser principalement les autres champs.

In [2]:
grouped_data = df.groupby(['Year', 'Attack Type'])['Financial Loss (in Million $)'].mean().reset_index()

years = sorted(df['Year'].unique())
attack_types = sorted(df['Attack Type'].unique())

fig = go.Figure()

colors = ['#1f77b4', '#ff7f0e', '#2ca02c', '#d62728', '#9467bd', '#8c564b']

for i, attack in enumerate(attack_types):
    attack_data = grouped_data[grouped_data['Attack Type'] == attack]

    fig.add_trace(go.Bar(
        x=attack_data['Year'],
        y=attack_data['Financial Loss (in Million $)'],
        name=attack,
        marker_color=colors[i % len(colors)]
    ))

fig.update_layout(
    title={
        'text': 'Average Financial Loss by Year and Attack Type',
        'font': {'size': 24, 'color': 'black', 'family': 'Arial, bold'},
        'y': 0.95
    },
    xaxis_title='Year',
    yaxis_title='Average Financial Loss (in Million $)',
    barmode='stack',  # Stacked bar chart
    template='plotly_white',
    legend_title_text='Attack Type',
    margin=dict(l=50, r=50, t=80, b=50),
    height=600,
    xaxis=dict(
        tickmode='array',
        tickvals=years,
        ticktext=[str(year) for year in years]
    )
)

fig.show()