<a href="https://colab.research.google.com/github/nicole-d-ai/ataquesdeciberseguridad/blob/main/ProyectoCiberseguridad.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#**PROYECTO FINAL:** **🐙AMENAZAS CIBERNÉTICAS🐙**

**NOMBRE: Nicole Ferreyra**

ABSTRACT
Este proyecto realiza un análisis exploratorio de datos sobre un conjunto global de incidentes de ciberseguridad ocurridos entre 2015 y 2024. El objetivo es descubrir patrones, relaciones y tendencias clave que ayuden a comprender el impacto y comportamiento de las amenazas digital en distintos contextos.

El análisis se enfoca en tres preguntas principales:

1) ¿Cuál es el tipo de ataque cibernético más frecuente a nivel global?

2) ¿Qué países tuvieron las mayores pérdidas financieras acumuladas?

3) ¿Existe correlación entre la cantidad de usuarios afectados y la pérdida económica?

**Primer paso: Verificación de nulos**

Esta limpieza inicial permite manejar adecuadamente los datos.

**Segundo paso: Graficos interactivos**

Gráficos de barras,diagramas de dispersión que facilitaron la exploración de patrones complejos de manera más dinámica e intuitiva.

Los resultados muestran que ataques son los más frecuentes y que países registran las mayores pérdidas económicas.

A través de un gráfico de dispersión vamos a analizar la correlación entre el número de usuarios afectados y el impacto financiero, encontrando una relación positiva moderada.

En una siguiente fase, se propone aplicar modelos de machine learning para predecir el tipo de ataque, estimar las pérdidas económicas o clasificar el nivel de impacto de un incidente según sus características. Se contemplarán algoritmos como árboles de decisión, random forest, regresión lineal y modelos de clasificación.

*Este análisis no solo aporta una comprensión profunda del panorama actual de la ciberseguridad global, sino que también sienta las bases para desarrollar herramientas predictivas que mejoren la prevención y gestión de riesgos en el entorno digital actual.*




In [None]:
from google.colab import drive
import pandas as pd
import os
drive.mount('/content/drive')
%cd '/content/drive/MyDrive'
df = pd.read_csv('Cybersecurity.csv')
df

Mounted at /content/drive
/content/drive/MyDrive


Unnamed: 0,Country,Year,Attack Type,Target Industry,Financial Loss (in Million $),Number of Affected Users,Attack Source,Security Vulnerability Type,Defense Mechanism Used,Incident Resolution Time (in Hours)
0,China,2019,Phishing,Education,80.53,773169,Hacker Group,Unpatched Software,VPN,63
1,China,2019,Ransomware,Retail,62.19,295961,Hacker Group,Unpatched Software,Firewall,71
2,India,2017,Man-in-the-Middle,IT,38.65,605895,Hacker Group,Weak Passwords,VPN,20
3,UK,2024,Ransomware,Telecommunications,41.44,659320,Nation-state,Social Engineering,AI-based Detection,7
4,Germany,2018,Man-in-the-Middle,IT,74.41,810682,Insider,Social Engineering,VPN,68
...,...,...,...,...,...,...,...,...,...,...
2995,UK,2021,Ransomware,Government,51.42,190694,Unknown,Social Engineering,Firewall,52
2996,Brazil,2023,SQL Injection,Telecommunications,30.28,892843,Hacker Group,Zero-day,VPN,26
2997,Brazil,2017,SQL Injection,IT,32.97,734737,Nation-state,Weak Passwords,AI-based Detection,30
2998,UK,2022,SQL Injection,IT,32.17,379954,Insider,Unpatched Software,Firewall,9


In [None]:
df.duplicated()
df.drop_duplicates()

Unnamed: 0,Country,Year,Attack Type,Target Industry,Financial Loss (in Million $),Number of Affected Users,Attack Source,Security Vulnerability Type,Defense Mechanism Used,Incident Resolution Time (in Hours)
0,China,2019,Phishing,Education,80.53,773169,Hacker Group,Unpatched Software,VPN,63
1,China,2019,Ransomware,Retail,62.19,295961,Hacker Group,Unpatched Software,Firewall,71
2,India,2017,Man-in-the-Middle,IT,38.65,605895,Hacker Group,Weak Passwords,VPN,20
3,UK,2024,Ransomware,Telecommunications,41.44,659320,Nation-state,Social Engineering,AI-based Detection,7
4,Germany,2018,Man-in-the-Middle,IT,74.41,810682,Insider,Social Engineering,VPN,68
...,...,...,...,...,...,...,...,...,...,...
2995,UK,2021,Ransomware,Government,51.42,190694,Unknown,Social Engineering,Firewall,52
2996,Brazil,2023,SQL Injection,Telecommunications,30.28,892843,Hacker Group,Zero-day,VPN,26
2997,Brazil,2017,SQL Injection,IT,32.97,734737,Nation-state,Weak Passwords,AI-based Detection,30
2998,UK,2022,SQL Injection,IT,32.17,379954,Insider,Unpatched Software,Firewall,9


In [None]:
Cybersecurity = pd.read_csv('Cybersecurity.csv')
Cybersecurity.head()

Unnamed: 0,Country,Year,Attack Type,Target Industry,Financial Loss (in Million $),Number of Affected Users,Attack Source,Security Vulnerability Type,Defense Mechanism Used,Incident Resolution Time (in Hours)
0,China,2019,Phishing,Education,80.53,773169,Hacker Group,Unpatched Software,VPN,63
1,China,2019,Ransomware,Retail,62.19,295961,Hacker Group,Unpatched Software,Firewall,71
2,India,2017,Man-in-the-Middle,IT,38.65,605895,Hacker Group,Weak Passwords,VPN,20
3,UK,2024,Ransomware,Telecommunications,41.44,659320,Nation-state,Social Engineering,AI-based Detection,7
4,Germany,2018,Man-in-the-Middle,IT,74.41,810682,Insider,Social Engineering,VPN,68


#Verificación de nulos ♻

In [None]:
import pandas as pd

pd.set_option('display.max_rows', None)

nulo = (Cybersecurity.isnull().sum() / Cybersecurity.shape[0]) * 100
nulo = nulo.sort_values(ascending=False)
nulo = nulo[nulo>0]
nulo


Unnamed: 0,0


#Renombrar columnas

In [None]:
df = df.rename(columns={
    'Number of Affected Users': 'Usuarios Afectados',
    'Financial Loss (in Million $)': 'Pérdidas Financieras',
    'Year': 'Año',
    'Attack Type': 'Tipo de Ataque',
    'Country': 'País',
    'Security Vulnerability Type': 'Vulnerabilidad de Seguridad',
    'Defense Mechanism Used': 'Método de Defensa'
})

df

Unnamed: 0,País,Año,Tipo de Ataque,Target Industry,Pérdidas Financieras,Usuarios Afectados,Attack Source,Vulnerabilidad de Seguridad,Método de Defensa,Incident Resolution Time (in Hours)
0,China,2019,Phishing,Education,80.53,773169,Hacker Group,Unpatched Software,VPN,63
1,China,2019,Ransomware,Retail,62.19,295961,Hacker Group,Unpatched Software,Firewall,71
2,India,2017,Man-in-the-Middle,IT,38.65,605895,Hacker Group,Weak Passwords,VPN,20
3,UK,2024,Ransomware,Telecommunications,41.44,659320,Nation-state,Social Engineering,AI-based Detection,7
4,Germany,2018,Man-in-the-Middle,IT,74.41,810682,Insider,Social Engineering,VPN,68
5,Germany,2017,Man-in-the-Middle,Retail,98.24,285201,Unknown,Social Engineering,Antivirus,25
6,Germany,2016,DDoS,Telecommunications,33.26,431262,Insider,Unpatched Software,VPN,34
7,France,2018,SQL Injection,Government,59.23,909991,Unknown,Social Engineering,Antivirus,66
8,India,2016,Man-in-the-Middle,Banking,16.88,698249,Unknown,Social Engineering,VPN,47
9,UK,2023,DDoS,Healthcare,69.14,685927,Hacker Group,Unpatched Software,Firewall,58


#**Pegunta 1: ¿Cuál es el tipo de ataque cibernético más frecuente a nivel global?**



In [None]:
import pandas as pd
import plotly.express as px

ataques_por_tipo = df['Tipo de Ataque'].value_counts().reset_index()
ataques_por_tipo.columns = ["Tipos de ataque", "Frecuencia"]

#Mostrar el ataque mas frecuente
print("El tipo de ataque mas frecuente a nivel global es:", ataques_por_tipo.iloc[0]["Tipos de ataque"])

#Crear graficos interactivos
fig = px.bar(
    ataques_por_tipo,
    x="Tipos de ataque",
    y="Frecuencia",
    title="Tipos de ataques ciberneticos mas frecuentes a nivel gobal",
    labels={"Tipos de ataque": "Tipo de ataque", "Frecuencia": "Frecuencia"},
    color="Frecuencia",
    color_continuous_scale="Reds"
)

fig.update_layout(
    xaxis_title="Tipo de ataque",
    yaxis_title="Frecuencia",
    width=1200,
    height=600,
    xaxis={"categoryorder": "total descending"}
)

fig.show()

El tipo de ataque mas frecuente a nivel global es: DDoS


#**📊 Pregunta 2¿Qué países tuvieron las mayores pérdidas financieras acumuladas? 💣Top 10 Paises**


In [None]:
import pandas as pd
import altair as alt

perdidas_por_pais = df.groupby('País')['Pérdidas Financieras'].sum().reset_index()

perdidas_por_pais = perdidas_por_pais.sort_values(by='Pérdidas Financieras', ascending=False)

#Seleccionamos los 10 países con mayores pérdidas
top10_paises = perdidas_por_pais.head(10)

#CREAR GRAFICO DE BARRAS HORIZONTALES
grafico = alt.Chart(top10_paises).mark_bar().encode(
    x=alt.X('Pérdidas Financieras:Q', title='Pérdidas en Millones de $'),
    y=alt.Y('País:N', sort='-x', title='País'),
    tooltip=["País",  "Pérdidas Financieras"],
    color=alt.Color('Pérdidas Financieras:Q', scale=alt.Scale(scheme='redyellowblue'))
).properties(
    width=1200,
    height=600,
    title='Top 10 países con mayores pérdidas financieras acumuladas'
).interactive()

grafico



#📈 Pregunta 3: ¿Existe correlación entre la cantidad de usuarios afectados y la pérdida económica?

In [None]:
import pandas as pd
import plotly.express as px

correlacion = df['Usuarios Afectados'].corr(df['Pérdidas Financieras'])
print("Coeficiente de correlación:", correlacion)

#Grafico  de dispersión
fig = px.scatter(
    df,
    x="Usuarios Afectados",
    y='Pérdidas Financieras',
    title="Correlación entre Usuarios Afectados y Pérdidas Financieras",
    color="País",
    hover_data=['Año', 'Tipo de Ataque']
)

fig.update_layout(
    width=1200,
    height=600,
    xaxis_title="Usuarios Afectados",
    yaxis_title="Perdidas Financieras",
    template='plotly_white'
)

fig.show()


Coeficiente de correlación: 0.0017867355720258393


No hay correlacion entre la cantidad de usuarios afectados las perdidas financieras, porque aunque aumenten o disminuyan los usuarios, no predice que las perdidas financieras aumenten o bajen
Puede haber ataques que afecten a muy pocos usuarios pero que generen enormes perdidas. O ataques masivos con muchos usuarios afectados que no causan daños financieros directos

# 🧠 FASE 2: Aplicación de Modelos de Machine Learning








In [None]:
df2 = df.rename(columns={
    'Attack Type': 'Tipo de Ataque',
    'Security Vulnerability Type': 'Vulnerabilidad de Seguridad',
    'Defense Mechanism Used': 'Método de Defensa',
    'Incident Resolution Time (in Hours)': 'Tiempo de Resolución',
    'Financial Loss (in Million $)': 'Pérdidas Financieras',
    'Year': 'Año',
    'Number of Affected Users': 'Usuarios Afectados',
    'Country': 'País'
})

df2.head()

Unnamed: 0,País,Año,Tipo de Ataque,Target Industry,Pérdidas Financieras,Usuarios Afectados,Attack Source,Vulnerabilidad de Seguridad,Método de Defensa,Tiempo de Resolución
0,China,2019,Phishing,Education,80.53,773169,Hacker Group,Unpatched Software,VPN,63
1,China,2019,Ransomware,Retail,62.19,295961,Hacker Group,Unpatched Software,Firewall,71
2,India,2017,Man-in-the-Middle,IT,38.65,605895,Hacker Group,Weak Passwords,VPN,20
3,UK,2024,Ransomware,Telecommunications,41.44,659320,Nation-state,Social Engineering,AI-based Detection,7
4,Germany,2018,Man-in-the-Middle,IT,74.41,810682,Insider,Social Engineering,VPN,68


In [None]:
df2_clasificacion = df2[['País','Año','Tipo de Ataque', 'Vulnerabilidad de Seguridad', 'Método de Defensa', 'Tiempo de Resolución', 'Pérdidas Financieras', 'Usuarios Afectados']].dropna()
df2_clasificacion.head()

Unnamed: 0,País,Año,Tipo de Ataque,Vulnerabilidad de Seguridad,Método de Defensa,Tiempo de Resolución,Pérdidas Financieras,Usuarios Afectados
0,China,2019,Phishing,Unpatched Software,VPN,63,80.53,773169
1,China,2019,Ransomware,Unpatched Software,Firewall,71,62.19,295961
2,India,2017,Man-in-the-Middle,Weak Passwords,VPN,20,38.65,605895
3,UK,2024,Ransomware,Social Engineering,AI-based Detection,7,41.44,659320
4,Germany,2018,Man-in-the-Middle,Social Engineering,VPN,68,74.41,810682


# 🧠 Machine Learning (Algoritmo Randon Forest)
**Este código aplica un modelo de machine learning supervisado (clasificación) para predecir si un ciberataque tendrá un impacto alto o bajo. Usa el algoritmo Random Forest**

In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, confusion_matrix


df_filtrado = df2_clasificacion[
    (df2_clasificacion['Año'].between(2022, 2024)) &
    (df2_clasificacion['País'].isin(['UK', 'USA']))
].copy()


mapa_impacto = {
    'DDoS': 'Alto',
    'Ransomware': 'Alto',
    'Phishing': 'Bajo',
    'Malware': 'Bajo'
}

df_filtrado = df_filtrado[df_filtrado['Tipo de Ataque'].isin(mapa_impacto.keys())]
df_filtrado['Tipo de Impacto'] = df_filtrado['Tipo de Ataque'].map(mapa_impacto)


columnas = [
    'Tipo de Impacto',
    'Vulnerabilidad de Seguridad',
    'Método de Defensa',
    'Tiempo de Resolución'
]

datos = df_filtrado[columnas]


X = pd.get_dummies(datos.drop(columns=['Tipo de Impacto']), drop_first=True)
y = datos['Tipo de Impacto'].map({'Bajo': 0, 'Alto': 1})  # 0 = Bajo, 1 = Alto


X_entrenamiento, X_prueba, y_entrenamiento, y_prueba = train_test_split(X, y, test_size=0.2, random_state=42)


modelo = RandomForestClassifier(n_estimators=100, random_state=42)
modelo.fit(X_entrenamiento, y_entrenamiento)
y_predicho = modelo.predict(X_prueba)


print("🎯 Clasificación: Impacto Alto vs Bajo")
print(confusion_matrix(y_prueba, y_predicho))
print(classification_report(y_prueba, y_predicho))


🎯 Clasificación: Impacto Alto vs Bajo
[[ 5  3]
 [ 8 10]]
              precision    recall  f1-score   support

           0       0.38      0.62      0.48         8
           1       0.77      0.56      0.65        18

    accuracy                           0.58        26
   macro avg       0.58      0.59      0.56        26
weighted avg       0.65      0.58      0.59        26



In [None]:
import plotly.express as px

fig = px.scatter(
    df_filtrado,
    x='Tiempo de Resolución',
    y='Usuarios Afectados',
    color='Tipo de Impacto',
    hover_data=['Tipo de Ataque', 'País', 'Método de Defensa'],
    title='💥Tiempo de resolución vs. Usuarios afectados',
    labels={
        'Tiempo de Resolución': 'Horas de resolución',
        'Usuarios Afectados': 'Usuarios afectados',
        'Tipo de Impacto': 'Tipo de Impacto'
    },
    color_discrete_map={
        'Alto': 'red',
        'Bajo': 'blue'
    }
)

fig.update_traces(marker=dict(size=10, opacity=0.6),
                  selector=dict(mode='markers'))

fig.show()


Me ayuda a identificar patrones o anomalias, y responder preguntas como:

¿Los ataques de alto impacto tienen más usuarios afectados?

¿Cuánto tiempo lleva resolver ciertos tipos de ataques?

¿Hay grupos de puntos similares por país o método de defensa?