### FASE 1: 

Exploración y limpieza de datos. 

Traducimos el CSV para facilitar la manipulación y comprensión de los datos. 
Hacemos análisis exploratorio EDA y comprobamos: 
- No hay nulos
- No hay duplicados
- Los valores únicos están correctos
- En el caso del tiempo de resolución comprobamos máximo y mínimo y decidimos mantenerlo en horas
- Verificamos que los tipos de datos son correctos
- Consideramos que los datos están bien estructurados. 

No realizamos más modificaciones. 

CSV final: "Ciberseguridad_Global.csv"

In [None]:
# Importamos las librerías

import pandas as pd 
import numpy as np 

In [None]:
# Abrimos csv

df = pd.read_csv("Global_Cybersecurity_Threats_2015-2024.csv")

In [None]:
# Creamos diccionario para traducir el contenido

traducciones = {
    'UK': 'Reino Unido',
    'Germany': 'Alemania',
    'France': 'Francia',
    'Russia': 'Rusia',
    'Brazil': 'Brasil',
    'Japan': 'Japón',
    'USA': 'Estados Unidos',
    'Education': 'Educación',
    'Retail': 'Minorista',
    'Telecommunications': 'Telecomunicaciones',
    'Government': 'Gobierno',
    'Banking': 'Bancario',
    'Healthcare': 'Cuidado de la salud',
    'Hacker Group': 'Grupo de hackers',
    'Nation-state': 'Estado-nación',
    'Insider': 'Empleado interno',
    'Unknown': 'Desconocido',
    'Unpatched Software': 'Software sin actualizar',
    'Weak Passwords': 'Contraseñas débiles',
    'Social Engineering': 'Ingeniería social',
    'Zero-day': 'Zero-day',
    'Firewall': 'Cortafuegos',
    'AI-based Detection': 'Detección basada en IA',
    'Encryption': 'Encriptación'
}

In [None]:
# Ejecutamos la traducción

df.replace(traducciones, inplace=True)

In [None]:
# Renombramos las columnas

df.rename(columns={
    'Country': 'País',
    'Year': 'Año',
    'Attack Type': 'Tipo de Ataque',
    'Target Industry': 'Industria Objetivo',
    'Financial Loss (in Million $)': 'Pérdidas Económicas (en millones de $)',
    'Number of Affected Users': 'Número de Usuarios Afectados',
    'Attack Source': 'Fuente del Ataque',
    'Security Vulnerability Type': 'Tipo de Vulnerabilidad de Seguridad',
    'Defense Mechanism Used': 'Mecanismo de Defensa Utilizado',
    'Incident Resolution Time (in Hours)': 'Tiempo de Resolución del Incidente (en horas)'
}, inplace=True)

In [None]:
# Guardamos como csv como copia corregida

df.to_csv("Ciberseguridad_Global.csv", index=False)

In [None]:
# Abrimos el formato csv que tiene los puntos correctos para ejecutar el eda

df = pd.read_csv("Ciberseguridad_Global.csv")

In [None]:
# Función de EDA

def eda_basico(df):

    print('🌷Ejemplo de datos del DF:')
    display(df.head(2))
    display(df.tail(2))
    display(df.sample(4))
    print('________________________________________________________________________________________________________\n')

    print('🌻Número de Filas:')
    display(df.shape[0])
    print('________________________________________________________________________________________________________\n')

    print('🌱Número de Columnas:')
    display(df.shape[1])
    print('________________________________________________________________________________________________________\n')

    print('🧬 Tipos de datos y número de columnas de cada tipo:')
    display(df.dtypes.value_counts())
    print('________________________________________________________________________________________________________\n')

    print('🌑Nombre de las columnas:')
    display(df.columns)
    print('________________________________________________________________________________________________________\n')

    print('🌼Información de la tabla:')
    display(df.info())
    print('________________________________________________________________________________________________________\n')

    print('🐲Filas duplicadas:')
    total_duplicados = df.duplicated().sum()
    if total_duplicados > 0:
        print(f'cantidad de duplicados: {total_duplicados}')
        print('Primeros duplicados')
        display(df[df.duplicated()].head(3))
    else:
        print('No hay duplicados')
    print('________________________________________________________________________________________________________\n')

    print('🐖Que porcentaje de nulos tenemos por columnas:')
    porc_nulos = (df.isnull().sum() / df.shape[0]) * 100
    df_nulos = pd.DataFrame(porc_nulos, columns = ["%_nulos"])
    display(df_nulos[df_nulos["%_nulos"] > 0])
    print('________________________________________________________________________________________________________\n')

    print("Las columnas categóricas que tienen nulos son :")
    nulos_cat = df[df.columns[df.isnull().any()]].select_dtypes(include = "O").columns
    display(nulos_cat)
    print('________________________________________________________________________________________________________\n')

    print('🌋Estadísticas de los datos categóricos:')
    display(df.describe(include='object').T)
    print('________________________________________________________________________________________________________\n')

    print("Las columnas numéricas que tienen nulos son : ")
    nulos_num = df[df.columns[df.isnull().any()]].select_dtypes(include = np.number).columns
    display(nulos_num)
    print('________________________________________________________________________________________________________\n')

    print('🍄Estadísticas de los datos numéricos:')
    display(df.describe().T)
    print('________________________________________________________________________________________________________\n')

In [None]:
# Ejecutamos la función de EDA

eda_basico(df)

In [None]:
# Modificamos puntos por comas para una correcta detección en Tableau

df['Pérdidas Económicas (en millones de $)'] = df['Pérdidas Económicas (en millones de $)'].astype(str).str.replace(".", ",", regex=False)

In [None]:
# Guardamos como excel para su uso en Tableau

df.to_excel("Ciberseguridad_Global_toexcel.xlsx", index=False)

In [11]:
df.head()

Unnamed: 0,País,Año,Tipo de Ataque,Industria Objetivo,Pérdidas Económicas (en millones de $),Número de Usuarios Afectados,Fuente del Ataque,Tipo de Vulnerabilidad de Seguridad,Mecanismo de Defensa Utilizado,Tiempo de Resolución del Incidente (en horas)
0,China,2019,Phishing,Educación,8053,773169,Grupo de hackers,Software sin actualizar,VPN,63
1,China,2019,Ransomware,Minorista,6219,295961,Grupo de hackers,Software sin actualizar,Cortafuegos,71
2,India,2017,Man-in-the-Middle,IT,3865,605895,Grupo de hackers,Contraseñas débiles,VPN,20
3,Reino Unido,2024,Ransomware,Telecomunicaciones,4144,659320,Estado-nación,Ingeniería social,Detección basada en IA,7
4,Alemania,2018,Man-in-the-Middle,IT,7441,810682,Empleado interno,Ingeniería social,VPN,68
