# A2 - Introdução à Ciência de Dados


## Integrantes
- Dominique de Azevedo
- Gabriel de Melo
- Lindsey de Azevedo

## Base de Dados

Escolhemos a base [Cyber Incidents Up to 2020](#https://www.kaggle.com/fireballbyedimyrnmom/cyber-incidents-up-to-2020).

## Perguntas Norteadoras

* Quais são os tipos de incidentes mais comuns para cada categoria de alvo?

* Quais países mais fazem ataques e quais os tipos de ataque mais frequentes? 

Bibliotecas:

In [1]:
import pandas as pd
import numpy as np
import plotly as pl
import plotly.express as px
import plotly.offline as py
import plotly.graph_objs as go
py.init_notebook_mode(connected=True)

## Limpeza dos dados:

In [2]:
dados = pd.read_csv("cyber-operations-incidents.csv")

dado = dados.loc[:,["Date", "Victims", "Sponsor", "Type", "Category"]]

Data = dado["Date"]
Vitima = dado["Victims"]
Responsavel = dado["Sponsor"]
Tipo = dado["Type"]
Categoria = ["Category"]

dado.head()

Unnamed: 0,Date,Victims,Sponsor,Type,Category
0,2/13/2020,Austrian Foreign Ministry,Russian Federation,Espionage,Government
1,1/23/2020,Employees of the U.S. government,Korea (Democratic People's Republic of),Espionage,Government
2,4/6/2020,,Australia,Data destruction,Private sector
3,2/16/2020,Israeli Defense Forces (IDF) soldiers,"Palestine, State of",Espionage,Military
4,8/10/2020,"U.S. government agencies, U.S. companies",Iran (Islamic Republic of),Espionage,"Government, Private sector"


## Plotagem de países que mais causam incidentes cibernéticos.

In [3]:
fig = px.histogram(y = dado["Sponsor"], color_discrete_sequence = ["#451923"],
                   title = "Quantidade de incidentes cibernéticos causados por país")
fig.show()

Com esse gráfico podemos visualizar os países que mais efetuam ataques, sendo eles: China, Rússia, Irã e Coréia do Norte, e com isso filtramos esses países para obter mais informações:

In [4]:
#tirando os NA

dt = dado.dropna(subset = ['Sponsor'])

#separando para cada pais

data_china = dt[dt['Sponsor'].str.contains('China')]
data_iran = dt[dt['Sponsor'].str.contains('Iran')]
data_korea = dt[dt['Sponsor'].str.contains('Korea')]
data_russian = dt[dt['Sponsor'].str.contains('Russian')]

Após essa pequena filtragem separamos em 4 novos dataframes para plotá-los separadamente, pois a base não permite fazer essa separação a partir de um único data frame já que existem muitos eventos em que mais de um pais participam.

## Tipos de ataques mais frequentes em relação às categorias

Separamos as categorias de incidentes.

In [5]:
#tirando os NA

dt = dado.dropna(subset = ['Category'])

#separando para cada Categoria

data_cv = dt[dt['Category'].str.contains('Civil')]
data_gv = dt[dt['Category'].str.contains('Gover')]
data_pv = dt[dt['Category'].str.contains('Private')]
data_ml = dt[dt['Category'].str.contains('Military')]


 Então analisamos os tipos de ataques mais comuns em cada categoria.

In [6]:
fig = px.histogram(y = data_cv["Type"], title = "Tipos de ataques mais comuns na categoria Sociedade Civil", color_discrete_sequence = ["#ea4591"])
fig.show()

In [7]:
fig = px.histogram(y = data_gv["Type"], title = "Tipos de ataques mais comuns na categoria Governamental",
                   color_discrete_sequence = ["#da3501"])
fig.show()

In [8]:
fig = px.histogram(y = data_pv["Type"], title = "Tipos de ataques mais comuns na categoria Setor Privado",
                   color_discrete_sequence = ["#efa028"])
fig.show()

In [9]:
fig = px.histogram(y = data_ml["Type"], title = "Tipos de ataques mais comuns na categoria Militar",
                   color_discrete_sequence = ["#a734a2"])
fig.show()

Com esses plots fica claro que a maior parte dos eventos são apenas de espionagem, os outros tipos de ataques ocupam uma pequena parcela deles.

## Tipos de ataques mais frequentes em relação aos países
 
Observamos também a distribuição de tipos de incidentes em cada um dos países em questão:

In [10]:
trace1 = go.Box(y = data_china.loc[data_china['Type'] == "Espionage", "Date"],
                name = 'Espionagem',
                marker = {'color': '#1e90ff'})

trace2 = go.Box(y = data_china.loc[data_china['Type'] == "Sabotage", "Date"],
                name = 'Sabotagem',
                marker = {'color': '#4169e1'})

trace3 = go.Box(y = data_china.loc[data_china['Type'] == "Denial of service", "Date"],
                name = 'Denial of service',
                marker = {'color': '#6959cd'})

trace4 = go.Box(y = data_china.loc[data_china['Type'] == "Data destruction", "Date"],
                name = 'Destruição de Dados',
                marker = {'color': '#483d8b'})

data = [trace1, trace2, trace3, trace4]
layout = go.Layout(title = 'Dispersão de Tipos de Ataques realizados pela China ao longo dos Anos',
                   titlefont = {'family': 'Arial',
                                'size': 22,
                                'color': '#7f7f7f'},
                   xaxis = {'title': 'Tipos'},
                   paper_bgcolor = 'rgb(243, 243, 243)',
                   plot_bgcolor = 'rgb(243, 243, 243)')
fig = go.Figure(data=data, layout=layout)
py.iplot(fig)

In [11]:
trace1 = go.Box(y = data_russian.loc[data_russian['Type'] == "Espionage", "Date"],
                name = 'Espionagem',
                marker = {'color': '#00ff00'})

trace2 = go.Box(y = data_russian.loc[data_russian['Type'] == "Sabotage", "Date"],
                name = 'Sabotagem',
                marker = {'color': '#7fff00'})

trace3 = go.Box(y = data_russian.loc[data_russian['Type'] == "Denial of service", "Date"],
                name = 'Denial of service',
                marker = {'color': '#adff2f'})

trace4 = go.Box(y = data_russian.loc[data_russian['Type'] == "Defacement", "Date"],
                name = 'Defacement',
                marker = {'color': '#ffff00'})

trace5 = go.Box(y = data_russian.loc[data_russian['Type'] == "Data destruction", "Date"],
                name = 'Destruição de Dados',
                marker = {'color': '#ffd700'})

trace6 = go.Box(y = data_russian.loc[data_russian['Type'] == "Doxing", "Date"],
                name = 'Doxing',
                marker = {'color': '#ffa500'})


data = [trace1, trace2, trace3, trace4, trace5, trace6]
layout = go.Layout(title = 'Dispersão de Tipos de Ataques realizados pelo Iran ao longo dos Anos',
                   titlefont = {'family': 'Arial',
                                'size': 22,
                                'color': '#7f7f7f'},
                   xaxis = {'title': 'Tipos'},
                   paper_bgcolor = 'rgb(243, 243, 243)',
                   plot_bgcolor = 'rgb(243, 243, 243)')
fig = go.Figure(data=data, layout=layout)
py.iplot(fig)

In [12]:
trace1 = go.Box(y = data_iran.loc[data_iran['Type'] == "Espionage", "Date"],
                name = 'Espionagem',
                marker = {'color': '#40e0d0'})

trace2 = go.Box(y = data_iran.loc[data_iran['Type'] == "Sabotage", "Date"],
                name = 'Sabotagem',
                marker = {'color': '#5f9ea0'})

trace3 = go.Box(y = data_iran.loc[data_iran['Type'] == "Denial of service", "Date"],
                name = 'Denial of service',
                marker = {'color': '#7b68ee'})

trace4 = go.Box(y = data_iran.loc[data_iran['Type'] == "Defacement", "Date"],
                name = 'Defacement',
                marker = {'color': '#8a2be2'})

trace5 = go.Box(y = data_iran.loc[data_iran['Type'] == "Data destruction", "Date"],
                name = 'Destruição de Dados',
                marker = {'color': '#9400d3'})


data = [trace1, trace2, trace3, trace4, trace5]
layout = go.Layout(title = 'Dispersão de Tipos de Ataques realizados pelo Irã ao longo dos Anos',
                   titlefont = {'family': 'Arial',
                                'size': 22,
                                'color': '#7f7f7f'},
                   xaxis = {'title': 'Tipos'},
                   paper_bgcolor = 'rgb(243, 243, 243)',
                   plot_bgcolor = 'rgb(243, 243, 243)')
fig = go.Figure(data=data, layout=layout)
py.iplot(fig)

In [13]:
trace1 = go.Box(y = data_korea.loc[data_korea['Type'] == "Espionage", "Date"],
                name = 'Espionagem',
                marker = {'color': '#f39c12'})

trace2 = go.Box(y = data_korea.loc[data_korea['Type'] == "Doxing", "Date"],
                name = 'Doxing',
                marker = {'color': '#e67e22'})

trace3 = go.Box(y = data_korea.loc[data_korea['Type'] == "Denial of service", "Date"],
                name = 'Denial of service',
                marker = {'color': '#d35400'})

trace4 = go.Box(y = data_korea.loc[data_korea['Type'] == "Financial Theft", "Date"],
                name = 'Roubo Financeiro',
                marker = {'color': '#e74c3c'})

trace5 = go.Box(y = data_korea.loc[data_korea['Type'] == "Data destruction", "Date"],
                name = 'Destruição de Dados',
                marker = {'color': '#ff69b4'})

data = [trace1, trace2, trace3, trace4, trace5]
layout = go.Layout(title = 'Dispersão de Tipos de Ataques realizados pela Coréia do Norte ao longo dos Anos',
                   titlefont = {'family': 'Arial',
                                'size': 22,
                                'color': '#7f7f7f'},
                   xaxis = {'title': 'Tipos'},
                   paper_bgcolor = 'rgb(243, 243, 243)',
                   plot_bgcolor = 'rgb(243, 243, 243)')
fig = go.Figure(data=data, layout=layout)
py.iplot(fig)

## Conclusão

Percebemos que, apesar de trocarmos a variável, de categoria para país, o tipo "Espionagem" continua sendo o tipo de incidente que mais ocorre, o que indica grande falha no sistema de segurança tecnológica dos países atacados. Também podemos concluir os quatro países que mais causam "cyber" ataques, China, Coréia do Norte, Irã e Rússia, o que pode estar relacionado com o grande poder bélico que esses países possuem, mesmo sem relação aparente com o tema dos ataques.