#PARTE 1 - ESTUDO SOBRE VIOLAÇÃO DE DADOS (CUSTOS)


##IMPORTANDO AS BIBLIOTECAS

In [1]:
%pip install openpyxl
%pip install gdown



In [2]:
import pandas as pd
import plotly.graph_objects as go
import plotly.express as px
import gdown


##CARREGAMENTO DOS DADOS

In [3]:
doc_id = "14BdrnkKgi-UWEafkMJ11OgQCMrl61zwt"
arquivo_destino_no_colab = "/content/data_breach.xlsx"

URL = f"https://drive.google.com/uc?id={doc_id}"
gdown.download(URL, arquivo_destino_no_colab, quiet=False)

df = pd.read_excel(arquivo_destino_no_colab)


Downloading...
From: https://drive.google.com/uc?id=14BdrnkKgi-UWEafkMJ11OgQCMrl61zwt
To: /content/data_breach.xlsx
100%|██████████| 56.7k/56.7k [00:00<00:00, 62.0MB/s]


##EXPLORAÇÃO DOS DADOS

**DESCRIÇÃO DOS DADOS:** Nossa análise se baseia em um conjunto de dados composto por registros de custos causados por incidentes de violação de dados em empresas. Este conjunto de dados abrange o período de 2005 a 2015. Como parte do nosso projeto interdisciplinar, desenvolvemos o PassManager, um aplicativo gerenciador de senhas direcionado ao mercado corporativo. Nossa análise tem como objetivo principal compreender o mercado e as necessidades das empresas em relação à segurança de dados.

In [4]:
# Colunas do DataFrame
df.columns

Index(['ID EVENTO', 'TICKER', 'GVKEY', 'MÊS FISCAL', 'CUSIP', 'NOME EMPRESA',
       'Ano Fiscal', 'Ano do Evento', 'Data do Evento', 'confound_dum',
       'confound_type', 'CUSTO DA VIOLAÇÃO', 'TIPO DE VIOLAÇÃO',
       'Estado do Evento', 'Estado da Sede'],
      dtype='object')

In [5]:
#primeiros valores do dataset
df.head()

Unnamed: 0,ID EVENTO,TICKER,GVKEY,MÊS FISCAL,CUSIP,NOME EMPRESA,Ano Fiscal,Ano do Evento,Data do Evento,confound_dum,confound_type,CUSTO DA VIOLAÇÃO,TIPO DE VIOLAÇÃO,Estado do Evento,Estado da Sede
0,1.0,AMR,1388.0,12.0,23771009,AMR Corporation,2010.0,2010.0,2010-06-04,0.0,none,79000.0,Violação de Porta,Texas,Texas
1,2.0,CPS,65156.0,12.0,170388102,ChoicePoint,2005.0,2005.0,2005-02-15,0.0,none,163000.0,Violação Interna,Georgia,Georgia
2,3.0,BAC,7647.0,12.0,60505104,Bank of America Corp.,2005.0,2005.0,2005-02-24,0.0,none,1200000.0,Violação de Porta,North Carolina,North Carolina
3,4.0,IRM,62374.0,12.0,46284V101,"Time Warner, Iron Mountain Inc.",2005.0,2005.0,2005-05-02,0.0,none,600000.0,Violação de Porta,New York,New York
4,5.0,KODK,4194.0,12.0,277461406,Eastman Kodak,2005.0,2005.0,2005-06-22,0.0,none,5800.0,Violação de Porta,New York,New York


In [6]:
#Tipos de dados
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 508 entries, 0 to 507
Data columns (total 15 columns):
 #   Column             Non-Null Count  Dtype         
---  ------             --------------  -----         
 0   ID EVENTO          506 non-null    float64       
 1   TICKER             506 non-null    object        
 2   GVKEY              496 non-null    float64       
 3   MÊS FISCAL         506 non-null    float64       
 4   CUSIP              496 non-null    object        
 5   NOME EMPRESA       506 non-null    object        
 6   Ano Fiscal         506 non-null    float64       
 7   Ano do Evento      506 non-null    float64       
 8   Data do Evento     507 non-null    datetime64[ns]
 9   confound_dum       506 non-null    float64       
 10  confound_type      506 non-null    object        
 11  CUSTO DA VIOLAÇÃO  272 non-null    float64       
 12  TIPO DE VIOLAÇÃO   506 non-null    object        
 13  Estado do Evento   504 non-null    object        
 14  Estado da 

##ANÁLISES E GRÁFICOS

###CUSTO TOTAL DE ATAQUES

> No card abaixo, apresentamos o total de ataques ocorridos durante o período de 2005 a 2015, somando o total de US$1,075 bilhões de incidentes.



In [7]:
df7 = df.groupby('TIPO DE VIOLAÇÃO')['CUSTO DA VIOLAÇÃO'].sum().reset_index()


fig7 = go.Figure()


titulo_principal = "Total de Ataques"
ano_inicio = 2005
ano_fim = 2015

titulo_html = f"<span style='font-size:150%'>{titulo_principal}</span><br>CUSTOS DE 2005 Á 2015"

fig7.add_trace(go.Indicator(
    mode='number',
    title={"text": titulo_html},
    value=df7['CUSTO DA VIOLAÇÃO'].sum(),
    number={'prefix': "US$"}
))

fig7.show()

###INCIDENTES DE DADOS POR ANO
A análise fornece uma visão geral das tendências nos incidentes de ataques cibernéticos ao longo do período de 2005 a 2015.

> A quantidade de incidentes de ataques cibernéticos variou ao longo dos anos, com aumentos notáveis em 2006, 2010, 2011 e 2013, e quedas em 2009, 2014 e 2015. 2013 foi o ano com o maior número de incidentes, enquanto 2009 e 2015 tiveram os menores números.





In [8]:
df1 = df.groupby('Ano do Evento')['ID EVENTO'].count().reset_index()
df1

Unnamed: 0,Ano do Evento,ID EVENTO
0,2005.0,28
1,2006.0,76
2,2007.0,66
3,2008.0,36
4,2009.0,20
5,2010.0,65
6,2011.0,60
7,2012.0,48
8,2013.0,61
9,2014.0,43


In [9]:
x = df1['Ano do Evento']
y = df1['ID EVENTO']
text = df1['ID EVENTO']

bar_color = '#1d2d44'


fig1 = go.Figure()

fig1.add_trace(go.Bar(
    x=x,
    y=y,
    text=text,
    marker=dict(color=bar_color)
))

fig1.update_layout(
    autosize=False,
    width=500,
    height=500,
    font_family='Sans Serif',
    plot_bgcolor='#FFFFFF',
    title="Dados por ano"
)

fig1.update_xaxes(title_text="Ano do Evento")
fig1.update_yaxes(title_text="Qtd de Evento")

fig1.show()

###TOTAL DE INCIDENTES
A análise fornece uma visão geral dos incidentes de ataques cibernéticos ao longo do período de 2005 a 2015.

> A quantidade total doi de 506 ataques ao longo de 10 anos.


In [10]:
fig7 = go.Figure()

titulo_principal = "Total de Ataques"


titulo_html = f"<span style='font-size:150%'>{titulo_principal}</span><br>DE 2005 Á 2015"

fig7.add_trace(go.Indicator(
    mode='number',
    title={"text": titulo_html},
    value=df1['ID EVENTO'].sum(),
))

fig7.show()

###TIPOS DE VIOLAÇÃO DE DADOS
A análise fornece uma visão geral da distribuição dos tipos de violação nos eventos registrados.

>  Mostra que as violações de porta e de hacker são os tipos mais frequentes, enquanto as violações físicas e de cartão de crédito/débito são menos comuns.

In [11]:
df2 = df.groupby('TIPO DE VIOLAÇÃO')['ID EVENTO'].count().reset_index()
df2

Unnamed: 0,TIPO DE VIOLAÇÃO,ID EVENTO
0,Desconhecido,31
1,Violação Física,30
2,Violação Interna,83
3,Violação de Cartão de Crédito/Débito,25
4,Violação de Dados,80
5,Violação de Hacker,118
6,Violação de Porta,139


In [12]:
labels = df2['TIPO DE VIOLAÇÃO']
values = df2['ID EVENTO']

colors = ['#778da9', '#dee2e6', '#caf0f8', '#748cab', '#0d1b2a', '#f1faee', '#34a0a4']


fig2 = go.Figure(
)

fig2.add_trace(go.Pie(
    labels=labels,
    values=values,
    hole=0.7,
    marker=dict(colors=colors),

))

fig2.update_layout(
     title="Tipos de Violações de Dados",
)


fig2.show()

###VIOLAÇÕES DE DADOS POR ESTADO
A análise mostra os estados com o maior número de eventos registrados.


> Califórnia, Nova York e Illinois lideram a lista, com um grande número de ocorrências, sugerindo uma alta concentração de atividades relacionadas a eventos. Iowa e Louisiana foram os Estados com menos incidentes registrados.



In [13]:
df4 = df.groupby ('Estado do Evento')['ID EVENTO'].count().reset_index()
df4

Unnamed: 0,Estado do Evento,ID EVENTO
0,0,1
1,Alabama,3
2,Alaska,1
3,Arizona,6
4,Arkansas,6
5,California,79
6,Colorado,2
7,Connecticut,10
8,Delaware,3
9,District Of Columbia,4


In [14]:
fig4 = px.scatter(df4,
                 x="ID EVENTO", y="Estado do Evento",
                 size="ID EVENTO", color="ID EVENTO",
                 hover_name="Estado do Evento", log_x=True,
                 size_max=60, text="Estado do Evento")

fig4.update_layout(
    plot_bgcolor='rgba(0,0,0,0)',
    paper_bgcolor='rgba(0,0,0,0)',
    title="VIOLAÇÕES DE DADOS POR ESTADO")

fig4.update_traces(textfont_size=7)


fig4.show()


###TOP 5 ESTADOS QUE TIVERAM VIOLAÇÃO DE DADOS
A análise mostra os 5 estados com o maior número de eventos registrados.

> Os estados Califórnia, Nova York e Illinois, tem o maior número de eventos de ataques cibernéticos registrados, possa ser o fato de que são estados mais populosos e economicamente mais desenvolvidos.



In [15]:
df4 = df.groupby ('Estado do Evento')['ID EVENTO'].count().reset_index()
top_5_estados = df4.nlargest(5, 'ID EVENTO')
top_5_estados = top_5_estados.sort_values(by='ID EVENTO', ascending=False)
top_5_estados

Unnamed: 0,Estado do Evento,ID EVENTO
5,California,79
29,New York,75
13,Illinois,30
38,Texas,30
11,Georgia,29


In [16]:
fig5 = go.Figure(data=[go.Scatter(
    x=top_5_estados["Estado do Evento"], y=top_5_estados["ID EVENTO"],
    mode='markers',
    marker=dict(
        color=['rgb(93, 164, 214)', 'rgb(255, 144, 14)',
               'rgb(44, 160, 101)', 'rgb(255, 65, 54)'],
        opacity=[1, 0.8, 0.6, 0.4, 0.9],
        size=[120, 100, 80, 60, 40],
    )
)])

fig5.update_layout(
    title="TOP 5 ESTADOS QUE TIVERAM VIOLAÇÃO DE DADOS",
)

fig5.update_xaxes(autorange="reversed")
fig5.update_xaxes(title_text="Estado")
fig5.update_yaxes(title_text="Qtd de Eventos")

fig5.show()

###MÉDIA DE CUSTOS POR TIPO DE VIOLAÇÃO DE DADOS
A análise mostra a média de custos associada a cada tipo de violação.

> As violações de hacker são as mais caras, seguidas pelas violações de dados e de cartão de crédito/débito.


In [17]:
df5 = df.groupby('TIPO DE VIOLAÇÃO')['CUSTO DA VIOLAÇÃO'].mean().reset_index()
pd.options.display.float_format = '{:.2f}'.format
df5

Unnamed: 0,TIPO DE VIOLAÇÃO,CUSTO DA VIOLAÇÃO
0,Desconhecido,5365982.68
1,Violação Física,3682.4
2,Violação Interna,267113.85
3,Violação de Cartão de Crédito/Débito,586700.42
4,Violação de Dados,2342613.16
5,Violação de Hacker,14251036.59
6,Violação de Porta,269369.8


In [18]:
fig6 = px.line(df5,
x='TIPO DE VIOLAÇÃO',
y='CUSTO DA VIOLAÇÃO',

labels={'TIPO DE VIOLAÇÃO': 'Tipo de Violação', 'CUSTO DA VIOLAÇÃO': 'Custo da Violação'},
line_shape='spline',
markers=True,)

fig6.update_traces(textposition='top center', text=df['CUSTO DA VIOLAÇÃO'])

fig6.show()

###VIOLAÇÃO DE DADOS POR EMPRESAS
A análise mostra o total de ataques registrados para cada empresa.


> As empresas Bank of America(Banco), AT&T(Telecom) e McDonald's(Fast-Food) lideram os números de ataques no período apresentado, mesmo atuando em segmentos diferentes. São empresas com grandes bases de dados e informações sensíveis.


In [19]:
df6 = df.groupby('NOME EMPRESA')['ID EVENTO'].count().reset_index()
df6_top_15_values=df6.nlargest(15, 'ID EVENTO')
df6_top_15_values

Unnamed: 0,NOME EMPRESA,ID EVENTO
48,Bank of America,9
7,AT&T,8
231,McDonald's,8
364,Walgreens,6
88,Citibank,5
89,Citigroup,5
166,H&R Block,5
369,Wells Fargo,5
27,American Express,4
35,Apple,4


In [20]:
fig7 = px.icicle(df6_top_15_values, path=[px.Constant('ID EVENTO'),'NOME EMPRESA'], values='ID EVENTO',
                  color='ID EVENTO', hover_data=['NOME EMPRESA'])
fig7.show()


#PARTE 2 - ESTUDO SOBRE VIOLAÇÃO DE DADOS (SENHAS)

##CARREGAMENTO DOS DADOS

In [21]:
doc_id = "1HuksebjgmMny-v8DcCgZjrTd6olCVDNg"
arquivo_destino_no_colab = "/content/passwords.xlsx"

URL = f"https://drive.google.com/uc?id={doc_id}"
gdown.download(URL, arquivo_destino_no_colab, quiet=False)

dfSenhas = pd.read_excel(arquivo_destino_no_colab)

Downloading...
From: https://drive.google.com/uc?id=1HuksebjgmMny-v8DcCgZjrTd6olCVDNg
To: /content/passwords.xlsx
100%|██████████| 29.8k/29.8k [00:00<00:00, 45.5MB/s]


##EXPLORAÇÃO DOS DADOS

**DESCRIÇÃO DOS DADOS:** O CONJUNTO DE DADOS UTILIZADO TRATA-SE DE UM DATASET EXTRAÍDO DO KAGGLE, QUE CONSISTE EM REGISTROS DE SENHAS. VISTO QUE NOSSO PROJETO INTERDISCIPLINAR É PASSMANAGER UM APLICATIVO GERENCIADOR DE SENHAS.

In [22]:
# Colunas do DataFrame
dfSenhas.columns

Index(['Rank', 'Senha', 'Categoria', 'Tempo', '(D-A-M-S)', 'Força'], dtype='object')

In [23]:
#primeiros valores do dataset
dfSenhas.head()

Unnamed: 0,Rank,Senha,Categoria,Tempo,(D-A-M-S),Força
0,1,password,relacionado a senha,6.91,Anos,8
1,2,123456,alfanumérico,18.52,Minutos,4
2,3,12345678,alfanumérico,1.29,Dias,4
3,4,1234,alfanumérico,11.11,Segundos,4
4,5,qwerty,alfanumérico,3.72,Dias,8


In [24]:
#Tipos de dados
dfSenhas.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 500 entries, 0 to 499
Data columns (total 6 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   Rank       500 non-null    int64  
 1   Senha      500 non-null    object 
 2   Categoria  500 non-null    object 
 3   Tempo      500 non-null    float64
 4   (D-A-M-S)  500 non-null    object 
 5   Força      500 non-null    int64  
dtypes: float64(1), int64(2), object(3)
memory usage: 23.6+ KB


##ANÁLISES E GRÁFICOS

###AS 10 SENHAS COM MAIS FORÇA
A análise mostra 10 senhas com mais força, com base na força atribuída a cada senha.

> As Senhas mais fortes listadas abaixo incluem uma combinação de letras e números (alfanuméricas), tornando-as mais resistentes a tentativas de quebra por parte de hackers.



In [25]:
dfSenhas1 = dfSenhas.groupby('Senha')['Força'].sum().reset_index()
dfSenhas1 = dfSenhas1.sort_values(by='Força', ascending=False)
top_10_senhas = dfSenhas1.head(10)
top_10_senhas

Unnamed: 0,Senha,Força
391,rush2112,48
451,thx1138,46
328,ncc1701,46
94,bond007,38
339,ou812,36
228,heka6w2,36
444,test123,36
380,red123,35
261,jordan23,34
40,123abc,32


In [26]:
fig1 = px.bar(top_10_senhas, x='Senha', y='Força', color='Senha',
             labels={'Senha': 'Senha', 'Força': 'Força'},
             title='As 10 Senhas com Mais Força',
             color_discrete_sequence=['#0FA3B1', '#B5E2FA', '#F9F7F3', '#EDDEA4', '#4DE2EF',
                                    '#F1F9FE', '#0E94A0', '#BFE6FB', '#8FD3F7', '#D1573E']
            )

fig1.update_layout(
    plot_bgcolor='#FFFFFF')


fig1.show()

###AS CATEGORIAS MAIS USADAS
A análise destaca as categorias usadas para criar senhas.


> Os dados abaixo indicam que as categorias de senhas mais frequentemente utilizadas são aquelas que incluem nomes, preferências masculinas (como nomes de carros) e senhas alfanuméricas. Entre essas três categorias, as senhas alfanuméricas são geralmente consideradas as mais seguras



In [27]:
dfSenhas2 = dfSenhas['Categoria'].value_counts().reset_index()
dfSenhas2.columns = ['Categoria', 'Contagem']
dfSenhas2 = dfSenhas2.sort_values(by='Contagem', ascending=False)
dfSenhas2


Unnamed: 0,Categoria,Contagem
0,nome,183
1,preferências-masculinas,79
2,alfanumérico,61
3,fofo,44
4,esporte,37
5,geek,30
6,animal,29
7,relacionado a senha,15
8,comidas,11
9,palavras rebeldes,11


In [28]:
fig = px.pie(dfSenhas2.head(10), names='Categoria', values='Contagem',
             title='As Categorias Mais Usadas',
             color='Categoria',
             labels={'Categoria': 'Categoria', 'Contagem': 'Contagem'},
            color_discrete_sequence=['#0FA3B1', '#B5E2FA', '#F9F7F3', '#EDDEA4', '#4DE2EF',
                                    '#F1F9FE', '#0E94A0', '#BFE6FB', '#8FD3F7', '#D1573E'])


fig.show()

###RANKING DAS 5 SENHAS MAIS USADAS
A análise consiste em mostrar a 5 senhas mais utilizadas pelos usuários.

> As senhas apresentadas no ranking são senhas mais comuns e inseguras para utilização e por incrivel que pareça são as mais usadas.


In [29]:
dfSenhas3 = dfSenhas.groupby ('Rank')['Senha'].sum().reset_index()
top_5_senhas = dfSenhas3.nsmallest(5, 'Rank')
top_5_senhas['Senha'] = top_5_senhas['Senha'].astype(str)
top_5_senhas

Unnamed: 0,Rank,Senha
0,1,password
1,2,123456
2,3,12345678
3,4,1234
4,5,qwerty


In [30]:
x = top_5_senhas['Senha']
y = top_5_senhas['Rank']

fig3 = go.Figure(data=[go.Bar(
    x=x,
    y=y,
    text=y,
    textposition='auto',
    marker_color= ['#778da9', '#dee2e6', '#caf0f8', '#748cab', '#0d1b2a']

)])

fig3.update_layout(
    xaxis_title='Rank',
    yaxis_title='Senha',
    title='RANKING DAS 5 SENHAS MAIS USADAS',
    plot_bgcolor='#FFFFFF',

)

fig3.show()

#CONCLUSÃO

Em resumo, as análises realizadas revelaram que senhas fracas são um problema comum e que senhas alfanuméricas são mais seguras e confiáveis. Empresas enfrentam desafios significativos de segurança cibernética, uma vez que lidam com uma grande quantidades de dados com custos altos associados a violações de dados.

Assim, devido ao uso crescente de Big Data a necessidade de medidas de segurança é evidente e essencial, especialmente em estados mais propensos a ataques cibernéticos, como Califórnia e Nova York, conforme ilustra o nosso dataset.

O objetivo do **PassManager** é trazer uma solução de tecnologia que visa trazer segurança e mobilidade para o gerenciamento de senhas em num único lugar, proporcionando aos usuários facilidade e flexibilidade para manipulação das suas senhas pessoais, nosso foco é trazer para o usuário a melhor experiência possível durante o uso do app.

