### Construção do dataset ###

O dataset construído a seguir mostra estatísticas de incidentes reportados ao CERT.br entre 1999 e 2020. Para cada um desses anos, há registros de valores mensais de incidentes divididos por tipos: worm, dos, invasão, web, scan, fraude e outros.

In [3]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

In [4]:
# Construção da lista de páginas contendo os dados de incidentes de cada ano

lista_paginas = []
for ano in range(1999, 2021):
    lista_paginas.append(str("https://www.cert.br/stats/incidentes/{}-jan-dec/total.html").format(ano))
lista_paginas

['https://www.cert.br/stats/incidentes/1999-jan-dec/total.html',
 'https://www.cert.br/stats/incidentes/2000-jan-dec/total.html',
 'https://www.cert.br/stats/incidentes/2001-jan-dec/total.html',
 'https://www.cert.br/stats/incidentes/2002-jan-dec/total.html',
 'https://www.cert.br/stats/incidentes/2003-jan-dec/total.html',
 'https://www.cert.br/stats/incidentes/2004-jan-dec/total.html',
 'https://www.cert.br/stats/incidentes/2005-jan-dec/total.html',
 'https://www.cert.br/stats/incidentes/2006-jan-dec/total.html',
 'https://www.cert.br/stats/incidentes/2007-jan-dec/total.html',
 'https://www.cert.br/stats/incidentes/2008-jan-dec/total.html',
 'https://www.cert.br/stats/incidentes/2009-jan-dec/total.html',
 'https://www.cert.br/stats/incidentes/2010-jan-dec/total.html',
 'https://www.cert.br/stats/incidentes/2011-jan-dec/total.html',
 'https://www.cert.br/stats/incidentes/2012-jan-dec/total.html',
 'https://www.cert.br/stats/incidentes/2013-jan-dec/total.html',
 'https://www.cert.br/sta

In [5]:
# Listas dos dados de cada coluna
ano = []
mes = []
worm = []
dos = []
invasao = []
web = []
scan = []
fraude = []
outros = []

In [6]:
# Fazer for para buscar os dados de cada página
anos = [1999, 2000, 2001, 2002, 2003, 2004, 2005, 2006, 2007, 2008, 2009, 2010, 2011, 2012, 2013, 2014,
       2015, 2016, 2017, 2018, 2019, 2020]
i = 0

for link in lista_paginas:
    page = requests.get(link)
    soup = BeautifulSoup(page.content, 'html.parser')
    
    tr = soup.find_all("tr", attrs={'class': ''})
    # Exclui posição 0 e 12, que mostram dados que não serão usados
    tr.pop(0)
    tr.pop(12)
    
    for linha in tr:
        ano.append(anos[i])
        mes.append(linha.find_all("td", attrs={'class': 'l'})[0].text)
        td = linha.find_all("td", attrs={'class': 'r'})
        worm.append(td[1].text)
        dos.append(td[3].text)
        invasao.append(td[5].text)
        web.append(td[7].text)
        scan.append(td[9].text)
        fraude.append(td[11].text)
        try:
            outros.append(td[13].text)
        except:
            outros.append('NaN')
        
    i+=1
    

In [7]:
# Criando o dataframe

print(len(ano), len(mes), len(worm), len(dos), len(invasao), len(web), len(scan), len(fraude), len(outros))

df = pd.DataFrame({'ano': ano,
                   'mes': mes, 
                   'worm': worm, 
                   'dos': dos,
                   'invasao': invasao, 
                   'web': web,
                   'scan': scan,
                   'fraude': fraude,
                   'outros': outros})
df

264 264 264 264 264 264 264 264 264


Unnamed: 0,ano,mes,worm,dos,invasao,web,scan,fraude,outros
0,1999,jan,89,5,7,14,22,67,0
1,1999,fev,75,5,1,6,31,54,0
2,1999,mar,100,7,5,12,19,60,0
3,1999,abr,60,8,0,2,0,81,0
4,1999,mai,68,10,1,7,2,57,0
...,...,...,...,...,...,...,...,...,...
259,2020,ago,12727,3758,42,3037,33015,1978,483
260,2020,set,12760,1490,71,3588,34200,2295,493
261,2020,out,13640,2295,125,3104,35488,1974,422
262,2020,nov,12498,4632,102,3747,34934,1890,1005


In [8]:
# Salvando o dataframe no formato csv
df.to_csv('incidentes_reportados_1999_2020.csv')