# Predição de Malwares na Plataforma Microsoft <a id="0"></a> <br>

### Introdução

A identificação de malwares (softwares maliciosos) é um dos tópicos mais importantes no domínio da cibersegurança. Em geral todas as pessoas querem se sentir mais seguros, mas o problema é que a infecção dos malwares podem atingir tanto indivíduos, empresas e agências governamentais. O malware em si atua como um software capaz de infectar sistemas computacionais, tentando ocasionar uma má utilização dos seus recursos, causar danos ou roubar informações sensíveis ou privadas. Estes dados podem ser os detalhes de uma conta bancária, cartão de crédito, senhas ou outras informações confidenciais).

Visando reagir contra estas ameaças, provedores de software aplicam medidas ativas e passivas. Os softwares antivirus e antimalware são abordagens ativas. Um destes softwares mais conhecidos é o Microsoft Security Essentials (MSE), também conhecido como Windows Defender. Nesta estratégia, tanto softwares do sistema operacional, quanto softwares do usuário necessitam ser atualizados para melhorar a segurança e o desempenho do sistema computacional.

Este notebook demonstra a identificação das vulnerabilidades de uma máquina (computador, servidor, etc) com base na sua configuração.


### Análise Exploratória de Análise de Dados

O primeiro passo consiste em conhecer as bibliotecas que serão utilizadas na análise.

O conjunto de bibliotecas utilizados compreende:
* [numpy](http://www.numpy.org/) - Pacotes fundamentais para computação científica
* [pandas](https://pandas.pydata.org/) - Biblioteca com ferramentas para análise de dados e estruturas de dados
* [matplotlib](https://matplotlib.org/) - Visualização de dados
* [seaborn](https://seaborn.pydata.org/) - Visualização de dados


In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

import warnings
warnings.simplefilter(action='ignore', category=FutureWarning)
warnings.filterwarnings('ignore')

import os
print(os.listdir("../input"))

In [None]:
dtypes = {
        'MachineIdentifier':                                    'category',
        'ProductName':                                          'category',
        'EngineVersion':                                        'category',
        'AppVersion':                                           'category',
        'AvSigVersion':                                         'category',
        'IsBeta':                                               'int8',
        'RtpStateBitfield':                                     'float16',
        'IsSxsPassiveMode':                                     'int8',
        'DefaultBrowsersIdentifier':                            'float16',
        'AVProductStatesIdentifier':                            'float32',
        'AVProductsInstalled':                                  'float16',
        'AVProductsEnabled':                                    'float16',
        'HasTpm':                                               'int8',
        'CountryIdentifier':                                    'int16',
        'CityIdentifier':                                       'float32',
        'OrganizationIdentifier':                               'float16',
        'GeoNameIdentifier':                                    'float16',
        'LocaleEnglishNameIdentifier':                          'int8',
        'Platform':                                             'category',
        'Processor':                                            'category',
        'OsVer':                                                'category',
        'OsBuild':                                              'int16',
        'OsSuite':                                              'int16',
        'OsPlatformSubRelease':                                 'category',
        'OsBuildLab':                                           'category',
        'SkuEdition':                                           'category',
        'IsProtected':                                          'float16',
        'AutoSampleOptIn':                                      'int8',
        'PuaMode':                                              'category',
        'SMode':                                                'float16',
        'IeVerIdentifier':                                      'float16',
        'SmartScreen':                                          'category',
        'Firewall':                                             'float16',
        'UacLuaenable':                                         'float32',
        'Census_MDC2FormFactor':                                'category',
        'Census_DeviceFamily':                                  'category',
        'Census_OEMNameIdentifier':                             'float16',
        'Census_OEMModelIdentifier':                            'float32',
        'Census_ProcessorCoreCount':                            'float16',
        'Census_ProcessorManufacturerIdentifier':               'float16',
        'Census_ProcessorModelIdentifier':                      'float16',
        'Census_ProcessorClass':                                'category',
        'Census_PrimaryDiskTotalCapacity':                      'float32',
        'Census_PrimaryDiskTypeName':                           'category',
        'Census_SystemVolumeTotalCapacity':                     'float32',
        'Census_HasOpticalDiskDrive':                           'int8',
        'Census_TotalPhysicalRAM':                              'float32',
        'Census_ChassisTypeName':                               'category',
        'Census_InternalPrimaryDiagonalDisplaySizeInInches':    'float16',
        'Census_InternalPrimaryDisplayResolutionHorizontal':    'float16',
        'Census_InternalPrimaryDisplayResolutionVertical':      'float16',
        'Census_PowerPlatformRoleName':                         'category',
        'Census_InternalBatteryType':                           'category',
        'Census_InternalBatteryNumberOfCharges':                'float32',
        'Census_OSVersion':                                     'category',
        'Census_OSArchitecture':                                'category',
        'Census_OSBranch':                                      'category',
        'Census_OSBuildNumber':                                 'int16',
        'Census_OSBuildRevision':                               'int32',
        'Census_OSEdition':                                     'category',
        'Census_OSSkuName':                                     'category',
        'Census_OSInstallTypeName':                             'category',
        'Census_OSInstallLanguageIdentifier':                   'float16',
        'Census_OSUILocaleIdentifier':                          'int16',
        'Census_OSWUAutoUpdateOptionsName':                     'category',
        'Census_IsPortableOperatingSystem':                     'int8',
        'Census_GenuineStateName':                              'category',
        'Census_ActivationChannel':                             'category',
        'Census_IsFlightingInternal':                           'float16',
        'Census_IsFlightsDisabled':                             'float16',
        'Census_FlightRing':                                    'category',
        'Census_ThresholdOptIn':                                'float16',
        'Census_FirmwareManufacturerIdentifier':                'float16',
        'Census_FirmwareVersionIdentifier':                     'float32',
        'Census_IsSecureBootEnabled':                           'int8',
        'Census_IsWIMBootEnabled':                              'float16',
        'Census_IsVirtualDevice':                               'float16',
        'Census_IsTouchEnabled':                                'int8',
        'Census_IsPenCapable':                                  'int8',
        'Census_IsAlwaysOnAlwaysConnectedCapable':              'float16',
        'Wdft_IsGamer':                                         'float16',
        'Wdft_RegionIdentifier':                                'float16',
        'HasDetections':                                        'int8'
        }

In [None]:
# mostra as células que você quer visualizar e seus tipos de dados
numerics = ['int8', 'int16', 'int32', 'int64', 'float16', 'float32', 'float64']
numerical_columns = [c for c,v in dtypes.items() if v in numerics]
categorical_columns = [c for c,v in dtypes.items() if v not in numerics]

In [None]:
retained_columns = numerical_columns + categorical_columns
train = pd.read_csv('../input/train.csv',usecols = retained_columns,dtype = dtypes)

'''
Alternativamente você pode ler os dados em chunks de 1000 MB (por exemplo)
'''
#chunksize = 100000
#train = None
#
#for chunk in pd.read_csv("../input/train.csv", chunksize=chunksize, iterator=True):
#    if train is None:
#        train=chunk.copy()
#    else:
#        train.append(chunk)

Vamos visualizar as primeiras linhas e inspecionar os resultados da base de dados

In [None]:
train.head()

Olhando de maneira superficial, tudo parece correto:
* Todos os campos possuem cabeçalhos
* Não existem símbolos estranhos nas linhas

Passemos agora para verificar as formas da nossa base de dados.

In [None]:
train.shape

Existem 100 000 máquinas (observações), cada uma com 83 parâmetros (colunas).

Podemos verificar algumas estatísticas básicas das colunas.

In [None]:
train.describe()

Uma rápida análise dos dados mostrados revelam que alguns parâmetros são binários (sim/não ou 1/10). Vamos listá-los.

In [None]:
for column in train.select_dtypes(include=['float','int']):
    if train[column].min() == 0 and train[column].max() == 1 :
        print(column)

In [None]:
#categorical_cols=['PuaMode', 'Census_ProcessorClass', 'Census_InternalBatteryType','SmartScreen','Census_PrimaryDiskTypeName', 'Census_ChassisTypeName','Census_OSInstallTypeName','Census_OSSkuName', 'Census_OSEdition','Census_OSWUAutoUpdateOptionsName',
#'Census_GenuineStateName','Census_ActivationChannel', 'Census_FlightRing',
#'MachineIdentifier','Census_OSBranch', 'Census_OSArchitecture', 'EngineVersion',
#'AppVersion', 'AvSigVersion', 'Platform', 'Processor', 'OsVer','OsPlatformSubRelease',
#'OsBuildLab', 'SkuEdition','Census_MDC2FormFactor', 'ProductName', 'Census_PowerPlatformRoleName',
#'Census_OSVersion']
#
#for column in train:
#    if column in categorical_cols:
#        train[column]=train[column].astype('category')

Vamos verificar quantos valores estão faltando em cada coluna. Se temos muitos valores faltantes em uma coluna, nós podemos considerar descartá-la de nossa análise.

In [None]:
nans = []
pcts = []
for cols in train:
    nans.append(train[cols].isnull().sum())
    pcts.append(train[cols].isnull().sum()/train.shape[0]*100)

In [None]:
missing_data = pd.DataFrame({"Coluna":train.columns,"Valores faltantes": nans, "Pct faltantes [%]": pcts}).sort_values("Valores faltantes", ascending=False)
missing_data[missing_data["Valores faltantes"]!=0].reset_index(drop=True)

In [None]:
complete = (missing_data["Pct faltantes [%]"]<=10).sum()
a = ((missing_data["Pct faltantes [%]"]!=0) & (missing_data["Pct faltantes [%]"]<=10)).sum()
b = ((missing_data["Pct faltantes [%]"]>10) & (missing_data["Pct faltantes [%]"]<=50)).sum()
c = (missing_data["Pct faltantes [%]"]>50).sum()
print("Existem:\n{} colunas com valores faltantes\n{} colunas com menos do que 10% de valores faltantes\n {} colunas com valores faltantes entre 10% e 50%\n {} colunas com mais do que 50% de valores faltantes".format(complete,a,b,c))

labels =["Dados completos", "Faltando 0-10%", "Faltando 10-50%", "Faltando mais do que 50% dos dados"]
fig1, ax1 = plt.subplots(figsize=(8,8))
ax1.pie([complete,a,b,c],autopct='%1.1f%%',labels=labels, textprops={'fontsize': 15})
ax1.axis('equal')
plt.show()

In [None]:
detect_no = (train["HasDetections"]==0).sum()
detect_yes = (train["HasDetections"]==1).sum()

print("Existem:\n{} Não detectados\n{} Detectados".format(detect_no,detect_yes))

A nossa coluna usada como rótulo está nomeada como "*HasDetections*". É importante verificar quantas detecções existem em nossa base de dados.

In [None]:
labels = 'Não detectado', 'Detectado',
sizes = [detect_no, detect_yes]

fig1, ax1 = plt.subplots(figsize=(8,8))
ax1.pie(sizes, labels=labels, autopct='%1.1f%%',shadow=True, startangle=90, textprops={'fontsize': 15})
ax1.axis('equal')

plt.show()

Isto revela que nossa base de dados é levemente balanceada.

Na sequência vamos dividir nossas máquinas em algumas categorias para verificar algumas características, como Nome do Produto (Product Name), Versão da Engine (Engine Version), Plataforma (Plataform), Census_MDC2FormFactor e OsSuite.


Vamos investigar a primeira coluna com o Nome do Produto. Aqui temos duas categorias:
1. win8defender (Defender no Windows 8)
2. mse (Microsoft Security Essentials)

Em tais comparações, é importante salientar que a interpretação correta depende de considerar os números absolutos e relativos.

In [None]:
def my_graphs1(col_name, rotation=45, threshold=0.01, explode =-1):
    '''
    Esta função cria dois gráficos: distribuição de categorias (gráfico de pizza) e a fração de máquinas infectadas em cada categoria (gráfico de barras).
    '''
    category = train[col_name].unique().tolist()
    totals=[]
    infected=[]
    
    for item in category:
        a = (train[col_name]==item).sum()
        totals.append(a)
        infected.append((train[train[col_name]==item]["HasDetections"]==1).sum()/a)
        
    #creating a summary dataframe
    df = pd.DataFrame({"Total":totals,"Infected": infected}, index=category).sort_values("Total", ascending=False) 
    fig, ax = plt.subplots(ncols=2, nrows=1,figsize=(20,8))
    
    #creating a pie chart with conditional explode option
    threshold = train.shape[0]*threshold

    if explode==-1:
        ax[0].pie(df[df["Total"]>threshold]["Total"], labels=df[df["Total"]>threshold].index.values, autopct='%1.1f%%',shadow=False, startangle=rotation, textprops={'fontsize': 15})
    else:
        ax[0].pie(df[df["Total"]>threshold]["Total"], labels=df[df["Total"]>threshold].index.values, autopct='%1.1f%%',shadow=False, startangle=rotation, textprops={'fontsize': 15}, explode=explode)
    ax[0].axis('equal')
    ax[0].set_title(col_name)
    
    #created a sorted bar chart
    df.sort_values("Infected", ascending=False, inplace=True)
    ax[1].set_xticklabels(category,rotation=45, horizontalalignment='right')
    ax[1].set_title('Fração Infectada')
    ax[1] = sns.barplot(x=df.index, y="Infected",data=df)
    plt.show()

In [None]:
my_graphs1("ProductName",45)

Os gráficos apresentados mostram que a maioria das máquinas possuem o Windows 8 Defender instalado. No entanto, em termos de porcentagem de computadores infectados por categoria, ambos são similares - cerca de 50%.

Vejamos agora as plataformas:
1. Windows 10
2. Windows 8
3. Windows 7
4. Windows 2016

In [None]:
my_graphs1("Platform",45)

Census_MDC2FormFactor:
1. 'Desktop'
2. 'Notebook'
3. 'Detachable' 
4. 'PCOther'
5. 'AllInOne'
6. 'Convertible'
7. 'SmallTablet' 
8. 'LargeTablet' 
9.  'SmallServer'
10. 'LargeServer'
11. 'MediumServer'
12. 'ServerOther'

Apenas para esclarecer, filtraremos os valores do gráfico de pizza com mais de 1%.


In [None]:
my_graphs1("Census_MDC2FormFactor",0)

In [None]:
my_graphs1("SkuEdition",0)

In [None]:
my_graphs1('Processor',0)

A seguir geramos um histograma com os identificados dos países. 

In [None]:
fig, ax = plt.subplots(ncols=1, nrows=1,figsize=(20,8))
ax = sns.distplot(train["CountryIdentifier"], kde=False, bins=250)

print("Número de identificadores do país: " + str(train["CountryIdentifier"].nunique()))
print("Identificador mais frequente do país: " + str(train["CountryIdentifier"].mode()[0]))

In [None]:
#Créditos
#https://www.kaggle.com/datark1/malware-prediction-eda
#ROBERT KWIATKOWSKI