# scikit-learn을 이용한 군집화(clustering)
## - 군집화는 유사성을 기반으로 데이터의 일부를 집단으로 만드는 비지도 머신러닝 알고리즘의 모음
## - 사이버보안에서 군집화를 이용하여 정상/비정상 네트워크 활동을 구별하고 악성코드 패밀리를 분류하는데 도움이 됨

In [19]:
pip install scikit-learn pandas plotly

Note: you may need to restart the kernel to use updated packages.


In [20]:
import pandas as pd

df = pd.read_csv("file_pe_headers.csv", sep=",")
y = df["Malware"]
X = df.drop(["Name", "Malware"], axis=1).to_numpy()

In [21]:
# malware의 특성을 3개의 축 그래프로 나타냄
import plotly.express as px

fig = px.scatter_3d(
    df,
    x="SuspiciousImportFunctions",
    y="SectionsLength",
    z="SuspiciousNameSection",
    color="Malware",
)
fig.show()

In [22]:
# K-means: 클러스터의 개수를 미리 정하여 반복적으로 클러스터의 평균을 업데이트하며 가장 가까운 점들을 군집화
# 여기서는 타겟 레이블이 0과 1 이므로 2개의 군집으로 정해짐
from sklearn.cluster import KMeans

estimator = KMeans(n_clusters=len(set(y)))
estimator.fit(X)





In [23]:
# 훈련한 알고리즘을 사용하여 군집을 예측
y_pred = estimator.predict(X)

In [24]:
df["pred"] = y_pred
df["pred"] = df["pred"].astype("category")

In [25]:
# 알고리즘이 어떻게 동작했는지 알아보고자 알고리즘의 군집을 그래프로 나타냄
# k-means 알고리즘으로 훈련한 각각의 샘플이 어느 군집에 속하여 있는지 예측
fig = px.scatter_3d(
    df,
    x="SuspiciousImportFunctions",
    y="SectionsLength",
    z="SuspiciousNameSection",
    color="pred",
)
fig.show()