In [1]:
from sklearn.model_selection import train_test_split
import pandas as pd

# X : 특성, y : 레이블
# 목표 : 미사일의 종류 예측

df = pd.read_csv('./data/north_korea_missile_test_database.csv')
X = df.drop("Missile Name", axis=1)
y = df['Missile Name']

In [2]:
X.head(3)

Unnamed: 0,F1,Date,Date Entered/Updated,Launch Time (UTC),Missile Type,Launch Agency/Authority,Facility Name,Facility Location,Other Name,Facility Latitude,Facility Longitude,Landing Location,Apogee,Distance Travelled,Confirmation Status,Test Outcome,Additional Information,Source(s)
0,1,9-Apr-84,23-Dec-16,,SRBM,,Tonghae Satellite Launching Ground,"Hwadae County, North Hamgyong Province",Musudan-ri,40.8499966,129.666664,Unknown,Unknown,Unknown,Confirmed,Success,First known test by North Korea of a missile w...,http://www.nti.org/media/pdfs/north_korea_miss...
1,2,9-Apr-84,23-Dec-16,,SRBM,,Tonghae Satellite Launching Ground,"Hwadae County, North Hamgyong Province",Musudan-ri,40.8499966,129.666664,Unknown,Unknown,Unknown,Confirmed,Success,,http://www.nti.org/media/pdfs/north_korea_miss...
2,3,9-Apr-84,23-Dec-16,,SRBM,,Tonghae Satellite Launching Ground,"Hwadae County, North Hamgyong Province",Musudan-ri,40.8499966,129.666664,Unknown,200 km,Unknown,Confirmed,Success,,http://www.astronautix.com/g/gitdaeryung.html;...


In [3]:
y.head(3)

0    Scud-B
1    Scud-B
2    Scud-B
Name: Missile Name, dtype: object

In [4]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=31)
# 훈련데이터 내에서도 새로운 테스트용 데이터를 뽑아서 사용
X_train, X_val, y_train, y_val = train_test_split(X_train, y_train, test_size=0.25, random_state=31)

In [5]:
import pandas as pd

data = pd.read_csv('./data/file_pe_headers.csv', sep=",")
X = data.drop(["Name","Malware"], axis=1).to_numpy()

# 데이터 표준화
# 특성의 평균 0, 분산 1로 조정
# 알고리듬은 상대적 척도(scale)에 매우 민감하다.
# 정규화가 유용한 경우 : PE 헤더를 특성으로 사용하는 경우
# PE 헤더 : 매우 큰 값과 매우 작은 값을 가지고 있는 헤더
from sklearn.preprocessing import StandardScaler

# 특성을 평균 0, 분산 1로 조정해준다(인스턴스화)
X_standardized = StandardScaler().fit_transform(X)

In [2]:
# 목표 : 45세의 개인 기대 순자산에 대한 예측기
# 주성분 분석 : PCA(Principal Component Analysis) - 특성을 분석해 일차 결합(linear combination)해 더 적은 개수의 특성으로 바꾼다.
# 차원 축소 : dimensionality reduction

from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler
import pandas as pd

data = pd.read_csv('./data/file_pe_headers.csv', sep=',')
X = data.drop(["Name","Malware"], axis=1).to_numpy()

X_standardized = StandardScaler().fit_transform(X) # 데이터셋 표준화
pca = PCA() # 차원 축소 객체
pca.fit_transform(X_standardized) # 데이터 차원 축소
print(pca.explained_variance_ratio_) # 차원 축소의 유효성(effectivenss) 평가


# 알아낸 코드 사용법 : f 인덱싱 사용시 출력 옵션 조정
# print(f'{변수명:6.4f}')
print(X.shape)
print(pca.explained_variance_ratio_.shape)
# 분산을 몇 % 유지하면서 특성의 개수를 줄일 수 있는지 확인
print(f'{sum(pca.explained_variance_ratio_[:40])*100:6.4f} %')

[1.13714096e-01 6.04526312e-02 5.35847638e-02 4.95286930e-02
 4.08242868e-02 3.43687925e-02 3.32004002e-02 3.01112226e-02
 2.86901095e-02 2.81624164e-02 2.54807940e-02 2.38845548e-02
 2.22696648e-02 2.05755591e-02 1.82485433e-02 1.73648310e-02
 1.66649078e-02 1.63647194e-02 1.52683994e-02 1.46357930e-02
 1.45790542e-02 1.45535760e-02 1.44699413e-02 1.44154480e-02
 1.42948516e-02 1.39221004e-02 1.35338124e-02 1.33766277e-02
 1.32896667e-02 1.23472302e-02 1.20507834e-02 1.15452214e-02
 1.13731313e-02 1.10939084e-02 1.07062189e-02 1.01649154e-02
 9.90148375e-03 9.61478385e-03 9.17627698e-03 9.04802544e-03
 8.66332999e-03 6.94752252e-03 6.84216033e-03 6.48244001e-03
 5.95005317e-03 5.91335216e-03 5.41615029e-03 5.10640740e-03
 4.83543074e-03 4.45888820e-03 4.29104432e-03 3.82076025e-03
 3.79864324e-03 3.24146447e-03 3.18558571e-03 2.67004617e-03
 2.03201471e-03 1.73591476e-03 1.65758475e-03 1.56708821e-03
 1.38839592e-03 1.20694096e-03 8.20896559e-04 6.92520065e-04
 2.79632267e-04 1.366147