# Phishing Websites Detection

피싱 사이트를 탐지하기 위해 4가지 알고리즘을 사용할 것이다.
- Logistic Regression
- Decision Tree
- RandomForest
- Gradient Descent

#### [1] Import Library

우선 필요한 라이브러리를 import 한다.
- numpy  : 데이터를 로드하기 위해 사용
- sklean : 머신러닝 알고리즘 및 평가를 위해 사용
- pickle : 모델을 저장하기 위해 사용

In [44]:
import numpy as np
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.ensemble import AdaBoostClassifier
from sklearn.metrics import accuracy_score
from sklearn.model_selection import train_test_split
import pickle

#### [2] Data Load

pwf_dataset 파일을 확인해보면 총 11055개의 Data와 31개의 속성으로 되어 있는 것을 확인할 수 있다.</br>
30개의 속성은 Feature로 사용되고 1개의 속성은 피싱 사이트 여부를 알려준다.

input의 경우 학습시킬 데이터이므로 마지막 속성을 제외한 11055 X 30 배열로 이루어져있고,</br>
ouput은 결과를 나타내므로 마지막 속성인 피싱 사이트 여부를 저장하여 11055 X 1 배열로 이루어져 있다.

In [45]:
# 총 11055개의 Data
training_data = np.genfromtxt('./pwf_dataset.csv', delimiter=',', dtype=np.int32)

print("Data shape =", np.shape(training_data))

inputs = training_data[:,:-1]
outputs = training_data[:,-1]

print("input shape = ", np.shape(inputs))
print("output shape =", np.shape(outputs))

Data shape = (11055, 31)
input shape =  (11055, 30)
output shape = (11055,)


#### [3] Data Divide(Train, Test)

전체 데이터에서 train 데이터와 test 데이터를 7:3 비율로 분할하였다.</br>
train:test = 7:3</br>
train, test 데이터의 비율에 따라 정확도가 조금씩 달라질 수 있다.

In [76]:
train_input, test_input, train_output, test_output = train_test_split(inputs, outputs, test_size=0.3, stratify=outputs, random_state=13)

print("input(train) =", np.shape(train_input))
print("output(train)=", np.shape(train_output))
print("input(test) =", np.shape(test_input))
print("output(test) =", np.shape(test_output))

input(train) = (7738, 30)
output(train)= (7738,)
input(test) = (3317, 30)
output(test) = (3317,)


#### [4] Create Model
원하는 알고리즘을 선택하여 동작
- Logistic Regression
- Decision Tree
- Random Forest
- Gradient Boosting

In [160]:
# Logistic Regression
classifier = LogisticRegression()

In [149]:
# Decision Tree
classifier = DecisionTreeClassifier()

In [153]:
# Random Forest
classifier = RandomForestClassifier()

In [141]:
# Gradient Boosting
classifier = GradientBoostingClassifier()

#### [5] Train Model

선택된 알고리즘을 학습

In [161]:
classifier.fit(train_input, train_output)

LogisticRegression()

#### [6] Predict Model

학습한 모델을 test 데이터를 넣어서 예측

In [162]:
predictions = classifier.predict(test_input)

#### [7] Evaluation of model

예측한 결과를 output과 비교하여 정확도 측정

Decision Tree가 Logistic Regression 보다 조금 더 높은 정확도를 보여주는 것을 확인

In [163]:
accuracy = 100.0 * accuracy_score(test_output, predictions)

print("The accuracy of your classifier on testing data is : " + str(accuracy))

The accuracy of your classifier on testing data is : 92.97558034368404


#### [8] 모델 저장

원하는 정확도가 나왔다면 모델을 저장

#### [9] 모델 불러오기

다시 모델을 사용하기 위해서 불러옴

#### [10] 여러개의 모델 사용

여러개의 모델을 사용하는 법

In [None]:
# RandomForest & GradientBoosting & AdaBoost
