## [미니프로젝트] 악성사이트 탐지 머신러닝 모델 개발

## <b>[2단계] 데이터 분석 및 전처리

## ▣ 데이터 소개
* 학습 데이터셋 : train.csv
<br>

## ▣ 학습 데이터셋의 변수 소개

* url_len : URL 길이
* url_num_hypens_dom : URL내 '-'(하이픈) 개수
* url_path_len : URL의 경로 길이
* url_domain_len : URL의 도메인 길이
* url_host_name : URL의 hostname 길이
* url_num_dots : URL내 '.'(닷) 개수
* url_num_underscores : URL내 '_'(언더바) 개수
* url_query_len : URL쿼리 길이
* url_num_query_para : URL쿼리의 파라미터 개수
* url_ip_present : URL내 IP표시 여부
* url_entropy : URL 복잡도
* url_chinese_present : URL내 중국어 표기 여부
* url_port : URL내 포트 표기 여부
* html_num_tags('iframe') : HTML내 'iframe' 태그 개수
* html_num_tags('script') : HTML내 'script' 태그 개수
* html_num_tags('embed') : HTML내 'embed' 태그 개수
* html_num_tags('object') : HTML내 'object' 태그 개수
* html_num_tags('div') : HTML내 'div' 태그 개수
* html_num_tags('head') : HTML내 'head' 태그 개수
* html_num_tags('body') : HTML내 'body' 태그 개수
* html_num_tags('form') : HTML내 'form' 태그 개수
* html_num_tags('a') : HTML내 'a' 태그 개수
* html_num_tags('applet') : HTML내 'applet' 태그 개수
* label : 악성사이트 여부 컬럼 ( 'malicious'는 악성사이트, 'benign'은 정상사이트 )

<br>

---

### **[프로세스]**
0. 라이브러리 import 및 데이터 불러오기
1. 데이터 분석하기
2. 데이터 전처리하기


---

# <b>Step 0. 라이브러리 import 및 데이터 불러오기
### **가. 라이브러리 import**

In [1]:
import pandas as pd
import numpy as np

### **나.  학습데이터 불러오기**

In [2]:
data = pd.read_csv('./train.csv')

# <b>Step 1. 데이터 분석하기
---

단변량 분석은 데이터분석의 매우 기초적인 분석기법으로, 독립적인 개별 변수가 가지고있는 특성들을 이해하는 과정입니다.

## <b>Q1. 데이터 단변량 분석하기

<span style="color: green"> 개별 변수에 대해 아래 사항들을 분석해보세요. </span>

1. 변수가 내포하고 있는 의미
2. 변수가 수치형인지, 범주형인지
3. 결측치 존재 여부 및 조치 방안
4. 기초 통계량 확인
5. 데이터 분포 확인
6. 위 정보로부터 파악한 내용 정리
7. 추가 분석사항 도출

In [3]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3664 entries, 0 to 3663
Data columns (total 24 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   url_len                  3664 non-null   float64
 1   url_num_hyphens_dom      3664 non-null   float64
 2   url_path_len             3663 non-null   float64
 3   url_domain_len           3663 non-null   float64
 4   url_hostname_len         3664 non-null   float64
 5   url_num_dots             3664 non-null   float64
 6   url_num_underscores      3664 non-null   float64
 7   url_query_len            3664 non-null   float64
 8   url_num_query_para       3664 non-null   float64
 9   url_ip_present           3664 non-null   float64
 10  url_entropy              3664 non-null   float64
 11  url_chinese_present      3664 non-null   float64
 12  url_port                 3664 non-null   float64
 13  html_num_tags('iframe')  3664 non-null   float64
 14  html_num_tags('script') 

In [6]:
data.tail(2)

Unnamed: 0,url_len,url_num_hyphens_dom,url_path_len,url_domain_len,url_hostname_len,url_num_dots,url_num_underscores,url_query_len,url_num_query_para,url_ip_present,...,html_num_tags('script'),html_num_tags('embed'),html_num_tags('object'),html_num_tags('div'),html_num_tags('head'),html_num_tags('body'),html_num_tags('form'),html_num_tags('a'),html_num_tags('applet'),label
3662,46.0,0.0,33.0,13.0,13.0,3.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,4.0,1.0,1.0,0.0,3.0,0.0,benign
3663,18.0,0.0,0.0,18.0,18.0,2.0,0.0,0.0,0.0,0.0,...,3.0,0.0,0.0,282.0,1.0,1.0,2.0,46.0,0.0,benign


In [31]:
data.loc[data['url_domain_len'].isna()]

Unnamed: 0,url_len,url_num_hyphens_dom,url_path_len,url_domain_len,url_num_dots,url_num_underscores,url_query_len,url_num_query_para,url_ip_present,url_entropy,...,html_num_tags('iframe'),html_num_tags('script'),html_num_tags('embed'),html_num_tags('object'),html_num_tags('div'),html_num_tags('head'),html_num_tags('body'),html_num_tags('form'),html_num_tags('a'),label
1084,37.0,2.0,0.0,,2.0,0.0,0.0,0.0,0.0,4.311038,...,0.0,8.0,0.0,0.0,211.0,1.0,1.0,2.0,122.0,benign


In [32]:
data.loc[data['url_path_len'].isna()]

Unnamed: 0,url_len,url_num_hyphens_dom,url_path_len,url_domain_len,url_num_dots,url_num_underscores,url_query_len,url_num_query_para,url_ip_present,url_entropy,...,html_num_tags('iframe'),html_num_tags('script'),html_num_tags('embed'),html_num_tags('object'),html_num_tags('div'),html_num_tags('head'),html_num_tags('body'),html_num_tags('form'),html_num_tags('a'),label
1628,24.0,0.0,,14.0,4.0,0.0,0.0,0.0,1.0,4.220168,...,0.0,3.0,0.0,0.0,0.0,1.0,1.0,0.0,0.0,benign


In [34]:
data['url_domain_len'].mean()

20.383292383292382

In [7]:
data.columns

Index(['url_len', 'url_num_hyphens_dom', 'url_path_len', 'url_domain_len',
       'url_hostname_len', 'url_num_dots', 'url_num_underscores',
       'url_query_len', 'url_num_query_para', 'url_ip_present', 'url_entropy',
       'url_chinese_present', 'url_port', 'html_num_tags('iframe')',
       'html_num_tags('script')', 'html_num_tags('embed')',
       'html_num_tags('object')', 'html_num_tags('div')',
       'html_num_tags('head')', 'html_num_tags('body')',
       'html_num_tags('form')', 'html_num_tags('a')',
       'html_num_tags('applet')', 'label'],
      dtype='object')

In [23]:
data[['url_num_underscores','url_query_len', 'url_num_query_para',\
       'url_ip_present','url_chinese_present', 'url_port']].nunique()

url_num_underscores    13
url_query_len          78
url_num_query_para      9
url_ip_present          2
url_chinese_present     1
url_port                2
dtype: int64

In [25]:
data[["html_num_tags('script')", "html_num_tags('embed')",\
       "html_num_tags('object')", "html_num_tags('div')",\
       "html_num_tags('head')", "html_num_tags('body')",\
       "html_num_tags('form')", "html_num_tags('a')",\
       "html_num_tags('applet')"]].nunique()

html_num_tags('script')     78
html_num_tags('embed')       3
html_num_tags('object')      7
html_num_tags('div')       302
html_num_tags('head')        4
html_num_tags('body')        4
html_num_tags('form')       14
html_num_tags('a')         300
html_num_tags('applet')      1
dtype: int64

In [28]:
data[['url_len', 'url_num_hyphens_dom', 'url_path_len', 'url_domain_len',
       'url_hostname_len', 'url_num_dots', 'url_num_underscores',
       'url_query_len', 'url_num_query_para', 'url_ip_present', 'url_entropy',
       'url_chinese_present', 'url_port']].nunique()

url_len                 242
url_num_hyphens_dom       8
url_path_len            203
url_domain_len           67
url_hostname_len         67
url_num_dots             17
url_num_underscores      13
url_query_len            78
url_num_query_para        9
url_ip_present            2
url_entropy            2524
url_chinese_present       1
url_port                  2
dtype: int64

* 'url_len' : url 길이
* 'url_num_hyphens_dom' : url 중 - 갯수
* 'url_path_len' : url 중 path 길이
* 'url_domain_len' : url 도메인 길이
* 'url_hostname_len' : url 호스트 길이
* 'url_num_dots' : url . 갯수
* 'url_num_underscores' : url _ 갯수
* 'url_query_len' : url &query 길이
* 'url_num_query_para' : url &query 갯수
* 'url_ip_present' : url ip 현재의 (뭔소리?)
* 'url_entropy' : url 엔트로피 (=무질서도)
* 'url_chinese_present' : url 짱깨인지
* 'url_port' : url 포트
* 'html_num_tags('iframe')'
* 'html_num_tags('script')'
* 'html_num_tags('embed')'
* 'html_num_tags('object')'
* 'html_num_tags('div')'
* 'html_num_tags('head')'
* 'html_num_tags('body')',
* 'html_num_tags('form')'
* 'html_num_tags('a')',
* 'html_num_tags('applet')'
* 'label' : y

`data['url_chinese_present']` nunique = 1 (drop 필요)

`data["html_num_tags('applet')"]` nunique = 1

url_domain_len == url_host_len

결측치 하나 존재

## <b>Q2. 데이터 이변량 분석하기

* 자료의 종류에 맞게 X --> Y 에 대해서 그래프(시각화)와 가설검정(수치화)를 수행하고 결과를 평가합니다.
* 가설검정시 다음의 항목을 참조하여 수행합니다.
    * 적절한 유의수준
    * 숫자 --> 숫자 : 상관분석
    * 범주 --> 범주 : 카이제곱검정
    * 범주 --> 숫자 : t검정, 분산분석
    * 숫자 --> 범주 : 로지스틱 회귀모형을 통해, 회귀계수의 P.value로 검정을 수행합니다.

# <b>Step 2. 데이터 전처리
---

## <b>Q3. 중복 데이터 제거
### 우리가 접속하는 대부분의 웹사이트는 정상 사이트입니다.
### 또한, 특정 몇 개 사이트(ex. google, instagram, facebook 등)에 접속 빈도가 높습니다.
### 편중된 데이터는 모델 학습에 안 좋은 영향을 주기 때문에 중복 데이터 제거를 통해 해결합니다.
### 이 과정은 데이터 전처리 시 반드시 해야 하는 과정은 아니며, 프로젝트/데이터 성격에 맞게 결정하시면 됩니다.

### <span style="color:pink">[문제1] df info()를 통해 데이터를 확인하고 중복된 데이터는 삭제해주세요. 삭제 후 info()를 통해 이전 데이터와 비교해 보세요.<span>

In [21]:
# 데이터 프레임의 info를 확인합니다.
data.columns

Index(['url_len', 'url_num_hyphens_dom', 'url_path_len', 'url_domain_len',
       'url_hostname_len', 'url_num_dots', 'url_num_underscores',
       'url_query_len', 'url_num_query_para', 'url_ip_present', 'url_entropy',
       'url_chinese_present', 'url_port', 'html_num_tags('iframe')',
       'html_num_tags('script')', 'html_num_tags('embed')',
       'html_num_tags('object')', 'html_num_tags('div')',
       'html_num_tags('head')', 'html_num_tags('body')',
       'html_num_tags('form')', 'html_num_tags('a')',
       'html_num_tags('applet')', 'label'],
      dtype='object')

In [29]:
# 중복 데이터 제거를 제거합니다.
##### 추가적으로 쓸모 없는 데이터 제거 했음
data = data.drop(['url_chinese_present',"html_num_tags('applet')",'url_hostname_len'],axis=1)

In [60]:
# 데이터 프레임의 info를 확인합니다.
data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 3662 entries, 0 to 3663
Data columns (total 21 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   url_len                  3662 non-null   float64
 1   url_num_hyphens_dom      3662 non-null   float64
 2   url_path_len             3662 non-null   float64
 3   url_domain_len           3662 non-null   float64
 4   url_num_dots             3662 non-null   float64
 5   url_num_underscores      3662 non-null   float64
 6   url_query_len            3662 non-null   float64
 7   url_num_query_para       3662 non-null   float64
 8   url_ip_present           3662 non-null   float64
 9   url_entropy              3662 non-null   float64
 10  url_port                 3662 non-null   float64
 11  html_num_tags('iframe')  3662 non-null   float64
 12  html_num_tags('script')  3662 non-null   float64
 13  html_num_tags('embed')   3662 non-null   float64
 14  html_num_tags('object') 

---

## <b>Q4. 텍스트와 범주형 특성 처리

### 기계가 데이터를 인식할 수 있도록 텍스트 데이터를 수치형 데이터로 변경합니다.
 - replace() 함수를 이용한 텍스트와 범주형 특성 처리

**<span style="color:green">[참고링크] 공식 Document**</span>

* [replace](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.replace.html)
* [unique](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.unique.html)

### <span style="color:cyan">[예시] df_ex 데이터 프레임에서 replace 함수를 활용 'CA'는'California'로 'NY'는 'NewYork'으로 변경합니다.<span>

In [1]:
import pandas as pd

df_ex = pd.DataFrame({'name': ['Alice','Bob','Charlie','Dave','Ellen','Frank'],
                   'age': [24,42,18,68,24,30],
                   'state': ['NY','CA','CA','TX','CA','NY'],
                   'point': [64,24,70,70,88,57]}
                  )

print(df_ex)

      name  age state  point
0    Alice   24    NY     64
1      Bob   42    CA     24
2  Charlie   18    CA     70
3     Dave   68    TX     70
4    Ellen   24    CA     88
5    Frank   30    NY     57


### <span style="color:pink">[문제2] series.copy()를 이용하여 'label' column의 데이터를 'label_binary' column으로 복사해보세요.<span>

In [70]:
# series.copy() 로 복사하여 새로운 컬럼을 생성합니다.
data['label_binary'] = data['label'].copy()

In [71]:
data.tail(1)

Unnamed: 0,url_len,url_num_hyphens_dom,url_path_len,url_domain_len,url_num_dots,url_num_underscores,url_query_len,url_num_query_para,url_ip_present,url_entropy,...,html_num_tags('script'),html_num_tags('embed'),html_num_tags('object'),html_num_tags('div'),html_num_tags('head'),html_num_tags('body'),html_num_tags('form'),html_num_tags('a'),label,label_binary
3663,18.0,0.0,0.0,18.0,2.0,0.0,0.0,0.0,0.0,3.619471,...,3.0,0.0,0.0,282.0,1.0,1.0,2.0,46.0,0,0


### <span style="color:pink">[문제3] replace() 함수를 활용하여 'label_binary'의 'benign'은 0으로 'malicious'은 1로 변경해주세요. <br><br> 'label'과 데이터를 비교해 보세요.<span>

In [66]:
data['label_binary'].unique()

array(['malicious', 'benign'], dtype=object)

In [68]:
d_labels={'malicious':1, 'benign':0}
data['label_binary'] = data['label_binary'].replace(d_labels)

In [69]:
# 텍스트 데이터를 수치형 데이터로 후 unique() 함수를 통해 유일한 값 확인
data['label_binary'].unique()

array([1, 0], dtype=int64)

---

## <b>Q5. 결측치 처리

### 데이터 수집 과정에서 발생한 오류 등으로 인해 결측치가 포함된 경우가 많습니다.
### 모델링 전에 결측치를 확인하고 이를 정제하는 과정은 필요합니다.

### <span style="color:pink">[문제4] 결측치의 존재를 확인하고 결측치가 포함된 데이터를 처리해보세요.<span>

In [76]:
# 결축치의 존재를 확인합니다.
data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 3662 entries, 0 to 3663
Data columns (total 22 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   url_len                  3662 non-null   float64
 1   url_num_hyphens_dom      3662 non-null   float64
 2   url_path_len             3662 non-null   float64
 3   url_domain_len           3662 non-null   float64
 4   url_num_dots             3662 non-null   float64
 5   url_num_underscores      3662 non-null   float64
 6   url_query_len            3662 non-null   float64
 7   url_num_query_para       3662 non-null   float64
 8   url_ip_present           3662 non-null   float64
 9   url_entropy              3662 non-null   float64
 10  url_port                 3662 non-null   float64
 11  html_num_tags('iframe')  3662 non-null   float64
 12  html_num_tags('script')  3662 non-null   float64
 13  html_num_tags('embed')   3662 non-null   float64
 14  html_num_tags('object') 

In [57]:
def find_na(cols):
    return data.loc[data[cols].isna()].index[0]
nan_rows = [find_na('url_path_len'), find_na('url_domain_len')]

In [59]:
##### 결측치 처리
data = data.drop(nan_rows,axis=0)

In [2]:
# 결축치의 존재를 확인합니다.
data.info()

---

## <b>Q6. 데이터 탐색을 통해 새로운 변수 추가 혹은 불필요한 변수 제거

### AI모델의 성능 향상을 위해 기존의 변수를 조합해 새로운 변수를 만들어 내기도 하고
### 데이터 분석을 통해 필요없는 변수는 삭제하는 과정이 필요 합니다.

### <span style="color:pink">[문제5] 상관관계 함수 및 데이터 시각화 등을 활용하며 데이터셋을 분석하고 컬럼을 추가/삭제 해보세요.<span>

---

## <b>Q7. train_test_split을 이용하여, train_x, test_x, train_y, test_y로 데이터 분리

### 모델을 학습하는 데에는 Train 데이터만 사용해야 합니다.
### 학습에 사용하지 않은 데이터를 통해 모델을 평가해야 합니다.
### 그러기 위해 Train / Test 데이터로 분리합니다.


**<span style="color:green">[참고링크] 공식 Document**</span>

* train_test_split(https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html)

### <span style="color:pink">[문제6] train_test_split 함수를 사용하여 train 데이터와 test 데이터를 분리하고 각각의 shape를 확인하세요<span>