# 특징 추가

#### 기존 feature와 label간의 상관성이 약간 경우 특징을 변환-추가 해서, feature과 label간 상관관계를 만들어 볼 수 있다. 

![5_1.png](../materials/5_1.png)
![5_1.png](../materials/5_2.png)

In [5]:
import pandas as pd
import os

os.chdir(r"/Users/sanghyuk/Documents/preprocessing_python/lecture_source/5. 머신러닝 모델의 성능 향상을 위한 전처리/데이터/")

In [6]:
df = pd.read_csv("Combined_Cycle_Power_Plant.csv")

In [7]:
# 특징과 라벨 분리
X = df.drop('EP', axis = 1)
Y = df['EP']

In [8]:
X[:3]

Unnamed: 0,T,V,AP,RH
0,8.34,40.77,1010.84,90.01
1,23.64,58.49,1011.4,74.2
2,29.74,56.9,1007.15,41.91


In [9]:
# 신규 데이터 생성
X_added = X.copy() # 특징이 추가된 데이터를 부착할 데이터

import numpy as np
# 로그와 제곱 관련 변수만 추가
for col in X.columns:
    X_added[col + '_squared'] = X[col] ** 2
    X_added[col + '_log'] = np.log(X[col])

In [10]:
from sklearn.model_selection import cross_val_score
from sklearn.linear_model import LinearRegression as LR

# 5겹 교차 검증 기반의 평가 수행
X_score = cross_val_score(LR(), X, Y, cv = 5, scoring = 'neg_mean_absolute_error').mean()
X_added_score = cross_val_score(LR(), X_added, Y, cv = 5, scoring = 'neg_mean_absolute_error').mean()

In [11]:
print("특징 추가 전:{}, 특징 추가 후:{}".format(X_score, X_added_score))

특징 추가 전:-3.6282513807290457, 특징 추가 후:-3.332221506734906


성능이 오른 것

# Outlier

![5_3.png](../materials/5_3.png)

## IQR Rule

### 기준
- 1사분위 수 - IQRx1.5
- 3사분위 수 + IQRx1.5
- 위 범위 밖을 이상치로 판단. 


참고로, z-score를 계산해서, 특정 확률 미만이면 그 부분을 제거하는 방법도 있음. 

다만, IQR규칙은 한 변수만 그 자체로 보고 이상치를 판단하는 방법. 
- **때문에, 해당 변수만 보면 이상치인데 다른 변수와 함께 보면 이상치가 아니였거나, IQR로 이상치 아닌 것 같았는데, 다른 변수랑 함께 보면 이상치거나 이런 것들이 다 무시된다.** 즉, 해당 데이터는 feature가 여러개인데, 딱 한 변수만으로 판단해서 이상치라고 날려버리기 애매한 상황들이 자주 있다는 것. 
- 또한 어떤 경우에는 이상치가 지나치게 많이 나오는 경우가 있음. 
- 때문에, 약간 불완전한 판단 방법일 수 밖에 없다. 

![5_3.png](../materials/5_4.png)

![5_3.png](../materials/5_5.png)

In [14]:
import pandas as pd
import os

os.chdir(r"/Users/sanghyuk/Documents/preprocessing_python/lecture_source/5. 머신러닝 모델의 성능 향상을 위한 전처리/데이터/")

In [15]:
df = pd.read_csv("glass.csv")

In [16]:
# 특징과 라벨 분리
X = df.drop(['Glass_type'], axis = 1)
Y = df['Glass_type']

In [17]:
# 학습 데이터와 평가 데이터 분리
from sklearn.model_selection import train_test_split
Train_X, Test_X, Train_Y, Test_Y = train_test_split(X, Y)
Train_X.shape

(160, 8)

In [18]:
import numpy as np
def IQR_rule(val_list): # 한 특징에 포함된 값 (열 벡터)
    # IQR 계산    
    Q1 = np.quantile(val_list, 0.25)
    Q3 = np.quantile(val_list, 0.75)
    IQR = Q3 - Q1
    
    # IQR rule을 위배하지 않는 bool list 계산 (True: 이상치 X, False: 이상치 O)
    not_outlier_condition = (Q3 + 1.5 * IQR > val_list) & (Q1 - 1.5 * IQR < val_list)
    return not_outlier_condition

In [19]:
conditions = Train_X.apply(IQR_rule) # apply를 이용하여 모든 컬럼에 IQR rule 함수 적용
conditions

Unnamed: 0,RI,Na,Mg,Al,Si,K,Ca,Fe
175,True,True,True,True,True,True,True,True
85,True,True,True,True,True,True,False,True
111,True,True,True,True,True,True,True,True
5,True,True,True,True,True,True,True,False
79,True,True,True,True,True,True,True,True
...,...,...,...,...,...,...,...,...
61,True,True,True,True,True,True,True,True
2,True,True,True,True,True,True,True,True
197,True,True,True,True,True,True,True,True
48,True,True,True,True,True,True,True,True


In [20]:
total_condition = conditions.sum(axis = 1) == len(Train_X.columns) # 하나라도 IQR 규칙을 위반하는 요소를 갖는 레코드를 제거하기 위한 규칙
Train_X = Train_X.loc[total_condition] # 이상치 제거

In [21]:
Train_X.shape #  50개 삭제됨

(112, 8)

160개 중에 50개가 이상치? 이상치의 비율이라고 보기에는 너무 높아. 그러면, 보통은 1.5를 조금 더 올리고 이렇게 한다. 이상치는 보통 1% 미만이 되는 것이 일반적이다. 

## DBScan Method
- 밀도기반 군집화
- 이상치를 판단하며 변수를 종합적으로 고려해주는 장점이 있음. 
- 하지만, 파라미터 튜닝이 또 일이 된다. 심지어 쉽지 않다. 

![5_3.png](../materials/5_6.png)

![5_3.png](../materials/5_7.png)

**디비스캔(DBSCAN: Density-Based Spatial Clustering of Applications with Noise)** 군집화 방법은 데이터가 밀집한 정도 즉 밀도를 이용한다. 디비스캔 군집화는 군집의 형태에 구애받지 않으며 군집의 갯수를 사용자가 지정할 필요가 없다. 디비스캔 군집화 방법에서는 초기 데이터로부터 근접한 데이터를 찾아나가는 방법으로 군집을 확장한다. 이 때 다음 사용자 인수를 사용한다.

- 최소 거리 $\varepsilon$: 이웃(neighborhood)을 정의하기 위한 거리
- 최소 데이터 갯수(minimum points): 밀집지역을 정의하기 위해 필요한 이웃의 갯수

만약 $\varepsilon$ 최소 거리안의 이웃 영역 안에 최소 데이터 갯수 이상의 데이터가 있으면 그 데이터는 핵심(core) 데이터다. 이렇게 핵심 데이터를 찾아낸 다음에는 이 핵심 데이터의 이웃 영역 안에 있는 데이터를 이 핵심데이터와 연결된 핵심 데이터로 정의한다. 핵심 데이터의 이웃영역안에 있는 데이터도 마찬가지로 연결된 핵심 데이터가 된다. 만약 고밀도 데이터에 더이상 이웃이 없으면 이 데이터는 경계(border) 데이터라고 한다. 핵심 데이터도 아니고 경계 데이터도 아닌 데이터를 outlier라고 한다.

사진 보고 이해하면 된다. 

- 아래 사진에서 노란색 점을 보면, 코어는 아니다. 현재 minimum distance 안에 point가 1개 밖에 없으니깐(현재 minimum point=4). 
- 대신에 영역 안에 코어가 존재한다(빨간점). 그러면, 코어에 연결되어있다라고 말한다. 
- 즉, 노란점은 둘다 코어에 연결되어있지만, 스스로는 코어가 아닌 상태이다.
    - 딱 이렇게 노란점처럼, **코어와 연결되어있지만 스스로는 코어가 아닌 애들**을 **border**라고 부른다. cluster의 가장자리가 되니깐 border라고 하는 것.
- 근데 위에 파란점은 뭐 주변에 아무도 없어. 혹은 하나 있는데 걔가 border인 경우. 그런 애들은 outlier라고 부른다.
- 이거 때문에, DBScan모델은 outlier detection도 가능한 것.
    - 즉, 어떤 클러스터에도 속하지 않고, 따로 노는 애들은 outlier로서 정의할 수 있다.

![5_3.png](../materials/5_8.png)

scikit-learn의 cluster 서브패키지는 디비스캔 군집화를 위한 DBSCAN 클래스를 제공한다. 다음과 같은 인수를 받을 수 있다.

- eps: 이웃을 정의하기 위한 거리. epsilon. scikit-learn문서에도 eps가 엄청 중요한 하이퍼파라미터라고 써있다.
- min_samples: 핵심 데이터를 정의하기 위해 필요한 이웃영역안의 데이터 갯수.

군집화가 끝나면 객체는 다음 속성을 가진다.

- labels_: 군집 번호. 아웃라이어는 -1 값을 가진다.
- core_sample_indices_: 핵심 데이터의 인덱스. 여기에 포함되지 않고 아웃라이어도 아닌 데이터는 경계 데이터(border)다. 
- core sample의 데이터 넘버


In [23]:
import pandas as pd
import os

os.chdir(r"/Users/sanghyuk/Documents/preprocessing_python/lecture_source/5. 머신러닝 모델의 성능 향상을 위한 전처리/데이터/")

In [24]:
df = pd.read_csv("glass.csv")

In [27]:
# 특징과 라벨 분리
X = df.drop(['Glass_type'], axis = 1)
Y = df['Glass_type']

In [28]:
# 학습 데이터와 평가 데이터 분리
from sklearn.model_selection import train_test_split
Train_X, Test_X, Train_Y, Test_Y = train_test_split(X, Y)
Train_X.shape

(160, 8)

In [29]:
from scipy.spatial.distance import cdist
from sklearn.cluster import DBSCAN

cdist는 dbscan 파라미터 튜닝 할때 거리를 참고하기 위해서, 거리행렬을 만들 수 있는 패키지를 가지고 온 것. 
- [cdist](https://docs.scipy.org/doc/scipy/reference/generated/scipy.spatial.distance.cdist.html) : Compute distance between each pair of the two collections of inputs.
- default distance : `euclidean`

In [30]:
DM = cdist(Train_X, Train_X) # 거리 행렬 => DBSCAN의 파라미터를 설정하기 위함
np.quantile(DM, 0.1) # 샘플 간 거리의 10% quantile이 0.6622정도임을 확인

0.6172764699979624

In [36]:
np.quantile(DM.reshape(-1, ), 0.1)

array([0.        , 1.14887025, 0.66068147, ..., 8.15356241, 7.99689773,
       0.        ])

In [37]:
cluster_model = DBSCAN(eps = 0.67, min_samples = 3).fit(Train_X)
print(sum(cluster_model.labels_ == -1)) 
# 38개가 이상치로 판단 => 이정도면 너무 많은 양이 아닌가?? => 파라미터 조정

31


In [38]:
cluster_model = DBSCAN(eps = 2, min_samples = 3).fit(Train_X)
print(sum(cluster_model.labels_ == -1)) # 10개 정도면 괜찮은 양이라고 판단하여 삭제 수행

8


In [39]:
Train_X = Train_X[cluster_model.labels_ != -1]

In [40]:
Train_X.shape

(152, 8)