In [18]:
import pandas as pd
import numpy as np
from datetime import datetime

def parser(x):
    return datetime.strptime(x, '%Y-%m-%d %H:%M:%S')

input_file = './data/AirQualityUCI_refined.csv'

df = pd.read_csv(input_file,
                 index_col=[0],
                 parse_dates=[0],
                 date_parser=parser)
print(df.head())

# Visualization setup
%matplotlib
from matplotlib import pyplot as plt
import seaborn as sns
sns.set()

%config InlineBackend.figure_format = 'svg'
plt.rcParams['figure.figsize'] = [10, 5]
plt.ion() # enable the interactive mode



                     CO(GT)  PT08.S1(CO)  PT08.S2(NMHC)  NOx(GT)  \
Datetime                                                           
2004-03-10 18:00:00     2.6       1360.0         1046.0    166.0   
2004-03-10 19:00:00     2.0       1292.0          955.0    103.0   
2004-03-10 20:00:00     2.2       1402.0          939.0    131.0   
2004-03-10 21:00:00     2.2       1376.0          948.0    172.0   
2004-03-10 22:00:00     1.6       1272.0          836.0    131.0   

                     PT08.S3(NOx)  NO2(GT)  PT08.S4(NO2)  PT08.S5(O3)    RH  \
Datetime                                                                      
2004-03-10 18:00:00        1056.0    113.0        1692.0       1268.0  48.9   
2004-03-10 19:00:00        1174.0     92.0        1559.0        972.0  47.7   
2004-03-10 20:00:00        1140.0    114.0        1555.0       1074.0  54.0   
2004-03-10 21:00:00        1092.0    122.0        1584.0       1203.0  60.0   
2004-03-10 22:00:00        1205.0    116.0       

# Scaling: Standardization

 - 표준화(또는 Z-score.정규화): 표준편차를 기반으로 스케일링 수행
     - 데이터가 정규분포를 따른다고 가정하고, 분포가 0을 중심으로 하고 표준편차가 1이 되도록 스케일링 수행
     - 변수마다 표준편차가 다를 경우 스케일링 결과(값 범위)가 다를 수 있음
     - 이상치에 영향을 덜 받는 스케일링 방법

# Scaling: Others

 - 그 외의 스케일링 기법
     - Max Abs Scaler
     - Robust Scaler
     - Quantile Tansformer Scaler
     - Power Tansformer Scaler
     - Unit Vector Scaler

# Grouping Operations

 - 깔끔한 데이터(tidy data): 데이터 분석 / 머신러닝에 적합한 데이터의 형태

# Grouping Operations: Pivot Table

 - 피벗 테이블: 개별 데이터 항목들의 집계 및 테이블 재구조화를 통해 데이터의 요약된(그룹호된) 결과를 나타내는 테이블
     - 트랜잭션 데이터(예: 계좌이체 내역)를 tidy 형태의 데이터로 변환할 때 활용

# feature Split

 - 특징 분할: 복합적인 값으로 구성된 특징 값을 여러개의 값으로 분할
     - Ex. 정제되지 않은 문자열의 토그나이징(tokenizing)
     

In [19]:
import pandas as pd
movies = pd.Series(["The Godfather, 1972, Francis Ford Coppola",
                  "Contact, 1997, Robert Zemeckis",
                  "Parasite, 2019, Joon-ho Bong"])


In [20]:
lst_title = []
lst_year = []
lst_director = []

for val in movies:
    title, year, director = val.split(',')
    lst_title.append(title)
    lst_year.append(year)
    lst_director.append(director)
# print(lst_title)
# print(lst_year)
# print(lst_director)

In [21]:
df_movie = pd.DataFrame()
df_movie['title'] = lst_title
df_movie['year'] = lst_year
df_movie['director'] = lst_director

df_movie

Unnamed: 0,title,year,director
0,The Godfather,1972,Francis Ford Coppola
1,Contact,1997,Robert Zemeckis
2,Parasite,2019,Joon-ho Bong


# Why Is Feature Selection Important?

 - 특징 수가 많을수록 비선형 문제에 적합한 모델 생성이 가능, BUT
 - 차원의 저주(curse of dimensionality)
     - 특징 수가 증가할수록, 모델링에 필요한 데이터 수는 지수적으로(exponentially) 증가 -> 특징 수가 필요 이상으로 많은 경우 모델 성능에 악영향

# Recap: Feature Extraction and Selection
 - 특징 추출
     - 데이터의 다양한 조작을 통해 모델 학습에 적합한 특징들을 생성
 - 특징 선택(또는 변수 선택)
     - 전체 특징 집합 중에서 모델 학습에 필요한 부분 집합을 선택
     - 모델이 해결하고자 하는 문제와 상관없는 특징 = 노이즈
     - 효과적인 특징 선택 -> 빠른 학습, 복잡도 감소, 해석이 용이함, 모델의 성능 향상
     - 특징 선택 방법 종류 : 일변량 특징 선택, 다변량 특징 선택

# Univariate Feature Selection

 - 일변량 특징 선택: 개별 특징 단위로 평가 및 선택
     - 수동 작업: 도메인 지식을 가진 사람이 직접 특징을 선별 -> 많은 시간 소요
     - 분산 검사: 임계치보다 낮은 분산을 보이는 특징 제거(Ex. 분산 = 0인 특징 제거)
     - 피어슨 상관계서: 대산 변수(target variable)와 특징 간의 상관관계를 수치화

# Thumb Rule to Use the Pearson Correlation

 - 특징 선택을 위한 피어슨 상관계수 활용
     - 대상 변수와 어느 정도 상관성을 갖는 특징을 선택 (상관계수가 0에 가까운 특징 = 예측력이 거의 없음.)
 - 두 특징 간 상관성이 너무 강한 경우 : 둘 중 하나만 선택
     - 상관성이 강한 두 특징은 중복된 특징과 다름 없다.

In [23]:
# Interpolate for entire data
df.interpolate(inplace=True)

In [None]:
"""
Correlation Matrix
"""
sns.pairplot(df, kind = 'reg', diag_kind = 'kde',
            plot_kws = {'scatter_kws' : {'alpha' : 0.1}})

# Multivariate Feature Selection

 - 다변량 특징 선택: 다수의 특징으로 구성된 집합을 평가 및 선택
     - 데이터셋에 특징이 너무 많은 경우(Ex. 수백 또는 수천개)
 - 대표적 방법
     - Filter 방식
     - Wrapper 방식
     - Embedded 방식

# Filter Method

 - 통계적 방법을 통해 특징들을 스코어링(scoring)하는 방식
     - 스코어링 기군: 특징 - 대상 변수와의 상관관계
     - 점수가 가장 높은 n개의 특징을 선택
 - 특징 선택을 위한 통계적 방법
     - 피어슨 상관계수(Pearson Correlation Coefficient)
     - 선형 판별 분석(LDA): 분류 성능을 보존하는 방향으로 차원 축소
         - 특징(연속형) - 대상변수(범주형) 조합인 경우에 적용 가능
     - 분산 분석(ANOVA): 특징 간 분산간의 관계를 분석
         - 특징(범주형) - 대상변수(연속형) 조합인 경우에 적용 가능
     - 카이제곱 검중(Chi-squared Test): 빈도 분포를 기반으로 범주형 변수간 상관성 평가
     

# Wrapper Method

 - 모델을 사용하여 특징 집합을 테스트/수정하면서 최적의 특징 조합을 구성
     - 반복적 모델 생성/테스트를 요구하므로 많은 시간이 필요함
         - 특징 공간이 방대할 경우 가능한 모든 특징 조합들을 테스트하기 어려움
     - 탐색 문제로 귀결되므로, 시간 & 공간 비용에 제약사항을 가짐.
 - 대표적 방법
     - Forward Selection
     - Backward Elimination
     - Recursive Feature Elimination

# Wrapper Method: Forward Selection

 - 중요도가 높은 특징부터 추가하는 방식
     - 정지 조건을 만족할 때까지 한 개씩 추가
         - 정지 조건 Ex. 모델 성능의 하락
     - 계산 비용이 낮은 편
     - 이미 선택된 특징은 제거되지 않음.

# Embedded Method

 - 학습 알고리즘 자체에 특징 선택 기능이 구현된 방식
     - Filter와 Wrapper 방식의 장점을 결합
     
 - 대표적 알고리즘
     - Random Forest
     - Gradient Boosting Machine (GBM)
     - LASSO, RIDGE: 특징 가중치에 페털티 부여 -> 중요도가 낮은 특징 무력화

In [None]:

# Prepare a feature set
X = df.iloc[:, 1:]    # input features
X

y = df.iloc[:, 0]    # target variable
y


In [None]:

"""
Feature Importance
"""

# Create and train model for regression

from sklearn.ensemble import RandomForestRegressor

model = RandomForestRegressor()
model.fit(X, y)



In [None]:

# Print feature importances
print(model.feature_importances_)


In [None]:

# Plot the feature importances
feat_importances = pd.Series(model.feature_importances_, index=X.columns)
feat_importances.nlargest(10).plot(kind='barh')
plt.show()