<a href="https://colab.research.google.com/github/JMindpalace/Machine_Learning/blob/main/3.0%20%EB%8D%B0%EC%9D%B4%ED%84%B0%20%EB%B6%84%EC%84%9D.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

< 해당 페이지는 **특성(Feature)**을 파악하고, **특성 공학(Feature Engineering)**으로 증폭 혹은 축소 시키는 페이지입니다. >

> 데이터 변경은 거의 없고, 모델링의 전처리로 특성공학이나 상관계수 등에 따라 줄이는 것이 목표입니다.

> 기대 결과 값: 여러 특성 간의 상관관계를 말할 수 있습니다.

# 데이터 분석(Data Analysis)

## 데이터 분석의 방향성

- 지도학습적 목적 : 특성과 타겟의 관계를 파악

- 비지도학습적 목적 : 특성간의 관계를 파악해서 예측 타겟 설정



---



---



### 데이터셋 분석

In [None]:
# 특정 조건 검색1
df[ (df['col'] == 'condition') ] # []내에 ()와 &로 다중 조건 검색 가능

# 특정 조건 검색2 - 쿼리문의 변수는 @로 가져와야함(@변수)
df.query( ('col' == 'condition') ) # ()내에 ()와 and로 다중 조건 검색 가능

# Groupby - mean()외에도 median() 등 사용 가능
df.groupby('그룹 기준 칼럼').mean()['값을 볼 칼럼'] # [기준1, 기준2]로 대/중분류, [ [값1, 값2] ]로 다중 그룹
# Groupby가 리스트 반환이지만, 기준 칼럼 뒤에 , as_index=False면 데이터 프레임으로 반환



---



---



# 과대적합 감소

## 하이퍼-파라미터 조정



---



---



## 특성 조정(Feature Importance) - 어떤 특성이 중요한가
> 모델의 예측값(성능)에 대한 특성들의 중요도 확인<br>
> 낮은 중요도는 Drop

### MDI(Mean Decrease impurity)
> 트리 기반 모델에서 사용, Specific Model

In [None]:
pipe = make_pipeline( OrdinalEncoder(),RandomForestClassifier() )
rf = pipe.named_steps['randomforestclassifier'] # rf로 파이프라인 속성에 접근
importances = pd.Series(rf.feature_importances_, X_train.columns) # 특성 이름 , 특성 중요도
importances.sort_values().plot.barh() # MDI 시각화

In [None]:
# 단, MDI의 추가적인 단점은 트리기반이기에 Cardinality의 의존도가 높다는 점이다
X_train.nunique().sort_values().plot.barh() # Cardinality 그래프화

### Drop-Column Importance
> 모든 특성을 가진 모델(기준) - 특정 특성을 제거하고 재학습한 모델<br>
> 평가 하락시 중요 특성으로 파악함, Agnostic Model

In [None]:
base_score = pipe.score(X_test, y_test)

dci = pd.Series(dtype=float)
for i in features: # features는 target과 분리 시 사용
  p = pipe()

  p.fit(X_train.drop(columns=[i], axis=1), y_train) # 특성 1개 drop 후 모델 재학습 - 큰 단점
  score_dropped = p.score(X_test.drop(columns=[i], axis=1), y_test) # 특성 1개 drop한 모델의 점수
  dci[feature] = score - score_dropped

dci.sort_values().plot.barh()

### Permutation Importance(순열 중요도)
> 기준모델에서 특성마다 노이즈를 주어 성능 감소폭 확인<br>
> 모든 모델에서 적용이 가능함, Agnostic&Global Model

In [None]:
pi, n_iter = pd.Series((dtype=float), 10 # 성능 확인 과정 반복 횟수

for i in features:  # 노이즈를 줄 feature 선택
  X_test_permed = X_test_copy() # 중첩에서 변수값 변경
  scores_permutated = []

  for _ in range(n_iter):
    X_test_permed[i] = np.random.permutation(X_test_permed[i])
    scores_permutated.append( pipe.score(X_test_permed, y_test) )
  avg_score = np.mean(scores_permutated) # 성능들의 평균 점수
  pi[features] = score - avg_score       # 성능 하락폭
pi.sort_values().plot.barh()

# eli5 라이브러리 사용
permuter = PermutationImportance(
    pipe.named_steps["randomforestclassifier"],  # model
    scoring="accuracy", n_iter=10, random_state=2
)
X_test_eli5 = pipe[0].transform(X_test) # OrdinalEncoder 사용
permuter.fit(X_test_eli5, y_test)

feature_names = X_test.columns.tolist()
pd.Series( permuter.feature_importances_, feature_names ).sort_values().plot.barh()

eli5.show_weights( # 특성별 score
    permuter,
    top=None,  # top n 지정 가능, None 일 경우 모든 특성
    feature_names=feature_names,  # list 형식
)

## 특성 영향 - 특성이 관계에 어떻게 영향을 줬는가
> 특성 변화에 따른 모델 예측의 변화

> 부분 의존도?

### ICE(Individual Conditional Expectation) Plot
> 개별 특성 값의 변화에 따른 모델 예측 변화, Agnostic&Local Model

In [None]:
def get_iceplot_data(data, data_index, target_feature, target_feature_range):
  change_data, results = data.iloc[[data_index]].copy(), []

  for i in target_feature_range: # 타겟범위(range로 최소~최대 등)
    change_data[target_feature] = i # 타겟 데이터 변경
    pred_proba = model_name.predict_proba(change_data)[:,1] # 바뀐 데이터로부터 확률 예측
    results.append(pred_proba.item())
  results = np.array(results)
  return target_feature_range, results-results[0] # 최소(0)를 기준으로 예측의 상대값(변화량을 보기 위함)

for i in [0, 10, 100, 1000]: # 변화를 확인할 특성 데이터 행
  plt.plot(*get_iceplot_data(
      X_test_encoded, data_index, target_feature, target_feature_range
  )) # 결과값은 모델의 예측값이고, 파란 범위는 신뢰구간

### PDP(Partial Dependence Plots) - ICE의 평균
> 특성 전체가 모델의 반응양상(어떻게 분석하고 이해하는지) 시각화<BR>

< 해석 주의 - Agnostic&Global Model >
> 특성간 독립성이 전제됨 - 강한 상관관계의 경우 비현실적인 예측을 함<br>(서로 다른 특성 샘플에 변화 타겟 값이 동일 분포로 가정함, 특성 값이 없다면 만들어서 예측)<br>
> 특성 값의 분포 주의(특성 관계가 강하면 구분 불가능)

In [None]:
# PDP 라이브러리 사용
isolated = pdp_isolate(
    model = model_naem,
    dataset = X_encoded,
    model_features = X_.columns,
    feature = target_feature,
    grid_type = 'percentile' # or equal
    num_grid_poins = n # default = 10, x축 범주
    # cust_grid_points = [-100, 0 , 100, 1000] # 특성값을 볼 지점 지정가능
)
pdp_plot(isolated,
         feature_name = target_feature, # 타겟은 1개로 설정!
         plot_line = True, # ICE Plot
         frac_to_plot = 50, # int면 plot할 데이터 수 , float이면 전체 데이터 갯수 중 plotting할 데이터 수의 비율
         # 선택 기준은 np.sample로 선택
         plot_pts_dist = True
)

In [None]:
# PDP Heat-map > 예측값 자체를 반환
interaction = pdp_interact(
    model = model_naem,
    dataset = X_encoded,
    model_features = X_.columns,
    feature = target_feature # 타겟이 2개로 설정!
    # cust_grid_points = [ [], None ] # 첫번째 특성은 지정, 두번째 특성은 자동 grid
)
pdp_interact_plot(interaction, plot_type='grid', feature_name = target_feature)

In [None]:
# PDP 범주형 타겟 - 학습 때 자동 수치형으로 인코딩 변환됨
mappings = encoder.mapping # mappings시 학습 encoder로부터 특성들이 각 값이 어떤 수치로 매핑된지 확인 가능
mapping_data = list(filter(lambda x: x['col'] == target_feature, mappings)) # 매핑에서 타겟 특성 1개 추출
maps = mapping_data[0]['mapping']

encoded_features = maps.values.tolist() # 인코딩된 수치형 값
original_features = maps.index.tolist() # 원래 특성값

pdp_plot(isolated, target_feature)
plt.xticks(encoded_features, original_features, rotation=90)