# Seaborn pairplot

## `sns.pairplot()`
- 모든 변수간의 상관관계를 파악 가능함
- 3차원 이상의 데이터라면 해당 함수를 이용해 분포도를 그려서 모든 변수간 상관관계를 얻음
- gird(격자) 형태로 각 집합의 조합, 즉 **데이터에 관한 히스토그램** 및 분포도를 그림
    * `data = train['fixed acidity'] # 히스토그램을 그릴 변수 지정(변수는 1개만)`
    * `sns.distplot(data, bins = 100) #distplot 함수로 히스토그램 그리기 #구간은 100개로 지정` 

## 히트맵 (Heat Map)
- 히트맵은 두개의 범주형(Categorical) 변수에 대한 반응변수의 크기를 색깔의 변화로 표현
- Ex) 
    * 일 별 기온을 보고자 할때 , 매일 온도를 히트맵으로 표현하여 온도 변화의 추이를 볼 수도 있습니다.  
    * 데이터 분석 과정에서는 변수별 상관관계를 확인 할 때 --> 상관관계를 파악하는 이유는 바로 다중공선성 때문
- `train.corr()`
    * 히트맵 그래프를 그릴 변수 지정
    * corr() : 
        * 데이터의 변수간의 상관도를 출력하는 함수
        * `data = train.corr()`
        * `sns.heatmap(data)`

## 다중공선성 (Multicollinearity)
- 상관관계가 높은 독립변수들이 동시에 모델에 포함될 때 발생
- 만약 두 변수가 완벽하게 다중공선성에 걸려있다면, 같은 변수를 두번 넣은 것으로 모델이 결과값을 추론하는 것
- 잘못된 변수해석, 예측 정확도 하락 등을 야기시킴
- 다중공선성 확인 방법 3가지
    1. Scatter Plot을 통한 확인
        - 두개의 연속형 변수에 관한 관계를 파악하는데 사용
        - x 데이터 ⬆️ & y 데이터 ⬆️ -> 양의 상관도
        - `sns.scatterplot(x = x_data, y = y_data )`
    2. Heatmap 그래프를 통한 확인
    3. VIF (Variance Inflation Factors, 분산팽창요인)을 통한 확인
        - 범위 1부터 무한대
        - 통계학에서는 VIF 값이 10이상이면 해당 변수가 다중공선성이 잇는 것으로 판단
        - VIFk = 1 / (1 - Rj^2) ->  VIFk 는 k번째 변수의 VIF 값을 의미하고, Rj^2 는 회귀분석에서 사용하는 결정계수





# 다중공선성 해결 방법 - 변수 정규화, 변수 제거, PCA(주성분 분석)

- 다중공선성 확인 방법
    ```
    vif = pd.DataFrame()
    vif["VIF Factor"] =  [variance_inflation_factor(train.values, i) for i in range(train.shape[1])]
    vif["features"] = train.columns
    print(vif)
    ```

- 변수 정규화 (MinMaxScaler())
    - 수치형 데이터들을 Min-Max Scaling 이나 Z-Score Scaling 등의 기법으로 정규화 시켜주는 방법
    ```
    # MinMaxScaler를 통해 변수 변환 
    scaler = MinMaxScaler()
    scaler.fit(train) # fit 함수를 이용해  scaler 학습
    train_scale = scaler.transform(train)# "scaler"를 통해 train의 수치들을 변환 시키고 train_scale에 저장 해 주세요.
    # Sclaer 를 통해 변환된 데이터의 VIF 확인
    new_train_df =  pd.DataFrame(train_scale)
    new_train_df.columns = train.columns
    vif = pd.DataFrame()
    vif["VIF Factor"] = [variance_inflation_factor(new_train_df.values, i) for i in range(new_train_df.shape[1])]
    vif["features"] = new_train_df.columns 
    print(vif)
    ```
- 변수 제거 (데이터프레임.drop(['삭제하고자 하는 변수'], axis = 1))
    - 변수의 VIF 계수가 10인 변수를 제거하는 방법

- PCA (차원 축소 중 하나의 방법)
    - 차원 축소
        * 개념 : 많은 피쳐로 구성된 다차원 데이터셋의 차원을 축소해 새로운 차원의 데이터셋을 생성하는 것
        * 차원 ⬆️ -> 데이터 포인트 간의 거리 ⬆️ -> 희소(sparse)한 구조
        * **피처 ⬆️ = 차원 ⬇️ = 예측 신뢰도 ⬇️ ↔️ 피처 ⬆️ = 개별 피처간 상관도 ⬆️**
        * 입력 변수간 상관관계 ⬆️ -> 다중 공선성 ⬆️ -> 모델의 예측 성능 ⬇️
        * 차원축소의 장점
            * 피처 ⬆️ -> 시각화를 통한 데이터 특성 파악 불가능 -> **차원 축소를 통해 시각적으로 데이터를 압축해 표현**
            * **학습데이터가 줄어들어 학습에 필요한 처리 능력 향상**
        * feature selection과 feature extraction으로 나눌 수 있음
            1. feature selection : 특정 피처에 종속성이 강한 불필요한 피처는 아예 제거하고, 데이터의 특징을 잘 나타내는 주요 피처만 선택하는 것
            2. feature extraction 
                - 기존 피처를 저차원의 주요 피처로 압축해서 추출하는 것으로, 새롭게 추출된 주요 피처는 기존 피처의 압축본으로 전혀 다른 값이 됨
                - 기존 피처를 단순 압축이 아닌, 함축적으로 더 잘 설명할 수 있는 또 다른 공간으로 매핑해 추출하는 것
    - PCA
        * 여러 변수 간에 존재하는 상관관계를 이용해 이를 대표하는 주성분을 추출해 차원을 축소하는 기법
        * 기존 데이터의 정보 유실 최소화를 위하여, 가장 높은 분산을 가지는 데이터 축을 찾아 해당 축으로 차원을 축소
        * **많은 속성으로 구성된 원본 데이터를 그 핵심을 구성하는 데이터로 압축한 것**
        * 프로세스
            1. 데이터 변동성이 가장 큰 방향으로 새로운 축 생성 : 첫번째 벡터 축 생성
            2. 새로운 축으로 데이터 투영 : 첫번째 벡터 축에 직각이되는 직교 벡터
            3. 새로운 기준으로 데이터 표현 : 두번째 축과 직각이 되는 벡터 생성 후, 원본 데이터를 투영하면 벡터 축 개수만큼 차원으로 데이터가 차원축소됨
        * 코드 예시
            - 
            ```
            pca = PCA(n_components=2)  # n_comonents = 축소하고자 하는 차원 갯수
            pca.fit(df_scaler) #스케일링된 데이터 학습
            df_pca = pca.transform(df_scaler) #차원 축소
            ```
- 파생 변수 생성
    - 연속형 변수 -> 범주형 변수 변환
        1. 직접 수치 범위 구간을 직접 지정해 레이블링 하기.
            ```
            def func(x):
                if x < 3:
                    return 'lowest'
                elif x < 3.3:
                    return 'low'
                elif x < 3.5:
                    return 'normal'
                else :
                    return'high' 
            train['pH'] = train['pH'].apply(lambda x : func(x))
            ```
        2. 판다스의 cut() 함수로 레이블링 하기 
            - `train['변수명'] = pd.cut(train['변수명'], 나눌 범주의 갯수(정수형), labels = False)`
    - Polynomial Features 라이브러리
        - sklearn에 내장되어있는 라이브러리로서, 현재 데이터를 다항식 형태로 변환시킬 수 있음

            

    



In [5]:
# 임의 데이터 생성
import numpy as np
import pandas as pd
from sklearn.preprocessing import PolynomialFeatures

X = np.arange(6).reshape(3, 2)
df =  pd.DataFrame(X)
df.columns = ['x_1','x_2']
poly_features = PolynomialFeatures(degree=2) # 차원은 2로 설정
df_poly = poly_features.fit_transform(df) # fit_transform 메소드를 통해 데이터 변환
df_poly = pd.DataFrame(df_poly) # PolynomialFeatures로 변환 된 데이터를 데이터 프레임 형태로 변환
df_poly.columns = ['1','x1','x2','x1^2','x1*x2','x2^2'] # df_poly의 컬럼을 1,x1,x2,x1^2,x1*x2,x2^2 로 변경
df_poly

Unnamed: 0,1,x1,x2,x1^2,x1*x2,x2^2
0,1.0,0.0,1.0,0.0,0.0,1.0
1,1.0,2.0,3.0,4.0,6.0,9.0
2,1.0,4.0,5.0,16.0,20.0,25.0
