# 회귀 심화

## 경사하강법

### 경사하강법

1. 원리
    - 최소값에 도달 : 기울기(미분 값)가 0이 되는 시점에 변화를 멈추고 최소값에 도달
2. 학습률
    - 미분 값 : 오직 방향만 결정, 얼마나 움직일지를 정해주지 않으면 오히려 최소값에서 멀어질 수 있음
    - 학습률 : 얼마나 움직일지, 즉 오차의 최소값을 찾기 위해 결정해야하는 것

### 경사하강법의 문제점

1. Local Minima
    - 모든 cost function이 하나의 최소값을 가지는 형태가 아님
    - Global Minima가 아닌 Local Minima에 빠지는 경우 문제가 될 수 있음
2. Step Size를 잘못 설정
    - 학습률이 너무 큰 경우 : 최적값에 수렴하지 못하고 발산
    - 학습률이 너무 낮은 경우 : 발산하지 않는 대신, 최적값에 수렴하는 시간 오래 소요

### 해결책

1.  Adaptive Gradient Descent : 학습 도중에 학습률을 지속적으로 바꿔줌
2. 모멘텀 : 기울기에 관성을 부여하여, Local Minima를 탈출할 수 있도록 함

## 규제선형모델

### 개요

1. 등장 배경
    - 모델이 훈련셋에 과적합되지 않도록 '규제'
2. 규제 방식
    - L1 규제 : W의 절대값에 페널티 부여 (Lasso 회귀)
    - L2 규제 : W의 제곱에 페널티 부여 (Ridge 회귀)
    - L1+L2 규제 : (Elastic Net 회귀)

### 규제선형모델의 종류

1. 릿지 회귀
    - 계수를 제곱한 기준으로 규제 적용 (L2)
    - alpha 값 커질수록 과소적합 유도 / 작아질수록 과대적합 가능성
2. 라쏘 회귀
    - 계수의 절대값 기준으로 규제를 적용 (L1)
    - 라쏘는 회귀 계수를 0으로 만들기 가능, 따라서 유용한 feature를 선택할 수 있음
3. 엘라스틱넷 회귀
    - 배경 : alpha 값에 따라 회귀계수 값이 급변하는 단점을 완화하기 위해 L2규제를 라쏘 회귀에 추가
    - 단점 : 시간이 상대적으로 오래 걸림
    - 파라미터 : a는 L1규제의 alpha값, b는 L2규제의 alpha값일 때, 엘라스틱넷의 alpha파라미터 값은 a+b

### 편향과 분산

- trade-off 관계

## Scaling

### 의미

- 데이터 전처리 과정, 모든 feature들의 데이터 분포, 범위를 동일하게 조정
    - 표준화 : 입력된 값들의 정규 분포를 평균 0, 분산 1인 표준 정규분포로 변환
    - 정규화 : 입력된 x값들을 모두 0~1 사이 값으로 변환

### 주의사항

1. 테스트 데이터에는 fit() 함수를 적용하지 말 것 
    - 테스트 데이터로 새로운 스케일링 기준을 만들면, 학습 데이터와 테스트 데이터의 스케일링 기준 정보가 달라지기 때문
    - 가능하면 전체 데이터에 스케일링을 적용, 이후에 학습/테스트 데이터를 분리
2. 일반적으로 Y (타겟 데이터)에 대한 스케일링은 진행하지 않음

### 스케일링 종류

1. StandardScaler()
    - 피쳐의 평균을 0, 분산을 1로 맞추는 표준화 수행
    - 회귀보다 분류에 유용
2. MinMaxScaler()
    - 피쳐들이 0과 1사이의 값을 갖도록 변환
    - 분류보다 회귀에 유용
3. MaxAbsScaler()
    - 데이터가 -1과 1 사이에 위치하도록 스케일링
4. RobustScaler()
    - 데이터의 중앙값이 0, IQE (Q3-Q1) =1이 되도록 스케일링
5. Normalizer()
    - 각 행의 크기를 1로 만들어주는 스케일링 (행마다 정규화)
    - 1~4번의 방법은 열 대상 스케일링
    - 텍스트 분류 및 추천 시스템 등의 문제에서 사용

## 차원 축소

### 차원

- 차원 : 수학에서 공간 내 있는 점 등의 위치를 나타내기 위해 필요한 축의 개수
- 매개변수 : 차원에서 사용된 수
- 차원 축소 : 차원 (=변수의 수)를 줄이는 것, 차원이 크면 시각화 및 분석이 어렵기 때문

### 대표적인 차원 축소 알고리즘

1. PCA (주성분 분석)
    - 목적 : n개의 변수만 사용하여 전체를 설명
    - 고차원 데이터를 기존 분산을 최대한 보존하는 선형 독립의 새로운 변수로 변환
    - 여러 변수 간 상관관계를 이용하여 대표 주성분을 추출

2. LDA (선형 판별 분석)
    - 데이터셋을 저차원 공간에 투영하여 차원을 축소
    - PCA와의 차이 : 입력 데이터의 결정값 클래스를 최대한 분리할 수 있는 축을 찾음
    - 클래스 간 분산은 Maximize, 클래스 내 분산은 Minimize
    
3. SVD (특이값 분해)
    - 정사각행렬이 아닌 m*n 형태의 다양한 행렬을 분해

4. MNF (비음수 행렬 분해)
    - 하나의 객체정보를 음수를 포함하지 않은 두 개의 부분 정보로 인수분해
    - 대량의 정보를 의미 특징과 의미 변수로 나누어 효율적으로 표현

### 차원축소가 필요한 이유

1. 차원의 저주 
    - 차원이 커짐에 따라 공간의 범위가 기하급수적으로 증가해서 많은 표본이 필요해지는 현상
    - 고차원의 데이터 분석은 많은 변수의 저장이 필요하며, 시간을 많이 필요로 함
    
2. 과적합 문제
    - 고차원 문제를 풀다보면 너무 정교해져 일반화 결과를 도출할 수 없는 상황이 올 수 있음
    
3. 분석 및 시각화 용이성
    - 저차원에서 데이터 구조를 분석하는 것이 더 쉬움
    - 같은 이유로, 시각화도 용이