## 머신러닝

$$\begin{array}{c} \text{지도학습} \\ \text{비지도학습} \\ \text{강화학습} \end{array} \; \subset \; \text{Machine Learning} \; \subset \text{AI}$$

- **비지도학습** : 정답이 없는 데이터로 학습하는 방식
	- 회귀, 분류
- **지도학습** : 정답이 있는 데이터로 학습하는 방식
	- 군집화 / 클러스터링
- 강화학습
	- Model Based, Model Free
- **머신러닝** : 새로운 데이터를 예측 / 결정 내릴 수 있도록 하는 기술. 데이터에서 패턴 발견, 이를 바탕으로 새로운 데이터 예측하도록 함.

## 모델링

- 모델링 과정:
	1. 전체 데이터를 훈련 데이터와 테스트 데이터로 분리.
	2. 훈련 데이터로는 모델을 만들고, 테스트 데이터로 이 모델의 성능을 반복 평가.
	3. 최종 모델 생성.

- **훈련 데이터(train_set)** : 모델을 학습(훈련) 시킬 때 쓰이는 데이터
- **테스트 데이터(test_set)** : 학습된 모델 검증 위해 사용하는 데이터

> 왜 데이터를 쪼개는가?
> -> 훈련 데이터로 학습시킨 모델이 새로운 데이터(unseen data)에 대해 얼마나 예측을 잘 수행하는지 공정하게 평가하기 위해 분리. 만약 분리하지 않고, 훈련 데이터를 모델 평가에 사용한다면 모델이 낸 결과가 해당 데이터를 단순 암기한 결과일 수 있으므로 제대로 평가 불가.

## 회귀란 무엇인가

- **회귀(regression)** : 데이터에서 패턴을 찾아내 미래 값 예측하는 것.
	- 통계, 머신러닝의 주요 개념.
	- 연속적인 숫자 다룸 - 집값 예측, 주식 가격 예측
	- 종류 - 선형회귀, 비선형 회귀, 로지스틱 회귀, 릿지 회귀, 라쏘 회귀, 다항 회귀

---

- **선형 회귀** : 데이터를 가장 잘 설명하는 회귀선을 찾아 예측하는 과정.
	- 예측하려는 것을 **종속 변수(y)**, 예측 위해 사용하는 변수를 **독립 변수(x)**.
	- 단순 선형 회귀 : 데이터를 직선 형태(하나의 독립 변수)로 표현하는 경우
	- 다중 선형 회귀 : 데이터를 두 개이상의 독립 변수로 표현하는 경우

> 선형 회귀 기본 가정 : 데이터가 선형 회귀 기법을 사용할 수 있는 지 확인

## 단순선형회귀분석

$$Y = aX + b$$

- 하나의 독립변수만 존재하는 선형 회귀
- 데이터를 가장 잘 설명하는 직선 $Y = aX + b$를 찾는 과정.
	- $a$ : 회귀계수(기울기), $b$ : y절편 -> 적절한 a, b를 찾는 과정

최적의 회귀선을 찾는 방식은 최소 제곱법, 최소자승법이 있다.

- 잔차제곱합(Sum os Squared Residuals, RSS)이 최소가 되는 지점으로 최적의 회귀선 구함.
	- 잔차 : 실제값과 예측값의 차이
- ***회귀선과 실제 데이터와의 차이를 최소화하기 위한 시도**
- 최소 제곱법을 통해 구한 함수가 복잡해 최소값을 구하기 어려움 -> 보통 경사하강법(Gradient descent) 사용

## 다중선형회귀분석

$$y = W_1 x_1 + W_2 x_2 + ... + W_n x_n + b$$

- 독립 변수가 2개 이상인 경우의 선형 회귀
	- 독립 변수가 2개 이상 -> 3차원 공간에 표현. 회귀선은 평면이 됨.
- 단순선형회귀처럼 최소제곱법 사용 가능.
	- 잔차 = 관측치와 평면 간의 차이

### 다중공선성

- **다중공선성** - 회귀 분석에서 독립 변수들 간 상관관계가 큰 경우 발생.
- 높을 경우 *어떤 독립 변수가 종속 변수에 얼마나 영향을 미치는 지* 정확히 구분 어려움 -> 회귀 모델이 어떤 변수의 영향을 반영해야 할 지 불확실해짐 -> 회귀 분석의 정확도 낮아짐.

- 확인 방법
	- 상관계수 - 상관관계의 정도를 수치로 나타낸 것. [-1, 1]의 범위.
		- 히트맵이나 `corr()` 함수를 통해 확인.
		- 또는 pairplot 등으로 산점도 찍어 시각화해서 확인.
	- VIF 지수
		- 분산 팽창 인수. 회귀 모델의 결정계수 R-square 사용해 계산.
		- 높으면 다중공선성이 존재한다고 판단.
			- VIF = 1 : 해당 독립 변수는 다른 변수와 상관관계가 전혀 없음.
			- VIF < 5 : 다중공선성 문제가 없음.
			- VIF > 5 : 다중공선성의 징후 보일 수 있음.
			- VIF > 10 : 다중공선성이 심각하다고 간주됨. 해당 변수를 제거하거나 변수 간 상관관계를 줄이기 위한 조치 필요.

- 대처 방법
	- 변수 제거(변수 선택법) : 독립변수로 사용할 변수 선택
	- 변수 변환 : 변수들을 더하거나 빼서 새로운 변수 생성
		- ex) 남편 수입, 아내 수입이 상관성 높다면 두 개를 더해 가족 수입이라는 한 변수로 투입
	- 규제 선형 모델 활용 : 릿지, 라쏘, 엘라스틱넷 등의 방법으로 모델의 복잡도 줄임
	- PCA(주성분분석) : 데이터의 차원 축소에 사용. 고차원 데이터에서 중요한 정보 최대한 보존하면서 데이터의 복잡성을 줄이려 함.
		- 데이터셋에 영향을 주지 않는 차원을 없앰.

## 모델 평가방법

> 만든 회귀 모델이 좋은 성능을 내는지 / 올바른 모델인지 평가하기.

### 성능 평가 지표

- **평균 제곱 오차(Mean Squared Error, MSE)**
	- 모델의 예측값과 실제 관측값 사이의 **오차 제곱의 평균**.
	- 모델의 예측 성능을 평가하는 지표.

$$\text{MSE} = \frac{1}{n} \sum^n_{i=1} (y_i - \hat{y}_i) ^2$$

- **평균 절대 오차(Mean Absolute Error, MAE)**
	- 모델의 예측값과 실제 관측값 사이의 **절대값 오차의 평균**.
	- 모델의 예측 성능을 평가하는 지표.

$$\text{MAE} = \frac{1}{n} \sum^n_{i=1} |y_i - \hat{y}_i|$$

> **MSE와 MAE의 차이**
> - MSE는 큰 오차에 대해 민감하게 반응(제곱), MAE는 모든 오차를 동일하게 취급.
> - MSE는 이상치에 민감. 반면 MAE는 이상치가 존재하는 경우에도 전반적인 예측 성능 유지 가능.
> - 모델 특성, 데이터 특성, 평가 목적에 따라 선택할 것.

### 설명력 평가 지표

- **결정 계수(R-squared)**
	- 회귀분석에서 모델이 설명하는 데이터의 총 변동(평균과의 차이) 중에서 설명된 비율.
	- -> 모델이 데이터를 얼마나 잘 설명하는지 측정하는 지표, 0과 1 사이의 값.
		- 1에 가까울 수록 SSR과 SST 값이 비슷, SSE는 0에 가까워짐 -> 모델이 데이터를 잘 설명한다고 할 수 있음.

$$R^2 = \frac{SSR}{SST} = 1 - \frac{SSE}{SST}$$

- SST : 총 편차 ($Y_i - \bar{Y}$)
- SSR : 회귀선에 의해 설명되는 편차 ($Y_i - \hat{Y}_i$)
- SSE : 회귀선에 의해 설명되지 않는 편차 ($\hat{Y}_i - \bar{Y}$)

### 변수 유성 평가

t검정:
- 독립변수의 회귀계수가 0이라면 의미 없는 변수일 것 -> 이 계수가 0인지 아닌지를 가지고 가설을 설정.
	- 회귀분석에서의 t검정은 각 독립 변수의 **회귀계수가 유의한지** 검정하는 데 사용.
- 일반적으로 t통계량에 따른 p-value가 0.05보다 작음 -> 해당 변수는 **유의**하다고 판단.
- 유의성이 큼 -> 종속변수에 영향 주는 변수라고 판단.