# 머신러닝과 모델링

## 1. 머신러닝
- 인공지능의 한 분야로, 모델을 학습해 데이터를 예측하거나 결정할 수 있도록 하는 기술
- 패턴 발견, 새로운 예측을 가능하게 함.


**머신러닝의 종류**
1. 지도학습: 정답 O, 예측값을 정답과 맞게, 회귀, 분류
- 지도 학습은 정답이 주어진 상태

  (1) labeled data: 독립변수와 종속변수가 모두 존재

  (2) labeled data 를 training set과 test set으로 나눔

  (3) training으로 학습해서 예측한 게 종속이랑 가까워지게


2. 비지도학습: 정답 X, 패턴, 유사도 학습, 군집화
- 정답이 주어지지 않은 상태
- 데이터의 특성을 학습하여 스스로 패턴을 파악하는 것
> 참고: 군집화: 비슷한 데이터를 묶어 큰 단위로 만들기
3. 강화학습: 시행착오로 정답, 알파고

**회귀와 분류**
- 회귀: 연속적인 숫자값을 예측
  - 주택 가격 예측
  - 음식 배달 시간 예측(연속형)
- 분류: 입력된 데이터를 주어진 항목들로 나누기. 패턴을 학습하여 판별함.
  - 대출상환여부 예측
  - 이메일 스팸인지
  - 종양 악성/양성
  - 당뇨병 여부 예측(범주형)

> 차이점:
회귀는 연속형, 분류는 범주형 변수
- 종속변수가 연속형/범주형인지에 따라 회귀/분류

# 회귀와 모델링
## 1. 회귀란?
- 패턴을 찾아 미래 값을 예측하는 것

## 2. 회귀의 종류
- 선형회귀, 비선형 회귀,  릿지회귀,  라쏘회귀, 다항회귀 등

## 3. 선형회귀
- 데이터를 가장 잘 설명하는 회귀선(y=ax+b)을 찾는 과정
- 현재 데이터 요약 + 미래 값 예측!!!
- 예측하고자 하는 것: 종속 변수(y), 예측을 위해 사용하는 것: 독립 변수(x)

### 선형회귀 종류
1. 단순 선형 회귀: 직선 형태(독립 변수 1)로 표현
2. 다중 선형 회귀: 데이터를 두 개 이상의 독립 변수로 표현

### (1) 단순선형회귀분석
- 하나의 독립변수만 존재
- 직선 y=ax+b을 찾는 과정
- 즉, 적절한 회귀계수(a)와 절편(b)를 찾는 과정

(참고)
- 오차: (실제값 - 실제 평균값) 간 차이
- 잔차: (실제값 - 예측값) 간 차이
> 회귀는 잔차를 줄여나가는 과정


**최소제곱법**: 잔차 제곱의 합(Sum of Squared Residuals, RSS)이 최소가 되는 지점을 찾는다.
- 제곱하는 이유는?
  - 오차 상쇄 방지 
  - 큰 오차에 더 큰 벌
  - 미분 가능한 형태가 되도록(경사하강법)
- 함수가 복잡한 경우에는 경사하강법 사용
  - 함수가 닫힌 상태
  - 함수가 복잡해 미분 계수 구하기 어려울 때
  - gradient descent를 구현하는 게 더 쉬울 때
  - 데이터 양 많을 때

## **경사하강법**
- y = ax + b에서 a와 b를 찾으려고
- 잔차제곱을 줄이려고
- 계산 과정이 복잡할 때

1. 목적함수
- 최적화 위해 오차 최소화
- 최적화하려는 대상을 수학적으로 표현한 함수
- 모델의 예측이 얼마나 잘 맞는지 그 기준이다.

2. 손실함수
- 개별 데이터 오차 측정 함수
- 모델이 얼마나 틀렸는지를 평가
- 예측값과 실제값 차이를 계산
- 회귀 분석: 평균제곱오차(MSE), 평균절대오차(MAE)
- 분류 문제: 교차 엔트로피

3. 비용함수
- 전체 데이터의 평균적인 손실 측정 함수
- 손실함수를 모든 데이터에 계산한 후 평균내거나 더한 거
- 비용함수 최적화 중요함
- 비용함수 최적화가 목표라면 비용함수=목적함수

### 1. **손실함수**

![image.png](attachment:image.png)

- $t_i$ : $i$번째 데이터포인트 실제값
- $y_i$ : $i$번째 예측값


![image-2.png](attachment:image-2.png)
- y 식을 대입하면 이런데 여기서 E를 최소화하는 W랑 b를 찾아야 함

- W로 x축 구성했을 때

![image-3.png](attachment:image-3.png)
- E값이 그래프에서 최솟값으로 가게 만들어야 한다. 
- 미분계수가 양수일 때, W는 감소 헤야함. 반복 업데이트하기!
- 최솟값에 도달하면 미분값이 0이 되어서 멈춤.
- 반대의 경우도 마찬가지.
- b도 이렇게 찾을 수 있다.

> 최솟값의 왼쪽: 현재-음수가 되어 오른쪽으로 점이 이동
> 최솟값의 오른쪽: 현재-양수가 되어 왼쪽으로 점이 이동
> 최솟값: 미분값이 0이 되어 그대로 멈춤
- 가장 가파른 길을 따라 내려간다고 생각하면 이해하기 쉽다.


### **2. 학습률(α: learning rate)**

- 미분값만 뺀다고 최솟값에 도달하진 않음. 멀어지는 경우가 생길 수 있다.
![image.png](attachment:image.png)
- 이동하는 정도를 learning rate라 한다. 적당한 게 좋다.
  - 작으면 모델이 수렴할 때까지 너무 오래 걸림
  - 크다면 모델은 수렴하지 못하고 발산함. parameter 부호가 계속 바뀌기 때문
- 학습률은 개발자가 직접 설정한다. 경험적으로 작은 값부터 시작하여 실험을 통해 조정한다. 

### **3. Local Minima 문제**
- 실제로 이동량은 작은 기울기에서 작고, 큰 기울기에서 많이 큼.
- 비용함수가 매끈한 곡선이 아니기 때문에 Local Minima, Global Minima가 존재할 수 있음 ㅠ
![image.png](attachment:image.png)
- 이런 상황에서는 local에서 나오기 힘들 수 있음.
  - MSE, RMSE이는 볼록함수라는 게 증명되어 이 경우를 고려하지 않아도 됨.
- 딥러닝: 비용함수를 정확히 예측할 수 없어 local minima에 빠질 수 있음.
- 탈출하는 여러 알고리즘 존재

![local minima에 갇혔다 … ](attachment:image-2.png)

### **4. 해결법-모멘텀**
- 기존 경사하강법: 이전 기울기 다 까먹음. 현재 기울기만 기준임.
> 이전의 기울기, 방향을 고려하게 하자!

![image.png](attachment:image.png)
- 맨 오른쪽 공은 관성으로 저길 넘어갈 수 있다.
- 빨간색 화살표: 경사하강법 방향
- 모멘텀 화살표: 이전 단계의 이동을 반영한 모멘텀 방향(관성 부여)
- 파란색 화살표: 실제 이동 방향
- 관성을 부여해서 로컬 탈출할 수 있다.

## **다중선형회귀분석**
- 독립 변수가 2개 이상인 선형회귀 -> 회귀선이 평면이다.
- 최소제곱법, 경사하강법 이용 가능

### **1. 다중공선성**
- 변수끼리 겹침.
- 회귀에서 독립 변수들 간 상관관계가 큰 경우 발생. 
- 어떤 독립 변수가 얼마나 영향을 미치는지를 구분하기 어려워서 정확도가 낮아짐.

**다중공선성 확인 방법**
1. 상관계수: -1~1, 히트맵이다 CORR() 함수로 확인 가능
- pairplot 시각화로 산점도를 찍어 확인하기
2. VIF지수 (분산 팽창 인수)
- 결정계수 사용하여 계산됨. 높으면 다중공선성 존재.
- 10 넘으면 일반적으로 심각한 거다.

**다중공선성 대처 방법**
1. 변수 제거 및 선택
2. 변수 변환: 새로운 변수 생성
3. 규제 선형 모델 활용: 모델의 복잡도 줄이기(릿지, 라쏘, 엘라스틱넷 등)
4. 주성분분석: 정보 최대한 보존하면서 데이터 차원 축소
  - 데이터 전처리 -> 주성분 찾기 -> 차원 축소 -> 복원 가능(선택)

## 규제선형모델
- 과적합 모델은 학습 데이터에는 완벽하지만, 새로운 데이터에서는 성능이 안 좋음.
- 과적합되지 않게 규제하자 -> 규제선형모델: 계수의 크기를 조정하기
- 기존에는 RSS를 최소화하게 설계했더니 회귀계수가 쉽게 커져(특정 톡립변수에 과하게 의존하는 것) 과적합이 생김.

> 최소제곱법과 회귀계수가 커지지 않도록 하는 방법이 균형을 유지해야 함.

참고) 
![image.png](attachment:image.png)
- 알파: 계수 크기 제어 파라미터 
  - 커지면 규제가 세져 과소적합 유도
  - 작으면 과대적합 가능성 커짐.
- 규제 = 알파값으로 패널티 부여해 과적합 개선

**규제선형모델 종류**
1. L2규제: W 제곱에 페널티 부여 -> **릿지(Ridge)회귀**
2. L1규제: W 절댓값에 페널티 부여 -> **라쏘(Lasso) 회귀**
3. L2규제 + L1규제 결합: **엘라스틱넷(Elastic Net) 회귀**

### **릿지 회귀(L2 규제)**
- 계수 크기에 따라 다른 힘으로 규제
  - 크면 세게, 작으면 살살.
- W 제곱에 패널티를 주기 때문에 클수록 강한 패널티.
- 계수 크기가 전체적으로 작아짐. 변수 제거 X.
> 변수 유지 + 크기 줄이기
- 예측변수 많을 때
- 다중공선성 있을 때

### **라쏘 회귀(L1 규제)**
- 모든 계수를 같은 힘으로 규제
- 작은 계수는 사라질 수 있음.
- W 절댓값이 패널티기 때문에 모두 같은 패널티
> 작은 계수는 사라지고 중요 변수만 남음.
- 예측변수 많은데 그 중 일부만 중요할 때
- 모델 해석을 간단하게 유지하고 싶을 때

### **엘라스틱넷(L1 + L2)**
- L1: 작은 변수 제거 -> 상관관계가 높은 변수 중 일부만 선택하는 경향
- L2: 남은 변수의 균형 조절 -> 상관관계 높은 변수도 함께 고려
> 불필요한 변수 제거 + 밸런스 조정 -> 안정성
- 예측 변수가 많고, 그 중 중요한 걸 선택하면서 다중공선성을 관리할 때

## **모델평가방법**

### **성능 평가 지표**

**1. 평균 제곱 오차, MSE**
- 모델의 예측값과 실제 관측값의 오차 제곱 평균
- 모델 예측 성능 평가 지표
- 이상치에 민감

**2. 평균 절대 오차, MAE**
- 모델의 예측값과 실제 관측값의 절대값 오차 평균
- 모델 예측 성능 평가 지표
- 이상치에 덜 민감

### **변수 유의성 평가**

**1. t 검정**
- 독립 변수의 회귀계수가 유의미한지 검정
- H0: 독립변수가 종속변수에 영향 안 준다.
- H1: 독립변수가 종속변수에 영향 준다.

**1) t 계산**
$$
t = \frac{\hat{\beta} - 0}{SE(\hat{\beta})}
$$

- $\hat{\beta}$ : 추정된 회귀계수
- $SE(\hat{\beta})$ : 표준오차
- t-분포를 따름.

**2) p value 확인 및 판단**
- 0.05보다 작으면 유의수준 5%에서 H0 기각 -> 유의미
- 아니면 H0 기각 불가 -> 유의미 X

**3) 해석**
- 회귀계수 0: 이 독립변수 의미 없음.
- p-value가 작을수록 종속 변수에 더 큰 영향 확률 커짐.
- t가 크면 귀무가설 기각할 확률 높아짐.

> **t-검정으로 독립변수가 종속 수에 유의미한 영향을 주는지 판단할 수 있다!**