# <span style="background-color: #FAFAD8">AI & 기계학습 방법론 1<span>
##### 선형회귀(Linear Regression)
> CONTENTS
1. 선형회귀: 입력과 출력의 선형 관계를 찾는 방법
2. 단순선형회귀: 하나의 입력 변수로 출력 예측하기
3. 다중선형회귀: 여러 입력 변수를 활용한 예측
4. 선형회귀 주의사항: 변수 상관(다중공선성), 상관과 인과 구분

<br>

> 학습 목표
- 선형회귀의 핵심 개념 이해: 입력-출력의 선형 관계, 단순선형회귀 이해
- 모델 적합: 잔차제곱합(RSS)과 최소 제공 이해
- 다중선형회귀로 확장한 학습 방법 이해

## 0. 학습 시작(Overview)
> 실제 응용 사례
- 광고비와 매출 관계 분석
- 고객 소득·소비 패턴을 활용한 신용점수 산출

![img](./img/l1.png)

## 1. 선형 회귀
### 1-1. 선형회귀(Linear Regression)
> 선형회귀란?
- 입력 변수와 출력 변수 사이의 관계를 직선 형태로 근사하여, 예측하는 통계적 방법이다.
- 지도학습의 가장 기초가 되는 접근 중 하나이다.
- 단순해 보이지만, 선형회귀는 개념적으로도, 실무적으로도 매우 유용하다.

### 1-2. 광고 데이터 예시
> 선형회귀를 통해 대답할 수 있는 질문들
- 광고비와 매출 사이에 관계가 있는가?
- 그 관계의 강도는 어느 정도인가?
- 어떤 매체가 매출에 기여하는가??
- 미래 매출을 얼마나 정확히 예측할 수 있는가?
- 매체 간에 상호작용(시너지)가 있는가?

![img](./img/l2.png)

## 2. 단순선형회귀(Simple Linear Regression)
### 2-2. 단순선형회귀: 단일 설명변수를 이용한 선형회귀
> 단순선형회귀(simple linear regression)란?
- 한 개의 설명변수(X)와 하나의 반응변수(Y) 사이의 선형(직선) 관계를 찾는 방법
- 목표: 데이터를 가장 잘 설명하는 직선을 찾아 예측($\hat y$)에 활용

- 단일 설명변수를 이용한 단순선형회귀
    - 모형 가정: $Y = {\beta}_0 + {\beta}_{1}X - \varepsilon$
        - ${\beta}_0$: 절편(X=0일 때 Y값)
        - ${\beta}_1$: 기울기(X가 1 단위 증가할 때 Y의 평균 증가량)
        - $\varepsilon$: 관측 오차
    - hat(예, ${\hat y}, {\hat \beta}$) 표기는 추정값을 의미

![image](./img/l3.png)

### 2-2. 최소제곱법(least squares)
> 최소제곱법(least squares)이란?
- 실제 관측값과 예측값의 차이(잔차, residual)를 제곱해 합한 값(RSS, 잔차제곱합)을 최소화하는 방법
- 목표: 데이터를 가장 잘 설명하는 직선을 찾기 위해 계수 ${\beta}_0, {\beta}_1$을 추정

- 잔차(residual)의 정의: $e_i = y_i - \hat y_i$ (예측값 $\hat y_i = \hat \beta _0 + \hat \beta _1 x_i$)
- RSS(잔차제곱합) 정의: RSS=$e_1^2 + e_2^2 + ... + e_n^2$
- 다른 표현 $RSS=\sum_{i=1}^n e_i^2 = \sum_{i=1}^n (y_i - \hat y_i)^2 = \sum_{i=1}^n (y_i - \hat \beta _0 - \hat \beta _1 x_i)^2$

- 계수를 측정하기 위한 공식: closed-form solution(공식으로 바로 계산할 수 있는 해) 존재함
    <br> 기울기   $\hat \beta _1 = \frac {\sum ^n _{i=1}(x_i - \bar x)(y_i-\bar y)}{\sum ^n_{i=1}(x_i-\bar x)^2}$
    <br> 절편   $\hat \beta _0 = \bar y - \hat \beta _1 \bar x$
    <br> 참고: $\bar y = \frac{1}{n} \sum _i y_i$,  $\bar x = \frac {1}{n} \sum _i x_i$

### 2-3. 단순선형회귀: 광고 데이터
> 사례 설명
- 목표: TV 광고비(X)과 제품 판매량(Y)의 선형 관계 예측
- 단순선형회귀를 적용하여, 각 데이터에서 잔차제곱을 가장 작게 만드는 직선(최소제곱법)이 선택됨
- 도형의 의미
    - <span style='color: #3399FF'>파란 직선</span>:  최소제곱법으로 계산한 회귀선
    - <span style="color: #FF6666">빨간 점</span>: 실제 관측 데이터
    - <span style="color: #999999">회색 세로선</span>(빨간 점에서 파란 선까지): 잔차(residual)
    - RSS(잔차제곱합)를 최소화할 때, 최적의 $\hat \beta _0, \hat \beta _1$이 결정됨
- 수식
<br> 기울기 $\hat \beta _1 =\frac {\sum ^n _{i=1}(x_i - \bar x)(y_i-\bar y)}{\sum ^n_{i=1}(x_i-\bar x)^2}$
<br> 절편 $\hat \beta _0 = \bar y - \hat \beta _1 \bar x$

![image](./img/l4.png)

> 단순선형회귀 결과 해석(광고 데이터)
- 계수 해석
    - 절편(Intercept) = 7.03 → TV 광고비가 0이어도 기본적으로 평균 판매량은 7.03백만원
    - TV 광고비 계수 = 0.0475 → TV 광고비를 1단워(1백만원) 늘리면 평균 매출이 약 0.0475x1단위(1백만원) = 4.72만원 증가

![image](./img/l5.png)

- 유의성 검정
    - 계수의 p-value < 0.0001 (매우 작음, << 0.05)이므로 통계적으로 매우 유의함 → <span style="color: #3399FF">TV 광고비와 매출 간 관계 존재</span>
    - 모형 적합도($R^2$이 높을수록, 1에 가까울수록 좋음)
        - $R^2$=0.612 → 판매량 변동의 약 61%를 광고비로 설명 가능

    ![image](./img/l6.png)

## 3. 다중선형회귀(Multiple Linear Regression)
### 3-1. 다중선형회귀(multiple linear regression)란?
> 단순선형회귀와 다중선형회귀
- 단순 선형 회귀: "TV 광고 → 매출" 한 가지 관계만 고려
- 다중 선형 회귀: "TV 광고, Radio 광고비, 가격, 계절, 경쟁사" 등 복수 요인을 함께 고려하여 매출을 설명

![image](./img/l7.png)

> 다중선형회귀의 개념
- 독립 변수(설명 변수, Feature)가 여러 개 존재할 때 사용하는 회귀 분석 기법
- 단순 선형 회귀는 하나의 변수만 고려하지만, 다중 선형 회귀는 여러 독립변수($X_1, X_2, ...$)를 동시에 고려하여, 종속 변수(Y)와의 관계를 구함
<br>$Y = \beta _0 + \beta _1 X_1 + \beta _2 X_2 + ... + \beta _p X_p + \varepsilon$

> 각 변수의 의미
- Y: 종속 변수(예측 대상, 예: 매출)
- $X_1, X_2, X_3, ..., X_p$: p개의 독립 변수들(예: 광고비, 가격, 계절 등)
- $\beta _0$: 절편
- $\beta _1, \beta _2, \beta _3, ..., \beta _p$: 각 독립 변수에 대한 회귀 계수(모수) <span style="color: #3399FF">(변수의 영향력 크기와 방향을 나타냄)</span>
- $\varepsilon$: 관측 오차(모델이 설명하지 못하는 부분, 오류/잔차가 아님!)
    - 해석: 다른 변수를 고정한 채 $X _j$가 1 단위 증가할 때 Y가 평균적으로 $\beta _j$만큼 변화
    - 광고 데이터 예: sales = $\beta _0$ + $\beta _1$ TV + $\beta _2$ radio +  $\beta _3$ newspaper

### 3-2. 다중선형회귀의 추정과 예측
> 다중선형회귀: 계수 추정과 예측
- 여러 변수($x_{i1}, x_{i2}, ..., x_{ip}$)로 반응변수 Y를 동시에 예측하는 모형
- 예측값: $\hat y_i = \hat \beta _0 + \hat \beta _1 x_{i1} + \hat \beta _2 x_{i2} + ... + \hat \beta _p x_{ip}$ 가  최적 추정치
- 추정 방법: 실제 값과 예측 값의 차이(잔차, $e_i = y_i - \hat y_i$)를 제곱해 합한 값(RSS)를 최소화
- RSS가 최소일 때 얻어지는 계수 $\hat \beta _0, \hat \beta _1, ..., \hat \beta _p$ 가 최적 추정치
<br> $RSS = \sum \limits ^n_{i=1} e^2_i = \sum \limits ^n_{i=1} (y_i - \hat y_i)^2 = \sum \limits ^n_{i=1} (y_i - \hat \beta _0 - \hat \beta _1 x_{i1} - ... - \hat \beta _p x_{ip})^2$
<br>
<br> <span style='color: #3399FF'>여러 입력 변수를 동시에 고려하여 데이터와 가장 가까운 평면(hyperplane)을 찾는 과정</span>

### 3-3.다중선형회귀 계수 추정 유도(행렬 표현)
> 다중선형회귀: 계수 추정의 수학적 유도
- 행렬 표현

![image](./img/l8.png)

- 최소제곱법 목적: RSS 최소화

![image](./img/l9.png)

-  정규방정식 해

![image](./img/l10.png)

### 3-4. 다중선형회귀 결과: 시각화
![image](./img/l11.png)

### 3-5. 다중선형회귀 결과: 광고 데이터
> 다중선형회귀 결과 해석 (광고 데이터)
- TV, 라디오 광고비는 매출 증가에 유의미한 관계를 가짐(각 p-value들이 매우 낮음 << 0.05)
- 신문 광고비는 통계적으로 유의하지 않음(p-value = 0.8599 > 0.05) → 매출과 관계가 거의 없음

![image](./img/l12.png)

- 모형 적합도($R^2$ 가 높을수록, 1에 가까울수록 좋음)
- 결정계수 $R^2$ = 0.897: 모델 설명력이 매우 높음 → 단순선형회귀 결과와 비교하였을 때 향상된 예측

![image](./img/l13.png)

## 4. 선형회귀 주의사항
### 4-1. 검증/테스트셋 데이터를 활용한 성능 평가
> 선형회귀 결과 검증 및 테스트 성능
- 훈련 데이터에서의 성능
    - 회귀식을 만들 때 최소제곱 해는 훈련 데이터만 보고 계산됨
    - 학습에 사용된 훈련 데이터에서는(X와 Y의 평균적인 선형관계가 있다면) 적합(fitting)이 잘 되어있을 것임
    - 그러나 이것은 테스트 성능을 과소평가할 가능성이 높음
- 테스트 성능 평가 필요
    - 선형회귀도 변일반화 성능을 확인하려면 훈련에 사용되지 않은 새로운(테스트) 데이터에 적용해봐야 함
    - 수가 많거나 고차항을 사용하면 <b>과적합(overfitting) 문제</b>가 여전히 발생할 수 있음
    - 검증/교차검증을 통해서 적절한 적합을 찾을 수 있음
> 선형회귀를 통해 대답할 수 있는 질문들
- 이상적 상황: 변수들이 연관(correlation)되지 않고, 독립적일 때 → 계수 해석이 명확함
- 문제 상황: 변수들이 서로 연관되어 있다면 → 계수 추정이 불안정해지고 해석에 혼동이 발생할 수 있음
- 주의: 관찰 데이터의 상관관계로 인과 관계를 주장해서는 안됨
    - 예로 들었던, 광고 데이터는 자연스럽게 인과성이 있는 것처럼 보이지만, 다른 많은 데이터에서 선형 관계를 보인다고 하여 인과 관계가 있는 것이 아님
    - 예: "아이스크림 소비량"(X) vs "상어에 물리는 사건"(Y)

### 강의 정리
> 선형회귀 개요
- 지도학습의 가장 기초적인 방법
- 입력과 출력의 선형 관계를 학습

> 단순선형회귀
- 모형; $Y = \beta _0 + \beta _1 X + \varepsilon$
- 의미: $\beta _0$ : 절편, $\beta _1$: 기울기, $\varepsilon$ : 측정오차
- 학습 방법: 최소제곱법 (RSS 최소화)
- 사례: TV 광고비와 매출 관계

> 다중선형회귀
- 모형: $Y = \beta _0 + \beta _1 X_1 + \beta _2 X_2 + ... + \beta _p X_p + \varepsilon$
- 해석: 다른 변수 고정 시, 특정 $X_j$ 가 1 증가 →  Y는 평균적으로 $\beta _j$ 변화
- 사례: TV + Radio + Newspaper 광고비와 매출

> 계수 추정과 예측
- RSS 최소화를 통해 계수 추정
- 해: 최소제곱 → 정규방정식 사용
- 결과는 평면(hyperplane)으로 표현

> 선형회귀 주의사항
- 훈련 데이터 기반 계산 → 검증/테스트셋 필요
- 다중공선성 문제 발생 가능(변수 간 높은 상관성)
    - 계수 해석 어려움
    - 분산 증사 → 불안정한 추정

### 확인 문제

![image](./img/l14.png)

![image](./img/l15.png)

# <span style="background-color: #FAFAD8">AI & 기계학습 방법론 1<span>
##### 로지스틱회귀(Logistic Regression)
> CONTENTS
1. 분류(Classification)
    1. 분류란?
    2. 예시: 신용카드 연체(Default)
    3. 분류 모델에서 선형 회귀의 한계
2. 로지스틱 회귀(Logistic Regression)
    1. 로지스틱(Logistic) 회귀의 모형식
    2. MLe 활용 모수 추정
    3. 로지스틱 회귀 결과: 신용카드 연체 데이터
<br>

> 학습 목표
- 분류 모델에서 로지스틱 회귀를 사용하는 이유를 이해합니다.
- 로지스틱 회귀 모형을 이해합니다.
- 신용카드 연체의 예시를 통해 분류 모델을 적용해봅니다.

# 0. 학습 시작(Overview)
> 분류란 무엇인가?
- 분류 모델의 정의, 분류 모델의 목표

> 로지스틱 회귀(Logistic Regression)은 어떻게 작동할까?
- 로지스틱 회귀의 모형식, MLE(maximum Likelihood Estimation)

## 1. 분류(Classification)
### 1-1. 분류(Classification)란?
> 분류의 정의
- 분류: 정해진 범주(카테고리) 중 하나로 지정하는 것
- 범주형 변수: 수치의 크고 작음이 아니라 유한한 범주(성별, 혈액형, 지역 등)로 표현하는 변수
    - 예: 눈동자 색{black, brown, blue, green}, 이메일 종류 {spam, normal}

> 분류 함수의 목표
- 입력($X$, 특성 벡터): 눈동자 이미지, 이메일 내용/제목
- 출력($Y \in C$, 범주):
    - 예, 눈동자 색 C = {black, brown, blue, green}, 이메일 C = {spam, normal}, 순서 없는 집합
- 분류 함수의 목표
    - 분류 함수 $f(X)$를 학습하여 입력 $X$ 가 속할 범주(카테고리)를 예측
    - 범주의 직접 예측보다 각 범주에 속할 확률 P(Y = k|X)를 추정하는 것이 더 유용할 때가 많음

### 1-2. 예시: 신용카드 연체(Default)
> 신용카드 사용량 및 소득에 대한 연체 여부 산점도
- 신용카드 사용량(Balance)-소득(Income) 산점도에 연체(Default) 여부를 색상(주황색 vs 파란색) 및 부호(+  vs O)로 구분
- 신용카드 사용량과 소득은 각각 독립변수, 연체 여부가 종속변수

> 신용카드 사용량-소득 산점도 해석
- <span style="color: orange">연체자(주황색 +)</span>는 신용카드 사용량이 높은 구간에 집중적으로 분포
- <span style="color: skyblue">연체가 없는 사람(파란색 O)</span>은 신용카드 사용량이 낮은 쪽에 주로 분포
- 소득은 연체 여부와 뚜렷한 상관이 보이지 않음

![image](./img/l16.png)

> 그룹별 분포(Boxplot)
- 신용카드 사용량(Balance), 소득(Income)에 대해 연체(Default)의 그룹별 분포(Boxplot)
- 신용카드 사용량과 같은 소득은 각각 독립변수, 연체 여부가 종속변수

> 그룹별 분포 해석
- 신용카드 사용량(Balance) vs 연체(Default)
    - <span style="color: orange">연체자</span>의 신용카드 사용량이 <span style="color: skyblue">연체하지 않은 사람</span>보다 전반적으로 높음
    - 중앙값도 높고, 분포가 퍼져있는 정도도 더 큼
- 소득(Income) vs 연체(Default)
    - 연체 여부에 따른 소득 차이는 거의 없음
    - 중앙값이 약간 다르지만 분포가 대부분 겹침

![image](./img/l17.png)

### 1-3. 분류 문제에 선형회귀를 써도될까?
> 선형회귀는 분류 문제에 사용하기에 부적절함: 이진 분류 문제
- 선형회귀는 선형함수를 계산하는 문제로 예측 값이 (Y값 기준) 제한된 값을 갖게 못함
- 따라서 선형회귀는 예측 확률이 0보다 작거나 1보다 크게 예측될 수 있어 확률로 쓰기 부적절함
    - 예: 응급실 환자 진단 {0: 비응급, 1: 응급}
    - 선형회귀는 확률 범위(0~1)를 벗어나는 값을 내놓을 수 있어 문제 발생

![image](./img/l18.png)

> 다중 범주 분류 문제
- 선형회귀는 정수형 코딩(1, 2, 3)에 따라 범주 간 순서와 동일한 거리를 가정
- 범주(카테고리) 볒ㄴ수는 순서가 없는 라벨이므로 부적절함
    - 예: 응급실 환자 진단 {1: 뇌졸증, 2: 약물과다복용, 3: 간질발작}
    - 실제로는 범주 간 순서나 거리가 존재하지 않음
- 따라서, 선형회귀는 분류 문제에 부적절함

![image](./img/l19.png)

### 1-4. 분류 문제에서 적합한 모델
> 분류 문제에서 선형회귀의 대안 - 로지스틱 회귀(Logistic Regression)
- 시그모이드(Sigmoid) 함수를 활용해 0~1 범위 내 확률값 예측 보장
- 순서가 없는 범주를 확률로 직접 예측하는 적절한 분류 방법

![image](./img/l20.png)

## 2. 로지스틱회귀 (Logistic Regression)
### 2-1. 로지스틱(Logistic)회귀의 모형식
> 이진 분류에서의 적절한 함수
- 함수의 출력 범위가 모든 입력에 대해 0~1 ㅍ 사이의 범위를 가지는 함수를 활용하자

> 출력 범위가 0~1인 시그모이드(Sigmoid) 함수
- 기울어진 S자 형태의 곡선 함수
    <br>$y = \frac {e^z}{1+e^z}$ = $\frac {1}{1+e^{-z}}$
    <br> (오일러 수 e $\approx$ 2.71828)
- 모든 실수 z에 대한 y값의 범위는 $0 \leq y \leq 1$이다.
    <br> $z → + \infty$일 때, y는 1로 수렴
    <br> $z → - \infty$일 때, y는 0로 수렴

![image](./img/l21.png)

> 로지스틱 회귀(Logistic Regression)의 모형식
- 시그모이드(Sigmoid) 함수 $y = \frac{e^z}{1+e^z}$ 의 z에 (Linear Regression) 식 z = $\beta -0 + \beta _1 x$ 식을 대입하면, $y = \frac{e^{\beta _0 + \beta _1 x}}{1 + e^{\beta _0 + \beta _1 x}}$

- 확률 표기 $p(x)$를 활용한다면, 로지스틱 회귀의 모형식이 된다.
![image](./img/l22.png)
![image](./img/l23.png)

### 2-2. 로지스틱 회귀 모형 vs 선형 모형
> 로지스틱 함수와 선형회귀의 관계
- 로지스틱 함수