### 데이터 분석의 목적
1. 현상 파악 - 기술 통계
    - 데이터를 집계하고 요약(파이썬 numpy, pandas, matplotlib, seaborn)
2. 대상에 대한 통찰 - 추론 통계
    - 전체 집단(모집단)에 대해 이해하고 싶지만 시간, 경제적 비용으로 우리는 항상 일부(표본)만 볼 수 있다.
    - 표본을 통해 전체 집단을 `추론`
3. 미래 예측 - 머신러닝 / 딥러닝
    - 특정한 결과값을 예측

___

### 표본을 통해 모집단을 파악하다 - 추론통계

**[ 모집단과 표본 ]**
- 모집단
    - 우리가 알고자 하는 전체 대상

- 표본(sample)
    - 모집단의 일부
    
- 표본 조사의 필요성
    - 무한 모집단 : 유저와 같이 계속 변화하는 대상 <-> 유한 모집단 : 지난달 가입한 유저 (사후 분석)
    - 무한 모집단은 계속 변하고 있기 때문에 파악이 불가능
    - 비용과 시간 안에서 전수 조사는 비효율적


**[ 추론 통계와 표본 오차 ]**

- 표본으로 모집단을 추정

- 표본 오차(Sampling error)
    - 표본과 모집단 사이의 차이

1. 무작위 추출(random sampling)
    - 편향 없애기
    
2. 적정한 표본 크기
    - t검정에 따르면 표본이 30개가 넘으면 충분히 크다라고 말함

**[큰 수의 법칙]**
- 표본의 크기가 커지면 표본 평균은 모평군에 가까워짐
- 표본 크기의 적정 수준을 정의하는 것이 중요

___

### 통찰을 위한 통계학에서 즁요한 것들
#### 1) 평균이 중요하다!
**[평균의 중요성]**
- 표본의 특성으로 모집단의 특성을 추정한다.

    - 특성 : 기술 통계량
        - 평균, 중앙값, 최빈값, 최댓값, 최솟값

    - 평균, 오직 우리가 주목해야할 단 하나의 통계량
        - 예) 평균 시험 점수, 평균 키/연봉 등
        
    - 평균만으로는 부족한 경우(이상치의 영향)
        - 예) 직원 10명 중 1명의 높은 연봉이 평균을 왜곡

**[평균의 힘]**
- 기술 통계(현상 파악)가 아닌 추론 통계(통찰)에서 중앙값과 최빈값은 큰 도움이 되지 않는다.
- 중앙값, 최빈값 대신 평균이 중요한 이유

1. 그룹 간 차이 파악
2. 특정 조치에 따른 변화 파악
    - 평균만이 변화를 감지

`질문: 모든 인과관계는 상관관계인가 / 상관관계라고 해서 인과관계인 것은 아니다 True인가`

**[ 평균과 비율은 기본적으로 동일한 개념 ]**
- 평균 : 수치로 표현되는 정보 (고객의 평균 구매 금액 만원)
- 비율 : 몇 가지 그룹으로 구분되는 정보(고객의 성별은 여성이 60%)
    -  여성을 1, 남성을 0이라고 하면 60%

`데이터 분석 방법론` + `도메인` => 엄청난 시너지!

#### 2) 데이터는 점이 아니라 구간으로 이해해야한다.
- 데이터를 구간으로 이해해야 하는 이유

    - 평균값, 단일 점으로 보고 결론 내리는 실수 방지

    - 데이터 분포를 함께 봐야 신뢰성 확보
    
    - 이상치 떄문에 데이터에 편향(?)이 생길 수 있음

- 데이터 요약하기

    1. 최댓값, 최솟값의 한계
        - 이상치의 영향 조심

    2. 사분위 값의 한계
        - 중앙값(Q2) 처럼 특정 대상의 변화를 감지하지 못할 수 있음

    3. 분산과 표준편차(불규칙성 파악 가능)
        - 평균처럼 모든 값에 직접적으로 여향을 받음
        - 표준편차가 분산보다 더 직관적 
        - 체비쇼포의 부등식 : 평균 +- 2SD 범위에 데이터 3/4 존재 -> 불규칙성 있어도 일정한 범위 안
        - 현업에서는 표준편차를 많이 본다.

___

### 추론 통계를 이해하기 위한 확률과 확률분포

#### 추론 통계 과정(확률적 사고)
> 추정은 확률을 기반으로 하고 있다.
1. 모집단에서 표본 추출 및 관찰
    - 예) A학교 총 학생 500명, 학생 성비는? -> 50명 표본추출, 여학생의 비율 70%

2. 관찰된 값이 모집단에서 나타날 확률 생각
    - 모집단 여학생 비율이 30% ? - > 확률 낮다
    - 50% ? -> 가능성 있으나 확률이 높진 않을 것
    - 모집단 70% -> 가장 가능성 있다.

#### 확률과 확률변수
- 확률
    - 특정 사건이 일어날 가능성
    - 예) 사건 A의 확률 =P(A), 동전 앞면 나올 확률 = 1/2 = 0.5
    
- 확률변수
    - 발생가능한 시간의 결과를 실수(float)로 나타낼 것
    - `이산 확률 변수` : 명확히 분리된 값(ex. 동전 던지기)
    - `연속 확률 변수` : 연속되는 수치(ex. 사람의 키)

- 확률 분포
    - 가로축 : 확률 변수 / 세로축 :확률(확률 변수의 발생 가능성)
    - `이산확률분포` : 변수별 발생 확률이 구분된 막대 그래프
    - `연속확률분포` : 연속되는 그래프, 확률밀도함수 / 범위 면적이 확률

#### 모집단 추정에 필요한 '확률분포' 개념

##### 정규 분포
- 특징
    - 평균과 표준편차로 결정되는 좌우대치의 종형 분포(평균과 표준편차를 알면 그릴 수 있다!)
    - 평균을 중심으로 값이 집중, 평균에서 멀어질수록 값이 적어짐
    
- 변하지 않는 성질
    - 평균 +- 1표준편차 범위 : 약 68%
    - 평균 +- 2표준편차 범위 : 약 95%
    - 평균 +- 3표준편차 범위 : 약 99.7%

- 정규분포(이미 정립된 분포)의 활용
    - 평균과 표준편차안으로 특정 값의 회귀성(등장 확률)파악 가능
    - 예) 키가 188cm인 남자 고등학생이 3표준편차만큼 떨어졌다면, 상위 0.15% 이내

##### 정규분포가 통계학에서 가장 중요한 분포인 이유
1. 자연현상과 사회적 현상에서 토계치는 정규분포를 따르는 경우가 많음

2. 표본 크기가 충분히 크다면, 표본 평균들의 분포는 정규분포에 가까워짐
    - 중심 극한 정리(CLT: Central Limit Theorem)
        - 개념: 모집단의 분포와 상관없이, 충분히 큰 표본 평균들의 분포는 정규분포\
        `표본의 평균들을 모아 분포를 만들면 정규 분포가 된다!`

- 중심극한정리의 중요성

    - 앞선 '평균(모집단의 평균)'의 중요성 언급
    - 표본 평균 => 모평균, 모집반을 추정하는 기본 원리
        - 표본 평균의 표준 편차의 분모에 n, 표본의 크기가 들어가 있고, 커질 수록 0에 가까워진다. 즉, 표본 평균이 모평균에 가까워진다.
        - 표본의 크기가 충분이 크다면, 모평균에 매우 근접힌다.
    - 다양한 확률분포
        - 기타 중요한 확률분포
            - 이항분포, 포아송 분포, 지수 분포, 카이제곱 분포 등

___

### 모집단을 추정하는 방법

#### 오차와 신뢰구간
**[ 통계학에서 '오차'란? ]**
- 오차(error)
    - 표본을 통해 얻은 푱균 또는 비율이 실제값(모집단의 값)으로부터 벗어난 확률, 정도
    - 표본 평균이 모집단의 평균과 정확히 일치할 확률이 낮기에 오차 통해 추정

**[ 오차계산 ]**
1. 표본의 크기
    - 표본이 클수록 변동에 덜 민감

2. 데이터의 불규칙성(표준편차)
    - 데이터의 변동이 클수록, 표준편차가 클수록, 평균이 더 쉽게 영향을 받음

**[ 표준 오차 - 모평균 추정의 변동폭 ]**\
평균의 표준오차(se)(표본오차, 표본에 대한 오차) = `s(표본집단의 표준편차)/루트n`
- 표본 평균의 변동폭이 줄어든다 = 표준오차(SE)가 작아진다.

**[ 신뢰구간으로 참값의 범위 추정하기 ]**
- 신뢰구간(confidence interval, CI)
    - 모집단의 참값이 어느 범위에 있을 확률을 나타내는 구간
    - 보통 95% 신뢰구간을 사용
    - 95%의 신뢰구간 = 표본평균 +- 1.96SE(왜냐하면 -> 표본의 크기 > 30, CLT, 정규분포)

- 신뢰구간의 해석
    - 신뢰구간은 `"해당 구간에 모집단의 참값(모평균)이 있을 확률이 95%"`라는 의미
    - 모푱균은 변하지 않으며, 여러 번 추출된 표본의 95%가 모평균을 포함

- 표본조사를 통해 모집단의 값을 구간으로 추정

___

### 통계적 가설 검정이란

**[ 통계적 가설 검정의 정의 ]**
- 선택지에 대한 토론 시간을 줄이고 빠르게 효율적인 결정을 내리기 위한 방법
- '모든'대신 '거의 모든'을 확률적으로 고려하여 의사결정

**[ 통계적 가설 검정이 일상에 주는 영향 ]**
- 통계적 가설 검정의 강점
    - 예외가 존재할 확률을 인정하면서도, 더 가능성이 높은 쪽으로 선택하도록 도움

**[ 통걔적 가설 검정의 절차 ]**
- 재판에서 무죄 추정의 원칙에 의해 일단 피고인은 무죄로 간주하는 검정 절차와 비슷
1. 입증하고자 하는 가설 설정
    - 가설은 모집단을 대상으로 세움
    - "이 사람은 유죄다."

2. 반대되는 가정을 설정하고 이를 옳다고 가정
    - 귀무가설
    - "이 사람은 무죄다."

3. 표본을 수집하고, 반대 가정이 옳을 때 해당 결과가 나타날 확률을 계산
    - "이 사람이 무죄일 확률은?"

4. 계산된 확률이 일정 수준보다 낮다면, 입증하고자 한 가설을 채택
    - 일정 수준 : 우리가 합의한 오차의 허용 범위
    - "이 사람이 무죄일 확률이 일정 수준보다 낮으니, 유죄라고 결론"

**[ 통계학에서 사용되는 가설 용어 ]**
1. H1, H0 설정
    - `대립가설(H1)` : 우리가 입증하려는 가설 (차이가 있다.)
    - `귀무가설(H0)` : 대립가설의 반대 가정 (차이가 없다.)

2. 귀무가설이 옳다고 가정

3. `p-value`(표본에서 귀무가설이 옳을 확률) 계산
    - 귀무가설이 참일 떄, 우리가 관찰한 결과 혹은 그 이상으로 귀무가설에 반하는(극단적으로 대립가설을 만족하는 경우)가 나타날 확률
        - 대립과 차이가 있다. 평균차이가 5정도인데, 차이가 100이 있다. 이건 되려 귀무를 지지해주는 확률이라고 보는 것

4. `p-value`가 `유의수준(오차의 허용범위)`보다 낮으면, 귀무가설 기각 대립가설 채택, 높으면 판단 보류
    - 유의 수준(ɑ) : 통상 0.05(5%)
    - p-value < 유의 수준 : 귀무가설 기각, 대립가설 채택
    - p-value > 유의 수준 : 귀무가설 기각 불가, 판단 보류

**[ 4번 절차 (p-value와 유의수준을 기반으로 의사결정하는 절차) 자세히 들여다보기 ]**


통계적 가설 검정의 오류 : 제 1종과 제2종의 오류\
![image.png](attachment:image.png)
1. 제 1종 오류(알파, 유의수준)
    - 귀무가설이 옳은데 대립가설을 잘못 채택하는 오류 (차이가 없는데 있다고 판단)
    - 위양성(false positive)라고도 부름
    - ex) 무죄인데 유죄(positive)라고 한 경우 -> 치명적
    - ex) 신약이 효과가 없는데 있다고(positive) 한 경우 -> 치명적

2. 제 2종 오류
    - 대립가설이 옳은데 귀무가설을 기각하지 않는 오류 (차이가 있는데 없다고 판단)
    - 위음성(false negative)라고도 부름
    - ex) 유죄인데 무죄(negative)라고 한 경우
    - ex) 신약이 효과가 있는데 없다고(negative) 한 경우

오류 간의 상충 관계

- 1종 오류와 2종오류는 상충 관계
    - 제 1종 오류 확률을 낮추면, 제 2종 오류 확률이 커질 수 있음
    - 그럼에도 불구하고 제 1종 오류가 더 치명적이므로 1종오류를 낮추려고 해야함
    - 표본의 크기를 늘리면 둘 다 낮출 수 있다.

___

### 유의수준과 p-value

**[ 유의수준과 p-value ]**

- 유의 수준
    - 제1종 오류가 발생활 확률
    - 보통 0.05(5%)
    - 귀무가설이 옳은 상황에서 100번 중 5번은 착오로 대립가설을 채택할 수 있다는 의미

- p-value
    - 귀무가설이 참일 때 우리가 관찰한 결과가 나타날 확률(귀무가설이 참인 확률) + 엄밀히 따지면 여기다가 대립가설이 극단적으로 옳을 확률을 더해준 값임
    - p-value가 유의수준 보다 낮으면 귀무가설을 기각하고 대립가설을 채택

**[ 표본 크기와 검정력 ]**
- 검정력(1-베타)
    - 차이가 있을 때 차이가 있다고 올바르게 판단할 확률
    - 제 1종 오류와 제 2종 오류를 동시에 낮추는 건 어려움
    - 그러나 표본 크기를 늘리면 알파를 유지하면서 베타를 줄일 수 있임

- 표본 크기 증가의 효과
    - 표본 크기가 커지면 추정량의 분산이 줄어들고 ,더 정확한 추정 가능
    - 알파를 고정하면서도 더 작은 베타를 얻을 수 있음

- 결론
    - 제 1종 오류와 제2종 오류의 상충 관계에서 적절한 타협 필요 (하지만 제1종 오류를 우선시해서 낮춘다.)
    - 유의 수준 설정해서 p-value와 비교해서 의사결정 
    - 표본 크기를 늘리면 알파를 고정한 상태에서도 베타를 줄일 수 있어 검정력을 높일 수 있음

### 통계적 유의미성 - 유의미하다란?
**[ 통계적 유의미성의 의미 ]**

- '유의미한 차이가 있다'는 표현
    - p-value가 유의 수준보다 낮아 귀무가설을 기각했다는 의미
    - 유의차와 유의미한 차이는 같은 의미

**[ 주의점: 통계적 유의미성 != 실제로 의미가 있다 (통계적 가설 검정이 100%가 아니다) ]**

- P-value는 표본의 크기에도 영향을 받는다.
    - 표본 크기가 커질 수록 P-value는 작아지는 경향
- 비즈니스 상황에 따른 판단 필요
    - 작은 차이라도 중요한 경우가 있음(표본의 크기가 매우 큰 경우, ex.구글에서 클릭률차이 등)

**[ p-value 계산의 중요성 ]**

- p-value 계산이 가장 중요한 부분
    - '귀무가설이 옳을 때, 관찰된 결과가 나타날 확률'을 계산하는 것
    - p-value 계산법은 가설 검정 방법에 따라 다름 (각 가설 검정 방법의 차이는 P-value 계산법!)
    - 어떤 가설 검정 방법을 사용할지는 상황에 따라 달라짐

---

### 어떤 가설 검정 방법을 선택할 것인가

**[ 가설 검정을 위한 데이터의 유형과 고려 사항 ]**

1. 데이터의 유형
    - 양적 변수 : 연속적인 수치로 표현(예: 키, 몸무게 등)
    - 범주형 변수() : 몇 가지 그룹으로 나뉨(예: 성별, 자동차 브랜드 등)

2. 범주형 변수의 그룹 수
    - 1개 그룹 : 모집단의 분포 검정
    - 2개 그룹 : 두 집단 간 비교
    - 3개 그룹 비교 : 여러 집단 간 비교

3. 양적 변수의 성질과 가정
    1. 정규성 가정 :  모집단이 정규분포를 따르는지 확인
        - 모수 검정 : 정규성을 가정한 방법론 `실무에선 대부분 모수검정으로!`
        - 비모수 검정 : 정규성을 가정하지 않는 방법론
    2. 등분산성 가정 : 모집단 간 분산이 동일한지 확인
        - 등분산성 검정
        - 귀무 가설 : 두 모집단의 분산이 같다. `스튜던트의 t검정` 등O -> 스
        - 대립 가설 : 두 모집단의 분산이 같지 않다. `웰치의 t검정` 등X -> 웰

**[ 최강력 검정 ]**
- 유의 수준 하에서 가장 높은 검정력을 가진 검정 방법론

`실무에서는 세세하게 검정 방법론을 공부하려 들기보단, 대표적인 가설 검정 방법들만 숙지하고 빠르게 적용해 인사이트를 얻는 것이 더 실용적!`

___

### 대표적인 가설 검정 방법들
#### 1. Z검정(Z-test)
- z검정: 표준정규분포(평균:0, 표준편차:1)를 활용해 평균과 비율을 비교하는 검정 방법
    - 표준 정규 분포는 표로 모든 값이 사전에 계산되어있기에, Z분포로 변환하면 p값을 구할 수 있다.

- 기본 가정
    - 모집단이 정규분포를 따라야
        - 표본 크기가 크면(30이상) 중심극한정리에 따라 정규분포 가정 가능
    - 두 모집단은 독립적이어야함
        - 대부분 문제 안됨
        - 독립X : 신약 처치를 받은 그룹 이전 vs 이후(의존적)

- 데이터의 분포를 표준화한다!

**[ 평균 차이에 대한 Z검정 ]**
- 대립가설: 평균에 차이가 있다 > 양측 검정
- A가 B보다 높을 것이다와 같이 방향성이 있는 가설 > 단측 검정
- 평균, 표준편차, 표본 크기 -> 이 3가지를 갖고 z점수 산출

**[ 비율 차이에 대한 Z검정 ]**
- 대립가설: `비율`에 차이가 있다 > 양측 검정
- 평균 차이에 대한 검정과 대립가설에서만 차이가 있음

>##### <font color = 'red'>현업에서 그룹 간 특정 비율 지표의 차이가 통계적으로 유의미한지 판단하기 위해 Z 검정</font>

#### 2. T검정(T-test)
1. 독립 표본 t검정
    - 두 집단이 서로 독립적인 경우(일반적인 A/B 테스트)

2. 대응 표본 t검정
    - 독립X 같은 집단의 전후 변화 비교

**[ 평균 차이에 대한 T검정 ]**
1. 가설설정
    - 대립가설 : A그룹과 B그웁은 평균 구매 금액에서 차이가 있다.

2. t검정 절차
    - 두 그룹의 평균, 표준편차, 표본 크기를 활용해 t통계량을 계산
    - t통계량이 t분포 상에서 어느 위치에 있는지 확인하고 p-value 계산
    - t분포는 Z분포처럼 하나로 고정된 분포가 아니고 표본 크기에 따라 변화하는 특성이 있음. 주어진 상황에 맞는 t분포를 파악하는 방법도 알아야 하지만, 실무에서 직접 계산할 일은 거의 없으므로 생략

#### (결론) Z검정과 t검정 중 무엇을 사용해야 할까

1. 두 그룹의 평균 차이 검정: `t검정`

- t검정은 Z검정을 포함하는 개념이므로, 적은 표본 크기에 대해서도 사용 가능하며, 표본 크기와 관계없이 평균 차이는 t검정을 우선적으로 사용

2. 두 그룹의 비율 차이 검정: `Z검정`

- 모분산이 필요하니까 쓰면 좋은 것 하지만 모분산은 알아내기 어려움

- 비율 차이 검정은 Z검정 외에도 시행 가능한 다른 검정 방법들이 존재하지만, 기본적으로는 비율 차이는 Z검정으로 확인해도 큰 문제가 없음

- 이는 비율 차이 검정에서 모분산을 쉽게 계산할 수 있기 때문에, Z검정이 적합

- 인터넷 A/B 테스트 도구에서도 주로 비율 차이에 대한 Z검정을 사용

`분산 분석과 카이제곱 검정은 판단에 도움이 별로 안된다.` => 참고만하기
- 해도 되고 안해도 되는 검정 방법
- 분석 및 검정 후 추가로 해줘야 하는 것들이 많음

#### 3. 분산분석(ANOVA) - 세 그룹 이상의 평균 차이 
    
1. 가설 설정
    - 대립 가설: A,B,C 그룹의 평균 구매 금액에는 차이가 있다.

2. 제약
    - 분산분석 결과는 그룹간 평균 모두 동일하지 않다 라는 결론만 도출 가능
    - 구체적으로 어느 그룹이 차이를 보이는지 확인 어려움
    - 따라서 어느 그룹 선택해야 하는가에 대한 답을 주지 못함

#### 4. 카이제곱 검정(Chi-squared test) - 세 그룹 이상의 비율 차이 

1. 가설설정 : 유저가 속한 그룹과 상품 구매 여부 사이에는 관련성이 있다.
2. 제약
    - p-value가 작더라도 어느 그룹이 차이를 보이는지 구체적으로 알기 어려움
    - 최적의 그룹을 선택하는 데 유용하지 않음
    - 카이제곱검정도 세 그룹 이상의 비교에 비즈니스 상황에서 큰 도움이 되지 않는 경우가 많음

#### 세 그룹 이상을 비교하는 현실적인 방법? -> 회귀분석(Regression Analysis)

##### 회귀분석이란
- 회귀 분석 : 두 양적 변수 사이의 관계성을 확인하는 분석 방법
    - x축: 설명변수(독립변수), y축: 결과변수(종속변수)
    - 회귀 분석을 통해 가장 영향력있는 설명 변수를 찾을 수 있다.

- 회귀 분석의 중요성
    - 비즈니스 현장에서 가장 자주 다루는 질문 : 어떤 변수를 변화시키면 핵심 지표가 올라갈까?
    - 회귀분석은 이러한 질문에 답할 수 있는 도구로, 설명변수와 결과변수 사이의 관계를 통해 핵심 지표의 변화를 예측
    - 두 변수 간의 관계성을 명확히 설명해주는 회귀분석은 비즈니스 데이터 분석의 핵심 도구 중 하나

##### 회귀선이란
- 회귀선 : 두 변수 간의 관계를 하나의 선으로 표현하며, 변수의 변화에 따른 경향성을 수치로 표현
    - x축 설명변수 증가 > y축 결과변수 얼마나 변화하는지 

- 회귀식 : y = ax+b
    - 기울기a : 설명변수(x) 변화에 따라 결과변수(y)가 얼마나 변화하는지를 나타냄(회귀계수)
    - 절편b : 설명변수가 0일 때 결과 변수의 값

##### 회귀선 구하는 방법
- 관찰값과 예측값의 차이를 최소화하는 선(차이가 가장 작은 선)
- 최소제곱법으로 구함

##### 회귀계수의 중요성
- 회귀계수 : 설명변수가 1단위 증가할 때 결과변수가 얼마나 변화하는지를 나타내는 수치

- 모집단 회귀계수 추정 : 
    - 표본에서 관찰된 회귀계수가 우연히 발생한 것인지 검토하기 이해 가설 검정 필요 > 통계적 가설 검정을 통과한 변수중에 선택해야함

1. 어떤 설명 변수가 핵심 지표에 가장 큰 영향을 미칠까?

2. 회귀 분석 실시

3. 회귀계수들 통계적 가설 검정(t-test)

4. 통계적 가설 검정을 통과했으며, 절댓값이 가장 큰 회귀계수 선택

5. 해당되는 설명변수에 변화를 주는 액션으로 핵심지표 상승

##### 다중회귀분석 - 여러 요인들 간의 관계를 분석
- 심슨의 역설 : 데이터의 세부 그룹별로는 일정한 경향성이 나타나지만, 이를 전체로 통합하면 경향성을 찾을 수 없거나 반대되는 경향이 나타나는 현상

- 다중회귀분석 : 여러 개의 설명변수와 결과변수의 관계를 동시에 분석하는 방법론
    - 각 회귀계수는 다른 설명변수들의 영향을 배제한 상태에서 결과변수에 미치는 영향을 나타냄
    - 다중 회귀 분석에서 회귀계수는 다른 설명변수의 영향을 통제한 상태에서 해석해야 함

- 다중공선성 문제: 설명변수들 간의 관련성이 너무 높아 회귀계수를 신뢰할 수 없는 상황
    - 다중공선성을 확인하기 위해 상관계수(Correlation Coefficient)나 분산팽창계수(VIF, Variance Inflation Factor)를 확인할 수 있음
    - 상관계수의 절댓값이 1에 가까울수록, VIF 값이 10을 넘으면 다중공선성 문제가 있다고 판단
    - 현업에선 직관적으로 알 수 있음

##### 로지스틱 회귀분석

- 로지스틱 회귀분석: 양적변수와 이항 결과변수 간의 관계를 다룰 때 확률을 효과적으로 모델링할 수 있는 강력한 도구
    - 로그오즈를 사용해 이항 변수를 확률로 변환한 후, 선형 회귀처럼 분석하는 것

##### (정리)세 개 이상의 다그룹 간의 비교

- 분산 분석(ANOVA): 그룹 간의 차이가 존재하는 지 여부 확인

- 다중회귀분석: 범주형과 양적 변수 사이 평균 차이를 분석할 때 사용 

- 로지스틱 회귀 분석: 범주형과 양적 변수 사이의 비율 차이를 분석할 때 사용
    - 사건 발생의 오즈 비나 확률 차이를 추정하고 해석하는 데 적합