# 1. 들어가며
## 1-1. 기술통계와 추론통계
- 기술통계 : 수치와 시각화를 통해 샘플을 요약하여 표현하는 방법론
- 추론통계 : 추정과 검정을 통해 샘플로부터 모집단을 추론하는 방법론

## 1-2. 자료의 척도
- 양적 자료 : 수치로 표현됨
    - 구간척도 : 값들 사이에 순서가 있고, 그 간격이 일정하여 덧셈이나 평균과 같은 연산이 가능한 척도, 단, 곱셈과 나눗셈은 의미X (ex.온도, IQ, 시간)
    - 비율척도 : 절대영점과 임의의 측정단위로 구성됨, 동간성이 유지됨, 0값은 그 변수에 대해 아무것도 존재하지 않는 상태(ex.거리, 높이, 무게)
- 질적 자료 : 연산의 의미를 가지지 못함
    - 명목척도 : 레이블이나 이름으로 요소의 속성을 식별 (ex.펀드유형, 성별)
    - 서열척도 : 항목 간의 순서 또는 순위를 나타냄(ex.만족도, 직급 체계)


# 2. 기술통계
## 2-1. 기술통계란?
- 우리가 수집한 데이터의 특성과 패턴을 있는 그대로 보여주는 역할

## 2-2. 3가지 주요한 도구 집합
1. 중심화 경향
    - 평균, 중앙값, 최빈값 ...
2. 자료의 산포
    - 분산, 표준편차, 범위 ...
3. 자료의 정리 및 시각화
    - 히스토그램, 박스플롯, 파이차트 ...

### 1. 중심화 경향 : 데이터의 중심적인 경향을 나타내는 기술 통계량
- 평균
    - 데이터 값의 총합을 데이터의 개수로 나눈 값
    - 이상치에 민감
    - `series.mean()`
- 중앙값
    - 데이터를 크기 순서대로 일렬로 정렬했을 때, 한가운데에 위치하는 값
    - 평균보다 이상치에 덜 민감
    - `series.median()`
- 최빈값
    - 데이터에서 가장 자주 나타나는 값
    - 이산형 데이터, 데이터의 분포를 이해하는데 도움을 줌
    - `series.mode()`

### 2. 자료의 산포 : 데이터가 퍼져있는 정도를 설명하는 기술 통계량
- 범위
    - 데이터의 최대값과 최소값의 차이
    - `series.max() - series.min()`
- 분산
    - 데이터의 값들이 평균으로부터 얼마나 멀리 퍼져있는지 나타냄
    - `series.var()`
- 표준편차
    - 분산에 제곱근을 취한 값
    - `series.std()`
- 사분위수
    - Q1 = 하위 25%에 위치한 값 (하위 사분위수)
    - Q2 = 하위 50%에 위치한 값 (중앙값)
    - Q3 = 하위 75%(상위 25%)에 위치한 값 (상위 사분위수)
   ```python
    series.quantile(0.25)  # 25th percentile
    series.quantile(0.5)   # 50th percentile (중앙값)
    series.quantile(0.75)  # 75th percentile
   ```
    ```python
    np.percentile(series, 75)
    ```
- 사분위간 범위(IQR)
    - Q3에서 Q1값을 제외한 범위
    - 데이터의 중앙 50%가 퍼져 있는 범위
    - 이상치 탐지할 때 유용함(Tukey Fence)
    - 아래쪽 이상치 : Q1 - 1.5xIQR 보다 작은 값
    - 위쪽 이상치 : Q3 + 1.5xIQR 보다 큰 값
- 변동계수
    - 데이터의 상대적 변동성을 나타내는 통계적 지표
    - 변동계수 = (표준편차/평균)*100
- 첨도와 왜도
    - 첨도 : 확률분포의 꼬리가 두꺼운 정도를 나타내는 척도
    - 왜도 : ***비대칭도***, 실수 값 확률 변수의 확률 분포 비대칭성을 나타내는 지표(음수 - 왼쪽 긴 꼬리, 중앙값 등 자료 오른쪽에 많이 분포 / 양수 - 반대)
    ```python
    series.kurt()   # 첨도
    series.skew()   # 왜도
    ```





# 3. 확률과 분포
## 3-2. 확률분포
- 확률변수 : 각 경우의 수를 특정 값으로 대응시킨 것
- 확률분포 : 확률변수가 특정한 값을 가질 확률
    - 이산확률분포 : 확률 변수가 이산적인 값을 가지는 경우
    - 연속확률분포 : 확률 변수가 연속적인 값을 가지는 경우

### 3-3. 대표적인 분포 모형
#### 1. 정규분포
- 형태 : 종 모양, 평균을 기준으로 대칭, 표준편차가 클수록 곡선이 평평해짐
- 매개변수 : 평균, 표준편차
- 특징 : 가장 잘 알려진 (연속)확률분포, 많은 자연 현상과 사회 현상이 정규분포를 따르는 것으로 알려져 있음
- 표본의 크기가 커질수록 표본평균이 모집단평균에 근사함 (대수의 법칙)
- 표본의 크기가 커질수록 표본평균의 분포는 정규분포에 가까워짐 (중심극한정리)
- 앞으로 나올 T분포, 카이제곱분포, F분포는 '우리가 추출한 표본이 정규분포를 따르는 모집단으로부터 왔다'는 가정을 전제 조건으로 함.

#### 2. T분포
- 형태 : 종 모양, 정규분포보다 꼬리가 두꺼움, 평균을 기준으로 대칭, 자유도가 커짐에 따라 표준정규분포 N(0,1)에 수렴
- 매개변수 : 자유도(df)
- 특징 : 표본으로 모평균(혹은 모평균 간의 차이)을 추정할 때 사용되는 분포, 표본 크기가 작을 때 정규분포보다 더 정확한 결과를 제공함
- **자유도란?**
    - '얼마나 많은 정보가 독립적으로 변할 수 있는가'를 나타내는 숫자
    - ex) 4,6,8 이 있고 세 숫자의 평균은 6임. 이때 두 개의 숫자를 알면 나머지 하나의 숫자는 자동결정됨(자유롭게 변할 수 없음) -> 자유도 = 3-1 = 2
    - 자유도가 높을수록 T분포가 정규분포에 가까워지고, 통계적 분석 정확도가 높아질 가능성 있음, 그러나 너무 자유도가 높으면 오버피팅 문제 발생 가능
    - 모집단의 분산을 모를 때, 표본분포를 결정할 때 표본의 크기가 30 미만이면 t분포를, 크기가 30 이상이면 표준정규분포를 이용함

#### 3. 카이제곱분포
- 형태 : 0에서 시작하여 오른쪽으로 긴 꼬리를 가진 비대칭 분포, 자유도가 증가함에 따라 중심이 오른쪽으로 이동하고 모양이 더 대칭적으로 변화하며 정규분포에 가까워짐
- 매개변수 : 자유도
- 특징 : 독립적인 표준 정규 분포를 따르는 변수들의 제곱 합  
        즉, **표본분산의 분포**와 관련된 지표  
        주로 독립성 검정, 적합도 검정 등에 사용됨

#### 4. F분포
- 형태 : 0에서 시작하여 오른쪽으로 긴 꼬리를 가진 비대칭 분포  
        자유도가 증가함에 따라 중심이 오른쪽으로 이동하고 모양이 더 대칭적으로 변화하며, 정규분포에 가까워짐
- 매개변수 : 자유도(df1, df2)
- 특징 : 두 독립적인 카이 제곱 분포의 비율, 두 집단 간의 분산 차이를 비교하는데 사용됨



# 4. 추론통계 - 추정
## 4-1. 추론통계란?
- 추정 : 모집단을 대표할 수 있는 일부를 표본으로 추출하여 분석한 통계량을 이용해서 모집단의 **모수**를 예측하는 과정, 점추정과 구간추정이 있음
- 검정 : 표본통계량으로 도출한 모집단 모수에 대한 새로운 예상, 가설 등이 옳다고 판단할 수 있는지를 평가하는 과정
- 표본오차를 고려하여 모수를 추정할 때 어느 정도 오차를 포함하는 신뢰구간 추정 방법이 일반적으로 널리 사용됨

## 4-2. 점추정
- 어떤 모수를 표본에 기초하여 계산된 하나의 값으로 추정하는 것

## 4-3. 구간추정
- 모수의 참 값이 포함되리라고 기대하는 추정치를 일정한 범위로 신뢰도를 가지고 나타내는 방법
- 신뢰구간의 의미(95% 가정): '동일한 조사를 100번 반복했을 때, 그중 95개의 신뢰구간이 실제 모수를 포함할 것으로 기대된다.'


# 5. 추론통계 - 검정
## 5-1. 가설 검정의 절차
- 가설 설정 -> 유의 수준 설정 -> 검정통계량 산출 -> 가설 기각/채택 판단

**1. 가설 설정**
- 귀무가설 H0과 대립가설 H1 설정
- 귀무가설 : 기각하고자 하는 명제
    - '~는 차이가 없다'
- 대립가설 : 내가 주장하고자 하는 명제
    - '~는 차이가 존재한다'

**2. 유의 수준 설정**
- 유의수준 : 연구자가 결과를 판단할 때 허용할 수 있는 오류의 최대치
- 1종 오류(알파) : 귀무가설이 실제로 참인데 기각할 확률
- 2종 오류(베타) : 귀무가설이 실제로 거짓인데 기각하지 못할 확률
- 가설 검정은 1종 오류를 더 치명적인 것으로 파악한다. 따라서 유의수준은 1종 오류의 확률을 의미함!

**3. 검정통계량 산출**
- 가설 검정의 결과를 판단하는 데 사용되는 값
- Z값 (Z-Score)
    - Z값은 표준정규분포를 사용하여 얻은 값
    - $Z=(X−μ)/σ$
    - Z = (관측값 - 평균) / 표준편차
    - 큰 표본크기(30이상)에 대한 가설 검정에 주로 사용됨 (ex.모집단)
    - Z값의 절댓값이 크면 해당 데이터가 평균으로부터 멀리 떨어져있으며, 때로는 비정상적이거나 이상치일 가능성이 있음
    - Z = 1.96일 때 유의수준 0.05(=신뢰수준 95&)
    - Z = 2.58일 때 유의수준 0.01(=신뢰수준 99%)
    - Z값이 임계점보다 크다면 귀무가설 기각
- T값 (T-Score)
    - T값은 T분포를 사용해 얻은 값, 작은 표본 크기에 대한 가설 검정(T검정)에 주로 사용됨
    - t분포는 정규분포와 유사하지만, 꼬리 부분이 더 두꺼워 작은표본에서 발생할 수 있는 불확실성을 더 잘 반영함
    - $T = \frac{X - \mu}{s / \sqrt{n}}
$
    - T = (표본평균 - 연구자가 설정하는 값) / (표본 표준편차 / 루트(표본크기))
- F값 (F-Score)
    - F값은 F분포를 사용하여 얻은 값
    - 주로 두 표본 분산 사이의 차이를 비교하는데 사용됨
    - F분포는 두 개의 독립적인 카이제곱 분포된 변수들의 비율로 정의됨
    - F값 = 분산_1/분산_2
    - 분산_1과 분산_2는 두 독립적인 표본의 분산
    - 주로 분산 분석에서 두 개 이상의 그룹 간 평균의 차이를 검정하는데 사용됨
    - F값이 1에 가까우면 두 표본의 부산이 서로 비슷함

**4. 가설 기각/채택 판단**
- 유의확률 : 가설 검정에 쓰일 수 있는 또 다른 척도
- 유의 확률(p)가 유의 수준(α)보다 작을 시에 귀무가설을 기각, 클 시에는 귀무 가설을 기각하지 못함


## 5-2. 데이터의 자료형에 따른 검정 방법
**1. [수치형 - 수치형] (피어슨)상관분석**
- 두 변수간 피어슨 상관계수가 얼마나 유의미한지를 검정하는 방법
- 가설
    - H0: 두 변수간 선형 상관관계가 존재하지 않는다.
    - Ha: 두 변수간 선형 상관관계가 존재한다.
- 공분산 : 두 변수가 함께 어떤 방향으로 변화하는지와 그 크기를 표현함
    - Cov (X,Y) > 0이면 X와 Y는 양의 관계, X가 커지면 Y도 커짐
    - Cov (X,Y) < 0이면 X와 Y는 음의 관계, X가 커지면 Y는 작아짐
    - Cov (X,Y) = 0이면 X와 Y는 양도 음도 아닌 관계
    - `np.cov(df['col1'], df['col2'])`
- 상관계수 : 두 변수간 선형적인 관계를 나타내는 통계적 지표, -1과 1사의 값을 가짐
    - 공분산을 각 변수의 표준편차로 나누면 상관계수가 도출됨
    - Corr (X,Y)이 양수면 양의 상관관계 (1이면 완전한 양의 상관관계)
    - Corr (X,Y)이 음수면 음의 상관관계 (-1이면 완전한 음의 상관관계)
    - `df[['col1', 'col2']].corr()`
- 코드  
    ```python
    import scipy.stats as spst
    spst.pearsonr(df['col1'], df['col2'])    
    ```
    - 결과는 (상관계수, p-value)의 튜플 형태로 나옵니다.  
    - 상관계수를 r이라고 할 때,
        - |r| < 0.3 → 두 변수간 상관관계가 약함
        - |r| < 0.5 → 두 변수간 상관관계가 중간
        - |r| > 0.5 → 두 변수간 상관관계가 강함

**2. [범주형-수치형] F-test(ANOVA), T-test**

***- T-test : 범주가 2개일 때 사용***
- t값은 두 평균 간 차이를 표준 오차로 나눈 값
- 가설
    - H0: 두 그룹의 평균에는 차이가 없다.
    - Ha: 두 그룹의 평균에는 차이가 있다.
- 코드
    ```python
    mincho = df.loc[df['민초여부'] == 'Yes', '수명']
    no_mincho = df.loc[df['민초여부'] == 'No', '수명' ]

    spst.ttest_ind(mincho, no_mincho)
    ```
    - 결과는 TtestResult(statistic = t-값, pvalue = p값, df = 자유도) 형태로 나옵니다.
    - t값은 보통 절대값 2를 기준으로, 그보다 크면 차이가 있으며 그보다 클수록 차이가 크다고 생각함
    - p값은 역시, 이 결과가 얼마나 믿음직한지를 나타내며 보통 0.05를 기준으로 함

***- F-test(ANOVA): 범주가 3개 이상일 때 사용***
- F값 : 집단 간 분산 / 집단 간 분산
    - 즉, (전체 평균과 각 집단의 평균을 가지고 만든 분산)/(각 집단의 평균과 개별 값으로 만든 분산)으로 계산함
- 가설
    - H0: 각 MBTI 그룹 별 수명 평균은 차이가 없다.
    - Ha: 각 MBTI 그룹 별 수명 평균은 차이가 있다.
- 코드
    ```python
    ISTP = MBTI.loc[MBTI['mbti'] == 'ISTP', '수명']
    ESFP = MBTI.loc[MBTI['mbti'] == 'ESFP', '수명']
    INFP = MBTI.loc[MBTI['mbti'] == 'INFP', '수명']

    spst.f_oneway(ISTP, ESFP, INFP)
    ```
    - 결과 : 결과는 F_onewayResult(statistic = f값, p-value = p값)
    - f값은 보통 2~3 이상이면 차이가 있으며 클수록 차이가 큼
    - p값은 f값 결과가 얼마나 유의미한지를 의미함

**3. [범주형-범주형] Chi2-test**
- 인사이트 전체 학회원 100명을 대상으로 ‘경영학과 여부’와 ‘갈색 머리 여부’에 대한 조사를 진행했다고 합시다.
- 가설
    - H0: 경영학과 여부와 갈색머리 여부는 관련이 없다
    - Ha: 경영학과 여부와 갈색머리 여부는 관련이 있다
- 경영학과 여부, 갈색머리 여부를 2x2 표로 정리함.
- 기대빈도를 나타낸 표와 관측빈도를 나타낸 표 두개가 나옴.
- 카이제곱 통계량 = '(관측빈도 - 기대빈도)^2 / 기대빈도' 를 순서 상관없이 더하기
- 카이제곱 통계량이 자유도의 약 2배 이상이면 차이가 존재함
- 카이제곱 변수에서 자유도 = (x변수의 자유도) * (y변수의 자유도)
- x변수의 자유도 = x변수의 범주의 수 - 1 (y변수 자유도도 동일하게 구함)
- 코드
    ```python
    table = pd.crosstab(df['col1'], df['col2'])

    spst.chi2_contingency(table)
    ```
    - 나오는 값이 많은데, 순서대로 (카이제곱 통계량, p값, 자유도, 기대빈도) 가 됩니다.
