# AI 6강 : 머신러닝의 기반, 확률과 통계


### 학습 목표
1. 통계학의 용어와 통계 모델링
2. 기술 통계학과 추론 통계학의 핵심 내용

### 통계학
통계학은 **효과적인 의사결정**을 위해 수치 데이터를 **수집, 분석, 해석, 표현**하는 수학의 한 분야로 기술통계학과 추론 통계학으로 분류된다.

- 통계학
    1. 기술 통계학  
        수집한 자료를 정보로 전환하기 위해 **요약**하고 **정리**하여 특징을 추출하는 그래프적 수치절차.
        + 연속형 데이터
            - 키, 나이, 가격 -> 평균, 표준편차
        + 범주형 데이터
            - 이름, 종족, 성별 -> 빈도, 백분율
    
    2. 추론 통계학  
        통계적 현상을 확률적으로 이해한다. 일부(표본)로 전체의 성질(모집단)을 조사한다. 추정과 검정을 이용하는 빈도론과 베이즈 통계를 활용한다.
        - 예) 유권자 조사를 통해 당선 결과를 예측

- 통계 모델링  
    데이터에 통계학을 적용하여 변수의 유의성을 분석함으로써 데이터에 숨겨진 특징을 찾아내는 과정이다.  
    통계 모델은 일종의 함수식으로, 데이터의 경향성을 나타낸다.  
    - 통계 모델은 확률 분포를 따르는 가정을 포함한다.
    - 기본 가정
        + 모든 변수(데이터)가 만족해야 하는 기본적인 가정
        + 이 조건을 만족할 때에만 모델의 성능이 통계학적으로 유의



### 통계적 수치 (1)

평균, 중앙값, 최빈값

In [18]:
import numpy as np
from scipy import stats

In [19]:
np.random.seed(0)

# 인자값 (0)에 할당된 난수를 불러온다.
# 0 : 숫자의 의미보다는, 실험을 위한 '통제 가능 제한적 공간'으로 이해하는 것이 좋다.

In [20]:
data_A = np.random.randint(0, 100, 10000)  # (start, end, number of data)
data_B = np.random.normal(size = 100)  # 분포를 이룰 무작위 데이터 생성

In [21]:
mean = np.mean(data_A)
median = np.median(data_A)
mode = stats.mode(data_A)  # mode 객체를 반환

print("평균값 : ", mean.round(2))  # 소수점 두번째 자리에서 반올림하라
print("중앙값 : ", median)
print(f"최빈값 : {mode[0][0]} ({mode[1][0]})") # 최빈값, 빈도수

평균값 :  49.17
중앙값 :  49.0
최빈값 : 3 (125)


In [22]:
mean = np.mean(data_B)
median = np.median(data_B)
mode = stats.mode(data_B)  # mode 객체를 반환

print("평균값 : ", mean.round(2))  # 소수점 두번째 자리에서 반올림하라
print("중앙값 : ", median)
print(f"최빈값 : {mode[0][0]} ({mode[1][0]})") # 최빈값, 빈도수

평균값 :  -0.03
중앙값 :  -0.1024051532970941
최빈값 : -2.862292431709955 (1)


정규분포는 평균, 중앙, 최빈값이 동일하다

### 통계적 수치 (2)

변량의 측정, 분산, 표준편차, 사분위수

1. 변량
    - 변량 : 데이터, 수치
    - 산포 : 데이터의 변량으로, 데이터가 흩어진 정도를 표현
2. 분산 : 평균과의 거리를 제곱한 값의 평균
    + 음수를 고려하여 제곱을 취한다.
3. 표준편차 : 분산에 제곱근을 취한 값
    + 분산은 값이 커서 비교가 쉽지 않으므로 보정
    + 단위에 구애받지 않는다

In [23]:
data_A_var = np.var(data_A)
data_a_std = np.std(data_A)

print("분산 : ", data_A_var.round(2))
print("표준편차 : ", data_a_std.round(2))

분산 :  833.0
표준편차 :  28.86


4. 사분위수 : 데이터 구성을 전체적으로 살펴보기 위해 사용한다.
    - 박스플롯을 사용한다.
    - 장점 : 데이터의 이상치 탐색, 중심위치 및 분포를 빠르게 파악할 수 있다.

이상치는 어떻게 구하나?

5. IQR (Inter Quartile Range)
    - 사분범위의 1.5배, 3사분위수에서 1사분위수를 뺀다
    - IQR로 이상치를 선별할 수 있다.