# 통계학이란
* 수치 데이터의 수집, 분석, 해석, 표현 등을 다루는 수학의 한 분야로 크게 기술 통계학과 추론 통계학으로 분류됨
    * <font color=red>기술 통계학 : 연속형 데이터(평균, 표준편차) , 범주형 데이터(빈도, 백분율) 자료 요약
    * <font color=red>추론 통계학 : 표본이라 불리는 일부 자료를 수집해 전체 모집합에 대한 결론을 유추<br>
                    추론은 가설 검정, 수치의 특징 계산, 데이터 간의 상관관계 등을 통해 이루어짐</font>
* 데이터에 통계학을 적용해 변수의 유의성을 분석함으로써 데이터의 숨겨진 특징을 찾아내는 것을 통계모델링이라고 함

* 모집단: 모든 관측값 또는 분석 대상의 전체 데이터를 의미
* 표본: 모집단의 부분 집합으로, 분석 대상 중인 전체 데이터의 일부분
* 모수: 모집단의 특징을 나타내는 수치값
* 통계량: 표본의 특징을 나타내는 수치값으로, 모수 추정을 위해 사용<Br>
          평균, 중앙값, 최빈값, 분산 등과 같은 데이터를 대표하는 값 <Br>
          통계량이 실제 모집단을 대표하는 값이 될 때, 통계적 유의성을 확보할 수 있음


# 머신러닝을 위한 통계 기초

In [4]:
# ! pip install scipy

Collecting scipy
  Downloading scipy-1.8.1-cp38-cp38-win_amd64.whl (36.9 MB)
     ---------------------------------------- 36.9/36.9 MB 9.2 MB/s eta 0:00:00
Installing collected packages: scipy
Successfully installed scipy-1.8.1


# 평균, 중앙, 최빈

In [5]:
import numpy as np
from scipy import stats
np.random.seed(1234)
data = np.random.randint(0,100,10000)

mean = np.mean(data)
print(f"평균값:{mean}")
median = np.median(data)
print(f"중앙값:{median}")
mode = stats.mode(data)
print(f"최빈값:{mode[0]} 최빈값빈도{mode[1]}")


평균값:49.6896
중앙값:50.0
최빈값:[98] 최빈값빈도[135]


* 통계 모델은 수학적 모델    -->  변수들로 이루어진 수학식을 계산해 <font color=red>실제 값을 추정하는 방법</font>
* 통계 모델을 이루는 여러 가정은 <font color=red>확률 분포를 따름</font>
* 통계 모델은 모든 변수가 만족해야 하는 기본 가정으로 시작하며, 이 조건이 만족할 때만 모델의 성능이 통계학적으로 의미를 가짐 


<img src="https://t1.daumcdn.net/cfile/blog/2713FF4F54B8C0BF10" width=600>

# 분산, 표준편차, 범위, 사분위수
* 변량의 측정: 산포는 데이터의 변량을 의미하며, 데이터가 얼마나 중심으로 모이지 않고 흩어져 있는지를 설명
* 분산: 평균과의 거리를 제곱한 값의 평균
* 표준편차: 분산의 제곱근
* 범위: 최대값과 최소값의 차이
* 사분위수: 데이터를 4등분한 값. 25% 값을 1사분위수(Q1), 50% 값을 2사분위수 (Q2), 75% 값을 3사분위수(Q3)
* IQR: Interquartile Range. Q1 과 Q3 의 차이

<img src='https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FcAqc6V%2FbtqyQLiddUd%2FiXQVu1nYTo2rx3Q8xZBqy0%2Fimg.png' width=600><br>
<img src='https://upload.wikimedia.org/wikipedia/commons/thumb/1/1a/Boxplot_vs_PDF.svg/800px-Boxplot_vs_PDF.svg.png' width=600>

In [2]:
import numpy as np 
from statistics import variance, stdev
np.random.seed(0)
points = np.random.randint(0, 100, 20) 
var = variance(points)
print("분산: ", var) 
std = stdev(points)
print("표준편차", np.round(std, 2))
range = np.max(points) - np.min(points)
print("범위", range) 
print("사분위수") 
for val in [0, 25, 50, 75, 100] :
    quantile = np.percentile(points, val) 
    print("{}% => {}".format(val, quantile))
q1, q3 = np.percentile(points, [25, 75]) 
print("IOR: ", q3 - q1)

분산:  662
표준편차 25.73
범위 79
사분위수
0% => 9.0
25% => 42.75
50% => 64.5
75% => 84.0
100% => 88.0
IOR:  41.25


# 가설 검정과 p-value 
* 가설 검정:  표본에 대한 통계적 테스트를 수행해 전체 모집단에 대한 추론을 만드는 과정으로, 귀무가설과 대립가설을 통해 가정이 통계적으로 의미가 있는지 검정함
* 모델링에서 각 독립 변수에 대해 0.05보다 작은 p-value 는 유의미하다고 간주함
    * 대립가설(연구가설) : 연구를 할 때 세우는 가설을 의미
    * 귀무가설 : 통계적으로 의미가 있다
* 귀무가설 정의 - 표본추출 - 검정 통계량에 따른  귀무가설의 통계적 유의성 확인(p-value) - 검정통계량에 따라 귀무가설 채택 또는 기각

* p-value: 귀무가설이 옳다는 전제 하에 표본에서 실제로 관측된 통계값과 같거나 더 극단적인 통계값이 관측될 확률


## [Quiz]
* 한 빵집에서 생산되는 식빵의 무게가 최소 200g이라고 주장할 경우, 표본 20개를 추출해 구한 평균 무게가 196g이고, 표준편차는  5.3g이었다면, 유의수준 5%(0.05)로 위의 주장을 기각할 수 있을까?

* 귀무가설: 모든 식빵의 무게는 200g 이상이다.
* 표본: 𝑛=20, 𝑥=196,  𝜎=5.3,  


* 단일 표본에 대한 t-검정


𝑡 통계량=((𝑥 ̅−𝜇))/(𝑠/√𝑛)

In [24]:
import numpy as np 
from scipy import stats

x_var, mu, sigma, n = 196, 200, 5.3, 20

        
t_sample = (x_var-mu) / (sigma / np.sqrt(n)) 
print("검정통계량", np.round(t_sample, 2))

alpha = 0.05
t_alpha = stats.t.ppf(alpha, n-1) 
print("t-table 임계값", np.round(t_alpha, 3))       # p-value=0.05일 때의 t 값

p_val = stats.t.sf(np.abs(t_sample), n-1) 
print("p-value 값", np.round(p_val, 4))   # t=-3.38에 해당하는 p-value  --> 귀무가설을 기각


검정통계량 -3.38
t-table 임계값 -1.729
p-value 값 0.0016


# 정규분포
* 중심극한정리에 따르면 평균이 𝜇이고 분산이 𝜎^2(표준편차가 𝜎)인 모집단으로부터 가능한 모든 𝑛개의 조합을 표본으로 추출하면 표본의 평균들은 정규분포에 접근함
* 정규분포를 표준정규분포(N(0, 1))로 변환
* 𝑿 ~ 𝑵(𝝁, 𝝈^𝟐)
* 𝒇(𝒙)= 𝟏/(𝝈√𝟐𝚷) 𝒆^−((𝒙−𝝁)^𝟐/(𝟐𝝈^𝟐 ))  

## [Quiz]
* 시험 점수가 정규분포를 따른다고 가정할 경우, 평균 점수가 56점이고 표준편차가 13.6인 경우, 75점 이상을 받은 학생들은 몇 %일까? 

In [27]:
x_var, mu, sigma = 75, 56, 13.6
z = (x_var - mu) / sigma
print("Z-score", np.round(z,2))

p_val = 1 - stats.norm.cdf(z)
print(f"학생이 {x_var}점 이상 받을 확률 {np.round(p_val*100,2)} %")

Z-score 1.4
학생이 75점 이상 받을 확률 8.12 %


# 카이제곱 독립성 검정
* 범주형 데이터의 통계 분석에 가장 보편적으로 사용되는 검정으로, 2개의 범주형 변수 사이에 통계적 상관성이 존재하는지를 판단함
* 𝝌^𝟐= ∑_𝒊 (𝒐_𝒊−𝒆_𝒊)^𝟐/𝒆^𝒊   
   𝒐_𝒊=   관측값,  𝒆_𝒊= 기대값


## [Quiz] 
* 흡연이 운동에 영향을 미칠까? 

In [32]:
import numpy as np
import pandas as pd 
from scipy import stats
np.random.seed(0)
smoke = ["안함", "가끔", "매일", "심함"]
exercise = ["안함", "가끔", "매일"]
data = {"smoke": np.random.choice (smoke, size=500),
        "exercise": np.random.choice(exercise, size=500)
       } 
df = pd. DataFrame(data, columns=["smoke", "exercise"]) 
df.head()


Unnamed: 0,smoke,exercise
0,안함,안함
1,심함,안함
2,가끔,매일
3,안함,가끔
4,심함,가끔


In [34]:
xtab = pd.crosstab(df.smoke, df.exercise)
xtab

exercise,가끔,매일,안함
smoke,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
가끔,38,39,45
매일,34,44,33
심함,45,44,51
안함,47,41,39


In [35]:
contg = stats.chi2_contingency(observed=xtab)
p_val = np.round(contg[1], 3)
print("p-value 값", np.round(p_val, 4))  

p-value 값 0.668


# ANOVA(Analysis of Variance) 분산 분석
* 모집단이 셋 이상인 경우, 이들의 평균이 서로 동일한지 테스트함
    * 귀무가설: 모든 모집단의 평균은 동일하다.
    * 대립가설: 적어도 하나의 모집단은 평균이 다르다.
* 모집단이 2개인 경우 t-검정을 수행

## [Quiz]
* 10명의 환자를 대상으로 A, B, C 세 가지 수면제 약효(수면시간)를 각각 테스트할 경우, 유의수준 0.05에서 A, B, C 수면제의 평균 수면시간은 동일한가? 

In [36]:
import numpy as np 
import pandas as pd 
from scipy import stats

np.random. seed(0)
data = (np.random.rand(30).round(2) * 10).reshape(-1, 3) 
df = pd. DataFrame (data=data, columns=["A", "B", "C"]) 
df


Unnamed: 0,A,B,C
0,5.5,7.2,6.0
1,5.4,4.2,6.5
2,4.4,8.9,9.6
3,3.8,7.9,5.3
4,5.7,9.3,0.7
5,0.9,0.2,8.3
6,7.8,8.7,9.8
7,8.0,4.6,7.8
8,1.2,6.4,1.4
9,9.4,5.2,4.1


In [39]:
one_way_anova = stats.f_oneway(df.A, df.B, df.C)
print(f"통계량 {np.round(one_way_anova [0], 2)}, p-value: {np.round(one_way_anova[1], 3)}")

통계량 0.34, p-value: 0.713


# Key point

* 귀무가설과 대립가설을 통해 가정이 통계적으로 의미가 있는지 검정하는 절차를 가설 검정이라고 한다.

* 가설검정은 귀무가설을 정의하고, 표본을 추출하고, 검정 통계량에 따른 통계적 유의성을 확인 후 귀무가설을 채택하거나 기각하는 순으로 절차를 진행한다.

* p-value는 귀무가설이 옳다는 전제 하에 표본에서 실제로 관측된 통계값과 같거나 더 극단적인 통계값이 관측될 확률이다.


* 평균이 μ이고 분산이 σ2인 모집단으로부터 가능한 모든 n개의 조합을 표본으로 추출하면 표본의 평균은 정규분포에 접근한다.


* 카이제곱 검정은 범주형 데이터의 통계 분석에 사용되는 검정으로, 2개의 범주형 변수 사이에 독립성을 판단한다.

* ANOVA 분산분석은 모집단이 셋 이상인 경우, 이들의 평균이 서로 동일한지 테스트한다.

# 머신러닝 선형회귀

In [None]:
from sklearn.linear_model import LinearRegression
X = np.arange(1,6)
y = np.array([4,2,1,3,7])
plt.scatter(X,y)

In [None]:
X = X.reshape(-1,1)
model = LinearRegression()
model.fit(X,y)
y_pred = model.predict(X)
plt.scatter(X,y)
plt.plot(X, y_pred)

* 다항

In [None]:
from sklearn.prepocessing import PolynomialFeatures
poly = PolynomialFeatures(degree=3, include_bias=False)
X2 = poly.fit_transform(X)
print(X2)

In [None]:
model = LinearRegression()
model.fit(X2,y)
y_pred = model.predict(X2)
plt.scatter(X,y)
plt.plot(X, y_pred)

* 누락대체

In [6]:
from sklearn.prepocessing import Imputer
X = np.array([[np.nan,1,2],[3,4,5],[6,np.nan,8]])
imp = Imputer(strategy='mean')
X2 = imp.fit_transform(X)
X2

ModuleNotFoundError: No module named 'sklearn'

* pipeline

In [None]:
from sklearn.prepocessing import make_pipeline
model = make_pipeline(Imputer(strategy='mean'),                           #--- 1. 누락 값을 평균으로 대체
                      PolynomialFeatures(degree=3, include_bias=False),   #--- 2. 이차 형태의 유도특징 변환
                      LinearRegression()                                  #--- 3. 선형회귀 적합
                     )
model.fit(X,y)
y_pred = model.predict(X)
print(y, y_pred)
