# Chapter 3. 파이썬을 이용한 데이터 분석

## 3.1 파이썬을 이용한 기술통계: 1변량 데이터

### 3.1.1 통계처리와 scipy

In [10]:
# 수치 계산에 사용하는 라이브러리
import numpy as np
import scipy as sp

# 표시 자리수의 지정 : 소수점 이하 3자릿수
%precision 3

'%.3f'

### 3.1.2 1변량 데이터와 numpy 배열

1변량 데이터: 1가지 종류의 데이터만 있는 경우(예: 물고기의 몸길이)

In [11]:
#fish_data라는 변수에 10개의 데이터 저장
fish_data = np.array([2,3,3,4,4,4,4,5,5,6])
fish_data

array([2, 3, 3, 4, 4, 4, 4, 5, 5, 6])

### 3.1.3 합계와 샘플사이즈

(참고)  
합계 계산 시, scipy의 sum 함수 사용하면 warning 발생  
"DeprecationWarning: scipy.sum is deprecated and will be removed in SciPy 2.0.0, use numpy.sum instead"  
scipy의 함수 대신 numpy의 함수를 사용하도록 변경


In [12]:
np.sum(fish_data)

40

In [13]:
# 합계
fish_data.sum()

40

In [14]:
# 합계
sum(fish_data)

40

In [15]:
# 샘플사이즈
len(fish_data)

10

### 3.1.4 평균값(기댓값)

In [16]:
# 평균계산
N = len(fish_data)
sum_value = np.sum(fish_data)
mu = sum_value / N
mu

4.0

In [17]:
# 함수를 사용한 평균값의 계산
np.mean(fish_data)

4.0

### 3.1.5 표본분산

In [18]:
# 표본분산
sigma_2_sample = np.sum((fish_data - mu) ** 2) / N
sigma_2_sample

1.2

In [19]:
fish_data

array([2, 3, 3, 4, 4, 4, 4, 5, 5, 6])

In [20]:
# mu(평균) = 4.0 
# 소수점 이하가 0이므로 1. 으로 표시
fish_data - mu

array([-2., -1., -1.,  0.,  0.,  0.,  0.,  1.,  1.,  2.])

In [21]:
# 모든 요소에 대해 제곱계산
(fish_data - mu) ** 2

array([4., 1., 1., 0., 0., 0., 0., 1., 1., 4.])

In [22]:
np.sum((fish_data - mu) ** 2)

12.0

In [23]:
# 함수를 사용한 표본 분산
np.var(fish_data, ddof = 0)

1.2

### 3.1.6 불편 분산

* 표본분산: 표본의 평균을 사용해서 분산을 계산 → 분산을 과소추정하는 경향이 있음
* 불편분산: 과소추정 경향 해소

In [24]:
# 불편 분산
sigma_2 = np.sum((fish_data - mu) ** 2) / (N - 1)
sigma_2

1.3333333333333333

In [25]:
# 불편 분산 : ddof = 1을 지정
np.var(fish_data, ddof = 1)

1.3333333333333333

### 3.1.7 표준 편차

In [26]:
# 표준 편차
sigma = np.sqrt(sigma_2)
sigma

1.1547005383792515

In [27]:
# 함수를 사용한 표준 편차
# 불편분산에 루트값을 취해서 표준편차를 구하는 경우, ddof=1로 설정
np.std(fish_data, ddof = 1)

1.1547005383792515

### 3.1.8 표준화

* 데이터의 평균을 0으로, 표준편차(분산)를 1로 하는 변환
* 여러 변수를 다룰 때 평균값이 큰 변수와 작은 변수가 섞여 있으면 다루기 어려우므로, 표준화로 데이터를 비교하기 쉽게 함

In [28]:
# step1: 모든 데이터에서 평균값을 빼면, 데이터의 평균값이 0이 됨
fish_data - mu

array([-2., -1., -1.,  0.,  0.,  0.,  0.,  1.,  1.,  2.])

In [29]:
np.mean(fish_data - mu)

0.0

In [30]:
# step2: 모든 데이터를 표준편차로 나누면 표준변차(분산)가 1이 됨
fish_data / sigma

array([1.732, 2.598, 2.598, 3.464, 3.464, 3.464, 3.464, 4.33 , 4.33 ,
       5.196])

In [31]:
np.std(fish_data / sigma, ddof = 1)

1.0

In [32]:
# 표준화: 위의 두 변환을 합침(step1 + step2) 
standard = (fish_data - mu) / sigma
standard

array([-1.732, -0.866, -0.866,  0.   ,  0.   ,  0.   ,  0.   ,  0.866,
        0.866,  1.732])

In [33]:
# 0 또는 0과 다름없을 정도로 한없이 작은 값이 출력
np.mean(standard)

2.2204460492503132e-17

In [34]:
# 표준편차가 1로 출력
np.std(standard, ddof = 1)

1.0

### 3.1.9 그 외의 통계량

In [35]:
# 최댓값
np.amax(fish_data)

6

In [36]:
# 최소값
np.amin(fish_data)

2

In [37]:
# 중앙값
np.median(fish_data)

4.0

이상치(100)가 표함된 데이터의 평균과 중앙값 비교

In [38]:
fish_data_2 = np.array([2,3,3,4,4,4,4,5,5,100])

In [39]:
#평균은 이상치에 큰 영향을 받는다
np.mean(fish_data_2)

13.4

In [40]:
# 중앙값은 이상치에 덜 민감하다
np.median(fish_data_2)

4.0

### 3.1.10 scipy.stats와 사분위수
* 사분위수: 데이터를 순서대로 늘어놓았을 때, 아래에서부터 25%, 75%에 해당하는 값

In [41]:
from scipy import stats

In [42]:
fish_data_3 = np.array([1,2,3,4,5,6,7,8,9])
stats.scoreatpercentile(fish_data_3, 25)

3.0

In [43]:
stats.scoreatpercentile(fish_data_3, 75)

7.0

________________________________
# 정리

### fish_data를 활용하여 아래 값을 구하는 코드를 작성해보세요

In [44]:
fish_data = np.array([2,3,3,4,4,4,4,5,5,6])

In [56]:
# 합계


4.0

In [58]:
# 샘플사이즈


10

In [47]:
# 평균값


In [60]:
# 표본분산


1.2

In [61]:
# 불편분산


1.3333333333333333

In [62]:
# 표준편차


1.0954451150103321

In [65]:
# 표준화 (data - 평균) / 표준편차


array([-1.826, -0.913, -0.913,  0.   ,  0.   ,  0.   ,  0.   ,  0.913,
        0.913,  1.826])

In [66]:
# 최대값


6

In [67]:
# 최소값


2

In [68]:
# 중앙값


4.0

In [72]:
# 사분위수(25%)


3.25

In [73]:
# 사분위수(75%)


4.75

In [70]:
dir(stats)

 'NumericalInverseHermite',
 '__all__',
 '__builtins__',
 '__cached__',
 '__doc__',
 '__file__',
 '__loader__',
 '__name__',
 '__package__',
 '__path__',
 '__spec__',
 '_binned_statistic',
 '_binomtest',
 '_boost',
 '_bootstrap',
 '_common',
 '_constants',
 '_continuous_distns',
 '_crosstab',
 '_discrete_distns',
 '_distn_infrastructure',
 '_distr_params',
 '_entropy',
 '_hypotests',
 '_ksstats',
 '_mannwhitneyu',
 '_multivariate',
 '_page_trend_test',
 '_qmc',
 '_qmc_cy',
 '_relative_risk',
 '_rvs_sampling',
 '_sobol',
 '_stats',
 '_stats_mstats_common',
 '_tukeylambda_stats',
 '_wilcoxon_data',
 'alexandergovern',
 'alpha',
 'anderson',
 'anderson_ksamp',
 'anglit',
 'ansari',
 'arcsine',
 'argus',
 'barnard_exact',
 'bartlett',
 'bayes_mvs',
 'bernoulli',
 'beta',
 'betabinom',
 'betaprime',
 'biasedurn',
 'binned_statistic',
 'binned_statistic_2d',
 'binned_statistic_dd',
 'binom',
 'binom_test',
 'binomtest',
 'boltzmann',
 'bootstrap',
 'boschloo_exact',
 'boxcox',
 'boxcox_llf',