# ch.3　Python을 이용한 데이터 분석

## 3.1　Python을 이용한 기술통계: 1변량 데이터

### 3.1.1 통계 처리와 scipy

In [26]:
# numpy와 scipy import하기
import numpy as np
import scipy as sp

# 소수점 이하 자릿수 3자리로 지정
%precision 3

'%.3f'

scipy: 통계량의 계산이나 기본적인 데이터 분석에 사용  
numpy: 위의 경우엔 통계량 저장을 위해 import 하였음.  
라고 하지만 작업을 하다보니 sp보단 np가 더욱 유용하게 쓰일 듯 하여 최대한 sp 대신 np를 사용해보도록 한다.

### 3.1.2 1변량 데이터의 관리

In [2]:
#물고기 몸길이 데이터 1변량 데이터로 저장
fish_data = np.array([2,3,3,4,4,4,4,5,5,6])
fish_data

array([2, 3, 3, 4, 4, 4, 4, 5, 5, 6])

### 3.1.3 합계와 샘플사이즈

In [7]:
# 합계값
sp.sum(fish_data)

  sp.sum(fish_data)


40

<ipython-input-8-e35d12f35cfc>:14:DisperationWarning:scipy.sum은 더 이상 사용되지 않으며 SciPy 2.0.0에서 제거되기 때문에 numpy를 사용하하는 안내가 뜬다.
sum_value = sp.sum(fish_data)

In [4]:
# 합계값
np.sum(fish_data)

40

In [5]:
# 합계값
fish_data.sum()

40

In [None]:
# 합계값
sum(fish_data)

굳이 scipy를 사용하지 않고, numpy와 파이썬 기본함수로도 사용 가능하다.  
하지만 같은 함수명을 사용해도 패키지에 따라 동작이 달라질 수 있다.

In [7]:
# 샘플사이즈 구하기
len(fish_data)

10

예외적으로 샘플 사이즈 구하는 것은 파이썬 기본함수인 len을 이용하였다.

### 3.1.4 평균값(기댓값)

평균값의 계산식  
$$
\mu=\frac{1}{N}\sum_{i=1}^{N}{x_i}
$$


In [18]:
# 평균값 계산식 파이썬 코드로 구현
N = len(fish_data)
sum_value = np.sum(fish_data)
mu = sum_value / N
mu

4.0

In [17]:
# numpy 사용하여 평균계산
np.mean(fish_data)

4.0

### 3.1.5 표본분산

표본분산 계산식
$$
\sigma^2=\frac{1}{N}\sum_{i=1}^{N}{(x_i-\mu)^2}
$$


In [12]:
# numpy에서 분산 구하기
sigma_2_sample = np.sum((fish_data - mu) ** 2) / N
sigma_2_sample

1.2

교재엔 sp로 나와있지만 np로 구해보았다. 2.00버전이면 sp가 더 이상 지원되지 않기에..!

In [19]:
# np.sum((fish_data - mu) ** 2) 를 이해하기 위해 하나하나 분해해보자.
fish_data

array([2, 3, 3, 4, 4, 4, 4, 5, 5, 6])

In [20]:
# 편차 array 형성
fish_data - mu

array([-2., -1., -1.,  0.,  0.,  0.,  0.,  1.,  1.,  2.])

In [13]:
# 편차 array 모든 요소 제곱
(fish_data - mu) ** 2

array([ 4.,  1.,  1.,  0.,  0.,  0.,  0.,  1.,  1.,  4.])

In [14]:
np.sum((fish_data - mu) ** 2)

12.000

In [22]:
# numpy로 분산 구하기_var함수 이용
np.var(fish_data, ddof = 0)

1.2

### 3.1.6 불편분산

불편분산 계산식
$$
\sigma^2=\frac{1}{N-1}\sum_{i=1}^{N}{(x_i-\mu)^2}
$$


In [27]:
# 불편분산 식 파이썬 코드로 구현
sigma_2 = np.sum((fish_data - mu) ** 2) / (N - 1)
sigma_2

1.3333333333333333

In [23]:
# numpy로 불편분산 구하기
np.var(fish_data, ddof = 1)

1.3333333333333333

### 3.1.7 표준편차

표준편차 계산식
$$
\sigma=\sqrt{\sigma^2}=\sqrt{\frac{1}{N-1}\sum_{i=1}^{N}{(x_i-\mu)^2}}
$$


In [29]:
# 파이썬코드로 표준편차 구현
sigma = np.sqrt(sigma_2)
sigma

1.1547005383792515

In [30]:
# numpy이용해서 표준편차 구하기
np.std(fish_data, ddof = 1)

1.1547005383792515

### 3.1.8 표준화

In [20]:
# 편차로 구성된 array 만들기
fish_data - mu

array([-2., -1., -1.,  0.,  0.,  0.,  0.,  1.,  1.,  2.])

In [21]:
# 편차의 평균값 = 0
np.mean(fish_data - mu)

0.000

In [22]:
# 데이터 / 표준편차 - 분산을 1로 만들기
fish_data / sigma

array([ 1.732,  2.598,  2.598,  3.464,  3.464,  3.464,  3.464,  4.33 ,
        4.33 ,  5.196])

In [31]:
np.std(fish_data / sigma, ddof = 1) #ddof는 자유도

1.0

In [33]:
standard = (fish_data - mu) / sigma
standard

array([-1.732, -0.866, -0.866,  0.   ,  0.   ,  0.   ,  0.   ,  0.866,
        0.866,  1.732])

In [34]:
np.mean(standard)

2.2204460492503132e-17

In [35]:
np.std(standard, ddof = 1)

1.0

### 3.1.9 그 외의 통계량

In [36]:
# 최대값
np.amax(fish_data)

6

In [37]:
# 최솟값
np.amin(fish_data)

2

In [38]:
# 중앙값
np.median(fish_data)

4.0

In [39]:
fish_data_2 = np.array([2,3,3,4,4,4,4,5,5,100])

In [40]:
np.mean(fish_data_2)

13.4

In [41]:
np.median(fish_data_2)

4.0

이상치: 데이터 중 다른 데이터에 비해 극적으로 치우친 값을 가지는 데이터  
- 평균값: 이상치에 민감하다 / 중앙값: 이상치에 덜 민감하다

### scipy.stats와 사분위수

In [44]:
from scipy import stats

In [52]:
fish_data_3 = np.array([1,2,3,4,5,6,7,8,9])
stats.scoreatpercentile(fish_data_3, 25)

3.0

In [54]:
stats.scoreatpercentile(fish_data_3, 75)

7.0

scipy.stats는 되는데 numpy는 안됩니다.

In [53]:
import numpy as np

fish_data_3 = np.array([1,2,3,4,5,6,7,8,9])
np.percentile(fish_data_3, 25)

np.percentile(fish_data_3, 75)

7.0

np를 이용하는 방법은 위와 같다. np.percentile을 사용하면 된다.