## Chapter3 파이썬을 이용한 데이터 분석

### 3.1 파이썬을 이용한 기술통계:1변량 데이터

#### 3.1.1 통계 처리와 scipy
- 통계량의 계산이나 기본적인 데이터 분석에 사용되는 함수는 scipy패키지에 들어있음

In [4]:
import numpy as np 
import scipy as sp

#### 3.1.2 1변량 데이터의 관리
- 1변량 데이터:1가지 종류의 데이터만 가짐 ex.물고기의 몸길이

In [5]:
fish_data = np.array([2,3,3,4,4,4,4,5,5,6])
fish_data

array([2, 3, 3, 4, 4, 4, 4, 5, 5, 6])

#### 3.1.3 합계와 샘플사이즈
- 합계값을 계산하는 sp.sum()는 scipy2.0.0부터 사라질 예정
- 대신 np.sum()사용
- 샘플 사이즈를 계산하는 파이썬 표준 함수인 len()

In [6]:
np.sum(fish_data)

40

In [7]:
len(fish_data)

10

##### 3.1.4 평균값(기댓값)
- 합계값 / 샘플사이즈
- sp.mean() 함수 얘도 2.0.0 부터 지원안할예정
- 대신 np.mean() 사용

In [8]:
N = len(fish_data) #샘플사이즈
sum_value = np.sum(fish_data) #합계값
mu = sum_value / N #평균값
mu

4.0

In [9]:
np.mean(fish_data)

4.0

##### 3.1.5 표본분산
- 분산:데이터가 평균값에서 얼마나 떨어져있는지 나타내는 지표
- 편차제곱의 합을 샘플사이즈로 나눔
- sp.var() 함수 2.0.0부터 지원x
- 대신 np.var()

In [10]:
sigma_2_sample = np.sum((fish_data - mu) ** 2) / N
sigma_2_sample

1.2

In [11]:
np.var(fish_data, ddof=0) #ddof=delta degree of freedom(자유도)

1.2

##### 3.1.6 불편분산
- 과소추정된 분산을 피하기 위해 샘플사이즈 - 1

In [12]:
sigma_2 = np.sum((fish_data - mu)**2)/(N-1) #N이 아닌 N-1로 나눔
sigma_2 #분산이 조금 더 커진다

1.3333333333333333

In [13]:
np.var(fish_data, ddof=1) #자유도를 1로 지정

1.3333333333333333

##### 3.1.7 표준편차
- 분산에 루트를 취함
- sp.std() or np.std() 함수

In [14]:
sigma = np.sqrt(sigma_2)
sigma

1.1547005383792515

In [15]:
np.std(fish_data,ddof=1)

1.1547005383792515

##### 3.1.8 표준화
- 데이터의 평균을 0으로, 표준편차(분산)를 1로 변환
- 모든 데이터에서 평균값을 빼고
- 모든 데이터를 표준편차로 나눈다

In [16]:
fish_data - mu #데이터에서 평균값을 뺀다

array([-2., -1., -1.,  0.,  0.,  0.,  0.,  1.,  1.,  2.])

In [17]:
np.mean(fish_data-mu) #fish_data-mu의 평균이 0

0.0

In [18]:
fish_data/sigma #데이터를 표준편차로 나눠 데이터의 표준편차를 1로 만듦

array([1.73205081, 2.59807621, 2.59807621, 3.46410162, 3.46410162,
       3.46410162, 3.46410162, 4.33012702, 4.33012702, 5.19615242])

In [19]:
np.std(fish_data/sigma,ddof=1) #fish_data의 표준편차는 1이됨

1.0

In [20]:
standard=(fish_data-mu)/sigma #위 두 변환을 합쳐 평균이 0, 표준편차가 1인 데이터로 변환
standard

array([-1.73205081, -0.8660254 , -0.8660254 ,  0.        ,  0.        ,
        0.        ,  0.        ,  0.8660254 ,  0.8660254 ,  1.73205081])

In [21]:
np.mean(standard) #평균 확인

2.2204460492503132e-17

In [22]:
np.std(standard, ddof=1) #표준화된 데이터의 표준편차 확인

1.0

##### 3.1.9 그 외의 통계량
- 최대값, 최소값, 중앙값

In [23]:
np.amax(fish_data) #최대값

6

In [24]:
np.amin(fish_data) #최소값

2

In [25]:
np.median(fish_data) #중앙값:데이터를 순서대로 늘어놓았을 때 중간에 있는 수치

4.0

- 극단적으로 큰 물고기 한마리가 있는 경우

In [26]:
fish_data_2=np.array([2,3,3,4,4,4,4,5,5,100])

In [27]:
np.mean(fish_data_2) #평균값은 큰 물고기의 영향

13.4

In [28]:
np.median(fish_data_2) #중앙값 변화x

4.0

- fish_data_2의 100과 같은 값을 이상치라고 한다
- 평균값은 이상치에 민감하다

##### 3.1.10 scipy/stats와 사분위수
- 사분위수:데이터를 순서대로 늘어놓았을 때 아래에서부터 25%, 75%에 해당하는 값

In [29]:
from scipy import stats #scipy 패키지 안에 있는 통계 분석에 특화된 함수

In [30]:
fish_data_3 = np.array([1,2,3,4,5,6,7,8,9])
stats.scoreatpercentile(fish_data_3,25) #25%에 해당하는 값

3.0

In [31]:
stats.scoreatpercentile(fish_data_3,75) #75%에 해당하는 값


7.0