In [9]:
import numpy as np
import scipy as sp # 통계량 계산 및 기본적인 데이터 분석에 사용되는 함수 패키지
%precision 3

'%.3f'

### 3.2 파이썬을 이용한 기술 통계: 일변량 1변량 데이터

#### 3.1.2 1변량 데이터

- 한가지 종류만 있는 데이터

In [10]:
fish_data = np.array([2,3,3,4,4,4,4,5,5,6])
fish_data

array([2, 3, 3, 4, 4, 4, 4, 5, 5, 6])

In [11]:
sp.sum(fish_data)

40

In [12]:
len(fish_data)

10

#### 3.1.4 평균값(기댓값)

In [13]:
N = len(fish_data)
sum_value = sp.sum(fish_data)
mu = sum_value/N
mu

4.0

In [14]:
sp.mean(fish_data)

4.0

#### 3.1.5 표본분산
- 각 데이터가 평균값에서 얼마나 떨어져 있는지에 대한 지표

In [21]:
sigma_2_sample = sp.sum((fish_data-mu)**2)/N
sigma_2_sample

1.2

In [23]:
sp.var(fish_data,ddof=0)

1.2

#### 3.1.6 불편분산
- 표본분산은 다소 과소추정된 경향이 있으므로, N-1로 나누어준 값이 불편 분산

In [29]:
sigma_2 = sp.sum((fish_data-mu)**2)/(N-1)
sigma_2

1.3333333333333333

In [30]:
sp.var(fish_data,ddof=1)

1.3333333333333333

#### 3.1.7 표준편차
- 분산은 그 단위가 너무 커졌으므로 루트를 취해 표준편차를 구함

In [31]:
sigma = sp.sqrt(sigma_2)
sigma

1.1547005383792515

In [32]:
sp.std(fish_data,ddof=1) ## 불편분산 구할때는 ddof=1

1.1547005383792515

#### 3.1.8 표준화
- 데이터값들의 평균을 0, 표준편차(분산)은 1로 변환하는 것이 표준화. 
- 각 단위가 다른 데이터 집단을 비교하기 어려우므로 하나로 표준화 시켜 비교하기 용이하게끔 해줌

In [35]:
# 데이터에서 평균값을 뺀 후 해당 값들의 평균을 구하면 0
fish_data - mu

array([-2., -1., -1.,  0.,  0.,  0.,  0.,  1.,  1.,  2.])

In [36]:
sp.mean(fish_data-mu)

0.0

In [37]:
# 각 데이터를 일률적으로 표준편차로 나눈 것들의 표준편차는 1

In [38]:
fish_data/sigma

array([1.732, 2.598, 2.598, 3.464, 3.464, 3.464, 3.464, 4.33 , 4.33 ,
       5.196])

In [39]:
sp.std(fish_data/sigma,ddof=1)

1.0

In [43]:
standard = (fish_data-mu) / sigma
standard

array([-1.732, -0.866, -0.866,  0.   ,  0.   ,  0.   ,  0.   ,  0.866,
        0.866,  1.732])

In [44]:
sp.mean(standard)

2.2204460492503132e-17

In [45]:
sp.std(standard,ddof=1)

1.0

#### 3.1.9 그 외의 통계량

In [46]:
sp.amax(fish_data)

6

In [47]:
sp.amin(fish_data)

2

In [49]:
sp.median(fish_data)

## 좌우가 대칭인 데이터는 중앙값,평균이 거의 같은 값

4.0

In [50]:
fish_data_2 = np.array([2,3,3,4,4,4,4,5,5,100])

In [51]:
sp.mean(fish_data_2) ## 극단 값은 평균값에 영향미침

13.4

In [54]:
sp.median(fish_data_2) ## 중앙값은 영향 X , 즉 중앙값은 이상치에 덜 민감하다

4.0

#### 3.1.10 scipy.stats의 사분위수

In [56]:
from scipy import stats ##통계 분석에 특화된 함수

In [60]:
fish_data_3 = np.array([1,2,3,4,5,6,7,8,9])
stats.scoreatpercentile(fish_data_3,25) ## 데이터 순서대로 정렬했을 때, 하위 25%를 의미

3.0

In [61]:
stats.scoreatpercentile(fish_data_3,75)

7.0

### 3.2 파이썬을 이용한 기술 통계: 다변량 데이터
- 여러 속성의 데이터 조합: 다변량 데이터
- 다변량 데이터는 깔끔하게 정리하는 것이 중요함

#### 깔끔한 데이터란?
- 의미와 구조가 데응하는 데이터.


1) 개별 값이 하나의 셀을 이룬다.

2) 개별 변수가 하나의 열을 이룬다.

3) 개별 관측이 하나의 행을 이룬다.

4) 개별 관측 유닛 유형이 하나의 표를 이룬다.


*** 행 하나에 1개의 결과가 있도록 정리하자

In [63]:
import pandas as pd

In [73]:
dict_value = {'species':['A','A','A','B','B','B'],
              'length':[2,3,4,6,8,10]}

fish_multi = pd.DataFrame(dict_value)
fish_multi

Unnamed: 0,species,length
0,A,2
1,A,3
2,A,4
3,B,6
4,B,8
5,B,10


#### 3.2.5 그룹별 통계량 구하기

In [76]:
group = fish_multi.groupby("species")
display(group.mean())

Unnamed: 0_level_0,length
species,Unnamed: 1_level_1
A,3
B,8


In [77]:
display(group.std())

Unnamed: 0_level_0,length
species,Unnamed: 1_level_1
A,1.0
B,2.0


In [78]:
group.describe()

Unnamed: 0_level_0,length,length,length,length,length,length,length,length
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max
species,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
A,3.0,3.0,1.0,2.0,2.5,3.0,3.5,4.0
B,3.0,8.0,2.0,6.0,7.0,8.0,9.0,10.0


#### 3.2.6 교차분석표 구현하기

In [81]:
shoes_dict = {'store':['tokyo','tokyo','osaka','osaka'],
              'color':['blue','red','blue','red'],
              'sales':[10,15,13,9]}
shoes = pd.DataFrame(shoes_dict)
shoes

Unnamed: 0,store,color,sales
0,tokyo,blue,10
1,tokyo,red,15
2,osaka,blue,13
3,osaka,red,9


In [83]:
cross = pd.pivot_table(
    data = shoes, #데이터 지정
    values = 'sales', # 데이터 모을 열 지정 
    aggfunc = 'sum', # 집계함수
    index= 'store', #교차분석표의 행 지정(groupby 열 지정과 동일)
    columns = 'color' #교차분석표의 열 지정
)
cross

color,blue,red
store,Unnamed: 1_level_1,Unnamed: 2_level_1
osaka,13,9
tokyo,10,15
