# 위치 통계량

통계량의 필요성 : 간단하게 확률분포 확인 
- 통계량 : 확률 분포의 특성을 나타내는 지표 의미
- 통계량 계산하는 기술통계(=기초통계) 바탕 -> 확률분포 간단하게 확인 가능 
- 변수가 많을 경우 훨씬 효율적 

통계량 종류 
- 대표 통계량 : 데이터의 중심 / 집중 경향 나타냄 (ex. 평균, 최빈값 등)
- 산포 통계량 : 데이터의 퍼진 정도 나타냄 (ex. 분산, 범위, 표준편차)
- 분포 통계량 : 데이터의 위치 정보 / 모양 나타냄 (ex. 왜도, 첨도, 사분위수, 최댓값, 최솟값)

--- 

## 기술통계량 
데이터의 특징 요약, 기술하는 통계량 

- 위치통계량(measure of location)
    - 데이터의 중심, 위치를 나타내는 척도(대표값)
    - 평균, 중위수, 절사평균, 최빈수, 사분위수 등 
- 변이통계량(measure of dispersion)
    - 데이터의 퍼짐, 흩어진 정도를 나타내는 척도(산포도)
    - 표준편차, 분산, 사분위간 범위 등 
- 모양 통계량(measure of shape)
    - 왜도 : 중심위치로 부터 어느 한쪽으로 치우친 정도를 나타내는 척도 
    - 첨도 : 분포의 뾰족한 정도

### 1. 위치통계량(중심경향성)

#### 평균(mean)
가장 많이 사용되는 대표값 
- 산술평균 : 모든 데이터의 합 / 데이터의 개수
    - 계산이 쉽고 수학적으로 활용하기 편리하며, 각 자료에 대해 유일한 값을 가짐 
    - 분산의 계산, 모수 추정, 가설 검정 등 통계분석의 대표적인 통계량으로 널리 사용됨 
    - 극단치가 있는 경우 평균이 왜곡될 수 있음 -> 이경우에는 대표값으로 중앙값을 사용 
- 모평균 : 값을 구하기 위한 모든 데이터들의 평균 
- 표준평균 :  모든 값을 구할 수 없기 때문에 신뢰도가 훼손되지 않는 선에서 값들을 추출하여 구한 평균 

#### 산술평균

In [4]:
 

import numpy as np
import pandas as pd
import matplotlib.pyplot  as plt

x = [1,2,3,4,5]
print(np.mean(x))
print(np.array(x).mean())
print(pd.Series(x).mean())

print()

# 이진변수에 대한 평균  - 이진변수에 대한 산술평균 : 1의 비율과 같음 
 
x1 = [1,0,0,0,1]
print(np.mean(x1))
print(np.array(x1).mean())
print(pd.Series(x1).mean())


3.0
3.0
3.0

0.4
0.4
0.4


In [7]:
df = pd.read_csv('c:\my_python\data\ch2_scores_em.csv', index_col = 'student number')
print(df.head())
print(df.shape)

                english  mathematics
student number                      
1                    42           65
2                    69           80
3                    56           63
4                    41           63
5                    57           76
(50, 2)


In [18]:
# 10개 영어점수만 추출 후 저장 

scores = np.array(df['english'])[:10]
scores # <class 'numpy.ndarray'>

array([42, 69, 56, 41, 57, 48, 65, 49, 65, 58], dtype=int64)

In [35]:
scores_df = pd.DataFrame({'scores':scores}, 
                          index = pd.Index(['A','B','C','D','E','F','G','H','I','J'],
                          name='student'))
scores_df


Unnamed: 0_level_0,scores
student,Unnamed: 1_level_1
A,42
B,69
C,56
D,41
E,57
F,48
G,65
H,49
I,65
J,58


In [42]:
# 산술평균
# scores : numpy 배열
# scores_df : pandas 데이터프레임
print(sum(scores)/len(scores))
print(np.mean(scores)) # 넘파이 평균 구하기
print(scores.mean()) # 넘파이 평균 구하기
print(scores_df.mean()) # 판다스 평균 구하기 
print()
#비교해보기 
x = [1,2,3,4,5]
print(np.mean(x))
print(np.array(x).mean())
print(pd.Series(x).mean())


55.0
55.0
55.0
scores    55.0
dtype: float64

3.0
3.0
3.0


#### 기하평균 
- n개의 양수 값을 모두 곱한것의 n제곱근 
- 성장률 평균 

- 아래 year데이터는 어느 회사의 매출 증가율을 수집해높은 데이터이다. 
- 1차년도에 200%, 2차년도에 800%, 3차년도에 300% 성장을 했다면 연평균 성장률은 어떻게 되는가?

In [44]:
year = [2,8,3]

#산술평균
print(np.mean(year)) # 4.333333333333333

# 매년 430% 성장으로 나타남 - 1차년도에 430퍼 2차년도 430퍼, 3차년도 430퍼 라면 전년대비 성장이므로
# 이 회사는 3개년동안 430*430*430 성장한게 되므로 총 79507000 성장한상황이 됨  

# 실제 성장은 200*800*300 이므로 차이가 많다. 

# 이렇게 곱하기를 해서 나오는 값에 대한 평균은 산술평균을 사용하면 의미가 달라짐 

# -> 기하평균을 사용해야함 


4.333333333333333


In [45]:
# 집합자료형을 인수로 받아 모든 원소를 곱한 결과를 반환하는 함수

def multiply(arr) :
    ans = 1
    for n in arr :
        if n == 0 :
            return 0
        ans *= n 
    return ans 

In [47]:
# 기하평균 
multiply(year) ** (1/len(year)) # 3.634241185664279

# 연평균 약 363% 증가함을 알 수 있음 
3.634*3.634*3.634 # 47.99044410399999

47.99044410399999

#### 조화평균
- mmean()함수 사용
- 비율 및 변화율에 대한 평균을 계산할 때 사용 
- 주어진 수들의 -> 역수들의 -> 산술평균에서 -> 역수를 취한 값 