In [1]:
import numpy as np
from scipy.stats import *
import pandas as pd

# 산술 평균 계산
---

![image](https://user-images.githubusercontent.com/74717033/133614667-a554cda7-1b11-4464-a2b1-9b0e77ca5676.png)

---
- 모든 관측치의 값을 더한뒤에 관측치의 개수로 나눈 것.
- 가장 널리 사용되는 평균으로 **연속형 변수** 에 사용한다.
- 이진 변수에 대한 산술 평균은 **1의 비율**과 같다.
    - e.g)
    - 1,0의 값을 갖는 이진변수 100개의 관측치가 있다.
    - 이때, 값이 1인 관측치가 60개라면, 값이 0인 관측치는 당연히 40개이다.
    - 이 경우, 이진변수(1,0)에 대한 산술평균은 0.6 이고, 이는 1의 비율과 같다.

- 다른 관측치에 비해 *매우 크거나 작은 값*(=이상치) 에 크게 영향을 받는다.

## 산술평균 구현 코드

- numpy.mean(x)
- numpy.array(x).mean()
- Series(x).mean()

In [2]:
x = [1, 2, 3, 4, 5]

print(np.mean(x))

# ndarray형태로 바꾼뒤 평균 구하기
print(np.array(x).mean())

# series형태로 바꾼뒤 평균 구하기
print(pd.Series(x).mean())

3.0
3.0
3.0


In [3]:
# 이진 변수에 대한 평균
x = [1, 0, 0, 0, 1]
print(np.mean(x))

0.4


- 5개의 관측치 중 1의 개수는 2개 이므로 1의 비율은 2/5 = 0.4이다.

# 조화 평균
---
![image](https://user-images.githubusercontent.com/74717033/133614723-e67776dd-3869-4bc4-9a58-1c70c95e18d2.png)

---

- 비율 및 변화율등에 대한 평균을 계산할 때 사용
- 데이터 역수의 합에 대한 평균을 구한 것
- f1 score의 재현율, 정밀도의 평균을 구할때 많이 사용

## 조화평균 구현코드

- len(x) / numpy.sum(1/x)
- scipy.stats.hmean(x)

In [4]:
x = np.array([0.1, 0.2, 0.3, 0.4, 0.5])
print(len(x) / np.sum(1/x))
print(hmean(x))

0.21897810218978103
0.21897810218978103


# 절사 평균
---
![image](https://user-images.githubusercontent.com/74717033/133614925-5f5b6959-0ab4-4fe5-aa42-9d4ac208f85d.png)

---

- 데이터에서 a ~ 1 - a 범위에 속하는 데이터에 대해서만 평균을 낸 것
    - e.g)
    - 데이터가 100개가 있을때 1 ~ 100등까지 순서를 매긴다.
    - 1 ~ 10등, 90 ~ 100등의 수는 평균을 구할때 제외하고 평균을 구한다.
    - 위의 값들이 너무 크거나 작아서(이상치) 평균값에 영향을 많이 끼칠 수 있기 때문에 제외하는 것.
- 절사평균을 통해 조금더 안정적인 대표값을 구할 수 있다는 장점이 있다.
- 반면에 a(알파)값을 어떻게 선정하는 것이 가장 안정적인 대표값을 구할 수 있는 것인가에 대한 문제가 남아있다.

## 절사평균 구현 코드

- scipy.stats.trim_mean(x, proportitiontocut)

proportiontocut : 절단할 비율 (a, 알파값)

## 왜 절사평균이 필요할까?

In [5]:
# 평균이 2백만원이고 표준편차가 50만원인 정규 분포를 따르는 소득을 갖는 100명 생성
np.random.seed(42)
income = np.random.normal(2000000, 500000, 100)
print(np.mean(income))

1948076.7413029529


In [6]:
income = np.append(income, 10**9) # 갑자기, 소득이 10억원인 사람의 등장 (=이상치)
print(np.mean(income)) # 100명의 소득이 약 200만원에 가까운데, 한 명 때문에 대표값인 평균이 약 1200만원에 달함

11829778.951785102


- 위와 같이 이상치로 인해 전체적인 평균값이 왜곡되는 현상이 발생하기 때문

## 절사 평균 계산

In [7]:
trim_mean(income, 0.2) 
# proportiontocut은 0.2 -> 앞뒤 20%씩 자르고, [20% ~ 80%] 사이의 값에 대한 평균만 구하는 것

1963340.8417787259

# 최빈값
---

- 한 변수가 **가장 많이 취한 값**을 의미한다.
    - 하나의 범주형 변수인 컬럼에서 가장 많이 나온 값(최빈값)
- 범주형 변수에 대해서만 적용된다.

## 최빈값 구현 코드
---

- scipy.stats.mode(x)
- Series.value_counts().index[0]
    - 단 Series를 이용한 방법은 최빈값이 2개 이상 나올시 사용불가.
    - 때문에 실제로는 scipy의 mode함수를 사용하는것이 더 안전하다.

In [8]:
# A, B, C중 한개의 값만 1000번 뽑기
np.random.seed(42)
x = np.random.choice(['A', 'B', 'C'], 1000) 

# 맨 앞의 10개만 확인
x[:10]

array(['C', 'A', 'C', 'C', 'A', 'A', 'C', 'B', 'C', 'C'], dtype='<U1')

In [9]:
mode(x) # [0]: 최빈값, [1]: 빈도

ModeResult(mode=array(['A'], dtype='<U1'), count=array([355]))

즉, 최빈값은 A이고, 그 횟수는 355회이다.

In [10]:
pd.Series(x).value_counts().index[0] # 맨 앞에 있는 것이 최빈 값

'A'