# 기초 통계량

명목형 변수의 기초통계량은 빈도수밖에 존재하지 않지만 연속형 변수의 경우 다양한 기초 통계량 값이 존재한다.

## #01. 준비작업

### [1] 패키지 참조

In [1]:
from pandas import read_excel

### [2] 데이터 준비

어느 회사의 1년간 월별 광고비와 매출액을 조사한 가상의 데이터

In [2]:
origin = read_excel('https://data.hossam.kr/pydata/ad-sales.xlsx', index_col="월")
origin

Unnamed: 0_level_0,광고비(백만원),매출액(억원)
월,Unnamed: 1_level_1,Unnamed: 2_level_1
1월,2,100
2월,142,1690
3월,122,298
4월,130,390
5월,185,590
6월,121,200
7월,101,190
8월,199,460
9월,221,660
10월,139,350


### [3] 데이터 전처리

In [3]:
df = origin.rename(columns={'광고비(백만원)': 'adv', '매출액(억원)': 'sales'})
df.index.name = 'month'
df

Unnamed: 0_level_0,adv,sales
month,Unnamed: 1_level_1,Unnamed: 2_level_1
1월,2,100
2월,142,1690
3월,122,298
4월,130,390
5월,185,590
6월,121,200
7월,101,190
8월,199,460
9월,221,660
10월,139,350


## #02. 기초통계량

### [1] 데이터의 범위

`최대값~최소값`의 구간을 의미

In [4]:
max_adv = df['adv'].max()
min_adv = df['adv'].min()

"광고비 구간은 {min}~{max}백만원 입니다.".format(max=max_adv, min=min_adv)

'광고비 구간은 2~237백만원 입니다.'

In [5]:
max_sales = df['sales'].max()
min_sales = df['sales'].min()

"매출액 구간은 {min}~{max}억원 입니다.".format(max=max_sales, min=min_sales)

'매출액 구간은 100~1690억원 입니다.'

### [2] 합계

In [6]:
sum_adv = df['adv'].sum()
sum_sales = df['sales'].sum()

"광고비의 총 합은 %d백만원이고, 매출액의 총 합은 %d억원 입니다." % (sum_adv, sum_sales)

'광고비의 총 합은 1768백만원이고, 매출액의 총 합은 6458억원 입니다.'

### [3] 평균

모든 값을 더한 후 개수로 나눈 값.

```
1, 2, 3, 4, 5, 100의 평균은 (1+2+3+4+5+100)/6 이므로 19.17이다.
```

평균은 특정 값이 다른 값들의 범위와 차이가 큰 경우 신뢰도가 떨어진다.

위의 데이터에서 100에 해당하는 값은 다른 값들에 비해 극단적으로 높다. 이러한 값을 극단치라고 한다.


In [7]:
mean_adv = df['adv'].mean()
mean_sales = df['sales'].mean()

"광고비의 평균은 %d백만원이고, 매출액의 평균은 %d억원 입니다." % (mean_adv, mean_sales)

'광고비의 평균은 147백만원이고, 매출액의 평균은 538억원 입니다.'

### [4] 분산, 표준편차

In [8]:
"광고비의 분산은 %f" % df['adv'].var()

'광고비의 분산은 3911.515152'

In [9]:
"광고비의 표준편차는 %f" % df['adv'].std()

'광고비의 표준편차는 62.542107'

### [5] 사분위 수

데이터 표본을 4개의 동일한 부분으로 나눈 값.

데이터를 순서대로 정렬하여 `25%`, `50%`, `75%`되는 지점의 수치를 **계산한 값**ㄷ

사분위수를 사용하여 데이터 집합의 범위와 중심 위치를 신속하게 평가할 수 있다.

이는 데이터를 이해하는 데 중요한 첫 번째 단계이다.

#### (1) 사분위 수의 종류

| 용어 | 설명 |
|--|--|
| 1사분위 수(Q1)     | 데이터의 하위 25%가 이 값보다 작거나 같음.             |
| 2사분위 수(Q2)     | 중위수 혹은 중앙값이라고도 함<br/>데이터의 50%가 이 값보다 작거나 같음. |
| 3사분위 수(Q3)     | 데이터의 하위 75%가 이 값보다 작거나 같음.(=상위 25%)  |
| 사분위간 범위(IQR) | 3사분위 수부터 1사분위 수 구간                         |

-   사분위수는 데이터의 관측치가 아닌 계산된 값이다.
-   실존하지 않는 값이기 때문에 사분위수를 정확하게 계산하려면 종종 두 관측치 사이를 보간해야 한다.
-   중위수와 사분위간 범위는 극단치의 영향을 받지 않기 때문에 평균 및 표준 편차보다 치우침이 많은 데이터의 중심 위치와 범위의 더 나은 측도가 될 수 있다.

> ex) 직장인의 평균 급여보다는 중위소독이 더 나은 측도가 될 수 있다.

#### (2) 수식을 활용하여 사분위수 구하기

##### 광고비 대한 1사분위 수의 index

$Q_1 = ((총도수 - 1) \times 0.25) + 1$

In [10]:
freq = len(df['adv'])
Q1 = (freq - 1) * 0.25 + 1
Q1

3.75

##### 실제 1사분위수 데이터

$Q_1$의 값이 `3.75`이므로 반올림 하여 인덱스가 4인 위치의 데이터를 선택

In [11]:
df['adv'].sort_values().values[round(Q1)]

130

##### 광고비에 대한 2사분위 수

| 구분 | 설명 | 통계식 |
|---|---|---|
| 데이터의 수가 홀수 | 모든 값을 순서대로 정렬한 후 가운데 위치의 값.<br/>`1, 2, 3, 4, 5`의 중앙값은 `3`이다. |  $m_e = x{(\frac{n+1}2)}$ |
| 데이터의 수가 짝수 | 모든 값을 순서대로 정렬한 후 가운데 두 값의 평균.<br/> `1, 2, 3, 4, 5, 6`의 중앙값은 `(3+4)/2`이므로 `3.5`이다. | $m_e = \frac{1}{2}{({x{\frac{n}{2}} + {x{\frac{n+1}{2}}}})}$ |

In [12]:
freq = len(df['adv'])
v = df['adv'].sort_values().values
v

array([  2, 101, 121, 122, 130, 139, 142, 169, 185, 199, 221, 237],
      dtype=int64)

In [13]:
if freq % 2 == 0:
    p = round(freq/2)
    q = round((freq+1)/2)
    print((v[p] + v[q])/2)
else:
    print(v[round((freq+1)/2)])

142.0


##### 광고비에 대한 3사분위 수의 인덱스

$Q_3 = ((총도수 - 1) * 0.75) + 1$

In [14]:
freq = len(df['adv'])
Q3 = (freq - 1) * 0.75 + 1
Q3

9.25

##### 3사분위 수의 실제 데이터

$Q_3$가 `7.75`이므로 반올림하여 인덱스가 8인 위치의 데이터 선택

In [15]:
df['adv'].sort_values().values[round(Q3)]

199

#### (3) 파이썬 기능을 활용한 사분위수 구하기

`quantile()` 메서드는 $Q_1$의 값이 `3.75`가 나온 경우 실제로 3번째와 4번째 데이터의 `75%` 지점의 값을 계산해서 반환하기 때문에 실제로 존재하는 데이터를 반환하지는 않는다.

In [16]:
print("Q1:", df['adv'].quantile(0.25))
print("Q2:", df['adv'].quantile(0.5))
print("Q2:", df['adv'].median())
print("Q3:", df['adv'].quantile(0.75))

Q1: 121.75
Q2: 140.5
Q2: 140.5
Q3: 188.5


### [6] 기초통계량 일괄 처리

#### (1) 기초통계량 표

In [17]:
df.describe()

Unnamed: 0,adv,sales
count,12.0,12.0
mean,147.333333,538.166667
std,62.542107,428.77454
min,2.0,100.0
25%,121.75,273.5
50%,140.5,425.0
75%,188.5,652.5
max,237.0,1690.0


#### (2) 기초통계량 표에 대한 전치 구하기

In [18]:
desc = df.describe()
desc.T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
adv,12.0,147.333333,62.542107,2.0,121.75,140.5,188.5,237.0
sales,12.0,538.166667,428.77454,100.0,273.5,425.0,652.5,1690.0
