In [1]:
import warnings
warnings.filterwarnings('ignore')

# Pandas를 활용한 통계

In [2]:
import pandas as pd
import numpy as np

In [3]:
df = pd.DataFrame(np.random.rand(10), columns=['random'])

In [4]:
df1 = pd.DataFrame(np.arange(5), columns=['number'])

In [5]:
df1

Unnamed: 0,number
0,0
1,1
2,2
3,3
4,4


In [6]:
df2 = pd.DataFrame(np.arange(5, 10), columns=['number'])

In [7]:
df2

Unnamed: 0,number
0,5
1,6
2,7
3,8
4,9


## 산술연산

In [8]:
df1+df2

Unnamed: 0,number
0,5
1,7
2,9
3,11
4,13


In [9]:
df1.add(df2)

Unnamed: 0,number
0,5
1,7
2,9
3,11
4,13


In [10]:
df1-df2

Unnamed: 0,number
0,-5
1,-5
2,-5
3,-5
4,-5


In [11]:
df1*df2

Unnamed: 0,number
0,0
1,6
2,14
3,24
4,36


In [12]:
df1/df2

Unnamed: 0,number
0,0.0
1,0.166667
2,0.285714
3,0.375
4,0.444444


In [13]:
df1%df2

Unnamed: 0,number
0,0
1,1
2,2
3,3
4,4


## 통계

### 1. 합계

In [14]:
df.head(10)

Unnamed: 0,random
0,0.173491
1,0.428331
2,0.780741
3,0.378284
4,0.457247
5,0.91608
6,0.213652
7,0.475844
8,0.841918
9,0.707037


In [15]:
df.sum(axis=0)

random    5.372625
dtype: float64

In [16]:
df.sum(axis=1)

0    0.173491
1    0.428331
2    0.780741
3    0.378284
4    0.457247
5    0.916080
6    0.213652
7    0.475844
8    0.841918
9    0.707037
dtype: float64

### 2. 평균

In [17]:
df.mean(axis=0, skipna=False)

random    0.537263
dtype: float64

In [18]:
df.mean(axis=1, skipna=False)

0    0.173491
1    0.428331
2    0.780741
3    0.378284
4    0.457247
5    0.916080
6    0.213652
7    0.475844
8    0.841918
9    0.707037
dtype: float64

### 3. 누적합계

In [19]:
df.cumsum()

Unnamed: 0,random
0,0.173491
1,0.601822
2,1.382564
3,1.760848
4,2.218095
5,3.134174
6,3.347826
7,3.82367
8,4.665589
9,5.372625


### 4. 최소값, 최대값이 있는 index 반환

In [20]:
sample = np.random.rand(10)

In [21]:
sample

array([0.30573748, 0.44582172, 0.30509809, 0.40919808, 0.95425256,
       0.44773789, 0.72036335, 0.71820863, 0.89821489, 0.30816893])

In [22]:
sample = sample.reshape(5, 2)

In [23]:
sample

array([[0.30573748, 0.44582172],
       [0.30509809, 0.40919808],
       [0.95425256, 0.44773789],
       [0.72036335, 0.71820863],
       [0.89821489, 0.30816893]])

In [24]:
df1 = pd.DataFrame(sample, columns=['number1', 'number2'])

In [25]:
df1

Unnamed: 0,number1,number2
0,0.305737,0.445822
1,0.305098,0.409198
2,0.954253,0.447738
3,0.720363,0.718209
4,0.898215,0.308169


In [26]:
df1.idxmin()

number1    1
number2    4
dtype: int64

In [27]:
df1.idxmax()

number1    2
number2    3
dtype: int64

### 5. 중간값

**중앙값**(median) 또는 중위수는 어떤 주어진 값들을 크기의 순서대로 정렬했을 때 가장 중앙에 위치하는 값을 의미한다. 예를 들어 1, 2, 100의 세 값이 있을 때, 2가 가장 중앙에 있기 때문에 *2가 중앙값*이다.

값이 짝수개일 때에는 중앙값이 유일하지 않고 두 개가 될 수도 있다. 이 경우 그 두 값의 평균을 취한다. 예를 들어 *1, 10, 90, 200 네 수의 중앙값은 10과 90의 평균인 50*이 된다.

중앙값(median)은 전체 데이터 중 가운데에 있는 수이다. 직원이 100명인 회사에서 직원들 연봉 평균은 5천만원인데 사장의 연봉이 100억인 경우, 회사 전체의 연봉 평균은 1억 4,851만원이 된다. 이처럼 **극단적인 값이 있는 경우 중앙값이 평균값보다 유용**하다.

In [28]:
df1.median()

number1    0.720363
number2    0.445822
dtype: float64

### 평균 절대편차, 분산, 표준편차에 들어가기에 앞서...

**평균 절대편차**, **분산**, **표준편차** 모두 얼마나 값들이 퍼져있는 지 정도를 표현했다고 볼 수 있다.

### 6. 평균 절대편차

**평균 절대 편차**(average absolute deviation 또는 mean absolute deviation, AAD, MAD) 또는 **평균 편차(mean deviation)** 또는 **절대 편차**(absolute deviation)는 산포도의 하나로, **평균과 개별 관측치 사이 거리의 평균**이다. 각 측정치에서 전체 평균을 뺀 절댓값으로 표시되는 편차의 산술평균을 말한다. 매우 크거나 작은 어느 하나의 값인 이상치로 인한 문제점을 보완할 수 있는 방법으로 사용되고 있다. 평균편차에는 모집단 평균편차와 표본 평균편차 두 가지 종류가 있다.

평균 대신 중앙값을 쓸 경우 중앙값 절대 편차이다.

MAD = median(|Yi – median(Yi|)

예제) 다음과 같은 숫자들의 MAD를 구하세요: 3, 8, 8, 8, 8, 9, 9, 9, 9.

STEP 1: 먼저, Median을 찾습니다. 여기서 Median은 8 입니다.<br>

STEP 2: 다음의 공식을 이용하여 값들과 Median의 절대값을 찾습니다.
<br>
|yi – median|.
<br>
<br>
|3 – 8| = 5<br>
|8 – 8| = 0<br>
|8 – 8| = 0<br>
|8 – 8| = 0<br>
|8 – 8| = 0<br>
|9 – 8| = 1<br>
|9 – 8| = 1<br>
|9 – 8| = 1<br>
|9 – 8| = 1<br>
<br>
<br>
STEP 3: 구한 값들 중 Median을 찾습니다. (0,0,0,0,1,1,1,1,5) 의 Median은 1입니다.

In [29]:
df1.mad()

number1    0.265052
number2    0.100953
dtype: float64

### 7. 분산

통계학에서 분산(variance) 또는 변량은 관측값에서 평균을 뺀 값을 제곱하고, 그것을 모두 더한 후 전체 갯수로 나눠서 구한다. 

즉, 차이값의 제곱의 평균이다. 관측값에서 평균을 뺀 값인 편차를 모두 더하면 0이 나오므로 제곱해서 더한다.

나무위키 - [분산](https://namu.wiki/w/%EB%B6%84%EC%82%B0) 참고.

In [30]:
df1.var()

number1    0.098931
number2    0.023122
dtype: float64

### 8. 표준편차

**표준편차**는 해당 집단 내 각 표본의 측정값이 평균에서 어느 정도 떨어져 있는지를 나타내는 지표입니다.

표준 편차(standard deviation)는 분산을 제곱근한 것이다. 제곱해서 값이 뻥튀기 된 분산을 제곱근해서 다시 원래 크기로 만들어준다

나무위키 - [표준편차](https://namu.wiki/w/%ED%91%9C%EC%A4%80%20%ED%8E%B8%EC%B0%A8) 참고.

In [31]:
df1.std()

number1    0.314533
number2    0.152058
dtype: float64

### 9. 표본 비대칭도

In [32]:
df1.skew()

number1   -0.298097
number2    1.417573
dtype: float64

### 10. 표본 첨도 (4차 적률)

In [33]:
df1.kurt()

number1   -3.020753
number2    2.955620
dtype: float64

### 11. 퍼센트 변화량

In [34]:
df1.pct_change()

Unnamed: 0,number1,number2
0,,
1,-0.002091,-0.082149
2,2.127691,0.094184
3,-0.245102,0.604083
4,0.246891,-0.57092


## 정보 출력

In [35]:
df.count()

random    10
dtype: int64

In [36]:
df.describe()

Unnamed: 0,random
count,10.0
mean,0.537263
std,0.260084
min,0.173491
25%,0.390796
50%,0.466545
75%,0.762315
max,0.91608
