In [1]:
import numpy as np
import pandas as pd

# 출력을 소수점 이하 3자리로 제한
%precision 3
# DataFrame의 출력을 소수점 이하 3자리로 제한
pd.set_option('precision',3)

## 변수 초기화

In [2]:
df = pd.read_csv('python_stat_sample-master/data/ch2_scores_em.csv',index_col = 'student number')

# df의 처음 5행을 표시
df.head()

Unnamed: 0_level_0,english,mathematics
student number,Unnamed: 1_level_1,Unnamed: 2_level_1
1,42,65
2,69,80
3,56,63
4,41,63
5,57,76


In [3]:
scores = np.array(df['english'])[:10]
scores

array([42, 69, 56, 41, 57, 48, 65, 49, 65, 58], dtype=int64)

In [4]:
scores_df = pd.DataFrame({'scores':scores},index = pd.Index(['A','B','C','D','E','F','G','H','I','J'], name = 'student'))
scores_df

Unnamed: 0_level_0,scores
student,Unnamed: 1_level_1
A,42
B,69
C,56
D,41
E,57
F,48
G,65
H,49
I,65
J,58


## 중앙값
데이터를 크기 순서대로 나열할 때 정확하게 중앙에 위치한 값

- 중앙값은 평균값에 비해 이상값에 강하다(크게 튀는 값이 있으면 평균값은 대표값이 될 수 없음)
- 데이터의 개수 n이 홀수라면 (n+1)/2번째 데이터가 중앙값
- 데이터의 개수 n이 짝수라면 n/2번째와 n/2+1번째 데이터의 평균이 중앙값

In [5]:
# 순서대로 나열
sorted_scores = np.sort(scores)
sorted_scores

array([41, 42, 48, 49, 56, 57, 58, 65, 65, 69], dtype=int64)

In [6]:
np.median(scores)

56.5

In [7]:
scores_df.median()

scores    56.5
dtype: float64

## 최빈값
데이터에서 가장 많이 나타나는 값
질적 데이터의 대푯값을 구할 때 사용되는 지표

* 도수분포표를 도입하면 양적 데이터에서도 최빈값을 자연스럽게 정의할 수 있다

In [8]:
pd.Series([1,1,1,2,2,3]).mode()

0    1
dtype: int64

# 데이터의 산포도 지표

## 분산과 표준편차

### 편차(Deviation)
편차는 각 데이터가 평균으로 부터 얼마나 떨어져 있는가를 나타내는 지표이다

In [9]:
mean = np.mean(scores)
deviation = scores - mean
deviation

array([-13.,  14.,   1., -14.,   2.,  -7.,  10.,  -6.,  10.,   3.])

In [10]:
another_scores = [50,60,58,54,51,56,57,53,52,59]
another_mean = np.mean(another_scores)
another_deviation = another_scores-another_mean
another_deviation

array([-5.,  5.,  3., -1., -4.,  1.,  2., -2., -3.,  4.])

### 분산(variance)
편차를 이용하는 것은 바람직한 생각이지만, 편차의 평군이 항상 0이 되므로 잘 사용하지 않음
따라서 편차의 제곱의 평균을 사용함

표본분산은 n으로 나누는 것이고 불편분산은 n-1로 나눈다

모집단의 분산값은 불편분산과 같으므로 통계에서 대부분은 불편분산이다


In [12]:
np.mean(deviation ** 2)

86.0

In [13]:
# numpy는 표본분산
np.var(scores)


86.0

In [18]:
# pandas는 불편분산
scores_df.var()

scores    95.556
dtype: float64

In [17]:
# ddof 파라미터를 0으로 바꾸면 표본분산을 계산할 수 있다
scores_df.var(ddof=0)

scores    86.0
dtype: float64

### 표준편차(standard deviation)
분산은 평균이나 원 데이터와 같은 단위를 사용하지 않는다

예를 들면 시험점수는 몇 점, 시험점수의 평균은 평균 몇 점처럼 표현을 하지만 분산은 (원 점수 - 평균점수)^2 이기 때문에 같은 단위를 사용할 수 없다

원래의 데이터와 동일한 단위를 쓰는 산포도의 지표를 얻기 위해 분산에 제곱근을 취한 표준편차를 사용한다

In [19]:
np.sqrt(np.var(scores,ddof=0))

9.273618495495704

In [20]:
np.std(scores,ddof=0)

9.273618495495704

표준편차는 1 시그마라는 단위가 되어 평균에 더하거나 뺌으로서 시그마 구간을 만든다
- 평균 +- 1시그마 == 1시그마 구간
- 평균 +- 2시그마 == 2시그마 구간
- 평균 +- 3시그마 == 3시그마 구간


## 범위와 사분위 범위

### 사분위 범위(Interquartile range)
범위는 최대값과 최소값만 보기 때문에 큰 이상값이 하나라도 있으면 범위도 크게 변화한다.

따라서 데이터의 상위소%에 위치하는 값과 하위수%에 위치하는 값의 차이를 취하는 방법을 사용한다

- Q1 == 25%
- Q2 == 50%
- Q3 == 75%
- IQR == Q3 - Q1

In [21]:
scores_Q1 = np.percentile(scores,25)
scores_Q3 = np.percentile(scores,75)
scores_IQR = scores_Q3 - scores_Q1
scores_IQR

15.0

## 데이터의 지표 정리

In [22]:
pd.Series(scores).describe()

count    10.000
mean     55.000
std       9.775
min      41.000
25%      48.250
50%      56.500
75%      63.250
max      69.000
dtype: float64

## 데이터의 정규화

### 표준화
데이터에서 평균을 빼고 표준편차로 나누는 작업을 표준화(standardization)라고 하며 , 표준화된 데이터를 표준화 변량(standardized data)이나 Z점수(z-score) 라고 한다

$z_i=\frac{x_{i}-\overline{x}}{S}$

In [24]:
z = (scores - np.mean(scores))/np.std(scores)
z

array([-1.402,  1.51 ,  0.108, -1.51 ,  0.216, -0.755,  1.078, -0.647,
        1.078,  0.323])

In [26]:
# 표준화된 데이터는 평균이 0, 표준편차가 1
np.mean(z),np.std(z)

(-1.6653345369377347e-17, 0.9999999999999999)

### 편찻값
평균이 50, 표준편차가 10이 되도록 정규화한 값을 말한다

$z_{i} = 50 + 10*\frac{x_{i}-\overline{x}}{S}$

In [28]:
z = 50 + 10*(scores - np.mean(scores))/np.std(scores)
z

array([35.982, 65.097, 51.078, 34.903, 52.157, 42.452, 60.783, 43.53 ,
       60.783, 53.235])

In [30]:
scores_df['deviation value'] = z
scores_df

Unnamed: 0_level_0,scores,deviation value
student,Unnamed: 1_level_1,Unnamed: 2_level_1
A,42,35.982
B,69,65.097
C,56,51.078
D,41,34.903
E,57,52.157
F,48,42.452
G,65,60.783
H,49,43.53
I,65,60.783
J,58,53.235
