In [8]:
import numpy as np
import pandas as pd


# 쥬피터와 DataFrame의 출력을 소수점 이하 3자리로 제한
%precision 3
pd.set_option("display.precision", 3)

df = pd.read_csv("../data/ch2_scores_em.csv", index_col="student number")
scores = np.array(df["english"])[:10]
scores_df = pd.DataFrame({'score': scores}, index=pd.Index(['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J'], name="student"))


# 2.3. 데이터의 정규하
시험 점수는 동일한 60점이라도, 평균 점수가 30점인 어려운 시험에서 얻은 60점과 펑균 점수가 90점인 쉬운 시험에서 얻은 60점은 상대적인 결과가 다르다.
점수라는 지표는 그 시험의 평균이나 분산에 따라 평가가 달라진다. 그러므로 평균이나 분산에 의존하지 않고도 데이터의 상대적인 위치 관계를 알 수 있는 지표가 있다면 편리할 것이다.

이와 같은 대표적인 지표로 편찻값이 있다. 평균이나 분산이 어떻게 나오든, 편찻값이 50이면 평균 결과이고 편찻값이 60이면 상위 결과라는 통일된 평가를 할 수 있다.
이처럼 데이터를 통일된 지표로 편환하는 것을 **정규화(normalization)**라고 한다.

## 2.3.1 표준화(standardization)
데이터에서 평균을 빼고 표준편차로 나누는 작업을 **표준화**라고 한다.
표준화된 데이터를 **표준화 변량(standardized data)**이나 **Z 점수(z-score)**라고 한다.

시험 점수를 표준화해보자.

In [9]:
z = (scores - np.mean(scores)) / np.std(scores)
z

array([-1.402,  1.51 ,  0.108, -1.51 ,  0.216, -0.755,  1.078, -0.647,
        1.078,  0.323])

표준화된 데이터는 평균이 0, 표준편차가 1이 된다.

In [10]:
np.mean(z), np.std(z, ddof=0)

(-0.000, 1.000)

## 2.3.1 편찻값
편찻값은 평균이 50, 표준편차가 10이 되도록 정규화 한 값을 말한다.

In [11]:
z = 50 + 10 * (scores - np.mean(scores)) / np.std(scores)
z

array([35.982, 65.097, 51.078, 34.903, 52.157, 42.452, 60.783, 43.53 ,
       60.783, 53.235])

In [12]:
scores_df['deviation value'] = z
scores_df

Unnamed: 0_level_0,score,deviation value
student,Unnamed: 1_level_1,Unnamed: 2_level_1
A,42,35.982
B,69,65.097
C,56,51.078
D,41,34.903
E,57,52.157
F,48,42.452
G,65,60.783
H,49,43.53
I,65,60.783
J,58,53.235


편찻값이라는 지표를 통하여, 어떤 학생이 평균적인 성적을 얻었고 어떤 학생이 우수한 성적을 얻었는지 하눈눈에 파악할 수 있다.