In [1]:
# CH02 1차원 데이터 정리
# 통계분석을 시작하는 첫걸음은 데이터를 정리하여 데이터의 특징을 대략적으로 파악하는 것
# 데이터의 개요를 파악하면 수많은 통계분석 기법 중에서 적절한 기법을 선택해 다음 걸음을 내딛을 수 있다

# 데이터의 특징을 파악하는 방법에는 크게 두 가지가 있다
# 하나는 평균이나 분산 등의 수치 지표에 따라 데이터를 요약하는 방법이고
# 다른 하나는 그림을 그려 시각적으로 데이터를 조감하는 방법이다

In [2]:
import numpy as np
import pandas as pd

# Jupyter Notebook의 출력을 소수점 이하 3자리로 제한
%precision 3

#DataFrame의 출력을 소수점 이하 3자리로 제한
pd.set_option('precision', 3)

In [3]:
df = pd.read_csv('../python_stat_sample-master/data/ch2_scores_em.csv', index_col = 'student number')
# df의 처음 5행을 표시
df.head()

Unnamed: 0_level_0,english,mathematics
student number,Unnamed: 1_level_1,Unnamed: 2_level_1
1,42,65
2,69,80
3,56,63
4,41,63
5,57,76


In [4]:
# 위의 데이터에서 10번까지의 데이터를 NumPy로 계산하기 위해 NumPy의 array 데이터 구조로 된 scores라는 이름으로 저장
# array는 수치 계산에 강점을 지닌 다차원 배열이다

In [5]:
scores = np.array(df['english'][:10])
scores

array([42, 69, 56, 41, 57, 48, 65, 49, 65, 58], dtype=int64)

In [6]:
# 마찬가지로 scores_df라는 이름으로 Pandas의 DataFrame을 작성한다
# DataFrame에는 10명의 학생 각각에 A, B, ... 라는 이름을 부여

In [7]:
scores_df = pd.DataFrame({'score' : scores}, index=pd.Index(['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J'], name = 'student'))
scores_df

Unnamed: 0_level_0,score
student,Unnamed: 1_level_1
A,42
B,69
C,56
D,41
E,57
F,48
G,65
H,49
I,65
J,58


In [8]:
# 2.1 데이터 중심의 지표
# 첫 번째 주제는 데이터를 중심으로 나타내는 지표이다
# 데이터를 하나의 값으로 요약한 지표이며 대푯값이라고도 부른다
# 예를 들어 어떤 시험의 난이도를 알고 싶다면 전체 학새으이 시험 점수를 확인하지 않더라도
# 평균 점수를 알면 파악할 수 있다
# 평균 점수가 30점이라면 시험이 어려웠음, 평균 점수가 90점이라면 시험이 쉬웠음을 의미

In [9]:
# 2.1.1 평균값
# 평균값, mean은 데이터를 모두 더한 뒤, 데이터의 개수로 나누어 구한다
# 파이썬으로 나타내는 방법은
sum(scores) / len(scores)

55.000

In [10]:
# NumPy를 사용하면
np.mean(scores)

55.000

In [11]:
# DataFrame에서는 mean 메서드를 사용하여 구할 수 있다
# Series에서도 동일하게 mean 메서드를 사용하여 평균을 구할 수 있다
scores_df.mean()

score    55.0
dtype: float64

In [12]:
# NumPy의 array에서도 mean 메서드가 있기 때문에 scores.mean()으로 평균을 구할 수 있지만
# NumPy의 함수를 사용하는 것으로 통일
# Pandas에서는 pd.mean()이라는 함수가 없기 때문에 DataFrame이나 Series의 메서드를 사용한다

# NumPY나 Pandas의 함수명은 통계 용어의 영어 단어를 그대로 쓰거나 약칭한 것이 대부분
# 주요 통계 용어는 영어 표현도 함께 기억해두자
# 통계 용어의 영어 표현을 기억하고 있으면 변수에 이름을 붙일 때 편리하다

In [13]:
# 2.1.2 중앙값
# 중앙값, median은 데이터를 크기 순서대로 나열할 때 정확하게 중앙에 위치한 값이다
# ex [9, 1, 5, 3, 7]이라는 데이터가 있다면 중앙값은? 5이다

# 중앙값은 평균값에 비해 이상값에 강하다는 특성이 있다
# 즉, 이상값에 영향을 덜 받는다는 의미!

# e.g. [1, 2, 3, 4, 5, 6, 1000] 이라는 큰 이상값을 포함한 데이터가 있다고 가정
# 이 데이터의 대푯값을 구하려고 할 때 평균값은 1000이라는 값에 크게 영향을 받음
# 150에 가까운 값이 된다
# 150이라는 수치는 이 데이터를 적절하게 표현한다고 할 수 없다
# 중앙값이라면 데이터의 개수가 7이므로 4번째인 4가 중앙값이 된다
# 즉, 데이터에 큰 이상이 있는 경우, 대푯값으로 평균값보다 중앙값이 적절하다

# 중앙값은 데이터를 순서대로 나열할 때 정확하게 중앙에 위치하는 값이지만
# 데이터의 개수가 짝수일 때는 중앙에 위치하는 값이 2개이다
# [1, 2, 3, 4, 5, 6] 이라는 데이터에서 중앙에 위치하는 값은 3과 4이다(쓰리 포!)
# 이 경우 중앙값은 두 값의 평균값으로 정의된다, 즉 3.5가 중앙값이 된다

In [14]:
# 영어 시험 점수의 중앙값을 구해보자
# 우선 점수를 크기순으로 나열해야 한다, 정렬하기 위해 np.sort를 사용
sorted_scores = np.sort(scores)
sorted_scores

array([41, 42, 48, 49, 56, 57, 58, 65, 65, 69], dtype=int64)

In [15]:
# 이 때 중앙값의 정의를 코드로 작성
# 파이썬 리스트의 인덱스는 0부터 시작하는 것에 주의!

n = len(sorted_scores)
if n % 2 == 0:
    m0 = sorted_scores[n//2 - 1]
    m1 = sorted_scores[n//2]
    median = (m0 + m1) / 2
else :
    median = sorted_scores[(n+1)//2 -1]
median

56.500

In [16]:
# NumPy
np.median(scores)

56.500

In [17]:
# DataFrame / Series
scores_df.median()

score    56.5
dtype: float64

In [18]:
# 2.1.3 최빈값
# 최빈값, mode는 데이터에서 가장 많이 나타나는 값
# 최빈값은 DataFrame이나 Series의 mode 메서드를 사용하여 구할 수 있다

pd.Series([1, 1, 1, 2, 2, 3]).mode()

0    1
dtype: int64

In [19]:
# 최빈값은 기본적으로는 질적 데이터의 대푯값을 구할 때 사용하는 지표
# 왜냐하면, 시험 점수와 같은 양적 데이터에서는 최빈값을 구하려고 해도 
# 완전히 동일한 점수가 여러 번 나오는 경우가 거의 없어, 유일한 값이 결정되지 않을 때가 많기 때문!
pd.Series([1, 2, 3, 4, 5]).mode()

0    1
1    2
2    3
3    4
4    5
dtype: int64

In [20]:
# 다만, 도수분포표를 도입하면 야야적 데이터에서도 최빈값을 자연스럽게 정의할 수 있다

In [21]:
# 2.2 데이터의 산포도 지표
# 2.2.1 분산과 표준편차

# 편차
# 산포도를 구하는 첫걸음은 편차, deviation을 알아보는 것!
# 편차는 각 데이터가 평균으로부터 어느 정도 떨어져 있는가를 나타내는 지표이다
# e.g. A 학생 점수가 42점이고 학생 10명의 점수가 55점이라면 A학생의 편차는 -13점이다
# NumPy에는 브로드캐스트라는 기능이 있으므로 이를 이용하면 편차를 구할 수 있다

# 브로드캐스트?
# 배열과 하나의 숫자와의 조합으로 이루어진 산술 연산을 수행하는 기능
# 숫자 하나와 배열의 원소별 계산이 한 번씩 수행된다

mean = np.mean(scores)
deviation = scores-mean
deviation

array([-13.,  14.,   1., -14.,   2.,  -7.,  10.,  -6.,  10.,   3.])

In [22]:
summary_df = scores_df.copy()
summary_df['deviation'] = deviation
summary_df

Unnamed: 0_level_0,score,deviation
student,Unnamed: 1_level_1,Unnamed: 2_level_1
A,42,-13.0
B,69,14.0
C,56,1.0
D,41,-14.0
E,57,2.0
F,48,-7.0
G,65,10.0
H,49,-6.0
I,65,10.0
J,58,3.0


In [23]:
summary_df.mean()

score        55.0
deviation     0.0
dtype: float64

In [24]:
# 분산
# 산포도의 지표로 각 데이터와 평균 간 차이를 나타내는 편차를 이용하는 것은 바람직한 생각이나
# 편차의 평균이 항상 0이 되므로 잘 사용하지 않는다

# 각각의 산포도라는 의미에서 보면 B 학생과 D 학생은 모두 평균이 14점 떨어져 있어 동일한 정도의 산포도를 갖고 있는 것 같다
# 이 때문에 평균보다 14점이 작든 크든 이 둘을 동일하게 취급하여 편차의 제곱을 이용한다
# 그리고 그 평균으로 정의되는 지표가 분산, variance가 된다

In [25]:
# 분산을 정의에 따라 계산
np.mean(deviation**2)

86.000

In [26]:
# NumPy에서는 var 함수로 계산할 수 있다
np.var(scores)

86.000

In [27]:
# DataFrame이나 Series에도 분산을 계산하는 var 메서드가 있지만 문제가 조금 있다
scores_df.var(0)

score    95.556
dtype: float64

In [28]:
# Pandas에서 계산한 분산은 다른 값이 된다
# 사실 분산에는 표본분산과 불편분산 두 종류가 있고
# NumPy와 Pandas는 서로 다른 분산을 게산한다
# 앞서 설명한 것은 표본분산이고 NumPy에서 기본으로 설정된 분산이고
# Pandas에서는 기본으로 불편분산이 설정되어 있다
# 불편분산은 추측통계에서 매우 중요한 역할을 하는 지표! 나중에 알아본다

# Pandas에서 표본분산을 계산하고 싶으면 var 메서드의 인수를 ddof=0이라고만 설정하면 된다
# 불편분산은 ddof=1일 때에 해당한다
# NumPy의 var 메서드에도 ddof 인수를 설정할 수 있고, 동일하게 동작한다
# NumPy와 Pandas의 기본 설정 독작이 달라 혼란스럽기 때문에, 분산을 계산할 때는
# 항상 ddof 인수를 설정하여 어떤 분산을 계산하는지 명시해두는 것이 좋다

In [29]:
# summary_df에 편차 제곱 열을 추가
summary_df['square of deviation'] = np.square(deviation)
summary_df

Unnamed: 0_level_0,score,deviation,square of deviation
student,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,42,-13.0,169.0
B,69,14.0,196.0
C,56,1.0,1.0
D,41,-14.0,196.0
E,57,2.0,4.0
F,48,-7.0,49.0
G,65,10.0,100.0
H,49,-6.0,36.0
I,65,10.0,100.0
J,58,3.0,9.0


In [30]:
summary_df.mean()

score                  55.0
deviation               0.0
square of deviation    86.0
dtype: float64

In [None]:
# 분산은 흔희 S^2로 표기한다
# 분산을 면적의 평균이라는 이미지로 바라보는 시각도 있다
# 왜냐하면 편차 제곱은 한 변의 길이가 편차인 정사각형의 면적으로 생각할 수 있기 때문
# 분산은 그렇게 한 변이 편차인 정사각혀으이 면적으로 생각할 수 있다
# 이렇게 연상하면 공분산을 쉽게 이해할 수 있을 것

In [33]:
# 표준편차
# 평균의 단위는 원래의 데이터 단위와 다르지 않으므로, 영어 시험 점수라면 평균도 점수라는 단위를 쓴다
# 결국 평균은 55점으로 표현할 수 있다
# 그러나, 분산은 점수의 면적으로 나타내므로 점수의 제곱이라는 이해하기 어려운 단위를 사용한다
# 영어 점수의 분산이 86점^2 이라고 말해도 그다지 감이 오지 않는다

# 이 때문에 원래의 데이터와 동일한 단위를 쓰는 산포도의 지표가 있다면 도움이 된다
# 그와 같은 산포도 지표로 분산에 제곱근을 취한 "표준편차, standard deviation"를 이용한다
# 분산에 제곱근을 취하면 되므로, np.var와 np.sqrt를 사용하여 계산할 수 있다

In [34]:
np.sqrt(np.var(scores, ddof=0))

9.274

In [35]:
# Numpy의 std 함수로 계산해도 된다
# std도 var과 마찬가지로 ddof 인수를 취하면 동일한 동작을 나타낸다
# e.g. ddof = 0으로 하면 표준분산에 제곱근을 취한 것이 출력된다
# DataFrame과 Series도 마찬가지

In [37]:
np.std(scores, ddof=0)

9.274