In [2]:
import numpy as np
import pandas as pd

# Jupyter Notebook의 출력을 소수점 이하 3자리로 제한
%precision 3

# DataFrame의 출력을 소수점 이하 3자리로 제한
# 구버전
# pd.set_option('precision', 3)

# DataFrame의 출력을 소수점 이하 3자리로 제한
pd.set_option('display.float_format', lambda x: f'{x:.3f}')


In [3]:
df = pd.read_csv('./data/ch2_scores_em.csv', index_col='student number')

# df의 처음 5행을 표시
df.head()

Unnamed: 0_level_0,english,mathematics
student number,Unnamed: 1_level_1,Unnamed: 2_level_1
1,42,65
2,69,80
3,56,63
4,41,63
5,57,76


In [4]:
scores = np.array(df['english'])[:10]
scores

array([42, 69, 56, 41, 57, 48, 65, 49, 65, 58])

In [5]:
scores_df = pd.DataFrame({'score':scores},
                         index=pd.Index(['A','B', 'C', 'D', 'E', 'F' , 'G', 'H', 'I', 'J']))

scores_df

Unnamed: 0,score
A,42
B,69
C,56
D,41
E,57
F,48
G,65
H,49
I,65
J,58


In [6]:
np.mean(scores)

55.000

In [7]:
scores_df.mean()

score   55.000
dtype: float64

In [8]:
sorted_scores = np.sort(scores)
sorted_scores

array([41, 42, 48, 49, 56, 57, 58, 65, 65, 69])

In [9]:
n = len(sorted_scores)
if n % 2 == 0:
    m0 = sorted_scores[n//2 -1]
    m1 = sorted_scores[n//2]
    median = (m0 + m1) / 2
else:
    median = sorted_scores[(n+1)//2 - 1]
median

56.500

In [10]:
np.mean(scores)

55.000

In [11]:
scores_df.median()

score   56.500
dtype: float64

### 최빈값

- 최빈값은 데이터에서 가장 많이 나타나는 값입니다. 
- DataFrame이나 Series의 mode 메서드를 사용해서 구할 수 있습니다.

In [12]:
pd.Series([1,1,1,2,2,3]).mode()

0    1
dtype: int64

In [13]:
pd.Series([1, 2, 3, 4, 5]).mode()

0    1
1    2
2    3
3    4
4    5
dtype: int64

## 데이터의 산포도 지표

### 분산과 표준편차

편차
- 편차는 각 데이터가 평균으로부터 어느 정도 떨어져 있는가를 나타내는 지표

In [14]:
mean = np.mean(scores)
deviation = scores - mean
deviation

array([-13.,  14.,   1., -14.,   2.,  -7.,  10.,  -6.,  10.,   3.])

In [15]:
another_scores = [50, 60, 58, 54, 51, 56, 57, 53, 52, 59]
another_mean = np.mean(another_scores)
another_deviation = another_scores - another_mean
another_deviation

array([-5.,  5.,  3., -1., -4.,  1.,  2., -2., -3.,  4.])

In [16]:
np.mean(deviation)

0.000

In [17]:
np.mean(another_deviation)

0.000

In [18]:
summary_df = scores_df.copy()
summary_df['deviation'] = deviation
summary_df

Unnamed: 0,score,deviation
A,42,-13.0
B,69,14.0
C,56,1.0
D,41,-14.0
E,57,2.0
F,48,-7.0
G,65,10.0
H,49,-6.0
I,65,10.0
J,58,3.0


In [19]:
summary_df.mean()

score       55.000
deviation    0.000
dtype: float64

분산

In [20]:
np.mean(deviation ** 2)

86.000

In [21]:

np.var(scores)

86.000

In [22]:
scores_df.var()

score   95.556
dtype: float64


Pandas와 Numpy의 분산 계산 결과는 왜 다를까?
- 분산에는 표본분산과 불편분산 두 종류가 있고, Numpy와 Pandas는 서로 다른 분산을 계산합니다.
- 이 장에서 설명하는 분산은 표본분산이며, Numpy에 기본으로 설정된 분산입니다.
- Pandas에 기본으로 설정된 분산은 불편분산입니다.
- Pandas로 표본분산을 계산하고 싶다면 var 메서드의 인수를 ddof=0 으로 설정하면 됩니다.


In [23]:
summary_df['square of deviation'] = np.square(deviation)
summary_df

Unnamed: 0,score,deviation,square of deviation
A,42,-13.0,169.0
B,69,14.0,196.0
C,56,1.0,1.0
D,41,-14.0,196.0
E,57,2.0,4.0
F,48,-7.0,49.0
G,65,10.0,100.0
H,49,-6.0,36.0
I,65,10.0,100.0
J,58,3.0,9.0
