## 1차원 배열 정리

In [2]:
import numpy as np
import pandas as pd

# 출력을 소수점 이하 3자리로 제한
%precision 3

# DataFrame 출력을 소수점 이하 3자리로 제한
pd.set_option('precision',3)

In [3]:
df = pd.read_csv('./ch2_scores_em.csv')

In [4]:
df.head()

Unnamed: 0,student number,english,mathematics
0,1,42,65
1,2,69,80
2,3,56,63
3,4,41,63
4,5,57,76


Numpy의 계산을 위해 array 데이터 구조로 된 배열 생성

In [6]:
scores = np.array(df['english'])[:10]
scores

array([42, 69, 56, 41, 57, 48, 65, 49, 65, 58])

DataFrame으로 다시 작성

In [7]:
scores_df = pd.DataFrame({'score':scores},
                         index=pd.Index(['A','B','C','D','E','F','G','H','I','J'],
                                        name = 'student'))
scores_df

Unnamed: 0_level_0,score
student,Unnamed: 1_level_1
A,42
B,69
C,56
D,41
E,57
F,48
G,65
H,49
I,65
J,58


### 데이터 중심 지표

#### 평균값

가장 잘 알려진 대푯값  
데이터를 모두 더한 뒤 데이터의 개수로 나누어 구한다

In [9]:
np.mean(scores)

55.000

Series와 DataFrame에서도 간단히 구할 수 있다

In [10]:
scores_df.mean()

score    55.0
dtype: float64

#### 중앙값

데이터를 순서대로 나열할 때 중앙에 위치한 값

`Ex) [9,1,5,3,7] 의 중앙값 = 5`  

평균값에 비해 이상값에 영향을 덜 받는다  

만약 데이터에 큰 이상값이 있는 경우,  대푯값으로 평균값보다 중앙값이 적절하다  

데이터의 개수가 짝수일경우, 중앙에 위치한 값들의 평균값으로 계산한다  

`[1,2,3,4,5,6] 의 중앙값 = 3과 4의 평균값 3.5`

Numpy에서 중앙값 구하기

In [11]:
np.median(scores)

56.500

Series, DataFrame에서 중앙값 구하기

In [12]:
scores_df.median()

score    56.5
dtype: float64

#### 최빈값

데이터에서 가장 많이 나타나는 값  

[1,1,1,2,2,3]이라는 데이터에서 최빈값은 가장 많은 1이다

최빈값은 DataFrame이나 Series에서 쉽게 구할 수 있다  

In [13]:
pd.Series([1,1,1,2,2,3]).mode()

0    1
dtype: int64

### 데이터의 산포도 지표



#### 편차

각 데이터가 평균으로부터 어느정도 떨어져 있는지를 나타내는 지표  

A 의 점수가 42점이고 학생 10명의 평균 점수가 55점이라면,  
A의 편차는 42 - 55 = -13이 된다  

In [26]:
mean = np.mean(scores)
deviation = scores - mean
deviation

array([-13.,  14.,   1., -14.,   2.,  -7.,  10.,  -6.,  10.,   3.])

In [27]:
summary_df = scores_df.copy()
summary_df['deviation'] = deviation
summary_df

Unnamed: 0_level_0,score,deviation
student,Unnamed: 1_level_1,Unnamed: 2_level_1
A,42,-13.0
B,69,14.0
C,56,1.0
D,41,-14.0
E,57,2.0
F,48,-7.0
G,65,10.0
H,49,-6.0
I,65,10.0
J,58,3.0


In [28]:
summary_df.mean()

score        55.0
deviation     0.0
dtype: float64

편차 평균은 언제나 0이 된다

#### 분산

산포도의 지표로 각 데이터와 평균 간 차이를 나타내는 편차를 이용하는 것은  
편차의 평균이 항상 0이 되므로 좋은방법이 아닌듯하다

그러니 **분산**을 이용한다  

분산은 편차의 제곱의 평균으로 정의된다

numpy에서는 var 함수를 사용한다

In [29]:
np.var(scores)

86.000

DataFrame과 Series에서도 사용이 가능하지만 이경우 문제가 있다

In [30]:
scores_df.var()

score    95.556
dtype: float64

두개의 결과값이 다른데 이는 표본분산과 불편분산의 차이때문이다  

numpy와 pandas는 서로 다른 분산을 계산한다  

numpy는 표본분산, pandas는 불편분산을 계산한다

In [31]:
summary_df['square of deviation'] = np.square(deviation) # 편차 제곱 열 추가
summary_df

Unnamed: 0_level_0,score,deviation,square of deviation
student,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,42,-13.0,169.0
B,69,14.0,196.0
C,56,1.0,1.0
D,41,-14.0,196.0
E,57,2.0,4.0
F,48,-7.0,49.0
G,65,10.0,100.0
H,49,-6.0,36.0
I,65,10.0,100.0
J,58,3.0,9.0


In [32]:
summary_df.mean()

score                  55.0
deviation               0.0
square of deviation    86.0
dtype: float64

#### 표준편차

분산에 제곱근을 적용한 지표

In [33]:
np.sqrt(np.var(scores, ddof=0))

9.274

아까 위에서 pandas와 numpy가 각각 다른 분산을 계산한다고 배웠다  

하지만 다른 분산을 계산할 수 도있는데 이때 사용하는게 ddof 인자이다  

ddof = 0 은 표본분산, ddof = 1 은 불편분산을 나타낸다

In [34]:
np.std(scores, ddof=0)

9.274

#### 범위

분산이나 표준편차와 달리, 데이터의 최댓값과 최솟값만으로 산포도를 표현하는 방법  

값이 2개뿐이므로 이상값에 약하다

In [35]:
np.max(scores) - np.min(scores)

28

#### 사분위 범위

데이터의 하위 25% 50% 75% 에 위치하는 값 (제1, 2, 3 사분위수)

In [38]:
scores_Q1 = np.percentile(scores, 25)
scores_Q3 = np.percentile(scores, 75)
scores_IQR = scores_Q3 - scores_Q1
scores_IQR


15.000

사실 지금까지 다룬 지표를 한번에 보는 방법이 있다  

describe 메서드가 그것이다 

In [39]:
pd.Series(scores).describe()

count    10.000
mean     55.000
std       9.775
min      41.000
25%      48.250
50%      56.500
75%      63.250
max      69.000
dtype: float64

데이터가 주어지면 우선 describe를 사용해 개요를 파악해보는게 좋다