# 데이터 이해

In [1]:
 import pandas as pd

## csv 파일 읽어서 DataFrame 생성

In [2]:
df = pd.read_csv( './sport_test.csv', index_col = '학생번호' ) 
df 

Unnamed: 0_level_0,학년,악력,윗몸일으키기,점수,순위
학생번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,1,40.2,34,15,4
2,1,34.2,14,7,10
3,1,28.8,27,11,7
4,2,39.0,27,14,5
5,2,50.9,32,17,2
6,2,36.5,20,9,9
7,3,36.6,31,13,6
8,3,49.2,37,18,1
9,3,26.0,28,10,8
10,3,47.4,32,16,3


In [4]:
df[ '악력' ]

학생번호
1     40.2
2     34.2
3     28.8
4     39.0
5     50.9
6     36.5
7     36.6
8     49.2
9     26.0
10    47.4
Name: 악력, dtype: float64

## 데이터 크기

In [3]:
df.shape

(10, 5)

## 변수 종류

### 질적 변수와 양적 변수 

1. 질적 변수 : 설문조사에서 만족도등을 묻는 질문 내용에 선택이 필요한 변수나 혈액형을 조사할 때 종류를 구별하기 위한 변수를 말한다. 질적 변수 중에서도 남성과 여성, 흡연 여부 등 값이 2개뿐인 질적 변수를 2진변수라 한다.  
   
   
2. 양적 변수 : 시험 점수나 신장과 같이 양을 표현하는 변수를 말한다.

* 주의할 점은 남성이나 여성은 질적 변수이지만 데이터상에서 쉽게 처리하기 위해 남성은 0, 여성은 1과 같이 숫자 데이터로 표시하는 경우가 있다는 점이다. 즉, 수치 변수라 해도 전부 양적 변수인 것은 아니다.

### 척도 수준   

- 질적 변수는 명의 척도와 순서 척도
- 양적 변수는 간격 척도와 비례 척도

1. 명의 척도 : 단순히 분류하기 위한 변수로, 학생번호나 전화번호, 성별등이 있다. 명의 척도의 목적은 구별하는 것이므로, 변수의 동일성 여부에만 의미를 둔다. 대소 관계는 의미가 없고, 합과 차를 계산하더라도 의미 있는 결과를 얻을 수 없다.   


2. 순서 척도 : 순서 관계나 대소 관계에 의미가 있는 변수로, 성적 순위, 설문조사의 만족도 등의 있다. 대소 관계는 의미가 있고 차이나 배수등은 의미가 없다.   


3. 간격 척도 : 대소 관계와 함께 그 차이에도 의미를 두는 변수로, 연도나 온도를 들 수 있다. 대소 관계는 의미가 있고 차이도 의미가 있으나 몇배 등은 의미가 없다.   


4. 비례 척도 : 대소 관계, 차이, 비 모두에 의미가 있는 변수로, 길이나 무게 등이 있다.

* 간격 척도와 비례 척도는 비슷하므로 구별하기 어려울 때가 있다. 두 척도를 구별하는 요령이 있다. 0이 '없음'을 나타내는지 여부를 판단하면 된다. 길이에서 0cm는 길이가 없음을 나타내지만, 온도에서 0도는 온도가 없다는 뜻이 아니다.

 |척도|예|대소 관계|차이|비|
 |---|:---:|:---:|:---:|:---:|
 |명의 척도|학생 번호|X|X|X|
 |순서 척도|성적 순위|O|X|X|
 |간격 척도|온도|O|O|X|
 |비례 척도|키|O|O|O|

###  이산형 변수와 연속형 변수

1. 이산형 변수 : 0, 1, 2, ...와 같이 하나하나의 값을 취하는 변수로, 서로 인접한 숫자 사이에 값이 존재하지 않는다. 학교를 결석한 횟수나 결석한 학생 수와 같은 계수도 이산형 변수이다.


2. 연속형 변수 : 연속적인 값을 취할 수 있는 변수로, 어떤 두 숫자 사이에도 반드시 숫자가 존재한다. 길이나 무게, 시간 등은 대표적인 연속형 변수이다.

* 실제로 다루는 데이터는 연속형 변수라도 측정 정밀도에 한계가 있어 띄엄띄엄 떨어진 값을 취할 수밖에 없다는 점에 주의할 필요가 있다. 
* 키를 소수점 첫 번째 자리까지의 정밀도로 측정하면 170.3와 170.4 사이에는 숫자가 존재하지 않아 엄밀하게 말하면 이산형 변수로 분류된다. 이와 같이 측정 정밀도의 문제로 이산형이 되는 변수는 상당수 연속형 변수로 취급된다.

# 1차원 데이터 정리

* 통계분석을 시작하는 첫걸음은 데이터를 정리하여 데이터의 특징을 대략적으로 파악하는 것이다.
* 데이터의 개요를 파악하면 수많은 통계분석 기법 중에서 적절한 기법을 선택하여 다음 단계를 진행한다.
* 데이터의 특징을 파악하는 방법에는 크게 두가지가 있다.
    + 평균이나 분산 등의 수치 지표에 땨라 데이터를 요약하는 방법이다.
    + 그림을 그려 시각적으로 데이터를 조감하는 방법이다.

* 1차원 데이터는 예로 시험 점수는 학생에 대한 점수로서 학생 1명에 대해서 하나의 점수가 대응되는 1차원 데이터이다.  

In [22]:
import numpy as np
import pandas as pd

In [23]:
# Jupyter Notebook의 출력을 소수점 이하 3자리로 제한
%precision 3

'%.3f'

In [24]:
# DataFrame의 출력을 소수점 이하 3자리로 제한
pd.set_option( 'precision', 3 )

In [25]:
df = pd.read_csv( './scores_em.csv', index_col = 'student number' )
df

Unnamed: 0_level_0,english,mathematics
student number,Unnamed: 1_level_1,Unnamed: 2_level_1
1,42,65
2,69,80
3,56,63
4,41,63
5,57,76
6,48,60
7,65,81
8,49,66
9,65,78
10,58,82


In [26]:
scores = np.array( df[ 'english' ] )[ :10 ]
scores

array([42, 69, 56, 41, 57, 48, 65, 49, 65, 58], dtype=int64)

In [27]:
scores_df = pd.DataFrame( { 'score' : scores }, 
                         index = pd.Index( [ 'A', 'B', 'C', 'D', 'E',
                                             'F', 'G', 'H', 'I', 'J' ],
                                           name = 'student' ) )
scores_df

Unnamed: 0_level_0,score
student,Unnamed: 1_level_1
A,42
B,69
C,56
D,41
E,57
F,48
G,65
H,49
I,65
J,58


## 데이터 중심 지표


* 데이터의 중심을 나타내는 지표, 데이터를 하나의 값으로 요약한 지료이며, 대푯값이라고도 한다.

### 평균값

* 평균값( mean )은 가장 잘 알려진 대푯값으로 전체 학생의 시험 점수를 확인하지 않더라도 평균 점수를 알면 파악할 수 있다.
* 평균값은 데이터를 모두 더한 뒤, 데이터의 개수로 나누어 구한다.

In [7]:
sum( scores ) / len( scores ) # python

55.0

In [8]:
np.mean( scores ) # numpy

55.0

In [9]:
scores_df.mean() # pandas

score    55.0
dtype: float64

* 평균은 시그마 기호를 사용하여 간단하게 수식으로 나타낼 수 있습니다. 시그마 기호는 데이터를 다룰 때 매우 중요하게 사용된다.

\begin{equation*}
     \overline{x} = \frac{1}{n} \sum_{i=1}^{n}{x_i} = \frac {1}{n}(x_1 + x_2 + ... + x_n)
\end{equation*}

* 데이터의 평균은 \begin{equation*}\overline{x}\end{equation*}라는 표기를 주로 사용하며 '엑스 바'라고 읽는다.

### 중앙값

* 중앙값( median )은 데이터를 크기 순서대로 나열할 때 정확하게 중앙에 위치한 값이다.
* 중앙값은 평균값에 비해 이상값에 강하다는 특성이 있다. 즉 이상값에 영향을 덜 받는다는 의미이다.
* 데이터에 큰 이상값이 있는 경우, 대푯값으로 평균값보다 중앙값이 적절하다.


* 중앙값은 데이터를 순서대로 나열할 때 정확하게 중앙에 위치하는 값이지만, 데이터의 개수가 짝수일 때는 중앙에 위치한 값이 2개이다. 이 경우, 중앙값은 두 값의 평균값으로 정의된다.
* 데이터의 개수 n이 홀수라면, ( n + 1 ) / 2 번째 데이터가 중앙값
* 데이터의 개수 n이 짝수라면, n / 2 번째 데이터와 n / 2 + 1 번째 데이터의 평균이 중앙값

In [10]:
sorted_scores = np.sort( scores )
sorted_scores

array([41, 42, 48, 49, 56, 57, 58, 65, 65, 69], dtype=int64)

In [11]:
# python
n = len( sorted_scores )
if n % 2 == 0:
    m0 = sorted_scores[ n // 2 - 1 ]
    m1 = sorted_scores[ n // 2 ]
    median = ( m0 + m1 ) / 2
else:
    median = sorted_scores[ ( n + 1 ) // 2 - 1 ]
    
median

56.5

In [12]:
np.median( scores ) # numpy

56.5

In [13]:
scores_df.median() # pandas 

score    56.5
dtype: float64

### 최빈값

* 최빈값( mode )은 데이터에서 가장 많이 나타나는 값이다.
* 최빈값은 DataFrame이나 Series의 mode 메서드를 사용하여 구할 수 있다.

In [31]:
pd.Series( [ 1, 1, 1, 2, 2, 3 ] ).mode()

0    1
dtype: int64

* 최빈값은 기본적으로 질적 데이터의 대푯값을 구할 때 사용한 지표이다. 왜냐하면 시험 점수와 같은 양적 데이터에서는 최빈값을 구하려고 해도 완전히 동일한 점수가 여러 번 나오는 경우가 거의 없어, 유일한 값이 결정되지 않을 때가 많기 때문이다.

In [32]:
pd.Series( [ 1, 2, 3, 4, 5 ] ).mode()

0    1
1    2
2    3
3    4
4    5
dtype: int64

* 다만, 도수분포표를 도입하면 양적 데이터에서도 최빈값을 자연스럽게 정의할 수 있다.

## 데이터의 산포도 지표

* 데이터의 산포도를 나타내는 지표이다.
* 평균값이나 중앙값으로 데이터를 대표하는 값을 얻는 방법은 이해했다.
* 예로 학급 전원이 50점을 받은 시험이 있고, 학급에서 절반은 0점을 받았지만 나머지 절반은 100점을 받은 시험이 있다. 결과는 다르지만 두 경우 모두 평균값과 중앙값은 동일하게 50점이 되어 버린다. 전자는 개개인의 점수가 모여 있고, 후자는 개개인의 점수가 심하게 흩어져 있는 경우이다.
* 이와 같은 데이터의 산포도를 수치로 표현하는 지표이다.

### 편차

* 산포도를 구하는 첫걸음은 편차( deviation )을 알아보는 것이다.
* 편차는 각 데이터가 평균으로부터 어느 정도 떨어져 있는가를 나타내는 지표이다.
* 예로 A 학생의 점수가 42점이고 학생 10명의 평균 점수가 55점이라면, A 학생의 편차는 42 - 55로 13점이 편차가 된다.

In [14]:
# NumPy - broadcast기능 활용
mean = np.mean( scores )
deviation = scores - mean
deviation

array([-13.,  14.,   1., -14.,   2.,  -7.,  10.,  -6.,  10.,   3.])

In [15]:
another_scores = [ 50, 60, 58, 54, 51, 56, 57, 53, 52, 59 ]
another_mean = np.mean( another_scores )
another_deviation = another_scores - another_mean
another_deviation

array([-5.,  5.,  3., -1., -4.,  1.,  2., -2., -3.,  4.])

* 위의 코드에서 scores 쪽 점수가 another_scores 쪽 점수보다 더 흩어져 있는것으로 보인다.
* 편차도 score쪽이 전체적으로 값이 크다.
* 산포도를 표현할 때 그 지표로 편차를 사용할 수 있다.   


* 하지만 10명의 편찻값을 통해 데이터를 비교하기 어렵기 때문에, 값을 하나로 정리하고 싶다.
* 편차의 대푯값으로 평균을 선택하면 어떨까?

In [16]:
np.mean( deviation ) # scores의 편차 평균은 0이 된다.

0.0

In [18]:
np.mean( another_deviation ) # anothor_scores의 편차 평균은 0이다.

0.0

* 편차 평균으로는 비교할 수 없다.
* 편차 평균은 항상 0이 된다.
* 평균을 \begin{equation*}\overline{x}\end{equation*}라고 하면 i번째 점수의 편차는 \begin{equation*}x_i - \overline{x}\end{equation*}가 되므로 그 평균은 다음과 같이 계산할 수 있다.


\begin{equation*}
     \frac{1}{n}\sum_{i=1}^{n}(x_i - \overline{x}) = \frac{1}{n}\sum_{i=1}^{n}{x_i}-\frac{1}{n}\sum_{i=1}^{n}\overline{x} = \overline{x}-\overline{x} = 0
\end{equation*}

In [29]:
summary_df = scores_df.copy()
summary_df[ 'deviation' ] = deviation
summary_df

Unnamed: 0_level_0,score,deviation
student,Unnamed: 1_level_1,Unnamed: 2_level_1
A,42,-13.0
B,69,14.0
C,56,1.0
D,41,-14.0
E,57,2.0
F,48,-7.0
G,65,10.0
H,49,-6.0
I,65,10.0
J,58,3.0


In [30]:
summary_df.mean()

score        55.0
deviation     0.0
dtype: float64

### 분산

* 산포도의 지표로 각 데이터와 평균 간 차이를 나타내는 편차를 이용하는 것은 바람직한 생각이지만, 편차의 평균이 항상 0이 되므로 잘 사용하지 않는다.
* 각각의 산포도라는 의미에서 보면 B 학생과 D 학생은 모두 평균에서 14점이 크든 14점이 작든 이 둘을 동일하게 취급하여 편차의 제곱을 이용한다.( 편차의 절대값 평균을 사용해도 되나 제곱 평균에 비해 다루기 어렵기 때문에 그다지 사용하지 않는다. )
* 그리고 그 평균으로 정의 되는 지표가 분산( variance )이 된다.

In [31]:
# Pathon
np.mean( deviation ** 2 )

86.0

In [32]:
# NumPy - 표본분산
np.var( scores )

86.0

In [33]:
# Pandas - 불편분산
scores_df.var() 

score    95.556
dtype: float64

* 분산에는 표본분산과 불편분산의 두 종류가 있다.
* NumPy와 Pandas는 서로 다른 분산을 계산한다.
* NumPy에서 분산은 표본분산이 기본으로 설정된 분산이고, Pandas에 기본으로 설정되 분산은 불편분산이다.
* 불편분산은 추측통계에서 매우 중요한 역활을 하는 지표이지만 지금 보고있는 분산은 표본분산을 의미한다.
* Pandas로 표본분산을 계산하고 싶다면 var 메서드의 인수를 ddof = 0이라고만 설정하면 된다. 불편분산은 ddof = 1일 때에 해당한다.
* NumPy의 var 메서드에도 ddof 인수를 설정할 수 있고, 동일하게 동작한다.
* NumPY와 Pandas의 기본 설정 동작이 달라 혼란스럽기 때문에, 분산을 계산할 때에 항상 ddof 인수를 설정하여 어떤 분산을 계산하는지 명시해 두는 게 좋다.

In [34]:
# 편차 제곱 열 추가
summary_df[ 'square of deviation' ] = np.square( deviation )
summary_df

Unnamed: 0_level_0,score,deviation,square of deviation
student,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,42,-13.0,169.0
B,69,14.0,196.0
C,56,1.0,1.0
D,41,-14.0,196.0
E,57,2.0,4.0
F,48,-7.0,49.0
G,65,10.0,100.0
H,49,-6.0,36.0
I,65,10.0,100.0
J,58,3.0,9.0


In [35]:
summary_df.mean()

score                  55.0
deviation               0.0
square of deviation    86.0
dtype: float64

* 분산은 흔히\begin{equation*}S^2\end{equation*}으로 표기한다.

\begin{equation*}
     S^2 = \frac{1}{n}\sum_{i=1}^{n}(x_i - \overline{x})^2 = \frac{1}{n}\{(x_1 - \overline{x})^2+(x_2 - \overline{x})^2+...+(x_n - \overline{x})^2\}
\end{equation*}


* 분산을 면적의 평균이라는 이미지로 바라보는 시각도 있다. 왜냐하면 편차 제곱은 한 변의 길이가 편차인 정사각형의 면적으로 생각할 수 있기 때문이다.
* 분산은 그렇게 한 변이 편차인 정사각형 면적의 평균에 해당한다. 이와 같이 이해하면 공분산을 쉽게 이해할 수 있다.

### 표준편차

* 평균의 단위는 원래의 데이터 단위와 다르지 않으므로, 영어 시험 점수라면 평균도 점수라는 단위를 쓴다.
* 분산은 점수의 면적으로 나타내므로 점수의 제곱이라는 이해하기 어려운 단위를 사용한다. 영어 점수의 분산이 \begin{equation*}86점^2\end{equation*}이라고 말해도 그다지 감이 오지 않는다.
* 원래의 데이터와 동일한 단위를 쓰는 산포도의 지표가 있다면 도움이 될 것이다. 그와 같은 산포도 지표로 분산에 제곱근을 취한 표준편찬( standard deviation )을 이용한다.

\begin{equation*}
     S = \sqrt{S^2} = \sqrt{ \frac{1}{n}\sum_{i=1}^{n}(x_i - \overline{x})^2}
\end{equation*}

* 분산에 제곱근을 취하면 되므로, np.var과 np.sqrt를 사용하여 계산 할 수 있다.

In [40]:
# NumPy
np.sqrt( np.var( scores, ddof = 0 ) )

9.273618495495704

* NumPy의 std 함수로 계산해도 된다.
* std도 var과 마찬가지로 ddof 인수를 취하면, 동일한 동작을 나타낸다. ddof = 0으로 하면 표본분산에 제곱근을 취한 것이 출력된다.
* DataFrame과 Series도 마찬가지이다.

In [41]:
np.std( scores, ddof = 0 )

9.273618495495704

* 표준편차는 원래의 데이터와 동일한 단위를 쓰므로, 동일한 차원으로 그릴 수 있다.

### 범위

* 범위( range )는 분산이나 표준편차와 달리, 데이터 전체를 보는 것이 아니라 데이터의 최댓값과 최솟값만으로 산포도를 표현하는 방법이다.
* 최댓값과 최솟값의 차이가 크면 산포도가 크고, 그 차이가 작으면 산포도도 작다는 의이이다.
* 간단히 계산할 수 있지만, 값이 2개뿐이므로 개략적인 지표이고 이상값에 약하다고 할 수 있다.
* 수식과 파이썬을 사용하여 구현하면 다음과 같다.

\begin{equation*}
     Rg = x_{max} - x_{min}
\end{equation*}


In [42]:
# NumPy
np.max( scores ) - np.min( scores )

28

### 사분위 범위

* 범위는 최댓값과 최솟값밖에 보이지 않으므로, 큰 이상값이 하나라도 있으면 범위도 크게 변화한다.
* 최댓값과 최솟값이 아니라, 데이터의 상위수%에 위치하는 값과 하위수%에 위치하는 값의 차이를 취하는 방법을 생각해 볼 수 있다.
* 사분위 범위( interquarile range )에서는 데이터의 하위 25%, 50%, 75%에 위치하는 값에 주목한다.
* 이를 각각 제1사분위수, 제2사분위수, 제3사분위수라고 하며 Q1, Q2, Q3으로 나타낸다.
* Q3 - Q1을 사분위 범위 IQR로 정의한다.
        IQR = Q3 - Q1
* 데이터의 25%p 등은 NumPy의 percentile() 함수로 구할 수 있다.

In [43]:
score_Q1 = np.percentile( scores, 25 )
score_Q3 = np.percentile( scores, 75 )
score_IQR = score_Q3 - score_Q1
score_IQR

15.0

* IQR을 구할 때는 Q2를 사용하지 않지만 Q2는 중앙값과 일차한다.
* 분산은 평균에 대해서 정의되는 산포도의 지표인 반면, IQR은 중앙값에 대해서 정의되는 산포도의 지표라고 해석할 수 있다.
* Q1, Q2, Q3이나 IQR은 상자그림에서도 이용한다.

### 데이터의 지표 정리

* DataFrame이나 Series에서는 describe 메서드를 사용하면 지금까지의 지표를 편리하게 구할 수 있다.

In [45]:
pd.Series( scores ).describe()

count    10.000
mean     55.000
std       9.775
min      41.000
25%      48.250
50%      56.500
75%      63.250
max      69.000
dtype: float64

## 데이터의 정규화

* 시험 점수는 동일한 60점이라도, 평균 점수가 30점인 어려운 시험에서 얻은 60점과 평균 점수가 90점인 쉬운 시험에서 얻은 60점은 상대적인 결과가 다르다.
* 점수라는 지표는 그 시험의 평균이나 분산에 따라 평가가 달라진다. 그러므로 평균이나 분산에 의존하지 않고도 데이터의 상대적인 위치 관계를 알 수 있는 지표가 있다면 편리할 것이다.
* 이와 같은 대표적인 지표로 편찻값이 있다.
* 평균이나 분산이 어떻게 나오든, 편찻값이 50이면 평균적인 결과이고 편찻값이 60이면 상위 결과라는 통일된 평가를 할 수 있다.
* 이처럼 데이터를 통일된 지표로 변환하는 것을 정규화( normalization )라고 한다.
* 정규화를 통해 다양한 데이터를 동일한 기준으로 다룰 수 있기 때문에, 데이터를 분석할 때 정규화는 일반적으로 사용하는 수단이 된다.

### 표준화

* 데이터에서 평균을 빼고 표준편차로 나누는 작업을 표준화( standardization )라고 하며, 표준화된 데이터를 표준화 변량( standardized data )이나 Z 점수( z-score )라고 한다.
* 각 데이터\begin{equation*}x_i\end{equation*}를 표준화한 \begin{equation*}z_i\end{equation*}를 수식으로 나타내면 다음과 같다.

\begin{equation*}
     z_i = \frac{x_i-\overline{x}}{S}
\end{equation*}



In [46]:
z = ( scores - np.mean( scores ) ) / np.std( scores )
z

array([-1.402,  1.51 ,  0.108, -1.51 ,  0.216, -0.755,  1.078, -0.647,
        1.078,  0.323])

* 표준화된 데이터는 평균이 0, 표준편차가 1이다.

In [47]:
np.mean( z ), np.std( z, ddof = 0 )

(-1.6653345369377347e-17, 0.9999999999999999)

* 데이터와 동일한 단위를 쓰는 표준편차로 나눗셈을 하고 있기 때문에, 표준화된 데이터는 점수와 같은 단위를 쓰지 않는다는 사실에 주의한다.

### 편찻값

* 편찻값은 평균이 50, 표준편차가 10이 되도록 정규화한 값을 말한다. 수식으로 나타내면 다음과 같다.

\begin{equation*}
     z_i = 50 + 10 \times \frac{x_i-\overline{x}}{S}
\end{equation*}


In [48]:
z = 50 + 10 * ( scores - np.mean( scores ) ) / np.std( scores )

In [49]:
# DataFrame으로 정리
scores_df[ 'deviation value' ] = z
scores_df

Unnamed: 0_level_0,score,deviation value
student,Unnamed: 1_level_1,Unnamed: 2_level_1
A,42,35.982
B,69,65.097
C,56,51.078
D,41,34.903
E,57,52.157
F,48,42.452
G,65,60.783
H,49,43.53
I,65,60.783
J,58,53.235


* 편찻값이라는 지표를 통하여, 어떤 학생이 평균적인 성적을 얻었고 어떤 학생이 우수한 성적을 얻었는지 한눈에 파악할 수 있다.

## 1차원 데이터의 시각화

In [50]:
english_scores = np.array( df[ 'english' ] )
pd.Series( english_scores ).describe()

count    50.00
mean     58.38
std       9.80
min      37.00
25%      54.00
50%      57.50
75%      65.00
max      79.00
dtype: float64