In [2]:
import numpy as np
import pandas as pd




In [None]:
# 출력을 소수점 이하 3자리
pd.set_option('precision', 3)

### 대표값 : 데이터를 하나의 값으로 요약한 지표

##### 1. 평균값 (Mean / Average)

In [None]:
# 데이터의 값을 모두 더한 뒤, 데이터의 갯수로 나누어 계산

In [None]:
# pandas 계산
df['AGE'].mean()

In [None]:
# numpy 계산
np.mean(df['AGE'])

##### 2. 중앙값 (Median)

In [None]:
# 순서대로 나열된 데이터 중, 정확하게 중앙에 위치한 값
# 데이터의 이상값이 존재할 때, 평균값보다 대표값을 잘 표현
# 즉 이상값의 영향을 덜 받음

In [None]:
# pandas 계산
df['AGE'].median()

In [None]:
# numpy 계산
np.median(df['AGE'])

##### 3. 최빈값 (Mode)

In [None]:
# 데이터에서 가장 많이 나타나는 값

In [None]:
# pandas 계산
df['age'].mode()

In [None]:
# numpy 계산은 불가

### 산포도

In [None]:
# 대표값을 중심으로 자료들이 흩어져 있는 정도
# 수치가 작을수록 자료들이 대표값에 밀집
# 수치가 클수록 자료들이 대표값을 중심으로 멀리 흩어져 있다.

#### 0. 편차

In [None]:
# 각 데이터가 평균으로부터 어느 정도 떨어져 있는지
# 편차 값들의 평균은 0 -> 편차 평균으로 산포도를 계산할 수 없다.
# 분산을 활용하자

##### 1. 분산

In [None]:
# 편차의 제곱을 합산하여 평균을 계산한 값

In [None]:
# pandas : 전체와 표본을 고려 / 불편분산
df.var()
df.var(ddof=0) # 표본분산화

# numpy : 기본 표본분산의 개념
np.var(df)

##### 2. 표준편차

In [7]:
# 분산에 제곱근을 취하여 원래의 데이터와 동일한 단위를 쓰도록 만들어진 산포도의 지표

In [None]:
# pandas
df.std(ddof=0)

# numpy
np.sqrt(np.var(df)) # 제곱근 함수를 분산값에 적용
np.std(df) # 함수를 그대로 활용

#### 3. 사분위

In [None]:
# 범위(range) : 데이터의 최대값과 최소값만으로 산포도를 표현
# 데이터 전체를 담은 표현 방식은 아님
# 즉 최대값-최소값의 차이가 크면 산포도가 크고, 차이가 작으면 산포도가 작다
# 값 2개만 활용하기에 개략적인 지표, 이상값을 반영하는데 있어 수준이 낮은 지표

In [None]:
df.max() - df.min()
np.max() - np.min()

In [None]:
# 사분위 범위 (interquartile range)
# 데이터의 하위 25%, 50%, 75%에 위치하는 값으로 표현
# Q3 - Q1을 사분위 범위 IQR로 정의
# 이상값을 반영한 산포도 표현하는 것에 효과적
# 분산과 표준편차는 평균값에 대해 정의되는 산포도 지표
# 사분위 범위는 중앙값(Q2)에 대해 정의되는 산포도 지표

In [None]:
# pandas (Q3 - Q1)
df.quantile(q=0.75) - df.quantile(q=0.25)

# numpy (Q3 - Q1)
np.percentile(df, 75) - np.percentile(df, 25)

In [None]:
# 데이터의 대표값 / 산포도 한 번에 확인
pd.describe()

### 정규화

In [None]:
# 평균과 분산이 다른 데이터 분포에서 어떻게 상대적인 수준을 파악할까
# 정규화!!

# 데이터를 통일된 지표로 변환하는 것

#### 1. 표준화

In [None]:
# 데이터에서 평균을 빼고, 표준편차로 나누는 작업
# 표준화된 데이터 : 표준화 변량 (Standardized Data) or z점수 (z-score)

In [None]:
#pandas
df - df.mead() / df.std(ddof =0)

#numpy
df - np.mead(df) / np.std(df)

In [None]:
# 표준화 변환 이 후 평균, 표준편차 측정

# pandas : 평균은 약 0, 표준편차는 약 1로 변경
# numpy : 평균은 약 0, 표준편차는 약 1로 변경

#### 2. 편찻값

In [None]:
# 평균이 50, 표준편차가 10이 되도록 정규화한 값
z = 50 + 10 * 데이터값 - 평균 / 표준편차

In [None]:
#pandas
50 + 10 * (df - df.mead() / df.std(ddof =0))

#numpy
50 + 10 * (df - np.mead(df) / np.std(df))

In [None]:
# 점수와 편차값 비교
# 편차값을 통해 누가 평균적인 성적을 얻고, 누가 우수한 성적을 얻었는지 한눈에 파악


### 시각화

#### 1. 도수분포표

In [None]:
# 데이터가 가지는 값들을 몇 개의 구간으로 나누고, 각 구간에 몇 개의 데이터가 포함되는지 세는 방법
# 분할된 구간과 데이터의 개수를 표로 정리
# numpy.histogram

In [None]:
freq, range = np.histogram(df, bins=10, range=(0,100))
# freq : 빈도 / 도수
# range : 범위 / 계급

In [None]:
# 도수분포표 표현 : 점수의 분포를 쉽게 확인
freq_dist_df = pd.DataFrame(
    {'frequence':freq},
    index = pd.index(
        freq_class,
        name='class'
    )
)

# 계급값 : 각 계급을 대표하는 값으로 계급의 중앙값 이용
# 상대도수 : 해당 계급의 데이터가 전체 데이터 개수 대비 어느정도의 비율을 차지하는지
relative_frequency = freq_dist_df / freq_dist_df.sum()
# 상대도수가 최빈값 찾는데 매우 유용

# 누적상대도수 : 해당 계급의 데이터까지 전체 데이터 개수 대비 어느 정도의 비율을 차지하는지
cumulative_relative_frequency = freq_dist_df.cumsum() / freq_dist_df.sum()

#### 2.히스토그램

In [None]:
# 도수분포표를 막대 그래프로 표현 : 데이터 분포 상태를 시각적으로 파악

In [None]:
# 캔버스 생성
fig = plt.figure(figsize=(10,6))

# 캔버스 위에 그릴 영역 지정 (nrow, ncols, index)
ax = fig.add_subplot(1,1,1)

# 계급수 10으로 히스토그램 그림
freq, _, _ = ax.hist(df, bins = 10, range = (0,100))

# Label 설정
ax.set_xlabel('score')
ax.set_ylabel('person number')

# 눈금 구분
ax.set_xticks(np.linspace(0,100,10+1))
ax.set_xticks(np.arange(0,freq.max()+1))

# 그래프 표시
plt.show()

#### 3. 상자그림

In [None]:
# Box plot
# 데이터의 분포와 이상값을 시각적으로 파악
# 사분위수를 이용하여 그래프를 그림
# Q1 - 1.5 * IQR / Q3 + 1.5 * IQR

In [None]:
ax = fig.add_subpolt(1,1,1)
ax.boxplot(df, labels=['subject_a'])