# 1차원 데이터의 정리

## 데이터 중심의 지표

In [1]:
import numpy as np
import pandas as pd

# Jupyter Notebook의 출력을 소수점 이하 3자리로 제한
%precision 3
# Dataframe의 출력을 소수점 이하 3자리로 제한
pd.set_option('precision', 3)

In [2]:
!ls ./sample_data

anscombe.json		      mnist_test.csv
california_housing_test.csv   mnist_train_small.csv
california_housing_train.csv  README.md


In [3]:
df = pd.read_csv('./sample_data/ch2_scores_em.csv',
                 index_col='student number')
# df의 처음 5행을 표시
df.head()

FileNotFoundError: ignored

In [None]:
scores = np.array(df['english'])[:10]
scores

In [None]:
scores_df = pd.DataFrame({'score':scores},
                         index=pd.Index(['A', 'B', 'C', 'D', 'E',
                                         'F', 'G', 'H', 'I', 'J'],
                                        name='student'))
scores_df

### 평균값

In [None]:
sum(scores) / len(scores)

In [None]:
np.mean(scores)

In [None]:
scores_df.mean()

### 중앙값

In [None]:
sorted_scores = np.sort(scores)
sorted_scores

In [None]:
n = len(sorted_scores)
if n % 2 == 0:
    m0 = sorted_scores[n//2 - 1]
    m1 = sorted_scores[n//2]
    median = (m0 + m1) / 2
else:
    median = sorted_scores[(n+1)//2 - 1]
median

In [None]:
np.median(scores)

In [None]:
scores_df.median()

### 최빈값

In [None]:
pd.Series([1, 1, 1, 2, 2, 3]).mode()

In [None]:
pd.Series([1, 2, 3, 4, 5]).mode()

## 데이터의 산포도 지표

### 범위와 4분위수 범위

#### 범위

In [None]:
np.max(scores) - np.min(scores)

In [None]:
scores_Q1 = np.percentile(scores, 25)
scores_Q3 = np.percentile(scores, 75)
scores_IQR = scores_Q3 - scores_Q1
scores_IQR

#### 4분위수 범위

### 분산과 표준편차

#### 편차

In [None]:
mean = np.mean(scores)
deviation = scores - mean
deviation

In [None]:
another_scores = [50, 60, 58, 54, 51, 56, 57, 53, 52, 59]
another_mean = np.mean(another_scores)
another_deviation = another_scores - another_mean
another_deviation

In [None]:
np.mean(deviation)

In [None]:
np.mean(another_deviation)

In [None]:
summary_df = scores_df.copy()
summary_df['deviation'] = deviation
summary_df

In [None]:
summary_df.mean()

#### 분산

In [None]:
np.mean(deviation ** 2)

In [None]:
np.var(scores)

In [None]:
scores_df.var()

In [None]:
summary_df['square of deviation'] = np.square(deviation)
summary_df

In [None]:
summary_df.mean()

#### 표준편차

In [None]:
np.sqrt(np.var(scores, ddof=0))

In [None]:
np.std(scores, ddof=0)

### 데이터의 지표 정리

In [None]:
pd.Series(scores).describe()

## 데이터의 정규화

### 표준화

In [None]:
z = (scores - np.mean(scores)) / np.std(scores)
z

In [None]:
np.mean(z), np.std(z, ddof=0)

### 편차값

In [None]:
z = 50 + 10 * (scores - np.mean(scores)) / np.std(scores)
z

In [None]:
scores_df['deviation value'] = z
scores_df

## 데이터의 시각화

In [None]:
# 50명의 영어 점수 array
english_scores = np.array(df['english'])
# Series로 변환하여 describe를 표시
pd.Series(english_scores).describe()

### 도수분포표

In [None]:
freq, _ = np.histogram(english_scores, bins=10, range=(0, 100))
freq

In [None]:
# 0~10, 10~20, ... 이라는 문자열의 리스트를 작성
freq_class = [f'{i}~{i+10}' for i in range(0, 100, 10)]
# freq_class를 인덱스로 DataFrame을 작성
freq_dist_df = pd.DataFrame({'frequency':freq},
                            index=pd.Index(freq_class,
                                           name='class'))
freq_dist_df

In [None]:
class_value = [(i+(i+10))//2 for i in range(0, 100, 10)]
class_value

In [None]:
rel_freq = freq / freq.sum()
rel_freq

In [None]:
cum_rel_freq = np.cumsum(rel_freq)
cum_rel_freq

In [None]:
freq_dist_df['class value'] = class_value
freq_dist_df['relative frequency'] = rel_freq
freq_dist_df['cumulative relative frequency'] = cum_rel_freq
freq_dist_df = freq_dist_df[['class value', 'frequency',
                             'relative frequency', 'cumulative relative frequency']]

freq_dist_df

#### 최빈값 재검토

In [None]:
freq_dist_df.loc[freq_dist_df['frequency'].idxmax(), 'class value']

### 히스토그램

In [None]:
# Matplotlib의 pyplot 모듈을 plt라는 이름으로 임포트
import matplotlib.pyplot as plt

# 그래프가 notebook 위에 표시
%matplotlib inline

In [None]:
# 캔버스를 생성
# figsize로 가로・세로 크기를 지정
fig = plt.figure(figsize=(10, 6))
# 켄버스 위에 그래프를 그리기 위한 영역을 지정
# 인수는 영역을 1×1개 지정、하나의 영역에 그린다는 것을 의미
ax = fig.add_subplot(111)

# 계급수를 10으로 하여 히스토그램을 그림
freq, _, _ = ax.hist(english_scores, bins=10, range=(0, 100))
# X축에 레이블 부여
ax.set_xlabel('score')
# Y축에 레이블 부여
ax.set_ylabel('person number')
# X축을 0, 10, 20, ..., 100 눈금으로 구분
ax.set_xticks(np.linspace(0, 100, 10+1))
# Y축을 0, 1, 2, ...의 눈금으로 구분
ax.set_yticks(np.arange(0, freq.max()+1))
# 그래프 표시
plt.show()

In [None]:
fig = plt.figure(figsize=(10, 6))
ax = fig.add_subplot(111)

freq, _ , _ = ax.hist(english_scores, bins=25, range=(0, 100))
ax.set_xlabel('score')
ax.set_ylabel('person number')
ax.set_xticks(np.linspace(0, 100, 25+1))
ax.set_yticks(np.arange(0, freq.max()+1))
plt.show()

In [None]:
fig = plt.figure(figsize=(10, 6))
ax1 = fig.add_subplot(111)
# Y축의 스케일이 다른 그래프를 ax1과 동일한 영역에 생성
ax2 = ax1.twinx()

# 상대도수의 히스토그램으로 하기 위해서는, 도수를 데이터의 수로 나눌 필요가 있음
# 이것은 hist의 인수 weight를 지정하면 실현 가능
weights = np.ones_like(english_scores) / len(english_scores)
rel_freq, _, _ = ax1.hist(english_scores, bins=25,
                          range=(0, 100), weights=weights)

cum_rel_freq = np.cumsum(rel_freq)
class_value = [(i+(i+4))//2 for i in range(0, 100, 4)]
# 꺾은선 그래프를 그림
# 인수 ls를 '--'로 하면 점선이 그려짐
# 인수 marker를 'o'으로 하면 데이터 점을 그람
# 인수 color를 'gray'로 하면 회색으로 지정
ax2.plot(class_value, cum_rel_freq,
         ls='--', marker='o', color='gray')
# 꺾은선 그래프의 눈금선을 제거
ax2.grid(visible=False)

ax1.set_xlabel('score')
ax1.set_ylabel('relative frequency')
ax2.set_ylabel('cumulative relative frequency')
ax1.set_xticks(np.linspace(0, 100, 25+1))

plt.show()

### 상자 그림

In [None]:
fig = plt.figure(figsize=(5, 6))
ax = fig.add_subplot(111)
ax.boxplot(english_scores, labels=['english'])

plt.show()