# Exploratory Data Analysis (EDA): 탐색적 자료 분석

## 1. Descriptive statistics
데이터의 형태, 변수 별 type 및 기술통계량을 뽑는 방법

In [None]:
import pandas as pd

### Read the data. (Example: pima-indians-diabetes)

In [None]:
variables = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = pd.read_csv('./data/pima-indians-diabetes.data', names = variables)
data.head(20)

### Check dimensions of yout data,

In [None]:
data.shape

### Check data type for each variable.

In [None]:
data.dtypes

### Calculate decriptive statistics.

In [None]:
pd.set_option('display.width', 100)  # 결과물을 잘 보여주기 위한 옵션
pd.set_option('precision', 3)        # 결과물을 잘 보여주기 위한 옵션
description = data.describe()
print(description)

### Check class distribution.
- 현재 예제 데이터는 당뇨병 증세가 나타나는가를 **분류(Classification)**하는 문제와 관련이 있다.
- 이러한 경우, 각 클래스 별로 데이터 포인트가 몇 개씩 있는지를 파악하는 것이 중요하다.

In [None]:
class_counts = data.groupby('class').size()
print(class_counts)

### Correlations between variables
- 본 예제에서는 Pearson's correlation coefficient를 계산 (-1 이상, 1 이하)
- 변수 간의 multicolinearity는 머신러닝 모델의 성능을 저하시키는 주요 요인 중 하나이므로, 반드시 이를 체크하는 것이 좋다.

In [None]:
correlations = data.corr(method = 'pearson')
print(correlations)

### Skew of univariate distributions
- 각 변수 별 skewness(왜도, 비대칭도)를 계산
- 몇 모델은 변수가 Gaussian distribution임을 가정하고 있음. (예. Linear regression)
- 각 변수가 얼마나 치우쳐진 분포를 가졌는지 확인하는 것은 매우 중요
- Gaussian distribution처럼 평균을 중심으로 좌,우 대칭인 경우 skewness = 0
- 평균이 중앙값(median)보다 크면 (즉, 왼쪽으로 길게 늘어진 형태) skewness < 0
- 평균이 중앙값(median)보다 작으면 (즉, 오른쪽으로 길게 늘어진 형태) skewness > 0

In [None]:
skew = data.skew()
print(skew)

## 2. Visualization
각종 시각화 방법을 통해 직관적으로 데이터를 이해

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt

### Histogram 

In [None]:
data.hist()
plt.show()

### Density plots

In [None]:
data.plot(kind = 'density', subplots = True, layout = (3,3), sharex = False)
plt.show()

### Box-plot

In [None]:
data.plot(kind = 'box', subplots = True, layout = (3,3), sharex =False, sharey =False)
plt.show()

### Correlation matrix plot 

In [None]:
import numpy as np

# Calculate Pearson's correlation coefficients (revisited)
correlations = data.corr(method = 'pearson')

# Plot correlation matrix
fig = plt.figure()
ax = fig.add_subplot(111)
cax = ax.matshow(correlations, vmin = -1, vmax = 1)
fig.colorbar(cax)
ticks = np.arange(0,9, 1)
ax.set_xticks(ticks)
ax.set_yticks(ticks)
names = list(data.columns.values) # Data의 변수명을 받아 list로 저장
ax.set_xticklabels(names)
ax.set_yticklabels(names)
plt.show()

In [None]:
# 그림에서 변수명을 쓰고 싶지 않다면 이를 제외

fig = plt.figure()
ax = fig.add_subplot(111)
cax = ax.matshow(correlations, vmin = -1, vmax = 1)
fig.colorbar(cax)
plt.show()

### Scatter plot matrix

In [None]:
from pandas.tools.plotting import scatter_matrix
scatter_matrix(data)
plt.show()