# 04-1 데이터 시각화가 필요한 이유

## 앤스콤 4분할 그래프 살펴보기
앤스콤 4분할 그래프(Anscombe's quarter)는 데이터를 시각화하지 않고 수치만 확인할 때 발생할 수 있는 함정을 보여주기 위한 그래프이다.

### 앤스콤이 지적한 함정과 데이터 시각화의 필요성
각각의 평균, 분산과 같은 수칫값이나 상관관계, 회귀선이 같아도 서로 다른 패턴을 가질 수 있다.

#### 앤스콤 데이터 집합 불러온 후 그래프 그리기
1. 앤스콤 데이터 집합 불러오기

In [2]:
import seaborn as sns

anscombe = sns.load_dataset("anscombe")

print(anscombe)
print(type(anscombe))

   dataset     x      y
0        I  10.0   8.04
1        I   8.0   6.95
2        I  13.0   7.58
3        I   9.0   8.81
4        I  11.0   8.33
5        I  14.0   9.96
6        I   6.0   7.24
7        I   4.0   4.26
8        I  12.0  10.84
9        I   7.0   4.82
10       I   5.0   5.68
11      II  10.0   9.14
12      II   8.0   8.14
13      II  13.0   8.74
14      II   9.0   8.77
15      II  11.0   9.26
16      II  14.0   8.10
17      II   6.0   6.13
18      II   4.0   3.10
19      II  12.0   9.13
20      II   7.0   7.26
21      II   5.0   4.74
22     III  10.0   7.46
23     III   8.0   6.77
24     III  13.0  12.74
25     III   9.0   7.11
26     III  11.0   7.81
27     III  14.0   8.84
28     III   6.0   6.08
29     III   4.0   5.39
30     III  12.0   8.15
31     III   7.0   6.42
32     III   5.0   5.73
33      IV   8.0   6.58
34      IV   8.0   5.76
35      IV   8.0   7.71
36      IV   8.0   8.84
37      IV   8.0   8.47
38      IV   8.0   7.04
39      IV   8.0   5.25
40      IV  19.0

2. matplotlib 라이브러리로 그래프 그리기

In [3]:
%matplotlib notebook
import matplotlib.pyplot as plt

3. 첫 번째 데이터 그룹 추출

In [4]:
dataset_1 = anscombe[anscombe['dataset']=='I']

4. `plot` 메서드로 선 그래프 그리기

In [7]:
plt.plot(dataset_1['x'], dataset_1['y'])

<IPython.core.display.Javascript object>

[<matplotlib.lines.Line2D at 0x1d4433adcd0>]

5. 점으로 그래프 그리기

In [8]:
plt.plot(dataset_1['x'], dataset_1['y'], 'o')

<IPython.core.display.Javascript object>

[<matplotlib.lines.Line2D at 0x1d44340fd60>]

## 앤스콤 데이터 집합 모두 사용해 그래프 만들기
### matplotlib 라이브러리로 그래프 그리기

1. 전체 그래프가 위치할 기본 틀을 만든다.
2. 그래프를 그려 넣을 그래프 격자를 만든다.
3. 격자에 그래프를 하나씩 추가한다. 추가되는 순서는 왼쪽에서 오른쪽 방향.
4. 격자의 첫 번째 행이 꽉 차면 두 번째 행에 그래프를 그려 넣는다.

#### 한 번에 4개의 그래프 그리기
1. 앤스콤 데이터프레임의 dataset 열 값이 I, II, III, IV인 것을 추출하여 `dataset_1, 2, 3, 4`에 저장.

In [9]:
dataset_2 = anscombe[anscombe['dataset']=='II']
dataset_3 = anscombe[anscombe['dataset']=='III']
dataset_4 = anscombe[anscombe['dataset']=='IV']

2. 그래프 격자가 위치할 기본 틀 만들기.

In [13]:
fig = plt.figure()

<IPython.core.display.Javascript object>

3. `add_subplot` 메서드로 그래프 격자 그리기. 첫 번째 인자에는 행 크기를, 두 번쨰 인자에는 열 크기를 지정.

In [14]:
axes1 = fig.add_subplot(2, 2, 1)
axes2 = fig.add_subplot(2, 2, 2)
axes3 = fig.add_subplot(2, 2, 3)
axes4 = fig.add_subplot(2, 2, 4)

4. `plot` 메서드에 데이터를 전달하여 그래프 그리기.

In [16]:
axes1.plot(dataset_1['x'], dataset_1['y'], 'o')
axes2.plot(dataset_2['x'], dataset_2['y'], 'o')
axes3.plot(dataset_3['x'], dataset_3['y'], 'o')
axes4.plot(dataset_4['x'], dataset_4['y'], 'o')

[<matplotlib.lines.Line2D at 0x1d444633100>]

5. 그래프 격자에 제목 추가 : `set_title` 메서드

In [17]:
axes1.set_title("dataset_1")
axes2.set_title("dataset_2")
axes3.set_title("dataset_3")
axes4.set_title("dataset_4")

Text(0.5, 1.0, 'dataset_4')

6. 기본 틀(figure)에도 제목 추가 : `suptitle` 메서드

In [18]:
fig.suptitle("Anscombe Data")
fig

<IPython.core.display.Javascript object>

7. `tight_layout` 메서드로 각 그래프의 레이아웃 조절

In [20]:
fig.tight_layout()
fig

<IPython.core.display.Javascript object>