# 앤스콤 데이터 집합 불러오기

데이터 시각화를 보여주는 사례중 앤스콤 4분할 그래프가 있다. 이 그래프는 데이터를 시각화하지 않고 수치만 확인할 때 발생할 수 있는 함정을 보여주기 위해 만든 그래프이다. 

앤스콤 4분할 그래프를 구성하는 데이터 집합은 4개의 그룹으로 구성되어 있다. 모든 데이터 그룹은 x, y열을 가지고 있으며 이 4개의 데이터 그룹은 각각 평균, 분산과 같은 수칫값이나 상관관계, 회귀선이 같다는 특징이 있다. 그래서 이 결과만 보고 데이터 그룹 4가지의 데이터는 모두 같다고 착각 할 수 있다.

하지만 각 데이터 그룹을 시각화하면 데이터 그룹이 서로 다른 데이터 패턴을 가지고 있다는 점을 금방 알 수 있다. 이런 점에서 데이터 시각화는 분석 분야에서 아주 중요한 요소라고 할 수 있다.

앤스콤 데이터 집합은 seaborn 라이브러리에 포함되어 있다. seaborn 라이브러리의 load_dataset 메서드에 문자열 anscombe을 전달하면 앤스콤 데이터 집합을 불러올 수 있다. 이 때 데이터프레임의 열 이름 중 dataset 열이 데이터 그룹을 구분한다는 것을 알 수 있다.

In [3]:
import seaborn as sns
anscombe = sns.load_dataset("anscombe")
print(anscombe)
print(type(anscombe))

   dataset     x      y
0        I  10.0   8.04
1        I   8.0   6.95
2        I  13.0   7.58
3        I   9.0   8.81
4        I  11.0   8.33
5        I  14.0   9.96
6        I   6.0   7.24
7        I   4.0   4.26
8        I  12.0  10.84
9        I   7.0   4.82
10       I   5.0   5.68
11      II  10.0   9.14
12      II   8.0   8.14
13      II  13.0   8.74
14      II   9.0   8.77
15      II  11.0   9.26
16      II  14.0   8.10
17      II   6.0   6.13
18      II   4.0   3.10
19      II  12.0   9.13
20      II   7.0   7.26
21      II   5.0   4.74
22     III  10.0   7.46
23     III   8.0   6.77
24     III  13.0  12.74
25     III   9.0   7.11
26     III  11.0   7.81
27     III  14.0   8.84
28     III   6.0   6.08
29     III   4.0   5.39
30     III  12.0   8.15
31     III   7.0   6.42
32     III   5.0   5.73
33      IV   8.0   6.58
34      IV   8.0   5.76
35      IV   8.0   7.71
36      IV   8.0   8.84
37      IV   8.0   8.47
38      IV   8.0   7.04
39      IV   8.0   5.25
40      IV  19.0

# matplotlib 라이브러리로 간단한 그래프 그리기

In [14]:
%matplotlib notebook
import matplotlib.pyplot as plt

dataset_1 = anscombe[anscombe['dataset']=='I']

plt.plot(dataset_1['x'], dataset_1['y'])

<IPython.core.display.Javascript object>

[<matplotlib.lines.Line2D at 0x1f57f56dec8>]

plot은 기본적으로 선으로 그래프를 그린다. 만약 점으로 그리려면 'o'를 전달하면 된다.

In [13]:
plt.plot(dataset_1['x'], dataset_1['y'], 'o')

<IPython.core.display.Javascript object>

[<matplotlib.lines.Line2D at 0x1f57cca3548>]

# 한 번에 4개의 그래프 그리기

In [25]:
dataset_1 = anscombe[anscombe['dataset']=='I'] # dataset 불러오기
dataset_2 = anscombe[anscombe['dataset']=='II']
dataset_3 = anscombe[anscombe['dataset']=='III']
dataset_4 = anscombe[anscombe['dataset']=='IV']

fig = plt.figure()

axes1 = fig.add_subplot(2, 2, 1) # subplot 위치 정하기
axes2 = fig.add_subplot(2, 2, 2)
axes3 = fig.add_subplot(2, 2, 3)
axes4 = fig.add_subplot(2, 2, 4)

axes1.plot(dataset_1['x'], dataset_1['y'], 'o') # 점으로 된 그래프 그리기
axes2.plot(dataset_2['x'], dataset_2['y'], 'o')
axes3.plot(dataset_3['x'], dataset_3['y'], 'o')
axes4.plot(dataset_4['x'], dataset_4['y'], 'o')

axes1.set_title("dataset_1") # 각각의 제목 지정
axes2.set_title("dataset_2")
axes3.set_title("dataset_3")
axes4.set_title("dataset_4")

fig.suptitle("Anscombe Data") # 전체 제목지정 
fig.tight_layout() # 각 그래프의 이름과 숫자가 겹쳐보이지 않도록 각 그래프의 레이아웃을 조절하기

<IPython.core.display.Javascript object>

# 기초 그래프 그리기 - 히스토그램, 산점도, 박스 그래프

In [31]:
tips = sns.load_dataset("tips")
print(tips.head())
print(type(tips))

   total_bill   tip     sex smoker  day    time  size
0       16.99  1.01  Female     No  Sun  Dinner     2
1       10.34  1.66    Male     No  Sun  Dinner     3
2       21.01  3.50    Male     No  Sun  Dinner     3
3       23.68  3.31    Male     No  Sun  Dinner     2
4       24.59  3.61  Female     No  Sun  Dinner     4
<class 'pandas.core.frame.DataFrame'>


In [34]:
fig = plt.figure()

axes1 = fig.add_subplot(1, 1, 1)
axes1.hist(tips['total_bill'], bins=10)
axes1.set_title('Histogram of Total Bill')
axes1.set_xlabel('Frequency')
axes1.set_ylabel('Total Bill')

<IPython.core.display.Javascript object>

Text(0, 0.5, 'Total Bill')

In [33]:
scatter_plot = plt.figure()

axes1 = scatter_plot.add_subplot(1, 1, 1)
axes1.scatter(tips['total_bill'], tips['tip'])
axes1.set_title('Scatterplot of Total Bill vs Tip')
axes1.set_xlabel('Total Bill')
axes1.set_ylabel('Tips')

<IPython.core.display.Javascript object>

Text(0, 0.5, 'Tips')

In [37]:
boxplot = plt.figure()

axes1 = boxplot.add_subplot(1, 1, 1)

axes1.boxplot([tips[tips['sex'] == 'Female']['tip'],
                tips[tips['sex'] == 'Male']['tip']],
                labels=['Female', 'Male'])                 
axes1.set_title('Boxplot of Tips by Sex')
axes1.set_xlabel('Sex')
axes1.set_ylabel('Tip')

<IPython.core.display.Javascript object>

Text(0, 0.5, 'Tip')

# 다변량 그래프 그리기

앞에서는 지불 금액과 팁 만을 이용하여 그래프를 그렸다. 여기에 성별을 추가하여 산점도 그래프를 그리려m면 점의 색상을 다르게 하면 된다. 거기에 식사 비용을 추가해서 점의 크기를 다르게 하는 방법으로 산점도를 다르게 표현 할 수 있다.

In [38]:
def recode_sex(sex):
    if sex == 'Female':
        return 0
    else:
        return 1

In [42]:
tips['sex_color'] = tips['sex'].apply(recode_sex)

scatter_plot = plt.figure()

axes1 = scatter_plot.add_subplot(1, 1, 1)
axes1.scatter(
    x=tips['total_bill'],
    y=tips['tip'],
    s=tips['size']*10,
    c=tips['sex_color'],
    alpha=0.5)
axes1.set_title('Total Bill vs Tip Colored by Sex and Sized by Size')
axes1.set_xlabel('Total Bill')
axes1.set_ylabel('Tips')

<IPython.core.display.Javascript object>

Text(0, 0.5, 'Tips')

# 단변량 그래프 그리기 - 히스토그램

In [46]:
import seaborn as sns
tips = sns.load_dataset('tips')

ax = plt.subplots()
ax = sns.distplot(tips['total_bill'])
ax.set_title('Total Bill Histogram with Density Plot')

<IPython.core.display.Javascript object>

Text(0.5, 1.0, 'Total Bill Histogram with Density Plot')

In [49]:
import seaborn as sns
tips = sns.load_dataset('tips')

ax = plt.subplots()
ax = sns.distplot(tips['total_bill'], kde=False)
ax.set_title('Total Bill Histogram')
ax.set_xlabel('Total Bill')
ax.set_ylabel('Frequency')

<IPython.core.display.Javascript object>

Text(0, 0.5, 'Frequency')

In [50]:
import seaborn as sns
tips = sns.load_dataset('tips')

ax = plt.subplots()
ax = sns.distplot(tips['total_bill'], hist=False)
ax.set_title('Total Bill Density Plot')
ax.set_xlabel('Total Bill')
ax.set_ylabel('Frequency')

<IPython.core.display.Javascript object>

Text(0, 0.5, 'Frequency')

In [51]:
import seaborn as sns
tips = sns.load_dataset('tips')

ax = plt.subplots()
ax = sns.distplot(tips['total_bill'], rug=True)
ax.set_title('Total Bill Density Plot')
ax.set_xlabel('Total Bill')
ax.set_ylabel('Frequency')

<IPython.core.display.Javascript object>

Text(0, 0.5, 'Frequency')

In [53]:
import seaborn as sns
tips = sns.load_dataset('tips')

ax = plt.subplots()
ax = sns.countplot('day', data=tips)
ax.set_title('Count of days')
ax.set_xlabel('Day of the Week')
ax.set_ylabel('Frequency')

<IPython.core.display.Javascript object>

Text(0, 0.5, 'Frequency')

# 다양한 종류의 이변량 그래프 그리기

In [54]:
ax = plt.subplots()
ax = sns.regplot(x='total_bill', y='tip', data=tips)
ax.set_title('Scatterplot of Total Bill and Tip')
ax.set_xlabel('Total Bill')
ax.set_ylabel('Tip')

<IPython.core.display.Javascript object>

Text(0, 0.5, 'Tip')

In [55]:
ax = plt.subplots()
ax = sns.regplot(x='total_bill', y='tip', data=tips, fit_reg=False)
ax.set_title('Scatterplot of Total Bill and Tip')
ax.set_xlabel('Total Bill')
ax.set_ylabel('Tip')

<IPython.core.display.Javascript object>

Text(0, 0.5, 'Tip')

In [57]:
joint = sns.jointplot(x='total_bill', y='tip', data=tips)
joint.set_axis_labels(xlabel='Total Bill', ylabel='Tip')
joint.fig.suptitle('Joint Plot of Total Bill and Tip', fontsize=10, y=1.03)

<IPython.core.display.Javascript object>

Text(0.5, 1.03, 'Joint Plot of Total Bill and Tip')

In [59]:
joint = sns.jointplot(x='total_bill', y='tip', data=tips, kind="hex")
joint.set_axis_labels(xlabel='Total Bill', ylabel='Tip')
joint.fig.suptitle('Hexbin Joint Plot of Total Bill and Tip', fontsize=10, y=1.03)

<IPython.core.display.Javascript object>

Text(0.5, 1.03, 'Hexbin Joint Plot of Total Bill and Tip')

In [61]:
ax = plt.subplots()
ax = sns.kdeplot(data=tips['total_bill'],
                 data2=tips['tip'],
                 shade=True)

ax.set_title('Kernel Density Plot of Total Bill and Tip')
ax.set_xlabel('Total Bill')
ax.set_ylabel('Tip')

<IPython.core.display.Javascript object>

Text(0, 0.5, 'Tip')

# 데이터프레임과 시리즈로 그래프 그리기

# 알아두면 좋아요