# 앤스콤 데이터 집합 불러오기

In [2]:
# 데이터를 시각화하지 않고 수치만 확인할 때 발생할 수 있는 함정을 보여주기위해 만든 그래프
# 4개의 그룹으로 구성된 데이터 집합의 각 평균, 분산과 같은 수칫값이나 상관관계, 회귀선이 모두 같은 경우
# 수치만 확인하면 4개의 그룹의 데이터는 모두 같을 것이라 착각할 수 있으나,
# 시각화 하면 4개의 그룹이 서로 다른 데이터 패턴을 가지고 있다는 것을 확인할 수 있음

# 앤스콤 데이터 집합은 seaborn 라이브러리에 포함되어 있음
# seaborn 라이브러리의 load_dataset 메서드에 문자열 anscombe을 전달
import seaborn as sns
anscombe = sns.load_dataset("anscombe")
print(anscombe)
print(type(anscombe))

   dataset     x      y
0        I  10.0   8.04
1        I   8.0   6.95
2        I  13.0   7.58
3        I   9.0   8.81
4        I  11.0   8.33
5        I  14.0   9.96
6        I   6.0   7.24
7        I   4.0   4.26
8        I  12.0  10.84
9        I   7.0   4.82
10       I   5.0   5.68
11      II  10.0   9.14
12      II   8.0   8.14
13      II  13.0   8.74
14      II   9.0   8.77
15      II  11.0   9.26
16      II  14.0   8.10
17      II   6.0   6.13
18      II   4.0   3.10
19      II  12.0   9.13
20      II   7.0   7.26
21      II   5.0   4.74
22     III  10.0   7.46
23     III   8.0   6.77
24     III  13.0  12.74
25     III   9.0   7.11
26     III  11.0   7.81
27     III  14.0   8.84
28     III   6.0   6.08
29     III   4.0   5.39
30     III  12.0   8.15
31     III   7.0   6.42
32     III   5.0   5.73
33      IV   8.0   6.58
34      IV   8.0   5.76
35      IV   8.0   7.71
36      IV   8.0   8.84
37      IV   8.0   8.47
38      IV   8.0   7.04
39      IV   8.0   5.25
40      IV  19.0

# matplotlib 라이브러리로 간단한 그래프 그리기

In [3]:
# 그래프를 그리기 위해 matplotlib 라이브러리 사용
# 주피터노트북에서는 %matplotlib notebook을 같이 실행해줘야 함
%matplotlib notebook
import matplotlib.pyplot as plt

# anscombe 데이터프레임의 dataset 열에서 데이터 값이 I인 것만 추출(첫번째 데이터 그룹)
dataset_1 = anscombe[anscombe['dataset'] == 'I']


# 선 그래프는 plot 메서드로 그림
# plot 메서드에 x,y축 데이터를 전달
plt.plot(dataset_1['x'], dataset_1['y'])

<IPython.core.display.Javascript object>

[<matplotlib.lines.Line2D at 0x19879088fa0>]

In [4]:
# 위에서 실행한 그래프에 겹쳐지지 않게 닫아줌
plt.close()
# 점으로 그래프를 그려야 할 경우 o를 세 번째 인자로 전달
plt.plot(dataset_1['x'], dataset_1['y'],'o')

<IPython.core.display.Javascript object>

[<matplotlib.lines.Line2D at 0x19879600160>]

# 한 번에 4개의 그래프 그리기

In [5]:
# 1. 전체 그래프가 위치할 기본 틀을 만듬
# 2. 그래프를 그려 넣을 그래프 격자를 만듬
# 3. 격자에 그래프를 하나씩 추가. 격자에 그래프가 추가되는 순서는 왼쪽에서 오른쪽 방향
# 4. 만약 격자의 첫 번째 행이 꽉 차면 두 번째 행에 그래프를 그려 넣음


# 앤스콤 데이터프레임의 dataset 열의 값이 I,II,III,IV인 것을 불린 추출하여 dataset_1,2,3,4에 저장
dataset_2 = anscombe[anscombe['dataset']=='II']
dataset_3 = anscombe[anscombe['dataset']=='III']
dataset_4 = anscombe[anscombe['dataset']=='IV']

# 그래프 격자가 위치할 기본 틀을 만듬
fig = plt.figure()

<IPython.core.display.Javascript object>

In [6]:
plt.close()
fig = plt.figure()
# add_subplot 메서드로 그래프 격자를 그림
# add_subplot(행크기,열크기)
axes1 = fig.add_subplot(2,2,1)
axes2 = fig.add_subplot(2,2,2)
axes3 = fig.add_subplot(2,2,3)
axes4 = fig.add_subplot(2,2,4)


<IPython.core.display.Javascript object>

In [7]:
plt.close()
fig = plt.figure()
axes1 = fig.add_subplot(2,2,1)
axes2 = fig.add_subplot(2,2,2)
axes3 = fig.add_subplot(2,2,3)
axes4 = fig.add_subplot(2,2,4)

# plot메서드에 데이터를 전달하여 그래프를 그림
# 그래프를 확인하려면 fig를 반드시 입력해야 함
axes1.plot(dataset_1['x'], dataset_1['y'], 'o')
axes2.plot(dataset_2['x'], dataset_2['y'], 'o')
axes3.plot(dataset_3['x'], dataset_3['y'], 'o')
axes4.plot(dataset_4['x'], dataset_4['y'], 'o')

# 점의 색상은 매번 실행할 때마다 다를 수 있음


<IPython.core.display.Javascript object>

[<matplotlib.lines.Line2D at 0x19879fef100>]

In [8]:
plt.close()
fig = plt.figure()
axes1 = fig.add_subplot(2,2,1)
axes2 = fig.add_subplot(2,2,2)
axes3 = fig.add_subplot(2,2,3)
axes4 = fig.add_subplot(2,2,4)
axes1.plot(dataset_1['x'], dataset_1['y'], 'o')
axes2.plot(dataset_2['x'], dataset_2['y'], 'o')
axes3.plot(dataset_3['x'], dataset_3['y'], 'o')
axes4.plot(dataset_4['x'], dataset_4['y'], 'o')

# 그래프 격자에 제목 추가 set_title메서드 이용
axes1.set_title("dataset_1")
axes2.set_title("dataset_2")
axes3.set_title("dataset_3")
axes4.set_title("dataset_4")

<IPython.core.display.Javascript object>

Text(0.5, 1.0, 'dataset_4')

In [9]:
plt.close()
fig = plt.figure()
axes1 = fig.add_subplot(2,2,1)
axes2 = fig.add_subplot(2,2,2)
axes3 = fig.add_subplot(2,2,3)
axes4 = fig.add_subplot(2,2,4)
axes1.plot(dataset_1['x'], dataset_1['y'], 'o')
axes2.plot(dataset_2['x'], dataset_2['y'], 'o')
axes3.plot(dataset_3['x'], dataset_3['y'], 'o')
axes4.plot(dataset_4['x'], dataset_4['y'], 'o')
axes1.set_title("dataset_1")
axes2.set_title("dataset_2")
axes3.set_title("dataset_3")
axes4.set_title("dataset_4")

# tight_layout메서드를 호출하여 각 그래프의 레이아웃을 조절할 수 있음
fig.tight_layout()

<IPython.core.display.Javascript object>

# 기초 그래프 그리기 - 히스토그램, 산점도, 박스 그래프

In [10]:
# tips 데이터 집합을 불러와 변수 tips에 저장
tips = sns.load_dataset("tips")
print(tips.head())
print(type(tips))

# 히스토그램은 데이터프레임의 열 데이터 분포와 빈도를 살펴보는 용도로 자주 사용
# 데이터프레임의 total_bill, tip 등의 열을 변수라고 부르기도 함
# 변수를 하나만 사용해서 그린 그래프를 '일변량 그래프'라고 부름
fig = plt.figure()
axes1 = fig.add_subplot(1,1,1)
# hist메서드에 total_bill열을 전달하면 히스토그램이 만들어짐
# x축의 간격은 bins 인자값으로 조정
axes1.hist(tips['total_bill'], bins=10)
# 그래프의 제목과 x,y축의 제목을 추가
axes1.set_title('Histogram of Total Bill')
axes1.set_xlabel('Frequency')
axes1.set_ylabel('Total Bill')

   total_bill   tip     sex smoker  day    time  size
0       16.99  1.01  Female     No  Sun  Dinner     2
1       10.34  1.66    Male     No  Sun  Dinner     3
2       21.01  3.50    Male     No  Sun  Dinner     3
3       23.68  3.31    Male     No  Sun  Dinner     2
4       24.59  3.61  Female     No  Sun  Dinner     4
<class 'pandas.core.frame.DataFrame'>


<IPython.core.display.Javascript object>

Text(0, 0.5, 'Total Bill')

In [11]:
# 변수 2개를 사용해서 만드는 산점도 그래프 - 이변량 그래프
scatter_plot = plt.figure()
axes1 = scatter_plot.add_subplot(1,1,1)
# scatter 메서드에 total_bill, tips 열을 전달하면 산점도 그래프가 나타남
axes1.scatter(tips['total_bill'], tips['tip'])
axes1.set_title('Histogram of Total Bill')
axes1.set_xlabel('total_bill')
axes1.set_ylabel('Tip')

<IPython.core.display.Javascript object>

Text(0, 0.5, 'Tip')

In [12]:
# 이산형 변수와 연속형 변수를 함께 사용하는 박스 그래프
# 이산형 변수란 Female, Male과 같이 명확하게 구분되는 값을 의미
# 연속형 변수란 Tip과 같이 명확하게 셀 수 없는 범위의 값을 의미

# boxplot 메서드를 이용하여 박스 그래프를 그림
boxplot = plt.figure()
axes1 = boxplot.add_subplot(1,1,1)

axes1. boxplot([ tips[tips['sex'] == 'Female']['tip'], # tips 데이터프레임에서 성별이 Female인 데이터
                tips[tips['sex'] == 'Male']['tip'] ], # tips 데이터프레임에서 성별이 Male인 데이터
                labels=['Female', 'Male']) # labels인자값으로 성별을 구분하기 위해

axes1.set_xlabel('Sex')
axes1.set_ylabel('Tip')
axes1.set_title('Boxplot of Tips by Sex')

<IPython.core.display.Javascript object>

Text(0.5, 1.0, 'Boxplot of Tips by Sex')

In [13]:
# 3개 이상의 변수를 사용한 그래프는 '다변량 그래프'라고 부름
# 다변량 그래프는 적재적소에 맞는 그래프 요소를 추가하여 표현해야 함
# 산점도 그래프에서 2개의 변수에 하나의 변수를 추가할 경우 점의 색상을 다르게하여 표현 가능

# 산점도 그래프에 성별을 새 변수로 추가
# Female, Male과 같은 문자열은 산점도 그래프의 색상을 지정하는 값으로 사용 불가, 0,1과 같은 정수를 사용해야 함
# 각 문자열을 정수로 치환하는 함수를 만들기
def recode_sex(sex):
    if sex == 'Female':
        return 0
    else:
        return 1

# recode_sex 함수가 반환한 값을 데이터프레임에 sex_color 열을 새로 생성하여 추가
tips['sex_color'] = tips['sex'].apply(recode_sex)

# 테이블 당 인원 수도 점의 크기로 표현하여 산점도 그래프에 추가

scatter_plot = plt.figure()
axes1 = scatter_plot.add_subplot(1,1,1)
axes1.scatter(
    x=tips['total_bill'],
    y=tips['tip'],
    s=tips['size'] * 10,
    c=tips['sex_color'],
    alpha=0.5)
axes1.set_title('Total Bill vs Tip Colored by Sex and Sized by Size')
axes1.set_xlabel('Total Bill')
axes1.set_ylabel('Tip')

<IPython.core.display.Javascript object>

Text(0, 0.5, 'Tip')

# 단변량 그래프 그리기 - 히스토그램

In [14]:
# seaborn 라이브러리를 활용하면 matplotlib보다 좀 더 화려한 그래프를 그릴 수 있음

import seaborn as sns
tips = sns.load_dataset("tips")

# seaborn 라이브러리로 히스토그램을 그리려면 subplots, distplot 메서드를 사용
ax = plt.subplots()
ax = sns.distplot(tips['total_bill'])
ax.set_title('히스토그램 & 밀집도 그래프')

# distplot 메서드를 사용하면 히스토그램과 밀집도 그래프를 같이 그리게 됨
# 밀집도 그래프를 제외하고 싶다면 kde 인자값을 False로 설정
ax = plt.subplots()
ax = sns.distplot(tips['total_bill'], kde=False)
ax.set_title('히스토그램만')

# 밀집도 그래프만 나타내려면 hist인자를 False로 지정
ax = plt.subplots()
ax = sns.distplot(tips['total_bill'], hist=False)
ax.set_title('밀집도 그래프만')

# 히스토그램과 밀집도를 그리는 distplot 메서드에 rug 인자를 추가하여 양탄자(rug) 그래프까지 그림
ax = plt.subplots()
ax = sns.distplot(tips['total_bill'], rug=True)
ax.set_title('히스토그램 & 밀집도 & 양탄자')
ax.set_xlabel('Total Bill')

<IPython.core.display.Javascript object>



<IPython.core.display.Javascript object>



<IPython.core.display.Javascript object>



<IPython.core.display.Javascript object>



Text(0.5, 0, 'Total Bill')

In [16]:
# 이산값을 나타내는 count그래프
# countplot 메서드에 tips데이터프레임의 day열 데이터를 넣음
ax = plt.subplots()
ax = sns.countplot('day', data=tips)
ax.set_title('Count of days')
ax.set_xlabel('Day of the Week')
ax.set_ylabel('Frequency')

<IPython.core.display.Javascript object>



Text(0, 0.5, 'Frequency')

# 이변량 그래프 그리기

In [17]:
# seaborn 라이브러리로 산점도 그래프 그리기
# regplot메서드를 사용하면 산점도 그래프와 회귀선을 함께 그릴 수 있음
ax = plt.subplots()
ax = sns.regplot(x='total_bill', y='tip', data=tips)
ax.set_title('Scatterplot of Total Bill and Tip')

# 회귀선을 제거하려면 fit_reg인자를 False로 지정
ax = plt.subplots()
ax = sns.regplot(x='total_bill', y='tip', data=tips, fit_reg=False)
ax.set_title('Scatterplot of Total Bill and Tip')

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

Text(0.5, 1.0, 'Scatterplot of Total Bill and Tip')

In [18]:
# 산점도 그래프와 히스토그램을 한 번에 그려주는 jointplot메서드를 사용
joint = sns.jointplot(x='total_bill', y='tip', data=tips)
joint.set_axis_labels(xlabel='Total Bill', ylabel='Tip')
joint.fig.suptitle('Joint Plot of Total Bill and Tip', fontsize=10, y=1.03)

<IPython.core.display.Javascript object>

Text(0.5, 1.03, 'Joint Plot of Total Bill and Tip')

In [19]:
# 산점도 그래프의 데이터를 구분하기 쉽게 하려면 육각 그래프(hexbin)를 사용
# jointplot메서드에서 kind인자값을 hex로 지정
hexbin = sns.jointplot(x='total_bill', y='tip', data=tips, kind='hex')
hexbin.set_axis_labels(xlabel='Total Bill', ylabel='Tip')
hexbin.fig.suptitle('Hexbin Joint Plot of Total Bill and Tip', fontsize=10, y=1.03)

<IPython.core.display.Javascript object>

Text(0.5, 1.03, 'Hexbin Joint Plot of Total Bill and Tip')

In [20]:
# kdeplot메서드로 이차원 밀집도를 그림
ax = plt.subplots()
ax = sns.kdeplot(data=tips['total_bill'],
                data2=tips['tip'],
                shade=True)
ax.set_title('Kernel Density Plot of Total Bill and Tip')
ax.set_xlabel('Total Bill')
ax.set_ylabel('Tip')

<IPython.core.display.Javascript object>



Text(0, 0.5, 'Tip')

In [21]:
# 바 그래프는 지정한 변수의 평균을 계산하여 그릴 수 있음
ax = plt.subplots()
ax = sns.barplot(x='time', y='total_bill', data=tips)
ax.set_title('Bar plot of average total bill for time of day')
ax.set_xlabel('Time of day')
ax.set_ylabel('Average total bill')

<IPython.core.display.Javascript object>

Text(0, 0.5, 'Average total bill')

In [22]:
# 박스 그래프 그리기
# 최솟값, 1분위수, 중간값, 3분위수, 최댓값, 이상치 등 다양한 통계량을 한 번에 표현 가능
ax = plt.subplots()
ax = sns.boxplot(x='time', y='total_bill', data=tips)
ax.set_title('Boxplot of average total bill for time of day')
ax.set_xlabel('Time of day')
ax.set_ylabel('Average total bill')

<IPython.core.display.Javascript object>

Text(0, 0.5, 'Average total bill')

In [24]:
# 박스 그래프는 데이터 분산이 모호하게 표현됨
# 박스 그래프에 커널 밀도를 추정한 바이올린 그래프 사용
# 바이올린 그래프는 violinplot 메서드를 사용
ax = plt.subplots( )
ax = sns.violinplot(x='time' , y= 'total_bill', data=tips)
ax.set_title('Violin plot of total bill by time of day')
ax.set_xlabel('Time of day')
ax.set_ylabel('Total Bill') 

<IPython.core.display.Javascript object>

Text(0, 0.5, 'Total Bill')

In [27]:
# 관계그래프
# pairplot 메서드에 데이터프레임을 넣는 방법
fig = sns.pairplot(tips)

<IPython.core.display.Javascript object>

In [28]:
# 관계 그래프는 중복된 정보가 표현된다는 단점이 있음
# 관계 그래프의 대각선을 기준으로 위 아래 각각 절반이 같음
# 중복된 그래프가 그려지는 위치를 직접 지정하여 원하는 그래프로 교체 가능

# map_upper 메서드는 대각선을 기준으로 위쪽에 그릴 그래프를 지정
# map_lower 메서드는 대각선을 기준으로 아래쪽에 그릴 그래프를 지정
# map_diag는 대각선을 중심으로 그래프를 그림
pair_grid = sns.PairGrid(tips)
pair_grid = pair_grid.map_upper(sns.regplot)
pair_grid = pair_grid.map_lower(sns.kdeplot)
pair_grid = pair_grid.map_diag(sns.distplot, rug=True)
plt.show()

  fig, axes = plt.subplots(len(y_vars), len(x_vars),


<IPython.core.display.Javascript object>

# 다변량 그래프 그리기

In [29]:
# seaborn 라이브러리로 바이올린 그래프 그리기
# violinplot 메서드에 hue 인자값으로 색상에 사용할 열 이름을 추가
ax = plt.subplots( )
ax = sns.violinplot (x='time', y= 'total_bill', hue='sex', data=tips, split=True)

<IPython.core.display.Javascript object>

In [34]:
# 산점도, 관계 그래프
scatter = sns.lmplot(x='total_bill', y='tip', data=tips, hue='sex', fit_reg=False)
fig = sns.pairplot(tips, hue='sex')

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

In [58]:
print(len(tips['total_bill']) == len(tips['tip']) == len(tips['size']))
# 산점도 그래프의 크기와 모양을 조절
# 점 크기는 scatter_kws에 딕셔너리 형태로 인자값을 전달
# 점 기호를 다른 기호로 표현하고 싶다면 markers인자값에 리스트를 담아 전달
scatter = sns.lmplot(x='total_bill', y='tip', data=tips, fit_reg=False, hue='sex', markers=['o','x'], scatter_kws={'s' : tips['size']*10})


True


<IPython.core.display.Javascript object>

ValueError: s must be a scalar, or the same size as x and y

In [60]:
# 앤스콤 4분할 그래프를 lmplot메서드로 그림
anscombe_plot = sns.lmplot(x='x', y='y', data=anscombe, fit_reg=False)
# 4개의 데이터 그룹이 한꺼번에 산점도 그래프로 그려짐

# 그룹별로 나누어 그리려면 lmplot메서드에 추가로 col, col_wrap인자를 설정해야 함
anscombe_plot = sns.lmplot(x='x', y='y', data=anscombe, fit_reg=False, col='dataset', col_wrap=2)

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

In [63]:
# FacetGrid 클래스를 사용하여 간편하게 그룹별 그래프를 그릴 수 있음

# FacetGrid에 데이터프레임과 그룹을 구분할 열 이름을 전달하여 객체 생성
# 객체(facet)의 map 메서드에 그래프의 종류(distplot)와 x축으로 지정할 열 이름을 순서대로 전달하면
# 히스토그램, 밀집도, 양탄자 그래프를 그릴 수 있음
facet = sns.FacetGrid(tips, col='time')
facet.map(sns.distplot, 'total_bill', rug=True)

# tips 데이터 집합의 day 열로 그룹을 구분하여 그래프를 그림
facet = sns.FacetGrid(tips, col='day', hue='sex')
facet = facet.map(plt.scatter, 'total_bill','tip')
facet = facet.add_legend()

# time, smoker 열을 사용하여 산점도 그래프를 그림
# time, smoker 열은 각각 2개의 값을 가지고 있어 2행 2열의 격자가 만들어짐
facet = sns.FacetGrid(tips, col='time', row='smoker', hue='sex')
facet.map(plt.scatter, 'total_bill','tip')

<IPython.core.display.Javascript object>



<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<seaborn.axisgrid.FacetGrid at 0x1980656dd90>

# 데이터프레임과 시리즈로 그래프 그리기

In [68]:
# 데이터 프레임과 시리즈로도 그래프를 그릴 수 있음

# 히스토그램
ax = plt.subplots()
ax = tips['total_bill'].plot.hist()

# 투명도 조절은 hist 메서드의 alpha, bins, ax인자를 사용
fig, ax = plt.subplots()
ax = tips[['total_bill','tip']].plot.hist(alpha=0.5, bins=20, ax=ax)

# 밀집도, 산점도 그래프, 육각 그래프는 각각 kde, scatter, hexbin 메서드를 사용
ax = plt.subplots()
ax = tips['tip'].plot.kde()

fig, ax = plt.subplots()
ax = tips.plot.scatter(x='total_bill',y='tip',ax=ax)

fig, ax = plt.subplots()
ax = tips.plot.hexbin(x='total_bill',y='tip',ax=ax)

# 육각 그래프의 육각형 크기는 gridsize인자를 사용하여 변경 가능
fig, ax = plt.subplots()
ax = tips.plot.hexbin(x='total_bill',y='tip',gridsize=10,ax=ax)

# box그래프
fig, ax = plt.subplots()
ax = tips.plot.box(ax=ax)

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

# 알아두면 좋아요

In [70]:
# seaborn 라이브러리로 그래프 스타일 설정
# seaborn 라이브러리의 그래프 스타일은 set_style 메서드를 사용하여 바꿀 수 있음

sns.set_style('whitegrid') # 배경에 가로줄이 생김
fig, ax = plt.subplots()
ax = sns.violinplot(x='time', y='total_bill', hue='sex', data=tips, split=True)

<IPython.core.display.Javascript object>

In [71]:
# for문을 이용하여 모든 스타일을 하나씩 적용할 수 있음
fig = plt.figure()
seaborn_styles = ['darkgrid', 'whitegrid', 'dark', 'white', 'ticks']
for idx, style in enumerate(seaborn_styles):
    plot_position = idx + 1
    with sns.axes_style(style):
        ax = fig.add_subplot(2, 3, plot_position)
        violin = sns.violinplot(x='time', y='total_bill', data=tips, ax=ax)
        violin.set_title(style)

fig.tight_layout()

<IPython.core.display.Javascript object>

In [None]:
#더 많은 정보를 알고 싶다면 구글에 seaborn documentation이나 matplotlib documentation을 검색하여 나오는 공식 문서 를 참고