In [1]:
import matplotlib as mpl
import numpy as np
import pandas as pd
import seaborn as sns
from IPython.display import Image
import warnings
warnings.filterwarnings(action = "ignore")
import matplotlib.pyplot as plt
# %matplotlib inline은 단순히 차트가 표시되게 하는 기능이고, notebook은 크기도 바꿀 수 있다.
%matplotlib notebook
mpl.rcParams["axes.unicode_minus"] = False
plt.rcParams["font.size"] = 10
plt.rcParams["font.family"] = "NanumGothicCoding"

사람의 눈은 수백줄의 텍스트로만 이루어진 데이터를 읽거나 기초 통계 수치를 계산하는 방법으로는 데이터를 제대로 분석할 수 없기 때문에 데이터의 숨겨진 패턴을 파악하기 위해 데이터 시각화를 사용  
애스콤 4분할 그래프 → 데이터를 시각화하지 않고 수치만 확인 할 때 발생될 수 있는 함정을 보여주기 위해 만든 그래프로 데이터 집합은 4개의 그룹으로 구성되어 있으며 4개의 데이터 그룹은 각각 평균, 분산과 같은 수치나 상관관계 회귀선이 모두 같다는 특징이 있다.  
이런 결과만 보면 4개의 데이터 그룹의 데이터는 모두 같은 것이다 라고 착각 할 수 있다.

In [2]:
# 앤스콤 데이터 집합은 seaborn 라이브러리에 포함되어 있다.
# pip install seaborn
# seaborn 라이브러리의 load_dataset() 메소드의 인수로 "anscombe"을 전달하면 앤스콤 데이터 집합을 불러옴
anscombe = sns.load_dataset("anscombe")
# print(anscombe)
print(anscombe[anscombe["dataset"] == "I"].mean())
print(anscombe[anscombe["dataset"] == "II"].mean())
print(anscombe[anscombe["dataset"] == "III"].mean())
print(anscombe[anscombe["dataset"] == "IV"].mean())

x    9.000000
y    7.500909
dtype: float64
x    9.000000
y    7.500909
dtype: float64
x    9.0
y    7.5
dtype: float64
x    9.000000
y    7.500909
dtype: float64


In [3]:
# 첫 번째 데이터 그룹을 추출한다.
dataset_1 = anscombe[anscombe["dataset"] == "I"]
# print(dataset_1)
# plot() 메소드로 선 그래프를 그린다. plot() 메소드에 x, y축 데이터를 전달하면 선 그래프가 그려진다.
plt.plot(dataset_1["x"], dataset_1["y"], "r")
# 표시되는 파워버튼은 더이상 그래프 수정이 안되게 만드는 버튼

<IPython.core.display.Javascript object>

[<matplotlib.lines.Line2D at 0x192f3ea8be0>]

In [4]:
# 나머지 데이터 그룹을 추출한다.
dataset_2 = anscombe[anscombe["dataset"] == "II"]
dataset_3 = anscombe[anscombe["dataset"] == "III"]
dataset_4 = anscombe[anscombe["dataset"] == "IV"]

In [5]:
# figure() 메소드로 전체 그래프가 그려질 기본 틀을 만든다
fig = plt.figure()
# add_subplot() 메소드로 그래프 격자를 그린다.
# 형식 → add_subplot(행의 개수, 열의 개수, 그래프 위치)
axes1 = fig.add_subplot(2, 2, 1)
axes2 = fig.add_subplot(2, 2, 2)
axes3 = fig.add_subplot(2, 2, 3)
axes4 = fig.add_subplot(2, 2, 4)

# plot() 메소드로 격자에 데이터를 전달해 그래프를 그린다.
axes1.plot(dataset_1["x"], dataset_1["y"], "ob")
axes2.plot(dataset_2["x"], dataset_2["y"], "sr")
axes3.plot(dataset_3["x"], dataset_3["y"], "^g")
axes4.plot(dataset_4["x"], dataset_4["y"], "xy")

# set_title() 메소드로 각각의 격자에 그려진 그래프에 제목을 추가
axes1.set_title("데이터 셋1")
axes2.set_title("데이터 셋2")
axes3.set_title("데이터 셋3")
axes4.set_title("데이터 셋4")

# 전체 그래프의 제목을 추가하고 싶다면 suptitle() 메소드를 활용
fig.suptitle("앤스콤 데이터")
# 그래프의 이름과 숫자가 겹쳐보이면 tight_layout() 메소드를 실행하여 그래프의 레이아웃을 조정한다.
fig.tight_layout()

<IPython.core.display.Javascript object>

In [6]:
# seaborn 라이브러리의 tips 데이터 집합은 어떤 식당에서 팁을 지불한 손님들의 정보를 모아둔 것이다.
# tipx 데이터 집합은 지불금액, 팁, 성별, 흡연여부, 요일, 식사시간, 전체인원 정보를 담고 있다.
tips = sns.load_dataset("tips")
# print(type(tips))
# print(tips.dtypes)
# print(tips.info())
print(tips[["total_bill", "tip"]].head())

   total_bill   tip
0       16.99  1.01
1       10.34  1.66
2       21.01  3.50
3       23.68  3.31
4       24.59  3.61


In [7]:
# 히스토그램그래프 → 데이터프레임의 열 데이터 분포와 빈도를 살펴보는 용도로 자주 사용하는 그래프
fig = plt.figure()
axes1 = fig.add_subplot(1, 2, 1)
axes2 = fig.add_subplot(1, 2, 2)

axes1.hist(tips["total_bill"])
axes1.set_title("total_bill")
axes1.set_xlabel("amounts")
axes1.set_ylabel("counts")

axes2.hist(tips["tip"])
axes2.set_title("tips")
axes2.set_xlabel("amounts")
axes2.set_ylabel("counts")

plt.show() # 영어로 뜨는 정보를 숨김

<IPython.core.display.Javascript object>

공식문서를 참고하면 함수와 메소드의 더 많은 활용법(예제)를 볼 수 있다.  
Google에 scatter in matplotlib (00 안에 있는 함수 또는 메소드)형태로 검색하면 3순위 안에 뜬다.

In [8]:
# 산점도 그래프는 변수 2개를 사용해서 만드는 그래프이며 변수 2개를 사용하기 때문에 통계 용어로 이변량 그래프라 부른다.
# total_bill 열에 따른 tip 열의 분포를 나타내는 산점도 그래프
# 기본틀과 그래프 격자를 만들고 scatter() 메소드에 total_bil, tip 열을 전달하면 산점도 그래프가 만들어진다.
scatter_plot = plt.figure()
axes1 = scatter_plot.add_subplot(1, 1, 1)
axes1.set_title("bill과 tip의 관계표")
axes1.set_xlabel("total_bill")
axes1.set_ylabel("tip")
axes1.scatter(x = tips["total_bill"], y = tips["tip"], marker = "o", color = "r")

plt.show()

<IPython.core.display.Javascript object>

In [9]:
# 박스 그래프는 이산형 변수와 연속형 변수를 함께 사용하는 그래프이다.
# 이산형 변수란 Female, Male과 같이 명확하게 구분되는 값을 의마하고 연속형 변수란 tip과 같이 명확하게 셀 수 없는 범위의 값을 의미
# boxplot() 메소드를 사용하면 박스 그래프를 그릴 수 있다.
# min, max의 범위를 벗어난 데이터(오류데이터)를 검출하는데 자주 사용

boxplot = plt.figure()
axes1 = boxplot.add_subplot(111)

# 박스 그래프 작성에 사용할 데이터는 리스트 형태로 넣어준다.
axes1.boxplot([tips[tips["sex"] == "Female"]["tip"], tips[tips["sex"] == "Male"]["tip"]], labels = ["Female", "Male"])
axes1.set_title("성별에 따른 팁")
axes1.set_xlabel("성별")
axes1.set_ylabel("tip")

plt.show()

<IPython.core.display.Javascript object>

In [10]:
# 평균 팁 %
value = 0
count = 0

for i in range (len(tips) - 1):
    count += 1
    value += tips["tip"][i] / tips["total_bill"][i]

print(value / count * 100)

16.080693634298555


In [11]:
# 3개 이상의 변수를 사용하는 그래프를 다변량 그래프라 부른다.
# 산점도 그래프에 성별을 새 변수로 추가하고 색상으로 구분
# Female, Male과 같은 문자열을 산점도 그래프의 색상을 지정하는 값으로 사용할 수 없기 때문에 0, 1과 같은 정수로 변환하여 사용
# 여성(Female)인 경우 0을 return하고 남성(Male)인 경우 1을 return

def Gender(sex):
    if sex == "Female":
        return 0;
    else:
        return 1;

In [12]:
# Gender() 함수가 return하는 값을 데이터프레임에 추가
# apply(실행할 함수) 메소드를 사용해서 데이터프레임 sex 열의 데이터를 Gender() 함수로 전달해서 일괄적으로 실행

tips["sex_color"] = tips["sex"].apply(Gender)
print(tips.head())

   total_bill   tip     sex smoker  day    time  size sex_color
0       16.99  1.01  Female     No  Sun  Dinner     2         0
1       10.34  1.66    Male     No  Sun  Dinner     3         1
2       21.01  3.50    Male     No  Sun  Dinner     3         1
3       23.68  3.31    Male     No  Sun  Dinner     2         1
4       24.59  3.61  Female     No  Sun  Dinner     4         0


In [13]:
scatter_plot = plt.figure()
axes1 = scatter_plot.add_subplot(111)
axes1.set_title("총 지불금액과 성별에 따른 팁")
axes1.set_xlabel("지불금액")
axes1.set_ylabel("팁")

axes1.scatter(x = tips["total_bill"],
              y = tips["tip"],
              c = tips["sex_color"],
              s = tips["size"] * 30,      # 산점도 원 크기
              alpha = 0.5)                # 투명도 설정

axes1.grid(True)

plt.show()

<IPython.core.display.Javascript object>

seaborn 사용하기  
seaborn은 matplotlib 보다 좀 더 화려한 그래프를 그릴 수 있다.

In [14]:
tips = sns.load_dataset("tips")
print(tips.head())

   total_bill   tip     sex smoker  day    time  size
0       16.99  1.01  Female     No  Sun  Dinner     2
1       10.34  1.66    Male     No  Sun  Dinner     3
2       21.01  3.50    Male     No  Sun  Dinner     3
3       23.68  3.31    Male     No  Sun  Dinner     2
4       24.59  3.61  Female     No  Sun  Dinner     4


In [15]:
# seaborn 라이브러리로 히스토그램을 그리려면 subplots(), distplot() 메소드를 사용
# 먼저subplots() 메소드를 사용해 그래프의 기본 틀을 만들고 distplot() 메소드에 데이터를 전달하면 히스토그램 완성

ax = plt.subplots()
ax = sns.distplot(tips["total_bill"])
ax.set_title("지불금액 히스토그램 밀도 그래프")
ax.set_xlabel("지불금액")

plt.show()

<IPython.core.display.Javascript object>

In [16]:
# distplot() 메소드를 사용하면 히스토그램과 밀집도 그래프가 같이 그려진다.
# 밀집도 그래프는 주어진 데이터를 정규화시켜 넓이가 1이 되도록 그린 그래프를 말하며 밀집도 그래프를 제외하고 싶다면 distplot()메소드에 kde = False를 추가
ax = plt.subplots()
ax = sns.distplot(tips["total_bill"], kde = False) # 여기에 추가
ax.set_title("지불금액 히스토그램 밀도 그래프")
ax.set_xlabel("지불금액")

plt.show()

<IPython.core.display.Javascript object>

In [17]:
# 밀집도 그래프만 나타내려면 distplot()메소드에 hist = False를 추가해준다
ax = plt.subplots()
ax = sns.distplot(tips["total_bill"], hist = False) # 여기에 추가
ax.set_title("지불금액 히스토그램 밀도 그래프")
ax.set_xlabel("지불금액")

plt.show()

<IPython.core.display.Javascript object>

In [18]:
# distplot 메소드에 rug = True 속성을 지정하면 그래프의 축에 동일한 길이의 직선을 붙여 데이터 밀집정도를 표현하는 그래프를 추가
ax = plt.subplots()
ax = sns.distplot(tips["total_bill"], rug = True, kde = False, hist = False)
ax.set_title("지불금액 히스토그램 밀도 그래프")
ax.set_xlabel("지불금액")

plt.show()

<IPython.core.display.Javascript object>

In [19]:
# 히스토그램과 비슷하게 생긴 count 그래프는 이산값을 나타내는 그래프로 countplot() 메소드를 사용 / 합계를 나타내는 그래프
ax = plt.subplots()
ax = sns.countplot(tips["day"])
# ax = sns.countplot("day", data = tips) # 위랑 같지만 옛날 방식
ax.set_title("요일별 tip")
ax.set_xlabel("요일")
ax.set_ylabel("빈도수")

plt.show()

<IPython.core.display.Javascript object>

In [20]:
# seaborn 라이브러리는 matplotlib 라이브러리보다 다양한 방법으로 산점도 그래프를 그릴 수 있다.
# 산점도 그래프를 그리려면 seaborn 라이브러리의 regplot() 메소드를 사용
# regplot() 메소드를 사용하면 산점도 그래프와 회귀선을 함께 그릴 수 있다.
ax = plt.subplots()
ax = sns.regplot(tips["total_bill"], tips["tip"])
# ax = sns.regplot(x = "total_bill", y = "tip", data = tips)
ax.set_title("total bill과 tip")
ax.set_xlabel("total bill")
ax.set_ylabel("tip")

plt.show()

<IPython.core.display.Javascript object>

In [21]:
# 회귀선이 보기 싫다면 regplot() 메소드에 fit_reg = False 옵션 추가
ax = plt.subplots()
ax = sns.regplot(tips["total_bill"], tips["tip"], fit_reg = False)

ax.set_title("total bill과 tip")
ax.set_xlabel("total bill")
ax.set_ylabel("tip")

plt.show()

<IPython.core.display.Javascript object>

In [22]:
# 산점도 그래프와 히스토그램을 한번에 그리려면 jointplot() 메소드를 사용해서 x, y 속성에 그래프로 표시하려는 열 이름을 지정하고
# data 속성에 그래프로 표시할 데이터가 저장된 데이터프레임을 지정한다.

ax = sns.jointplot(x = "total_bill", y = "tip", data = tips)

ax.fig.suptitle("total bill과 tip") # fontsize = 정수 / 글씨크기 옵션,  y = 0~1 / 제목위치 옵션
ax.set_axis_labels(xlabel = "total bill", ylabel = "tip")

plt.show()

<IPython.core.display.Javascript object>

In [23]:
# 산점도는 점이 겹쳐 보일경우 점을 구분하기 어렵다는 단점이 있다.
# 만약 산점도 그래프의 데이터를 구분하기 쉽게 그리고 싶다면 육각 그래프를 사용하는 것을 권장
# 육각 그래프는 2차원 표면에 육각형으로 데이터를 쌓아 색상의 농도로 구분되며 jointplot() 메소드를 사용해 그리며 kind 옵션을 hex로 지정

ax = sns.jointplot(x = "total_bill", y = "tip", data = tips, kind = "hex")

ax.fig.suptitle("total bill과 tip") # fontsize = 정수 / 글씨크기 옵션,  y = 0~1 / 제목위치 옵션
ax.set_axis_labels(xlabel = "total bill", ylabel = "tip")

plt.show()

<IPython.core.display.Javascript object>

In [24]:
# 이차원 밀집도는 kdeplot() 메소드를 활용하며, data 속성과 data2 속성에 차트를 구성할 데이터를 지정
# kdeplot() 메소드에 shade = True 옵션을 활용하여 음영 효과를 지정

ax = plt.subplots()
ax = sns.kdeplot(data = tips["total_bill"], data2 = tips["tip"], shade = True)

ax.set_title("total bill과 tip")
ax.set_xlabel("total bill")
ax.set_ylabel("tip")

plt.show()

<IPython.core.display.Javascript object>

In [25]:
# barplot() 메소드를 활용 / 평균을 나타내는 그래프

ax = plt.subplots()
ax = sns.barplot(x = tips["time"], y = tips["total_bill"])

ax.set_title("식사 시간에 따른 지불금액 평균")
ax.set_xlabel("식사 시간")
ax.set_ylabel("지불금액")

plt.show()

<IPython.core.display.Javascript object>

In [26]:
# 박스 그래프는 boxplot() 메소드를 활용 / min, 1/4분위, median, 3/4분위, max 순으로 나타냄
# min, max의 범위를 벗어난 데이터(오류데이터)를 검출하는데 자주 사용

ax = plt.subplots()
ax = sns.boxplot(x = tips["time"], y = tips["total_bill"])

ax.set_title("식사 시간에 따른 지불금액 평균")
ax.set_xlabel("식사 시간")
ax.set_ylabel("지불금액")

plt.show()

<IPython.core.display.Javascript object>

In [27]:
# 박스 그래프틑 다양한 통계 수치를 확인하기 위해 자주 사용하는 그래프지만 분산이 모호하게 표현되는 문제점이 있다.
# 따라서 박스 그래프에 커널 밀도를 추정한 바이올린 그래프를 사용하면 어느정도 구분이 가능하다.
# violinplot() 메소드를 활용

# 박스 그래프는 boxplot() 메소드를 활용 / min, 1/4분위, median, 3/4분위, max 순으로 나타냄
# min, max의 범위를 벗어난 데이터(오류데이터)를 검출하는데 자주 사용

ax = plt.subplots()
ax = sns.violinplot(x = tips["time"], y = tips["total_bill"])

ax.set_title("식사 시간에 따른 지불금액 평균")
ax.set_xlabel("식사 시간")
ax.set_ylabel("지불금액")

plt.show()

<IPython.core.display.Javascript object>

In [28]:
# 관계 그래프는 지금까지의 그래프의 종합본으로 pairplot() 메소드에 데이터 프레임을 넣어줌으로 간단히 그릴 수 있다.
'''
sns.pairplot(tips)
plt.show()
'''
# 관계그래프는 가운데라인을 대칭으로 데이터가 중복되는 문제가 있다.
# 이를 개선한 클래스가 PairGrid로써 중복된 그래프가 그려지는 위치를 집접 지정하여 원하는 그래프로 교체 할 수 있다.
# map_upper() 메소드는 대각선을 기준으로 왼쪽에 그려질 그래프를 지정하고, # map_lower() 메소드는 대각선을 기준으로 오른쪽에 그려질 그래프를 지정한다.
# map_diag() 메소드는 대각선을 중심으로 그래프를 그린다.
pair_grid = sns.PairGrid(tips)
pair_grid.map_upper(sns.regplot) # 산점도 그래프
pair_grid.map_lower(sns.kdeplot) # 2차원 밀집 그래프
pair_grid.map_diag(sns.distplot) # 히스토그램 그래프

plt.show()

<IPython.core.display.Javascript object>

seaborn 라이브러리로 다변량 그래프 그리기

In [29]:
# seaborn 라이브러리로 바이올린 그래프 그리기 - 색상 추가
# violinplot() 메소드에 hue 옵션을 사용하여 색상 추가

ax1 = plt.subplots()
ax1 = sns.violinplot(x = "time", y = "total_bill", hue = "sex", data = tips)
ax2 = plt.subplots()
ax2 = sns.violinplot(x = "time", y = "total_bill", hue = "sex", data = tips, split = True)


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

In [30]:
# 산점도, 관계 그래프 그리기 - 색상 추가
sns.lmplot(x = "total_bill", y = "tip", hue = "sex", data = tips)
sns.lmplot(x = "total_bill", y = "tip", hue = "sex", data = tips, fit_reg = False)
sns.pairplot(tips, hue = "sex")
plt.show()

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

In [31]:
# 산점도 그래프의 점 크기를 조절을 하기 위해서는 scatter_kws 속성에 dict 형태로 속성값을 전달
# 모양을 변경하기 위해서는 markers 속성에 list 형태로 속성값 전달
sns.lmplot(x = "total_bill", y = "tip", hue = "sex", data = tips, fit_reg = False, scatter_kws = {"s" : 150}, markers = ["s", "^"])
plt.show()

<IPython.core.display.Javascript object>

In [32]:
# lmplot() 메소드로 앤스콤 4분할 그래프를 그린다.
# x, y 속성에 앤스콤 데이터 집합의 x, y 열을 전달하고 data 속성에는 앤스콤 데이터프레임을 전달하고 fit_reg 속성에는 False를 지정하여 회귀선을 표시하지 않는다.
# 이렇게 하면 4개의 그룹이 한꺼변에 산점도로 그려짐

sns.lmplot(x = "x", y = "y", data = anscombe, fit_reg = False, hue = "dataset")
# col 속성에 hue의 그룹 이름을 지정하고 col_wrap 속성에 열의 개수를 지정하면 4개의 그룹별로 산점도 그래프를 그릴 수 있다.
sns.lmplot(x = "x", y = "y", data = anscombe, fit_reg = False, col = "dataset", col_wrap = 2)
plt.show()

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

In [33]:
# FacetGrid 클래스를 사용해서 간편하게 그래프를 그릴 수 있다.
# 차트를 구성할 데이터와 차트 작성의 기준이 되는 열의 정보를 넘겨 차트가 출력될 영역을 만든 후 map() 메소드를 활용하여 차트 종류와 데이터를 넘겨주면 된다.
facet = sns.FacetGrid(tips, col = "time")
facet = facet.map(sns.distplot, "total_bill", rug = True)

<IPython.core.display.Javascript object>

In [34]:
# day 열로 그룹을 구분해 산점도를 그리고 범례를 표시
facet = sns.FacetGrid(tips, col = "day", hue = "sex")
facet = facet.map(plt.scatter, "total_bill", "tip")
facet = facet.add_legend() # 범례 추가, 색상으로 사용한 열이 범례로 추가

<IPython.core.display.Javascript object>

In [35]:
# time, smoker 열을 그룹으로 구분해 산점도를 그린다.
# time 열은 Dinner/Lunch, smoker 열은 Yes/No 각각 2개의 값을 가지고 있음
facet = sns.FacetGrid(tips, col = "time", row = "smoker", hue = "sex")
facet = facet.map(plt.scatter, "total_bill", "tip")
facet = facet.add_legend() # 범례 추가, 색상으로 사용한 열이 범례로 추가

<IPython.core.display.Javascript object>

데이터프레임과 시리즈로 그래프 그리기

In [36]:
# hist() 메소드를 사용해 해당 시리즈의 값을 이용하여 히스토그램을 그릴 수 있다.
fig, ax = plt.subplots()
ax = tips["total_bill"].plot.hist()

<IPython.core.display.Javascript object>

In [37]:
# 두 개 이상의 시리즈에 대한 히스토그램을 만들려면 시리즈를 리스트로 묶어서 전달
fig, ax = plt.subplots()
ax = tips[["total_bill", "tip"]].plot.hist(alpha = 0.5, ax = ax) # ax = ax를 넣어줌으로써 빈 틀이 나오는 현상 삭제

<IPython.core.display.Javascript object>

In [38]:
# 밀집도, 산점도, 육각 그래프, 박스 그래프는 각각 kde, scatter, hexbin, box 메소드를 사용
fig, ax = plt.subplots()
ax = tips["tip"].plot.kde()
ax = tips.plot.scatter(x = "total_bill", y = "tip")
ax = tips.plot.hexbin(x = "total_bill", y = "tip", gridsize = 20) # gridsize 옵션으로 육각형 크기를 조절
ax = tips.plot.box()

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

In [39]:
ax = plt.subplots()
ax = sns.violinplot(x = "time", y = "total_bill", data = tips, hue = "sex", split = True)

ax.set_title("Dinnig time with Bill amount")
ax.set_xlabel("Dinning time")
ax.set_ylabel("Bill amount")

plt.show()

<IPython.core.display.Javascript object>