**Bokeh 기초 1 - Basic Plotting and Layouts**

# 다양한 자료형을 사용해 시각화 하기

---

이번 시간에는 대표적인 자료형인 Numpy의 array(배열)와 Pandas의 Dataframe을 사용하여 시각화를 진행해보겠습니다.

어려운 내용이 전혀 없으니 가벼운 마음으로 보시면 될 것 같습니다.

## Numpy Array

---

Numpy의 배열은 파이썬에서 가장 흔히 접하는 자료형 중 하나입니다. 

배열을 통해서 산점도와 라인플롯을 그리는 법에 대해서 공부해봅시다.

저번 시간에 배웠던 내용에서 인풋 데이터의 자료형만 바뀐다고 생각하시면 간단합니다.

### Line Plots with Numpy Array

---

저번 시간에 배웠던 <code>figure.line()</code> 함수에 Numpy array 자료형을 직접 입력하여 라인플롯을 그릴 수 있습니다.

In [1]:
import numpy as np
from bokeh.plotting import output_notebook, show, figure

# 데이터(넘파이 배열 이용)
array_x = np.array([1,2,3,4,5])
array_y = np.array([5,6,7,8,9])

# 피규어 오브젝트 생성
plot = figure(plot_width=400, plot_height=300, title="넘파이 배열을 사용한 그래프")

# 라인플롯 추가
plot.line(array_x, array_y)

# 결과물 출력
output_notebook()
show(plot)

### Scatter Plots with Numpy Array

---

마찬가지로 저번 시간에 배웠던 <code>figure.circle()</code> 함수의 입력값만 Numpy array로 지정해주면 됩니다.

In [2]:
import numpy as np
from bokeh.plotting import output_notebook, show, figure

# 데이터
x1 = np.array([1,2,3,4,5])
y1 = np.array([5,6,7,8,9])

x2 = np.array([10,11,12,13,14])
y2 = np.array([14,15,16,17,18])


# 피규어 오브젝트 생성
plot = figure(plot_width=400, plot_height=300)

# 산점도 추가
plot.scatter(x1, y1, size=8, color='blue', marker='x')
plot.scatter(x2, y2, size=8, color='red', alpha=0.7, marker='inverted_triangle')

# 결과물 출력
output_notebook()
show(plot)

매우 간단하죠? 그럼 이번에는 Pandas의 데이터프레임 자료형을 이용해서 시각화를 해보겠습니다.

마찬가지로 매우 간단하니 빠르게 넘어가도록 하겠습니다.

## Pandas Dataframe

---

여러분들께서 잘 아시다 싶이, 실제로 데이터분석을 진행하면서 우리가 마주하게 될 자료형은 데이터프레임이 거의 대부분입니다. 

데이터프레임을 이용해서 산점도와 시계열을 그려보도록 하겠습니다.

---

우리가 사용할 데이터프레임은 캐글에서 구할 수 있는 [S&P 500 주가 데이터](https://www.kaggle.com/camnugent/sandp500/data) 입니다.

이 데이터셋은 2013년부터 2018년까지 다양한 주식의 주가에 대한 정보를 담고 있습니다.

우리는 "AAL"이라고 인코딩 된 애플 주식을 따로 떼어내어 사용하겠습니다.

In [3]:
import pandas as pd

# 데이터 불러오기
df = pd.read_csv("all_stocks_5yr.csv")

print(df.shape)
df.head()

(619040, 7)


Unnamed: 0,date,open,high,low,close,volume,Name
0,2013-02-08,15.07,15.12,14.63,14.75,8407500,AAL
1,2013-02-11,14.89,15.01,14.26,14.46,8882000,AAL
2,2013-02-12,14.45,14.51,14.1,14.27,8126000,AAL
3,2013-02-13,14.3,14.94,14.25,14.66,10259500,AAL
4,2013-02-14,14.94,14.96,13.16,13.99,31879900,AAL


In [4]:
import warnings
warnings.filterwarnings("ignore")

# 애플 주식만 별도의 데이터프레임에 저장
df_apple = df[df.Name == "AAL"]

# "date" 열을 판다스의 날짜 자료형으로 변환
df_apple.date = pd.to_datetime(df_apple.date)

df.head()

Unnamed: 0,date,open,high,low,close,volume,Name
0,2013-02-08,15.07,15.12,14.63,14.75,8407500,AAL
1,2013-02-11,14.89,15.01,14.26,14.46,8882000,AAL
2,2013-02-12,14.45,14.51,14.1,14.27,8126000,AAL
3,2013-02-13,14.3,14.94,14.25,14.66,10259500,AAL
4,2013-02-14,14.94,14.96,13.16,13.99,31879900,AAL


### Time Series Plot with Pandas Dataframe

---

앞서 정의한 애플 주가 데이터에서 "상한가"를 바탕으로 시계열 그래프를 그려봅시다.

시계열 그래프를 그리기 위해서 피규어 인스턴스를 생성할 때 **x축을 시간축으로 설정**해줍시다.

시계열 그래프는 <code>figure.line()</code> 를 통해 그릴 수 있습니다.

In [5]:
# 피규어 오브젝트 생성
plot = figure(x_axis_type="datetime", x_axis_label="date", y_axis_label="High Prices", 
              plot_width=500, plot_height=300)

# 시계열 추가
plot.line(x=df_apple.date, y=df_apple.high)

# 결과물 출력
output_notebook()
show(plot)

### Scatter Plots using Pandas Dataframe

---

앞서 배운 내용들과 동일합니다. 다만, 인풋 데이터의 자료형이 데이터프레임으로 바뀌었을 뿐입니다.

In [6]:
# 피규어 인스턴스 생성
plot = figure(plot_width=400, plot_height=300)

# 산점도 추가
plot.scatter(x=df_apple.high, y=df_apple.low, color='skyblue', size=5, marker='circle')
plot.scatter(x=df_apple.open, y=df_apple.close, color='red', size=5, alpha=0.2, marker='asterisk')

# 결과물 출력
output_notebook()
show(plot)

- 파란색 점들은 애플 주식의 상한가와 하한가의 관계를 나타냅니다.
- 빨간색 점들은 애플 주식의 시가와 종가의 관계를 나타냅니다.

## ColumnDataSource

---

추가적으로, bokeh를 이용한 시각화에서 흔히 사용되는 <code>ColumnDataSource</code> 자료형에 대해서 알아봅시다.

<code>ColumnDataSource</code>는 반복해서 사용될 데이터를 사전에 고정해놓는 것을 의미합니다.

R에 익숙하신 분들은 R에서 데이터셋을 고정시킬 떄 사용되는 <code>attach()</code> 명령어와 거의 유사한 기능을 한다고 생각하시면 되겠습니다.

<code>ColumnDataSource</code>는 데이터셋의 열과 그 값들을 딕셔너리의 형태로 저장해둡니다. 

실제 이를 활용한 코드를 보시면 훨씬 쉽게 이해가 되실 것이라고 생각됩니다.

### Time Series Plot with ColumnDataSource 

---

전반적인 코드는 동일합니다. 

다만 <code>ColumnDataSource</code>를 지정해서 그래프를 그려봅시다.

In [7]:
# ColumnDataSource 패키지 가져오기
from bokeh.plotting import ColumnDataSource


# ColumnDataSource 오브젝트 생성
data = ColumnDataSource(df_apple)

# 피규어 오브젝트 생성
plot = figure(x_axis_type='datetime', x_axis_label="date", y_axis_label="High Prices",
             plot_width=400, plot_height=300)

# Glyph 추가
plot.line(x='date', y='high', source=data, color='red')
plot.scatter(x='date', y='high', source=data, fill_color='white', size=1)

# 결과물 출력
output_notebook()
show(plot)

### Scatter Plot with ColumnDataSource

---

앞서 <code>ColumnDataSource</code>는 데이터셋의 칼럼별 이름과 데이터들을 딕셔너리에 저장한다고 배웠습니다.

이번에는 우리가 직접 딕셔너리에 저장될 값들을 지정해주도록 합시다.

In [8]:
# ColumnDataSource의 딕셔너리를 직접 설정
data = ColumnDataSource(data= {
    "상한가": df_apple.high,
    "하한가": df_apple.low,
    "시가": df_apple.open,
    "종가": df_apple.close
})


# 피규어 인스턴스 생성
plot = figure(plot_width=400, plot_height=300)

# 산점도 추가
plot.scatter(x="상한가", y="하한가", color='skyblue', source=data, size=5, marker='cross')
plot.scatter(x="시가", y="종가", color="red", source=data, size=5, alpha=0.1, marker="diamond_cross")

# 결과물 출력
output_notebook()
show(plot)

이렇게 다양한 자료형을 통해 몇가지 대표적인 그래프를 그려봤습니다.

이제 그래프의 레이아웃을 지정하는 법에 대해서 알아봅시다!

# 레이아웃 커스터마이징

---

더욱 효과적이고 직관적인 시각화를 위해서는 다양하게 레이아웃을 지정하는 것이 필수적입니다.

가령, 서로 다른 여러개의 산점도를 비교 분석하고자 할 때 따로따로 그리는 것보다는 한 개의 결과창에 한꺼번에 표현하는 것이 더욱 효과적이겠죠?

레이아웃을 지정해서 여러개의 플롯들을 연결해주는 것에 대해 공부해봅시다!

## 행 레이아웃

---

동일한 행에 여러개의 플롯을 그리는법에 대해서 알아봅시다.

아까전에 정의했던 애플의 주가에 대한 시계열 데이터를 이용해 서로 다른 세개의 플롯을 그리겠습니다.

코드 자체는 동일합니다.

In [9]:
df_apple.head()

Unnamed: 0,date,open,high,low,close,volume,Name
0,2013-02-08,15.07,15.12,14.63,14.75,8407500,AAL
1,2013-02-11,14.89,15.01,14.26,14.46,8882000,AAL
2,2013-02-12,14.45,14.51,14.1,14.27,8126000,AAL
3,2013-02-13,14.3,14.94,14.25,14.66,10259500,AAL
4,2013-02-14,14.94,14.96,13.16,13.99,31879900,AAL


In [10]:
from bokeh.layouts import row
from bokeh.plotting import output_notebook, show, figure, ColumnDataSource


# ColumnDataSource
data = ColumnDataSource(data = {
    "x1": df_apple.high,
    "y1": df_apple.low,
    "x2": df_apple.open,
    "y2": df_apple.close,
    "x3": df_apple.date,
    "y3": df_apple.volume
})

# 피규어 인스턴스 정의
plot1 = figure(plot_width=400, plot_height=300)
plot2 = figure(plot_width=400, plot_height=300)
plot3 = figure(x_axis_type = "datetime", x_axis_label="date", y_axis_label="Volume Traded",
              plot_width=400, plot_height=300)

# 산점도 추가
plot1.scatter(x="x1", y="y1", source=data, color='skyblue', size=7, marker='x')
plot2.scatter(x="x2", y="y2", source=data, color='red', size=7, marker='asterisk', alpha=0.3)
plot3.line(x='x3', y="y3", source=data, color="black")
plot3.scatter(x="x3", y="y3", source=data, color='gold', size=1, marker="circle", fill_color="white")



# row layout
row_layout = row(plot1, plot2, plot3)

# 결과물 출력
output_notebook()
show(row_layout)

서로 다른 3개의 플롯이 동일한 행에 출력되었습니다!

## 열 레이아웃

---

이번에는 동일한 열에 여러개의 플롯을 그리는 법에 대해 알아보겠습니다.

앞서 행별로 플롯들을 묶은 것과 매우 유사하므로, 코드를 그대로 재활용하겠습니다.

In [11]:
from bokeh.layouts import column

# column layout
col_layout = column(plot1, plot2, plot3)

# 결과물 출력
output_notebook()
show(col_layout)

3개의 플롯이 같은 열에 출력되었습니다!

## 네스티드 레이아웃 (nested layout)

---

이번에는 결과창을 행과 열로 분할해봅시다! 

앞서 배운 행 레이아웃과 열 레이아웃을 결합하면 됩니다.

In [12]:
# nested layout
nested_layout = column(row(plot1, plot2), plot3)

# 결과물 출력
show(nested_layout)

출력 결과를 보시면, 첫번째 행에 두개의 플롯이 있고 두번째 행에 하나의 플롯이 있습니다. 

이런걸 "nested layout"이라고 하는데요, 네스티드 레이아웃을 사용해 여러개의 플롯들을 목적에 맞게 분류할 수 있습니다.

직관적으로, 첫번째 행에 있는 두개의 산점도와 두번째 행에 있는 시도표는 큰 연관성이 없으므로 서로 다른 행으로 분리하는 것이 합리적입니다.

## 그리드 레이아웃 (Grid layout)

---

위에서 네스티드 레이아웃으로 그래프를 출력했을 때, 뭔가 출력창의 그래프들이 정돈되지 않은 느낌이 들지 않나요?

가령 첫번째 행의 산점도와 두번째 행의 시도표의 플롯의 너비가 서로 맞지 않습니다.

이럴 때, 우리는 그리드 레이아웃을 사용해서 결과물을 좀 더 깔끔하게 정리할 수 있습니다.

In [13]:
from bokeh.layouts import gridplot

# 그리드 레이아웃 
grid_layout = gridplot([[plot1, plot2], [plot3, None]], plot_width=400, plot_height=300)

# 결과물 출력
output_notebook()
show(grid_layout)

플롯들의 폭과 너비가 일정해져서 그냥 네스티드 레이아웃을 썼을 떄보다 조금 더 정렬된 느낌입니다!

그리드 레이아웃은 출력창의 그리드를 어떻게 정의하냐에 따라 유연하게 사용할 수 있습니다.

가령 위의 예시에서는 플롯이 3개 밖에 없으니 (2,2) 위치에는 None을 지정해 아무것도 출력하지 않았습니다.

## 탭 레이아웃 (tabbed layout)

---

우리가 시각화를 하면서 어떤 경우에는 플롯들을 분류하고 싶지만, 동일한 입력창에 놔두고 싶은 경우도 있을 것입니다.

이는 앞서 배운 네스티드 레이아웃 혹은 그리드 레이아웃을 통해서 해결할 수 있었는데요, 결과물이 약간 지저분한 느낌이 있습니다.

이런 경우, 우리는 탭 레이아웃을 사용해 플롯들을 좀 더 깔끔하게 분류할 수 있습니다.

다음의 코드를 실행하시고, 결과물을 보시면 이해가 수월하실 것 같습니다.

In [14]:
from bokeh.models.widgets import Tabs, Panel
from bokeh.layouts import column, row

# 패널 생성
tab1 = Panel(child=row(plot1, plot2), title="Scatter")
tab2 = Panel(child=row(plot3), title="Time Series")

# 패널을 탭 오브젝트에 투영
tabs_object = Tabs(tabs = [tab1, tab2])

# 결과물 출력
output_notebook()
show(tabs_object)

결과물을 보면 서로 다른 탭에 우리가 지정한 플롯들이 들어가 있죠?

탭 레이아웃은 여러 데이터를 한꺼번에 시각화하는 과정에서 결과물이 여러개일 때 흔히 사용됩니다.

만약 30개의 플롯을 열 레이아웃으로 그렸다면 스크롤을 한참 내려야하는 번거로움을 탭 레이아웃을 통해 해결할 수 있는 거죠.

## x축, y축 스케일링

---

서로 다른 플롯들을 비교할 때 항상 조심해야 할 것은 플롯별로 각 축의 범위가 일정해야 한다는 것입니다.

가령, 플롯 A는 y축의 범위가 (0, 100) 인데 플롯 B는 (0, 10000) 이라면 두 플롯을 효과적으로 비교하기 힘들겠죠?

이럴 때 우리는 각 축의 범위를 동일하게 맞춰줘야 합니다.

좋은 예시는 아니지만, 앞선 애플 주가 데이터에 산점도들과 시도표의 y축의 범위를 동일하게 맞춰봅시다.

In [15]:
print("산점도의 y축: 0 ~ 60")
print("시도표의 y축: 0 ~ 140000000")

산점도의 y축: 0 ~ 60
시도표의 y축: 0 ~ 140000000


In [16]:
# 동일한 범위를 갖도록 y축의 범위 지정
plot3.y_range = plot1.y_range

# row layout
row_layout = row(plot1, plot3)

# 결과물 출력
output_notebook()
show(row_layout)

두 플롯을 y축의 범위에 대해 스케일링 해주니 산점도가 납작하게 변해버렸습니다.

주의해야 할 점은, 그래프의 축이 서로 다른 자료형일 때는 스케일링이 불가능 합니다. 

예를 들어, 위의 예시에서 시도표는 x축이 "시간" 자료형이지만, 산점도의 x축은 수치 자료형입니다. 이런 경우에 무리하게 x축의 범위를 통일시켜려고 한다면 에러가 발생할 것입니다.

결론은, 서로 다른 플롯을 비교하려고 한다면 항상 데이터의 범위를 잘 생각해줍시다!