# Bokeh란 무엇인가?

---

Bokeh는 **interactive plotting** (역동적인 시각화) 을 가능하게 하는 파이썬 기반의 데이터 시각화 라이브러리 입니다.

우리에게 익숙한 Matplotlib 과 Seaborn 라이브러리는 흔히 정적 (static) 인 시각화를 하는데 많이 쓰이는 반면, 좀더 고급진 시각화는 Bokeh를 통해서 할 수 있습니다.


|  | 속도 | 플롯 |
| --- | --- | --- |
| Matplotlib / Seaborn | 상대적 빠름 | 정적 |
| Bokeh | 상대적 느림 | 역동적 |


여기서 "역동적"이란, 사용자가 결과물인 플롯과 상호작용할 수 있다는 것인데요, 이는 앞으로 공부하시면서 자연스레 느끼실 수 있을 것입니다.

# Bokeh 설치하기

---

보케를 설치하기 위해서는 다음과 같은 패키지들이 필요합니다.

- Numpy
- Jinja2
- Six
- Requests
- Tornade
- PyTaml
- python-dateutil


아마 파이썬을 설치하실 때 자동으로 설치되는 패키지라서 크게 신경쓰실 필요는 없을 것 같습니다.

---

쥬피터 노트북에서는 다음과 같이 외부 패키지들을 다운받을 수 있습니다.

<code>!pip install 패키지이름</code>

다음의 코드를 통해서 이제 bokeh를 다운받아 보도록 합시다.

<code>!pip install bokeh
!pip3 install bokeh --upgrade   # 보케를 최신 버전으로 업데이트
</code>


시간이 약간 소요된 후 successfully installed ~ 라고 뜨면 설치가 완료된 것입니다.


---


보케가 잘 받아졌는지 확인하기 위해, 다음의 예제 코드를 실행해보세요. 

```
from bokeh.plotting import figure, output_file, show
output_file("플롯을 저장할 경로/bokeh.html")   # bokeh.html 앞에 경로는 직접 지정하셔야 합니다!
x = [1,2,3]
y = [4,5,6]
p = figure()
p.line(x,y)
show(p)
```

아웃풋으로 새로운 창에 다음과 같은 그래프가 나오면 문제없이 잘 다운로드가 된 것입니다.

---

![img.png](attachment:img.png)


# Glyph를 통한 시각화

---

본격적으로 시각화를 해보기에 앞서, Bokeh 시각화의 기저를 이루는 **Glyph** 라는 것에 대해서 알아봅시다.

Glyph는 간단하게 말하자면, 다양한 Plot들을 이루는 여러가지 기하학적인 모형들을 총칭하는 개념입니다. 

예를 들어, line plot을 그리기 위해서는 당연하게도 "선"이 필요하겠죠? 마찬가지로, scatter plot을 그리기 위해서는 각 점들을 표시하는 "동그라미"가 필요할 것입니다. 

이렇게 "선", "원", "다각형" 등의 다양한 기하학적 모형들을 Glyph라고 하고, Bokeh의 시각화는 다양한 Glyph들을 조합하는 것을 통해 이뤄집니다.

---

Glyph가 무엇인지 알았다면, 이제 본격적으로 시각화를 해봅시다!

## Line Plot

---

다음의 코드를 통해 간단한 Line Plot을 그려보겠습니다.

Line Plot은 시계열 자료를 시각화하는데 흔히 쓰입니다.

---

Line Plot을 그리는 코드는 <code>line()</code> 입니다.

아까는 <code>output_html</code> 명령어를 통해 결과물을 별도의 html 파일을 열어서 나타냈는데요, 번거로우니까 이제부터는 <code>output_notebook()</code> 명령어를 이용해 쥬피터 노트북에 직접 나타내도록 하겠습니다.

In [1]:
# 시각화에 필요한 패키지 가져오기
from bokeh.io import output_notebook, show
from bokeh.plotting import figure


# 리스트를 사용해서 Line plot 그리기
x = [1,2,3,4,5,6,7,8,9,10]
y = [20,15,16,14,12,11,9,10,11,7]


# figure() 명령어를 통해 figure 오브젝트 생성
plot = figure(width=500, height=300)

# line() 명령어를 통해 line plot 추가
plot.line(x, y)

# x와 y의 교차점에 마커 추가
plot.cross(x, y, size=10)

# 결과물 출력
output_notebook()
show(plot)

1. 시각화를 하기전에, figure() 명령어를 통해 피규어 인스턴스를 생성합니다. 여기서 피규어 인스턴스란, 우리가 앞으로 진행할 시각화를 담아 놓을 일종의 틀이라고 생각하시면 편할 것 같습니다.

---

2. 이렇게 만들어진 피규어 인스턴스에, Glyph를 순차적으로 추가해나갑니다. 위에서는 순서대로 직선과 마커를 추가했습니다.

---

3. 마지막으로 결과를 노트북에 출력했습니다. 결과를 출력하는 방법은 노트북에 직접 출력하는 output_notebook()과, 컴퓨터에 별도의 파일로 저장하는 output_file() 메소드가 있습니다.

## Bar Plot

---

다음은 간단한 Bar Plot을 그려보겠습니다.

Bar Plot은 서로 다른 Label을 갖고 있는 범주형 자료의 상대적 빈도수를 파악하기 위해 흔히 사용됩니다.

---

Bar plot를 그리는 코드는 <code>vbar()</code> 입니다.

In [2]:
# 필요한 패키지 불러오기
from bokeh.plotting import figure, show, output_notebook


# 좌표 리스트 생성
x = [1,2,3]
y = [1,2,3]


# 피규어 인스턴스 생성
plot = figure(width=500, height=300)


# 막대그래프 추가
plot.vbar(x=x, top=y, color='skyblue', width=0.5)


# 결과물 출력
output_notebook()
show(plot)

앞서 line plot을 그렸던 것과 거의 비슷합니다

- width: 막대 간의 거리를 설정

<code>vbar()</code> 대신 <code>hbar()</code>를 사용하면 막대그래프를 옆으로 눕힐 수 있습니다. [(참고)](https://docs.bokeh.org/en/latest/docs/user_guide/categorical.html)

## Patch Plot

---

다음은 패치플롯 이라는 것을 통해 다각형을 2차원 공간에 그려보겠습니다.

패치플롯은 2차원적 지리 공간을 시각화 할 때 주로 사용됩니다.

---

패치플롯은 그리는 코드는 <code>patches()</code> 입니다.

In [3]:
# 필요한 패키지 불러오기
from bokeh.plotting import figure, show, output_notebook


# 매핑할 지역을 생성 (nested list 사용)
x_region = [[1,1,2], [2,2,3], [3,4,4,3]]
y_region = [[2,5,6], [3,6,7], [4,4,5,5]]


# 피규어 오브젝트 생성
plot = figure(width=500, height=300)


# 패치 플롯 추가
plot.patches(x_region, y_region, fill_color = ["skyblue", "yellow", "green"], line_color = "black")


# 결과물 생성
output_notebook()
show(plot)

2차원의 평면상에 세가지의 도형이 그려졌습니다.

간단하게 하늘색 삼각형을 예로 설명하자면, 우리가 x로 지정한 [1,1,2] 가 y인 [2,5,6] 에 원소별로 매칭되어 (1,2), (1,5), (2,6) 세 점을 연결하는 도형이 만들어진 것입니다.

line_color 명령어는 각 도형을 감싸는 선의 색깔입니다.

- 현재 x축과 y축의 간격이 일정하지 않은 것을 알 수 있습니다. 추후에 공부할 내용이므로 여기서는 넘어가도록 하겠습니다.

## Scatter Plot

---

마지막으로 활용도가 높은 산점도를 그려보겠습니다. 

산점도는 서로 다른 두 자료 (주로 연속형)의 상관관계를 시각화 하는데 주로 사용됩니다.


---

산점도를 만드는 코드는 <code>scatter</code> 입니다.

In [4]:
# 필요한 패키지 불러오기
from bokeh.plotting import figure, show, output_notebook


# 피규어 오브젝트 생성
plot = figure(width=500, height=300, title="sda")


# x좌표와 y좌표 설정 (리스트 이용)
x = [1,2,3,4,5,6,7,8,9,10]
y = [3,4,4,7,5,8,2,3,1,1]


# 산점도 추가
plot.scatter(x, y, size=10, marker="circle", color='red')


# 결과물 생성
output_notebook()
show(plot)

- size: 점들의 크기를 조정
- marker: 마커의 모양을 설정
- color: 점들의 색깔


## Plot Customizing


위의 산점도에서, 우리는 각 점들이 "원" 이라는 Glyph로 표현된 것을 알 수 있습니다.

앞서 그린 산점도를 조금 더 이쁘게 커스터마이즈 해봅시다!

---

1. Bokeh는 다양한 종류의 Glyph를 사용자가 커스터마이즈 할 수 있는데요, 대표적인 Glyph의 종류는 다음과 같습니다.


- cross()
- x()
- diamond()
- diamond_cross()
- circle_x()
- circle_cross()
- triangle()
- inverted_triangle()
- square()
- square_x()
- square_cross()
- asterisk()

위의 산점도에서 마커를 다른 Glyph로 수정하기 위해서는 <code>scatter()</code> 코드를 통해 산점도를 그려야합니다.

---

2. 피규어 인스턴스를 생성할 떄 다음의 코드를 통해 이름을 붙일 수 있습니다

<code>figure(x_axis_label = "x축 이름", y_axis_label = "y축 이름", title = "그래프제목")</code>

---

3. 산점도의 각 점들의 투명도를 다음의 명령어를 추가하여 조절할 수 있습니다

<code>alpha = 투명도</code>

alpha의 값으로 최솟값인 0을 설정하면 완전 투명이 되고, 최댓값인 1을 설정하면 가장 진해집니다.

---

이를 바탕으로 산점도를 한번 더 그려봅시다!

In [5]:
# 필요한 패키지 불러오기
from bokeh.plotting import figure, show, output_notebook


# 피규어 오브젝트 생성
plot = figure(width=500, height=300, x_axis_label="x축", y_axis_label="y축", title="그래프1")


# x좌표와 y좌표 설정 (리스트 이용)
x1 = [1,2,3,2,1]
y1 = [4,3,2,2,1]

x2 = [3,6,3,2,3]
y2 = [4,5,3,2,1]

x3 = [6,7,5,6,8] 
y3 = [9,10,8,8,7]


# 산점도 추가
plot.scatter(x1, y1, size=10, color='red', alpha=0.4, marker="circle")
plot.scatter(x2, y2, size=10, color='blue', alpha=1, marker='x')
plot.scatter(x3, y3, size=10, color='black', alpha=0.7, marker="asterisk")


# 결과물 생성
output_notebook()
show(plot)

## 정리

---

이번 내용에서는 Bokeh를 통해 시각화를 하는 기초적인 방법에 대해서 배웠습니다. 

Bokeh의 시각화가 어떤 방식으로 이루어지는지, 그리고 그 과정에서 Glyph가 무엇인지 꼭 기억하시고 넘어가시면 좋을 것 같습니다.

다음 시간에는 이러한 내용을 바탕으로 Numpy의 array, Pandas의 DataFrame 등의 다양한 자료형을 이용한 시각화를 배워볼 예정입니다 ㅎㅎ