# Data visualization tutorials
### Pandas, 다양한 시각화 라이브러리 중심으로 - bokeh


## 01. Data loading
- 데이터를 pandas data frame을 통해 편리하게 나타낼 수 있다.
- data frame의 다양한 인덱싱을 통해 원하는 데이터만 선택할 수 있다.

In [1]:
# 라이브러리 임포트
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

%matplotlib inline 

In [2]:
df = pd.read_csv('allCountries_1950_2050', index_col=0, sep='\t')
df

Unnamed: 0,1950,1955,1960,1965,1970,1975,1980,1985,1990,1995,...,2005,2010,2015,2020,2025,2030,2035,2040,2045,2050
Afghanistan,8150,8891,9829,10998,12431,14132,15044,13120,13568,19445,...,26335,29121,32564,36644,41117,45665,50195,54717,59255,63795
Albania,1227,1392,1623,1884,2157,2401,2671,2957,3245,3158,...,3025,2987,3029,3075,3105,3103,3062,2994,2912,2824
Algeria,8893,9842,10909,11963,13932,16140,18806,22008,25089,28089,...,32561,34586,36640,38594,40290,41641,42663,43425,43940,44163
American Samoa,19,20,20,25,27,30,32,39,47,54,...,62,66,71,75,79,84,87,91,95,98
Andorra,6,6,8,14,20,27,34,45,53,63,...,76,85,86,86,85,84,83,81,78,75
Angola,4118,4423,4797,5135,5606,6050,7206,8390,9485,11000,...,14770,17043,19625,22484,25673,29155,32910,36948,41280,45888
Anguilla,5,5,6,6,6,6,7,7,8,10,...,13,15,16,18,20,21,23,24,26,27
Antigua and Barbuda,46,51,55,59,66,68,69,64,64,69,...,81,87,92,98,104,109,114,117,120,123
Argentina,17150,18928,20616,22283,23962,26082,28370,30672,33036,35274,...,39181,41343,43432,45379,47165,48795,50273,51573,52663,53511
Armenia,1355,1565,1869,2206,2520,2834,3115,3374,3377,3069,...,2983,2967,2984,3017,3044,3051,3042,3023,2991,2943


In [16]:
from bokeh.plotting import figure, output_notebook, show
# 밑에 임포트하는 부분에서 인터렉티브 기능이 추가됨
from bokeh.models import HoverTool, BoxSelectTool
# BokehJS successfully loaded가 떠야 제대로 설치/실행한 것
output_notebook()

In [4]:
sample = np.random.random((100,2))
sample

array([[  8.17321516e-01,   6.20789839e-01],
       [  3.22341855e-01,   3.95905012e-01],
       [  5.86696388e-02,   4.41808049e-01],
       [  1.15252816e-01,   2.04152684e-01],
       [  1.06390313e-01,   9.49024665e-01],
       [  2.91816566e-01,   3.40425946e-01],
       [  1.30069987e-03,   4.04938563e-01],
       [  3.68347819e-01,   1.89972007e-01],
       [  6.20939451e-01,   9.98146265e-01],
       [  1.64731376e-01,   9.86411094e-01],
       [  2.86366569e-01,   8.23805525e-01],
       [  8.62403045e-01,   8.61202113e-02],
       [  3.03846235e-01,   6.10997536e-02],
       [  1.91383262e-01,   2.44864735e-01],
       [  1.70855100e-01,   9.67215055e-01],
       [  2.59204406e-01,   8.66858624e-01],
       [  8.03708842e-01,   3.28683392e-01],
       [  1.24152183e-01,   5.89391970e-02],
       [  9.14604982e-01,   3.56789739e-01],
       [  5.28477683e-01,   5.92417679e-02],
       [  8.49054047e-01,   9.14072058e-01],
       [  9.74661079e-01,   3.00859904e-01],
       [  

## 02. Scatter plotting
- 일반 plotting부터 interactive plotting까지

#### 일반 plotting
- 기존의 matplotlib와 같은 scatter plot
- 즉각적인 상호 작용이 가능한 plot

In [5]:
p = figure(width=500, height=500)
p.circle(sample[:,0], sample[:,1], size=7, color='firebrick', alpha=0.5)

# 결과 보여주기
# 밑에 나오는 결과에서 오른쪽에 나오는 툴을 가지고 확대/축소 등을 할 수 있음
show(p)

#### Interactive plotting 
- tools를 통해 상호 작용 기능 추가

In [6]:
# tools 추가
TOOLS = [BoxSelectTool(), HoverTool()]

# figure 선언하는 곳에 TOOLS 삽입
p = figure(width=500, height=500, tools=TOOLS)
# marker로 점의 모양 정하기
# marker_size
p.scatter(sample[:,0], sample[:,1], size=10, marker='diamond', color='navy', alpha=0.5)

# 결과 보여주기
# 밑의 창에서 커서를 점 위에 갖다대보기
show(p)

In [7]:
from bokeh.plotting import ColumnDataSource

# 한국의 연도별 인구수를 bokeh로 표현해보기

TOOLS = [BoxSelectTool(), HoverTool()]

idx = df.loc['South Korea']

source = ColumnDataSource(
    data = dict(
        x = idx.index,
        y = list(idx),
        year = list(idx.index),
    )
)

hover = HoverTool(
    tooltips=[
        ("(x,y)", "(@x, @y)"),
        ("Population", "@y"),
    ]
)

p = figure(width=500, height=500, tools=[hover])
p.circle(idx.index, idx, size=7)

show(p)

#### Linear regression
- 선형 회귀 분석법을 통해 2100년도의 미국의 인구수 예측
- 선형 회귀 분석법으로 나온 직선 역시 그래프에 그려보기

In [9]:
TOOLS = [BoxSelectTool(), HoverTool()]

# 미국의 인구수 데이터 불러오기
idx = df.loc['United States']

# 선형 회귀 분석법 (linear regression)
# 데이터가 있는 연도 + 70년까지 선 그리기
reg = np.polyfit(idx.index.astype('int'), idx.astype('int'), 1)
r_x, r_y = zip(*((i, i*reg[0]+reg[1]) for i in range(int(idx.index[0]),int(idx.index[-1])+70)))

# 2100년의 인구수 예측
x_22c, y_22c = 2100, 2100*reg[0]+reg[1]

p = figure(title='Population of United States',width=500, height=500, tools=TOOLS)

p.circle(idx.index, idx, size=7)
p.line(r_x, r_y, color='firebrick')
p.square(x_22c, y_22c, size=10, color='pink')

# 겉에 둘러싸는 액자(?)를 그릴 수도 있음
p.outline_line_width = 7
p.outline_line_alpha = 0.3
p.outline_line_color = "navy"

show(p)

## 03. Interactive visualization
- IPython을 통한 interaction
- bokeh 자체의 interaction (slider)

In [12]:
from bokeh.io import push_notebook

x = np.linspace(0, 2*np.pi, 2000)
y = np.sin(x)
source = ColumnDataSource(data=dict(x=x, y=y))

p = figure(title="interaction example", plot_height=300, plot_width=600)
p.line(x='x', y='y', color="#2222aa", line_width=3, source=source, name="foo")

def update(f, w=1, A=1, phi=0):
    if   f == "sin": func = np.sin
    elif f == "cos": func = np.cos
    elif f == "tan": func = np.tan
    source.data['y'] = A * func(w * x + phi)

    push_notebook(handle=handle)
        
handle = show(p, notebook_handle=True)

In [14]:
from ipywidgets import interact

interact(update, f=["sin", "cos", "tan"], w=(0,100), A=(1,10), phi=(0, 10, 0.1))
# 아래의 function f 및 스크롤을 통해 조정하면 위의 plotting이 변경된다

A Jupyter Widget

<function __main__.update>

In [17]:
from bokeh.layouts import row, column, widgetbox
from bokeh.models import CustomJS, Slider
from bokeh.plotting import figure, output_file, show, ColumnDataSource

x = np.linspace(0, 10, 500)
y = np.sin(x)


source = ColumnDataSource(data=dict(x=x, y=y))

plot = figure(y_range=(-10, 10), plot_width=400, plot_height=400)
plot.line('x', 'y', source=source, line_width=3, line_alpha=0.6)

# custom js 기능을 활용하면 Javascript 코드를 통해 기능을 추가할 수 있다.
# 여기에서는 Math.sin에서 sin 함수를 불러와서 k(주기), A(증폭), phi(평형-x축 이동) B(수직-y축 이동)
# Javascript의 trigger 함수에서는 특정 이벤트 유형에 대해 정의된 모든 동작을 실행하게 함.
callback = CustomJS(args=dict(source=source), code="""
    var data = source.data;
    var A = amp.value;
    var k = freq.value;
    var phi = phase.value;
    var B = offset.value;
    x = data['x']
    y = data['y']
    for (i = 0; i < x.length; i++) {
        y[i] = B + A*Math.sin(k*x[i]+phi);
    }
    source.trigger('change');
""")

# 하나의 slider를 정의할 때 마다 오른쪽에 슬라이더가 생긴다.
# start : slider의 시작값
# end : slider의 마지막값
# value : 초기값
# step : 슬라이더를 움직일 때마다 얼마나 이동할 것인지
amp_slider = Slider(start=0.1, end=10, value=1, step=.1,
                    title="Amplitude", callback=callback)
callback.args["amp"] = amp_slider

freq_slider = Slider(start=0.1, end=10, value=1, step=.1,
                     title="Frequency", callback=callback)
callback.args["freq"] = freq_slider

phase_slider = Slider(start=0, end=6.4, value=0, step=.1,
                      title="Phase", callback=callback)
callback.args["phase"] = phase_slider

offset_slider = Slider(start=-5, end=5, value=0, step=.1,
                       title="Offset", callback=callback)
callback.args["offset"] = offset_slider

# 레이아웃을 어떻게 할 것인지
# row를 column으로 바꾸면 어떤 변화가 생길지
layout = row(
    plot,
    widgetbox(amp_slider, freq_slider, phase_slider, offset_slider),
)
# 이 작업을 하고 나면 slider.html 파일이 생성된다.
# html 파일로 결과를 저장할 수 있다는데 bokeh의 가장 큰 장점 중 하나!
output_file("slider.html", title="slider.py example")

show(layout)