## Chapter03 Plotly Statistical Graphics : figure_factory

### 1. 통계적 그래픽 모듈 figure_factory

이전까지 우리는 graph_objs 모듈을 통해 trace와 layout으로 구성된 figure를 생성함으로써  플롯을 그렸다. 하지만 여기서는 한 가지 불편함이 생긴다. 우선 Distplot을 살펴보자

In [9]:
import numpy as np
import pandas as pd

from plotly.offline import iplot, plot,init_notebook_mode
import plotly.graph_objs as go
import plotly as py
import plotly.figure_factory as ff

init_notebook_mode()

In [11]:
x = np.random.randn(1000)  
hist_data = [x]
group_labels = ['distplot']

fig = ff.create_distplot(hist_data, group_labels)
iplot(fig)

위 기본 Distplot은 (1) histogram, (2) kernel density estimation (3) rug plot 총 3가지가 결합됐다는 사실을 우리는 확인 할 수 있다. 이를 graph_obj모듈을 통해 그릴 경우 3개의 trace 와 layout객체를 통해 적절하게 조종해 줘야 할 것이다. 이는 굉장히 번거로운 일이며 Plotly 각 세부 옵션에 대해 숙련된 지식이 없을 경우 구현하는데 많은 시간이 들것이다.

따라서 이러한 graph_obj 모듈이 갖는 한계를 극복하기 위해 figure_factory 모듈은 많이 쓰는 Distplot이나 vioin같은 통계적 그래프를 쉽게 만들 수 있도록하는 기능을 담고 있다. 물론 graph_objs 모듈을 통해 모든 그래프를 그리는 것이 가능하다. 단지 figure_factory 모듈을 쓸지 이를 좀더 쉽게 만들어줄 뿐이다. 따라서 graph_objs 모듈을 쓸지 figure_factory 모듈을 쓸지는 본인의 선택이다.

### (1) create_distplot : Distplot함수


create_distplot**(**hist_data, group_labels, bin_size=1.0, curve_type='kde', colors=None, rug_text=None, histnorm='probability density', show_hist=True, show_curve=True, show_rug=True**)**


create_distplot는 distplot의 만들기 위해 trace와 layout을 조종한 figure를 자동으로 만들어주는 함수 이다.

자세한 사항은 https://plot.ly/python/distplot/#reference  웹을 통해서 혹은 콘솔에서 help(ff.create_distplot) 명령어 통해 레퍼런스를 참조할 수 있다.

#### 1) 파라미터(param) hist_data, group_labels, bin_size

**1. hist_data** (리스트): 리스트를 입력해줘야 하며, Distplot을 그릴 데이터를 넘겨주는 인자이다.

**2. group_labels** (리스트): 입력된 각 데이터에 대한 이름을 전달해주는 이자이다.

**3. bin_size** (리스트|float): 기본값(Default = 1)이 1로 돼있으며 넘겨받은 각각의 히스토그램에 대한 막대 사이즈를 결정한다.

In [41]:
x1 = np.random.randn(200)-2  
x2 = np.random.randn(200)  
x3 = np.random.randn(200)+2  
x4 = np.random.randn(200)+4  

hist_data = [x1, x2, x3, x4]

group_labels = ['Group 1', 'Group 2', 'Group 3', 'Group 4']

fig = ff.create_distplot(hist_data = hist_data, group_labels = group_labels, bin_size=[2, 1, 0.5, 0.1])

iplot(fig)

만일 bin_size에 1개의 값만 넘겨준다면 모두 같은 bin_size를 갖게된다. 

In [42]:
fig = ff.create_distplot(hist_data = hist_data, group_labels = group_labels, bin_size=0.5)

iplot(fig)

#### 2) 기타 파리미터 : color, curve_type,  histnorm

사실 figure_factory 모듈은 graph_obj을 끌고와 조합하는 api모듈 이기 때문에 그동안 trace, layout 객체를 조종하여 플롯을 수정한 것과 별반 다를게 없다. 따라서 fig 변수를 print 할경우 익숙한 파이썬 딕셔너리 구조가 나타남을 알 수 있다.

따라서 color curve_type, histnorm 파라미터 또한 별반 다를게 없어진다. 

**color**(리스트|str): 각 trace의 marker 속성을 컨트롤하여 색상을 조종한다. 



**histnorm** (str):기본은 'probability density' 값이 지정되며  'probability density', 'probability' 2가지 모드를 갖고있다. 이는 히스토그램을 담당하는 trace 중 mode옵션을 조종하게 된다.

**curve_type** (str): 기본은 'kde' 값이며 'kde' , 'normal' 두 가지 값을 갖고있다.


In [56]:
x1 = np.random.randn(200) - 2 
x2 = np.random.randn(200)
x3 = np.random.randn(200) + 2 

hist_data = [x1, x2, x3]

group_labels = ['Group 1', 'Group 2', 'Group 3']
colors = ['#A56CC1', '#A6ACEC', '#63F5EF']


fig = ff.create_distplot(hist_data, group_labels, colors=colors,
                         bin_size=.2, curve_type = 'normal')

In [50]:
fig

{'data': [{'autobinx': False,
   'histnorm': 'probability density',
   'legendgroup': 'Group 1',
   'marker': {'color': '#A56CC1'},
   'name': 'Group 1',
   'opacity': 0.7,
   'type': 'histogram',
   'x': array([-1.53657181, -0.89705789, -1.80656232, -1.54360321,  0.1652397 ,
          -0.42497516, -3.03434231, -3.72316396, -1.82104717, -2.34298512,
          -1.46009183, -2.18082871, -2.16871862, -1.73940606, -3.74149412,
          -2.14287716, -1.35614862, -2.85542369, -0.2379922 , -2.01926793,
          -2.05402759, -3.67713483, -1.6239166 , -1.88944626, -1.91981192,
          -1.60072645, -2.89260757, -1.37065743, -3.27212474, -3.47584623,
          -2.09543399, -1.36733687, -3.80230777, -2.18965784, -2.44289727,
          -2.28403668, -2.84398654, -1.27114566, -2.05223611, -2.24811872,
          -2.66183732, -0.90809098, -3.06640183, -3.74215969, -1.31985166,
          -1.20819839, -2.31142658, -1.62307695, -0.67820238, -2.68644328,
          -2.75517277, -1.58832351, -0.22647646,

In [57]:
iplot(fig)

### (2) update 매소드 : 만들어진 create_distplot을 수정하자

우리는 위의 fig변수를 살펴본 결과 방법은 다르지만 자료구조는 별반 다르지 않다는 것을 알 수 있었다. 그렇지만 모든 과정이 분리되어 수정하기 용이 했던 graph_objs 모듈과 달리 모든 과정이 논스톱으로 진행되는 figrues_factory 모듈로 만들어진 figure는 어떻게 수정할 수 있을까?   

바로 update 매소드를 이용하여 만들 수 있다. 

In [59]:
type(fig)

plotly.graph_objs.graph_objs.Figure

In [61]:
fig['data']

[{'autobinx': False,
  'histnorm': 'probability density',
  'legendgroup': 'Group 1',
  'marker': {'color': '#A56CC1'},
  'name': 'Group 1',
  'opacity': 0.7,
  'type': 'histogram',
  'x': array([-1.589447  , -1.32617708, -1.56414922, -1.49356476, -1.71872837,
         -0.71316537, -3.25295466, -3.29127461, -4.21801486, -1.93723778,
         -2.79696272, -2.49672399, -2.62548454, -0.73084431, -2.22749715,
         -3.05313864, -3.69697647, -2.29443024, -2.36767472, -1.5904611 ,
         -2.14452756, -0.61239241, -4.45088193, -2.31481534,  1.21536309,
         -1.63061586, -2.69433286, -2.09753601, -3.226885  , -1.53555238,
         -3.30299445, -4.14319858, -0.36988239, -2.68061253, -0.01877092,
         -3.78689941, -1.93574102, -0.68132161, -0.83662863, -2.37480619,
         -0.92728764, -3.62960408, -2.94037161, -1.08158745, -1.95209047,
         -1.41676418, -1.71581121, -4.32513139, -1.88583715, -0.98014619,
         -2.99904381, -2.73031264, -2.22414158, -0.18690597, -1.15890549,

In [62]:
fig['layout']

{'barmode': 'overlay',
 'hovermode': 'closest',
 'legend': {'traceorder': 'reversed'},
 'xaxis1': {'anchor': 'y2', 'domain': [0.0, 1.0], 'zeroline': False},
 'yaxis1': {'anchor': 'free', 'domain': [0.35, 1], 'position': 0.0},
 'yaxis2': {'anchor': 'x1',
  'domain': [0, 0.25],
  'dtick': 1,
  'showticklabels': False}}

type 함수를 통해 fig변수는 plotly.graph_objs.graph_objs.Figure 객체임을 확인 할 수 있다. 하지만 그 모습은 'data'와 'layout' 두 가지 속성으로 분류된 파이썬 딕셔너리 형태로 저장돼있기 때문에 trace부분을 수정하고 싶다면 data를 layout 객체를 수정하고 싶다면 layout을 아래처럼 update매소드나 기타 방법을 통해 자료만 수정/입력 하면 된다.

In [66]:
fig['layout'].update(title='Hist and Curve Plot') # 제목 추가하기

iplot(fig)

In [79]:
# 그냥 딕셔너리를 선택해서 해당속성을 바꾸면 plot을 컨트롤 할 수 있다. 
# 아래 코드의 결가 Group 1에서 Deheat으로 바뀐것을 알 수 있다.  

fig['data'][0]['name'] = "Deheat" # Figure객체는 list타입안에 trace와 layout이 딕셔너리 형태로 있기 때문에 
fig['data'][0]['name']            #리스트 안의 값을 인덱싱해서 갖고온 후 작업을 해야한다.

'Deheat'

In [80]:
iplot(fig)

### (2) 기타 여러가지 distplot의 기능 예제

기초적인 부분은 위에서 모두 언급했다. 아래 그래프와 코드들은 파라미터를 수정하여 나온 각각으 개별 예제이다.자세한 설명은 help("plotly.figure_factory.create_distplot")을 참조하거나 공식홈페이지 https://plot.ly/python/distplot/#reference 를 참조하길 바란다.

#### 1) 히스토그램과 Rug 플롯만 표현하고 각각의 그래프 색깔 조종하기

In [86]:
x1 = np.random.randn(200) - 2 
x2 = np.random.randn(200)
x3 = np.random.randn(200) + 2 

hist_data = [x1, x2, x3]

group_labels = ['Group 1', 'Group 2', 'Group 3']
colors = ['#393E46', '#2BCDC1', '#F66095']

fig = ff.create_distplot(hist_data, group_labels, colors=colors, 
                         bin_size=[0.3, 0.2, 0.1], show_curve=False)

fig['layout'].update(title='Hist and Rug Plot')


iplot(fig, filename='Hist and Rug Different Bin Size')

#### 2) Cruve와 Rug만 표현하기

In [89]:
x1 = np.random.randn(200) - 1 
x2 = np.random.randn(200)
x3 = np.random.randn(200) + 1 

hist_data = [x1, x2, x3]

group_labels = ['Group 1', 'Group 2', 'Group 3']
colors = ['#333F44', '#37AA9C', '#94F3E4']

fig = ff.create_distplot(hist_data, group_labels, show_hist=False, colors=colors)

fig['layout'].update(title='Curve and Rug Plot')

iplot(fig, filename='Curve and Rug')

#### 3) 히스토그램과 커브(probability densitiy plot)만 표현하기

In [84]:
x1 = np.random.randn(200) - 2 
x2 = np.random.randn(200)
x3 = np.random.randn(200) + 2 

hist_data = [x1, x2, x3]

group_labels = ['Group 1', 'Group 2', 'Group 3']
colors = ['#A56CC1', '#A6ACEC', '#63F5EF']


fig = ff.create_distplot(hist_data, group_labels, colors=colors,
                         bin_size=.2, show_rug=False)


fig['layout'].update(title='Hist and Curve Plot')


iplot(fig, filename='Hist and Curve')

#### 4) pandas dataframe과 같이 사용하기

In [82]:
df = pd.DataFrame({'2012': np.random.randn(200),
                   '2013': np.random.randn(200)+1})
iplot(ff.create_distplot([df[c] for c in df.columns], df.columns, bin_size=.25),
                            filename='distplot with pandas')