## 그래프와 시각화
#### 정보의 시각화는 데이터 분석에서 무척 중요한 일이다. 
#### 어떤 경우에는 시각화가 최종 목표일때도 있다. 
#### 파이썬은 다양한 시각화 도구를 가지고 있지만, 여기서는 matplotlib와 matplotlib기반의 도구들을 위주로 살펴본다 
#### matplotlib는 주로 2D 그래프를 위한 그래픽 도구이다. Matlab과 유사한 인터페이스를 지원한다.
#### seaborn은 matplotlib 기반의 그래픽 라이브러리이다.

## 간단한 matplotlib API 살펴보기

In [1]:
#주피터 노트북의 대화형 시각화 기능 사용
%matplotlib notebook  
import matplotlib.pyplot as plt

In [2]:
import numpy as np
data = np.arange(10)
data

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [3]:
plt.plot(data)

<IPython.core.display.Javascript object>

[<matplotlib.lines.Line2D at 0x2a35133b650>]

### Figure와 Subplots
#### matplotlib에서 그래프는 Figure객채 내에서 존재한다. 그래프를 위한 새로운 figure는 plt.figure를 사용해서 생성할 수 있다.
#### add_subplot을 사용해서 subplot을 생성할 수있다. 

In [4]:
fig = plt.figure()
ax1 = fig.add_subplot(2,2,1)
ax2 = fig.add_subplot(2,2,2)
ax3 = fig.add_subplot(2,2,3)
#ax4 = fig.add_subplot(2,2,4)

<IPython.core.display.Javascript object>

In [5]:
# 가장 최근의 figure와 그 서브플롯을 그린다.
plt.plot([1.5, 3.5, -2, 1.6])

[<matplotlib.lines.Line2D at 0x2a35131c450>]

In [6]:
plt.plot(np.random.randn(50).cumsum(), 'k--')

[<matplotlib.lines.Line2D at 0x2226a463410>]

In [6]:
fig = plt.figure()
ax1 = fig.add_subplot(2,2,1)
ax2 = fig.add_subplot(2,2,2)
ax3 = fig.add_subplot(2,2,3)
plt.plot(np.random.randn(50).cumsum(), 'k--') #matplotlib는 가장 최근의 figure와 그 subplot을 그린다.
#_ = ax1.hist(np.random.randn(100), bins=20, color='k', alpha=0.3) #bin:막대의 갯수, alpha:투명도(0이면 완전 투명, 1이면 완전 불투명)
ax1.hist(np.random.randn(100), bins=20, color='k', alpha=0.5) #bin:막대의 갯수, alpha:투명도(0이면 완전 투명, 1이면 완전 불투명)
ax2.scatter(np.arange(30), np.arange(30) + 3 * np.random.randn(30))

<IPython.core.display.Javascript object>

<matplotlib.collections.PathCollection at 0x2a353b177d0>

In [8]:
fig, axes = plt.subplots(2,3)
axes

<IPython.core.display.Javascript object>

array([[<Axes: >, <Axes: >, <Axes: >],
       [<Axes: >, <Axes: >, <Axes: >]], dtype=object)

### Subplots 간격 조정하기
#### Matplotlib는 subplot 간에 적당한 간격(spacing)과 여백(padding)을 추가해분다. 
#### 간격은 Figure 객체의 subplot_adjust 메소드를 사용한다. 

In [9]:
fig, axes = plt.subplots(2, 2, sharex=True, sharey=True)
#sharex, sharey : 모든 subplot들이 같은 x, y축 눈금을 사용한다.
for i in range(2):
    for j in range(2):
        axes[i,j].hist(np.random.randn(500), bins=50, color='k', alpha=0.5)
        
plt.subplots_adjust(wspace=0, hspace=0) #간격을 주지 않음

<IPython.core.display.Javascript object>

### 색상, 마커, 선 스타일
#### Matplotlib의 가장 중요한 plot함수는 x와 y의 좌표값, 색상, 선스타일 등을 인자로 받는다. 

In [10]:
plt.plot?

In [12]:
%matplotlib notebook
from numpy.random import randn

plt.plot(randn(30).cumsum(), 'ko--') #k : black, o, --

[<matplotlib.lines.Line2D at 0x2224b133990>]

In [13]:
plt.close()
plt.plot(randn(30).cumsum(), color='k', linestyle='dashed', marker='o') # 좀 더 명시적으로 표현 가능, 알아보기 쉽다.

[<matplotlib.lines.Line2D at 0x2226e9afb10>]

In [14]:
plt.close()
data = np.random.randn(30).cumsum()

plt.plot(data, 'k--', label='Default')

[<matplotlib.lines.Line2D at 0x2226e9e6ed0>]

#### Line plots are points interpolated linearly by default. This can be altered with 'drawstyle' option.
#### We can also pass label arguments to the plot, which will help us create a plot legend to identify each line using 'plt.legend'.
#### NOTE - You must call plt.legend or ax.legend to create the legend, whether or not you passed the label options.

In [15]:
plt.close()
plt.plot(data, 'k--', label='Default')
plt.plot(data,'k-', drawstyle='steps-post', label='steps-post')
plt.legend(loc='best')

<matplotlib.legend.Legend at 0x2226e9b7850>

### 눈금, 라벨, 범례
#### 그래프를 꾸미는 방법은  1.  pyplot interface,  2. matplotlib API 의 크게 두가지가 있다.
#### pyplot 인터페이스는 대화형 사용에 맞추어 설계되었으며, xlim, xticks, xticklabels같은 메서드로 이루어져 있다. 
#### 이들의 사용법은  :
####     1. 아무런 인자없이 호출하면, 현재 설정되어 있는 매개변수의 값을 반환한다. plt.xlim메서드는 현재 x축의 범위를 반환한다. 
####     2. 인자를 전달하면, 매개변수의 값을 설정한다. 예를들어 plt.xlim([0,10])을 호출하면 x축의 범위가 0부터 10까지 설정된다. t.

### 제목, 축 이름, 눈금 눈금 이름 설정하기 

In [17]:
fig = plt.figure()
ax = fig.add_subplot(1,1,1)
ax.plot(np.random.randn(1000).cumsum())


<IPython.core.display.Javascript object>

[<matplotlib.lines.Line2D at 0x2226ee2e490>]

In [18]:
fig = plt.figure()
ax = fig.add_subplot(1,1,1)
ax.plot(np.random.randn(1000).cumsum())

ticks = ax.set_xticks([0, 250, 500, 750, 1000])
labels = ax.set_xticklabels(['one', 'two', 'three', 'four', 'five'],
                           rotation=30, fontsize='small')
ax.set_title('My first matplotlib plot')
ax.set_xlabel('Stages')
ax.set_ylabel('Value')

<IPython.core.display.Javascript object>

Text(0, 0.5, 'Value')

In [31]:
plt.close()
plt.plot(np.random.randn(1000).cumsum())
plt.xticks([0, 250, 500, 750, 1000], ('one', 'two', 'three', 'four', 'five'))
plt.title('My first matplotlib plot 1')
plt.xlabel('Stages')

<IPython.core.display.Javascript object>

Text(0.5, 0, 'Stages')

#### x대신 y를 사용해서 y축에 대해서도 진행할 수 있다. 
#### axes 클래스는 plot의 속성을 설정할 수 있도록 set 메소드를 제공한다. 

In [19]:
fig = plt.figure()
ax = fig.add_subplot(1,1,1)
ax.plot(np.random.randn(1000).cumsum())

ticks = ax.set_xticks([0, 250, 500, 750, 1000])
labels = ax.set_xticklabels(['one', 'two', 'three', 'four', 'five'],
                           rotation=30, fontsize='small')
props = {
    'title': 'My first matplotlib plot',
    'xlabel': 'Stages',
    'ylabel': 'Value'
}
ax.set(**props)

<IPython.core.display.Javascript object>

[Text(0.5, 1.0, 'My first matplotlib plot'),
 Text(0.5, 0, 'Stages'),
 Text(0, 0.5, 'Value')]

### 범례 추가하기
#### 범례는 그래프 요소를 확인하기 위한 중요한 요소이다.

In [20]:
from numpy.random import randn

fig = plt.figure()
ax = fig.add_subplot(1,1,1)
ax.plot(randn(1000).cumsum(), 'k', label='one')
ax.plot(randn(1000).cumsum(), 'r--', label='two')
ax.plot(randn(1000).cumsum(), 'b.', label='three')
ax.legend(loc='best') #loc는 범례 위치 지정, best : 최대한 방해되지 않는 곳에 두는 옵션 

<IPython.core.display.Javascript object>

<matplotlib.legend.Legend at 0x2226ef1c850>

### 주석과 그림 추가하기 

In [21]:
from datetime import datetime
import pandas as pd

fig = plt.figure()
ax = fig.add_subplot(1,1,1)

data = pd.read_csv('spx.csv', index_col=0, parse_dates=True)
spx = data['SPX']

spx.plot(ax=ax, style='k-')

crisis_data = [
    (datetime(2007, 10, 11), 'Peak of bull market'),
    (datetime(2008, 3, 12), 'Bear stearns fails'),
    (datetime(2008, 9, 15), 'Lehman Bankruptcy')
]

for date, label in crisis_data:
    ax.annotate(label, xy=(date, spx.asof(date) + 70 ),
               xytext = (date, spx.asof(date) + 225),
               arrowprops=dict(facecolor='black', headwidth=4, width=2, headlength=4),
               horizontalalignment='left', verticalalignment='top')
    
# Zoom in on 2007 - 2010
ax.set_xlim(['1/1/2007', '1/1/2011'])
ax.set_ylim([600, 1800])

ax.set_title('Important dates in the 2008-2009 financial crisis')

<IPython.core.display.Javascript object>

Text(0.5, 1.0, 'Important dates in the 2008-2009 financial crisis')

#### 도형을 그리려면 좀 더 신경을 써야 한다. matplotlib는 일반적인 도형을 표현하기 위해 patches라는 객체를 제공한다. 

In [22]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

fig = plt.figure()
ax = fig.add_subplot(1,1,1)

rect = plt.Rectangle((0.2, 0.75), 0.4, 0.15, color='k', alpha=1.0)
circ = plt.Circle((0.7, 0.2), 0.15, color='b', alpha=1.0)
pgon = plt.Polygon([[0.15, 0.15], [0.35, 0.4], [0.2, 0.6]],
                  color='g', alpha=1.0)
#ax.set_aspect(1)
ax.add_patch(rect)
ax.add_patch(circ)
ax.add_patch(pgon)

<IPython.core.display.Javascript object>

<matplotlib.patches.Polygon at 0x2226ef0ea10>

## pandas에서 seaborn으로 그래프 그리기
#### matplotlib은 저수준의 라이브러리이다. 즉, 데이터를 어떻게 보여줄것인지 정하는 모든 기본 컴포넌트(그래프 종류, 눈금, 라벨, 주석 등)로 그래프를 작성해야 한다. 

### 선그래프 

In [45]:
%matplotlib notebook
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np
s = pd.Series(np.random.randn(10).cumsum(), index=np.arange(0, 100, 10))
s
s.plot()
#plt.xlim([-10, 100])

<IPython.core.display.Javascript object>

<AxesSubplot:>

In [49]:
df = pd.DataFrame(np.random.randn(10,4).cumsum(0),
                 columns=['A', 'B', 'C', 'D'],
                 index=np.arange(0, 100, 10))
df.plot()

<IPython.core.display.Javascript object>

<AxesSubplot:>

### 막대 그래프

In [50]:
fig, axes = plt.subplots(2,1)
data = pd.Series(np.random.randn(16), index=list('abcdefghijklmnop'))
data
data.plot.bar(ax=axes[0], color='k', alpha=0.7)
data.plot.barh(ax=axes[1], color='r', alpha=0.7)

<IPython.core.display.Javascript object>

<AxesSubplot:>

#### DataFrame에서 막대그래프는 각 로우의 값을 함께 묶어서 하나의 그룹마다 각각의 막대를 그려준다. 

In [51]:
df = pd.DataFrame(np.random.rand(6,4),
                 index = ['one', 'two', 'three', 'four', 'five', 'six'],
                 columns = pd.Index(['A','B','C','D'], name='Genus'))
df

Genus,A,B,C,D
one,0.510068,0.89534,0.130414,0.344663
two,0.234579,0.793706,0.35895,0.806028
three,0.395721,0.414885,0.540595,0.975727
four,0.001994,0.270023,0.828374,0.244647
five,0.677619,0.466309,0.651181,0.535277
six,0.50046,0.801754,0.423071,0.661


In [54]:
#df.plot()
df.plot.bar()

<IPython.core.display.Javascript object>

<AxesSubplot:>

In [58]:
df.plot.barh(stacked=True, alpha=1.0)
#df.plot.barh(alpha=1.0)
#누적 막대 그래프는 stacked=True 옵션을 사용해서 생성할 수있다.

<IPython.core.display.Javascript object>

<AxesSubplot:>

#### 팁 데이터 예제
#### 요일별 파티숫자를 뽑고 파티 숫자 대비 팁 비율을 보여준다.

In [59]:
tips = pd.read_csv('tips.csv')
tips

Unnamed: 0,total_bill,tip,smoker,day,time,size
0,16.99,1.01,No,Sun,Dinner,2
1,10.34,1.66,No,Sun,Dinner,3
2,21.01,3.50,No,Sun,Dinner,3
3,23.68,3.31,No,Sun,Dinner,2
4,24.59,3.61,No,Sun,Dinner,4
...,...,...,...,...,...,...
239,29.03,5.92,No,Sat,Dinner,3
240,27.18,2.00,Yes,Sat,Dinner,2
241,22.67,2.00,Yes,Sat,Dinner,2
242,17.82,1.75,No,Sat,Dinner,2


In [60]:
party_counts = pd.crosstab(tips['day'], tips['size']) #요일과 파티 숫자에 따라 교차 테이블을 생성
party_counts

size,1,2,3,4,5,6
day,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Fri,1,16,1,1,0,0
Sat,2,53,18,13,1,0
Sun,0,39,15,18,3,1
Thur,1,48,4,5,1,3


In [62]:
party_counts = party_counts.loc[:,2:5] #1인과 6인 파티는 제외
party_counts

size,2,3,4,5
day,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Fri,16,1,1,0
Sat,53,18,13,1
Sun,39,15,18,3
Thur,48,4,5,1


In [63]:
party_pcts = party_counts.div(party_counts.sum(1), axis=0) #각 로우의 합이 1이되도록 정규화하고 그래프를 그려본다.
party_pcts

size,2,3,4,5
day,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Fri,0.888889,0.055556,0.055556,0.0
Sat,0.623529,0.211765,0.152941,0.011765
Sun,0.52,0.2,0.24,0.04
Thur,0.827586,0.068966,0.086207,0.017241


In [64]:
party_pcts.plot.bar()
#주말에 파티의 규모가 커지는 것을 확인할 수있다.

<IPython.core.display.Javascript object>

<AxesSubplot:xlabel='day'>

#### For data that requires aggregation or summation before making a plot, using 'seaborn' can make things simpler.
#### seaborn plotting functions take a 'data' argument, which can be a pandas DataFrame. Other arguments refer to column names.
#### A seaborn barplot plots a bar having average value of a column. The balck line on the bars represent the 95% confidence interval. This interval can be configured through optional arguments.
#### The barplot also has a 'hue' option that enable us to split by an additional categorical value.

In [65]:
tips

Unnamed: 0,total_bill,tip,smoker,day,time,size
0,16.99,1.01,No,Sun,Dinner,2
1,10.34,1.66,No,Sun,Dinner,3
2,21.01,3.50,No,Sun,Dinner,3
3,23.68,3.31,No,Sun,Dinner,2
4,24.59,3.61,No,Sun,Dinner,4
...,...,...,...,...,...,...
239,29.03,5.92,No,Sat,Dinner,3
240,27.18,2.00,Yes,Sat,Dinner,2
241,22.67,2.00,Yes,Sat,Dinner,2
242,17.82,1.75,No,Sat,Dinner,2


In [71]:
tips['tip_pct'] = tips['tip'] / (tips['total_bill'] - tips['tip'])
tips.head()

Unnamed: 0,total_bill,tip,smoker,day,time,size,tip_pct
0,16.99,1.01,No,Sun,Dinner,2,0.063204
1,10.34,1.66,No,Sun,Dinner,3,0.191244
2,21.01,3.5,No,Sun,Dinner,3,0.199886
3,23.68,3.31,No,Sun,Dinner,2,0.162494
4,24.59,3.61,No,Sun,Dinner,4,0.172069


In [78]:
tmp = tips[tips['day']=='Sun']
tmp['tip_pct'].mean()

0.22571784420673377

In [82]:
%matplotlib notebook
import seaborn as sns
sns.barplot(x='tip_pct', y='day', data=tips, orient='h')
#seaborn의 data인자는 pandas의 DataFrame을 받는다.
#day 컬럼의 각 값에 대한 데이터는 여러개 존재하므로 tip_pct의 평균값으로 막대그래프를 그린다.
#막대 그래프 위에 덧그려진 검은 선은 95%의 신뢰구간을 나타낸다.

<IPython.core.display.Javascript object>

<AxesSubplot:xlabel='tip_pct', ylabel='day'>

In [81]:
plt.close()
sns.barplot(x='tip_pct', y='day', hue = 'time', data=tips, orient='h')
#seaborn.barplot 메소드의 hue 옵션을 사용하면 추가 분류에 따라 나누어 그릴수도 있다.

<IPython.core.display.Javascript object>

<AxesSubplot:xlabel='tip_pct', ylabel='day'>

#### seaborn automatically changes teh aesthetics of plots - default color palette, plot background and grid line colors.
#### We can switch between plot appearences using 'seaborn.set'.

#### seaborn에서 스타일링 할 때 크게 두 차원으로 생각해볼 수 있다.

#### style: background color, grid, spine, tick을 정의하여 그림의 전반적인 모양을 스타일링
#### context: 프리젠테이션이나 보고서와 같은 다양한 매체에 활용할 수 있도록 스타일링
#### 1. style: 그림의 전반적인 모양 스타일링,  Seaborn에는 5가지 기본 제공 테마가 있다. darkgrid, whitegrid, dark, white, ticks. 기본값은 darkgrid이지만, 원하는대로 변경이 가능하다.

In [80]:
sns.set(style="whitegrid")

### Histogram과 밀도 그래프 
#### Histogram은 막대그래프의 한 종류로, 값들의 빈도를 분리해서 보여준다. 

In [89]:
plt.close()
tips['tip_pct'].plot.hist(bins=50)

<IPython.core.display.Javascript object>

<AxesSubplot:ylabel='Frequency'>

#### 히스토그램과 관련이 있는 그래프로 밀도 그래프가 있다. 
#### 단순한 정규분포를 보여준다 

In [88]:
plt.close()
tips['tip_pct'].plot.density()

<IPython.core.display.Javascript object>

<AxesSubplot:ylabel='Density'>

#### seaborn 라이브러리의 distplot메소드를 이용해서 히스토그램과 밀도 그래프를 한번에 그릴수 있다.

In [90]:
%matplotlib notebook
import seaborn as sns, numpy as np
sns.set(); np.random.seed(0)
x = np.random.randn(100)
ax=sns.distplot(x, bins=50)



<IPython.core.display.Javascript object>

In [91]:
plt.close()
import pandas as pd
import seaborn as sns
comp1 = np.random.normal(0, 1, size=200)
comp2 = np.random.normal(10, 2, size=200)
values = pd.Series(np.concatenate([comp1, comp2]))
sns.distplot(values, bins=100, color='k')



<IPython.core.display.Javascript object>

<AxesSubplot:ylabel='Density'>

### 산포도(Scatter or Point plots)
#### 두개의 1차원 데이터 묶음간의 관계를 나타내고자 할때 사용한다. 

In [92]:
macro = pd.read_csv('examples/macrodata.csv')
data = macro[['cpi', 'm1', 'tbilrate', 'unemp']]
trans_data = np.log(data).diff().dropna()
trans_data[-5:]

FileNotFoundError: [Errno 2] No such file or directory: 'examples/macrodata.csv'

In [91]:
%matplotlib notebook
import matplotlib.pyplot as plt
import seaborn as sns
sns.regplot('tbilrate', 'unemp', data=trans_data)
plt.title('Changes in log %s versus log %s' % ('m1', 'unemp'))
#regplot메소드를 사용해서 산포도와 선형회귀곡선을 함께 그릴수 있다.

<IPython.core.display.Javascript object>

  return np.add.reduce(sorted[indexer] * weights, axis=axis) / sumval


<matplotlib.text.Text at 0x20db93f3780>

#### 탐색 데이터 분석에서 변수 그룹간의 모든 산포도를 살펴보는 일은 매우 유용하다. 
#### 이를 짝지은 그래프 또는 산포도 행렬이라 한다. 

In [15]:
sns.pairplot(trans_data, diag_kind='kde', plot_kws={'alpha': 0.2})

<IPython.core.display.Javascript object>

  return np.add.reduce(sorted[indexer] * weights, axis=axis) / sumval


<seaborn.axisgrid.PairGrid at 0x2ea29e00ef0>

### 패싯 그리드(Facet Grids)와 범주형데이터(Categorical Data)

In [92]:
sns.factorplot(x='day', y='tip_pct', hue='time', col='smoker',
              kind = 'bar', data=tips[tips.tip_pct < 1])

<IPython.core.display.Javascript object>

  stat_data = remove_na(group_data[hue_mask])
  return np.add.reduce(sorted[indexer] * weights, axis=axis) / sumval


<seaborn.axisgrid.FacetGrid at 0x20dbeee1e48>

In [93]:
sns.factorplot(x='day', y='tip_pct', row='time', col='smoker',
              kind = 'bar', data=tips[tips.tip_pct < 1])

<IPython.core.display.Javascript object>

  stat_data = remove_na(group_data)
  return np.add.reduce(sorted[indexer] * weights, axis=axis) / sumval


<seaborn.axisgrid.FacetGrid at 0x20dc09ff5f8>

In [25]:
sns.factorplot(x='tip_pct', y='day', kind = 'box',
               data=tips[tips.tip_pct < 0.5])
#상자그림(box plot)은 중간값과 사분위 그리고 특이값을 보여준다.

<IPython.core.display.Javascript object>

  box_data = remove_na(group_data)


<seaborn.axisgrid.FacetGrid at 0x2ea2fa795f8>

## Other Python Visualisation Tools
#### Like any other open-source software, Python has a plethora of options for graphic creation.
#### The focus has been to create interactive graphics for web publication.
#### With some tools, it is possible to specify dynamic, interactive graphics in Python for web browsers. eg - Bokeh, Plotly, etc.
#### For static graphs, its good idea defaulting to matplotlib with add-on libraries like seaborn and pandas.
#### For other data visualization needs, it will be good to learn one of the other avilable tools.