# การแสดงผลข้อมูล

ในกระบวนการของ Data analysis นั้นการ visualization ข้อมูลหรือ plotting data

เพื่อทำให้เห็นรายละเอียดของข้อมูลได้ชัดเจนมากยิ่งขึ้น ทั้ง outliner, missing data รวมไปถึงความจำเป็นของการ transformation และ modeling ต่อไป

ในภาษา Python นั้นมี library จำนวนมากเช่น
* [Matplotlib](http://matplotlib.org/)
* [Seaborn](http://seaborn.pydata.org/)

แต่ในเบื้องต้นจะใช้งาน Matplotlib เป็นหลัก

### การใช้งานขั้นพื้นฐาน

In [6]:
import matplotlib.pyplot as plt
%matplotlib notebook

In [7]:
import numpy as np
data = np.arange(10)
data

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [82]:
plt.plot(data)

<IPython.core.display.Javascript object>

[<matplotlib.lines.Line2D at 0x11dc655f8>]

In [85]:
# กำหนดข้อมูลทั้งในแนวแกน x และ y
plt.figure()
plt.plot([1, 2, 3, 4], [1, 4, 9, 16])

<IPython.core.display.Javascript object>

[<matplotlib.lines.Line2D at 0x1194066a0>]

function plot() นั้นค่า default ของกราฟคือ กราฟเส้น (line) และมีสีน้ำเงิน (blue) โดยสามารถเขียนรวมกันได้คือ 'b-' ดังนี้

In [86]:
plt.figure()
plt.plot([1, 2, 3, 4], [1, 4, 9, 16], 'b-')

<IPython.core.display.Javascript object>

[<matplotlib.lines.Line2D at 0x10cdd9c50>]

### ถ้าต้องการเป็น จุดสีแดง ๆ ทำอย่างไร ?

http://matplotlib.org/api/pyplot_api.html#matplotlib.pyplot.plot

In [87]:
plt.figure()
plt.plot([1, 2, 3, 4], [1, 4, 9, 16], 'Put your code')

<IPython.core.display.Javascript object>

[<matplotlib.lines.Line2D at 0x10c41ad68>]

### ทำการกำหนด Marker และ รูปแบบของกราฟ

In [88]:
plt.figure()
plt.plot([1, 2, 3, 4], [1, 4, 9, 16], 'r+')

<IPython.core.display.Javascript object>

[<matplotlib.lines.Line2D at 0x11de46860>]

In [93]:
fig = plt.figure()
plt.plot(np.random.randn(30).cumsum(), 'ko--')

<IPython.core.display.Javascript object>

[<matplotlib.lines.Line2D at 0x10712ceb8>]

In [205]:
fig = plt.figure()
data = np.random.randn(30).cumsum()
plt.plot(data, 'k--', label='Default')
plt.plot(data, 'k-', drawstyle='steps-post', label='steps-post')
plt.legend(loc='best')

<IPython.core.display.Javascript object>

<matplotlib.legend.Legend at 0x14fee7ba8>

### ทำการรวมหลาย ๆ รูปในที่เดียว !!

In [94]:
plt.figure()
t = np.arange(0., 5., 0.2)
plt.plot(t, t, 'r--', t, t**2, 'bs', t, t**3, 'g^')

<IPython.core.display.Javascript object>

[<matplotlib.lines.Line2D at 0x1072109b0>,
 <matplotlib.lines.Line2D at 0x107210ba8>,
 <matplotlib.lines.Line2D at 0x10721b518>]

## Figures และ Subplots

In [45]:
fig = plt.figure()
panel1 = fig.add_subplot(2, 2, 1)
panel2 = fig.add_subplot(2, 2, 2)
panel3 = fig.add_subplot(2, 2, 3)
panel4 = fig.add_subplot(2, 2, 4)

<IPython.core.display.Javascript object>

### ทำการวาดกราฟในแต่ละ panel หรือ subplot ที่กำหนด

In [42]:
_ = panel1.plot([1.5, 3.5, -2, 1.6])

In [43]:
_ = panel2.plot(np.random.randn(50).cumsum(), 'k--')

In [40]:
_ = panel3.hist(np.random.randn(100), bins=20, color='k', alpha=0.3)

In [44]:
_ = panel4.scatter(np.arange(30), np.arange(30) + 3 * np.random.randn(30))

## การปรับแต่ง Matplotlib พื้นฐาน

เริ่มด้วยการกำหนด space ระหว่าง panel

In [51]:
fig, axes = plt.subplots(2, 2, sharex=True, sharey=True)
for i in range(2):
    for j in range(2):
        axes[i, j].hist(np.random.randn(500), bins=50, color='k', alpha=0.5)
plt.subplots_adjust(wspace=0, hspace=0)

<IPython.core.display.Javascript object>

## กำหนดคุณสมบัติพื้นฐานของกราฟ

In [97]:
# กำหนดขนาดของเส้น
plt.figure()
plt.plot([1, 2, 3, 4], [1, 4, 9, 16], linewidth=10.0)

<IPython.core.display.Javascript object>

[<matplotlib.lines.Line2D at 0x11ebea9e8>]

In [103]:
fig = plt.figure()
panel1 = fig.add_subplot(1, 1, 1)
panel1.set_title('My Title')
panel1.set_xlabel('Time')
panel1.set_ylabel('Data')
panel1.plot(np.random.randn(1000).cumsum())

<IPython.core.display.Javascript object>

[<matplotlib.lines.Line2D at 0x12a651ef0>]

### ทำการเปลี่ยน label และ value ในแนวแกน x เพื่อทำให้เข้าใจได้ง่ายขึ้น

In [104]:
fig = plt.figure()
panel1 = fig.add_subplot(1, 1, 1)
panel1.set_title('My Title')
panel1.set_xlabel('Time')
panel1.set_ylabel('Data')

panel1.plot(np.random.randn(1000).cumsum())
ticks = panel1.set_xticks([0, 250, 500, 750, 1000])
labels = panel1.set_xticklabels(['one', 'two', 'three', 'four', 'five'], rotation=30, fontsize='small')

<IPython.core.display.Javascript object>

In [107]:
# Using property
props = {
    'title': 'My Title',
    'xlabel': 'Time',
    'ylabel': 'Data'
}

fig = plt.figure()
panel1 = fig.add_subplot(1, 1, 1)
panel1.plot(np.random.randn(1000).cumsum())
panel1.set(**props)

<IPython.core.display.Javascript object>

[<matplotlib.text.Text at 0x12d2900f0>,
 <matplotlib.text.Text at 0x12c7b7780>,
 <matplotlib.text.Text at 0x12d2bfe80>]

### เพิ่ม legend เพื่ออธิบายให้ชัดเจนมายิ่งขึ้น

In [127]:
fig = plt.figure()
panel1 = fig.add_subplot(1, 1, 1)
panel1.plot(np.random.randn(1000).cumsum(), 'k', label='one')
panel1.plot(np.random.randn(1000).cumsum(), 'k--', label='two')
panel1.plot(np.random.randn(1000).cumsum(), 'k.', label='three')
# panel1.plot(np.random.randn(1000).cumsum(), 'k.', label='_nolegend_')

panel1.legend(loc='best')

<IPython.core.display.Javascript object>

<matplotlib.legend.Legend at 0x10dc2ff60>

### ใส่ Annoatation หรือคำอธิบายเพิ่มเติม

ยกตัวอย่างเช่น
* ข้อความ (text)
* ลูกศร (arrow)

In [133]:
fig = plt.figure()
panel1 = fig.add_subplot(1, 1, 1)

t = np.arange(0.0, 5.0, 0.01)
s = np.cos(2*np.pi*t)
line, = panel1.plot(t, s, lw=2)

panel1.annotate('Max value point', xy=(2, 1), xytext=(3, 1.5),
            arrowprops=dict(facecolor='black', shrink=0.05),
            )

plt.ylim(-2,2)

<IPython.core.display.Javascript object>

(-2, 2)

### เพิ่มรูปต่าง ๆ เข้ามาเช่น สี่เหลี่ยม วงกลม และ polygon

In [144]:
fig = plt.figure()
panel1 = fig.add_subplot(1, 1, 1)

rect = plt.Rectangle((0.2, 0.75), 0.4, 0.15, color='k', alpha=0.3)
circ = plt.Circle((0.7, 0.2), 0.15, color='b', alpha=0.3)
pgon = plt.Polygon([[0.15, 0.15], [0.35, 0.4], [0.2, 0.6]],
                   color='g', alpha=0.5)

panel1.add_patch(rect)
panel1.add_patch(circ)
panel1.add_patch(pgon)

<IPython.core.display.Javascript object>

<matplotlib.patches.Polygon at 0x141b9fa58>

### ทำการบันทึกลงไฟล์

http://matplotlib.org/api/pyplot_api.html#matplotlib.pyplot.savefig

In [135]:
plt.savefig('sample01.svg')

In [136]:
plt.savefig('sample01.png', dpi=400, bbox_inches='tight')

## การใช้งานร่วมกับ Pandas

มาลอง plot ข้อมูลจาก Series และ DataFrame จาก Pandas และ Seaborn library กัน

### 1.  นำข้อมูลจาก Series มา plot เป็นกราฟเส้น

https://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.plot.html

In [9]:
import pandas as pd
import numpy as np

In [146]:
data = pd.Series(np.random.randn(10).cumsum(), index=np.arange(0, 100, 10))
data

0     1.301541
10   -0.401931
20   -1.469268
30   -1.233324
40   -0.955550
50   -1.607609
60   -1.615694
70   -1.905862
80   -1.293193
90   -0.287435
dtype: float64

In [147]:
fig = plt.figure()
data.plot()

<IPython.core.display.Javascript object>

<matplotlib.axes._subplots.AxesSubplot at 0x14259f080>

### 2.  นำข้อมูลจาก DataFrame มา plot เป็นกราฟเส้น

https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.plot.html

In [152]:
data = pd.DataFrame(np.random.randn(10, 4).cumsum(0),
                  columns=['A', 'B', 'C', 'D'],
                  index=np.arange(0, 100, 10))
data.plot()

<IPython.core.display.Javascript object>

<matplotlib.axes._subplots.AxesSubplot at 0x143a12c50>

### 3. ทำการวาดกราฟแท่ง
สิ่งที่ต้องการคือ ทำการแยก subplot เป็น 2 ส่วนบนล่าง

จากนั้นทำการวาดรูปกราฟแท่งในแนวตั้งและแนวนอนตามลำดับ

In [209]:
fig, axes = plt.subplots(2, 1)

<IPython.core.display.Javascript object>

In [210]:
data = pd.Series(np.random.rand(5), index=list('ABCDE'))

In [211]:
data.plot.bar(ax=axes[0], color='k', alpha=0.7)

<matplotlib.axes._subplots.AxesSubplot at 0x14f4ac208>

In [212]:
data.plot.barh(ax=axes[1], color='k', alpha=0.7)

<matplotlib.axes._subplots.AxesSubplot at 0x15096d208>

### ถ้าเป็น DataFrame จะง่ายมาก ๆ ดังนี้

In [170]:
data = pd.DataFrame(np.random.rand(6, 4),
                    index=['one', 'two', 'three', 'four', 'five', 'six'],
                    columns=pd.Index(['A', 'B', 'C', 'D'], name='Genus'))
data.plot.bar()

<IPython.core.display.Javascript object>

<matplotlib.axes._subplots.AxesSubplot at 0x135596438>

In [171]:
data.plot.barh()

<IPython.core.display.Javascript object>

<matplotlib.axes._subplots.AxesSubplot at 0x135792208>

In [172]:
data.plot.barh(stacked=True, alpha=0.5)

<IPython.core.display.Javascript object>

<matplotlib.axes._subplots.AxesSubplot at 0x135908e10>

In [186]:
data.plot.density()

<IPython.core.display.Javascript object>

<matplotlib.axes._subplots.AxesSubplot at 0x14ba38dd8>

## มาทำ Workshop กัน

In [10]:
tips = pd.read_csv('demo_data/data06.csv')
tips.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4


In [178]:
tips.describe()

Unnamed: 0,total_bill,tip,size
count,244.0,244.0,244.0
mean,19.785943,2.998279,2.569672
std,8.902412,1.383638,0.9511
min,3.07,1.0,1.0
25%,13.3475,2.0,2.0
50%,17.795,2.9,2.0
75%,24.1275,3.5625,3.0
max,50.81,10.0,6.0


In [181]:
tips.tail()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
239,29.03,5.92,Male,No,Sat,Dinner,3
240,27.18,2.0,Female,Yes,Sat,Dinner,2
241,22.67,2.0,Male,Yes,Sat,Dinner,2
242,17.82,1.75,Male,No,Sat,Dinner,2
243,18.78,3.0,Female,No,Thur,Dinner,2


In [179]:
tips.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 244 entries, 0 to 243
Data columns (total 7 columns):
total_bill    244 non-null float64
tip           244 non-null float64
sex           244 non-null object
smoker        244 non-null object
day           244 non-null object
time          244 non-null object
size          244 non-null int64
dtypes: float64(2), int64(1), object(4)
memory usage: 13.4+ KB


### ดูจำนวน party ในแต่ละวันว่ามีลักษณะอย่างไร ?

เพื่อค้นหาข้อมูลและ model ที่น่าสนใจ

In [11]:
party_count = pd.crosstab(tips['day'], tips['size'])
party_count

size,1,2,3,4,5,6
day,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Fri,1,16,1,1,0,0
Sat,2,53,18,13,1,0
Sun,0,39,15,18,3,1
Thur,1,48,4,5,1,3


จากข้อมูลพบว่าขนาด 1 และ 6 มีจำนวนน้อยมาก ๆ ดังนั้น เราต้องการข้อมูลเฉพาะ 2 - 5 เท่านั้น ?

In [12]:
party_count = party_count.loc[:, 2:5]
party_count

size,2,3,4,5
day,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Fri,16,1,1,0
Sat,53,18,13,1
Sun,39,15,18,3
Thur,48,4,5,1


In [191]:
party_count.plot.bar()

<IPython.core.display.Javascript object>

<matplotlib.axes._subplots.AxesSubplot at 0x14ba1eba8>

ทำการ normalize ข้อมูลให้อยู่ระหว่าง 0 - 1

In [13]:
party_count_div = party_count.div(party_count.sum(1), axis=0)
party_count_div

size,2,3,4,5
day,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Fri,0.888889,0.055556,0.055556,0.0
Sat,0.623529,0.211765,0.152941,0.011765
Sun,0.52,0.2,0.24,0.04
Thur,0.827586,0.068966,0.086207,0.017241


In [201]:
party_count_div.plot.bar()

<IPython.core.display.Javascript object>

<matplotlib.axes._subplots.AxesSubplot at 0x1145cfe10>

#### จากข้อมูลจะพบว่า ในวันเสาร์และอาทิตย์นั้น ขนาดของ party ใหญ่ ๆ จะมีจำนวนสูงขึ้น

### ถ้าต้องการดูว่า % ของการให้ tip ในแต่ละวันเป็นเท่าไร ?

ก่อนอื่นต้องทำการ aggregation และ สรุปข้อมูลก่อน โดย % ของ tip ที่จ่ายจะมีสูตร tip_percent = tip /  (total_bill - tip)

In [14]:
tips['tip_percent'] = tips['tip'] / (tips['total_bill'] - tips['tip'])
tips.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,tip_percent
0,16.99,1.01,Female,No,Sun,Dinner,2,0.063204
1,10.34,1.66,Male,No,Sun,Dinner,3,0.191244
2,21.01,3.5,Male,No,Sun,Dinner,3,0.199886
3,23.68,3.31,Male,No,Sun,Dinner,2,0.162494
4,24.59,3.61,Female,No,Sun,Dinner,4,0.172069


In [215]:
plt.figure()
tips['tip_percent'].plot()

<IPython.core.display.Javascript object>

<matplotlib.axes._subplots.AxesSubplot at 0x151441208>

In [220]:
plt.figure()
tips['tip_percent'].plot.hist(bins=50)

<IPython.core.display.Javascript object>

<matplotlib.axes._subplots.AxesSubplot at 0x15437deb8>

In [221]:
plt.figure()
tips['tip_percent'].plot.density()

<IPython.core.display.Javascript object>

<matplotlib.axes._subplots.AxesSubplot at 0x154f6b400>

## ทำการแสดงผลข้อมูลด้วย Seaborn library

In [30]:
import seaborn as sns

### Seaborn นั้นสามารถนำเอา histogram และ density มารวมกันได้

In [40]:
values = pd.Series(np.concatenate([tips['tip'], tips['tip_percent']]))
sns.distplot(values, bins=50, color='k')

<IPython.core.display.Javascript object>

<matplotlib.axes._subplots.AxesSubplot at 0x115460fd0>

In [33]:
sns.barplot(x='tip_percent', y='day', data=tips, orient='h')

<IPython.core.display.Javascript object>

<matplotlib.axes._subplots.AxesSubplot at 0x10bf0aac8>

### แยกข้อมูลออกเป็นช่วงเวลา

In [34]:
sns.barplot(x='tip_percent', y='day', hue='time', data=tips, orient='h')

<IPython.core.display.Javascript object>

<matplotlib.axes._subplots.AxesSubplot at 0x1126294e0>

## ดูความสัมพันธ์ของข้อมูลด้วย Scatter หรือ Point plot