<img src="images/nvidia_header.png" style="margin-left: -30px; width: 300px; float: left;">

# Accelerating End-to-End Data Science Workflows # 


## 06 - การแสดงภาพข้อมูล (Data Visualization) ##

**สารบัญ**

โน้ตบุ๊กนี้จะสาธิตพื้นฐานของการแสดงภาพข้อมูลสำหรับชุดข้อมูลขนาดใหญ่ โน้ตบุ๊กนี้ครอบคลุมส่วนต่างๆ ดังนี้:

1.  [การแสดงภาพข้อมูล (Data Visualization)](#Data-Visualization)
2.  [แผนภูมิแท่ง (Bar Chart)](#Bar-Chart)
    * [ฮิสโตแกรม (Histogram)](#Histogram)
    * [แบบฝึกหัดที่ 1 - แผนภูมิแท่ง (Bar Chart)](#Exercise-#1---Bar-Chart)
3.  [แผนภูมิ Scatter Plot (Scatter Plot)](#Scatter-Plot)
4.  [แผนภูมิเส้น (Line Chart)](#Line-Chart)
5.  [Datashader](#Datashader)
    * [Datashader ที่เร่งความเร็วด้วย GPU (Datashader Accelerated by GPU)](#Datashader-Accelerated-by-GPU)
6.  [การแสดงภาพแบบโต้ตอบ (Interactive Visualization)](#Interactive-Visualization)
    * [cuxfilter และ Dashboard](#cuxfilter-and-Dashboard)
7.  [ไลบรารีอื่น ๆ (Other Libraries)](#Other-Libraries)



## การแสดงภาพข้อมูล (Data Visualization) ##

การแสดงภาพข้อมูลเป็นส่วนสำคัญของวิทยาศาสตร์ข้อมูลด้วยเหตุผลหลายประการ:

* **การสำรวจข้อมูล**: ช่วยให้นักวิทยาศาสตร์ข้อมูลสามารถสำรวจข้อมูลและระบุรูปแบบ แนวโน้ม และค่าผิดปกติได้อย่างรวดเร็ว ซึ่งอาจไม่ปรากฏชัดเจนเมื่อดูข้อมูลดิบในรูปแบบตาราง
* **การตีความ**: เปลี่ยนชุดข้อมูลขนาดใหญ่และซับซ้อนให้เป็นรูปแบบภาพที่เข้าใจง่ายขึ้น ทำให้เข้าใจข้อมูลจำนวนมหาศาลได้ง่ายขึ้น
* **การสื่อสาร**: ช่วยให้นักวิทยาศาสตร์ข้อมูลสื่อสารข้อมูลเชิงลึกที่ซับซ้อนไปยังผู้มีส่วนได้ส่วนเสียในรูปแบบภาพที่เข้าใจง่าย ทำให้ข้อมูลเข้าถึงกลุ่มเป้าหมายที่ไม่ใช่เทคนิคได้ง่ายขึ้น

ด้านล่างนี้คือแดชบอร์ดง่ายๆ ที่เราจะสร้างในโน้ตบุ๊กนี้:

<p><img src='images/dashboard_1_sample.png' width=720></p>

In [None]:
from google.colab import drive
drive.mount('/content/drive')

In [None]:
%load_ext cudf.pandas
# DO NOT CHANGE THIS CELL
import pandas as pd

dtype_dict={
    'age': 'int8', 
    'sex': 'object', 
    'county': 'object', 
    'lat': 'float32', 
    'long': 'float32', 
    'name': 'object'
}
        
df=pd.read_csv('./data/uk_pop.csv', dtype=dtype_dict)
df.head()



## แผนภูมิแท่ง (Bar Chart) ##

แผนภูมิแท่งใช้เพื่อแสดงและเปรียบเทียบข้อมูลประเภทหมวดหมู่ โดยจะแสดงค่าตัวเลขด้วยแท่งสี่เหลี่ยม โดยความยาวหรือความสูงของแต่ละแท่งจะสอดคล้องกับค่าที่แสดง

ด้านล่างนี้ เราจะแสดง 5 มณฑลแรกที่มีจำนวนประชากรมากที่สุด

In [None]:
# DO NOT CHANGE THIS CELL
df.groupby('county').size().sort_values(ascending=False).head().plot(kind='bar')


### ฮิสโตแกรม (Histogram) ###

แผนภูมิแท่งยังสามารถใช้เพื่อแสดงการกระจายของจุดข้อมูลในกลุ่มย่อยต่างๆ ได้อีกด้วย ซึ่งเรียกว่า ฮิสโตแกรม (histogram) ซึ่งทำได้โดยการนับจำนวนการเกิดซ้ำ (การกระจายความถี่) ของแต่ละค่าที่ไม่ซ้ำกันในชุดข้อมูล ใช้เพื่อแสดงภาพรูปร่าง ศูนย์กลาง และการกระจายตัวของชุดข้อมูล

In [None]:
# DO NOT CHANGE THIS CELL
bins=[0, 10, 20, 30, 40, 50, 60, 70, 80, 90, 100]
df['age_bucket']=pd.cut(df['age'], bins=bins, right=True, include_lowest=True, labels=False)
df.groupby('age_bucket').size().plot(kind='bar')

### แบบฝึกหัดที่ 1 - แผนภูมิแท่ง (Bar Chart) ###

เราต้องการหาการกระจายตัวของเพศในประชากร

**คำแนะนำ**:
* แก้ไขเฉพาะส่วน `<FIXME>` เท่านั้น และรันเซลล์ด้านล่างเพื่อพล็อตจำนวนของแต่ละเพศในชุดข้อมูลของเรา

In [None]:
df.groupby(<<<<FIXME>>>>).size().plot(kind=<<<<FIXME>>>>)

Click ... for solution. 


## แผนภูมิ Scatter Plot ##

แผนภูมิ Scatter Plot ใช้เพื่อแสดงความสัมพันธ์ระหว่างตัวแปรสองตัวในชุดข้อมูล นอกจากนี้ยังสามารถใช้เพื่อแสดงพิกัดของแต่ละจุดข้อมูลเพื่อช่วยระบุค่าผิดปกติหรือกลุ่ม

In [None]:
# DO NOT CHANGE THIS CELL
# sample a very small percentage of the data
small_df=df.sample(1000)

small_df.plot(kind='scatter', x='lat', y='long')


## แผนภูมิเส้น (Line Chart) ##

แผนภูมิเส้นเหมาะสำหรับการเชื่อมโยงจุดข้อมูลแต่ละจุดเพื่อแสดงแนวโน้ม มีประโยชน์สำหรับการแสดงการเปลี่ยนแปลง แนวโน้ม และรูปแบบเมื่อเวลาผ่านไป

แผนภูมิ Scatter Plot ไม่สามารถปรับขนาดได้ดีกับจำนวนจุดข้อมูล เมื่อข้อมูลมีขนาดใหญ่ แผนภูมิ Scatter Plot จะใช้เวลานานในการสร้าง ด้านล่างนี้คือแผนภูมิเส้นของเวลาในการคำนวณสำหรับขนาดข้อมูลที่แตกต่างกัน

<p><img src='images/scatter_time.png', width=480></p>

**หมายเหตุ**: ด้านล่างนี้คือโค้ดที่ใช้สร้างภาพนี้

In [None]:
# import time
# import matplotlib.pyplot as plt

# fig, ax=plt.subplots()
# exec_times={}

# for size in (5*(10**i) for i in range(1, 8)): 
#     start=time.time()
#     df.sample(size).plot(kind='scatter', x='long', y='lat', ax=ax)
#     duration=time.time()-start
#     exec_times[size]=duration
#     ax.clear()

# ax.plot(exec_times.keys(), exec_times.values(), marker='o')
# ax.set_xscale('log')
# ax.set_xlabel('Data Size')
# ax.set_ylabel('Execution Time')
# ax.set_title("Scatter Plot Doesn't Scale Well With Data Size")

In [None]:
# DO NOT CHANGE THIS CELL
import IPython
app = IPython.Application.instance()
app.kernel.do_shutdown(True)


## Datashader ##

[Datashader](https://datashader.org/#) เป็นไลบรารี Python แบบโอเพนซอร์สสำหรับการวิเคราะห์และแสดงภาพชุดข้อมูลขนาดใหญ่ โดยเฉพาะอย่างยิ่ง Datashader ได้รับการออกแบบมาเพื่อ "rasterize" หรือ "aggregate" ชุดข้อมูลให้เป็นกริดปกติที่สามารถวิเคราะห์เพิ่มเติมหรือดูเป็นรูปภาพได้ ทำให้ง่ายและรวดเร็วในการดูคุณสมบัติและรูปแบบของข้อมูล

การพล็อตสำหรับข้อมูลขนาดใหญ่เป็นเรื่องที่ท้าทาย เนื่องจากใช้เวลานานในการเรนเดอร์จุดจำนวนมาก Datashader เปลี่ยนภาระของการแสดงภาพจากการเรนเดอร์เป็นการคำนวณ ภายใต้การทำงานภายใน มันเปลี่ยนรายการจุด (x, y) ที่ยาวให้เป็นฮิสโตแกรม 2D แทนที่จะพล็อตแต่ละจุดแยกกัน นอกจากนี้ การรวมข้อมูลนี้สามารถเร่งความเร็วได้ผ่านการประมวลผลแบบขนาน โครงสร้างข้อมูลแบบกริดที่ได้จะถูกแปลงเป็นรูปภาพ โดยใช้สีเพื่อแสดงขนาด ก่อนที่จะฝังลงในโปรแกรมการพล็อต

Datashader สร้างพล็อตโดยใช้ [ไพพ์ไลน์](https://datashader.org/getting_started/Pipeline.html) ห้าขั้นตอน:

<p><img src='images/ds_pipeline.png' width=720></p>

ด้านล่างนี้ เราจะสาธิตวิธีการใช้ Datashader

In [None]:
# DO NOT CHANGE THIS CELL
import time
import matplotlib.pyplot as plt

import datashader as ds
import datashader.transfer_functions as tf

In [None]:
# DO NOT CHANGE THIS CELL
import pandas as pd

dtype_dict={
    'age': 'int8', 
    'sex': 'object', 
    'county': 'object', 
    'lat': 'float32', 
    'long': 'float32', 
    'name': 'object'
}
        
df=pd.read_csv('./data/uk_pop.csv', dtype=dtype_dict)
df.head()

In [None]:
# DO NOT CHANGE THIS CELL
start=time.time()

# get points
ds_points_pandas=ds.Canvas().points(df,'long','lat')
display(ds_points_pandas)

# plot points
plt.imshow(tf.shade(ds_points_pandas))

print(f'Duration: {round(time.time()-start, 2)} seconds')


### Datashader ที่เร่งความเร็วด้วย GPU (Datashader Accelerated by GPU) ###

Datashader สามารถเร่งความเร็วได้โดยการมอบหมายการคำนวณไปยัง GPU ดังที่กล่าวไปแล้ว GPU โดยทั่วไปมีคอร์มากกว่า CPU อย่างมาก (แม้ว่าแต่ละคอร์จะมีประสิทธิภาพน้อยกว่า) และสำหรับการคำนวณที่สามารถขนานกันได้สูง เช่น ใน Datashader GPU มักจะสามารถทำประสิทธิภาพได้เร็วกว่ามากในราคาที่กำหนดเมื่อเทียบกับ CPU หรือกลุ่ม CPU แบบกระจาย DataFrame จาก cuDF สามารถใช้แทนการทำ rasterization ได้ ประโยชน์ด้านประสิทธิภาพมีนัยสำคัญเนื่องจากกระบวนการประมวลผลข้อมูลทั้งหมดดำเนินการบน GPU และไม่มีคอขวดจากการถ่ายโอนข้อมูล

In [None]:
# DO NOT CHANGE THIS CELL
import cudf

dtype_dict={
    'age': 'int8', 
    'sex': 'object', 
    'county': 'object', 
    'lat': 'float32', 
    'long': 'float32', 
    'name': 'object'
}
        
gdf=cudf.read_csv('./data/uk_pop.csv', dtype=dtype_dict)
gdf.head()

In [None]:
# DO NOT CHANGE THIS CELL
start=time.time()

# get points
ds_points_cudf=ds.Canvas().points(gdf,'long','lat')
display(ds_points_cudf)

# plot points
plt.imshow(tf.shade(ds_points_cudf))

print(f'Duration: {round(time.time()-start, 2)} seconds')

**หมายเหตุ**: โปรดรันเซลล์ด้านบนซ้ำอีกครั้งหากใช้เวลานานกว่าสองสามวินาที เพื่อให้ได้เวลาคำนวณที่แม่นยำยิ่งขึ้น

## การแสดงภาพแบบโต้ตอบ (Interactive Visualization) ##

การแสดงภาพข้อมูลเป็นสิ่งสำคัญในวิทยาศาสตร์ข้อมูล เนื่องจากเชื่อมช่องว่างระหว่างข้อมูลที่ซับซ้อนกับความเข้าใจของมนุษย์ ทำให้ข้อมูลเชิงลึกเข้าถึงได้ง่ายขึ้น นำไปปฏิบัติได้ และมีผลกระทบมากขึ้นตลอดกระบวนการวิทยาศาสตร์ข้อมูล การนำการโต้ตอบมาใช้ในการแสดงภาพข้อมูลช่วยให้:

* **การค้นพบ**: ช่วยให้ค้นพบรูปแบบ แนวโน้ม และค่าผิดปกติที่อาจไม่ปรากฏชัดในการแสดงภาพแบบคงที่
* **ความเข้าใจที่เพิ่มขึ้น**: ช่วยให้ผู้ใช้สามารถดูข้อมูลจากหลายมุมมองและระดับรายละเอียด
* **การปรับแต่ง**: ให้ความสามารถในการกรอง จัดเรียง และรวมข้อมูลได้อย่างรวดเร็ว นำเสนอข้อมูลได้อย่างมีประสิทธิภาพมากขึ้น

### cuxfilter และ Dashboard ###

cuxfilter ช่วยให้สร้างแดชบอร์ด cross-filtering ที่เร่งความเร็วด้วย GPU ซึ่งเหมาะสำหรับการวิเคราะห์ข้อมูลเชิงสำรวจแบบหลายแผนภูมิ การกรองข้ามช่วยให้ผู้ใช้สามารถโต้ตอบกับแผนภูมิหนึ่งและนำการโต้ตอบนั้นไปใช้เป็นตัวกรองกับแผนภูมิอื่นๆ ในแดชบอร์ดได้

cuxfilter ทำหน้าที่เป็นไลบรารีตัวเชื่อมต่อ ซึ่งให้การเชื่อมต่อระหว่างไลบรารีการแสดงภาพที่แตกต่างกันและ GPU DataFrame โดยไม่ยุ่งยากมากนัก นอกจากนี้ยังช่วยให้ผู้ใช้สามารถใช้แผนภูมิจากไลบรารีที่แตกต่างกันในแดชบอร์ดเดียว พร้อมทั้งให้การโต้ตอบด้วย ปัจจุบัน cuxfilter รองรับ:
* [แผนภูมิ Bokeh](https://bokeh.org/)
    * แผนภูมิแท่ง (Bar chart)
    * แผนภูมิเส้น (Line chart)
    * แผนที่ Choropleth
* [แผนภูมิ Datashader](https://datashader.org/)
    * แผนภูมิเส้น (Line)
    * แผนภูมิ Scatter
* [Panel Widgets](https://panel.holoviz.org/api/panel.widgets.html)
    * Range
    * Float
    * Int
    * Dropdown
    * Multiselect

In [None]:
import cuxfilter as cxf

# factorize county for multiselect widget
gdf['county'], county_names = gdf['county'].factorize()
county_map = dict(zip(list(range(len(county_names))), county_names.to_arrow()))

In [None]:
# create cuxfilter DataFrame
cxf_data = cxf.DataFrame.from_dataframe(gdf)

# create Datashader scatter plot
scatter_chart = cxf.charts.scatter(x='long', y='lat')

In [None]:
# create Bokeh bar charts
chart_3=cxf.charts.bar('age')
chart_2=cxf.charts.bar('sex')

In [None]:
# define layout
layout_array=[[1, 2, 2], 
              [3, 2, 2]]

In [None]:
# create multiselect widget
county_widget = cxf.charts.panel_widgets.multi_select('county', label_map=county_map)

# define layout
dash = cxf_data.dashboard(charts=[chart_2, scatter_chart, chart_3],sidebar=[county_widget], theme=cxf.themes.dark, data_size_widget=True, layout_array=layout_array)

dash.app()

## ไลบรารีอื่นๆ (Other Libraries) ##

* Plotly:
    * https://dash.plotly.com/holoviews#gpu-accelerating-datashader-and-linked-selections-with-rapids
    * https://developer.nvidia.com/blog/making-a-plotly-dash-census-viz-powered-by-rapids/

In [None]:
import IPython
app = IPython.Application.instance()
app.kernel.do_shutdown(True)

**เยี่ยมมาก!** ไปยัง [โน้ตบุ๊กถัดไป](1-07_etl.ipynb) กันเลย

<img src="images/nvidia_header.png" style="margin-left: -30px; width: 300px; float: left;">