資料科學家的任務? Data Wrangling
資料科學家背景通常是數學或是統計學畢業的,但不少也有從寫後端程式(通常是 python 和 R)開始的,其主要任務是分析資料,從事分析或是建立資料模型的人,都可以算是資料科學家。
資料科學家對資料進行分析,目的是從資料中發現線索或是直接得到答案。透過 Interactive Query(與應用程式的 Batch Process 的數小時或數天不同),要在最短時間內得到結果。
透過工具或平台,如下
SQL Stream ML Graph Process Matlab R Pandas
RDD Data Storage
Scheduler CPU
經過些許 POC 和探索之後,資料科學家的成果可能被商品化,或做額外衍生亦或加強,例如導入容錯特性,可能發展成資料處理或是商用的應用程式的一部分。最著名也是最為流行的應用例子就是商品推介系統。
當此應用程式需要建置時,需要會寫程式的開發人員作一系列的封裝隱藏欄位資料、介面當作開口、物件導向的類別以便重複使用。
- 分類
- 分群
- 連結
- 序列
- 資料長期的儲存
- 記錄檔案的分析
- 排序和搜索引擎
- 推薦系統
- 詐騙分析
- 圖片分析
- 影像處理
- 競品分析
- 物聯網感測器資料分析