Skip to content

QueenieCplusplus/DataMining_DataScientist

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

14 Commits
 
 

Repository files navigation

DataMining_DataScientist

資料科學家的任務? Data Wrangling

資料科學家背景通常是數學或是統計學畢業的,但不少也有從寫後端程式(通常是 python 和 R)開始的,其主要任務是分析資料,從事分析或是建立資料模型的人,都可以算是資料科學家。

資料科學家對資料進行分析,目的是從資料中發現線索或是直接得到答案。透過 Interactive Query(與應用程式的 Batch Process 的數小時或數天不同),要在最短時間內得到結果。

透過工具或平台,如下

   SQL      Stream      ML      Graph Process    Matlab   R    Pandas


                          RDD        Data Storage


                            Scheduler    CPU    

經過些許 POC 和探索之後,資料科學家的成果可能被商品化,或做額外衍生亦或加強,例如導入容錯特性,可能發展成資料處理或是商用的應用程式的一部分。最著名也是最為流行的應用例子就是商品推介系統。

當此應用程式需要建置時,需要會寫程式的開發人員作一系列的封裝隱藏欄位資料、介面當作開口、物件導向的類別以便重複使用。

資料擷取或稱資料採擷

  • 分類
  • 分群
  • 連結
  • 序列

數據分析的產業應用

  • 資料長期的儲存
  • 記錄檔案的分析
  • 排序和搜索引擎
  • 推薦系統
  • 詐騙分析
  • 圖片分析
  • 影像處理
  • 競品分析
  • 物聯網感測器資料分析

Releases

No releases published

Packages

No packages published