簡報檔分享於 Google Drive。
- Jupyter Lab:適合撰寫 Machine Learning 程式碼、觀察資料、以及妥善保存輸出內容的開發工具
- Numpy:高效能的數學函式庫
- Pandas:簡單易學的資料處理工具,也就是這次課程的重頭戲
- Matplotlib:資料視覺化工具,通常用來建立圖表
- Scikit-learn:Machine Learning 套件
建議在虛擬環境底下操作:
$ pip install numpy pandas matplotlib scikit-learn graphviz jupyter jupyterlab$ conda install numpy pandas matplotlib scikit-learn graphviz jupyter jupyterlab$ pipenv install numpy pandas matplotlib scikit-learn graphviz
$ pipenv install jupyter jupyterlab --dev
$ pipenv lock --pre在我們的 Machine Learning 小範例中,有個步驟是畫出 Decision Tree,這時會用到這個可以繪製 DOT 語言的圖形的工具。
$ apt-get install graphviz$ yum install graphviz建議透過 Homebrew 安裝:
$ brew install graphviz- Python Pandas 基礎教學 iPython (Jupyter) Notebooks,其中包含幾個部分:
/Preprocessing: 用來處理上課用到的資料集的程式碼,客位可以參考看看原始資料長什麼樣子,而我們怎麼處理成 Machine Learning 分析時易於使用的資料格式,以及為什麼要這樣做/Tutorials: 每一個章節的主要課程內容,可以搭配簡報一起服用。但其中有幾個章節還未完成,我希望接下來會在有空閒的時候補完她們:- Chapter 0: 當初是為了幫 Python 基礎尚未打穩的同學做些常用的技法的重點提示,結果戰場開太多,不知道怎麼收斂,導致沒有寫完
- Chapter 9: 包含了在做 Machine Learning 時,Feature Engineering 的一些手法,沒寫完的原因是不知道怎麼解釋得淺顯易懂,於是暫時擱著
/Practices: 課堂習題。如果這次的課程來不及講,可以給各位當作測試自己有沒有學懂的一些小測驗/Machine_Learning: 我們用 Kaggle 上的 "Titanic: Machine Learning from Disaster" 入門競賽的資料及,做了一個 Machine Learning 的小小範例,讓大家看看 Pandas 處理完的資料可以這樣應用。但我們不會講得很深入,各位同學可以自行針對不懂的內容再行研究,或是期待下一堂講解 Machine Learning 的講師提供其他的指導~
- 上課簡報 (Google Drive)