Name		Name	Last commit message	Last commit date
Latest commit History 15 Commits
README.md		README.md
lstm.py		lstm.py
passfail.py		passfail.py
timeseries.py		timeseries.py
暑期實習成果.pdf		暑期實習成果.pdf

Repository files navigation

2022半導體業數據分析暑期實習成果

成果一(timeseries.py, lstm.py)

一、目的

利用機器學習方法預測機台出現異常之時間點，以便提早準備與維護機台減少成本消耗。

二、方法

資料數約2000筆，前處理將重複的數值、有問題的資料刪除，並做EDA查驗資料分布狀態。
選擇產品面積作為特徵項，將資料隨時間序列排序，將前80%的資料作為訓練集，後20%的資料作為測試集。
利用滾動預測之方法做資料的轉換。
選擇全部點位或特定點位以及窗口大小作為模型輸入。
timeseries.py選擇XGBoost模型並隨機挑選最佳超參數，lstm.py選擇lstm模型進行預測。

三、結果

模型MAE=34.29, MAPE=2.26, R^2=63.13%。
以全部點位以及窗口6的結果為最佳。
預測值與實際值的誤差如下，可預測出趨勢且數值差距不大。

成果二(passfail.py)

一、目的

利用機器學習方法判斷點膠成功與否，以輔助人工判斷。

二、方法

資料數37000筆，隨機將80%的資料作為訓練集，20%的資料作為測試集。
由於產品製作異常(Fail)遠少於製作成功(Pass)的資料，造成資料不平衡的問題，因此將訓練集資料做Oversampling與undersampling。
利用產品位置與面積作為input，利用SVM與Logistic迴歸預測產品製作成功與否。

三、結果

利用oversampling的方法與SVM的結果最佳，F1score=98%，Accuracy=99%。未來可加入更多資料與增加fail資料量將模型部署在現場中。

詳細結果可參閱"暑期實習成果"檔

*本成果不提供資料

About

半導體業數據分析暑期實習成果

Report repository

Releases

No releases published

Packages

Languages

Python 100.0%