MongoDB Tutorial
===============

## Import module

In [5]:
import pandas as pd
import numpy as np
from bson.binary import Binary
import pickle
import time
import gridfs
from bson import ObjectId
from pymongo import MongoClient
import json

## 連接MongoDB

In [6]:
client = MongoClient('mongodb://wma:mamcb1@10.88.26.102:27017')

# 印出現有的資料庫， SummaryTable 的資料都放在 MT 裡面
print(client.list_database_names())

# 選擇 Database
db = client["MT"]

['Demo', 'MT', 'TEST1', 'admin', 'config', 'local']


In [7]:
db.list_collection_names()

['FullBondSummaryTable.chunks',
 'FullBondSummaryTable',
 'BondSummaryTable.files',
 'BondSummaryTable',
 'AT2MT',
 'AT2MT_SUMMARY',
 'COC2_RGB_SUMMARY',
 'SummaryTable.files',
 'BondSummaryTable.chunks',
 'SummaryTable.chunks',
 'SummaryTable',
 'FullBondSummaryTable.files']

In [8]:
# 選擇 collection
collection = db["AT2MT"] 

In [None]:
# 刪除 collection
# db.drop_collection("AT2MT")

## 將CSV寫入資料庫 

由於 MongoDB 支援寫入的格式為 json 格式，所以需先將 Dataframe 轉成 json 的格式再寫入。
當其存到 MongoDB 時，會再另外以 MongoDB 所支援的 Bson 格式作保存。

In [None]:
result = df.to_json(orient="records")
parsed = json.loads(result)  
collection.insert_many(parsed)

## GridFS 用來儲存較大的矩陣資料

GridFS 會將大型的資料作分散式處理，並以 **object_id** 的形式儲存。

由於儲存時，需要將矩陣做序列化與反序列化，並轉將其轉成二進制文件的方式保存在MongoDB。
二進制編碼會造成兩個問題:
    
> 1. **編碼問題(用latin-1編碼可解決，但會成程式碼易讀性很差)**
     ```
     pickle.loads(array.decode('latin-1').encode('latin-1'))
     ```
> 2. **會超過儲存16MB上限**

主要是為了解決第二點，所以使用GridFS，但同時也能夠解決第一點的問題，因為所有的二進制編碼都會以 **object_id** 的形式被保存在MongoDB。

如同開頭所提到的，當我們使用 GridFS，讀取矩陣時就不再需要做 decode 的動作。

In [None]:
# db 為先前連接的 database 也就是 MT
# collection 為 SummaryTable

fs = gridfs.GridFS(db, collection='SummaryTable')

## MongoDB 轉 pandas Dataframe

這個部分也可以不轉成Dataframe的形式，但在python上面會比較難觀察資料，建議還是轉成dataframe的形式。

### Query data

**collection.find** 能夠幫助我們更快地找到資料，當{}裡面是空，即代表查找所有資料。

* Ex: ```collection.find({})```

加入條件時，需先輸入要查找的欄位，以及查詢的片號，同時也能夠進行多條件的查詢。
以下為一個簡單的範例:

* Ex: ```collection.find({'SHEET_ID':'9697K6', 'Defect_Code':'AB09'})```


如果是要依據時間查詢:

* Ex: ```collection.find({"CreateTime": {'$gt':202303030000,'$lt':202303100000},),```


由於寫入時是字串格式，從 Dataframe 中依據時間取得資料時，依需求將要查詢的Column利用 **```.astype()```** 進行type的切換。

In [9]:
cursor = collection.find({"sheet_id" : { "$in": ["C69655", "C699B6", "C69682", "C69696", "C69983"] }})
df = pd.DataFrame.from_records(cursor)
df

Unnamed: 0,_id,xyz_index,sheet_id,MT_time,Data,Gate,LED_TYPE,x_no,y_no,AT_defect_code,...,AT_BIN,AT_RESULT,AT_JUDGEMENT,LUM_CREATETIME,LUM_OPID,LUM_LED_LUMINANCE,LUM_LIGHTING_CHECK,LUM_DEFECT_CODE,AT2LUM_Match,AT_defect
0,64375b8d9a2922bf2ab3c778,C69655_0_0_0,C69655,2023041117,0.0,0.0,0,0.0,0.0,,...,,,,,,,,,,1
1,64375b8d9a2922bf2ab3c77a,C69696_B_480_118,C69696,2023041206,1440.0,153.0,B,480.0,118.0,Step3_Step4_SHORT_PIXEL,...,19.0,VIDEO_SHORT,X,202304120634.0,TNLBO,413.0,1.0,,N,1
2,64375b8d9a2922bf2ab3c77b,C69696_B_480_119,C69696,2023041206,1440.0,152.0,B,480.0,119.0,Step3_Step4_SHORT_PIXEL,...,19.0,VIDEO_SHORT,X,202304120634.0,TNLBO,0.0,0.0,BA0X,Y,1
3,64375b8d9a2922bf2ab3c77c,C69696_B_480_120,C69696,2023041206,1440.0,151.0,B,480.0,120.0,Step3_Step4_SHORT_PIXEL,...,19.0,VIDEO_SHORT,X,202304120634.0,TNLBO,430.0,1.0,,N,1
4,64375b8d9a2922bf2ab3c77d,C69696_G_1_143,C69696,2023041206,2.0,128.0,G,1.0,143.0,Step3_Step4_SHORT_PIXEL,...,19.0,VIDEO_SHORT,X,202304120634.0,TNLBO,0.0,0.0,BA0X,Y,1
5,64375b8d9a2922bf2ab3c77e,C69696_G_1_144,C69696,2023041206,2.0,127.0,G,1.0,144.0,Step3_Step4_SHORT_PIXEL,...,19.0,VIDEO_SHORT,X,202304120634.0,TNLBO,0.0,0.0,BA0X,Y,1
6,64375b8d9a2922bf2ab3c77f,C69696_G_1_145,C69696,2023041206,2.0,126.0,G,1.0,145.0,Step3_Step4_SHORT_PIXEL,...,19.0,VIDEO_SHORT,X,202304120634.0,TNLBO,0.0,0.0,BA0X,Y,1
7,6437ccbe2226fddb5a6d9a08,,C69983,2023/04/12,0.0,0.0,0,0.0,0.0,,...,19.0,VIDEO_SHORT,X,,,,,,,1
8,6437ccbe2226fddb5a6d9a09,,C69682,2023/04/12,627.0,242.0,B,209.0,29.0,Step3_Step4_SHORT_PIXEL,...,19.0,VIDEO_SHORT,X,202304121814.0,TNLBO,0.0,0.0,BA0X,Y,1
9,6437ccbe2226fddb5a6d9a0a,,C69682,2023/04/12,630.0,241.0,B,210.0,30.0,Step3_Step4_SHORT_PIXEL,...,19.0,VIDEO_SHORT,X,202304121814.0,TNLBO,424.0,1.0,,N,1


In [None]:
cursor = collection.find({'SHEET_ID':'9697K6', 'Defect_Code':'AB09'})
df = pd.DataFrame.from_records(cursor)
df

## 讀取存入的矩陣

由於是使用 GridFS 放入 MongoDB，所以 2D array 欄位底下的值，都會是以 object_id (Object) 的方式儲存。

將資料放入時會使用以下語法:

* **```fs.put(Binary(pickle.dumps(arr, protocol=5)))```**

但是，因為 MongoDB 的關係，會無法寫入 object 型態，所以 Dataframe 會先轉成 json 格式再以 string 的格式被寫入。

第一次寫入:

> * **```result = whole_df.to_json(orient="records", default_handler=str)```**

第二次寫入:

> * **```result = whole_df.to_json(orient="values", default_handler=str)```**



讀取矩陣時，由於 object_id 是 str 的型態，需要透過 **```from bson import ObjectId```** 將字串轉換成 Object。

再透過 **```fs.get().read()```** 取得二進制編碼檔案，最後則使用 **```pickle.loads```** 即可讀出矩陣。

詳細步驟如下:

 ```test_arr = fs.put(Binary(pickle.dumps(arr, protocol=5)))```
 
 ```get_test_arr = fs.get(ObjectId(test_arr)).read()```
 
 ```get_test_arr = pickle.loads(get_test_arr)```

In [None]:
a = df.LightingCheck_2D.tolist()
arrr = fs.get(ObjectId(a[0])).read()
arrr2 = pickle.loads(arrr)
arrr2