# MongoDBのチュートリアル

In [1]:
from pymongo import MongoClient
import datetime
import pprint
import re

## クライアントの作成 

ローカルネットワーク内で起動しているMongod(MongoDBのデーモン)を指定してクライアントを作成．起動については以下のように行う．
- データベースのディレクトリを作成しておく
- mongodコマンドによってデーモンを起動
- 起動時にポート番号をメモしておく

In [2]:
client = MongoClient('localhost', 27017)

## データベースの作成 

In [3]:
db = client["test_db"]

## コレクションの作成 

コレクションとは，リレーショナルデータベースにおけるテーブルのようなものらしい．エクセルのシートのような感じかな？

In [4]:
collection = db["papers_test"]

## ドキュメントの追加 

データの要素のことをドキュメントという．ドキュメントはjsonベースである必要があるので，Pythonでは辞書を用いる．

### 追加するドキュメント 

論文を書いた日付などを検索に含めたいのが，どうやらmongodbの公式はdatetime.datetimeオブジェクトしかサポートしていないらしく，とりあえず時間と分と秒は0にする

In [5]:
post1 = {"pdf_name":"aaaa.pdf",
         "paper_title":"AAAについての論文",
         "contents":{"序論":"VAEでいろいろなことをした",
                     "実験":"AAAで評価をした",
                     "結論":"結局AAAのようになった"
                    }
        }

post2 = {"pdf_name":"bbbb.pdf",
         "paper_title":"BBBについての論文",
         "contents":{"序論":"GANでいろいろなことをした",
                     "実験":"BBBで評価をした",
                     "結論":"結局BBBのようになった"
                    },
         "author":"b山b夫",
         "date":datetime.datetime(2018, 6, 30, 0, 0, 0)
        }

post3 = {"pdf_name":"cccc.pdf",
         "paper_title":"CCCについての論文",
         "contents":{"序論":"SfMでいろいろなことをした",
                     "実験":"CCCで評価をした",
                     "結論":"結局CCCのようになった"
                    },
         "author":"b山b夫",
         "date":datetime.datetime(2020, 5, 7, 0, 0, 0)
        }

post4 = {"pdf_name":"dddd.pdf",
         "paper_title":"DDDについての論文",
         "contents":{"序論":"VAEでいろいろなことをした",
                     "実験":"DDDで評価をした",
                     "結論":"結局DDDのようになった"
                    },
         "date":datetime.datetime(2020, 5, 10, 0, 0)
        }

### 一つのドキュメントを追加 

ドキュメントを登録するとidが割り振られる．Webアプリなどで利用されるらしい

In [6]:
result = collection.insert_one(post1)
post1_id = result.inserted_id
post1_id

ObjectId('5eb61881f89399a0d3e0c868')

### 重複して追加

実はこれは同じオブジェクトの重複を防いでいるだけであり，同じ内容の別のオブジェクトはエラーがでない

In [7]:
result = collection.insert_one(post1)
post1_id = result.inserted_id
post1_id

DuplicateKeyError: E11000 duplicate key error collection: test_db.papers_test index: _id_ dup key: { _id: ObjectId('5eb61881f89399a0d3e0c868') }

### 複数のドキュメントを追加 

ドキュメントのリストを作成，`insert_many`メソッドでデータベースに保存する.各ドキュメントのスキーマ(構造)は異なってもよい

In [10]:
posts = [post2, post3, post4]

result = collection.insert_many(posts)
post_ids = result.inserted_ids
print(post_ids)

BulkWriteError: batch op errors occurred

## ドキュメントの検索 

### 一つのドキュメントを検索 

一つのドキュメントを返すメソッドは`find_one`であり，引数に何も与えないと一番最初に与えたドキュメントが返ってくる．ドキュメントはちゃんと辞書型のオブジェクトとして返ってくる．

In [102]:
find_result = collection.find_one()
pprint.pprint(find_result)
print(type(find_result))

{'_id': ObjectId('5eb3b340e6a3bbf4953fd17b'),
 'contents': {'実験': 'AAAで評価をした', '序論': 'VAEでいろいろなことをした', '結論': '結局AAAのようになった'},
 'paper_title': 'AAAについての論文',
 'pdf_name': 'aaaa.pdf'}
<class 'dict'>


`find_one`の引数には，小さなディクショナリを与える．

In [103]:
find_result = collection.find_one({"paper_title": "CCCについての論文"})
pprint.pprint(find_result)

{'_id': ObjectId('5eb3b341e6a3bbf4953fd17d'),
 'author': 'b山b夫',
 'contents': {'実験': 'CCCで評価をした', '序論': 'SfMでいろいろなことをした', '結論': '結局CCCのようになった'},
 'date': datetime.datetime(2020, 5, 7, 0, 0),
 'paper_title': 'CCCについての論文',
 'pdf_name': 'cccc.pdf'}


検索は各部分ディクショナリを正しく指定しなければならない　->　正規表現で検索? 

In [104]:
find_result = collection.find_one({"contents":{"実験":"DDDで評価をした"}})
pprint.pprint(find_result)

None


In [105]:
find_result = collection.find_one({"contents":{"序論":"VAEでいろいろなことをした",
                                               "実験":"DDDで評価をした",
                                               "結論":"結局DDDのようになった"
                                   }})
pprint.pprint(find_result)

{'_id': ObjectId('5eb3b341e6a3bbf4953fd17e'),
 'contents': {'実験': 'DDDで評価をした', '序論': 'VAEでいろいろなことをした', '結論': '結局DDDのようになった'},
 'date': datetime.datetime(2020, 5, 10, 0, 0),
 'paper_title': 'DDDについての論文',
 'pdf_name': 'dddd.pdf'}


しかし， 下のようなMongoDBの記法を用いれば，ネストしたディクショナリも検索可能となる．

In [106]:
find_result = collection.find_one({"contents.実験":"DDDで評価をした"})
pprint.pprint(find_result)

{'_id': ObjectId('5eb3b341e6a3bbf4953fd17e'),
 'contents': {'実験': 'DDDで評価をした', '序論': 'VAEでいろいろなことをした', '結論': '結局DDDのようになった'},
 'date': datetime.datetime(2020, 5, 10, 0, 0),
 'paper_title': 'DDDについての論文',
 'pdf_name': 'dddd.pdf'}


### 複数のドキュメントを検索

`find`メソッドは検索結果をイテレーション可能なオブジェクトに変換する．何も引数を与えない場合，全てのドキュメントが取り出される．

In [107]:
for doc in collection.find():
    pprint.pprint(doc)

{'_id': ObjectId('5eb3b340e6a3bbf4953fd17b'),
 'contents': {'実験': 'AAAで評価をした', '序論': 'VAEでいろいろなことをした', '結論': '結局AAAのようになった'},
 'paper_title': 'AAAについての論文',
 'pdf_name': 'aaaa.pdf'}
{'_id': ObjectId('5eb3b341e6a3bbf4953fd17c'),
 'author': 'b山b夫',
 'contents': {'実験': 'BBBで評価をした', '序論': 'GANでいろいろなことをした', '結論': '結局BBBのようになった'},
 'date': datetime.datetime(2018, 6, 30, 0, 0),
 'paper_title': 'BBBについての論文',
 'pdf_name': 'bbbb.pdf'}
{'_id': ObjectId('5eb3b341e6a3bbf4953fd17d'),
 'author': 'b山b夫',
 'contents': {'実験': 'CCCで評価をした', '序論': 'SfMでいろいろなことをした', '結論': '結局CCCのようになった'},
 'date': datetime.datetime(2020, 5, 7, 0, 0),
 'paper_title': 'CCCについての論文',
 'pdf_name': 'cccc.pdf'}
{'_id': ObjectId('5eb3b341e6a3bbf4953fd17e'),
 'contents': {'実験': 'DDDで評価をした', '序論': 'VAEでいろいろなことをした', '結論': '結局DDDのようになった'},
 'date': datetime.datetime(2020, 5, 10, 0, 0),
 'paper_title': 'DDDについての論文',
 'pdf_name': 'dddd.pdf'}


引数の与え方は，`find_one`と同じ

In [108]:
for doc in collection.find({"author":"b山b夫"}):
    pprint.pprint(doc)

{'_id': ObjectId('5eb3b341e6a3bbf4953fd17c'),
 'author': 'b山b夫',
 'contents': {'実験': 'BBBで評価をした', '序論': 'GANでいろいろなことをした', '結論': '結局BBBのようになった'},
 'date': datetime.datetime(2018, 6, 30, 0, 0),
 'paper_title': 'BBBについての論文',
 'pdf_name': 'bbbb.pdf'}
{'_id': ObjectId('5eb3b341e6a3bbf4953fd17d'),
 'author': 'b山b夫',
 'contents': {'実験': 'CCCで評価をした', '序論': 'SfMでいろいろなことをした', '結論': '結局CCCのようになった'},
 'date': datetime.datetime(2020, 5, 7, 0, 0),
 'paper_title': 'CCCについての論文',
 'pdf_name': 'cccc.pdf'}


### 正規表現による検索 

パターンオブジェクトを直接与える．返ってくるのは辞書オブジェクトであり，正規表現における`search`のようなもの？

In [110]:
pattrn = re.compile("VAE")
for doc in collection.find({"contents.序論":pattrn}):
    pprint.pprint(doc)

{'_id': ObjectId('5eb3b340e6a3bbf4953fd17b'),
 'contents': {'実験': 'AAAで評価をした', '序論': 'VAEでいろいろなことをした', '結論': '結局AAAのようになった'},
 'paper_title': 'AAAについての論文',
 'pdf_name': 'aaaa.pdf'}
{'_id': ObjectId('5eb3b341e6a3bbf4953fd17e'),
 'contents': {'実験': 'DDDで評価をした', '序論': 'VAEでいろいろなことをした', '結論': '結局DDDのようになった'},
 'date': datetime.datetime(2020, 5, 10, 0, 0),
 'paper_title': 'DDDについての論文',
 'pdf_name': 'dddd.pdf'}


## コレクションの削除 

新しく入れたドキュメントが重複してしまうので,このサンプルプログラムのコレクションを削除

In [93]:
collection.drop()

## データベースの削除

In [94]:
client.drop_database("my_db")