## Python与MongoDB交互

MongoDB是业界主流非关系型数据库，它与MySQL的主要区别包括：
1. MongoDB将数据以文件（document）而非传统MySQL的行（row）为单位进行储存。文件是JSON格式，类似Python字典。同一个表下，每个文件可以包含不同的字段（Key）。
2. MongoDB常应用于非关系型数据储存。它不支持多表join操作。对于事务的支持也没有MySQL那么完善。
3. MongoDB每个文件必须包含一个`_id`字段作为唯一索引，类似MySQL的主键。
4. MongoDB有自己的查询语言，与MySQL的SQL语言不互通。
5. MySQL的数据层次是Database->Table->Row，而MongoDB是Database->Collection->Document。

![image-2.png](attachment:image-2.png)

### 课程目标

1. 掌握pymongo用法

###  Python与MongoDB交互

我们在Python中使用`pymongo`与MongoDB交互。首先我们需要建立一个`MongoClient`，再通过它传递命令。

In [32]:
import pymongo

client = pymongo.MongoClient("mongodb://root:crawlme%402021FALL@localhost:27017/?authSource=admin")

与MySQL非常不同的一点是，MongoDB无需提前建立数据库、集合或者定义表结构。我们可以通过类似操作字典或者属性的方式来指定数据库。

In [33]:
db = client["markyfsun"] # 使用"markyfsun"数据库，如果不存在则自动创建
db = client.markyfsun # 同样的效果

接下来我们查询`markyfsun`数据库下的`lgulife_post`集合的一条数据。如果没有符合条件的数据则返回`None`。

In [34]:
print(db["lgulife_post"].find_one( # 如果"lgulife_post"集合不存在则自动创建
    {}, # query，筛选条件，空表示不筛选
    {"title"} # projection，需要返回的字段，空表示只返回_id字段
))

{'_id': ObjectId('61659aeb6649c9a951694bcc'), 'title': '标题1'}


插入数据时，我们需要传入一个JSON对象，在Python中就是字典。

In [26]:
db["lgulife_post"].insert_one(
    {
        'title':'标题1',
        'content':'内容1'
    }
) # 会返回一个插入结果

<pymongo.results.InsertOneResult at 0x7fc2a85d5380>

再次尝试查询。

In [38]:
print(db["lgulife_post"].find_one( # 如果"lgulife_post"集合不存在则自动创建
    {}, # query，筛选条件，不传或传空表示不筛选
    {"title"} # projection，需要返回的字段；不传表示全部返回，传空表示只传_id字段
))

{'_id': ObjectId('61659aeb6649c9a951694bcc'), 'title': '标题1'}


`_id`是每个document一定有的字段，并且在每个集合中唯一，类似MySQL的主键。我们可以在插入数据时指定该字段。如果我们不指定的话，MongoDB就会自动帮我们随机生成一个。

In [28]:
db["lgulife_post"].insert_one(
    {
        '_id':'1234', # 指定_id
        'title':'标题2',
        'content':'内容2'
    }
)

<pymongo.results.InsertOneResult at 0x7fc291e78980>

In [29]:
print(db["lgulife_post"].find_one( # 如果"lgulife_post"集合不存在则自动创建
    {"_id":'1234'}, # query，筛选条件，空字典表示不筛选
    {"title"} # projection，需要返回的字段，传空字典表示只返回_id字段，不传则表示返回所有字段
))

{'_id': '1234', 'title': '标题2'}


如果我们希望查询多个数据，则需要使用`.find`方法。注意，该方法返回的是一个游标对象，是一个迭代器。

In [39]:
cursor = db["lgulife_post"].find({}) # 不进行筛选、返回所有字段；得到一个迭代器
for item in cursor:
    print(item)
cursor.close() # 查询结束后主动关闭游标

{'_id': ObjectId('61659aeb6649c9a951694bcc'), 'title': '标题1', 'content': '内容1'}
{'_id': '1234', 'title': '标题2', 'content': '内容2'}


查询与插入：

>查询一个符合条件的数据：`db.collection.find_one(query, projection)`
>- query ：`dict`，可选，使用查询操作符指定查询条件
>- projection ：`dict`或`set`，可选，使用投影操作符指定返回的键。查询时返回文档中所有键值， 只需省略该参数即可（默认省略）。\
>- 返回值：`dict`或`None`\
>例子：`db.lgulife_post.find_one({"_id":123},{"title":true})`（如果`lgulife_post`集合不存在会返回空）

>查询所有符合条件的数据：`db.collection.find(query, projection)`
>- query ：`dict`，可选，使用查询操作符指定查询条件
>- projection ：`dict`或`set`，可选，使用投影操作符指定返回的键。查询时返回文档中所有键值， 只需省略该参数即可（默认省略）。\
>- 返回值：一个迭代器\
>例子：`db.lgulife_post.find({"_id":123},{"title":true})`（如果`lgulife_post`集合不存在会返回空）

>插入数据：`db.collection.insert_one(<document>)`
>- document : `dict`，必须。\
>例子：`db.lgulife_post.insert_one({"_id":123,"title":"标题","content":"内容"})`（如果`lgulife_post`集合不存在则会自动创建）

### 练习

新建一个以自己用户名命名的数据库，向其下`lgulife_post`集合插入如下数据：
```json
{
"post_id":123,
"post_title":"some title",
"post_content":"some content"
}

```