In [3]:
from pymongo import MongoClient

mongodb是一个轻量级的数据库

数据格式为JSON风格

# 数据库连接

In [4]:
#默认连接本地数据库
client = MongoClient()    

## 创建数据库

In [5]:
db = client['stock']

### 查看数据库
> client.database_names()

###  删除数据库
> client.drop_database()

## 从数据库中选择集合

In [6]:
collection = db['stockConcept']

### 查看下面的集合
> db.list_collection_names()

In [8]:
db.list_collection_names()

['yjyg',
 'newstock',
 'stockConcept',
 'stockName2Index',
 'xsjj',
 'xkhs',
 'test',
 'todayConcept',
 'yesterdayZt',
 'newStock',
 'regionAnalysis',
 'gsz',
 'conceptSummary',
 'tfp']

# 操作符

## 第一部分
> $set：替换某个field的值     

> $unset：取消某个field       

> $addToSet：插入值至array

> $inc：+1

> $mul：乘

> $rename：重命名     		 

> $min：指定值比存在值小则更新

> $max                 

## 第二部分

> \$lt：小于
>> {'age': {'$lt': 20}}

> \$gt：大于
>> {'age': {'$gt': 20}}

> \$lte：小于等于
>> {'age': {'$lte': 20}}

> \$gte：大于等于
>> {'age': {'$gte': 20}}

> \$ne：不等于
>> {'age': {'$ne': 20}}

> \$in：在范围内
>> {'age': {'$in': [20, 23]}}

> \$nin：不在范围内
>> {'age': {'$nin': [20, 23]}}

## 第三部分
> \$regex匹配正则
>> {"name": {"$regex": "^M.*"}}

> \$exists属性是否存在
>> {"name": {"$exists": True}}   
>> #判断name属性存在

> \$type类型判断
>> {"age": {"$type": "int"}}
>> #判断age的类型为int

> \$mod数字模操作
>> {"age": {"$mod": [5, 0]}}
>> #判断年龄模5余0

> \$text文本查询
>> {"$text": {"$search": "Mike"}}

> \$where高级条件查询
>> {"$where": "obj.fans_count == obj.follows_count"} 

# 操作

## 插入数据
> 插入单条数据：insert_one(document)
>> collection.insert_one({“x”:1})

> 插入多条数据：insert_many(documents)
>> collection.insert_many([{“x”:1} for I in range(2)])

## 查询数据
> 查询单条数据：find_one()
>> collection.find_one({'主题页面': href})

> 查询多条数据：find()
>> collection.find({'age': {'$gt': 20}})

>> collection.find() - 查看所有数据 

> 查询并操作，返回对应内容
>> find_one_and_delete(filter, projection=None, sort=None)
>>> collection.find_one_and_delete({"x":1})

>> find_one_and_replace(filter, replacement, projection=None, sort=None)
>>> collection. find_one_and_replace({"x": 1}, {"y": 1})

>> find_one_and_update(filter, update, projection=None, sort=None)
>>> collection. find_one_and_update({"_id": 665}, {"\\$inc": {"count": 1}, '$set': {"done": True}})

无论是否查询到，find()返回值均不为F

## 替换数据
> replace_one(filter, replacement, upsert=False) 
>> collection.replace_one({“x”:1},{“y”:1})
>> #upsert=True ：若匹配文档不存在，则插入新的

## 删除数据
> 删除单条数据
>> delete_one()

> 删除多条数据
>> delete_many()

> 删除集合
>> collection.drop()

> 删除集合里所有记录
>> collection.remove()

## 更新数据
> 更新单条数据：update_one(filter, update, upsert=False)
>> collection.update_one({'x': 1}, {'$inc': {'x': 3}})

> 更新多条数据：update_many(filter, update, upsert=False)
>> collection.update_many({'x': 1}, {'$inc': {'x': 3}})
>> #可以通过collection.update_many({}, {condition})跳过筛选条件

## 其它
> 计数：count()
>> collection.find({"author": "Mike"}).count()

> 排序：sort()
> #1为升序排列, -1为降序排列；或者使用pymongo.ASCENDING
>> collection.find().sort({"likes":-1})

>>collection.find().sort("likes”, pymongo.ASCENDING)

> 偏倚
>> skip()：指定忽略的个数
>>> collection.find().sort('name', pymongo.ASCENDING).skip(2)
>>> #skip(2)为忽略前2个元素，得到第三个及以后的元素

>> limit()：指定选取的个数
>>> collection.find().sort('name', pymongo.ASCENDING).skip(2).limit(2)

> 整体查询
>> estimated_document_count()：获得collection的document数

>> distinct(key, filter=None, session=None, **kwargs)：获取特异值

In [9]:
collection.estimated_document_count()

3567

## 对数组进行操作
> \$all：判断数组属性是否包含全部条件
>> collection.find({"data":{"\\$all":[2,3,4]}})

> \$size：匹配数组属性元素数量
>> collection.find({"data":{"\\$size":3}})

> \$type：判断属性
>> collection.find({"t":{"\\$type":1}})
>> #其中1：数字，2：字符串，4：array，8：boolean

> \$each：添加多个元素
>> collection.update_many({"name":"user2",{"\\$addToSet":{"data":{"\\$each":[1,2,3,4]}}}})

> \\$push 和 \$pushAll：向数组添加元素
> #而$addToSet仅在该元素不存在时才添加

> \$pop：移除数组属性的元素(数组下标)
>> collection.update_many({"name":"user2",{"\\$pop":{"data":1}})
>> #其中1：移除最后一个元素; -1：移除第一个元素

> \$pull：按值移除
>> collection.update_many({"name":"user2",{"\\$pull":{"data":2}})

> \$pullAll：移除所有符合提交的元素
>> collection.update_many({"name":"user2",{"\\$pullAll":{"data":[3,5,6]}})

## 索引
> 创建索引
>> create_index(keys, session=None, **kwargs)：创建单个索引

>> create_indexes(keys, session=None, **kwargs)：创建多个索引


> 丢弃索引
>> drop_index(index_or_name)

>> drop_indexes()：丢弃所有索引

> 重建所有索引
>> reindex(）

> 列出索引
>> list_indexes（）

In [None]:
#创建单个索引
collection.create_index([("mike", pymongo.DESCENDING),("eliot", pymongo.ASCENDING)],background=True)

In [None]:
#创建多个索引
from pymongo import IndexModel, ASCENDING, DESCENDING
index1 = IndexModel([("hello", DESCENDING),("world", ASCENDING)], name="hello_world")
index2 = IndexModel([("goodbye", DESCENDING)])
db["test"].create_indexes([index1, index2],unique=True)

# 转换成DataFrame

In [5]:
from pymongo import MongoClient
import pandas as pd

client = MongoClient()
db = client["stock"]
collection = db["stock_concept"]

cursor = collection.find().sort("stock_code",-1).limit(10)
df = pd.DataFrame(list(cursor)).drop("_id",axis=1).set_index("stock_code")
df

Unnamed: 0_level_0,jqk_concept,stock_name
stock_code,Unnamed: 1_level_1,Unnamed: 2_level_1
688399,"[流感, 新股与次新股, 医疗器械概念]",硕世生物
688398,"[冷链物流, 新材料概念]",赛特新材
688396,"[氮化镓, 芯片概念]",华润微
688389,"[融资融券, 新股与次新股, 医疗器械概念]",普门科技
688388,"[锂电池, 新能源汽车, 新股与次新股, 融资融券]",嘉元科技
688369,"[国产软件, 华为概念, 区块链, 融资融券, 微信小程序, 新股与次新股, 云办公]",致远互联
688368,"[集成电路概念, 小米概念, 新股与次新股, 芯片概念, 融资融券]",晶丰明源
688366,"[融资融券, 新股与次新股]",昊海生科
688363,[新股与次新股],华熙生物
688358,"[融资融券, 新股与次新股, 医疗器械概念]",祥生医疗


# 示例 

StockConceptMongo()运用以下功能：
>  "$pull":{concept_type:concept}：剔除相关概念

>  concept_type:{"\$exists": True}：判断属性是否存在concept_type

>  concept_type:{"\$all":[concept]}：判断concept_type中是否包含特定概念

> \\$set, \$addToSet

In [None]:
class StockConceptMongo():
    """
    用于更新股票概念，在crawlConcept中使用
    可能会有这种情况：某只股票的概念不再适用了，删除了？
    """
    def __init__(self,timeout=300):
        self.client = MongoClient()
        self.db = self.client["stock"]
        self.collection = self.db["stock_concept"]
        self.expire_collection = self.db["expire_collection"]
        self.timeout = timeout

    def find_one(self,stock_code):
        return self.collection.find_one({"stock_code":stock_code})

    def pull(self,stock_code,concept_type,concept_name):
        self.collection.update({"stock_code":stock_code},{"$pull":{concept_type:concept_name}})

    def update(self,stock_code,stock_name,concept_type,concept_name):
        """
        新概念提醒，过期概念删除: 过期概念从expire_concept中取
        """
        if not self.collection.find_one({"stock_code": stock_code, concept_type: {"$exists": True}}) or \
                not self.collection.find_one({"stock_code":stock_code,concept_type:{"$all":[concept_name]}}):
            print("%s出现新概念%s" %(stock_code,concept_name))
            self.collection.update({"stock_code":stock_code},
                                   {"$set":{"stock_name":stock_name},"$addToSet":{concept_type:concept_name}},
                                    upsert=True)
        else:
            pass

    def pullAll_expire(self,concept_type):
        """
        读取expire_concept表数据和update_many
        """
        try:
            expire_list = self.expire_collection.find_one({"concept_type":concept_type})["concept_name"]
        except:
            return
        for item in self.collection.find():
            self.collection.update_many({}, {"$pullAll": {"content":expire_list}})

    def get_all_code(self):
        code_list = []
        for item in self.collection.find():
            code_list.append(item["stock_code"])
        return code_list

YesterdayZtMongo运用以下功能：
> "\$inc":{"con_zt_days":1}：+1

> delete_many({"today": {"\$ne": self.today}})：删除昨日Zt数据

> update_many({"jqkConcept":{"\$all":["昨日涨停"]}},{"\$pull":{"jqkConcept":"昨日涨停"}})：删除昨日Zt概念

> sort("con_zt_days",pymongo.DESCENDING)[0]["con_zt_days"]：排序