Попробуем решить следующую задачу: нам необходимо выгрузить сайт NPlus1.ru и положить статьи в базу данных. Отдельно должны лежать идентификаторы загруженных текстов, словари начальных форм и токенов, разбиение текста на предложения. Для решения задачи будем использовать базу данных MongoDB.<br>
Импортируем все необходисые библиотеки. Отдельно обратите внимание на библиотеку для работы с Mongo - <a href="http://api.mongodb.com/python/current/api/index.html">pymongo</a>.

In [2]:
import requests
from bs4 import BeautifulSoup
import re
import time
import datetime
from tqdm import tqdm
import pymorphy2

import pymongo
from bson import ObjectId

delcom=re.compile("<!--.+-->", re.S)


Чтобы не ставить себе базу данных будем использовать бесплатное облако Mongo: необходимо зарегистрироваться, завести пользователя, создать проект, дать пользователю права на проект. Для пользователя получить строку для соединения с базой. Для работы с БД используем класс MongoClient, в который передаем строку соединения.

In [3]:
# Version before 3.6
#client = MongoClient('mongodb://BKLuser:BKLPassword@cluster0-shard-00-00-usd6h.mongodb.net:27017,cluster0-shard-00-01-usd6h.mongodb.net:27017,cluster0-shard-00-02-usd6h.mongodb.net:27017/concordance?ssl=true&replicaSet=Cluster0-shard-0&authSource=admin')

# Version after 3.6
client = pymongo.MongoClient('mongodb+srv://BKLuser:BKLPassword@cluster0-usd6h.mongodb.net/test?retryWrites=true')

Аналогом реляционных записей являются документы. Аналогом таблиц - коллекции и подколлекции. Сам документ может включать в себя другие документы. Документ записывается в формате JSON, но для Питона можно считать, что это словари.<br>
При помощи клиента обращаемся к базе concordance. Если эта база не существовала, она создастся при первой записи данных. Аналогично всё происходит с коллекциями.<br>
В коллекции nplus1texts будем хранить адерса и идентификаторы текстов, в коллекции dictionary - словарь токенов, в lemmas - словарь лемм, наконец в sentences - разделение предложений на слова.

In [24]:
# Обращение к базе при помощи оператора квадратные скобки.
db = client['concordance2']
# Обращение к базе при помощи оператора точка.
#db = client.concordance
db

Database(MongoClient(host=['cluster0-shard-00-01-usd6h.mongodb.net:27017', 'cluster0-shard-00-02-usd6h.mongodb.net:27017', 'cluster0-shard-00-00-usd6h.mongodb.net:27017'], document_class=dict, tz_aware=False, connect=True, authsource='admin', replicaset='Cluster0-shard-0', ssl=True, retrywrites=True), 'concordance2')

In [25]:
# Обращение к коллекции внутри базы при помощи оператора точка (но можно и при помощи квадратных скобок).
text_collection=db.nplus1texts
dictionary=db.dictionary
lemmas=db.lemmas
dbsents=db.sentences

In [27]:
# Добавляем индекс в коллекцию lemmas по полям iniForm и POS, оба по возрастанию.
# Заодно запрещаем добавлять повторяющиеся сочетания.
lemmas.create_index([('iniForm', pymongo.ASCENDING), ('POS', pymongo.ASCENDING)], unique=True)
dictionary.create_index([('token', pymongo.ASCENDING), ('iniForm', pymongo.ASCENDING), ('POS', pymongo.ASCENDING)], unique=True)

'token_1_iniForm_1_POS_1'

In [27]:
# Для пробы удалим индекс и посмотрим на изменение скорости работы.
lemmas.drop_index('iniForm_1_POS_1')

Напишем функцию для выгрузки одной статьи с сайта (это мы уже умеем).

In [28]:
class NPlus1Article:
    def __init__(self):
        self.time=""
        self.date=""
        self.rubr=""
        self.diff=""
        self.author=""
        self.head=""
        self.text=""

def getArticleTextNPlus1(adr):
    r = requests.get(adr)
    #print(r.text)
    art=NPlus1Article()
    tables=re.split("</div>",re.split('="tables"', r.text)[1])[0]
    t1=re.split("</time>", re.split("<time", tables)[1])[0]
    art.time=re.split("</span>", re.split("<span>", t1)[1])[0]
    art.date=re.split("</span>", re.split("<span>", t1)[2])[0]
    art.rubr=re.split(">", re.split("</a>", re.split("<a href", tables)[1])[0])[1]
    art.diff=re.split("</span>", re.split('"difficult-value">', tables)[1])[0]
    art.head=re.split("</h1>",re.split('<h1>', r.text)[1])[0]
    art.author=re.split('" />',re.split('<meta name="author" content="', r.text)[1])[0]
    art.text=re.split("</div>", re.split("</figure>", re.split('</article>',re.split('<article', r.text)[1])[0])[1])[1]    

    beaux_text=BeautifulSoup(art.text, "html5lib")
    art.text=delcom.sub("", beaux_text.get_text() )

    # print(art.n_time, art.n_date, art.n_rubr, art.n_diff)
    # print(art.n_head)
    # print(art.n_author)
    # print(art.n_text)
    #return [n_time, n_date, n_rubr, n_diff, n_author, n_head, n_text]
    return art

Для того, чтобы найти документ, необходимо использовать функцию `collection.find()`. Без параметров эта функция выдаст все документы.

In [10]:
for t in text_collection.find():
    print(t)

{'_id': ObjectId('5c552c130c009e3ad6115eeb'), 'text_url': 'https://nplus1.ru/news/2018/03/21/sudden-influence-of-pollutation', 'text_name': 'Органические загрязнения в Арктике ослабили кость в пенисе белых медведей', 'art_text': '\n                                                \n                                                    <!-- -->\n                                                        <!-- -->\n                            \n                                                                                            <p>Кость пениса (бакулюм) у белых медведей из-за органических загрязнений становится хрупкой и может сломаться, затрудняя размножение, <a href="https://www.sciencedirect.com/science/article/pii/S0160412017321773?via%3Dihub" target="_blank" rel="nofollow">говорится</a> в <i>Environment\r\nInternational</i>. Поэтому, вероятно, что животным грозит не только уменьшение,\r\nа потом и исчезновение ареала из-за\r\nтаяния ледников, но и сокращение численности из-за органи

В качестве параметров функции передается документ (в случае Python - словарь) с полями и их значениями. 

Если значение должно отвечать не равенству, а другому условию, передается составное значение в виде словаря, ключем у которого будет обозначение оператора, а значением - значение с которым будет проводиться сравнение. Таких пар можно передать несколько.

In [11]:
for l in lemmas.find({"freq":{"$gt": 5}}):
    print(l)

print("----")
for l in dictionary.find({"freq":{"$gt": 5}}):
    print(l)
    
print("----")
for l in dictionary.find({"freq":{"$gt": 5, "$lt": 9}}):
    print(l)

{'_id': ObjectId('5c552c1a0c009e3ad6115efb'), 'iniForm': 'медведь', 'POS': 'NOUN', 'freq': 11, 'docs': [ObjectId('5c552c130c009e3ad6115eeb'), ObjectId('5c552c130c009e3ad6115eeb'), ObjectId('5c552c130c009e3ad6115eeb'), ObjectId('5c552c130c009e3ad6115eeb'), ObjectId('5c552c130c009e3ad6115eeb'), ObjectId('5c552c130c009e3ad6115eeb'), ObjectId('5c552c130c009e3ad6115eeb'), ObjectId('5c552c130c009e3ad6115eeb'), ObjectId('5c552c130c009e3ad6115eeb'), ObjectId('5c552c130c009e3ad6115eeb'), ObjectId('5c552c130c009e3ad6115eeb')]}
{'_id': ObjectId('5c552c200c009e3ad6115f0d'), 'iniForm': 'и', 'POS': 'CONJ', 'freq': 25, 'docs': [ObjectId('5c552c130c009e3ad6115eeb'), ObjectId('5c552c130c009e3ad6115eeb'), ObjectId('5c552c130c009e3ad6115eeb'), ObjectId('5c552c130c009e3ad6115eeb'), ObjectId('5c552c130c009e3ad6115eeb'), ObjectId('5c552c130c009e3ad6115eeb'), ObjectId('5c552c130c009e3ad6115eeb'), ObjectId('5c552c130c009e3ad6115eeb'), ObjectId('5c552c130c009e3ad6115eeb'), ObjectId('5c552c130c009e3ad6115eeb'),

{'_id': ObjectId('5c552c490c009e3ad6115f64'), 'token': 'с', 'iniForm': 'с', 'POS': 'PREP', 'freq': 7, 'docs': [ObjectId('5c552c130c009e3ad6115eeb'), ObjectId('5c55311c0c009e3ad6116281'), ObjectId('5c55311c0c009e3ad6116281'), ObjectId('5c55311c0c009e3ad6116281'), ObjectId('5c55311c0c009e3ad6116281'), ObjectId('5c55311c0c009e3ad6116281'), ObjectId('5c5534b00c009e3ad61164b0')]}
{'_id': ObjectId('5c552c500c009e3ad6115f70'), 'token': 'медведи', 'iniForm': 'медведь', 'POS': 'NOUN', 'freq': 6, 'docs': [ObjectId('5c552c130c009e3ad6115eeb'), ObjectId('5c552c130c009e3ad6115eeb'), ObjectId('5c552c130c009e3ad6115eeb'), ObjectId('5c552c130c009e3ad6115eeb'), ObjectId('5c552c130c009e3ad6115eeb'), ObjectId('5c552c130c009e3ad6115eeb')]}
{'_id': ObjectId('5c552caa0c009e3ad611601f'), 'token': 'на', 'iniForm': 'на', 'POS': 'PREP', 'freq': 8, 'docs': [ObjectId('5c552c130c009e3ad6115eeb'), ObjectId('5c552c130c009e3ad6115eeb'), ObjectId('5c552c130c009e3ad6115eeb'), ObjectId('5c552c130c009e3ad6115eeb'), Objec

Попробуем найти все документы со сложностью равной 6.8 (статья про вручение Абелевской премии).

In [12]:
for l in text_collection.find({'art_info': {'difficulty': '6.8'}}):
    print(l)

Ничего не найдено, так как такая запись преполагает полное совпадение, то есть поиск поддокумента с единственным полем и этим значением. Если полей будет несколько, роль будет играть даже порядок следования полей в базе!

То, что мы хотели сделать, можно сделать вот так.

In [13]:
for l in text_collection.find({'art_info.difficulty': '6.8'}):
    print(l)

{'_id': ObjectId('5c552ff50c009e3ad61161d9'), 'text_url': 'https://nplus1.ru/news/2018/03/20/abel-prize-2018', 'text_name': 'Абелевская премия присуждена за открытие связи между теорией чисел и теорией представлений', 'art_text': '\n                                                \n                                                    <!-- -->\n                                                        <!-- -->\n                            \n                                                                                            <p>Норвежская академия наук объявила лауреата Абелевской премии 2018 года. Им стал канадский математик&nbsp;<a href="https://ru.wikipedia.org/wiki/%D0%9B%D0%B5%D0%BD%D0%B3%D0%BB%D0%B5%D0%BD%D0%B4%D1%81,_%D0%A0%D0%BE%D0%B1%D0%B5%D1%80%D1%82" target="_blank" rel="nofollow">Роберт Ленглендс</a>. Премия присуждена «за дальновидную программу, соединяющую теорию представлений и теорию чисел».&nbsp;</p><p>Абелевскую премию часто называют «Нобелевской премией по математи

Можно выбирать не все поля, а только те, которые нам необходимы.

In [14]:
for t in text_collection.find(projection=['art_info']):
    print(t)

{'_id': ObjectId('5c552c130c009e3ad6115eeb'), 'art_info': {'art_date': '21 Март 2018', 'art_time': '19:07', 'difficulty': '2.8', 'author': 'Екатерина Русакова'}}
{'_id': ObjectId('5c552ff50c009e3ad61161d9'), 'art_info': {'art_date': '20 Март 2018', 'art_time': '14:15', 'difficulty': '6.8', 'author': 'Владимир Королев'}}
{'_id': ObjectId('5c5530fa0c009e3ad6116280'), 'art_info': {'art_date': '20 Март 2018', 'art_time': '13:36', 'difficulty': '2.3', 'author': 'Григорий Копиев'}}
{'_id': ObjectId('5c55311c0c009e3ad6116281'), 'art_info': {'art_date': '20 Март 2018', 'art_time': '13:36', 'difficulty': '2.3', 'author': 'Григорий Копиев'}}
{'_id': ObjectId('5c5534b00c009e3ad61164b0'), 'art_info': {'art_date': '29 Июнь 2016', 'art_time': '14:51', 'difficulty': '4.7', 'author': 'Кристина Уласович'}}


Для поиска в массивах одного значения можно просто проводить поиск, БД сама будет искать объекты в массиве.

Если мы ищем несколько значений в массиве, необходимо использовать соответствующие предикаты: `$in` для поиска вхождения одного из элементов, `$all` - поиска всех элементов, и т.д.

Обратите внимание, для поиска мы используем не строку, а объект `ObjectId`, импортированный из библиотеки `bson`.

In [19]:
for d in dictionary.find({"docs": ObjectId('5c552c130c009e3ad6115eeb')}):
    print(d)
    
print("-----")
for d in dictionary.find({"docs": {"$all": [ObjectId('5c552c130c009e3ad6115eeb'), ObjectId('5c55311c0c009e3ad6116281')]}},
                         projection={"_id":False, "token":True}):
    print(d)    

{'_id': ObjectId('5c552c150c009e3ad6115eed'), 'token': 'Кость', 'iniForm': 'костя', 'POS': 'NOUN', 'freq': 1, 'docs': [ObjectId('5c552c130c009e3ad6115eeb')]}
{'_id': ObjectId('5c552c160c009e3ad6115ef0'), 'token': 'пениса', 'iniForm': 'пенис', 'POS': 'NOUN', 'freq': 2, 'docs': [ObjectId('5c552c130c009e3ad6115eeb'), ObjectId('5c552c130c009e3ad6115eeb')]}
{'_id': ObjectId('5c552c170c009e3ad6115ef3'), 'token': 'бакулюм', 'iniForm': 'бакулюм', 'POS': 'NOUN', 'freq': 2, 'docs': [ObjectId('5c552c130c009e3ad6115eeb'), ObjectId('5c552c130c009e3ad6115eeb')]}
{'_id': ObjectId('5c552c190c009e3ad6115ef6'), 'token': 'у', 'iniForm': 'у', 'POS': 'PREP', 'freq': 4, 'docs': [ObjectId('5c552c130c009e3ad6115eeb'), ObjectId('5c552c130c009e3ad6115eeb'), ObjectId('5c552c130c009e3ad6115eeb'), ObjectId('5c552c130c009e3ad6115eeb')]}
{'_id': ObjectId('5c552c1a0c009e3ad6115ef9'), 'token': 'белых', 'iniForm': 'белых', 'POS': 'NOUN', 'freq': 4, 'docs': [ObjectId('5c552c130c009e3ad6115eeb'), ObjectId('5c552c130c009e

{'token': 'из-за'}
{'token': 'и'}
{'token': 'может'}
{'token': 'в'}
{'token': 'что'}
{'token': 'только'}
{'token': 'но'}
{'token': 'с'}
{'token': 'В'}
{'token': 'это'}
{'token': 'время'}
{'token': 'до'}
{'token': 'которых'}
{'token': 'во'}
{'token': 'как'}
{'token': 'разные'}
{'token': 'том'}
{'token': 'на'}
{'token': 'из'}
{'token': 'о'}
{'token': 'под'}
{'token': 'руководством'}
{'token': 'университета'}
{'token': 'показали'}
{'token': 'одной'}
{'token': 'при'}
{'token': 'помощью'}
{'token': 'исследователи'}
{'token': 'от'}
{'token': 'могут'}


In [22]:
# А это мы просто смотрим сколько текстов добавили в базу.
print(text_collection.find().count())

# Здесь ищем слова с частотой встречаемости от 6 до 9, 
# просим не выводить идентификатор и отсортировать всё по частоте.
for l in lemmas.find({"freq":{"$gt": 5, "$lt": 10}}, {"_id":False}).sort("freq"):
 print(l)
print("----")
# Здесь ищем слова с частотой встречаемости от 6 до 9, 
# просим вывести токен и частоту, но не выводить идентификатор и отсортировать всё по частоте.
for l in dictionary.find({"freq":{"$gt": 5}}, {"token": True, "freq":True, "_id":False}).sort("freq"):
 print(l)


  


5
{'iniForm': 'который', 'POS': 'ADJF', 'freq': 6, 'docs': [ObjectId('5c552c130c009e3ad6115eeb'), ObjectId('5c552c130c009e3ad6115eeb'), ObjectId('5c552c130c009e3ad6115eeb'), ObjectId('5c552c130c009e3ad6115eeb'), ObjectId('5c55311c0c009e3ad6116281'), ObjectId('5c55311c0c009e3ad6116281')]}
{'iniForm': 'длина', 'POS': 'NOUN', 'freq': 6, 'docs': [ObjectId('5c55311c0c009e3ad6116281'), ObjectId('5c55311c0c009e3ad6116281'), ObjectId('5c55311c0c009e3ad6116281'), ObjectId('5c55311c0c009e3ad6116281'), ObjectId('5c55311c0c009e3ad6116281'), ObjectId('5c55311c0c009e3ad6116281')]}
{'iniForm': 'мочь', 'POS': 'VERB', 'freq': 7, 'docs': [ObjectId('5c552c130c009e3ad6115eeb'), ObjectId('5c552c130c009e3ad6115eeb'), ObjectId('5c552c130c009e3ad6115eeb'), ObjectId('5c55311c0c009e3ad6116281'), ObjectId('5c55311c0c009e3ad6116281'), ObjectId('5c55311c0c009e3ad6116281'), ObjectId('5c55311c0c009e3ad6116281')]}
{'iniForm': 'тот', 'POS': 'ADJF', 'freq': 7, 'docs': [ObjectId('5c552c130c009e3ad6115eeb'), ObjectId('5c

Теперь напишем функцию для того, чтобы класть статью в БД. используем для этого функции:
- insert_one (insert, insert_many) - добавляет запись (несколько записей) в выбранную коллекцию.
- find_one_and_update - найти и обновить (аналог update).


В качестве параметра во все функции передается слова, ключи которого содержат названия полей, а значения - значения этих полей. При поиске при этом часть полей может принимать особые значения, например, `$ne` - не равно, `$size` - смотрим на размер массива, `$inc` - увеличить значение поля на заданную величину и т.д. Более подробно с соответствующими ключами можно ознакомиться <a href="https://metanit.com/nosql/mongodb/" >здесь</a>.

In [29]:
# Создаем морфоанализатор.
morph=pymorphy2.MorphAnalyzer()

In [30]:
def putNPlus1ArticleInMongo(art_url):
    # Загружаем текст статьи и другие ее части.
    art=getArticleTextNPlus1(art_url) 

    # Добавляем запись с информацией о статье.
    # inserted_id позволяет сразу получить идентификатор записи, чтобы потом ссылаться на него там, где это необходимо.
    a_text={"text_url": art_url, "text_name": art.head, "art_text": art.text, 
            "art_info": {"art_date": art.date, "art_time": art.time, "difficulty": art.diff, "author":art.author}}
    text_id=text_collection.insert_one(a_text).inserted_id
    print(text_id)

    # Выделяем предложения (просто по точке с пробелом!!!).
    sents=re.split("\.\s", art.text)
    sent_num=1
    # Загружаем предложения в базу.
    for s in tqdm(sents):
        # Выделяем слова (просто как группы русских букв!!!).
        words=re.findall("([А-Яа-я]+(\-[А-Яа-я]+)?)", s)
        posit=1
        # Загрузка слов из предложений.
        for w in words:
            wf=morph.parse(w[0])
            # Провели морфологический анализ и теперь добавляем документ с двумя полями: нач. форма и часть речи.
            # Сперва проверяем есть ли там уже такая запись.
            inis=lemmas.find({"iniForm": wf[0].normal_form, "POS": wf[0].tag.POS})
            # Смотрим сколько таких слов нашлось. Если ни одного - надо добавлять.
            if inis.count()==0:
                lemma_id=lemmas.insert_one({"iniForm": wf[0].normal_form, "POS": wf[0].tag.POS, "freq": 1, "docs":[text_id]}).inserted_id
            # А если такое слово уже было, то обновляем частоту встречаемости и в каком документе оно встретиось.
            else:
                lemma_id=inis[0]["_id"]
                lemmas.find_one_and_update({"_id": lemma_id}, {"$inc": {"freq":1}})
                lemmas.find_one_and_update({"_id": lemma_id}, {"$addToSet": {"docs": text_id}}) 
                # Вот таким образом можно добавлять номер документа столько раз, сколько в нем встретилось слово.
                #lemmas.find_one_and_update({"_id": lemma_id}, {"$push": {"docs": text_id}}) 

            # Повторяем операцию для токенов.
            wrdf=dictionary.find({"token": w[0], "iniForm": wf[0].normal_form, "POS": wf[0].tag.POS})
            if wrdf.count()==0:
                wf_id=dictionary.insert_one({"token":w[0], "iniForm": wf[0].normal_form, "POS": wf[0].tag.POS, "freq": 1, "docs": [text_id]}).inserted_id
            else:
                wf_id=wrdf[0]["_id"]
                dictionary.find_one_and_update({"_id": wf_id}, {"$inc":  {"freq": 1}}) 
                dictionary.find_one_and_update({"_id": wf_id}, {"$addToSet": {"docs": text_id}}) 
  
            # Добавляем номер предложения, идентификатор словоформы из словаря, позицию слова, из какого оно текста.
            dbsents.insert_one({"sent_id": sent_num, "wordFormId":wf_id, "position": posit, "textId": text_id})
            posit+=1  
            sent_num+=1

In [33]:
# Добавляем статью  в базу.
putNPlus1ArticleInMongo("https://nplus1.ru/news/2016/08/02/sn-1987A-radio")
putNPlus1ArticleInMongo("https://nplus1.ru/news/2015/04/06/gender-and-morality-")
putNPlus1ArticleInMongo("https://nplus1.ru/news/2016/08/02/target")
putNPlus1ArticleInMongo("https://nplus1.ru/news/2016/06/16/new-earths-satellite")
putNPlus1ArticleInMongo("https://nplus1.ru/news/2016/06/27/SgrA-size")
putNPlus1ArticleInMongo("https://nplus1.ru/news/2016/06/27/juno-pictures")
putNPlus1ArticleInMongo("https://nplus1.ru/news/2016/04/12/alignment-of-jets")
#putNPlus1ArticleInMongo("https://nplus1.ru/news/2016/06/29/Ultra-Deep-Survey")
#putNPlus1ArticleInMongo("https://nplus1.ru/news/2018/03/20/balance")
#putNPlus1ArticleInMongo("https://nplus1.ru/news/2018/03/20/abel-prize-2018")

  0%|          | 0/15 [00:00<?, ?it/s]

5c5553b50c009e41afd815c2


100%|██████████| 15/15 [05:56<00:00, 23.77s/it]
  0%|          | 0/16 [00:00<?, ?it/s]

5c55551a0c009e41afd817f1


100%|██████████| 16/16 [06:50<00:00, 25.69s/it]
  0%|          | 0/14 [00:00<?, ?it/s]

5c5556b60c009e41afd81a70


100%|██████████| 14/14 [06:16<00:00, 26.90s/it]
  0%|          | 0/13 [00:00<?, ?it/s]

5c5558300c009e41afd81c67


100%|██████████| 13/13 [05:17<00:00, 24.39s/it]
  0%|          | 0/13 [00:00<?, ?it/s]

5c55596e0c009e41afd81de1


100%|██████████| 13/13 [06:56<00:00, 32.05s/it]
  0%|          | 0/5 [00:00<?, ?it/s]

5c555b0f0c009e41afd81faa


100%|██████████| 5/5 [02:00<00:00, 24.05s/it]
  0%|          | 0/11 [00:00<?, ?it/s]

5c555b880c009e41afd82032


100%|██████████| 11/11 [06:27<00:00, 35.24s/it]


In [173]:
# Вот так можно удалить всё в базе. Если написать условие, то не всё. 
# Экспериментировать не будем, да?
text_collection.delete_many({})
dictionary.delete_many({})
lemmas.delete_many({})
dbsents.delete_many({})
#for l in dbsents.find():
# print(l)


<pymongo.results.DeleteResult at 0x7f93ffdb9048>

In [8]:
# Так можно посмотреть все записи, у которых в токене записан список ровно из двух элементов.
for l in dictionary.find({"token":{"$size":2}}):
    print(l)
print("=====")
# Так можно посмотреть все записи, у которых есть поле docs.
for l in lemmas.find({"docs":{"$exists":True}}):
    print(l)

{'POS': 'NOUN', 'token': ['Инженеры', ''], 'iniForm': 'инженер', '_id': ObjectId('5ab23dc7194268399f8eac4f'), 'freq': 3}
{'POS': 'VERB', 'token': ['создали', ''], 'iniForm': 'создать', '_id': ObjectId('5ab23dc8194268399f8eac52'), 'freq': 2}
{'POS': 'NOUN', 'token': ['робота', ''], 'iniForm': 'робот', '_id': ObjectId('5ab23dc8194268399f8eac55'), 'freq': 6}
{'POS': 'PREP', 'token': ['с', ''], 'iniForm': 'с', '_id': ObjectId('5ab23dc9194268399f8eac57'), 'freq': 5}
{'POS': 'ADJF', 'token': ['вентиляторными', ''], 'iniForm': 'вентиляторный', '_id': ObjectId('5ab23dca194268399f8eac5a'), 'freq': 1}
{'POS': 'NOUN', 'token': ['движителями', ''], 'iniForm': 'движитель', '_id': ObjectId('5ab23dca194268399f8eac5d'), 'freq': 1}
{'POS': 'PREP', 'token': ['в', ''], 'iniForm': 'в', '_id': ObjectId('5ab23dcb194268399f8eac5f'), 'freq': 6}
{'POS': 'NOUN', 'token': ['стопах', ''], 'iniForm': 'стопа', '_id': ObjectId('5ab23dcc194268399f8eac62'), 'freq': 1}
{'POS': 'PREP', 'token': ['для', ''], 'iniForm': '

{'POS': 'PREP', 'iniForm': 'в', 'docs': [ObjectId('5ab25138194268399f8eae95'), ObjectId('5ab25138194268399f8eae95'), ObjectId('5ab289ca1942680c4863d917'), ObjectId('5ab289ca1942680c4863d917'), ObjectId('5ab289ca1942680c4863d917'), ObjectId('5ab289ca1942680c4863d917'), ObjectId('5ab289ca1942680c4863d917'), ObjectId('5ab289ca1942680c4863d917'), ObjectId('5ab289ca1942680c4863d917'), ObjectId('5ab289ca1942680c4863d917'), ObjectId('5ab289ca1942680c4863d917'), ObjectId('5ab289ca1942680c4863d917'), ObjectId('5ab289ca1942680c4863d917'), ObjectId('5ab289ca1942680c4863d917'), ObjectId('5ab289ca1942680c4863d917'), ObjectId('5ab289ca1942680c4863d917')], '_id': ObjectId('58ce6113c98cbf1813b1180d'), 'freq': 104}
{'POS': 'PREP', 'iniForm': 'от', 'docs': [ObjectId('5ab25138194268399f8eae95')], '_id': ObjectId('58ce6116c98cbf1813b11819'), 'freq': 14}
{'POS': 'PREP', 'iniForm': 'до', 'docs': [ObjectId('5ab289ca1942680c4863d917')], '_id': ObjectId('58ce6117c98cbf1813b1181c'), 'freq': 11}
{'POS': 'PRCL', 

При помощи ключевого слова `$regex' можно искать в базе строки, отвечающие регулярным выражениям.

In [48]:
for d in lemmas.find({'iniForm':{'$regex':'^и.+'}}):
    print(d)
    
for d in dictionary.find({'token':{'$regex':'^[А-Я].+'}}):
    print(d)

{'_id': ObjectId('5c55525c0c009e41afd813d2'), 'iniForm': 'из', 'POS': 'PREP', 'freq': 15, 'docs': [ObjectId('5c5551d00c009e41afd812bb'), ObjectId('5c5553b50c009e41afd815c2'), ObjectId('5c55551a0c009e41afd817f1'), ObjectId('5c5556b60c009e41afd81a70'), ObjectId('5c55596e0c009e41afd81de1'), ObjectId('5c555b0f0c009e41afd81faa'), ObjectId('5c555b880c009e41afd82032')]}
{'_id': ObjectId('5c55522f0c009e41afd81372'), 'iniForm': 'из-за', 'POS': 'PREP', 'freq': 2, 'docs': [ObjectId('5c5551d00c009e41afd812bb'), ObjectId('5c55596e0c009e41afd81de1')]}
{'_id': ObjectId('5c5554ee0c009e41afd817ae'), 'iniForm': 'известно', 'POS': 'PRED', 'freq': 2, 'docs': [ObjectId('5c5553b50c009e41afd815c2'), ObjectId('5c5556b60c009e41afd81a70')]}
{'_id': ObjectId('5c5558d00c009e41afd81d39'), 'iniForm': 'известный', 'POS': 'ADJS', 'freq': 1, 'docs': [ObjectId('5c5558300c009e41afd81c67')]}
{'_id': ObjectId('5c55541d0c009e41afd81678'), 'iniForm': 'излучение', 'POS': 'NOUN', 'freq': 5, 'docs': [ObjectId('5c5553b50c009e41

{'_id': ObjectId('5c5554e10c009e41afd81798'), 'token': 'Пути', 'iniForm': 'путь', 'POS': 'NOUN', 'freq': 1, 'docs': [ObjectId('5c5553b50c009e41afd815c2')]}
{'_id': ObjectId('5c555aec0c009e41afd81f86'), 'token': 'РСДБ', 'iniForm': 'рсдб', 'POS': 'NOUN', 'freq': 1, 'docs': [ObjectId('5c55596e0c009e41afd81de1')]}
{'_id': ObjectId('5c555bcd0c009e41afd82085'), 'token': 'Работа', 'iniForm': 'работа', 'POS': 'NOUN', 'freq': 1, 'docs': [ObjectId('5c555b880c009e41afd82032')]}
{'_id': ObjectId('5c555aa30c009e41afd81f35'), 'token': 'Радиоинтерферометрия', 'iniForm': 'радиоинтерферометрия', 'POS': 'NOUN', 'freq': 1, 'docs': [ObjectId('5c55596e0c009e41afd81de1')]}
{'_id': ObjectId('5c55537d0c009e41afd81589'), 'token': 'Размер', 'iniForm': 'размер', 'POS': 'NOUN', 'freq': 1, 'docs': [ObjectId('5c5553460c009e41afd8151c')]}
{'_id': ObjectId('5c55579a0c009e41afd81ba3'), 'token': 'Разработка', 'iniForm': 'разработка', 'POS': 'NOUN', 'freq': 1, 'docs': [ObjectId('5c5556b60c009e41afd81a70')]}
{'_id': Obje

Ключевое слово `$or` и дрегие позволяют применять логические свзки помимо логического И.

In [49]:
for d in dictionary.find({'$or':[{'token':{'$regex':'^И.+'}}, {'token':{'$regex':'.+ъ.+'}}]}):
    print(d)

{'_id': ObjectId('5c5556400c009e41afd819ca'), 'token': 'Из', 'iniForm': 'из', 'POS': 'PREP', 'freq': 1, 'docs': [ObjectId('5c55551a0c009e41afd817f1')]}
{'_id': ObjectId('5c5553510c009e41afd81534'), 'token': 'Им', 'iniForm': 'имя', 'POS': 'NOUN', 'freq': 1, 'docs': [ObjectId('5c5553460c009e41afd8151c')]}
{'_id': ObjectId('5c5551d10c009e41afd812bd'), 'token': 'Инженеры', 'iniForm': 'инженер', 'POS': 'NOUN', 'freq': 3, 'docs': [ObjectId('5c5551d00c009e41afd812bb')]}
{'_id': ObjectId('5c5555fd0c009e41afd8196a'), 'token': 'Используя', 'iniForm': 'использовать', 'POS': 'GRND', 'freq': 1, 'docs': [ObjectId('5c55551a0c009e41afd817f1')]}
{'_id': ObjectId('5c5551ee0c009e41afd812fe'), 'token': 'Испытания', 'iniForm': 'испытание', 'POS': 'NOUN', 'freq': 1, 'docs': [ObjectId('5c5551d00c009e41afd812bb')]}
{'_id': ObjectId('5c5553f30c009e41afd81636'), 'token': 'Исследование', 'iniForm': 'исследование', 'POS': 'NOUN', 'freq': 1, 'docs': [ObjectId('5c5553b50c009e41afd815c2')]}
{'_id': ObjectId('5c5552f

Обратите внимание, что при обновлении заменяетя весь докуент целиком. Чтобы избежать этого следует использовать ключевое слово `$set`, которое показывает, что обновляется значение только одного поля.

In [57]:
for d in dictionary.find({'token':{'$regex':'^И.+'}}):
    print(d)

{'_id': ObjectId('5c5556400c009e41afd819ca'), 'token': 'Из', 'iniForm': 'из', 'POS': 'PREP', 'freq': 1, 'docs': [ObjectId('5c55551a0c009e41afd817f1')]}
{'_id': ObjectId('5c5553510c009e41afd81534'), 'token': 'Им', 'iniForm': 'имя', 'POS': 'NOUN', 'freq': 1, 'docs': [ObjectId('5c5553460c009e41afd8151c')]}
{'_id': ObjectId('5c5551d10c009e41afd812bd'), 'token': 'Инженеры', 'iniForm': 'инженер', 'POS': 'NOUN', 'freq': 3, 'docs': [ObjectId('5c5551d00c009e41afd812bb')]}
{'_id': ObjectId('5c5555fd0c009e41afd8196a'), 'token': 'Используя', 'iniForm': 'использовать', 'POS': 'GRND', 'freq': 1, 'docs': [ObjectId('5c55551a0c009e41afd817f1')]}
{'_id': ObjectId('5c5551ee0c009e41afd812fe'), 'token': 'Испытания', 'iniForm': 'испытание', 'POS': 'NOUN', 'freq': 1, 'docs': [ObjectId('5c5551d00c009e41afd812bb')]}
{'_id': ObjectId('5c5553f30c009e41afd81636'), 'token': 'Исследование', 'iniForm': 'исследование', 'POS': 'NOUN', 'freq': 1, 'docs': [ObjectId('5c5553b50c009e41afd815c2')]}
{'_id': ObjectId('5c5552f

In [60]:
dictionary.find_one_and_update({'token':{'$regex':'^И.+'}}, {'$set': {'found':'true'}})

{'POS': 'PREP',
 '_id': ObjectId('5c5556400c009e41afd819ca'),
 'docs': [ObjectId('5c55551a0c009e41afd817f1')],
 'found': 'true',
 'freq': 1,
 'iniForm': 'из',
 'token': 'Из'}

In [61]:
for d in dictionary.find({'found':{"$exists":True}}):
    print(d)

{'_id': ObjectId('5c5556400c009e41afd819ca'), 'token': 'Из', 'iniForm': 'из', 'POS': 'PREP', 'freq': 1, 'docs': [ObjectId('5c55551a0c009e41afd817f1')], 'found': 'true'}


## Важное замечание

Вся структура нашей баы данных отдает реляционностью. Никто не мешал нам сделать документ, вложенный в словарь начальных форм и хранить в нем все формы данного слова. Тогда если что, не надо будет делать запросы, в которых надо делать пересечение двух коллекций.