Попробуем решить следующую задачу: нам необходимо выгрузить сайт NPlus1.ru и положить статьи в базу данных. Отдельно должны лежать идентификаторы загруженных текстов, словари начальных форм и токенов, разбиение текста на предложения. Для решения задачи будем использовать базу данных MongoDB.

Импортируем все необходисые библиотеки. Обратите особое внимание на библиотеку для работы с Mongo - <a href="http://api.mongodb.com/python/current/api/index.html">pymongo</a> (еще одно описание <a href="https://pymongo.readthedocs.io/en/stable/">здесь</a>).

In [1]:
import requests
from bs4 import BeautifulSoup
import re
import time
import datetime
from tqdm import tqdm
import pymorphy2

import pymongo
from bson import ObjectId
from lxml import html

delcom=re.compile("<!--.+-->", re.S)


Чтобы не ставить себе базу данных, можно использовать бесплатное облако <a href ="https://cloud.mongodb.com/">Mongo.Atlas</a>. Для этого необходимо зарегистрироваться, завести пользователя, создать проект, дать пользователю права на проект. Для пользователя получить строку для соединения с базой. 

Но в данном случае мы будем пользоваться MongoDB, запущенное на локальном компьютере при помощи Docker.

Для работы с БД используем класс MongoClient, в который передаем строку соединения.

In [2]:
# Version after 3.6
client = pymongo.MongoClient('localhost', 27017)
#client = pymongo.MongoClient()

Аналогом реляционных записей являются документы. Аналогом таблиц - коллекции и подколлекции. Сам документ может включать в себя другие документы. Документ записывается в формате JSON, но для Питона можно считать, что это словари.  
При помощи клиента обращаемся к базе `concordance`. Если эта база не существовала, она создастся при первой записи данных. Аналогично всё происходит с коллекциями.<br>

In [3]:
# Обращение к базе при помощи оператора квадратные скобки.
db = client['concordance']
# Обращение к базе при помощи оператора точка.
#db = client.concordance

Посмотрим что содержит в себе база.

In [4]:
db

Database(MongoClient(host=['localhost:27017'], document_class=dict, tz_aware=False, connect=True), 'concordance')

In [5]:
# Обращение к коллекции внутри базы при помощи оператора точка (но можно и при помощи квадратных скобок).
text_collection = db.nplus1texts
dictionary = db.dictionary
lemmas = db.lemmas
dbsents = db.sentences

В коллекции `nplus1texts` будем хранить адерса и идентификаторы текстов, в коллекции `dictionary` - словарь токенов, в `lemmas` - словарь лемм, наконец в `sentences` - разделение предложений на слова.

Для того, чтобы найти документ, необходимо использовать функцию `collection.find()`. Без параметров эта функция выдаст все документы.

In [105]:
from pprint import pprint

In [108]:
for t in text_collection.find()[:2]:
    pprint(t)

{'_id': ObjectId('616fcef4e3381e0ff188001c'),
 'art_info': {'art_date': '20 Янв. 2020',
              'art_time': '14:18',
              'author': 'Александр Войтюк',
              'difficulty': '2.3'},
 'art_text': 'Марсоход «Розалинд Франклин», который должен отправиться к '
             'Красной планете этим летом, успешно прошел заключительные '
             'термовакуумные испытания, имитировавшие\xa0условия марсианской '
             'среды, в которых предстоит работать роверу,\xa0сообщается на '
             'сайте ESA.Старт второго этапа российско-европейской программы '
             '«ЭкзоМарс» намечен на период с 26 июля по 11 августа 2020 года. '
             'Ракета-носитель «Протон» выведет в космос перелетный модуль, '
             'который доставит к Марсу десантный модуль, содержащий в себе '
             'автономную научную станцию «Казачок»\xa0и марсоход «Розалинд '
             'Франклин». Посадка на поверхность Красной планеты должна '
             'состояться 19 ма

Посмотрим и на другие коллекции.

In [109]:
for t in dictionary.find()[:2]:
    pprint(t)

{'POS': 'NOUN',
 '_id': ObjectId('616fcef4e3381e0ff188001e'),
 'docs': [ObjectId('616fcef4e3381e0ff188001c')],
 'freq': 1,
 'iniForm': 'марсоход',
 'token': 'Марсоход'}
{'POS': 'NOUN',
 '_id': ObjectId('616fcef4e3381e0ff1880021'),
 'docs': [ObjectId('616fcef4e3381e0ff188001c'),
          ObjectId('61ba0f43e48154e25857f07d')],
 'freq': 3,
 'iniForm': 'розалинда',
 'token': 'Розалинд'}


In [110]:
for t in lemmas.find()[:2]:
    pprint(t)

{'POS': 'NOUN',
 '_id': ObjectId('616fcef4e3381e0ff188001d'),
 'docs': [ObjectId('616fcef4e3381e0ff188001c'),
          ObjectId('61ba0f43e48154e25857f07d')],
 'freq': 6,
 'iniForm': 'марсоход'}
{'POS': 'NOUN',
 '_id': ObjectId('616fcef4e3381e0ff1880020'),
 'docs': [ObjectId('616fcef4e3381e0ff188001c'),
          ObjectId('61ba0f43e48154e25857f07d')],
 'freq': 3,
 'iniForm': 'розалинда'}


In [112]:
for t in dbsents.find()[:2]:
    pprint(t)

{'_id': ObjectId('616fcef4e3381e0ff188001f'),
 'position': 1,
 'sent_id': 1,
 'textId': ObjectId('616fcef4e3381e0ff188001c'),
 'wordFormId': ObjectId('616fcef4e3381e0ff188001e')}
{'_id': ObjectId('616fcef4e3381e0ff1880022'),
 'position': 2,
 'sent_id': 1,
 'textId': ObjectId('616fcef4e3381e0ff188001c'),
 'wordFormId': ObjectId('616fcef4e3381e0ff1880021')}


Чтобы поиск производился быстрее можно создать индексы.

In [57]:
# Добавляем индекс в коллекцию lemmas по полям iniForm и POS, оба по возрастанию.
# Заодно запрещаем добавлять повторяющиеся сочетания.
lemmas.create_index([('iniForm', pymongo.ASCENDING), ('POS', pymongo.ASCENDING)], unique=True)
dictionary.create_index([('token', pymongo.ASCENDING), ('iniForm', pymongo.ASCENDING), ('POS', pymongo.ASCENDING)], unique=True)

'token_1_iniForm_1_POS_1'

Или удалить их, если они больше не нужны.

In [7]:
# Для пробы чуть позже удалим индекс и посмотрим на изменение скорости работы.
lemmas.drop_index('iniForm_1_POS_1')

В качестве параметров функции передается документ (в случае Python - словарь) с полями и их значениями. 

Если значение должно отвечать не равенству, а другому условию, передается составное значение в виде словаря, ключем у которого будет обозначение оператора, а значением - значение с которым будет проводиться сравнение. Таких пар можно передать несколько.

In [12]:
# (freq _какое_ 2) _и_ (token _какое_ 'может')
#for l in dictionary.find({"freq": 2, 'token': 'может'}):
for l in dictionary.find({'token': 'ученые', 'freq': 15}):
    print(l)


{'_id': ObjectId('616fcef5e3381e0ff18802ae'), 'token': 'ученые', 'iniForm': 'учёный', 'POS': 'NOUN', 'freq': 15, 'docs': [ObjectId('616fcef5e3381e0ff188026b'), ObjectId('616fcef6e3381e0ff18807da'), ObjectId('616fcef8e3381e0ff1880c75'), ObjectId('616fcefae3381e0ff1880ee4'), ObjectId('616fcefce3381e0ff18813a0'), ObjectId('616fcefee3381e0ff1881767')]}


In [13]:
# freq _какое_ меньше _чего_ 5
for l in lemmas.find({"freq":{"$lt": 5}})[:5]:
    print(l)

print("----")
# freq _какое_ меньше _чего_ 5
for l in dictionary.find({"freq":{"$lt": 5}})[:5]:
    print(l)
    
print("----")
# freq _какое_ ((больше _чего_ 5) _и_ (меньше _чего_ 9))
for l in dictionary.find({"freq":{"$gt": 5, "$lt": 9}})[:5]:
    print(l)


{'_id': ObjectId('616fcef4e3381e0ff1880020'), 'iniForm': 'розалинда', 'POS': 'NOUN', 'freq': 2, 'docs': [ObjectId('616fcef4e3381e0ff188001c')]}
{'_id': ObjectId('616fcef4e3381e0ff1880023'), 'iniForm': 'франклин', 'POS': 'NOUN', 'freq': 2, 'docs': [ObjectId('616fcef4e3381e0ff188001c')]}
{'_id': ObjectId('616fcef4e3381e0ff188002c'), 'iniForm': 'отправиться', 'POS': 'INFN', 'freq': 1, 'docs': [ObjectId('616fcef4e3381e0ff188001c')]}
{'_id': ObjectId('616fcef4e3381e0ff1880032'), 'iniForm': 'красный', 'POS': 'ADJF', 'freq': 3, 'docs': [ObjectId('616fcef4e3381e0ff188001c')]}
{'_id': ObjectId('616fcef4e3381e0ff1880035'), 'iniForm': 'планета', 'POS': 'NOUN', 'freq': 4, 'docs': [ObjectId('616fcef4e3381e0ff188001c')]}
----
{'_id': ObjectId('616fcef4e3381e0ff188001e'), 'token': 'Марсоход', 'iniForm': 'марсоход', 'POS': 'NOUN', 'freq': 1, 'docs': [ObjectId('616fcef4e3381e0ff188001c')]}
{'_id': ObjectId('616fcef4e3381e0ff1880021'), 'token': 'Розалинд', 'iniForm': 'розалинда', 'POS': 'NOUN', 'freq': 

In [14]:
text_collection.find({"_id":ObjectId('616fcefce3381e0ff188130d')})[0]

{'_id': ObjectId('616fcefce3381e0ff188130d'),
 'text_url': 'https://nplus1.ru/news/2018/03/20/abel-prize-2018',
 'text_name': 'Абелевская премия присуждена за открытие связи между теорией чисел и теорией представлений',
 'art_text': 'Норвежская академия наук объявила лауреата Абелевской премии 2018 года. Им стал канадский математик\xa0Роберт Ленглендс. Премия присуждена «за дальновидную программу, соединяющую теорию представлений и теорию чисел».\xa0Абелевскую премию часто называют «Нобелевской премией по математике». В отличие от, например, Филдсовской медали она вручается каждый год. Размер премии — 6 миллионов крон (около 45 миллионов рублей). Церемония награждения пройдет 22 мая 2018 года в Университете Аула, Осло. Вручать награду будет лично король Норвегии Харальд V.\n    \n        \n                        \n                \n                    \n                        \n                    ',
 'art_info': {'art_date': '20 Март 2018',
  'art_time': '14:15',
  'difficulty': '6.

In [15]:
# Можно записать и так.
# (freq _какое_ (больше _чего_ 5)() _и_ (freq _какое_ (меньше _чего_ 9))
for l in dictionary.find({"freq":{"$gt": 5}, "freq": {"$lt": 9}}):
    print(l)

{'_id': ObjectId('616fcef4e3381e0ff188001e'), 'token': 'Марсоход', 'iniForm': 'марсоход', 'POS': 'NOUN', 'freq': 1, 'docs': [ObjectId('616fcef4e3381e0ff188001c')]}
{'_id': ObjectId('616fcef4e3381e0ff1880021'), 'token': 'Розалинд', 'iniForm': 'розалинда', 'POS': 'NOUN', 'freq': 2, 'docs': [ObjectId('616fcef4e3381e0ff188001c')]}
{'_id': ObjectId('616fcef4e3381e0ff1880024'), 'token': 'Франклин', 'iniForm': 'франклин', 'POS': 'NOUN', 'freq': 2, 'docs': [ObjectId('616fcef4e3381e0ff188001c')]}
{'_id': ObjectId('616fcef4e3381e0ff1880027'), 'token': 'который', 'iniForm': 'который', 'POS': 'ADJF', 'freq': 6, 'docs': [ObjectId('616fcef4e3381e0ff188001c'), ObjectId('616fcefae3381e0ff1880ee4'), ObjectId('616fcefce3381e0ff18813a0'), ObjectId('616fceffe3381e0ff18819c7')]}
{'_id': ObjectId('616fcef4e3381e0ff188002a'), 'token': 'должен', 'iniForm': 'должный', 'POS': 'ADJS', 'freq': 3, 'docs': [ObjectId('616fcef4e3381e0ff188001c'), ObjectId('616fcef8e3381e0ff1880c75')]}
{'_id': ObjectId('616fcef4e3381e

In [16]:
res1 = lemmas.find({"freq":{"$gt": 5}})
res1[0]['iniForm'], type(res1[0])

('который', dict)

Попробуем найти все документы со сложностью равной 2.3 (статья про ЭкзоМарс).

In [17]:
for l in text_collection.find({'art_info': {'difficulty': '2.3'}}):
    print(l)

In [18]:
text_collection.find({'art_info': {'art_date': '20 Март 2018',
  'art_time': '14:15',
  'difficulty': '6.8',
  'author': 'Владимир Королев'}})[0]

{'_id': ObjectId('616fcefce3381e0ff188130d'),
 'text_url': 'https://nplus1.ru/news/2018/03/20/abel-prize-2018',
 'text_name': 'Абелевская премия присуждена за открытие связи между теорией чисел и теорией представлений',
 'art_text': 'Норвежская академия наук объявила лауреата Абелевской премии 2018 года. Им стал канадский математик\xa0Роберт Ленглендс. Премия присуждена «за дальновидную программу, соединяющую теорию представлений и теорию чисел».\xa0Абелевскую премию часто называют «Нобелевской премией по математике». В отличие от, например, Филдсовской медали она вручается каждый год. Размер премии — 6 миллионов крон (около 45 миллионов рублей). Церемония награждения пройдет 22 мая 2018 года в Университете Аула, Осло. Вручать награду будет лично король Норвегии Харальд V.\n    \n        \n                        \n                \n                    \n                        \n                    ',
 'art_info': {'art_date': '20 Март 2018',
  'art_time': '14:15',
  'difficulty': '6.

Ничего не найдено, так как такая запись предполагает полное совпадение, то есть поиск поддокумента с единственным полем и этим значением. Если полей будет несколько, роль будет играть даже порядок следования полей в базе!

То, что мы хотели сделать,нужно сделать вот так.

In [19]:
for l in text_collection.find({'art_info.difficulty': '2.3'}):
    print(l)

{'_id': ObjectId('616fcef4e3381e0ff188001c'), 'text_url': 'https://nplus1.ru/news/2020/01/20/Exomars-2020-rover-yes', 'text_name': 'Марсоход миссии «ЭкзоМарс-2020» прошел термовакуумные испытания', 'art_text': 'Марсоход «Розалинд Франклин», который должен отправиться к Красной планете этим летом, успешно прошел заключительные термовакуумные испытания, имитировавшие\xa0условия марсианской среды, в которых предстоит работать роверу,\xa0сообщается на сайте ESA.Старт второго этапа российско-европейской программы «ЭкзоМарс» намечен на период с 26 июля по 11 августа 2020 года. Ракета-носитель «Протон» выведет в космос перелетный модуль, который доставит к Марсу десантный модуль, содержащий в себе автономную научную станцию «Казачок»\xa0и марсоход «Розалинд Франклин». Посадка на поверхность Красной планеты должна состояться 19 марта 2021 года, в качестве места работы аппаратов выбрана\xa0равнина Оксия в северном полушарии Марса, где есть сухие русла. Задачей марсохода будет\xa0поиск соединени

Можно выбирать не все поля, а только те, которые нам необходимы.

In [20]:
for t in text_collection.find(projection=['art_info.difficulty','text_name']):
    print(t)

{'_id': ObjectId('616fcef4e3381e0ff188001c'), 'text_name': 'Марсоход миссии «ЭкзоМарс-2020» прошел термовакуумные испытания', 'art_info': {'difficulty': '2.3'}}
{'_id': ObjectId('616fcef5e3381e0ff188026b'), 'text_name': 'Физики заперли свет в нанорезонаторе на рекордно долгое время', 'art_info': {'difficulty': '4.2'}}
{'_id': ObjectId('616fcef6e3381e0ff1880558'), 'text_name': 'Пилотируемый полет Crew Dragon к МКС состоится в первой половине 2020 года', 'art_info': {'difficulty': '1.7'}}
{'_id': ObjectId('616fcef6e3381e0ff18807da'), 'text_name': 'Сон помог вознаграждению улучшить зрительное обучение', 'art_info': {'difficulty': '3.9'}}
{'_id': ObjectId('616fcef8e3381e0ff1880c75'), 'text_name': 'Машинное обучение помогло распознать человека по танцу', 'art_info': {'difficulty': '1.9'}}
{'_id': ObjectId('616fcef9e3381e0ff1880e4b'), 'text_name': 'Астрономы провели разведку для «Юноны»', 'art_info': {'difficulty': '2.7'}}
{'_id': ObjectId('616fcefae3381e0ff1880ee4'), 'text_name': 'Астрономы

Для поиска в массивах одного значения можно просто проводить поиск, БД сама будет искать объекты в массиве.

Если мы ищем несколько значений в массиве, необходимо использовать соответствующие предикаты: `$in` для поиска вхождения одного из элементов, `$all` - поиска всех элементов, и т.д.

Обратите внимание, для поиска мы используем не строку, а объект `ObjectId`, импортированный из библиотеки `bson`.

Помимо этого, во втором цикле в поле projection мы передаем не только какие поля надо выводить, но и какие поля выводить не надо. Так, поле \_id, хранящее идентификатор документа, по умолчанию должно выводиться. В примере ниже оно подавляется при помощи `"_id":False`.

In [21]:
for l in dictionary.find({'token': 'ученые'}):
    print(l)
    print(l['docs'][0])
    for d in dictionary.find({"docs": {"$in":[l['docs'][0]]}})[:5]:
        print(d)
    

{'_id': ObjectId('616fcef5e3381e0ff18802ae'), 'token': 'ученые', 'iniForm': 'учёный', 'POS': 'NOUN', 'freq': 15, 'docs': [ObjectId('616fcef5e3381e0ff188026b'), ObjectId('616fcef6e3381e0ff18807da'), ObjectId('616fcef8e3381e0ff1880c75'), ObjectId('616fcefae3381e0ff1880ee4'), ObjectId('616fcefce3381e0ff18813a0'), ObjectId('616fcefee3381e0ff1881767')]}
616fcef5e3381e0ff188026b
{'_id': ObjectId('616fcef4e3381e0ff1880030'), 'token': 'к', 'iniForm': 'к', 'POS': 'PREP', 'freq': 23, 'docs': [ObjectId('616fcef4e3381e0ff188001c'), ObjectId('616fcef5e3381e0ff188026b'), ObjectId('616fcef6e3381e0ff1880558'), ObjectId('616fcef6e3381e0ff18807da'), ObjectId('616fcef9e3381e0ff1880e4b'), ObjectId('616fcefce3381e0ff18813a0'), ObjectId('616fcefee3381e0ff1881767'), ObjectId('616fceffe3381e0ff18819c7')]}
{'_id': ObjectId('616fcef4e3381e0ff1880057'), 'token': 'среды', 'iniForm': 'среда', 'POS': 'NOUN', 'freq': 3, 'docs': [ObjectId('616fcef4e3381e0ff188001c'), ObjectId('616fcef5e3381e0ff188026b')]}
{'_id': Obj

In [22]:
for d in dictionary.find({"docs": ObjectId('616fcef5e3381e0ff188026b')})[:5]:
    print(d)
    
print("-----")
for d in dictionary.find({"docs": {"$in": [ObjectId('616fcef5e3381e0ff188026b')]}})[:5]:
    print(d)
    
print("-----")
for d in dictionary.find({"docs": {"$all": [ObjectId('616fcef5e3381e0ff188026b'), ObjectId('616fcef9e3381e0ff1880e4b')]}},
                         projection={"_id":False, "token":True, "docs":True}):
    print(d)    

{'_id': ObjectId('616fcef4e3381e0ff1880030'), 'token': 'к', 'iniForm': 'к', 'POS': 'PREP', 'freq': 23, 'docs': [ObjectId('616fcef4e3381e0ff188001c'), ObjectId('616fcef5e3381e0ff188026b'), ObjectId('616fcef6e3381e0ff1880558'), ObjectId('616fcef6e3381e0ff18807da'), ObjectId('616fcef9e3381e0ff1880e4b'), ObjectId('616fcefce3381e0ff18813a0'), ObjectId('616fcefee3381e0ff1881767'), ObjectId('616fceffe3381e0ff18819c7')]}
{'_id': ObjectId('616fcef4e3381e0ff1880057'), 'token': 'среды', 'iniForm': 'среда', 'POS': 'NOUN', 'freq': 3, 'docs': [ObjectId('616fcef4e3381e0ff188001c'), ObjectId('616fcef5e3381e0ff188026b')]}
{'_id': ObjectId('616fcef4e3381e0ff188005a'), 'token': 'в', 'iniForm': 'в', 'POS': 'PREP', 'freq': 152, 'docs': [ObjectId('616fcef4e3381e0ff188001c'), ObjectId('616fcef5e3381e0ff188026b'), ObjectId('616fcef6e3381e0ff1880558'), ObjectId('616fcef6e3381e0ff18807da'), ObjectId('616fcef8e3381e0ff1880c75'), ObjectId('616fcef9e3381e0ff1880e4b'), ObjectId('616fcefae3381e0ff1880ee4'), ObjectId

In [23]:
# А это мы просто смотрим сколько текстов добавили в базу.
# В качестве параметра передается условие, считаются только удовлетворяющие ему документы.
# В данном случае нам нужны все.
print(text_collection.count_documents({}))

# Ищем количество слов с частотой встречаемости от 6 до 9.
print(lemmas.count_documents({"freq":{"$gt": 5, "$lt": 10}}))

# Здесь ищем слова с частотой встречаемости от 6 до 9, 
# просим не выводить идентификатор и отсортировать всё по частоте.
for l in lemmas.find({"freq":{"$gt": 5, "$lt": 10}}, {"_id":False}).sort("iniForm")[:5]:
    print(l)
print("----")
# Здесь ищем слова с частотой встречаемости от 6 до 9, 
# просим вывести токен и частоту, но не выводить идентификатор и отсортировать всё по частоте.
for l in dictionary.find({"freq":{"$gt": 5}}, {"token": True, "freq":True, "_id":False}, 
                         skip=25, limit=5).sort("freq"):
    print(l)


13
62
{'iniForm': 'автор', 'POS': 'NOUN', 'freq': 9, 'docs': [ObjectId('616fcefae3381e0ff1880ee4'), ObjectId('616fcefce3381e0ff18813a0'), ObjectId('616fceffe3381e0ff18819c7')]}
{'iniForm': 'более', 'POS': 'ADVB', 'freq': 8, 'docs': [ObjectId('616fcef5e3381e0ff188026b'), ObjectId('616fcef8e3381e0ff1880c75'), ObjectId('616fcefbe3381e0ff18810a6'), ObjectId('616fcefce3381e0ff18813a0'), ObjectId('616fceffe3381e0ff18819c7')]}
{'iniForm': 'больший', 'POS': 'ADJF', 'freq': 7, 'docs': [ObjectId('616fcefae3381e0ff1880ee4'), ObjectId('616fcefbe3381e0ff188112d'), ObjectId('616fcefce3381e0ff18813a0'), ObjectId('616fcefee3381e0ff1881767'), ObjectId('616fceffe3381e0ff18819c7')]}
{'iniForm': 'волна', 'POS': 'NOUN', 'freq': 8, 'docs': [ObjectId('616fcef5e3381e0ff188026b')]}
{'iniForm': 'второй', 'POS': 'ADJF', 'freq': 8, 'docs': [ObjectId('616fcef4e3381e0ff188001c'), ObjectId('616fcef6e3381e0ff1880558'), ObjectId('616fcef6e3381e0ff18807da'), ObjectId('616fcefbe3381e0ff188112d'), ObjectId('616fceffe3381

Теперь напишем функцию для того, чтобы класть статью в БД. используем для этого функции:
- insert_one (insert, insert_many) - добавляет запись (несколько записей) в выбранную коллекцию.
- find_one_and_update - найти и обновить (аналог update).

В качестве параметра во все функции добавления передается документ (словарь), ключи которого содержат названия полей, а значения - значения этих полей. Значение поля само может являться документом. При поиске часть полей может принимать особые значения, например, `$ne` - не равно, `$size` - смотрим на размер массива, `$inc` - увеличить значение поля на заданную величину и т.д. Более подробно с соответствующими ключами можно ознакомиться <a href="https://metanit.com/nosql/mongodb/" >здесь</a>.

In [24]:
for d in dictionary.find({"docs": {"$size": 1}})[:5]:
    print(d)


{'_id': ObjectId('616fcef4e3381e0ff188001e'), 'token': 'Марсоход', 'iniForm': 'марсоход', 'POS': 'NOUN', 'freq': 1, 'docs': [ObjectId('616fcef4e3381e0ff188001c')]}
{'_id': ObjectId('616fcef4e3381e0ff1880021'), 'token': 'Розалинд', 'iniForm': 'розалинда', 'POS': 'NOUN', 'freq': 2, 'docs': [ObjectId('616fcef4e3381e0ff188001c')]}
{'_id': ObjectId('616fcef4e3381e0ff1880024'), 'token': 'Франклин', 'iniForm': 'франклин', 'POS': 'NOUN', 'freq': 2, 'docs': [ObjectId('616fcef4e3381e0ff188001c')]}
{'_id': ObjectId('616fcef4e3381e0ff188002d'), 'token': 'отправиться', 'iniForm': 'отправиться', 'POS': 'INFN', 'freq': 1, 'docs': [ObjectId('616fcef4e3381e0ff188001c')]}
{'_id': ObjectId('616fcef4e3381e0ff1880033'), 'token': 'Красной', 'iniForm': 'красный', 'POS': 'ADJF', 'freq': 3, 'docs': [ObjectId('616fcef4e3381e0ff188001c')]}


In [28]:
# Создаем морфоанализатор.
morph = pymorphy2.MorphAnalyzer()

In [54]:
class NPlus1Article:
    def __init__(self):
        self.time = ""
        self.date = ""
        self.rubr = ""
        self.diff = ""
        self.author = ""
        self.head = ""
        self.text = ""
        
    def __repr__(self) -> str:
        return f"{self.head}, {self.author}, {self.date}, {self.rubr}, {self.text}"

def getArticleTextNPlus1(adr):
    page = requests.get(adr)
    #print(r.text)
    art=NPlus1Article()
    tree = html.fromstring(page.text)
    art.head = tree.xpath(".//h1")[0].text_content()
    dt = tree.xpath(".//time//span")
    art.date = dt[1].text_content()
    art.time = dt[0].text_content()
    art.rubr = tree.xpath(".//a[@data-rubric]")[0].text_content()
    art.diff = tree.xpath(".//span[@class='difficult-value']")[0].text_content()
    art.author = tree.xpath(".//meta[@name='mediator_author']")[0].get("content")
    art.text = '\n'.join([p.text_content() for p in tree.xpath(".//article//p")[3:-2]])
    
    
#     tables=re.split("</div>", re.split('="tables"', r.text)[1])[0]
#     t1=re.split("</time>", re.split("<time", tables)[1])[0]
#     art.time=re.split("</span>", re.split("<span>", t1)[1])[0]
#     art.date=re.split("</span>", re.split("<span>", t1)[2])[0]
#     art.rubr=re.split(">", re.split("</a>", re.split("<a href", tables)[1])[0])[1]
#     art.diff=re.split("</span>", re.split('"difficult-value">', tables)[1])[0]
#     art.head=re.split("</h1>", re.split('<h1>', r.text)[1])[0]
#     art.author=re.split('" />', re.split('<meta name="author" content="', r.text)[1])[0]
#     art.text=re.split("</div>", re.split("</figure>", re.split('</article>',re.split('<article', r.text)[1])[0])[1])[1]    

#     beaux_text=BeautifulSoup(art.text, "html5lib")
#     art.text=delcom.sub("", beaux_text.get_text() )

    # print(art.n_time, art.n_date, art.n_rubr, art.n_diff)
    # print(art.n_head)
    # print(art.n_author)
    # print(art.n_text)
    #return [n_time, n_date, n_rubr, n_diff, n_author, n_head, n_text]
    return art

def putNPlus1ArticleInMongo(art_url):
    # Загружаем текст статьи и другие ее части.
    art = getArticleTextNPlus1(art_url) 

    # Добавляем запись с информацией о статье.
    # inserted_id позволяет сразу получить идентификатор записи, чтобы потом ссылаться на него там, где это необходимо.
    a_text = {"text_url": art_url, "text_name": art.head, "art_text": art.text, 
              "art_info": {"art_date": art.date, "art_time": art.time, 
                           "difficulty": art.diff, "author": art.author}}
    text_id = text_collection.insert_one(a_text).inserted_id
    print(text_id)

    # Выделяем предложения (просто по точке с пробелом или в конце строки!!!).
    sents = re.split("\.\s|\.$", art.text)
    sent_num = 1
    # Загружаем предложения в базу.
    for s in tqdm(sents):
        # Выделяем слова (просто как группы русских букв!!!).
        words = re.findall("([А-Яа-я]+(\-[А-Яа-я]+)?)", s)
        posit = 1
        # Загрузка слов из предложений.
        for w in words:
            wf = morph.parse(w[0])
            # Провели морфологический анализ и теперь добавляем документ с двумя полями: нач. форма и часть речи.
            # Сперва проверяем есть ли там уже такая запись.
            # Смотрим сколько таких слов нашлось. Если ни одного - надо добавлять.
            if lemmas.count_documents({"iniForm": wf[0].normal_form, "POS": wf[0].tag.POS}) == 0:
                lemma_id = lemmas.insert_one({"iniForm": wf[0].normal_form, "POS": wf[0].tag.POS, 
                                              "freq": 1, "docs":[text_id]}).inserted_id
            # А если такое слово уже было, то обновляем частоту встречаемости и в каком документе оно встретиось.
            else:
                inis = lemmas.find({"iniForm": wf[0].normal_form, "POS": wf[0].tag.POS})
                lemma_id = inis[0]["_id"]
#                 lemmas.find_one_and_update({"_id": lemma_id}, {"$inc": {"freq":1}})
#                 lemmas.find_one_and_update({"_id": lemma_id}, {"$addToSet": {"docs": text_id}}) 
                lemmas.find_one_and_update({"_id": lemma_id}, 
                                           {"$inc": {"freq": 1}, 
                                            "$addToSet": {"docs": text_id}})
                # Вот таким образом можно добавлять номер документа столько раз, сколько в нем встретилось слово.
                #lemmas.find_one_and_update({"_id": lemma_id}, {"$push": {"docs": text_id}}) 

            # Повторяем операцию для токенов.
            if dictionary.count_documents({"token":w[0], "iniForm": wf[0].normal_form, "POS": wf[0].tag.POS}) == 0:
                wf_id = dictionary.insert_one({"token":w[0], 
                                               "iniForm": wf[0].normal_form, 
                                               "POS": wf[0].tag.POS, 
                                               "freq": 1, 
                                               "docs": [text_id]}).inserted_id
            else:
                wrdf = dictionary.find({"token": w[0], "iniForm": wf[0].normal_form, "POS": wf[0].tag.POS})
                wf_id=wrdf[0]["_id"]
                dictionary.find_one_and_update({"_id": wf_id}, {"$inc":  {"freq": 1}}) 
                dictionary.find_one_and_update({"_id": wf_id}, {"$addToSet": {"docs": text_id}}) 
  
            # Добавляем номер предложения, идентификатор словоформы из словаря, позицию слова, из какого оно текста.
            dbsents.insert_one({"sent_id": sent_num, "wordFormId":wf_id, "position": posit, "textId": text_id})
            posit += 1  
        sent_num += 1

In [56]:
# Добавляем статью  в базу.
# putNPlus1ArticleInMongo("https://nplus1.ru/news/2020/01/20/Exomars-2020-rover-yes")
# putNPlus1ArticleInMongo("https://nplus1.ru/news/2020/01/20/subwavelength-resonators")
# putNPlus1ArticleInMongo("https://nplus1.ru/news/2020/01/20/crew-dragon-first-crewed-flight")
# putNPlus1ArticleInMongo("https://nplus1.ru/news/2020/01/18/visual-perception")
# putNPlus1ArticleInMongo("https://nplus1.ru/news/2020/01/18/dancing-recognition")
# putNPlus1ArticleInMongo("https://nplus1.ru/news/2016/06/27/juno-pictures")
# putNPlus1ArticleInMongo("https://nplus1.ru/news/2016/04/12/alignment-of-jets")
# putNPlus1ArticleInMongo("https://nplus1.ru/news/2016/06/29/Ultra-Deep-Survey")
# putNPlus1ArticleInMongo("https://nplus1.ru/news/2018/03/20/balance")
# putNPlus1ArticleInMongo("https://nplus1.ru/news/2018/03/20/abel-prize-2018")
# putNPlus1ArticleInMongo("https://nplus1.ru/news/2020/10/12/srb-electrode")
# putNPlus1ArticleInMongo("https://nplus1.ru/news/2021/02/19/friction-on-ice")
# putNPlus1ArticleInMongo("https://nplus1.ru/news/2021/04/07/illex-coindetii")
putNPlus1ArticleInMongo("https://nplus1.ru/news/2021/12/15/parachute-exomars-2022")

61ba0f43e48154e25857f07d


100%|███████████████████████████████████████████| 18/18 [00:00<00:00, 23.59it/s]


In [48]:
# Вот так можно удалить всё в базе. Если написать условие, то не всё. 
# Экспериментировать не будем, да?
text_collection.delete_many({})
dictionary.delete_many({})
lemmas.delete_many({})
dbsents.delete_many({})
#for l in dbsents.find():
# print(l)


<pymongo.results.DeleteResult at 0x7f3d7eb26f80>

In [48]:
# Так можно посмотреть все записи, у которых в токене записан список ровно из пяти элементов.
#for l in dictionary.find({"docs":{"$size":5}})[:5]:
for l in dictionary.find({"docs":{"$size":4}})[:5]:
    print(l)
print("=====")
# Так можно посмотреть все записи, у которых есть поле docs.
for l in lemmas.find({"docs":{"$exists":True}})[:5]:
    print(l)

{'_id': ObjectId('616fcef4e3381e0ff1880027'), 'token': 'который', 'iniForm': 'который', 'POS': 'ADJF', 'freq': 6, 'docs': [ObjectId('616fcef4e3381e0ff188001c'), ObjectId('616fcefae3381e0ff1880ee4'), ObjectId('616fcefce3381e0ff18813a0'), ObjectId('616fceffe3381e0ff18819c7')]}
{'_id': ObjectId('616fcef4e3381e0ff18800e6'), 'token': 'качестве', 'iniForm': 'качество', 'POS': 'NOUN', 'freq': 6, 'docs': [ObjectId('616fcef4e3381e0ff188001c'), ObjectId('616fcef6e3381e0ff18807da'), ObjectId('616fcefae3381e0ff1880ee4'), ObjectId('616fcefce3381e0ff18813a0')]}
{'_id': ObjectId('616fcef4e3381e0ff1880178'), 'token': 'чего', 'iniForm': 'что', 'POS': 'NPRO', 'freq': 5, 'docs': [ObjectId('616fcef4e3381e0ff188001c'), ObjectId('616fcef5e3381e0ff188026b'), ObjectId('616fcef6e3381e0ff18807da'), ObjectId('616fcef8e3381e0ff1880c75')]}
{'_id': ObjectId('616fcef4e3381e0ff18801b6'), 'token': 'составляет', 'iniForm': 'составлять', 'POS': 'VERB', 'freq': 4, 'docs': [ObjectId('616fcef4e3381e0ff188001c'), ObjectId('

При помощи ключевого слова `$regex' можно искать в базе строки, отвечающие регулярным выражениям.

In [49]:
# iniForm _какое_ описывается_регуляркой _какой_ ^и.+
for d in lemmas.find({'iniForm':{'$regex':'^и.+'}})[:5]:
    print(d)
print("====")    
for d in dictionary.find({'token':{'$regex':'^[А-Я].+'}})[:5]:
    print(d)

{'_id': ObjectId('616fcef8e3381e0ff1880c72'), 'iniForm': 'ивтушок', 'POS': 'NOUN', 'freq': 1, 'docs': [ObjectId('616fcef6e3381e0ff18807da')]}
{'_id': ObjectId('616fcef7e3381e0ff1880834'), 'iniForm': 'играть', 'POS': 'VERB', 'freq': 2, 'docs': [ObjectId('616fcef6e3381e0ff18807da')]}
{'_id': ObjectId('616fcef6e3381e0ff188076b'), 'iniForm': 'идея', 'POS': 'NOUN', 'freq': 2, 'docs': [ObjectId('616fcef6e3381e0ff1880558'), ObjectId('616fceffe3381e0ff18819c7')]}
{'_id': ObjectId('616fcef5e3381e0ff18803bd'), 'iniForm': 'из', 'POS': 'PREP', 'freq': 28, 'docs': [ObjectId('616fcef5e3381e0ff188026b'), ObjectId('616fcef6e3381e0ff1880558'), ObjectId('616fcef6e3381e0ff18807da'), ObjectId('616fcef8e3381e0ff1880c75'), ObjectId('616fcef9e3381e0ff1880e4b'), ObjectId('616fcefae3381e0ff1880ee4'), ObjectId('616fcefbe3381e0ff188112d'), ObjectId('616fcefce3381e0ff18813a0'), ObjectId('616fcefee3381e0ff1881767'), ObjectId('616fceffe3381e0ff18819c7')]}
{'_id': ObjectId('616fcefbe3381e0ff18811b7'), 'iniForm': 'из

Ключевое слово `$or` и другие операторы позволяют применять логические свзки помимо логического И.

In [53]:
# _или_по_списку_условий_ [token _какой_ описывается_регуляркой _какой_ ^И.+, 
#                          token _какой_ описывается_регуляркой _какой_ .+ъ.+]
for d in dictionary.find({'$and':[{'token':{'$regex':'^о.+'}}, {'token':{'$regex':'.+ъ.+'}}, {'freq':2}]})[:5]:
    print(d)

{'_id': ObjectId('616fcef9e3381e0ff1880db3'), 'token': 'объекты', 'iniForm': 'объект', 'POS': 'NOUN', 'freq': 2, 'docs': [ObjectId('616fcef8e3381e0ff1880c75'), ObjectId('616fceffe3381e0ff18819c7')]}
{'_id': ObjectId('616fcefee3381e0ff18817a7'), 'token': 'объяснить', 'iniForm': 'объяснить', 'POS': 'INFN', 'freq': 2, 'docs': [ObjectId('616fcefee3381e0ff1881767')]}


Обратите внимание, что при обновлении заменяетя весь документ целиком. Чтобы избежать этого следует использовать ключевое слово `$set`, которое показывает, что обновляется значение только одного поля.

In [67]:
# Просто посмотрим на документы
for d in dictionary.find({'token':{'$regex':'^И.+'}}):
    print(d)

{'_id': ObjectId('616fcef5e3381e0ff1880431'), 'token': 'ИТМО', 'iniForm': 'итмый', 'POS': 'ADJS', 'freq': 1, 'docs': [ObjectId('616fcef5e3381e0ff188026b')]}
{'_id': ObjectId('616fcef8e3381e0ff1880c73'), 'token': 'Ивтушок', 'iniForm': 'ивтушок', 'POS': 'NOUN', 'freq': 1, 'docs': [ObjectId('616fcef6e3381e0ff18807da')]}
{'_id': ObjectId('616fcef5e3381e0ff188046e'), 'token': 'Из', 'iniForm': 'из', 'POS': 'PREP', 'freq': 1, 'docs': [ObjectId('616fcef5e3381e0ff188026b')]}
{'_id': ObjectId('616fcefde3381e0ff188149c'), 'token': 'Известно', 'iniForm': 'известно', 'POS': 'PRED', 'freq': 1, 'docs': [ObjectId('616fcefce3381e0ff18813a0')]}
{'_id': ObjectId('616fcef6e3381e0ff1880720'), 'token': 'Изначально', 'iniForm': 'изначально', 'POS': 'ADVB', 'freq': 1, 'docs': [ObjectId('616fcef6e3381e0ff1880558')]}
{'_id': ObjectId('616fcf00e3381e0ff1881bef'), 'token': 'Изучив', 'iniForm': 'изучить', 'POS': 'GRND', 'freq': 1, 'docs': [ObjectId('616fceffe3381e0ff18819c7')]}
{'_id': ObjectId('616fcef6e3381e0ff1

In [54]:
# А теперь найдем первое попавшееся слово, начинающееся с заглавное И и добавим ему новое поле found
dictionary.find_one_and_update({'token':{'$regex':'^И.+'}, 'found':'false'}, {'$set': {'found':'true'}})

In [55]:
for r in dictionary.find({'token': 'Изначально'}):
    print(r)

{'_id': ObjectId('616fcef6e3381e0ff1880720'), 'token': 'Изначально', 'iniForm': 'изначально', 'POS': 'ADVB', 'freq': 1, 'docs': [ObjectId('616fcef6e3381e0ff1880558')]}


Ничего не получилось, так как поле found отсутствует у всех записей. Попробуем теперь найти первую запись, у которой нет такого поля: 'found':{"$exists":False}} .

In [56]:
dictionary.find_one_and_update({'token':{'$regex':'^А.+'}, 'found':{"$exists":False}}, {'$set': {'found':'true'}})

{'_id': ObjectId('616fcefce3381e0ff1881349'),
 'token': 'Абелевскую',
 'iniForm': 'абелёвский',
 'POS': 'ADJF',
 'freq': 1,
 'docs': [ObjectId('616fcefce3381e0ff188130d')]}

In [57]:
# Попробуем найти все документы с полем found.
for d in dictionary.find({'token':{'$regex':'^А.+'}, 'found':{"$exists":True}}):
    print(d)

{'_id': ObjectId('616fcefce3381e0ff188131d'), 'token': 'Абелевской', 'iniForm': 'абелёвский', 'POS': 'ADJF', 'freq': 1, 'docs': [ObjectId('616fcefce3381e0ff188130d')], 'found': 'true'}
{'_id': ObjectId('616fcefce3381e0ff1881349'), 'token': 'Абелевскую', 'iniForm': 'абелёвский', 'POS': 'ADJF', 'freq': 1, 'docs': [ObjectId('616fcefce3381e0ff188130d')], 'found': 'true'}


#### Важное замечание

Вся структура нашей базы данных отдает реляционностью. Никто не мешал нам сделать документ, вложенный в словарь начальных форм и хранить в нем все формы данного слова. Тогда если что, не надо будет делать запросы, в которых надо делать пересечение двух коллекций.

{"iniForm":"абелёвский", 'POS': 'ADJF', "forms":[{'token': 'Абелевской', "tags":"род ед муж"}, {'token': 'Абелевский', "tags":"им ед муж"}]}

## Работа с географическими данными

MongoDB позволяет работать с географическими данными. Основой является [GEO JSON](https://docs.mongodb.com/manual/reference/geojson/), позволяющий обрабатывать разные виды геолокаций.


In [58]:
text_collection.find_one_and_update(
    {'_id': ObjectId('616fcef4e3381e0ff188001c')},
    {"$set":{'coord':{ 'type': "Point", 'coordinates': [ 20, 15 ] }}})


{'_id': ObjectId('616fcef4e3381e0ff188001c'),
 'text_url': 'https://nplus1.ru/news/2020/01/20/Exomars-2020-rover-yes',
 'text_name': 'Марсоход миссии «ЭкзоМарс-2020» прошел термовакуумные испытания',
 'art_text': 'Марсоход «Розалинд Франклин», который должен отправиться к Красной планете этим летом, успешно прошел заключительные термовакуумные испытания, имитировавшие\xa0условия марсианской среды, в которых предстоит работать роверу,\xa0сообщается на сайте ESA.Старт второго этапа российско-европейской программы «ЭкзоМарс» намечен на период с 26 июля по 11 августа 2020 года. Ракета-носитель «Протон» выведет в космос перелетный модуль, который доставит к Марсу десантный модуль, содержащий в себе автономную научную станцию «Казачок»\xa0и марсоход «Розалинд Франклин». Посадка на поверхность Красной планеты должна состояться 19 марта 2021 года, в качестве места работы аппаратов выбрана\xa0равнина Оксия в северном полушарии Марса, где есть сухие русла. Задачей марсохода будет\xa0поиск соедин

In [59]:
for a in text_collection.find():
    print(a)

{'_id': ObjectId('616fcef4e3381e0ff188001c'), 'text_url': 'https://nplus1.ru/news/2020/01/20/Exomars-2020-rover-yes', 'text_name': 'Марсоход миссии «ЭкзоМарс-2020» прошел термовакуумные испытания', 'art_text': 'Марсоход «Розалинд Франклин», который должен отправиться к Красной планете этим летом, успешно прошел заключительные термовакуумные испытания, имитировавшие\xa0условия марсианской среды, в которых предстоит работать роверу,\xa0сообщается на сайте ESA.Старт второго этапа российско-европейской программы «ЭкзоМарс» намечен на период с 26 июля по 11 августа 2020 года. Ракета-носитель «Протон» выведет в космос перелетный модуль, который доставит к Марсу десантный модуль, содержащий в себе автономную научную станцию «Казачок»\xa0и марсоход «Розалинд Франклин». Посадка на поверхность Красной планеты должна состояться 19 марта 2021 года, в качестве места работы аппаратов выбрана\xa0равнина Оксия в северном полушарии Марса, где есть сухие русла. Задачей марсохода будет\xa0поиск соединени

In [77]:
for d in text_collection.find({'coord':{'$geoIntersects':{"$geometry": 
{"type": "Polygon",
 "coordinates": [[[15,10], [15,20],[25,20], [25,10], [15,10]]]
}}}}):
    print(d)

{'_id': ObjectId('616fcef4e3381e0ff188001c'), 'text_url': 'https://nplus1.ru/news/2020/01/20/Exomars-2020-rover-yes', 'text_name': 'Марсоход миссии «ЭкзоМарс-2020» прошел термовакуумные испытания', 'art_text': 'Марсоход «Розалинд Франклин», который должен отправиться к Красной планете этим летом, успешно прошел заключительные термовакуумные испытания, имитировавшие\xa0условия марсианской среды, в которых предстоит работать роверу,\xa0сообщается на сайте ESA.Старт второго этапа российско-европейской программы «ЭкзоМарс» намечен на период с 26 июля по 11 августа 2020 года. Ракета-носитель «Протон» выведет в космос перелетный модуль, который доставит к Марсу десантный модуль, содержащий в себе автономную научную станцию «Казачок»\xa0и марсоход «Розалинд Франклин». Посадка на поверхность Красной планеты должна состояться 19 марта 2021 года, в качестве места работы аппаратов выбрана\xa0равнина Оксия в северном полушарии Марса, где есть сухие русла. Задачей марсохода будет\xa0поиск соединени

#### Важное замечание

!!! Если не построить этот индекс, то искаться не будет!!!

In [78]:
#lemmas.create_index([('iniForm', pymongo.ASCENDING), ('POS', pymongo.ASCENDING)], unique=True)

text_collection.create_index([("coord", pymongo.GEOSPHERE)], unique=False)

'coord_2dsphere'

In [79]:
req=text_collection.find(
{
   "coord": {
     "$near": {
       "$geometry": {
          "type": "Point" ,
          "coordinates": [ 19.999 , 15.001 ]
       },
       "$maxDistance": 1000,
       "$minDistance": 0
     }
   }
}
)
#req
for d in req:    
    print(d)

{'_id': ObjectId('616fcef4e3381e0ff188001c'), 'text_url': 'https://nplus1.ru/news/2020/01/20/Exomars-2020-rover-yes', 'text_name': 'Марсоход миссии «ЭкзоМарс-2020» прошел термовакуумные испытания', 'art_text': 'Марсоход «Розалинд Франклин», который должен отправиться к Красной планете этим летом, успешно прошел заключительные термовакуумные испытания, имитировавшие\xa0условия марсианской среды, в которых предстоит работать роверу,\xa0сообщается на сайте ESA.Старт второго этапа российско-европейской программы «ЭкзоМарс» намечен на период с 26 июля по 11 августа 2020 года. Ракета-носитель «Протон» выведет в космос перелетный модуль, который доставит к Марсу десантный модуль, содержащий в себе автономную научную станцию «Казачок»\xa0и марсоход «Розалинд Франклин». Посадка на поверхность Красной планеты должна состояться 19 марта 2021 года, в качестве места работы аппаратов выбрана\xa0равнина Оксия в северном полушарии Марса, где есть сухие русла. Задачей марсохода будет\xa0поиск соединени

In [80]:
for d in text_collection.find({'coord':{'$geoWithin':{"$box": 
[[15,10], [25,20]]
}}}):
    print(d)

{'_id': ObjectId('616fcef4e3381e0ff188001c'), 'text_url': 'https://nplus1.ru/news/2020/01/20/Exomars-2020-rover-yes', 'text_name': 'Марсоход миссии «ЭкзоМарс-2020» прошел термовакуумные испытания', 'art_text': 'Марсоход «Розалинд Франклин», который должен отправиться к Красной планете этим летом, успешно прошел заключительные термовакуумные испытания, имитировавшие\xa0условия марсианской среды, в которых предстоит работать роверу,\xa0сообщается на сайте ESA.Старт второго этапа российско-европейской программы «ЭкзоМарс» намечен на период с 26 июля по 11 августа 2020 года. Ракета-носитель «Протон» выведет в космос перелетный модуль, который доставит к Марсу десантный модуль, содержащий в себе автономную научную станцию «Казачок»\xa0и марсоход «Розалинд Франклин». Посадка на поверхность Красной планеты должна состояться 19 марта 2021 года, в качестве места работы аппаратов выбрана\xa0равнина Оксия в северном полушарии Марса, где есть сухие русла. Задачей марсохода будет\xa0поиск соединени

In [60]:
#text_collection.create_index([('text_name', pymongo.ASCENDING)], unique=False)
text_collection.create_index([('art_text', pymongo.TEXT)], unique=False)


'art_text_text'

In [65]:
#for d in text_collection.find({'text_name': 'Бактерии помогли получить катализатор для электролиза воды'}):
# for d in text_collection.find({
#   "$text":{"$search": "воды"}}):
        
#for d in text_collection.find({'art_text':{'$regex':'воды'}}):
for d in text_collection.find({ "$text": { "$search": "Американское учеными" } } ):
# for d in text_collection.find({ "$text": { "$search": "Американ" } } ):
    print(d)

In [83]:
for d in text_collection.find():
    print(d)

{'_id': ObjectId('616fcef4e3381e0ff188001c'), 'text_url': 'https://nplus1.ru/news/2020/01/20/Exomars-2020-rover-yes', 'text_name': 'Марсоход миссии «ЭкзоМарс-2020» прошел термовакуумные испытания', 'art_text': 'Марсоход «Розалинд Франклин», который должен отправиться к Красной планете этим летом, успешно прошел заключительные термовакуумные испытания, имитировавшие\xa0условия марсианской среды, в которых предстоит работать роверу,\xa0сообщается на сайте ESA.Старт второго этапа российско-европейской программы «ЭкзоМарс» намечен на период с 26 июля по 11 августа 2020 года. Ракета-носитель «Протон» выведет в космос перелетный модуль, который доставит к Марсу десантный модуль, содержащий в себе автономную научную станцию «Казачок»\xa0и марсоход «Розалинд Франклин». Посадка на поверхность Красной планеты должна состояться 19 марта 2021 года, в качестве места работы аппаратов выбрана\xa0равнина Оксия в северном полушарии Марса, где есть сухие русла. Задачей марсохода будет\xa0поиск соединени