# Covid Database

В предложенной базе собраны записи о заболевании в различных странах мира.
Для каждой страны представленны записи по нескольким дням наблюдения. В некоторых странах существует сразу несколько регионов, в которых производили замеры.

In [1]:
from pymongo import MongoClient
import json

In [2]:
client = MongoClient('localhost', 27017)
# коллекция world внутри базы covid
world = client.covid.world

In [3]:
from pprint import pprint

# функция, чтобы красиво печатать результаты
def p(x):
    pprint(list(x))

#### MongoDB Find

In [4]:
# посмотрим на 10 записей в коллекции

"""
SELECT *
FROM world
LIMIT 10
"""

p(world.find({}).limit(10))

[{'_id': ObjectId('5f09dd02e7b6b3d98579951b'),
  'combined_name': 'Afghanistan',
  'confirmed': 0,
  'country': 'Afghanistan',
  'country_code': 4,
  'country_iso2': 'AF',
  'country_iso3': 'AFG',
  'date': datetime.datetime(2020, 1, 23, 0, 0),
  'deaths': 0,
  'loc': {'coordinates': [67.71, 33.9391], 'type': 'Point'},
  'population': 38928341,
  'recovered': 0,
  'uid': 4},
 {'_id': ObjectId('5f09dd02e7b6b3d98579951c'),
  'combined_name': 'Afghanistan',
  'confirmed': 0,
  'country': 'Afghanistan',
  'country_code': 4,
  'country_iso2': 'AF',
  'country_iso3': 'AFG',
  'date': datetime.datetime(2020, 1, 24, 0, 0),
  'deaths': 0,
  'loc': {'coordinates': [67.71, 33.9391], 'type': 'Point'},
  'population': 38928341,
  'recovered': 0,
  'uid': 4},
 {'_id': ObjectId('5f09dd02e7b6b3d985799521'),
  'combined_name': 'Afghanistan',
  'confirmed': 0,
  'country': 'Afghanistan',
  'country_code': 4,
  'country_iso2': 'AF',
  'country_iso3': 'AFG',
  'date': datetime.datetime(2020, 1, 29, 0, 0),

In [5]:
# чтобы узнать количество записей в запросе можно воспользоваться функцией count:

"""
SELECT count(*)
FROM world
"""

world.find({}).count()

  


45657

In [6]:
# посмотрим на все регионы Франции, где фискировали статистику
# для этого используем функцию distinct

"""
SELECT distinct combined_name
FROM world
WHERE country = 'France'
"""

p(world.find({"country": "France"}).distinct("combined_name"))

['France',
 'French Guiana, France',
 'French Polynesia, France',
 'Guadeloupe, France',
 'Martinique, France',
 'Mayotte, France',
 'New Caledonia, France',
 'Reunion, France',
 'Saint Barthelemy, France',
 'Saint Pierre and Miquelon, France',
 'St Martin, France']


In [7]:
# мы можем указать конкретные поля, которые хотим получить из базы
# например, хотим только название страны, количество умерших и дату

"""
SELECT country, deaths, date
FROM world
WHERE country = 'France'
LIMIT 10
"""

p(world.find({"country": "France"},
             {"country": 1, "deaths": 1, "date": 1}).limit(10))

[{'_id': ObjectId('5f09dd02e7b6b3d98579ddc6'),
  'country': 'France',
  'date': datetime.datetime(2020, 6, 6, 0, 0),
  'deaths': 0},
 {'_id': ObjectId('5f09dd02e7b6b3d98579ddc7'),
  'country': 'France',
  'date': datetime.datetime(2020, 6, 7, 0, 0),
  'deaths': 0},
 {'_id': ObjectId('5f09dd02e7b6b3d98579ddc8'),
  'country': 'France',
  'date': datetime.datetime(2020, 6, 8, 0, 0),
  'deaths': 0},
 {'_id': ObjectId('5f09dd02e7b6b3d98579ddc9'),
  'country': 'France',
  'date': datetime.datetime(2020, 6, 9, 0, 0),
  'deaths': 0},
 {'_id': ObjectId('5f09dd02e7b6b3d98579ddca'),
  'country': 'France',
  'date': datetime.datetime(2020, 6, 10, 0, 0),
  'deaths': 0},
 {'_id': ObjectId('5f09dd02e7b6b3d98579ddcb'),
  'country': 'France',
  'date': datetime.datetime(2020, 6, 11, 0, 0),
  'deaths': 0},
 {'_id': ObjectId('5f09dd02e7b6b3d98579ddcc'),
  'country': 'France',
  'date': datetime.datetime(2020, 6, 12, 0, 0),
  'deaths': 0},
 {'_id': ObjectId('5f09dd02e7b6b3d98579ddcd'),
  'country': 'Franc

In [8]:
# в запросе можно использовать более сложные логические конструкции,
# каждая из них реализуется отдельным оператором

"""
SELECT *
FROM world
WHERE
    country in ('United Kingdom', 'Ireland')
    and deaths > 3
    and recovered <> 0
LIMIT 10
"""

p(world.find({"country": {"$in": ["United Kingdom", "Ireland"]},
              "deaths": {"$gt": 3},  # gt = greater than 
              "recovered": {"$ne": 0}}).limit(10))

[{'_id': ObjectId('5f09dd02e7b6b3d98579ef83'),
  'combined_name': 'Ireland',
  'confirmed': 906,
  'country': 'Ireland',
  'country_code': 372,
  'country_iso2': 'IE',
  'country_iso3': 'IRL',
  'date': datetime.datetime(2020, 3, 22, 0, 0),
  'deaths': 4,
  'loc': {'coordinates': [-7.6921, 53.1424], 'type': 'Point'},
  'population': 4937796,
  'recovered': 5,
  'uid': 372},
 {'_id': ObjectId('5f09dd02e7b6b3d98579ef84'),
  'combined_name': 'Ireland',
  'confirmed': 1125,
  'country': 'Ireland',
  'country_code': 372,
  'country_iso2': 'IE',
  'country_iso3': 'IRL',
  'date': datetime.datetime(2020, 3, 23, 0, 0),
  'deaths': 6,
  'loc': {'coordinates': [-7.6921, 53.1424], 'type': 'Point'},
  'population': 4937796,
  'recovered': 5,
  'uid': 372},
 {'_id': ObjectId('5f09dd02e7b6b3d98579ef85'),
  'combined_name': 'Ireland',
  'confirmed': 1329,
  'country': 'Ireland',
  'country_code': 372,
  'country_iso2': 'IE',
  'country_iso3': 'IRL',
  'date': datetime.datetime(2020, 3, 24, 0, 0),
  '

In [9]:
# можно использовать логические операторы для выставления более сложного запроса:

"""
SELECT *
FROM world
WHERE
    country in ('United Kingdom', 'Ireland')
    and deaths > 3
    and recovered <> 0
    and (confirmed < 5 or confirmed > 10)
LIMIT 10
"""

p(world.find({"$and": [{"country": {"$in": ["United Kingdom", "Ireland"]}}, # Связываем условия логическим И
                       {"deaths": {"$gt": 3}},
                       {"recovered": {"$ne": 0}},
                       {"$or": [{'confirmed': {"$lte": 5}}, # Связываем условия логическим ИЛИ
                                {'confirmed': {"$gte": 10}}]}
                      ]
             }).limit(10))

[{'_id': ObjectId('5f09dd02e7b6b3d98579ef83'),
  'combined_name': 'Ireland',
  'confirmed': 906,
  'country': 'Ireland',
  'country_code': 372,
  'country_iso2': 'IE',
  'country_iso3': 'IRL',
  'date': datetime.datetime(2020, 3, 22, 0, 0),
  'deaths': 4,
  'loc': {'coordinates': [-7.6921, 53.1424], 'type': 'Point'},
  'population': 4937796,
  'recovered': 5,
  'uid': 372},
 {'_id': ObjectId('5f09dd02e7b6b3d98579ef84'),
  'combined_name': 'Ireland',
  'confirmed': 1125,
  'country': 'Ireland',
  'country_code': 372,
  'country_iso2': 'IE',
  'country_iso3': 'IRL',
  'date': datetime.datetime(2020, 3, 23, 0, 0),
  'deaths': 6,
  'loc': {'coordinates': [-7.6921, 53.1424], 'type': 'Point'},
  'population': 4937796,
  'recovered': 5,
  'uid': 372},
 {'_id': ObjectId('5f09dd02e7b6b3d98579ef85'),
  'combined_name': 'Ireland',
  'confirmed': 1329,
  'country': 'Ireland',
  'country_code': 372,
  'country_iso2': 'IE',
  'country_iso3': 'IRL',
  'date': datetime.datetime(2020, 3, 24, 0, 0),
  '

In [10]:
# для строк есть несколько дополнительных возможностей по поиску
# например, поиск по regex

"""
SELECT distinct country
FROM world
WHERE country similar to 'land$'
"""

p(world.find({"country": {"$regex": "land$"}}).distinct("country"))

['Finland',
 'Iceland',
 'Ireland',
 'New Zealand',
 'Poland',
 'Switzerland',
 'Thailand']


In [11]:
# если стандартных операторов не хватает для задания необходимого условия, 
# можно использовать Javasctipt функцию в явном виде

p(world.find({"$where": """
                        function() 
                        {
                            if (this.recovered + this.deaths + this.confirmed > 5000) 
                            {
                                return true;
                            } else 
                            {
                                return false;
                            }
                        }
                        """}).limit(10))

[{'_id': ObjectId('5f09dd02e7b6b3d985799587'),
  'combined_name': 'Afghanistan',
  'confirmed': 4402,
  'country': 'Afghanistan',
  'country_code': 4,
  'country_iso2': 'AF',
  'country_iso3': 'AFG',
  'date': datetime.datetime(2020, 5, 10, 0, 0),
  'deaths': 120,
  'loc': {'coordinates': [67.71, 33.9391], 'type': 'Point'},
  'population': 38928341,
  'recovered': 558,
  'uid': 4},
 {'_id': ObjectId('5f09dd02e7b6b3d985799588'),
  'combined_name': 'Afghanistan',
  'confirmed': 4687,
  'country': 'Afghanistan',
  'country_code': 4,
  'country_iso2': 'AF',
  'country_iso3': 'AFG',
  'date': datetime.datetime(2020, 5, 11, 0, 0),
  'deaths': 122,
  'loc': {'coordinates': [67.71, 33.9391], 'type': 'Point'},
  'population': 38928341,
  'recovered': 558,
  'uid': 4},
 {'_id': ObjectId('5f09dd02e7b6b3d985799589'),
  'combined_name': 'Afghanistan',
  'confirmed': 4963,
  'country': 'Afghanistan',
  'country_code': 4,
  'country_iso2': 'AF',
  'country_iso3': 'AFG',
  'date': datetime.datetime(20

Более подробную информацию про составление поисковых запросов в MongoDB можно найти в официальной документации — https://docs.mongodb.com/manual/tutorial/query-documents/

In [12]:
# более сложные агрегации производятся с помощью агрегационного пайплайна
# это последовательность действий, которые необходимо применить к коллекции
# на каждом шаге используется свой отдельный оператор
# попробуем подсчитать, сколько записей с каждой страной

"""
SELECT count(1) as count, country
FROM world
GROUP BY country
"""
# group позволяет группировать данные
p(world.aggregate([{'$group': {"_id": {"country": "$country"}, # в _id записываются поля, по которым необходимо группировать
                               "count": {"$sum": 1}}}])) # далее записываются поля и агрегирующие операции
# здесь мы в count хотим подсчитать общее количество записей — суммируем количество единиц для каждой записи

[{'_id': {'country': 'Andorra'}, 'count': 171},
 {'_id': {'country': 'Senegal'}, 'count': 171},
 {'_id': {'country': 'Malaysia'}, 'count': 171},
 {'_id': {'country': 'Sao Tome and Principe'}, 'count': 171},
 {'_id': {'country': 'Bolivia'}, 'count': 171},
 {'_id': {'country': 'Kuwait'}, 'count': 171},
 {'_id': {'country': 'Norway'}, 'count': 171},
 {'_id': {'country': 'Afghanistan'}, 'count': 171},
 {'_id': {'country': 'Finland'}, 'count': 171},
 {'_id': {'country': 'Lebanon'}, 'count': 171},
 {'_id': {'country': 'San Marino'}, 'count': 171},
 {'_id': {'country': 'Western Sahara'}, 'count': 171},
 {'_id': {'country': 'Ethiopia'}, 'count': 171},
 {'_id': {'country': 'Bosnia and Herzegovina'}, 'count': 171},
 {'_id': {'country': 'Latvia'}, 'count': 171},
 {'_id': {'country': 'Peru'}, 'count': 171},
 {'_id': {'country': 'Saint Lucia'}, 'count': 171},
 {'_id': {'country': 'Qatar'}, 'count': 171},
 {'_id': {'country': 'China'}, 'count': 5643},
 {'_id': {'country': 'Cameroon'}, 'count': 171},

In [13]:
# давайте найдем все, которые были замеряны не 171 раз
# для этого добавим стадию match. она работает также как и обычный запрос в find
# но применяется уже к результату предыдущией стадии

"""
SELECT count(1) as count, country
FROM world
GROUP BY country
HAVING count <> 171
"""

p(world.aggregate([{'$group': {"_id": {"country": "$country"},
                               "count": {"$sum": 1}}},
                   {'$match': {"count" : {"$ne": 171}}}]))

[{'_id': {'country': 'Australia'}, 'count': 1368},
 {'_id': {'country': 'United Kingdom'}, 'count': 1881},
 {'_id': {'country': 'Denmark'}, 'count': 513},
 {'_id': {'country': 'Canada'}, 'count': 2565},
 {'_id': {'country': 'France'}, 'count': 1881},
 {'_id': {'country': 'Netherlands'}, 'count': 855},
 {'_id': {'country': 'China'}, 'count': 5643}]


In [14]:
# дополнительно можем отсортировать результаты
# таким образом, мы может добавлять произвольное количество стадий для сложной обрабоки

"""
SELECT count(1) as count, country
FROM world
GROUP BY country
HAVING count <> 171
ORDER BY count DESC
"""

p(world.aggregate([{"$group": {"_id": {"country": "$country"},
                               "count": {"$sum": 1}}},
                   {"$match": {"count" : {"$ne": 171}}},
                   {"$sort": {"count": -1}}])) # -1 - в порядке убывания, 1 - в порядке возрастания

[{'_id': {'country': 'China'}, 'count': 5643},
 {'_id': {'country': 'Canada'}, 'count': 2565},
 {'_id': {'country': 'United Kingdom'}, 'count': 1881},
 {'_id': {'country': 'France'}, 'count': 1881},
 {'_id': {'country': 'Australia'}, 'count': 1368},
 {'_id': {'country': 'Netherlands'}, 'count': 855},
 {'_id': {'country': 'Denmark'}, 'count': 513}]


In [15]:
# чтобы подсчитать глобальную статистику, можно использовать group, указав _id = None.
# тогда группировка произойдет как бы фиктивно, с использованием ровно одной группы — всей выборки
# например, подсчитаем среднее количество записей на страну и разброс

"""
SELECT avg(count), stddev_pop(count)
(SELECT sum(1) as count
 FROM world
 GROUP BY country) as r
"""

p(world.aggregate([{'$group': {"_id": {"country": "$country"},
                               "count": {"$sum": 1}}},
                   {'$group': {"_id": None,
                               "avg_count": {"$avg": "$count"},
                               "std_count": {"$stdDevPop": "$count"}}}]))

[{'_id': None, 'avg_count': 242.85638297872342, 'std_count': 475.8482969545827}]


In [16]:
# в базе данных есть страны с несколькими регионами, так что в один день может быть сразу несколько разных записей
# нам необходимо просуммировать все записи в регионах, чтобы узнать данные за день в конкретной стране

"""
SELECT country, date, sum(recovered), sum(confirmed), sum(deaths)
FROM world
GROUP BY (country, date)
LIMIT 20
"""

p(world.aggregate([{'$group': {"_id": {"country": "$country",
                                       "date": "$date"},  # группируем сразу по двум полям
                               "recovered": {'$sum': "$recovered"},  # для каждой группы складыаем все показатели 
                               "confirmed": {'$sum': "$confirmed"},
                               "deaths": {"$sum": "$deaths"}}},
                   {"$limit": 20}]))  # в агрегационном пайплайне можно отдельно указывать лимитирующий оператор

[{'_id': {'country': 'Cabo Verde', 'date': datetime.datetime(2020, 7, 8, 0, 0)},
  'confirmed': 1542,
  'deaths': 18,
  'recovered': 730},
 {'_id': {'country': 'Denmark', 'date': datetime.datetime(2020, 3, 15, 0, 0)},
  'confirmed': 875,
  'deaths': 2,
  'recovered': 1},
 {'_id': {'country': 'Spain', 'date': datetime.datetime(2020, 6, 24, 0, 0)},
  'confirmed': 247086,
  'deaths': 28327,
  'recovered': 150376},
 {'_id': {'country': 'Venezuela', 'date': datetime.datetime(2020, 6, 28, 0, 0)},
  'confirmed': 5297,
  'deaths': 44,
  'recovered': 1649},
 {'_id': {'country': 'Senegal', 'date': datetime.datetime(2020, 6, 1, 0, 0)},
  'confirmed': 3739,
  'deaths': 42,
  'recovered': 1858},
 {'_id': {'country': 'Jamaica', 'date': datetime.datetime(2020, 6, 6, 0, 0)},
  'confirmed': 596,
  'deaths': 10,
  'recovered': 404},
 {'_id': {'country': 'Belize', 'date': datetime.datetime(2020, 2, 2, 0, 0)},
  'confirmed': 0,
  'deaths': 0,
  'recovered': 0},
 {'_id': {'country': 'Kyrgyzstan', 'date': d

In [19]:
# поля можно сравнивать не только с константами, но и с другими полями
# например, можно найти дни, когда умерших больше, чем выздоровевших
# для этого нужно использовать специальный оператор expr, при помощи которого указывать условия можно
# в более свободной форме.

# для нашего случая - $expr: { $lt: ["$field_1", "$field_2"] } == "WHERE field_1 < field_2":

"""
SELECT country, date, sum(recovered) as recovered, sum(confirmed) as confirmed, sum(deaths) as deaths
FROM world
GROUP BY (country, date)
WHERE recovered < deaths
LIMIT 20
"""

p(world.aggregate([{"$group": {"_id": {"country": "$country",
                                       "date": "$date"}, # группируем сразу по двум полям
                               "recovered": {'$sum': "$recovered"},
                               "confirmed": {"$sum": "$confirmed"},
                               "deaths": {"$sum": "$deaths"}}},
                   {"$match": {"$expr": {"$lt": ["$recovered", "$deaths"]}}},
                   {"$limit": 20}]))

[{'_id': {'country': 'Portugal', 'date': datetime.datetime(2020, 4, 13, 0, 0)},
  'confirmed': 16934,
  'deaths': 535,
  'recovered': 277},
 {'_id': {'country': 'MS Zaandam', 'date': datetime.datetime(2020, 6, 5, 0, 0)},
  'confirmed': 9,
  'deaths': 2,
  'recovered': 0},
 {'_id': {'country': 'Bolivia', 'date': datetime.datetime(2020, 4, 19, 0, 0)},
  'confirmed': 520,
  'deaths': 32,
  'recovered': 31},
 {'_id': {'country': 'Nicaragua', 'date': datetime.datetime(2020, 5, 16, 0, 0)},
  'confirmed': 25,
  'deaths': 8,
  'recovered': 7},
 {'_id': {'country': 'Mexico', 'date': datetime.datetime(2020, 4, 1, 0, 0)},
  'confirmed': 1378,
  'deaths': 37,
  'recovered': 35},
 {'_id': {'country': 'Sweden', 'date': datetime.datetime(2020, 3, 27, 0, 0)},
  'confirmed': 3069,
  'deaths': 105,
  'recovered': 0},
 {'_id': {'country': 'United Kingdom',
          'date': datetime.datetime(2020, 3, 23, 0, 0)},
  'confirmed': 12744,
  'deaths': 360,
  'recovered': 67},
 {'_id': {'country': 'United Kingd

In [20]:
# нам доступны также и другие агрегирующие функции
# например, мы можем найти дни, где среднее количество больше определенной константы:

"""
SELECT avg(recovered) as avg_recovered
FROM (SELECT country, date, sum(recovered) as recovered
      FROM world
      GROUP BY (country, date)) as r
GROUP BY date
HAVING avg_recovered > 10000
LIMIT 10
"""

p(world.aggregate([{'$group': {"_id": {"country": "$country",
                                       "date": "$date"}, # важно вначале сгрупировать по странам, чтобы среднее по стране считалось честно
                               "recovered": {'$sum': "$recovered"}}},  # для каждой группы складыаем все показатели 
                   {"$group": {"_id": {"date": "$_id.date"}, # ВАЖНО: date лежит теперь внутри _id. Доступ к нему идет через точку
                               "avg_recovered": {"$avg": "$recovered"}}},
                   {"$match": {"avg_recovered": {"$gt": 10000}}},
                   {"$limit": 10}]))

[{'_id': {'date': datetime.datetime(2020, 6, 6, 0, 0)},
  'avg_recovered': 16418.707446808512},
 {'_id': {'date': datetime.datetime(2020, 7, 7, 0, 0)},
  'avg_recovered': 34296.04255319149},
 {'_id': {'date': datetime.datetime(2020, 6, 24, 0, 0)},
  'avg_recovered': 25245.308510638297},
 {'_id': {'date': datetime.datetime(2020, 6, 10, 0, 0)},
  'avg_recovered': 18376.632978723403},
 {'_id': {'date': datetime.datetime(2020, 6, 17, 0, 0)},
  'avg_recovered': 21669.97340425532},
 {'_id': {'date': datetime.datetime(2020, 7, 10, 0, 0)},
  'avg_recovered': 36593.19680851064},
 {'_id': {'date': datetime.datetime(2020, 6, 4, 0, 0)},
  'avg_recovered': 15666.803191489362},
 {'_id': {'date': datetime.datetime(2020, 6, 28, 0, 0)},
  'avg_recovered': 27345.207446808512},
 {'_id': {'date': datetime.datetime(2020, 6, 3, 0, 0)},
  'avg_recovered': 15294.308510638299},
 {'_id': {'date': datetime.datetime(2020, 6, 5, 0, 0)},
  'avg_recovered': 16034.654255319148}]
