# Продвинутый Python, семинар 8

**Лектор:** Петров Тимур

**Семинаристы:** Петров Тимур, Коган Александра, Бузаев Федор, Дешеулин Олег

**Spoiler Alert:** в рамках курса нельзя изучить ни одну из тем от и до досконально (к сожалению, на это требуется больше времени, чем даже 3 часа в неделю). Но мы попробуем рассказать столько, сколько возможно :)

Итак, сегодня мы с вами потренируемся работать с запросами на PyMongo (в лишний раз вспомним, что тут делать, как писать фильтры, группировки и все остальное)

И в каждой части будет небольшая шпаргалка

## Часть 1. Учимся узнавать информацию про датасет

Шпора:

```
list_database_names() - вывести список доступных баз данных

list_collection_names() - вывести список доступных коллекций

find_one() - вывести 1 элемент коллекции

find() - найти все

count_documents(filter) - посчитать количество документов в коллекции
```

In [None]:
!pip install pymongo

In [None]:
import pymongo
from pymongo import MongoClient

cluster = MongoClient('mongodb+srv://admin:admin@pythontest.l4aoup6.mongodb.net/?retryWrites=true&w=majority')

### Задание 1

Выберите в качестве базы данных - sample_supplies, а в качестве коллекции - единственную представленную там. Выведите один экземпляр коллекции

После этого посмотрите, сколько данных у нас в коллекции

In [None]:
col = cluster["sample_supplies"]["sales"]
col.find_one()

In [None]:
col = cluster["sample_supplies"]["sales"]
col.count_documents({}) #обратите внимание, что если нужно просто число документов, то надо дополнительно указать пустой фильтр

5000

## Часть 2. Учимся делать простые запросы

Шпора:

```

distinct(field, filter) - вывести все уникальные значения

find(filter, cols) - применяем фильтр, получаем данные с имеющихся cols

Структура cols:

{
    col_1: 0 - не показываем
    col_2: 1 - показываем значения
}
```

Фильтры:

```
Операции:

    $eq - =
    $ne - ><
    $lt - <
    $lte - <=
    $gt - >
    $gte - >=
    $in - поиск в массиве (или строке)
    $nin - NOT IN
    $exists - существование (IS NOT NULL)

Логика:

    $and - AND
    $not - NOT
    $or - OR

Регулярки (тип LIKE):

    $regex - регулярка
```

Прочие полезные вещи:

```
col.field - обращаемся к значению col и внутри него к значению field

limit(nums) - выбрать несколько значений

count() - посчитать число результатов

sort() - сортировка

```

### Задание 2

Выведите все уникальные города магазинов (поле storeLocation), а также способы оплаты (purchaseMethod)

In [None]:
col.distinct("storeLocation"), col.distinct("purchaseMethod")

(['Austin', 'Denver', 'London', 'New York', 'San Diego', 'Seattle'],
 ['In store', 'Online', 'Phone'])

### Задание 3

Выведите только пользователей, в чьих заказах был использован купон (couponUsed), название города начинается на S или на D, а также метод оплаты - онлайн. Отсортируйте результат по названию города по убыванию

In [None]:
cols = {"customer": 1, "storeLocation": 1, "_id": 0}
filters = {"couponUsed": True, "purchaseMethod": "Online", "storeLocation": {"$regex": "[SD].*"}}
result = col.find(filters, cols).sort({"storeLocation": pymongo.DESCENDING})
for k in result:
    print(k)

### Задание 4

Добавьте также ограничение на пол покупателя (выбираем только женщин), а также на оценку (satisfaction должен быть от 1 до 3). Выведите только 10 значений (сортировать не нужно)

In [None]:
cols = {"customer": 1, "storeLocation": 1, "_id": 0}
matching = {"couponUsed": True, "purchaseMethod": "Online", "storeLocation": {"$regex": "[SD].*"}, "customer.gender" : "F", "customer.satisfaction": {"$gte": 1, "$lte": 3}}
result = col.find(matching, cols).limit(10)
for k in result:
    print(k)

## Часть 3. Делаем агрегацию

Шпора:

```
aggregate(pipeline) - сделать агрегацию по pipeline

pipeline - список из словарей

Из каких частей может состоять pipeline:

{"$unwind": } - сделать анпакинг (то есть если все в одном списке, то он разобьет на части)
{"$match": {}} - применение where
{"$group": {}} - группирование
{"$sort": {}} - сортировка
{"$limit": {}} - ограничение
{"$project": {}} - выбрать нужные колонки
```

Как работает $group:

```
{
    "_id" : "$value" - по чему аггрегировать (названия идут через $)
    "name": {aggregation} - название и как агрегировать
}
```

Какие бывают агрегации?

```
    $sum - сумма
    $avg - среднее
    $median - медиана
    $min - минимум (также есть minN)
    $max - максимум (также есть maxN)
    $first - первое значение
    $last - последнее значение
    $addToSet - получить список уникальных
```

### Задание 5

Посчитайте по каждому заказу:

* Число уникальных товаров

* Число товаров

* Сумму оплаты

In [None]:
u = {"$unwind": "$items"}
g = {"$group":
        {
            "_id": "$_id",
            "unique_items": {"$sum": 1},
            "items": {"$sum": "$items.quantity"},
            "price": {"$sum": "$items.price"}
        }
     }
for k in col.aggregate([u, g]):
    print(k)

### Задание 6

Выведите только те заказы, где число товаров больше 30, а сумма оплаты больше 1900

In [None]:
u = {"$unwind": "$items"}
g = {"$group":
        {
            "_id": "$_id",
            "unique_items": {"$sum": 1},
            "items": {"$sum": "$items.quantity"},
            "price": {"$sum": "$items.price"}
        }
     }
m = {"$match":
        {
            "items": {"$gte": 30},
            "price": {"$gte": 1900}
        }
    }
for k in col.aggregate([u, g, m]):
    print(k)

## Часть 4. Соединяем документы

Шпора:

```
{$lookup: {
    "from": collection - с чем связываем
    "localField": value - по какому полю из нашей коллекции
    "foreignField": value - по какому полю из другой коллекции
    "as": name - как назвать колонку
}} - делаем соединение
```

### Задание 7

Соедините две таблицы из базы данных sample_analytics (customers и accounts) и выведите для каждого пользователя все его аккаунты

In [None]:
col = cluster["sample_analytics"]["customers"]

In [None]:
u = {"$unwind": "$accounts"}
l = {"$lookup":
     {
          "from" : "accounts",
          "localField": "accounts",
          "foreignField": "account_id",
          "as": "accs"
     }
}
m = {"$project": {"username": 1, "name": 1, "accs": 1}}

for k in col.aggregate([u, l, m]):
    print(k)