# Выборка и агрегация данных в MongoDB

###Цель домашней работы

Закрепить на практике основные приемы работы с СУБД MongoDB, включая выборку, сортировку, объединение, агрегацию данных и передачу результатов выборки в программу на Python в целях аналитики и дальнейшей обработки.

### Формулировка задания

В этом задании вам предстоит выполнить несколько запросов к базе данных для получения выборок по условиям, а также воспользоваться фреймворком агрегации MongoDB для построения конвейера обработки данных.

Максимальное количество баллов за выполнение домашней работы: 10.

##Что нужно использовать в работе над заданием

I. MongoDB:

1. Зарегистрируйтесь в сервисе MongoDB Atlas: https://www.mongodb.com/atlas/database.
1. Создайте кластер уровня M0 (это бесплатно).
1. Добавьте в кластер тестовую базу данных `sample_mflix`, используя опцию Load Sample Dataset.

В качестве альтернативы вы можете установить MongoDB на свой локальный компьютер и импортировать необходимые датасеты в свою СУБД, загрузив их по ссылке: https://github.com/neelabalan/mongodb-sample-dataset/tree/main/sample_mflix. Для этого подключитесь к своему серверу через Compass, создайте новую БД, создайте для каждого датасета коллекцию и щелкните «Add data» → «Import JSON or CSV file».

II. MongoDB Compass — в качестве вспомогательного инструмента для конструирования запросов и агрегаций.

III. Python и библиотека pymongo. Работа ведется в Jupyter Notebook или Google Colaboratory. Рекомендуется использовать версию Python 3.12.

##Ожидаемые результаты

Результаты работы необходимо оформить в виде ноутбука Jupyter. Можно загрузить файл в LMS либо поделиться ссылкой на Google Colaboratory.

##Место где нужно выполнить задание



In [14]:
#Начать выполнение задания тут

In [15]:
!pip install pymongo

import pymongo
from rich import print
from rich.pretty import pprint

client = pymongo.MongoClient("mongodb+srv://user:password@cluster0.jkywl.mongodb.net/?retryWrites=true&w=majority&appName=Cluster0")
print(client.list_database_names())  # Вывести список БД для проверки подключения



In [16]:
sample_mflix_db = client.sample_mflix

### Упражнение 1. Запросы на выборку

Цель этого упражнения — закрепить навык выполнения запросов на выборку. Все запросы выполняются на базе `sample_mflix` с данными о кинофильмах.

#### Задача 1.1 — **1 балл**

Выведите из коллекции `theaters` документы о кинотеатрах в городе Florence, штат KY.

Для справки:

* Обратите внимание на то, что информация об адресе кинотеатров хранится во вложенных документах. Для доступа к полям вложенных документов следует использовать точку: `родительский_документ.вложенный_документ.поле`.
* В случае затруднений с написанием логического условия обращайтесь к сопоставлению синтаксиса SQL и Mongo: https://www.mongodb.com/docs/manual/reference/sql-comparison/.
* Если вы предпочитаете сперва выполнять запросы в Compass, из этого приложения можно выгружать код готового запроса на Python (кнопка с символом `</>`).

In [17]:
# Ваш код здесь
cursor = sample_mflix_db.theaters.find({"location.address.city": "Florence", "location.address.state": "KY"})
for document in cursor:
    pprint(document)

#### Задача 1.2 — **1 балл**

Сделав запрос к коллекции `comments`, выведите _один_ комментарий (значение поля `text`) пользователя по имени Doreah.

In [18]:
# Ваш код здесь
print(
    "[bold green]Комментарий пользователя Doreah:[/bold green]",
    sample_mflix_db.comments.find_one({"name": "Doreah"}, {"text": 1, "_id": 0})["text"],
)

#### Задача 1.3 — **1 балл**

Сделав запрос к коллекции `movies`, выведите количество документов, в которых в качестве первого жанра фильма (поле `genres`) указано значение «Horror».

Для справки:

1. Обратите внимание, что поле `genres` представляет собой массив (индексация массивов начинается с нуля).
1. При работе в MongoDB Shell для подсчета количества документов в курсоре можно использовать метод `count()`, однако он был удален в последних версиях библиотеки pymongo. В случае затруднений с использованием функций Mongo можно использовать для подсчета документов средства Python.

In [19]:
# Ваш код здесь
print(
    "[bold]Количество[/bold] фильмов жанра Horror:",
    sample_mflix_db.movies.count_documents({"genres.0": "Horror"}),
)

#### Задача 1.4 — **2 балла**

Выведите из коллекции `movies` документы о фильмах, которые в качестве первого жанра определены как «Film-Noir» либо «Horror» и были выпущены в период с 1940 по 1949 гг. (включительно).

In [20]:
# Ваш код здесь
cursor = sample_mflix_db.movies.find(
    {
        "genres.0": {"$in": ["Film-Noir", "Horror"]},
        "year": {"$gte": 1940, "$lte": 1949},
    }
)

print("[bold]Фильмы жанра Film-Noir или Horror, выпущенные в 1940-1949 гг.:[/bold]")
pprint(list(cursor))

#### Задача 1.5 — **1 балл**

Модифицируйте запрос из задачи 1.4 таким образом, чтобы осуществить _проекцию_: результатом выборки должен стать список словарей, каждый из которых содержит только два поля: `title` и `year`.

Для справки о проекции см. документацию по методу `find()` в pymongo:
https://pymongo.readthedocs.io/en/stable/api/pymongo/collection.html#pymongo.collection.Collection.find

In [21]:
# Ваш код здесь
cursor = sample_mflix_db.movies.find(
    {
        "genres.0": {"$in": ["Film-Noir", "Horror"]},
        "year": {"$gte": 1940, "$lte": 1949},
    },
    {"title": 1, "year": 1, "_id": 0},
)

print("[bold]Фильмы жанра Film-Noir или Horror, выпущенные в 1940-1949 гг. (проекция):[/bold]")
pprint(list(cursor))

### Упражнение 2. Конвейер агрегации

#### Задача 2.1 — **3 балла**

В рамках этой задачи требуется узнать, какие фильмы получили наибольшее число комментариев. Составьте для этого конвейер агрегации с перечисленными ниже этапами. Для удобства рекомендуется воспользоваться приложением Compass.

1. Сгруппировать документы коллекции `comments` по полю `movie_id` и подсчитать количество комментариев для каждого фильма, записав его в поле `count`.
1. Отсортировать получившийся набор данных по убыванию количества комментариев (так чтобы первый документ в этом наборе указывал на фильм с наибольшим количеством комментариев).
1. Используя оператор `$lookup`, присоединить коллекцию `movies` (по полю `movie_id`).
1. Выполнить проекцию, оставив в наборе данных только три поля: название фильма (`title`), год выпуска (`year`) и количество комментариев (поле `count`, добавленное на первом этапе). Для этого воспользуйтесь оператором `$project`: https://www.mongodb.com/docs/manual/reference/operator/aggregation/project/. Обратите внимание, что данные из коллекции `movies` (`title` и `year`) на этом этапе окажутся внутри массива.
1. Применить оператор `$unwind`, чтобы деконструировать этот массив. См. https://www.mongodb.com/docs/manual/reference/operator/aggregation/unwind/. В результате массив должен превратиться в одиночный объект.
1. Применить оператор `$addFields`, чтобы добавить поля `title` и `year` на вернхий уровень структуры документа. См. https://www.mongodb.com/docs/manual/reference/operator/aggregation/addFields/.
1. Еще раз выполнить проекцию, чтобы удалить поле с массивом.

Ваш алгоритм решения может отличаться от приведенного здесь. Главное — достичь цели: получить плоский набор данных с тремя полями (`count` — количество комментариев, `year` — год выпуска, `title` — название фильма).

Скопируйте полученный конвейер в этот документ в виде кода на Python и выведите его на экран в виде списка словарей.

In [22]:
# Ваш код здесь
import pandas as pd

cursor = sample_mflix_db.comments.aggregate(
    [
        {
            "$group": {
                "_id": "$movie_id",
                "count": {"$sum": 1},
            },
        },
        {
            "$sort": {"count": -1},
        },
        {
            "$lookup": {
                "from": "movies",
                "localField": "_id",
                "foreignField": "_id",
                "as": "movie",
            },
        },
        {
            "$project": {
                "title": {"$arrayElemAt": ["$movie.title", 0]},
                "year": {"$arrayElemAt": ["$movie.year", 0]},
                "count": 1,
                "_id": 0,
            },
        },
        {
            "$match": {
                "title": {"$exists": True}
            },
        },
    ]
)

df = pd.DataFrame(list(cursor))
df.columns = ["Количество комментариев", "Название фильма",  "Год выпуска"]
df

Unnamed: 0,Количество комментариев,Название фильма,Год выпуска
0,161,The Taking of Pelham 1 2 3,2009
1,158,Ocean's Eleven,2001
2,158,50 First Dates,2004
3,158,Terminator Salvation,2009
4,158,About a Boy,2002
...,...,...,...
6782,1,Christopher and His Kind,2011
6783,1,Amish Grace,2010
6784,1,Instructions Not Included,2013
6785,1,Ali Zaoua: Prince of the Streets,2000


#### Задача 2.2 — **1 балл**

Используя данные, полученные в задаче 2.1, выведите на экран столбчатую диаграмму, показывающую топ-20 наиболее комментируемых фильмов. По оси ординат выведите названия этих фильмов (подписи разместите слева диаграммы), по оси абсцисс — количество комментариев.

Для решения задачи можно использовать любую библиотеку, например Seaborn или Matplotlib.

In [23]:
# Ваш код здесь
import plotly.express as px

fig = px.bar(
    df.head(20).sort_values(by="Количество комментариев", ascending=True),
    x="Количество комментариев",
    y="Название фильма",
    title="Топ-20 наиболее комментируемых фильмов",
    labels={"Количество комментариев": "Количество комментариев", "Название фильма": "Название фильма"},
    height=1000,
    log_x=True,
)
fig.show()