# Выборка и агрегация данных в MongoDB

###Цель домашней работы

Закрепить на практике основные приемы работы с СУБД MongoDB, включая выборку, сортировку, объединение, агрегацию данных и передачу результатов выборки в программу на Python в целях аналитики и дальнейшей обработки.

### Формулировка задания

В этом задании вам предстоит выполнить несколько запросов к базе данных для получения выборок по условиям, а также воспользоваться фреймворком агрегации MongoDB для построения конвейера обработки данных.

Максимальное количество баллов за выполнение домашней работы: 10.

##Что нужно использовать в работе над заданием

I. MongoDB:

1. Зарегистрируйтесь в сервисе MongoDB Atlas: https://www.mongodb.com/atlas/database.
1. Создайте кластер уровня M0 (это бесплатно).
1. Добавьте в кластер тестовую базу данных `sample_mflix`, используя опцию Load Sample Dataset.

В качестве альтернативы вы можете установить MongoDB на свой локальный компьютер и импортировать необходимые датасеты в свою СУБД, загрузив их по ссылке: https://github.com/neelabalan/mongodb-sample-dataset/tree/main/sample_mflix. Для этого подключитесь к своему серверу через Compass, создайте новую БД, создайте для каждого датасета коллекцию и щелкните «Add data» → «Import JSON or CSV file».

II. MongoDB Compass — в качестве вспомогательного инструмента для конструирования запросов и агрегаций.

III. Python и библиотека pymongo. Работа ведется в Jupyter Notebook или Google Colaboratory. Рекомендуется использовать версию Python 3.12.

##Ожидаемые результаты

Результаты работы необходимо оформить в виде ноутбука Jupyter. Можно загрузить файл в LMS либо поделиться ссылкой на Google Colaboratory.

##Место где нужно выполнить задание



In [None]:
#Начать выполнение задания тут

In [3]:
# !pip install pymongo

import pymongo

client = pymongo.MongoClient("mongodb+srv://nekita473:test1234@cluster0.tbhwv.mongodb.net/?retryWrites=true&w=majority&appName=Cluster0")
print(client.list_database_names())  # Вывести список БД для проверки подключения

['sample_mflix', 'admin', 'local']


### Упражнение 1. Запросы на выборку

Цель этого упражнения — закрепить навык выполнения запросов на выборку. Все запросы выполняются на базе `sample_mflix` с данными о кинофильмах.

#### Задача 1.1 — **1 балл**

Выведите из коллекции `theaters` документы о кинотеатрах в городе Florence, штат KY.

Для справки:

* Обратите внимание на то, что информация об адресе кинотеатров хранится во вложенных документах. Для доступа к полям вложенных документов следует использовать точку: `родительский_документ.вложенный_документ.поле`.
* В случае затруднений с написанием логического условия обращайтесь к сопоставлению синтаксиса SQL и Mongo: https://www.mongodb.com/docs/manual/reference/sql-comparison/.
* Если вы предпочитаете сперва выполнять запросы в Compass, из этого приложения можно выгружать код готового запроса на Python (кнопка с символом `</>`).

In [22]:
# Ваш код здесь
db = client.sample_mflix

list(db['theaters'].find({'location.address.city': 'Florence'}))

[{'_id': ObjectId('59a47287cfa9a3a73e51e893'),
  'theaterId': 161,
  'location': {'address': {'street1': '100 Meijer Dr.',
    'city': 'Florence',
    'state': 'KY',
    'zipcode': '41042'},
   'geo': {'type': 'Point', 'coordinates': [-84.636383, 39.014843]}}},
 {'_id': ObjectId('59a47287cfa9a3a73e51ea02'),
  'theaterId': 2823,
  'location': {'address': {'street1': '2823 Florence Mall',
    'street2': '#2148',
    'city': 'Florence',
    'state': 'KY',
    'zipcode': '41042'},
   'geo': {'type': 'Point', 'coordinates': [-84.6499595, 38.9967246]}}},
 {'_id': ObjectId('59a47287cfa9a3a73e51ead9'),
  'theaterId': 348,
  'location': {'address': {'street1': '398 Cox Creek Parkway',
    'city': 'Florence',
    'state': 'AL',
    'zipcode': '35630'},
   'geo': {'type': 'Point', 'coordinates': [-87.637985, 34.842548]}}},
 {'_id': ObjectId('59a47287cfa9a3a73e51ecca'),
  'theaterId': 826,
  'location': {'address': {'street1': '2701 David H Mcleod Blvd',
    'city': 'Florence',
    'state': 'SC',


#### Задача 1.2 — **1 балл**

Сделав запрос к коллекции `comments`, выведите _один_ комментарий (значение поля `text`) пользователя по имени Doreah.

In [27]:
# Ваш код здесь

list(db['comments'].find({'name': 'Doreah'}))[0]['text']

'Porro explicabo cumque vitae sint quia quis. Consequuntur voluptatibus optio maxime ratione temporibus incidunt minus architecto.'

#### Задача 1.3 — **1 балл**

Сделав запрос к коллекции `movies`, выведите количество документов, в которых в качестве первого жанра фильма (поле `genres`) указано значение «Horror».

Для справки:

1. Обратите внимание, что поле `genres` представляет собой массив (индексация массивов начинается с нуля).
1. При работе в MongoDB Shell для подсчета количества документов в курсоре можно использовать метод `count()`, однако он был удален в последних версиях библиотеки pymongo. В случае затруднений с использованием функций Mongo можно использовать для подсчета документов средства Python.

In [37]:
# Ваш код здесь

len([x for x in list(db['movies'].find({'genres': 'Horror'})) if x['genres'][0] == 'Horror'])

700

#### Задача 1.4 — **2 балла**

Выведите из коллекции `movies` документы о фильмах, которые в качестве первого жанра определены как «Film-Noir» либо «Horror» и были выпущены в период с 1940 по 1949 гг. (включительно).

In [None]:
# Ваш код здесь

list(db['movies'].find({'year': {'$gt': 1940, '$lt': 1949}}))

[{'_id': ObjectId('573a1393f29313caabcdc364'),
  'plot': 'Illiterate peasant Juan Gallardo rises meteorically to fame and fortune in the bullfight arena only to sow the seeds of his own fall.',
  'genres': ['Drama', 'Sport'],
  'runtime': 125,
  'rated': 'APPROVED',
  'cast': ['Tyrone Power', 'Linda Darnell', 'Rita Hayworth', 'Alla Nazimova'],
  'num_mflix_comments': 1,
  'poster': 'https://m.media-amazon.com/images/M/MV5BZDU4YmIyMDUtYjA5NC00ODYyLWJmNTItOTZlYTZlNmFjNGVkL2ltYWdlXkEyXkFqcGdeQXVyNjQzNDI3NzY@._V1_SY1000_SX677_AL_.jpg',
  'title': 'Blood and Sand',
  'fullplot': 'Bullfighter Juan Gallardo falls for socialite Dona Sol, turning from the faithful Carmen who nevertheless stands by her man as he continues to face real danger in the bullring.',
  'languages': ['English'],
  'released': datetime.datetime(1941, 5, 30, 0, 0),
  'directors': ['Rouben Mamoulian'],
  'writers': ['Vicente Blasco Ibèèez (based on the novel by)',
   'Jo Swerling (screenplay)'],
  'awards': {'wins': 0,
   

#### Задача 1.5 — **1 балл**

Модифицируйте запрос из задачи 1.4 таким образом, чтобы осуществить _проекцию_: результатом выборки должен стать список словарей, каждый из которых содержит только два поля: `title` и `year`.

Для справки о проекции см. документацию по методу `find()` в pymongo:
https://pymongo.readthedocs.io/en/stable/api/pymongo/collection.html#pymongo.collection.Collection.find

In [48]:
# Ваш код здесь

{x['title']: x['year'] for x in list(db['movies'].find({'year': {'$gt': 1940, '$lt': 1949}}))}

{'Blood and Sand': 1941,
 'The Blood of Jesus': 1941,
 'Blossoms in the Dust': 1941,
 'Citizen Kane': 1941,
 'The Devil and Daniel Webster': 1941,
 'Dumbo': 1941,
 'Here Comes Mr. Jordan': 1941,
 'High Sierra': 1941,
 'How Green Was My Valley': 1941,
 'The Land': 1942,
 'The Little Foxes': 1941,
 'Love on the Dole': 1941,
 'Major Barbara': 1941,
 'The Man Who Came to Dinner': 1942,
 'The White Ship': 1941,
 "'Pimpernel' Smith": 1941,
 'Road to Zanzibar': 1941,
 'The Sea Wolf': 1941,
 'Sergeant York': 1941,
 'They Met in Moscow': 1941,
 'That Hamilton Woman': 1941,
 'Tom Dick and Harry': 1941,
 'The Brothers and Sisters of the Toda Family': 1941,
 'Two-Faced Woman': 1941,
 'The Wolf Man': 1941,
 'Across the Pacific': 1942,
 'Bambi': 1942,
 'The Black Swan': 1942,
 'Casablanca': 1942,
 'Cat People': 1942,
 'People on the Alps': 1942,
 'Der groèe Kènig': 1942,
 'The Hard Way': 1943,
 'Holiday Inn': 1942,
 'Jungle Book': 1942,
 'Journey for Margaret': 1942,
 'The Magnificent Ambersons': 19

### Упражнение 2. Конвейер агрегации

#### Задача 2.1 — **3 балла**

В рамках этой задачи требуется узнать, какие фильмы получили наибольшее число комментариев. Составьте для этого конвейер агрегации с перечисленными ниже этапами. Для удобства рекомендуется воспользоваться приложением Compass.

1. Сгруппировать документы коллекции `comments` по полю `movie_id` и подсчитать количество комментариев для каждого фильма, записав его в поле `count`.
1. Отсортировать получившийся набор данных по убыванию количества комментариев (так чтобы первый документ в этом наборе указывал на фильм с наибольшим количеством комментариев).
1. Используя оператор `$lookup`, присоединить коллекцию `movies` (по полю `movie_id`).
1. Выполнить проекцию, оставив в наборе данных только три поля: название фильма (`title`), год выпуска (`year`) и количество комментариев (поле `count`, добавленное на первом этапе). Для этого воспользуйтесь оператором `$project`: https://www.mongodb.com/docs/manual/reference/operator/aggregation/project/. Обратите внимание, что данные из коллекции `movies` (`title` и `year`) на этом этапе окажутся внутри массива.
1. Применить оператор `$unwind`, чтобы деконструировать этот массив. См. https://www.mongodb.com/docs/manual/reference/operator/aggregation/unwind/. В результате массив должен превратиться в одиночный объект.
1. Применить оператор `$addFields`, чтобы добавить поля `title` и `year` на вернхий уровень структуры документа. См. https://www.mongodb.com/docs/manual/reference/operator/aggregation/addFields/.
1. Еще раз выполнить проекцию, чтобы удалить поле с массивом.

Ваш алгоритм решения может отличаться от приведенного здесь. Главное — достичь цели: получить плоский набор данных с тремя полями (`count` — количество комментариев, `year` — год выпуска, `title` — название фильма).

Скопируйте полученный конвейер в этот документ в виде кода на Python и выведите его на экран в виде списка словарей.

In [None]:
# Ваш код здесь


#### Задача 2.2 — **1 балл**

Используя данные, полученные в задаче 2.1, выведите на экран столбчатую диаграмму, показывающую топ-20 наиболее комментируемых фильмов. По оси ординат выведите названия этих фильмов (подписи разместите слева диаграммы), по оси абсцисс — количество комментариев.

Для решения задачи можно использовать любую библиотеку, например Seaborn или Matplotlib.

In [None]:
# Ваш код здесь
