# **18 Чтение и запись данных. Часть 2**

Курс ведёт **Андрей Мещеряков** Data Scientist в EPAM

## **18.1** *Чтение данных JSON из веб-сервисов*

**План модуля**

* Чтение данных JSON из веб-сервисов
* Чтение и запись файлов в формате JSON
* Чтение данных из баз данных (при помощи Python, без консоли)
* Работа с большими данными — MongoDB
* Домашнее задание

### JSON

В этом уроке мы узнаем для чего используется формат JSON, научимся читать данные в этом формате из веб-сервисов, а также преобразовывать их в `DataFrame` ***pandas***.

JavaScript Object Notation — нотация объектов JavaScript\
Пример JSON:
<pre><code>
    {
    "title":"Moscow",
    "location_type":"City",
    "woeid":2122265,
    "latt_long":"55.756950,37.614971"
    }
</code></pre>

Этот формат очень похож на словари в Python. И мы будем испльзовать это сходство в дальнейшем. Изначально он использовался только в языке Javascript как синтаксис объектов. Но он оказался настолько удачным, что сейчас стал самостоятельным текстовым форматом, который "из коробки" поддерживается во многих языках, в т.ч. и в Python.\
Чаще всего JSON используется для обмена данными между устройствами в Интернете, например, между мобильным приложением и сервером. Или между веб-сайтом и его сервером. Или просто между двумя серверами.

Преимущества формата JSON:
* понятен человеку
* с ним удобно работать
* не зависит от языка программирования

### Чтение данных из web-сервисов

Любое взаимодействие с web-сервисами состоит из нескольких этапов.

Этапы взаимодействия с веб-сервисом:
* Клиент отправляет запрос по адресу (URL) сервиса (URL — universal resource locator, универсальный локатор
ресурсов)
* Сервис обрабатывает запрос и возвращает результат клиенту (этот этап полностью скрыт от глаз клиента: мы не можем видеть что происходит внутри сервера)
* Клиент принимает ответ сервера и завершает соединение

<!DOCTYPE html>
<html>
 <head>
  <meta charset="utf-8">
  <title></title>
  <style>
   .thumb img  {
    border: 2px solid #55c5e9; /* Рамка вокруг фотографии */
    padding: 15px; /* Расстояние от картинки до рамки */
    background: #666; /* Цвет фона */
    margin-right: 10px; /* Отступ справа */
    margin-bottom: 10px; /* Отступ снизу */
   }
  </style>
 </head>
 <body>
  <p class="thumb">
    <img src="img/img1.png" height=700 width=250 alt="Данные мечты" class="thumb">
    <img src="img/img2.png" height=700 width=252 alt="Данные мечты" class="thumb">
    <img src="img/img3.png" height=700 width=268 alt="Данные мечты" class="thumb">
  </p>
 </body>
</html>

#### Поиск данных о погоде в городе при помощи сервиса MetaWeather

Для выполнения запросов к сервису, используем модуль `urllib.request`

In [3]:
import urllib.request as req
import json
import pandas as pd

Сформируем запрос к веб-сервису поиска города. Используем следующий адрес веб-сервиса:

#### Поиск идентификатора города

In [4]:
url = "https://www.metaweather.com/api/location/search/?query=moscow"

session = req.urlopen(url) # сессия связи с сервером
response = session.read().decode() # запишем ответ сервера
session.close() # закрываем соединение с сервером

response

'[{"title":"Moscow","location_type":"City","woeid":2122265,"latt_long":"55.756950,37.614971"}]'

Как видно, ответ сервера очень похож на словарь.

Важно не забывать закрывать соединение кадждый раз, когда заканчиваем получение ответа от сервера.\
Если забыть и оставить соединение открытым, то это может вызвать разные неприятные последствия: утечку памяти, сложность использования браузера или др. приложений, использующих Интернет.\
Закрыть соединение можно двумя способами:
* использовать метод **`session.close()`**,\
но есть недостаток у этого метода: можно забыть вызвать метод
* использовать **менеджер контекста** (ключевое слово `with` при создании сессии).\
В этом случае, не нужно явно вызывать метод `close` - это будет сделано автоматически как только выполнится блок инструкций внутри `with`.

Перепишем ячейку с использованием инструкции `with`

In [3]:
url = "https://www.metaweather.com/api/location/search/?query=moscow"

with req.urlopen(url) as session:
    response1 = session.read().decode()
response1

'[{"title":"Moscow","location_type":"City","woeid":2122265,"latt_long":"55.756950,37.614971"}]'

Готово. И нам не нужно закрывать соединение самостоятельно. Это за нас сделал **менеджер контекста**.

Теперь перейдём к работе с ответом сервера. Он записан в формате JSON.\
В Python при работе с JSON чаще всего используют два подхода:
1. С ним работают как и со словарём, т.к. он сам похож на словарь
2. Можно преобразовать его в `DataFrame` **`pandas`**\
и работать с ним как с другими датафреймами.

Оба подхода используют специальные методы из библиотеки JSON, которые предоставят нам дополнительную функциональность.\
Преобразуем ответ сервера к словарю. Вызовем функцию `loads` из модуля `json` и передадим ей ответ сервера.

In [4]:
url = "https://www.metaweather.com/api/location/search/?query=moscow"

with req.urlopen(url) as session:
    response1 = session.read().decode()
    data = json.loads(response1) # присвоим переменной data результат функции loads
data[0] # и выведем её на экран

{'title': 'Moscow',
 'location_type': 'City',
 'woeid': 2122265,
 'latt_long': '55.756950,37.614971'}

Мы видим список из одного словаря. Такой формат использует сервер для того, чтобы вернуть результат поиска, видимо, на случай, если будет найдено больше одного города.\
Мы вывели первый элемент этого списка.\
Итак, мы видим словарь, из которого мы можем получить идентификатор Москвы просто обратившись по ключу `woeid`.\
Запишем этот идентификтор в переменную `city`

In [6]:
city = data[0]['woeid']
city

2122265

#### Получение истории погоды

Теперь выполним другой запрос, чтобы получить историю погоды в Москве за неделю.\
Для этого используем следующий адрес:\
(Здесь мы используем в url идентификатор города, который мы получили в предыдущем запросе. А после идентификатора идёт YYYY/mm/dd, за которые мы хотим получить данные о погоде).
Преобразуем ответ сервера из строки в словарь и выведем его на экран

In [5]:
url = 'https://www.metaweather.com/api/location/2122265/2020/07/20/'

with req.urlopen(url) as session:
    response = session.read().decode()
    data = json.loads(response)
data

[{'id': 4919777191526400,
  'weather_state_name': 'Light Rain',
  'weather_state_abbr': 'lr',
  'wind_direction_compass': 'WNW',
  'created': '2020-07-20T18:29:31.885101Z',
  'applicable_date': '2020-07-20',
  'min_temp': 16.794999999999998,
  'max_temp': 24.02,
  'the_temp': 23.005,
  'wind_speed': 2.833971496858347,
  'wind_direction': 300.6971747272375,
  'air_pressure': 1011.5,
  'humidity': 66,
  'visibility': 12.808945756780403,
  'predictability': 75},
 {'id': 5843753002598400,
  'weather_state_name': 'Showers',
  'weather_state_abbr': 's',
  'wind_direction_compass': 'WNW',
  'created': '2020-07-20T15:29:31.460467Z',
  'applicable_date': '2020-07-20',
  'min_temp': 16.794999999999998,
  'max_temp': 24.02,
  'the_temp': 22.95,
  'wind_speed': 2.833971496858347,
  'wind_direction': 300.6971747272375,
  'air_pressure': 1011.5,
  'humidity': 66,
  'visibility': 12.808945756780403,
  'predictability': 73},
 {'id': 4695383806574592,
  'weather_state_name': 'Showers',
  'weather_state

На самом деле ответ был преобразован не в словарь, а в список словарей. И каждый словарь содержит одинаковую иформацию.\
Для нас важно то, что все словари в этом списке имеют одинаковый набор полей. А значит мы можем преобразовать этот список в датафрейм.\
Для этого воспользуемся функцией `read_json` библиотеки **`pandas`**. Передадим ей на вход строку, полученную от сервера и выедем первые 5 строк на экран.

In [12]:
df = pd.read_json(response)
df.head()

Unnamed: 0,id,weather_state_name,weather_state_abbr,wind_direction_compass,created,applicable_date,min_temp,max_temp,the_temp,wind_speed,wind_direction,air_pressure,humidity,visibility,predictability
0,4919777191526400,Light Rain,lr,WNW,2020-07-20T18:29:31.885101Z,2020-07-20,16.795,24.02,23.005,2.833971,300.697175,1011.5,66,12.808946,75
1,5843753002598400,Showers,s,WNW,2020-07-20T15:29:31.460467Z,2020-07-20,16.795,24.02,22.95,2.833971,300.697175,1011.5,66,12.808946,73
2,4695383806574592,Showers,s,NW,2020-07-20T12:29:32.565565Z,2020-07-20,16.725,23.92,21.94,2.74118,313.666637,1013.0,71,12.808946,73
3,4806990276591616,Showers,s,NW,2020-07-20T09:29:32.257786Z,2020-07-20,16.84,22.765,21.9,2.54197,317.329902,1013.0,71,12.501367,73
4,6202314589208576,Light Rain,lr,NNW,2020-07-20T06:29:32.073897Z,2020-07-20,15.115,21.955,20.64,2.356801,328.280489,1013.0,69,11.168215,75


И теперь мы можем работать как с обычным датафреймом. Например, давайте посмотрим за какой период времени доступны данные о погоде.\
Для этого найдём минимум и максимум столбца с датой

In [13]:
df['created'].min()

'2020-07-11T21:28:55.964456Z'

In [14]:
df['created'].max()

'2020-07-20T18:29:31.885101Z'

Здесь мы видим, что формат даты содержит помимо YYYY-mm-dd ещё и время с точностью до микросекунд. Это наиболее полный формат записи даты и времени.\
Итак, мы нашли данные минимум и максимум даты, похоже что нам доступны данные сразу за неделю, а не за один день. Это хорошо. Т.е. если нам нужен больший период времени, то нам понадобится делать меньше запросов к веб-серверу.

Вернёмся к функции `read_json`. Кроме строки с JSON, в эту функцию можно передать адрес сервиса, возвращающего JSON.\
Давайте попробуем: скопируем адрес сервиса и передадим его в функцию `read_json`

In [15]:
df = pd.read_json(url)
df.head()

Unnamed: 0,id,weather_state_name,weather_state_abbr,wind_direction_compass,created,applicable_date,min_temp,max_temp,the_temp,wind_speed,wind_direction,air_pressure,humidity,visibility,predictability
0,4919777191526400,Light Rain,lr,WNW,2020-07-20T18:29:31.885101Z,2020-07-20,16.795,24.02,23.005,2.833971,300.697175,1011.5,66,12.808946,75
1,5843753002598400,Showers,s,WNW,2020-07-20T15:29:31.460467Z,2020-07-20,16.795,24.02,22.95,2.833971,300.697175,1011.5,66,12.808946,73
2,4695383806574592,Showers,s,NW,2020-07-20T12:29:32.565565Z,2020-07-20,16.725,23.92,21.94,2.74118,313.666637,1013.0,71,12.808946,73
3,4806990276591616,Showers,s,NW,2020-07-20T09:29:32.257786Z,2020-07-20,16.84,22.765,21.9,2.54197,317.329902,1013.0,71,12.501367,73
4,6202314589208576,Light Rain,lr,NNW,2020-07-20T06:29:32.073897Z,2020-07-20,15.115,21.955,20.64,2.356801,328.280489,1013.0,69,11.168215,75


Итак, мы убедились, что это тот же самый датафрейм. И при этом нам не понадобилось выполнять промежуточные шаги: сначала читать JSON, потом передавать преобразованную строку в **`pandas`**. Но следует обратить внимание на то, что в датафрейм можно преобразовать только список словарей, но не обычный словарь.

### Выводы
На уроке мы узнали:
* JSON - текстровый формат записи данных об объектах
* JSON чаще всего используются для передачи данных между клиентом и сервером
* Как запросить данные у веб-серверов
* Как преобразовать в датафрейм

### Практика

#### Задание 1

Используя сервис MetaWeather, найдите идентификатор города Париж (Paris). Для запроса используйте адрес из следующей ячейки, заменив `%city%` на имя города.

In [19]:
url = "https://www.metaweather.com/api/location/search/?query=%s" % ('Paris')

with req.urlopen(url) as session:
    response = session.read().decode()

data = json.loads(response)
data[0]

{'title': 'Paris',
 'location_type': 'City',
 'woeid': 615702,
 'latt_long': '48.856930,2.341200'}

#### Задание 2

Используя полученный идентификатор города, запросите данные о погоде в Париже за 28 мая 2020 года. Для запроса используйте адрес из следующей ячейки, заменив `%city_id%`, `%year%`, `%month%`, `%day%` на идентификатор города, год, месяц и день соответственно. JSON с данными о погоде преобразуйте к датафрейму и найдите среднюю температуру для тех данных, которые вы получили от сервиса. Актуальная температура записывается в столбце `the_temp`.

In [20]:
url = 'https://www.metaweather.com/api/location/%s/%s/' % (data[0]['woeid'], '2020/05/28')

with req.urlopen(url) as session:
    response = session.read().decode()

df = pd.read_json(response)
df.head()

Unnamed: 0,id,weather_state_name,weather_state_abbr,wind_direction_compass,created,applicable_date,min_temp,max_temp,the_temp,wind_speed,wind_direction,air_pressure,humidity,visibility,predictability
0,6723109975490560,Clear,c,NE,2020-05-28T21:36:04.490586Z,2020-05-28,14.97,21.925,21.81,7.253747,45.331452,1028.0,43,15.078815,68
1,5582221102546944,Clear,c,NE,2020-05-28T18:36:05.696646Z,2020-05-28,13.895,24.47,24.165,7.170185,41.668908,1028.5,42,15.078815,68
2,4875719383449600,Clear,c,NE,2020-05-28T15:36:05.294001Z,2020-05-28,13.895,24.47,24.165,7.170185,41.668908,1028.5,42,15.078815,68
3,5781794072821760,Clear,c,NE,2020-05-28T12:36:04.965983Z,2020-05-28,13.865,23.555,22.34,7.230251,42.670098,1030.0,48,15.078815,68
4,5252630563520512,Clear,c,NE,2020-05-28T09:36:04.743683Z,2020-05-28,13.93,23.0,22.37,7.199636,43.334991,1030.0,47,14.516474,68


In [21]:
df.the_temp.mean()

23.024791666666673

## **18.2** *Чтение и запись файлов в формате JSON*

**План урока**
* Запись данных JSON в файлы
* Чтение файлов в формате JSON

Файлы в формате JSON  - это текстовые файлы. А значит, их можно открыть с помощью блокнота и посмотреть что в этих файлах записано.

Выполним запрос к сервису погоды ещё раз, чтобы работать со свежими данными.

In [22]:
url = 'https://www.metaweather.com/api/location/2122265/2020/06/20/'

with req.urlopen(url) as session:
    response = session.read().decode()
    s = json.loads(response) # сохраняем ответ сервера в переменную s
s

[{'id': 4723897926680576,
  'weather_state_name': 'Heavy Rain',
  'weather_state_abbr': 'hr',
  'wind_direction_compass': 'NE',
  'created': '2020-06-20T18:28:31.731018Z',
  'applicable_date': '2020-06-20',
  'min_temp': 18.674999999999997,
  'max_temp': 25.810000000000002,
  'the_temp': 24.695,
  'wind_speed': 4.646417370025716,
  'wind_direction': 40.0,
  'air_pressure': 1014.0,
  'humidity': 72,
  'visibility': 14.283459595959595,
  'predictability': 77},
 {'id': 5424697472712704,
  'weather_state_name': 'Light Rain',
  'weather_state_abbr': 'lr',
  'wind_direction_compass': 'NE',
  'created': '2020-06-20T15:28:31.713244Z',
  'applicable_date': '2020-06-20',
  'min_temp': 18.674999999999997,
  'max_temp': 25.810000000000002,
  'the_temp': 24.695,
  'wind_speed': 4.646417370025716,
  'wind_direction': 40.0,
  'air_pressure': 1014.0,
  'humidity': 72,
  'visibility': 14.283459595959595,
  'predictability': 75},
 {'id': 5918873591218176,
  'weather_state_name': 'Light Rain',
  'weather

Чтобы записать данные в файл, создадим объект файла при помощи функции `open` из стандартной библиотеки python.\
Чтобы записать в файл, нам понадобится функция `dump` из библиотеки `json`.\
Эта функция принимает два параметра:
1. Строка в формате JSON
2. Объект файла, в который нужно записать строку
3. Также можно добавить необязательный параметр `indent`.\
Этот параметр нужен для того, чтобы при сохранении файл был красиво отформатирован.\
Благодаря этому, такой файл будет легче читаться глазами.\

После записи в файл, нужно закрыть объект файла. Чтобы разрешить другим процессам работать с файлом.\
Для этого у объекта файла нужно вызвать метод `close`. Как в случае работы с веб-сервисом.

In [25]:
file = open('out/file.json', 'w') # открываем файл на чтение
json.dump(s, file, indent=4) # добавим отступ в 4 пробела
file.close()

Откроем файл и убедимся что он он записан верно. И данные в нём красиво отформатированы, т.к. мы указали параметр `indent`.

Теперь проделаем тоже самое, но будем открывать файл при промощи **менеджера контекста**.

In [27]:
with open('out/file.json', 'w') as file:
    json.dump(s, file, indent=4)

### Чтение файла JSON

Теперь прочитаем файл. Для этого откроем сохранённый файл при помощи **менеджера контекста**, добавив режим работы с файлом **r** (т.е. read - на чтение)

In [29]:
with open('out/file.json', 'r') as file:
    s = json.load(file)

s

[{'id': 4723897926680576,
  'weather_state_name': 'Heavy Rain',
  'weather_state_abbr': 'hr',
  'wind_direction_compass': 'NE',
  'created': '2020-06-20T18:28:31.731018Z',
  'applicable_date': '2020-06-20',
  'min_temp': 18.674999999999997,
  'max_temp': 25.810000000000002,
  'the_temp': 24.695,
  'wind_speed': 4.646417370025716,
  'wind_direction': 40.0,
  'air_pressure': 1014.0,
  'humidity': 72,
  'visibility': 14.283459595959595,
  'predictability': 77},
 {'id': 5424697472712704,
  'weather_state_name': 'Light Rain',
  'weather_state_abbr': 'lr',
  'wind_direction_compass': 'NE',
  'created': '2020-06-20T15:28:31.713244Z',
  'applicable_date': '2020-06-20',
  'min_temp': 18.674999999999997,
  'max_temp': 25.810000000000002,
  'the_temp': 24.695,
  'wind_speed': 4.646417370025716,
  'wind_direction': 40.0,
  'air_pressure': 1014.0,
  'humidity': 72,
  'visibility': 14.283459595959595,
  'predictability': 75},
 {'id': 5918873591218176,
  'weather_state_name': 'Light Rain',
  'weather

Как и в случае с веб-сервисами, если мы работаем в JSON ввиде списка словарей, мы можем загрузить его в **`pandas`** `DataFrame`.
Причём, мы можем загрузить как список словарей,

In [40]:
with open('out/file.json', 'r') as file:
    s = file.read()
    
df = pd.read_json(s)
df.head()

Unnamed: 0,id,weather_state_name,weather_state_abbr,wind_direction_compass,created,applicable_date,min_temp,max_temp,the_temp,wind_speed,wind_direction,air_pressure,humidity,visibility,predictability
0,4723897926680576,Heavy Rain,hr,NE,2020-06-20T18:28:31.731018Z,2020-06-20,18.675,25.81,24.695,4.646417,40.0,1014.0,72,14.28346,77
1,5424697472712704,Light Rain,lr,NE,2020-06-20T15:28:31.713244Z,2020-06-20,18.675,25.81,24.695,4.646417,40.0,1014.0,72,14.28346,75
2,5918873591218176,Light Rain,lr,NNE,2020-06-20T12:28:31.907804Z,2020-06-20,18.98,28.18,27.485,3.746674,27.740008,1014.0,64,14.28346,75
3,5531583773671424,Heavy Rain,hr,NNE,2020-06-20T09:28:32.329702Z,2020-06-20,18.985,28.65,27.44,3.5765,30.292134,1014.0,63,12.658574,77
4,6432472222924800,Light Rain,lr,NE,2020-06-20T06:28:31.423102Z,2020-06-20,18.28,29.665,29.515,3.217347,34.011018,1014.0,56,14.14769,75


так и пропустив этот шаг, загрузить сам файл

In [30]:
df = pd.read_json('out/file.json')
df.head()

Unnamed: 0,id,weather_state_name,weather_state_abbr,wind_direction_compass,created,applicable_date,min_temp,max_temp,the_temp,wind_speed,wind_direction,air_pressure,humidity,visibility,predictability
0,4723897926680576,Heavy Rain,hr,NE,2020-06-20T18:28:31.731018Z,2020-06-20,18.675,25.81,24.695,4.646417,40.0,1014.0,72,14.28346,77
1,5424697472712704,Light Rain,lr,NE,2020-06-20T15:28:31.713244Z,2020-06-20,18.675,25.81,24.695,4.646417,40.0,1014.0,72,14.28346,75
2,5918873591218176,Light Rain,lr,NNE,2020-06-20T12:28:31.907804Z,2020-06-20,18.98,28.18,27.485,3.746674,27.740008,1014.0,64,14.28346,75
3,5531583773671424,Heavy Rain,hr,NNE,2020-06-20T09:28:32.329702Z,2020-06-20,18.985,28.65,27.44,3.5765,30.292134,1014.0,63,12.658574,77
4,6432472222924800,Light Rain,lr,NE,2020-06-20T06:28:31.423102Z,2020-06-20,18.28,29.665,29.515,3.217347,34.011018,1014.0,56,14.14769,75


### Итоги

Итак, на этом уроке мы узнали:
* Как сохранять данные в файле JSON с удобным форматированием
* Как читать данные из файлов
* Как преобразовать данные из файла JSON в датафрейм **`pandas`**

### Практика

#### Задание 1 

Используя сервис MetaWeather, найдите идентификатор Москвы (Moscow). Для запроса используйте адрес из следующей ячейки, заменив `%city%` на имя города.

In [41]:
url = "https://www.metaweather.com/api/location/search/?query=%s" % 'moscow'

with req.urlopen(url) as session:
    response = session.read().decode()
response
data = json.loads(response)
data[0]

{'title': 'Moscow',
 'location_type': 'City',
 'woeid': 2122265,
 'latt_long': '55.756950,37.614971'}

#### Задание 2 

Используя полученный идентификатор города, запросите данные о погоде в Москве за 28 апреля 2020 года. Для запроса используйте адрес из следующей ячейки, заменив `%city_id%`, `%year%`, `%month%`, `%day%` на идентификатор города, год, месяц и день соответственно.

In [42]:
url = 'https://www.metaweather.com/api/location/%s/%s/' % (data[0]['woeid'], '2020/04/28')

with req.urlopen(url) as session:
    response = session.read().decode()
    s = json.loads(response)
    
s

[{'id': 4520607007899648,
  'weather_state_name': 'Showers',
  'weather_state_abbr': 's',
  'wind_direction_compass': 'WNW',
  'created': '2020-04-28T18:27:32.227221Z',
  'applicable_date': '2020-04-28',
  'min_temp': 3.67,
  'max_temp': 10.915,
  'the_temp': 9.965,
  'wind_speed': 4.5501686624777955,
  'wind_direction': 297.50133470847635,
  'air_pressure': 1009.0,
  'humidity': 39,
  'visibility': 12.064543068480077,
  'predictability': 73},
 {'id': 5728158202462208,
  'weather_state_name': 'Showers',
  'weather_state_abbr': 's',
  'wind_direction_compass': 'WNW',
  'created': '2020-04-28T15:27:32.320780Z',
  'applicable_date': '2020-04-28',
  'min_temp': 3.67,
  'max_temp': 10.915,
  'the_temp': 9.92,
  'wind_speed': 4.5501686624777955,
  'wind_direction': 297.50133470847635,
  'air_pressure': 1009.0,
  'humidity': 39,
  'visibility': 12.064543068480077,
  'predictability': 73},
 {'id': 5480870762774528,
  'weather_state_name': 'Showers',
  'weather_state_abbr': 's',
  'wind_directi

#### Задание 3 

Сохраните полученные данные в файл `file.json`. Для форматирования файла используйте четыре пробела.

In [44]:
with open('out/practice.json', 'w') as file:
    json.dump(s, file, indent=4)

#### Задание 4 

Загрузите содержимое файла `file.json` в DataFrame и выведите первые пять строк на экран.

In [45]:
df = pd.read_json('out/practice.json')
df.head()

Unnamed: 0,id,weather_state_name,weather_state_abbr,wind_direction_compass,created,applicable_date,min_temp,max_temp,the_temp,wind_speed,wind_direction,air_pressure,humidity,visibility,predictability
0,4520607007899648,Showers,s,WNW,2020-04-28T18:27:32.227221Z,2020-04-28,3.67,10.915,9.965,4.550169,297.501335,1009.0,39,12.064543,73
1,5728158202462208,Showers,s,WNW,2020-04-28T15:27:32.320780Z,2020-04-28,3.67,10.915,9.92,4.550169,297.501335,1009.0,39,12.064543,73
2,5480870762774528,Showers,s,NW,2020-04-28T12:27:32.389465Z,2020-04-28,3.305,10.225,8.145,4.519929,308.334994,1009.5,51,12.064543,73
3,5972593918083072,Showers,s,NW,2020-04-28T09:27:32.493205Z,2020-04-28,3.195,9.915,8.025,4.55598,308.667384,1009.5,51,10.536902,73
4,5468569036914688,Showers,s,NW,2020-04-28T06:27:31.423059Z,2020-04-28,1.425,10.26,8.765,4.571307,308.667384,1009.5,47,12.849024,73


## **18.3** *Чтение из баз данных с помощью pandas и sqlalchemy*



В этом уроке мы научимся читать данные из разных баз данных и выполнять к ним запросы с помощью библиотеки **`pandas`**

**План урока**
* Подключение к базам данных с помощью Python
* Чтение данных из БД с помощью Python и Pandas

### Подключение к БД

Существует несколько способов подключения к БД. Один из наиболее частых - подключение при помощи библиотек:
* `sqlalchemy` - для создания подключения
* `psycopg2` - как драйвер для PostgreSQL\
(мы будем работать с БД PostgreSQL)

*- нужно установить эти библиотеки, если они ещё не установлены

In [46]:
import sqlalchemy
import psycopg2

Для подключения к БД необходимо использовать функцию `create_engine` библиотеки `sqlalchemy`.\
В качестве обязательного параметра этой функции необходимо передать строку подключения.\
Эта строка определённого жёстко заданного формата. Разберём эту строку.

- В начале строки указывается диалект языка SQL, который мы планируем использовать. В нашем случае это **PostgreSQL**.
- Далее, после `+` указывается название драйвера, который мы используем для подключения. У нас это `psycopg2`.\
Драйвер указывать необязательно, если у вас в системе есть точно только один драйвер. Если же установлено несколько драйверов, то нужно обязательно указать конкретно драйвер.\
- После этого ставится `://`, далее пишется имя пользователя (`readonly`), `:` пароль (`6hajV34RTQfmxhS`).
- Сам адрес СУБД пишется через `@`: `dsstudents.skillbox.ru`.
- После адреса ставится `:` и указывается порт, на котором доступна БД: `5432`\
(Разные БД имею свои исторически сложившиеся порты, например для PostgreSQL - это 5432. Но часто бывает, что БД находится на каком-то другом порту. Поэтому, лучше всегда уточнять его).
- После порта ставится слеш `/` и указывается название конкретной БД, к которой мы хотим подключиться: - `db_ds_students`

Функция `create_engine` ждёт объект, который принято называть **`engine`**.\
Это отправная точка работы с БД, которя позволяет создавть отдельные подключения к БД, анализировать её структуру и т.д.\
Иными словами, **engine** содержит все действия, которые мы можем совершить с указанной БД.\
Теперь вызовем у этой переменной метод `connect`, чтобы создать объект подключения к БД и запишем этот объект в другую переменную.

In [47]:
conn = 'postgresql+psycopg2://readonly:6hajV34RTQfmxhS@dsstudents.skillbox.ru:5432/db_ds_students'

engine = sqlalchemy.create_engine(conn) # создаём движок указанной БД
connect = engine.connect() # создаём коннект к БД

Итак, мы загрузили БД. Посмотрим теперь какие таблицы нам доступны в этой БД.\
Для анализа структуры БД используется функция `inspect` библиотеки `sqlalchemy`.\
Она принимает на вход **`enginge`** и возвращает объект `inspector`.\
Теперь, используя этот объект, мы можем получать детальную информацию о структуре БД.\
Например, вызовем метод `get_table_names` чтобы получить список доступных таблиц.

In [48]:
inspector = sqlalchemy.inspect(engine)
inspector.get_table_names()

['keywords', 'links', 'ratings', 'exploratory', 'course_purchases', 'joi']

Итак, мы видим, что нам доступно 6 таблиц. Поработаем с таблицей `course_purchases`.\
По названию кажется что в ней содержатся сведения о покупке курсов. Убедимся в этом, загрузив её содержимое в **`pandas`** `DataFrame`.\
Для этого используем функцию `read_sql` из библиотеки **`pandas`**.\
Эта функция принимает два обязательных аргумента:
1. Запрос к БД
2. Объект подключения к БД, который мы создали ранее

Вернёмся к запросу. Чтобы загрузить всё содержимое таблицы в датафрейм, нам нужно написать следующий запрос:
`select * from course_purchases`

In [49]:
df = pd.read_sql("select * from course_purchases", connect)
df.head(10)

Unnamed: 0,user_id,course_id,purchase_date,purchase_place
0,user_id,course_id,purchase_date,purchase_place
1,ed5da480-57a2-489c-8e68-512155ab9892,fc082ec6-7721-4419-916b-06e4b560b50e,2019-03-22,Екатеринбург
2,7ba07e70-f76a-4bbc-9b5d-34265f4f7638,66583e42-987a-4c38-b168-e5ee4772a627,2018-10-28,Курганинск
3,7ba07e70-f76a-4bbc-9b5d-34265f4f7638,b45874ec-57c7-41e7-a38c-580330a23f50,2019-04-06,Владивосток
4,8b1752da-599d-413a-a2e9-bc75387b2be9,2d98baac-eb91-4285-99e1-bee66018cd25,2019-03-23,Владивосток
5,3e3b7b84-65f0-4152-815a-730bec31bb9d,83982097-8179-4ba2-affa-f8aef42fc070,2019-03-25,Катайск
6,3e3b7b84-65f0-4152-815a-730bec31bb9d,71a3a64e-b0ec-40ac-9952-a9833900a48e,2019-02-25,Североуральск
7,8c390b6e-a490-44ac-b974-f5dec7f6970b,b45874ec-57c7-41e7-a38c-580330a23f50,2019-03-06,Сочи
8,8c390b6e-a490-44ac-b974-f5dec7f6970b,34bfd77d-4ddd-411b-af91-6d2f92dfb8ce,2019-03-26,Владивосток
9,1affa6e8-1e05-4728-96ed-dd471f9552d1,590078fa-1cd7-4a1c-b184-839d79f9c54a,2019-02-16,Александровск-Сахалинский


Заголовок продублировался. Наверно, так было в изначальной БД. Но мы можем это быстро поправить.

In [50]:
df = df.iloc[1:,:]
df

Unnamed: 0,user_id,course_id,purchase_date,purchase_place
1,ed5da480-57a2-489c-8e68-512155ab9892,fc082ec6-7721-4419-916b-06e4b560b50e,2019-03-22,Екатеринбург
2,7ba07e70-f76a-4bbc-9b5d-34265f4f7638,66583e42-987a-4c38-b168-e5ee4772a627,2018-10-28,Курганинск
3,7ba07e70-f76a-4bbc-9b5d-34265f4f7638,b45874ec-57c7-41e7-a38c-580330a23f50,2019-04-06,Владивосток
4,8b1752da-599d-413a-a2e9-bc75387b2be9,2d98baac-eb91-4285-99e1-bee66018cd25,2019-03-23,Владивосток
5,3e3b7b84-65f0-4152-815a-730bec31bb9d,83982097-8179-4ba2-affa-f8aef42fc070,2019-03-25,Катайск
...,...,...,...,...
149,395ab5c0-e2f1-4644-974e-29fa4f821b0e,8fba0f0c-e887-4090-84dd-121712a5b86b,2019-04-04,Санкт-Петербург
150,1b681fe4-5c5a-4c60-b0a3-24241374df95,f6cc4782-0ec5-4741-8c32-6fec0ad6f14b,2018-05-30,Москва
151,1b681fe4-5c5a-4c60-b0a3-24241374df95,3cc8041e-ac78-4c27-899f-c204427d3f63,2019-01-04,Южно-Курильск
152,9fc78a49-22bc-4c21-9ee7-1444030c371a,fe32d4f8-9272-4be2-8a74-da8ef0c2bad8,2018-11-17,Пермь


Теперь попробуем сделать более сложный запрос с группировкой. Например, посмотрим, сколько курсов было куплено в каждом городе.\
Мы можем сделать это двумя способами:
1. Прямо в **`pandas`**.\
Для этого у нас уже есть загруженный датафрейм. Используем метод `groupby` по городу и посчитаем количество курсов, проданных в каждом городе с помощью метода `count`.

In [51]:
df.groupby('purchase_place')['course_id'].count()

purchase_place
Алдан                         1
Александровск-Сахалинский     1
Ангарск                       1
Анива                         1
Арзамас                       1
Аршан (Бурят.)                1
Асбест                        1
Аша                           1
Белогорск (Амур.)             1
Биробиджан                    1
Верхний Баскунчак             1
Владивосток                  25
Волхов                        1
Гаврилов-Ям                   1
Диксон                        1
Екатеринбург                 15
Зеленогорск (Ленин.)          1
Златоуст                      1
Карабудахкент                 1
Катайск                       1
Качканар                      1
Колпашево                     2
Костомукша                    1
Крымск                        1
Курганинск                    1
Минусинск                     1
Москва                       30
Нефтеюганск                   1
Орел                          1
Орск                          1
Павловский Посад         

Второй способ заключается в том, чтобы с помощью **SQL** привести все необходимые группировки и потом скачать уже подготовленные данные.\
Попробуем это сделать.\
Снова используем метод `read_sql` чтобы выполнить запрос к БД, но вместо простого `SELECT` выполним запрос с группировкой.\
Выглядеть этот запрос будет так:

In [52]:
df = pd.read_sql("select purchase_place, count(course_id) from course_purchases group by purchase_place", connect)
df.head(10)

Unnamed: 0,purchase_place,count
0,Асбест,1
1,Александровск-Сахалинский,1
2,Костомукша,1
3,Орел,1
4,Саратов,1
5,Зеленогорск (Ленин.),1
6,Минусинск,1
7,Печора,1
8,Катайск,1
9,Павловский Посад,1


Мы получили такой же датафрейм. Оба способа приводят к одному и тому же рельутату. Так каким же способом лучше пользоваться?\
Всё зависит от размера данных, которые вы хотите загрузить из БД. Если данных не много, и они помещаются в оперативную память компьютера, то можно пользоваться первым способом. Т.е. сначала загрузить данные в датафрейм, почистить их, а затем преобразовывать.\
Если же данных много и они не помещаются в памяти, или нужно проводить какие-то сложные группировки или объединения таблиц, тогда имеет смысл сначала подготовить данные в **SQL**, а затем загрузить в датафрейм уже готовые данные.

### Итоги

На этом уроке мы узнали:
* Как подключиться к БД\
Используя библиотеки `sqlalchemy` и `psycopg2`
* Научились загружать данные из таблицы БД в **`pandas`** `DataFrame`
* Разобрали, в каких случаях предпочтительнее проводить обработку данных в СУБД,\
а в каких можно загружать данные целиком и обрабатывать их с помощью **`pandas`**

### Практика

#### Задание 1

Подключитесь к базе данных, загрузите содержимое таблицы `course_purchases` в DataFrame и выведите первые 10 строк на экран.

In [56]:
conn = 'postgresql+psycopg2://readonly:6hajV34RTQfmxhS@dsstudents.skillbox.ru:5432/db_ds_students'

engine = sqlalchemy.create_engine(conn)
connect = engine.connect()

df = pd.read_sql("select * from course_purchases", connect).iloc[1:,:]
df.head(10)

Unnamed: 0,user_id,course_id,purchase_date,purchase_place
1,ed5da480-57a2-489c-8e68-512155ab9892,fc082ec6-7721-4419-916b-06e4b560b50e,2019-03-22,Екатеринбург
2,7ba07e70-f76a-4bbc-9b5d-34265f4f7638,66583e42-987a-4c38-b168-e5ee4772a627,2018-10-28,Курганинск
3,7ba07e70-f76a-4bbc-9b5d-34265f4f7638,b45874ec-57c7-41e7-a38c-580330a23f50,2019-04-06,Владивосток
4,8b1752da-599d-413a-a2e9-bc75387b2be9,2d98baac-eb91-4285-99e1-bee66018cd25,2019-03-23,Владивосток
5,3e3b7b84-65f0-4152-815a-730bec31bb9d,83982097-8179-4ba2-affa-f8aef42fc070,2019-03-25,Катайск
6,3e3b7b84-65f0-4152-815a-730bec31bb9d,71a3a64e-b0ec-40ac-9952-a9833900a48e,2019-02-25,Североуральск
7,8c390b6e-a490-44ac-b974-f5dec7f6970b,b45874ec-57c7-41e7-a38c-580330a23f50,2019-03-06,Сочи
8,8c390b6e-a490-44ac-b974-f5dec7f6970b,34bfd77d-4ddd-411b-af91-6d2f92dfb8ce,2019-03-26,Владивосток
9,1affa6e8-1e05-4728-96ed-dd471f9552d1,590078fa-1cd7-4a1c-b184-839d79f9c54a,2019-02-16,Александровск-Сахалинский
10,f7006ad5-9ecd-4606-a8ee-9c730baeb000,187e1d34-1d4b-4ded-8f40-8425974e25d6,2019-01-20,Сочи


#### Задание 2

Используя DataFrame из предыдущего задания, определите для каждого курса количество пользователей, купивших его. Подсказка: используйте метод groupby.

In [57]:
df.groupby('course_id').user_id.count()

course_id
0172e898-7ddf-4ce9-ae0f-3c26ce949141    2
0722fb94-7c6b-41fd-98ea-d4cab87f3655    3
0d0d9bbc-c451-41a0-983e-0733046044de    2
187e1d34-1d4b-4ded-8f40-8425974e25d6    3
196cd844-ffcd-4694-8b94-2983421ddb87    3
215c9f43-6046-454b-9f82-e1992f835227    4
2466d92a-2a30-4edc-bb8d-bcc2a3891099    3
2d98baac-eb91-4285-99e1-bee66018cd25    4
31bfef7f-5310-4256-a097-a9c4243654ff    1
34bfd77d-4ddd-411b-af91-6d2f92dfb8ce    5
3c580c86-9f15-4730-9578-1aca7d19a8ca    2
3cc8041e-ac78-4c27-899f-c204427d3f63    4
3d2c9fe4-5659-4457-bfd8-6aef1f516374    2
44ec7db3-07ab-4b9d-aaef-4b52684510ea    1
46ee2954-ec65-4b53-af1e-4a7c7d318873    2
493b245c-c7e6-4134-8b58-3264971e097e    9
590078fa-1cd7-4a1c-b184-839d79f9c54a    8
5b58a4ab-9950-4bdf-bc4d-16225adead8a    8
625cd518-8a6f-4bef-9326-10a7e3f9417c    4
66583e42-987a-4c38-b168-e5ee4772a627    4
71a3a64e-b0ec-40ac-9952-a9833900a48e    1
72ddec62-3821-4c9e-a8dd-29e05e7a3210    5
83982097-8179-4ba2-affa-f8aef42fc070    3
846231ae-5a86-4218-bb3b-

#### Задание 3. 

Используя SQL-запрос с группировкой (GROUP BY), определите для каждого курса количество пользователей, купивших его. Результат запроса загрузите в DataFrame и выведите первые 10 строк на экран.

In [62]:
df = pd.read_sql("select course_id, count(user_id) from course_purchases group by course_id", connect)
df = df[df.course_id != 'course_id'] # отфильтруем строку 27, которая дублирует заголовок (изначально первая строка)
df

Unnamed: 0,course_id,count
0,fe32d4f8-9272-4be2-8a74-da8ef0c2bad8,3
1,f716b7b6-90af-4b0a-998b-b382beadcfc1,3
2,b45874ec-57c7-41e7-a38c-580330a23f50,6
3,96dcf479-8f6c-4953-804b-a4f2f9c1e2ca,7
4,f6cc4782-0ec5-4741-8c32-6fec0ad6f14b,4
5,ff8101ba-a43d-404b-bfeb-a4e5ae4a3dfc,1
6,b96f0a37-6a38-45cb-9bcf-5940a06d877f,1
7,0d0d9bbc-c451-41a0-983e-0733046044de,2
8,196cd844-ffcd-4694-8b94-2983421ddb87,3
9,8e730d61-1924-419f-9c0a-c6b7d9688114,4


## **18.4** *Работа с большими данными - MongoDB*

В этом уроке мы познакомимся с нереляционной БД **MongoDB**

**План урока**
* Что такое большие данные.\
Чем они отличаются от других данных
* Как подключиться к **MongoDB** с помощью Python
* Как читать данные из **MongoDB**
* Выполнять различные запросы к **MongoDB**

### Что такое большие данные

**Big Data** - это разнообразные структурированные и неструктурированные данные большого объёма, требующие быстрой обработки.

Из этого определения можно выделить три свойства BD, т.н. **"V3"**:
* **Объём (Volume)**.\
Размер больших данных, который варьируется от гигабайта до терабайта и более
* **Скорость (Velocity)**.\
Система обработки больших данных должна быть достаточно быстрой, чтобы обрабатывать поступающие данные почти в режиме реального времени
* **Разнообразие (Variety)**.\
Данные могут быть классифицированы по различным типам.\
Оптимальная система обработки больших данных должна предоставлять функции для\
манипулирования этими данными без дополнительных действий со стороны клиента.

Наример, **MongoDB** поддерживает операции с геолокацией: таких, как поиск известных точек вблизи координат, указанных в запросе.

### Что такое **MongoDB**

**MongoDB** - это очень гибкая и масштабируемая **документоориентированная** система управления базами данных.\
Документоориентированная означает что такие БД в отличие от стандартных реляционных оперируют не строками или таблицами, а документами и коллекциями документов.\
Фактически, каждый документ можно рассматривать как объект формата JSON.\
Отличие документа от таблицы в том, что в документе набор полей жёстко не ограничен, т.е. потенциально в каждом документе может быть свой набор полей. И все эти документы могут находиться в одной коллекции.\
Также, **MongoDB** поддерживает все три свойства больших данных.

### Подключение к MongoDB

Для подключения нам понадобится библиотека `pymongo` (тоже требует установки)

In [63]:
import pymongo

В начале, мы указывает название диалекта.\
Поскольку у нас в системе есть только один драйвер подключения, который был установлен вместе с библиотекой 'pymongo', то мы можем его не указывать.\
Далее вводим - имя пользователя : пароль @ хост : порт.
Для **MongoDB** стандартный порт 27017, но всегда уточняйте этот момент.\
При подключении к **MongoDB** название БД указывают немного по-другому: ещё пишут после параметра `?authSource=`.

Теперь создадим подключение к **MongoDB**.\
Для этого создадим экземпляр класса `MongoClient`, а в конструктор класса передадим строку подключения. И запишем экземпляр клиента в переменную `connect`.\
Для того, чтобы работать с конкретной базой, нужно обратиться к клиенту как к словарю и передать название требуемой БД как ключ.
Запишем результат в новую переменную `db`:

In [65]:
conn = 'mongodb://students:X63673t47Gl03Sq@dsstudents.skillbox.ru:27017/?authSource=movies'

connect = pymongo.MongoClient(conn)
db = connect['movies']

Теперь посмотрим какие коллекции в этой базе нам доступны. Для этого вызвать метод `list_collection_names` у объекта db

In [66]:
db.list_collection_names()

['tags', 'users']

Нам доступны коллекции `users` и `tags`. Мы будем работать в этом уроке только с коллекцией `tags`.\
Создадим отдельную переменную под эту коллекцию. Чтобы было проще работать

In [80]:
tags = db['tags']

Мы создали переменную tags в коллекции `tags`. Теперь посмотрим на документы, записанные в этой коллекции.
Мы можем посомотреть на превый документ вызвав у коллекции метод `find_one`

In [81]:
tags.find_one()

{'_id': ObjectId('5c822402c0669da98bd5081e'), 'id': 931, 'name': 'jealousy'}

Мы видим документ в формате JSON, содержащий три поля:
1. `_id` - это внутренний идентификатор документа в БД
2. `id` - это идентификатор тэга
3. `name` - имя тэга

Теперь посчитаем сколько документов содержится в коллекции. Для этого вызовем метод `find`, а после него вызовем метод `count`.

In [83]:
tags.estimated_document_count()

158680

In [85]:
users = db['users']
users.estimated_document_count()

100

Мы также можем посмотреть на несколько первых записей по аналогии с методом `head` в **`pandas`**.\
Для этого нам нужно вызвать цепочку методов:\
сначала метод `find`, который говорит, что нужно найти несколько записей (или даже все),\
а после него метод `limit`, который ограничивает общее число возвращаемых документов:

In [84]:
head = tags.find().limit(5)
head

<pymongo.cursor.Cursor at 0x1e5dc4b9490>

Как видно, переменная *head* - это объект класса `Cursor`, а не список словарей, как мы ожидали.\
`Cursor` похож на итератор, т.е. он обеспечивает последовательный доступ к элементам коллекции одни за одним.\
С `Cursor`'ом в `pymongo` можно работать несколькими способамиЖ
1. Если документов планируется много, мы можем обрабатывать их один за одним чтобы не загружать весь большой объём данных в оперативную память.\
Попробуем вывести каждый элемент на экран:

In [86]:
for doc in head:
    print(doc)

{'_id': ObjectId('5c822402c0669da98bd5081e'), 'id': 931, 'name': 'jealousy'}
{'_id': ObjectId('5c822402c0669da98bd5081f'), 'id': 4290, 'name': 'toy'}
{'_id': ObjectId('5c822402c0669da98bd50820'), 'id': 5202, 'name': 'boy'}
{'_id': ObjectId('5c822402c0669da98bd50821'), 'id': 6054, 'name': 'friendship'}
{'_id': ObjectId('5c822402c0669da98bd50822'), 'id': 9713, 'name': 'friends'}


2. Этот способ можно применять, если мы используем небольшое количество данных, которое помещается в оперативную память.\
Мы можем преобразовать курсор к списку и этот списко будет содержать все документы курсора. Попробуем:

In [87]:
my_list = list(head)
my_list

[]

Список оказался пуст. Это произошло потому что `Cursor` не загружает документы на ваш компьютер, а указывает на подготовленный список документов, находящийся внутри сервера **MongoDB**. Изначально `Cursor` указывает на первый элемент этого списка, а затем, когда мы используем цикл, мы каждую итерацию переставляем `Cursor` на следующий элемент.\
И когда мы пройдём по всему списку, `Cursor` не будет указывать ни на какой документ. Поэтому, нам нужно ещё раз вызвать методы `find` и `limit` чтобы получить новый `Cursor`.\
Вызовем их заново и запишем список в новую переменную.

In [88]:
head = tags.find().limit(5)
my_list = list(head)
my_list

[{'_id': ObjectId('5c822402c0669da98bd5081e'), 'id': 931, 'name': 'jealousy'},
 {'_id': ObjectId('5c822402c0669da98bd5081f'), 'id': 4290, 'name': 'toy'},
 {'_id': ObjectId('5c822402c0669da98bd50820'), 'id': 5202, 'name': 'boy'},
 {'_id': ObjectId('5c822402c0669da98bd50821'),
  'id': 6054,
  'name': 'friendship'},
 {'_id': ObjectId('5c822402c0669da98bd50822'), 'id': 9713, 'name': 'friends'}]

Вижим первые 5 документов коллекции. И при этом, документы из этого списка уже никуда не пропадут потому что мы загрузили их себе на компьютер. Можно это проверить.

In [89]:
my_list

[{'_id': ObjectId('5c822402c0669da98bd5081e'), 'id': 931, 'name': 'jealousy'},
 {'_id': ObjectId('5c822402c0669da98bd5081f'), 'id': 4290, 'name': 'toy'},
 {'_id': ObjectId('5c822402c0669da98bd50820'), 'id': 5202, 'name': 'boy'},
 {'_id': ObjectId('5c822402c0669da98bd50821'),
  'id': 6054,
  'name': 'friendship'},
 {'_id': ObjectId('5c822402c0669da98bd50822'), 'id': 9713, 'name': 'friends'}]

Вернёмся к списку.\
Мы работаем со списком словарей, а значит можем преобразовать его к датафрейму **`pandas`**.
Для это просто вызовем конструктор `DataFrame`, в который передадим список словарей.\
И выведем датафрейм на экран.

In [90]:
df = pd.DataFrame(my_list)
df.head()

Unnamed: 0,_id,id,name
0,5c822402c0669da98bd5081e,931,jealousy
1,5c822402c0669da98bd5081f,4290,toy
2,5c822402c0669da98bd50820,5202,boy
3,5c822402c0669da98bd50821,6054,friendship
4,5c822402c0669da98bd50822,9713,friends


Теперь мы можем работать с этим датафреймом.\
Но вернёмся к **MongoDB**. По аналогии с SQL мы можем использовать различные фильтры чтобы ограничить выдачу или найти конкретные документы.\
Например, мы хотим найти все тэги с индентификатором 4290.\
Фильтры в **MongoDB** выполняют ту же самую функцию, что и `WHERE` в SQL, однако, строится по-другому.
В **MongoDB** фильтр - это **словарь**, который чаще всего строится следующим образом:
* **ключ фильтра** - это название поля в документах, по которому нужно фильтровать (в нашем случае это `id`)
* **значение** - это ещё один словарь, в котором *ключ* - это операция сравнения (равенство/неравенство/включение и т.п),\
а *значение* - это, собственно, значение, с которым мы будем сравнивать информацию в полях.

Поскольку мы хотим найти тэг, идентификатор которого равен 4290, то в качестве ключа передадим `$eq`, а в качестве значения - 4290.\
Теперь весь этот словарь передадим в функцию `find` в качестве параметра и выполним ячейку.

In [91]:
tags.find({'id': {'$eq': 4290}}, {'_id': True})

<pymongo.cursor.Cursor at 0x1e5dc53b520>

Мы снова получили `Cursor`. И теперь преобразуем его к списку:

In [93]:
head = tags.find({'id': {'$eq': 4290}})
my_list = list(head)
my_list

[{'_id': ObjectId('5c822402c0669da98bd5081f'), 'id': 4290, 'name': 'toy'},
 {'_id': ObjectId('5c822402c0669da98bd5143a'), 'id': 4290, 'name': 'toy'},
 {'_id': ObjectId('5c822402c0669da98bd52bdb'), 'id': 4290, 'name': 'toy'},
 {'_id': ObjectId('5c822402c0669da98bd5338c'), 'id': 4290, 'name': 'toy'},
 {'_id': ObjectId('5c822402c0669da98bd53a7b'), 'id': 4290, 'name': 'toy'},
 {'_id': ObjectId('5c822402c0669da98bd5416e'), 'id': 4290, 'name': 'toy'},
 {'_id': ObjectId('5c822402c0669da98bd56db6'), 'id': 4290, 'name': 'toy'},
 {'_id': ObjectId('5c822402c0669da98bd59399'), 'id': 4290, 'name': 'toy'},
 {'_id': ObjectId('5c822402c0669da98bd5971a'), 'id': 4290, 'name': 'toy'},
 {'_id': ObjectId('5c822402c0669da98bd5b9e5'), 'id': 4290, 'name': 'toy'},
 {'_id': ObjectId('5c822402c0669da98bd5d698'), 'id': 4290, 'name': 'toy'},
 {'_id': ObjectId('5c822402c0669da98bd5fe50'), 'id': 4290, 'name': 'toy'},
 {'_id': ObjectId('5c822402c0669da98bd61622'), 'id': 4290, 'name': 'toy'},
 {'_id': ObjectId('5c8224

На экране появился список документов, которые содержат тэг 4290.\
Также мы можем ограничить список полей, которые должны содержать документы из выдачи.\
Например, предположим что в предыдущем примере нам нужен только внутренний идентификатор документа.\
Для ограничения списка полей существует проекция.\
Это ещё один словарь, который в качестве ключей содержит название поля, а в качестве значений - булеву переменную - включать ли данное поле в выдачу.\
Нам нужно создать прекцию, содержащую только поле `_id`. Создадим соответствующий словарь и передадим его в качестве второго параметра в функцию `find`.

In [95]:
head = tags.find({'id': {'$eq': 4290}}, {'_id': True})
my_list = list(head)
my_list

[{'_id': ObjectId('5c822402c0669da98bd5081f')},
 {'_id': ObjectId('5c822402c0669da98bd5143a')},
 {'_id': ObjectId('5c822402c0669da98bd52bdb')},
 {'_id': ObjectId('5c822402c0669da98bd5338c')},
 {'_id': ObjectId('5c822402c0669da98bd53a7b')},
 {'_id': ObjectId('5c822402c0669da98bd5416e')},
 {'_id': ObjectId('5c822402c0669da98bd56db6')},
 {'_id': ObjectId('5c822402c0669da98bd59399')},
 {'_id': ObjectId('5c822402c0669da98bd5971a')},
 {'_id': ObjectId('5c822402c0669da98bd5b9e5')},
 {'_id': ObjectId('5c822402c0669da98bd5d698')},
 {'_id': ObjectId('5c822402c0669da98bd5fe50')},
 {'_id': ObjectId('5c822402c0669da98bd61622')},
 {'_id': ObjectId('5c822402c0669da98bd62719')},
 {'_id': ObjectId('5c822402c0669da98bd648c0')},
 {'_id': ObjectId('5c822402c0669da98bd6563a')},
 {'_id': ObjectId('5c822402c0669da98bd66d5f')},
 {'_id': ObjectId('5c822402c0669da98bd6c705')},
 {'_id': ObjectId('5c822403c0669da98bd72a48')}]

Теперь в выдаче остались только внутренние идентификаторы `_id`

### Итоги

На это уроке мы узнали:
* Как подключиться к **MongoDB** из Notebook'а используя библиотеку `pymongo`
* Научились загружать данные из коллекции **MongoDB** в **`pandas`** `DataFrame`
* Научились выполнять поиск по коллекциям

### Практика

#### Задание 1

Подключитесь к коллекции `tags` MongoDB и выведите первый документ на экран

In [3]:
conn = 'mongodb://students:X63673t47Gl03Sq@dsstudents.skillbox.ru:27017/?authSource=movies'

connect = pymongo.MongoClient(conn)
db = connect['movies']
tags = db['tags']

tags.find_one()

{'_id': ObjectId('5c822402c0669da98bd5081e'), 'id': 931, 'name': 'jealousy'}

#### Задание 2

Найдите документы, в которых имя тега (поле `name`) 'friendship', преобразуйте курсор в список и выведите содержимое списка на экран

In [5]:
head = tags.find({'name': {'$eq': 'friendship'}})
my_list = list(head)
my_list

[{'_id': ObjectId('5c822402c0669da98bd50821'),
  'id': 6054,
  'name': 'friendship'},
 {'_id': ObjectId('5c822402c0669da98bd50911'),
  'id': 6054,
  'name': 'friendship'},
 {'_id': ObjectId('5c822402c0669da98bd50a72'),
  'id': 6054,
  'name': 'friendship'},
 {'_id': ObjectId('5c822402c0669da98bd50c39'),
  'id': 6054,
  'name': 'friendship'},
 {'_id': ObjectId('5c822402c0669da98bd50dc9'),
  'id': 6054,
  'name': 'friendship'},
 {'_id': ObjectId('5c822402c0669da98bd510d4'),
  'id': 6054,
  'name': 'friendship'},
 {'_id': ObjectId('5c822402c0669da98bd5111c'),
  'id': 6054,
  'name': 'friendship'},
 {'_id': ObjectId('5c822402c0669da98bd51138'),
  'id': 6054,
  'name': 'friendship'},
 {'_id': ObjectId('5c822402c0669da98bd51141'),
  'id': 6054,
  'name': 'friendship'},
 {'_id': ObjectId('5c822402c0669da98bd5115b'),
  'id': 6054,
  'name': 'friendship'},
 {'_id': ObjectId('5c822402c0669da98bd5121f'),
  'id': 6054,
  'name': 'friendship'},
 {'_id': ObjectId('5c822402c0669da98bd51449'),
  'id':

#### Задание 3

Преобразуйте список документов в pandas DataFrame и выведите первые 5 строк на экран

In [7]:
df = pd.DataFrame(my_list)
df.head()

Unnamed: 0,_id,id,name
0,5c822402c0669da98bd50821,6054,friendship
1,5c822402c0669da98bd50911,6054,friendship
2,5c822402c0669da98bd50a72,6054,friendship
3,5c822402c0669da98bd50c39,6054,friendship
4,5c822402c0669da98bd50dc9,6054,friendship


## Итоги

В этом модуле мы научились:
* Читать данные в формате JSON как из веб-сервисов, так и из файлов\
А также преобразовывать их в **pandas** `DataFrame` и сохранять в файлы формата JSON
* Узнали как читать данные из реляционных баз данных используя **Pandas**
* Познакомились с миром Больших данных, а конкретно - с БД **MongoDB**

## *Выводы*

* Формат JSON часто используется для обмена данными между клиентом и сервером
* **Pandas** и **SQLAlchemy** позволяют читать данные напрямую из баз данных
* Работа с большими данными отличается от работы c обычными БД