Обозначения:

📝 - определение, которое нужно запомнить

`# ⏩`- комментарий, что эту ячейку / функцию нужно просто запустить, она уже написана

`# ✏️` - код в этой ячейке / функции мы будем дополнять в процессе урока

👨🏻‍💻 - задача для самостоятельного выполнения

# Чем мы будем заниматься на уроке?

Мы будем изучать язык SQL и разбираться с устройством баз данных.

[Чистая рабочая тетрадь для заполнения](https://colab.research.google.com/drive/1zAd_rqcIHC0UqRAPquRUDKQSgm14-E5X?usp=sharing)

[Заполненная рабочая тетрадь](https://colab.research.google.com/drive/1sRd9sfxir1tdq719VfpGcI8Y0me4v4VG?usp=sharing)

[Презентация к уроку](https://docs.google.com/presentation/d/1X6S0h1mDZLcYC0f5A7mOpjKqgut9EwAE2TcsTdz2dos/edit?usp=sharing)

In [None]:
!pip install wget

In [None]:
from wget import download

download('https://github.com/lerocha/chinook-database/raw/master/ChinookDatabase/DataSources/Chinook_Sqlite.sqlite')

Мы будем пользоваться базой данных [Chinook](https://github.com/lerocha/chinook-database/blob/master/ChinookDatabase/DataSources/Chinook_Sqlite.sqlite)

<table>
    <tr><td><img src='https://drive.google.com/uc?export=view&id=1h48Kym2Gy84_3RKrtVhsqbsJMNOqF1gq' width='600' border='0' alt=''></td></tr>
    <tr><td>Изображение с <a href="https://ru.pinterest.com/pin/349029039886060219/">Pinterest</a></td></tr>
</table>

In [None]:
import sqlite3

connect = sqlite3.connect("Chinook_Sqlite.sqlite")

In [None]:
import pandas as pd

# SQL

📝 **SQL** (Structured query language) - язык запросов к базам данных

* Запросы имеют определенную структуру
* Запросы могут быть разбиты на несколько строчек
* Несколько запросов разделяются точкой с запятой
* В отличие от Python, в SQL большие и маленькие буквы - это одно и то же: записи `SELECT` и `select` эквивалентны
* Комментарии в SQL начинаются с двойного дефиса и продолжаются до конца строки

# SELECT

Выбор данных из таблицы


```sql
SELECT названия колонок через запятую
FROM название таблицы
```

Чтобы выбрать все колонки, используется `SELECT *`:

```sql
SELECT *
FROM название таблицы
```



In [None]:
# ▶️▶️
# Создадим переменную с запросом
# Многострочные запросы можно ограничивать тройными кавычками: ''' ... '''

query = '''
-- Берем все элементы из таблицы Artist
SELECT *
FROM Artist
'''

# Данные считываем сразу в DataFrame
artists = pd.read_sql(query, connect)

In [None]:
artists

In [None]:
# ✏️
# Посмотрим аналогично на таблицы Album и Track

albums = pd.read_sql(..., connect)

In [None]:
# ✏️
tracks = pd.read_sql(..., connect)

In [None]:
albums

In [None]:
tracks

In [None]:
# 👨🏻‍💻 Выведите таблицы Customer и Employee


# WHERE

Условия для фильтрации

```sql
SELECT набор колонок через запятую или *
FROM название таблицы
WHERE условие
```

Пример условия: "значение в колонке равно какому-то значению" - `colname = X`

Еще отличия от Python:
* в Python равенство проверяется через "==", а в SQL через "="
* в Python текст обрамляется и одинарными, и двойными кавычками, в SQL - только одинарными (двойные - для называний колонок)

In [None]:
#  ▶️▶️
# Пример: выведем названия всех таблиц, которые есть в базе данных
query = '''
SELECT
    name
FROM
    sqlite_schema
WHERE
    type ='table'
'''

pd.read_sql(query, connect)

In [None]:
# 👨🏻‍💻 Выведите из таблицы Track все композиции,
#   для которых Composer = "Wolfgang Amadeus Mozart"


# DISTINCT, MAX, MIN, AVG

Вывод уникальных значений / максимального значения в колонке / минимального значения в колонке / среднего


```sql
SELECT distinct(имя колонки)
FROM название таблицы
```

```sql
SELECT MAX(имя колонки)
FROM название таблицы
```

```sql
SELECT MIN(имя колонки)
FROM название таблицы
```

```sql
SELECT MIN(имя колонки), MAX(имя колонки),  AVG(имя колонки)
FROM название таблицы
```




In [None]:
#  ▶️▶️
pd.read_sql('SELECT AVG(Bytes) from Track', connect)

In [None]:
# ✏️
# Посмотрим, какие есть жанры (таблица Genre, колонка name)


In [None]:
# ✏️
# Дополнительно можем добавить сортировку с помощью ORDER BY name


In [None]:
# 👨🏻‍💻 Выведите уникальные значения для цены трека UnitPrice таблицы Track.
# Какой ценовой разброс?


In [None]:
# 👨🏻‍💻 Выведите максимальное и минимальное значения для Bytes таблицы Track


# JOIN

Объединение таблиц. В текущей структуре таблицы ссылкъаются друг на друга с помощью колонок с идентификаторами, указывающими на номер строки в другой таблице

**Track**

| TrackId | Name | AlbumId |
|---|---|---|
| 2| Balls to the Wall|2|
|3| Fast As a Shark|3|

**Album**

| AlbumId | Title | ArtistId |
|---|---|---|
| 2| Balls to the Wall|2|
|3| Restless and Wild|2|

**Artist**

| ArtistId | Name |
|---|---|
| 2| Accept|



```sql
SELECT названия колонок
FROM таблица1
JOIN таблица2
ON таблица1.колонка_id2 = таблица2.колонка_id2
```

```sql
SELECT названия колонок
FROM таблица1
JOIN таблица2
JOIN таблица3
JOIN таблица4
ON таблица1.колонка_id2 = таблица2.колонка_id2
AND таблица2.колонка_id3 = таблица3.колонка_id3
AND таблица3.колонка_id4 = таблица4.колонка_id4
```


In [None]:
# ▶️▶️

# Объединим в одну таблицу данные о треках и альбомах

query = '''
SELECT *
FROM Track
JOIN Album
ON Track.AlbumId = Album.AlbumId
'''
pd.read_sql(query, connect)

In [None]:
# ▶️▶️

# Объединим в одну таблицу данные об альбомах и артистах

query = '''
SELECT *
FROM Artist
JOIN Album
ON Artist.ArtistId = Album.ArtistId
'''
pd.read_sql(query, connect)

In [None]:
# 👨🏻‍💻 Объедините все 3 таблицы в одну, чтобы можно было проследить связь трек-артист


# Группировка и функции агрегации

📝 **Агрегация** - функция, которая считается на наборе значений и объединяет их в одно. Например, взятие максимального значения или подсчет числа элементов в группе

Мы можем группировать строки таблицы на основе какого-то значения и считать функции агрегации внутри группы

📝 **COUNT** - функция, которая считает количество элементов



```sql
SELECT COUNT(*)
FROM таблица
```

```sql
SELECT COUNT(DISTINCT(колонка))
FROM таблица
```


In [None]:
# ✏️
# Ответим на вопрос, сколько артистов в таблице


Строчки с одинаковым значением в колонке агрегации объединяются в группу, и по ним сможно посчитать функцию агрегации:
```sql
SELECT колонка агрегации, COUNT(колонка1), AVG(колонка2)
FROM таблица

GROUP BY колонка агрегации
```

In [None]:
# ▶️▶️
# А теперь сгруппируем данные из таблицы альбомов по артистам и посмотрим,
# сколько альбомов у каждого артиста

query = '''
SELECT ArtistId, COUNT(title)
FROM Album

GROUP BY ArtistId
'''


pd.read_sql(query, connect)

Ничего не понятно, давайте добавим сюда информацию о самом артисте

# Вложенные подзапросы

Мы можем делать вложенные подзапросы и использовать их как таблицы


```sql
SELECT ...
FROM (
    SELECT ... FROM ...
)
...
```



In [None]:
# ▶️▶️
# Объединим запрос GROUP BY и JOIN

query = '''
SELECT name, COUNT(title)
FROM (
    SELECT *
    FROM Artist
    JOIN Album
    ON Artist.ArtistId = Album.ArtistId
)

GROUP BY name
'''

pd.read_sql(query, connect)

In [None]:
# 👨🏻‍💻 Возьмите запрос из упражнения "Объедините все 3 таблицы в одну" и выведите
# количество треков, написанных каждым исполнителем


In [None]:
# 👨🏻‍💻 Объедините таблицу Track и таблицу InvoiceLine.
# Сколько раз был куплен каждый трек?
# (Подсчет можно провести по колонке InvoiceID)


In [None]:
# 👨🏻‍💻 Ответьте на вопрос: какой автор наиболее коммерчески популярен?
# Чьи треки покупают чаще всего?
# Для этого понадобится объединить аж 4 таблицы :)

# Что мы узнали на этом занятии?
* Дата-инженер - специалист по сбору и хранению данных, в этой профессии больше всего программирования и почти нет математики
* Обязательный инструмент - SQL
* С помощью SQL можно получать различную информацию о данных также, как в Excel или Pandas (DISTICT аналог df[col].unique(), одинаковый метод groupby).
* Работать с базами данных, отправляя в них SQL-запросы можно внутри программы на Python
* Мы познакомились с базовые конструкциями языка SQL (SELECT, WHERE, JOIN), узнали, как рисуются схемы баз даных и научились извлекать информацию из данных на примере базы данных о продаже музыкальных треках