Обозначения:

📝 - определение, которое нужно запомнить

`# ⏩`- комментарий, что эту ячейку / функцию нужно просто запустить, она уже написана

`# ✏️` - код в этой ячейке / функции мы будем дополнять в процессе урока

👨🏻‍💻 - задача для самостоятельного выполнения

# Чем мы будем заниматься на уроке?

Мы будем изучать язык SQL и разбираться с устройством баз данных.

[Чистая рабочая тетрадь для заполнения](https://colab.research.google.com/drive/1zAd_rqcIHC0UqRAPquRUDKQSgm14-E5X?usp=sharing)

[Заполненная рабочая тетрадь](https://colab.research.google.com/drive/1sRd9sfxir1tdq719VfpGcI8Y0me4v4VG?usp=sharing)

[Презентация к уроку](https://docs.google.com/presentation/d/1X6S0h1mDZLcYC0f5A7mOpjKqgut9EwAE2TcsTdz2dos/edit?usp=sharing)

In [1]:
!pip install wget



In [2]:
from wget import download

download('https://github.com/lerocha/chinook-database/raw/master/ChinookDatabase/DataSources/Chinook_Sqlite.sqlite')

'Chinook_Sqlite (1).sqlite'

Мы будем пользоваться базой данных [Chinook](https://github.com/lerocha/chinook-database/blob/master/ChinookDatabase/DataSources/Chinook_Sqlite.sqlite)

<table>
    <tr><td><img src='https://drive.google.com/uc?export=view&id=1h48Kym2Gy84_3RKrtVhsqbsJMNOqF1gq' width='600' border='0' alt=''></td></tr>
    <tr><td>Изображение с <a href="https://ru.pinterest.com/pin/349029039886060219/">Pinterest</a></td></tr>
</table>

In [3]:
import sqlite3

connect = sqlite3.connect("Chinook_Sqlite.sqlite")

In [4]:
import pandas as pd

# SQL

📝 **SQL** (Structured query language) - язык запросов к базам данных

* Запросы имеют определенную структуру
* Запросы могут быть разбиты на несколько строчек
* Несколько запросов разделяются точкой с запятой
* В отличие от Python, в SQL большие и маленькие буквы - это одно и то же: записи `SELECT` и `select` эквивалентны
* Комментарии в SQL начинаются с двойного дефиса и продолжаются до конца строки

# SELECT

Выбор данных из таблицы


```sql
SELECT названия колонок через запятую
FROM название таблицы
```

Чтобы выбрать все колонки, используется `SELECT *`:

```sql
SELECT *
FROM название таблицы
```



In [5]:
# ▶️▶️
# Создадим переменную с запросом
# Многострочные запросы можно ограничивать тройными кавычками: ''' ... '''

query = '''
-- Берем все элементы из таблицы Artist
SELECT *
FROM Artist
'''

# Данные считываем сразу в DataFrame
artists = pd.read_sql(query, connect)

In [6]:
artists

Unnamed: 0,ArtistId,Name
0,1,AC/DC
1,2,Accept
2,3,Aerosmith
3,4,Alanis Morissette
4,5,Alice In Chains
...,...,...
270,271,"Mela Tenenbaum, Pro Musica Prague & Richard Kapp"
271,272,Emerson String Quartet
272,273,"C. Monteverdi, Nigel Rogers - Chiaroscuro; Lon..."
273,274,Nash Ensemble


In [7]:
# ✏️
# Посмотрим аналогично на таблицы Album и Track

albums = pd.read_sql('SELECT * FROM Album', connect)

In [8]:
# ✏️
tracks = pd.read_sql('SELECT * FROM Track', connect)

In [9]:
albums

Unnamed: 0,AlbumId,Title,ArtistId
0,1,For Those About To Rock We Salute You,1
1,2,Balls to the Wall,2
2,3,Restless and Wild,2
3,4,Let There Be Rock,1
4,5,Big Ones,3
...,...,...,...
342,343,Respighi:Pines of Rome,226
343,344,Schubert: The Late String Quartets & String Qu...,272
344,345,Monteverdi: L'Orfeo,273
345,346,Mozart: Chamber Music,274


In [10]:
tracks

Unnamed: 0,TrackId,Name,AlbumId,MediaTypeId,GenreId,Composer,Milliseconds,Bytes,UnitPrice
0,1,For Those About To Rock (We Salute You),1,1,1,"Angus Young, Malcolm Young, Brian Johnson",343719,11170334,0.99
1,2,Balls to the Wall,2,2,1,,342562,5510424,0.99
2,3,Fast As a Shark,3,2,1,"F. Baltes, S. Kaufman, U. Dirkscneider & W. Ho...",230619,3990994,0.99
3,4,Restless and Wild,3,2,1,"F. Baltes, R.A. Smith-Diesel, S. Kaufman, U. D...",252051,4331779,0.99
4,5,Princess of the Dawn,3,2,1,Deaffy & R.A. Smith-Diesel,375418,6290521,0.99
...,...,...,...,...,...,...,...,...,...
3498,3499,Pini Di Roma (Pinien Von Rom) \ I Pini Della V...,343,2,24,,286741,4718950,0.99
3499,3500,"String Quartet No. 12 in C Minor, D. 703 ""Quar...",344,2,24,Franz Schubert,139200,2283131,0.99
3500,3501,"L'orfeo, Act 3, Sinfonia (Orchestra)",345,2,24,Claudio Monteverdi,66639,1189062,0.99
3501,3502,"Quintet for Horn, Violin, 2 Violas, and Cello ...",346,2,24,Wolfgang Amadeus Mozart,221331,3665114,0.99


In [11]:
# 👨🏻‍💻 Выведите таблицы Customer и Employee
customers = pd.read_sql('SELECT * FROM Customer', connect)

In [12]:
employee = pd.read_sql('SELECT * FROM Employee', connect)

# WHERE

Условия для фильтрации

```sql
SELECT набор колонок через запятую или *
FROM название таблицы
WHERE условие
```

Пример условия: "значение в колонке равно какому-то значению" - `colname = X`

Еще отличия от Python:
* в Python равенство проверяется через "==", а в SQL через "="
* в Python текст обрамляется и одинарными, и двойными кавычками, в SQL - только одинарными (двойные - для называний колонок)

In [13]:
#  ▶️▶️
# Пример: выведем названия всех таблиц, которые есть в базе данных
query = '''
SELECT
    name
FROM
    sqlite_schema
WHERE
    type ='table'
'''

pd.read_sql(query, connect)

Unnamed: 0,name
0,Album
1,Artist
2,Customer
3,Employee
4,Genre
5,Invoice
6,InvoiceLine
7,MediaType
8,Playlist
9,PlaylistTrack


In [14]:
# 👨🏻‍💻 Выведите из таблицы Track все композиции,
#   для которых Composer = "Wolfgang Amadeus Mozart"
query = """
SELECT * FROM Track WHERE Composer = 'Wolfgang Amadeus Mozart'
"""
pd.read_sql(query, connect)

Unnamed: 0,TrackId,Name,AlbumId,MediaTypeId,GenreId,Composer,Milliseconds,Bytes,UnitPrice
0,3412,"""Eine Kleine Nachtmusik"" Serenade In G, K. 525...",281,2,24,Wolfgang Amadeus Mozart,348971,5760129,0.99
1,3413,"Concerto for Clarinet in A Major, K. 622: II. ...",282,2,24,Wolfgang Amadeus Mozart,394482,6474980,0.99
2,3451,"Die Zauberflöte, K.620: ""Der Hölle Rache Kocht...",317,2,25,Wolfgang Amadeus Mozart,174813,2861468,0.99
3,3454,"Symphony No. 41 in C Major, K. 551, ""Jupiter"":...",320,2,24,Wolfgang Amadeus Mozart,362933,6173269,0.99
4,3502,"Quintet for Horn, Violin, 2 Violas, and Cello ...",346,2,24,Wolfgang Amadeus Mozart,221331,3665114,0.99


# DISTINCT, MAX, MIN, AVG

Вывод уникальных значений / максимального значения в колонке / минимального значения в колонке / среднего


```sql
SELECT distinct(имя колонки)
FROM название таблицы
```

```sql
SELECT MAX(имя колонки)
FROM название таблицы
```

```sql
SELECT MIN(имя колонки)
FROM название таблицы
```

```sql
SELECT MIN(имя колонки), MAX(имя колонки),  AVG(имя колонки)
FROM название таблицы
```




In [15]:
#  ▶️▶️
pd.read_sql('SELECT AVG(Bytes) from Track', connect)

Unnamed: 0,AVG(Bytes)
0,33510210.0


In [16]:
# ✏️
# Посмотрим, какие есть жанры (таблица Genre, колонка name)
pd.read_sql('SELECT distinct(name) from Genre', connect)

Unnamed: 0,Name
0,Rock
1,Jazz
2,Metal
3,Alternative & Punk
4,Rock And Roll
5,Blues
6,Latin
7,Reggae
8,Pop
9,Soundtrack


In [17]:
# ✏️
# Дополнительно можем добавить сортировку с помощью ORDER BY name
pd.read_sql('SELECT distinct(name) FROM Genre ORDER BY name', connect)

Unnamed: 0,Name
0,Alternative
1,Alternative & Punk
2,Blues
3,Bossa Nova
4,Classical
5,Comedy
6,Drama
7,Easy Listening
8,Electronica/Dance
9,Heavy Metal


In [18]:
# 👨🏻‍💻 Выведите уникальные значения для цены трека UnitPrice таблицы Track.
# Какой ценовой разброс?
pd.read_sql('SELECT distinct(UnitPrice) FROM Track ORDER BY name', connect)

Unnamed: 0,UnitPrice
0,1.99
1,0.99


In [19]:
# 👨🏻‍💻 Выведите максимальное и минимальное значения для Bytes таблицы Track
pd.read_sql('SELECT MIN(Bytes) FROM Track', connect)

Unnamed: 0,MIN(Bytes)
0,38747


# JOIN

Объединение таблиц. В текущей структуре таблицы ссылкъаются друг на друга с помощью колонок с идентификаторами, указывающими на номер строки в другой таблице

**Track**

| TrackId | Name | AlbumId |
|---|---|---|
| 2| Balls to the Wall|2|
|3| Fast As a Shark|3|

**Album**

| AlbumId | Title | ArtistId |
|---|---|---|
| 2| Balls to the Wall|2|
|3| Restless and Wild|2|

**Artist**

| ArtistId | Name |
|---|---|
| 2| Accept|



```sql
SELECT названия колонок
FROM таблица1
JOIN таблица2
ON таблица1.колонка_id2 = таблица2.колонка_id2
```

```sql
SELECT названия колонок
FROM таблица1
JOIN таблица2
JOIN таблица3
JOIN таблица4
ON таблица1.колонка_id2 = таблица2.колонка_id2
AND таблица2.колонка_id3 = таблица3.колонка_id3
AND таблица3.колонка_id4 = таблица4.колонка_id4
```


In [20]:
# ▶️▶️

# Объединим в одну таблицу данные о треках и альбомах

query = '''
SELECT *
FROM Track
JOIN Album
ON Track.AlbumId = Album.AlbumId
'''
pd.read_sql(query, connect)

Unnamed: 0,TrackId,Name,AlbumId,MediaTypeId,GenreId,Composer,Milliseconds,Bytes,UnitPrice,AlbumId.1,Title,ArtistId
0,1,For Those About To Rock (We Salute You),1,1,1,"Angus Young, Malcolm Young, Brian Johnson",343719,11170334,0.99,1,For Those About To Rock We Salute You,1
1,2,Balls to the Wall,2,2,1,,342562,5510424,0.99,2,Balls to the Wall,2
2,3,Fast As a Shark,3,2,1,"F. Baltes, S. Kaufman, U. Dirkscneider & W. Ho...",230619,3990994,0.99,3,Restless and Wild,2
3,4,Restless and Wild,3,2,1,"F. Baltes, R.A. Smith-Diesel, S. Kaufman, U. D...",252051,4331779,0.99,3,Restless and Wild,2
4,5,Princess of the Dawn,3,2,1,Deaffy & R.A. Smith-Diesel,375418,6290521,0.99,3,Restless and Wild,2
...,...,...,...,...,...,...,...,...,...,...,...,...
3498,3499,Pini Di Roma (Pinien Von Rom) \ I Pini Della V...,343,2,24,,286741,4718950,0.99,343,Respighi:Pines of Rome,226
3499,3500,"String Quartet No. 12 in C Minor, D. 703 ""Quar...",344,2,24,Franz Schubert,139200,2283131,0.99,344,Schubert: The Late String Quartets & String Qu...,272
3500,3501,"L'orfeo, Act 3, Sinfonia (Orchestra)",345,2,24,Claudio Monteverdi,66639,1189062,0.99,345,Monteverdi: L'Orfeo,273
3501,3502,"Quintet for Horn, Violin, 2 Violas, and Cello ...",346,2,24,Wolfgang Amadeus Mozart,221331,3665114,0.99,346,Mozart: Chamber Music,274


In [21]:
# ▶️▶️

# Объединим в одну таблицу данные об альбомах и артистах

query = '''
SELECT *
FROM Artist
JOIN Album
ON Artist.ArtistId = Album.ArtistId
'''
pd.read_sql(query, connect)

Unnamed: 0,ArtistId,Name,AlbumId,Title,ArtistId.1
0,1,AC/DC,1,For Those About To Rock We Salute You,1
1,2,Accept,2,Balls to the Wall,2
2,2,Accept,3,Restless and Wild,2
3,1,AC/DC,4,Let There Be Rock,1
4,3,Aerosmith,5,Big Ones,3
...,...,...,...,...,...
342,226,Eugene Ormandy,343,Respighi:Pines of Rome,226
343,272,Emerson String Quartet,344,Schubert: The Late String Quartets & String Qu...,272
344,273,"C. Monteverdi, Nigel Rogers - Chiaroscuro; Lon...",345,Monteverdi: L'Orfeo,273
345,274,Nash Ensemble,346,Mozart: Chamber Music,274


In [22]:
# 👨🏻‍💻 Объедините все 3 таблицы в одну, чтобы можно было проследить связь трек-артист
query = '''
SELECT *
FROM Track
JOIN Album
JOIN Artist
ON Track.AlbumId = Album.AlbumId
AND Album.ArtistId = Artist.ArtistId
'''
pd.read_sql(query, connect)

Unnamed: 0,TrackId,Name,AlbumId,MediaTypeId,GenreId,Composer,Milliseconds,Bytes,UnitPrice,AlbumId.1,Title,ArtistId,ArtistId.1,Name.1
0,1,For Those About To Rock (We Salute You),1,1,1,"Angus Young, Malcolm Young, Brian Johnson",343719,11170334,0.99,1,For Those About To Rock We Salute You,1,1,AC/DC
1,2,Balls to the Wall,2,2,1,,342562,5510424,0.99,2,Balls to the Wall,2,2,Accept
2,3,Fast As a Shark,3,2,1,"F. Baltes, S. Kaufman, U. Dirkscneider & W. Ho...",230619,3990994,0.99,3,Restless and Wild,2,2,Accept
3,4,Restless and Wild,3,2,1,"F. Baltes, R.A. Smith-Diesel, S. Kaufman, U. D...",252051,4331779,0.99,3,Restless and Wild,2,2,Accept
4,5,Princess of the Dawn,3,2,1,Deaffy & R.A. Smith-Diesel,375418,6290521,0.99,3,Restless and Wild,2,2,Accept
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3498,3499,Pini Di Roma (Pinien Von Rom) \ I Pini Della V...,343,2,24,,286741,4718950,0.99,343,Respighi:Pines of Rome,226,226,Eugene Ormandy
3499,3500,"String Quartet No. 12 in C Minor, D. 703 ""Quar...",344,2,24,Franz Schubert,139200,2283131,0.99,344,Schubert: The Late String Quartets & String Qu...,272,272,Emerson String Quartet
3500,3501,"L'orfeo, Act 3, Sinfonia (Orchestra)",345,2,24,Claudio Monteverdi,66639,1189062,0.99,345,Monteverdi: L'Orfeo,273,273,"C. Monteverdi, Nigel Rogers - Chiaroscuro; Lon..."
3501,3502,"Quintet for Horn, Violin, 2 Violas, and Cello ...",346,2,24,Wolfgang Amadeus Mozart,221331,3665114,0.99,346,Mozart: Chamber Music,274,274,Nash Ensemble


# Группировка и функции агрегации

📝 **Агрегация** - функция, которая считается на наборе значений и объединяет их в одно. Например, взятие максимального значения или подсчет числа элементов в группе

Мы можем группировать строки таблицы на основе какого-то значения и считать функции агрегации внутри группы

📝 **COUNT** - функция, которая считает количество элементов



```sql
SELECT COUNT(*)
FROM таблица
```

```sql
SELECT COUNT(DISTINCT(колонка))
FROM таблица
```


In [23]:
# ✏️
# Ответим на вопрос, сколько артистов в таблице
pd.read_sql('SELECT count(*) from Artist', connect)

Unnamed: 0,count(*)
0,275


Строчки с одинаковым значением в колонке агрегации объединяются в группу, и по ним сможно посчитать функцию агрегации:
```sql
SELECT колонка агрегации, COUNT(колонка1), AVG(колонка2)
FROM таблица

GROUP BY колонка агрегации
```

In [24]:
# ▶️▶️
# А теперь сгруппируем данные из таблицы альбомов по артистам и посмотрим,
# сколько альбомов у каждого артиста

query = '''
SELECT ArtistId, COUNT(title)
FROM Album

GROUP BY ArtistId
'''


pd.read_sql(query, connect)

Unnamed: 0,ArtistId,COUNT(title)
0,1,2
1,2,2
2,3,1
3,4,1
4,5,1
...,...,...
199,271,1
200,272,1
201,273,1
202,274,1


In [25]:
query = '''
SELECT ArtistId, COUNT(title)
FROM Album

GROUP BY ArtistId

ORDER BY COUNT(title)
'''


pd.read_sql(query, connect)

Unnamed: 0,ArtistId,COUNT(title)
0,3,1
1,4,1
2,5,1
3,7,1
4,9,1
...,...,...
199,50,10
200,150,10
201,58,11
202,22,14


Ничего не понятно, давайте добавим сюда информацию о самом артисте

# Вложенные подзапросы

Мы можем делать вложенные подзапросы и использовать их как таблицы


```sql
SELECT ...
FROM (
    SELECT ... FROM ...
)
...
```



In [26]:
# ▶️▶️
# Объединим запрос GROUP BY и JOIN

query = '''
SELECT name, COUNT(title)
FROM (
    SELECT *
    FROM Artist
    JOIN Album
    ON Artist.ArtistId = Album.ArtistId
)

GROUP BY name
'''

pd.read_sql(query, connect)

Unnamed: 0,Name,COUNT(title)
0,AC/DC,2
1,Aaron Copland & London Symphony Orchestra,1
2,Aaron Goldberg,1
3,Academy of St. Martin in the Fields & Sir Nevi...,1
4,Academy of St. Martin in the Fields Chamber En...,1
...,...,...
199,Vinícius De Moraes,1
200,Wilhelm Kempff,1
201,Yehudi Menuhin,1
202,Yo-Yo Ma,1


In [27]:
# ▶️▶️
# Объединим запрос GROUP BY и JOIN

query = '''
SELECT name, COUNT(title)
FROM (
    SELECT *
    FROM Artist
    JOIN Album
    ON Artist.ArtistId = Album.ArtistId
)

GROUP BY name
ORDER BY COUNT(title)
'''

pd.read_sql(query, connect)

Unnamed: 0,Name,COUNT(title)
0,Aaron Copland & London Symphony Orchestra,1
1,Aaron Goldberg,1
2,Academy of St. Martin in the Fields & Sir Nevi...,1
3,Academy of St. Martin in the Fields Chamber En...,1
4,"Academy of St. Martin in the Fields, John Birc...",1
...,...,...
199,Metallica,10
200,U2,10
201,Deep Purple,11
202,Led Zeppelin,14


In [28]:
# 👨🏻‍💻 Возьмите запрос из упражнения "Объедините все 3 таблицы в одну" и выведите
# количество треков, написанных каждым исполнителем


In [29]:
# 👨🏻‍💻 Объедините таблицу Track и таблицу InvoiceLine.
# Сколько раз был куплен каждый трек?
# (Подсчет можно провести по колонке InvoiceID)


In [30]:
# 👨🏻‍💻 Ответьте на вопрос: какой автор наиболее коммерчески популярен?
# Чьи треки покупают чаще всего?
# Для этого понадобится объединить аж 4 таблицы :)

# Что мы узнали на этом занятии?
* Дата-инженер - специалист по сбору и хранению данных, в этой профессии больше всего программирования и почти нет математики
* Обязательный инструмент - SQL
* С помощью SQL можно получать различную информацию о данных также, как в Excel или Pandas (DISTICT аналог df[col].unique(), одинаковый метод groupby).
* Работать с базами данных, отправляя в них SQL-запросы можно внутри программы на Python
* Мы познакомились с базовые конструкциями языка SQL (SELECT, WHERE, JOIN), узнали, как рисуются схемы баз даных и научились извлекать информацию из данных на примере базы данных о продаже музыкальных треках