In [None]:
#pip install ipython-sql

In [1]:
# Подгружаем экстеншн sql, чтобы напрямую пользоваться командами SQL
%load_ext sql

In [2]:
# Подгружаем базу данных в формате .db (необходимо скачать отдельно), 
# сохраненную в той же директоории, что и этот файл
%sql sqlite:///chinook.db

In [3]:
# Смотрим, какие таблицы имеются в этой базе данных
%sql select name FROM sqlite_master WHERE type='table'

 * sqlite:///chinook.db
Done.


name
albums
sqlite_sequence
artists
customers
employees
genres
invoices
invoice_items
media_types
playlists


# Выбор столбцов из таблиц

In [None]:
# Выбираем все столбцы из таблицы Artists. Ограничиваем просмотр 4 первыми записями

In [4]:
%%sql
select *
from artists
limit 4

 * sqlite:///chinook.db
Done.


ArtistId,Name
1,AC/DC
2,Accept
3,Aerosmith
4,Alanis Morissette


In [None]:
# Выбираем все столбцы из таблицы Albums. Ограничиваем просмотр 4 первыми записями

In [5]:
%%sql
select *
from albums
limit 4

 * sqlite:///chinook.db
Done.


AlbumId,Title,ArtistId
1,For Those About To Rock We Salute You,1
2,Balls to the Wall,2
3,Restless and Wild,2
4,Let There Be Rock,1


In [None]:
# Выбираем все столбцы из таблицы Tracks. Ограничиваем просмотр 5 первыми записями

In [6]:
%%sql
select *
from tracks
limit 5

 * sqlite:///chinook.db
Done.


TrackId,Name,AlbumId,MediaTypeId,GenreId,Composer,Milliseconds,Bytes,UnitPrice
1,For Those About To Rock (We Salute You),1,1,1,"Angus Young, Malcolm Young, Brian Johnson",343719,11170334,0.99
2,Balls to the Wall,2,2,1,,342562,5510424,0.99
3,Fast As a Shark,3,2,1,"F. Baltes, S. Kaufman, U. Dirkscneider & W. Hoffman",230619,3990994,0.99
4,Restless and Wild,3,2,1,"F. Baltes, R.A. Smith-Diesel, S. Kaufman, U. Dirkscneider & W. Hoffman",252051,4331779,0.99
5,Princess of the Dawn,3,2,1,Deaffy & R.A. Smith-Diesel,375418,6290521,0.99


In [None]:
# Выбираем столбцы Name и Composer из таблицы Artists. Ограничиваем просмотр 3 первыми записями

Аналог в Pandas:
tracks['Name', 'Composer']

In [7]:
%%sql
select Name, Composer
from tracks
limit 3


 * sqlite:///chinook.db
Done.


Name,Composer
For Those About To Rock (We Salute You),"Angus Young, Malcolm Young, Brian Johnson"
Balls to the Wall,
Fast As a Shark,"F. Baltes, S. Kaufman, U. Dirkscneider & W. Hoffman"


In [None]:
# Выбираем столбцы Name и Composer из таблицы Artists, где AlbumId равен 10. 

Аналог в Pandas:
tracks['Name', 'Composer'][tracks.AlbumId == 10]

In [8]:
%%sql
select Name, Composer
from tracks
where AlbumId = 10

 * sqlite:///chinook.db
Done.


Name,Composer
Cochise,Audioslave/Chris Cornell
Show Me How to Live,Audioslave/Chris Cornell
Gasoline,Audioslave/Chris Cornell
What You Are,Audioslave/Chris Cornell
Like a Stone,Audioslave/Chris Cornell
Set It Off,Audioslave/Chris Cornell
Shadow on the Sun,Audioslave/Chris Cornell
I am the Highway,Audioslave/Chris Cornell
Exploder,Audioslave/Chris Cornell
Hypnotize,Audioslave/Chris Cornell


# Выбор столбцов из разных таблиц (merge) по столбцу-ключу

In [None]:
# Выбираем столбцы Name из таблицы Artists (сокращаем ее название как a),
# и Title из таблицы Tracks (сокращаем как t),
# где AlbumId из таблицы песен равен AlbumId из таблицы альбомов (ищем совпадения, применяя Inner Join)
# и где Title альбома равен 'Audioslave'

In [9]:
%%sql 
select Name, Title
from tracks as t, albums as a
where t.AlbumId = a.AlbumId and Title = 'Audioslave'

 * sqlite:///chinook.db
Done.


Name,Title
Cochise,Audioslave
Show Me How to Live,Audioslave
Gasoline,Audioslave
What You Are,Audioslave
Like a Stone,Audioslave
Set It Off,Audioslave
Shadow on the Sun,Audioslave
I am the Highway,Audioslave
Exploder,Audioslave
Hypnotize,Audioslave


# Выбор столбцов по нескольким условиям

In [None]:
# Выбираем название трека и его стоимость из таблицы Tracks, где длительность трека больше 200000 милисекунд
# и цена больше 0.99 долларов

In [10]:
%%sql
select Name, UnitPrice
from tracks
where Milliseconds > 200000 and UnitPrice > 0.99
limit 3

 * sqlite:///chinook.db
Done.


Name,UnitPrice
Battlestar Galactica: The Story So Far,1.99
Occupation / Precipice,1.99
"Exodus, Pt. 1",1.99


# Применение математических функций к столбцам

При использовании команды SELECT вы можете вытаскивать не целые столбцы, но также и значения из столбцов с использованием какой-нибудь математической функции

Самые распространенные функции:

MIN(X) - найти минимальное значение
MAX(X) - найти максимальное значение
AVG(X) - найти среднее арифметическое (mean)
COUNT(X) - сосчитать количество элементов
SUM(X) - найти сумму
ROUND(X) - округление к ближайшему целому числу. Например, round(5.7)=6, round(2.3)=2

### magic function %sql не поддерживает следующие функции, но они поддерживаются при стандартных SQL запросах

ABS(X) - абсолютное значение (убирает минус у отрицательных чисел, превращая их в положительные)
MOD(X,Y) - деление по модулю с остатком (Эквивалент в Питоне - оператор %)
SIGN(X) - возвращает 1 если Х положительный, -1 если отрицательный и 0 если Х=0
FLOOR(X) - округление к ближайшему целому числу меньше Х. Например, floor(5.7)=5
CEIL(X) - округление к ближайшему целому числу больше Х. Например, floor(5.7)=6
POWER(X,Y) - возведение Х в степень У
SQRT(X) - извлечение квадратного корня
SIN(X), COS(X), TAN(X), ASIN(X), ACOS(X), ATAN(X) - математические функции


In [None]:
# Находим минимальную длительность трека в милисекундах

In [11]:
%%sql
select MIN(Milliseconds)
from tracks

 * sqlite:///chinook.db
Done.


MIN(Milliseconds)
1071


In [None]:
# Находим максимальное количество байт

In [12]:
%%sql
select MAX(Bytes)
from tracks

 * sqlite:///chinook.db
Done.


MAX(Bytes)
1059546140


In [None]:
# Находим количество песен, цена которых равна 0.99 долларов

In [13]:
%%sql
select COUNT(Name)
from tracks
where UnitPrice=0.99

 * sqlite:///chinook.db
Done.


COUNT(Name)
3290


In [None]:
# Находим среднюю продолжительность треков в милисекундах

In [14]:
%%sql
select AVG(Milliseconds)
from tracks

 * sqlite:///chinook.db
Done.


AVG(Milliseconds)
393599.2121039109


# Группировка по признаку

In [None]:
# Сосчитаем количество песен в каждом альбоме

Аналог в Pandas
tracks.groupby(['AlbumId'])['Name'].sum()

In [15]:
%%sql 
select AlbumId, count(Name)
from tracks
group by AlbumId
limit 10

 * sqlite:///chinook.db
Done.


AlbumId,count(Name)
1,10
2,1
3,3
4,8
5,15
6,13
7,12
8,14
9,8
10,14


In [None]:
# Совместим две таблицы вместе - Albums и Tracks
# и выведем количество песен в каждом альбоме вместе с названием альбома

In [16]:
%%sql 
select Title, count(Name)
from tracks, albums
where tracks.AlbumId=albums.AlbumId
group by Title
limit 10

 * sqlite:///chinook.db
Done.


Title,count(Name)
...And Justice For All,9
20th Century Masters - The Millennium Collection: The Best of Scorpions,12
"A Copland Celebration, Vol. I",1
A Matter of Life and Death,11
A Real Dead One,12
A Real Live One,11
A Soprano Inspired,1
A TempestadeTempestade Ou O Livro Dos Dias,15
A-Sides,17
Ace Of Spades,15


In [None]:
# Сосчитать количество песен в каждой ценовой категории

In [17]:
%%sql 
select UnitPrice, count(Name)
from tracks
group by UnitPrice

 * sqlite:///chinook.db
Done.


UnitPrice,count(Name)
0.99,3290
1.99,213


In [None]:
# Посчитать количество песен, сгруппированных по жанрам - слияние таблицы Tracks c таблицой Genres

In [18]:
%%sql 
select genres.Name, count(tracks.Name)
from tracks, genres
where tracks.genreId=genres.genreId
group by genres.genreId

 * sqlite:///chinook.db
Done.


Name,count(tracks.Name)
Rock,1297
Jazz,130
Metal,374
Alternative & Punk,332
Rock And Roll,12
Blues,81
Latin,579
Reggae,58
Pop,48
Soundtrack,43


# Сортировка - упорядочение

In [None]:
# Отсортировать треки по длительности - по возрастанию

Аналог в Pandas
tracks.sort_values(by='Milliseconds')

In [19]:
%%sql
SELECT Name, Milliseconds
FROM tracks
ORDER BY Milliseconds ASC
limit 10

 * sqlite:///chinook.db
Done.


Name,Milliseconds
É Uma Partida De Futebol,1071
Now Sports,4884
A Statistic,6373
Oprah,6635
Commercial 1,7941
The Real Problem,11650
Commercial 2,21211
Bossa,29048
Casinha Feliz,32287
Mateus Enter,33149


In [None]:
# Отсортировать треки по количеству бит - по убыванию

Аналог в Pandas
tracks.sort_values(by='Bytes', ascending=False)

In [20]:
%%sql
SELECT Name, Bytes
FROM tracks
ORDER BY Milliseconds DESC
limit 10

 * sqlite:///chinook.db
Done.


Name,Bytes
Occupation / Precipice,1054423946
Through a Looking Glass,1059546140
"Greetings from Earth, Pt. 1",536824558
The Man With Nine Lives,577829804
"Battlestar Galactica, Pt. 2",521387924
"Battlestar Galactica, Pt. 1",541359437
Murder On the Rising Star,551759986
"Battlestar Galactica, Pt. 3",554509033
Take the Celestra,512381289
Fire In Space,536784757


In [None]:
# Сгруппировать треки по принадлежности к альбомам и вывести альбомы с большим содержанием треков первыми

In [21]:
%%sql 
select Title, count(Name)
from tracks, albums
where tracks.AlbumId=albums.AlbumId
group by Title
order by count(Name) DESC
limit 10

 * sqlite:///chinook.db
Done.


Title,count(Name)
Greatest Hits,57
Minha Historia,34
Unplugged,30
"Lost, Season 3",26
"The Office, Season 3",25
"Lost, Season 1",25
My Way: The Best Of Frank Sinatra [Disc 1],24
"Lost, Season 2",24
"Battlestar Galactica (Classic), Season 1",24
Instant Karma: The Amnesty International Campaign to Save Darfur,23
