## Базы данных

Базы данных - способ хранения, обработки и извлечения информации.



### Модели хранения данных

Бывают разные модели хранения данных, например - иерархическая:

![image.png](attachment:image.png)

Такие модели сталкиваются с проблемой двойственной принадлежности - для примера выше будет характерна ситуация, когда картину написали 2 человека, или один художник писал в 2 жанрах - чревато задвоением информации.

Решение - __предметный указатель__, который позволит пересобрать иерархическую структуру иначе (однако всё еще не очень быстрой будет индексация).

А еще бывают модели __реляционные__ - от слова _relation - связь_.

Это связанные данные. Для иллюстрации разберем пример ниже.

Попробуем сделать справочник с людьми и телефонными номерами:

In [1]:
import pandas as pd

In [2]:
df = pd.DataFrame({'name':['Ivan','Petr', 'Nikol', 'Michael'], 'number':[123,242,4442,552]})

In [3]:
df

Unnamed: 0,name,number
0,Ivan,123
1,Petr,242
2,Nikol,4442
3,Michael,552


А если у человека не 1 номер, а несколько?

In [4]:
df['number_2'] = ['-',123,'-','-']
df['number_3'] = ['-',12212,'-','-']
df

Unnamed: 0,name,number,number_2,number_3
0,Ivan,123,-,-
1,Petr,242,123,12212
2,Nikol,4442,-,-
3,Michael,552,-,-


Возникает проблема с пропусками; к тому же, мы не сможем всегда быть уверены в том, что у нас достаточно столбцов. Попробуем развернуть таблицу, и новые номера записывать в новые строки:

In [5]:
df['city'] = ['moscow', 'krasnodar', 'astana', 'la']
df['education'] = ['high school', 'college', 'school', 'university']
df_vert = df[['name','number', 'city','education']].copy(deep=True)
df

Unnamed: 0,name,number,number_2,number_3,city,education
0,Ivan,123,-,-,moscow,high school
1,Petr,242,123,12212,krasnodar,college
2,Nikol,4442,-,-,astana,school
3,Michael,552,-,-,la,university


In [6]:
df_vert.loc[4] = ['Petr', 123, 'krasnodar', 'college']
df_vert.loc[5] = ['Petr', 12212, 'krasnodar', 'college']
df_vert

Unnamed: 0,name,number,city,education
0,Ivan,123,moscow,high school
1,Petr,242,krasnodar,college
2,Nikol,4442,astana,school
3,Michael,552,la,university
4,Petr,123,krasnodar,college
5,Petr,12212,krasnodar,college


Но так мы дублируем строки с дополнительными данными (в данном случае - с городом и образованием) - а это очень сильно перегружает нашу таблицу.

Есть еще одна опция - хранить телефонную книгу отдельно от основных данных:

In [7]:
df_info = df[['name', 'city', 'education']]
df_phones = df_vert[['name', 'number']]
df_info

Unnamed: 0,name,city,education
0,Ivan,moscow,high school
1,Petr,krasnodar,college
2,Nikol,astana,school
3,Michael,la,university


In [8]:
df_phones

Unnamed: 0,name,number
0,Ivan,123
1,Petr,242
2,Nikol,4442
3,Michael,552
4,Petr,123
5,Petr,12212


Это рабочая опция - но тут возникает другая проблема - вполне вероятна ситуация, когда Петра будет 2 - и в телефонной книге номера разных Петров. Или одного и того же?

Чтобы решить этот вопрос, нам поможет уникальный _идентификационный номер_:

In [9]:
df.insert(0, 'id', ['1ad', '2bc', '3a5','6la'])

In [10]:
df

Unnamed: 0,id,name,number,number_2,number_3,city,education
0,1ad,Ivan,123,-,-,moscow,high school
1,2bc,Petr,242,123,12212,krasnodar,college
2,3a5,Nikol,4442,-,-,astana,school
3,6la,Michael,552,-,-,la,university


In [11]:
df_phones.insert(0, 'id', ['1ad', '2bc', '3a5', '6la', '2bc', '2bc'])

In [12]:
df_phones

Unnamed: 0,id,name,number
0,1ad,Ivan,123
1,2bc,Petr,242
2,3a5,Nikol,4442
3,6la,Michael,552
4,2bc,Petr,123
5,2bc,Petr,12212


Таким образом мы и приходим к __реляционным базам данных__ - базам, в которых данные связаны неким __первичным ключом__, но разбиты по разным таблицам для экономии памяти

### Базовая терминология

__База данных__ — это хранилище структурированной информации.

__Реляционные базы данных__ — базы, в которых данные представлены в виде
связанных таблиц.

__СУБД__ (система управления базами данных) — это комплекс программ, который
позволяет создать базу данных, наполнить её новыми таблицами, отобразить
содержимое, редактировать существующие таблицы.

__Таблица__ — это совокупность строк и столбцов.

__Поле__ — столбец таблицы, обозначающий характеристику объекта и имеющий
уникальное имя и характерный тип данных.

__Запись__ — строка таблицы, содержащая информацию об одном объекте.

__Ячейка__ — место пересечения строки и столбца.

__Первичный ключ__ — поле или группа полей, использующееся для однозначного
определения записи. Все значения первичного ключа уникальны.

__SQL__ — язык программирования, предназначенный для управления данными в
реляционной базе.

__Запрос__ — это сформулированное в соответствии с синтаксисом SQL требование,
в котором объявляют, какие данные выбрать, и как именно их обработать. 

## SQL

__SQL__ - особый язык программирования для запросов из баз данных

Существует множество разных IDE для работы с базами данных (__СУБД__, систем управления базами данных): PostgreSQL, MS SQL Server, SQLite3, Oracle и другие.

Вся разница между ними - это внутренние функции, помогающие обрабатывать данные при запросе. Сам же язык запросов - SQL - один.

### Начало работы

Для начала испортируем необходимую библиотеку - __sqlite3__

In [13]:
import sqlite3

Чтобы создать базу данных - нужно создать к ней подключение с помощью команды __connect('filename')__, где __filename__ - путь до существующей базы вместе с названием, либо название новой базы - она создастся автоматически.

In [14]:
sqlite3.sqlite_version

'3.36.0'

In [15]:
con = sqlite3.connect('db')

### Заливка данных - метод __to_sql()__

Далее - в эту базу данных надо положить какие-то данные. Проще всего сделать это при помощи __pandas__:

In [16]:
import pandas as pd

df = pd.DataFrame({'col1':[1,2,3], 'col2':['a','b','c']})

In [17]:
df

Unnamed: 0,col1,col2
0,1,a
1,2,b
2,3,c


Чтобы вложить фрейм в базу данных используется метод __to_sql('filename', connection)__, где
- 'filename' - имя SQL таблицы;
- connection - база данных, в которую передаем таблицу;
- index : {True,False, _default True_} - заливать ли в БД индексы фрейма;
- if_exists - что делать, если в БД есть таблица с таким названием: 'replace', если надо её заменить на новую

Важно: если мы захотим в БД залить ту же таблицу, но измененную, вылезет ошибка!

In [18]:
df.to_sql('test_table', con, index=False, if_exists='replace')

Готово! Теперь мы можем формировать SQL-запросы к БД. 




Еще один важный момент: изначальной при чтении любого файла pandas передает даты как текст. Чтобы с этим не было проблем - перед заливкой нужно переформатировать даты:

In [19]:
df = pd.read_csv('german_credit_augmented.csv')
df

Unnamed: 0,age,sex,job,housing,saving_accounts,checking_account,credit_amount,duration,purpose,default,contract_dt,client_id
0,33,male,2,own,,,3074,9,radio/TV,0,2008-06-29 18:52:00,210
1,43,male,1,own,little,little,1344,12,car,0,2007-05-20 18:30:19,929
2,52,male,2,own,quite rich,,936,9,education,0,2008-04-27 08:23:07,200
3,35,female,3,own,little,,1393,11,car,0,2007-05-06 10:58:22,45
4,28,male,2,own,little,,776,12,radio/TV,0,2007-07-21 13:22:14,358
...,...,...,...,...,...,...,...,...,...,...,...,...
995,65,male,2,free,little,little,2600,18,radio/TV,1,2007-12-16 20:17:19,624
996,30,male,3,own,little,moderate,4455,36,business,1,2007-07-12 14:08:58,181
997,33,male,2,own,little,moderate,6403,24,radio/TV,0,2008-04-08 03:24:26,730
998,29,female,2,own,,,5003,21,car,1,2007-11-29 15:51:45,557


In [20]:
df['contract_dt'] = pd.to_datetime(df['contract_dt'], format='%Y-%m-%d %H:%M:%S')

In [21]:
df.head()

Unnamed: 0,age,sex,job,housing,saving_accounts,checking_account,credit_amount,duration,purpose,default,contract_dt,client_id
0,33,male,2,own,,,3074,9,radio/TV,0,2008-06-29 18:52:00,210
1,43,male,1,own,little,little,1344,12,car,0,2007-05-20 18:30:19,929
2,52,male,2,own,quite rich,,936,9,education,0,2008-04-27 08:23:07,200
3,35,female,3,own,little,,1393,11,car,0,2007-05-06 10:58:22,45
4,28,male,2,own,little,,776,12,radio/TV,0,2007-07-21 13:22:14,358


In [22]:
df.to_sql('german_credit', con, index=False, if_exists='replace')

### Подключение к PostgreSQL

В отличие от других сервисов по хранению БД, для работы PostgreSQL требует запуска приложения.

Обычно, если в компании необходимо работать с PostgreSQL - выдается пара логин-пароль и адрес сервера, где зранится БД.

Мы воспользуемся онлайн-сервисом ElephantSQL - он позволяет создавать небольшие бесплатные БД на базе PostgreSQL

https://customer.elephantsql.com/instance/

После создания инстанса нужно взять его реквизиты:

![image.png](attachment:image.png)

Нам нужен будет URL.

Чтобы подключиться к такой БД нам понадобится __библиотека sqlalchemy и метод create_engine()__, который принимает URL БД и другие необходимые для входа данные:

In [23]:
from sqlalchemy import create_engine

Наш URL: postgres://pswvzwwd:zuAdT4FVPi62KC-5q6bEqmjGqruwsELo@mouse.db.elephantsql.com/pswvzwwd

Здесь знаками разделено следующее:
- pswvzwwd - имя пользователя;
- zuAdT4FVPi62KC-5q6bEqmjGqruwsELo - пароль;
- mouse.db.elephantsql.com - домен
- pswvzwwd - имя бд

__Важно__ на вход метод __create_engine()__ принимает URL вида __postgresql+psycopg2://...__ - значит, наш URL надо немного отредактировать

In [24]:
engine = create_engine('postgresql+psycopg2://pswvzwwd:zuAdT4FVPi62KC-5q6bEqmjGqruwsELo@mouse.db.elephantsql.com/pswvzwwd')

Мы подключились к серверу! Зальем файл:

In [25]:
df.to_sql('german_credit', engine, if_exists='replace')

Проверим с помощью простейшего запроса (разобран ниже):

In [26]:
pd.read_sql('select * from german_credit', engine)

Unnamed: 0,index,age,sex,job,housing,saving_accounts,checking_account,credit_amount,duration,purpose,default,contract_dt,client_id
0,0,33,male,2,own,,,3074,9,radio/TV,0,2008-06-29 18:52:00,210
1,1,43,male,1,own,little,little,1344,12,car,0,2007-05-20 18:30:19,929
2,2,52,male,2,own,quite rich,,936,9,education,0,2008-04-27 08:23:07,200
3,3,35,female,3,own,little,,1393,11,car,0,2007-05-06 10:58:22,45
4,4,28,male,2,own,little,,776,12,radio/TV,0,2007-07-21 13:22:14,358
...,...,...,...,...,...,...,...,...,...,...,...,...,...
995,995,65,male,2,free,little,little,2600,18,radio/TV,1,2007-12-16 20:17:19,624
996,996,30,male,3,own,little,moderate,4455,36,business,1,2007-07-12 14:08:58,181
997,997,33,male,2,own,little,moderate,6403,24,radio/TV,0,2008-04-08 03:24:26,730
998,998,29,female,2,own,,,5003,21,car,1,2007-11-29 15:51:45,557


Сработало!

Также мы можем загружать в тетрадку таблицы из гугл - для этого нам понадобится её id (не совсем весь):

In [27]:
id = 'https://docs.google.com/spreadsheets/d/1R_wROvacIoaitkXjW58gdAvyyMZQGcTanMJCOFhrbgg/edit?usp=sharing'

In [28]:
id_list = id.split('/')
id_list

['https:',
 '',
 'docs.google.com',
 'spreadsheets',
 'd',
 '1R_wROvacIoaitkXjW58gdAvyyMZQGcTanMJCOFhrbgg',
 'edit?usp=sharing']

Нам нужна предпоследняя длинная абракадабра

In [29]:
google_df = pd.read_csv(f'https://docs.google.com/spreadsheets/d/{id_list[-2]}/export?format=csv')

In [30]:
google_df

Unnamed: 0.1,Unnamed: 0,Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5,Unnamed: 6,Unnamed: 7,Unnamed: 8,Unnamed: 9,Unnamed: 10,Unnamed: 11,Unnamed: 12
0,,,,,,,,,,,,,
1,,,,,,,,,,,,,
2,,,Люди,,,,,Телефоны,,,,Адреса,
3,,,,,,,,,,,,,
4,,id,ФИО,Д/р,Статус,,Чей телефон,Тел,Коммент,,Чей адрес,Адрес,Комментарий
5,,1,Иванов И. И.,2/12/1990,женат,,1,123,личный,,1,Можга,Место рождения
6,,2,Иванов И. И.,9/18/2001,холост,,1,124,рабочий,,1,Казань,По прописке
7,,3,Петров П. П.,4/23/1983,женат,,1,125,для поездок,,1,Москва,Рабочий
8,,4,Васильев В. В.,5/21/1998,холост,,1,126,интернет,,2,Санкт-Петербург,По прописке
9,,,,,,,1,127,старый,,3,Москва,По прописке


In [31]:
google_df = google_df.iloc[5:9,2:9]
google_df.columns = [i for i in range(len(google_df.columns))]
google_df

Unnamed: 0,0,1,2,3,4,5,6
5,Иванов И. И.,2/12/1990,женат,,1,123,личный
6,Иванов И. И.,9/18/2001,холост,,1,124,рабочий
7,Петров П. П.,4/23/1983,женат,,1,125,для поездок
8,Васильев В. В.,5/21/1998,холост,,1,126,интернет


In [32]:
google_df.to_sql('test_table', engine, if_exists='replace', index=False)

In [33]:
sql = 'select * from test_table'

In [34]:
pd.read_sql(sql, engine)

Unnamed: 0,0,1,2,3,4,5,6
0,Иванов И. И.,2/12/1990,женат,,1,123,личный
1,Иванов И. И.,9/18/2001,холост,,1,124,рабочий
2,Петров П. П.,4/23/1983,женат,,1,125,для поездок
3,Васильев В. В.,5/21/1998,холост,,1,126,интернет


## Запросы - select


Чтобы сформировать запрос к БД, нужно:
- сформировать запрос в виде строки
- передать запрос в метод __read_sql(request, connection)__, где __request__ - наша строка запроса, __connection__ - подключение к БД.

Сформируем запрос:

In [35]:
sql = '''select *
        from german_credit t'''

Передадим в метод __read_sql()__

In [36]:
pd.read_sql(sql, con)

Unnamed: 0,age,sex,job,housing,saving_accounts,checking_account,credit_amount,duration,purpose,default,contract_dt,client_id
0,33,male,2,own,,,3074,9,radio/TV,0,2008-06-29 18:52:00,210
1,43,male,1,own,little,little,1344,12,car,0,2007-05-20 18:30:19,929
2,52,male,2,own,quite rich,,936,9,education,0,2008-04-27 08:23:07,200
3,35,female,3,own,little,,1393,11,car,0,2007-05-06 10:58:22,45
4,28,male,2,own,little,,776,12,radio/TV,0,2007-07-21 13:22:14,358
...,...,...,...,...,...,...,...,...,...,...,...,...
995,65,male,2,free,little,little,2600,18,radio/TV,1,2007-12-16 20:17:19,624
996,30,male,3,own,little,moderate,4455,36,business,1,2007-07-12 14:08:58,181
997,33,male,2,own,little,moderate,6403,24,radio/TV,0,2008-04-08 03:24:26,730
998,29,female,2,own,,,5003,21,car,1,2007-11-29 15:51:45,557


    select * from german_credit t
    
Как же это расшифровывыется?

- __select__ - команда выбора данных
- \* - означает выбор всех столбцов; вместо неё может быть название конкретного столбца; любые переменные (названия столбцов), которые мы передадим сюда для селекта называются __ключевыми словами__
- from - команда, передающая, из какой таблицы запрашиваем данные
- _file_name_ - название таблицы;
- t - псевдоним таблицы

Выберем 1 столбец - _sex_:

In [37]:
sql = 'select sex from german_credit t'
pd.read_sql(sql, con)

Unnamed: 0,sex
0,male
1,male
2,male
3,female
4,male
...,...
995,male
996,male
997,male
998,female


Комментарии оставляются с помощью двух символов тире подряд __--__:

    -- комментарий

In [38]:
sql = '''
-- выбираем все столбцы

select * from german_credit t
'''

In [39]:
pd.read_sql(sql,con)

Unnamed: 0,age,sex,job,housing,saving_accounts,checking_account,credit_amount,duration,purpose,default,contract_dt,client_id
0,33,male,2,own,,,3074,9,radio/TV,0,2008-06-29 18:52:00,210
1,43,male,1,own,little,little,1344,12,car,0,2007-05-20 18:30:19,929
2,52,male,2,own,quite rich,,936,9,education,0,2008-04-27 08:23:07,200
3,35,female,3,own,little,,1393,11,car,0,2007-05-06 10:58:22,45
4,28,male,2,own,little,,776,12,radio/TV,0,2007-07-21 13:22:14,358
...,...,...,...,...,...,...,...,...,...,...,...,...
995,65,male,2,free,little,little,2600,18,radio/TV,1,2007-12-16 20:17:19,624
996,30,male,3,own,little,moderate,4455,36,business,1,2007-07-12 14:08:58,181
997,33,male,2,own,little,moderate,6403,24,radio/TV,0,2008-04-08 03:24:26,730
998,29,female,2,own,,,5003,21,car,1,2007-11-29 15:51:45,557


### Псевдонимы и немного о стиле

Для чего же нам нужны псевдонимы? Мы можем передавать запросы к столбцам, как к атрибутам таблицы. Чтобы сделать это коротко - обращаются к краткому названию таблицы - псевдониму:

In [40]:
sql = 'select t.age from german_credit t'
pd.read_sql(sql,con)

Unnamed: 0,age
0,33
1,43
2,52
3,35
4,28
...,...
995,65
996,30
997,33
998,29


Чтобы выбрать несколько столбцов - их просто передают через запятую:

In [41]:
sql = 'select t.age, t.sex from german_credit t'
pd.read_sql(sql, con)

Unnamed: 0,age,sex
0,33,male
1,43,male
2,52,male
3,35,female
4,28,male
...,...,...
995,65,male
996,30,male
997,33,male
998,29,female


На самом деле можно обойтись и без псевдонимов - сработает:

In [42]:
sql = 'select age, sex, purpose from german_credit'
pd.read_sql(sql, con)

Unnamed: 0,age,sex,purpose
0,33,male,radio/TV
1,43,male,car
2,52,male,education
3,35,female,car
4,28,male,radio/TV
...,...,...,...
995,65,male,radio/TV
996,30,male,business
997,33,male,radio/TV
998,29,female,car


Но такая запись не очень хороша, поскольку при усложнении запросов, когда будут одновременные селекты из нескольких таблиц - совершенно неясно, откуда тянутся данные. Поэтому использование псевдонимов __обязательно__.

Также правилом хорошего тона является написание операторов в верхнем регистре и разнесение ключевых слов по строкам:

    SELECT t.age,
            t.age * 3
    FROM german_credit t
    
    
Однако это не очень строгое правило: в каждой компании существуют свои правила написания SQL-запросов.

Также есть специальные сервисы-форматтеры таких запросов, например https://sqlformat.org/


Что еще мы можем делать? Мы можем производить арифметические расчеты прямо при запросе:

In [43]:
sql = 'select t.age, t.age * 3 from german_credit t'
pd.read_sql(sql,con)

Unnamed: 0,age,t.age * 3
0,33,99
1,43,129
2,52,156
3,35,105
4,28,84
...,...,...
995,65,195
996,30,90
997,33,99
998,29,87


Можем сразу переименовать этот столбец - главное не забыть добавить 'as' перед названием нового столбца (можно и не добавлять, сработает и так, но по гайдлайнам - так будет понятнее):

In [44]:
sql = 'select t.age, t.age * 3 as age_mult3 from german_credit t'
pd.read_sql(sql, con)

Unnamed: 0,age,age_mult3
0,33,99
1,43,129
2,52,156
3,35,105
4,28,84
...,...,...
995,65,195
996,30,90
997,33,99
998,29,87


Также удобно ставить не одинарные кавычки, а тройные - это позволит разнести запрос по разным строкам (очень удобно, если он сложный):

In [45]:
sql= '''
select t.age,
t.age * 3 as age_mult3
from german_credit t
'''

In [46]:
pd.read_sql(sql, con)

Unnamed: 0,age,age_mult3
0,33,99
1,43,129
2,52,156
3,35,105
4,28,84
...,...,...
995,65,195
996,30,90
997,33,99
998,29,87


### Базовые операции со столбцами

Кроме умножения, мы можем также __вычитать, складывать и делить__, причем даже столбцы между собой:

In [47]:
sql = '''
select t.age + t.duration as summary
from german_credit t
'''

In [48]:
pd.read_sql(sql,con)

Unnamed: 0,summary
0,42
1,55
2,61
3,46
4,40
...,...
995,83
996,66
997,57
998,50


Также мы можем выводить обычные столбцы таблицы с новыми:

In [49]:
sql = '''
select t.age * 3 as age_mult3,
t.duration - 2 as duration_corrected,
t.*
from german_credit t
'''

In [50]:
pd.read_sql(sql,con)

Unnamed: 0,age_mult3,duration_corrected,age,sex,job,housing,saving_accounts,checking_account,credit_amount,duration,purpose,default,contract_dt,client_id
0,99,7,33,male,2,own,,,3074,9,radio/TV,0,2008-06-29 18:52:00,210
1,129,10,43,male,1,own,little,little,1344,12,car,0,2007-05-20 18:30:19,929
2,156,7,52,male,2,own,quite rich,,936,9,education,0,2008-04-27 08:23:07,200
3,105,9,35,female,3,own,little,,1393,11,car,0,2007-05-06 10:58:22,45
4,84,10,28,male,2,own,little,,776,12,radio/TV,0,2007-07-21 13:22:14,358
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
995,195,16,65,male,2,free,little,little,2600,18,radio/TV,1,2007-12-16 20:17:19,624
996,90,34,30,male,3,own,little,moderate,4455,36,business,1,2007-07-12 14:08:58,181
997,99,22,33,male,2,own,little,moderate,6403,24,radio/TV,0,2008-04-08 03:24:26,730
998,87,19,29,female,2,own,,,5003,21,car,1,2007-11-29 15:51:45,557


При делении важно контролировать деление целых чисел:

In [51]:
sql = '''
select t.age,
t.duration,
t.age / t.duration as division
from german_credit t
'''

In [52]:
pd.read_sql(sql,con)

Unnamed: 0,age,duration,division
0,33,9,3
1,43,12,3
2,52,9,5
3,35,11,3
4,28,12,2
...,...,...,...
995,65,18,3
996,30,36,0
997,33,24,1
998,29,21,1


Мы получаем весьма странные значения: по умолчанию некоторые базы данных делят целые числа друг на друга только нацело.

Чтобы получить число типа __float__, нам нужно всего лишь домножить результат на 1.0:

In [53]:
sql = '''
select t.age,
t.duration,
t.age * 1.0 / t.duration as division
from german_credit t
'''

In [54]:
pd.read_sql(sql,con)

Unnamed: 0,age,duration,division
0,33,9,3.666667
1,43,12,3.583333
2,52,9,5.777778
3,35,11,3.181818
4,28,12,2.333333
...,...,...,...
995,65,18,3.611111
996,30,36,0.833333
997,33,24,1.375000
998,29,21,1.380952


Готово!

#### Count, sum и avg

Также в SQLite3 есть разнообразные функции для мат. операций - например, для суммы по столбцу или расчету его среднего - __sum и avg__ соответственно:

In [55]:
sql = '''
select avg(t.credit_amount) as credit_avg, sum(t.credit_amount) as credit_sum
from german_credit t
'''

In [56]:
pd.read_sql(sql,con)

Unnamed: 0,credit_avg,credit_sum
0,3271.258,3271258


Также мы можем посчитать количество строк по запросу - с помощью функции __count()__:

In [57]:
sql = '''
select count(*)
from german_credit t
'''

In [58]:
pd.read_sql(sql,con)

Unnamed: 0,count(*)
0,1000


__Важно__ для подсчета общего кол-ва строк передавать именно звездочку в __count()__ - ведь пропуски __count()__ не считает:

In [59]:
sql = '''
select count(t.checking_account) from german_credit t
'''

In [60]:
pd.read_sql(sql,con)

Unnamed: 0,count(t.checking_account)
0,606


Здесь значений не тысяча - хотя строк в таблице меньше не стало.

То же самое стоит помнить и про среднее значение - функция __avg__ посчитает среднее значения только для непустых значений.

#### min,max 

С помощью агрегирующих функций __min()__ и __max()__ мы можем вывести минимальные и максимальные значения по столбцам:

In [61]:
sql = '''
select min(t.credit_amount), max(t.credit_amount) from german_credit t
'''
pd.read_sql(sql,con)

Unnamed: 0,min(t.credit_amount),max(t.credit_amount)
0,250,18424


#### Abs, floor, ceiling и round

С помощью __abs()__ мы можем выводить модуль числа (и для SQLite3, и для PostgreSQL):

In [62]:
sql = '''
select t.job * -1, abs(t.job * -1) from german_credit t
'''
pd.read_sql(sql,con)

Unnamed: 0,t.job * -1,abs(t.job * -1)
0,-2,2
1,-1,1
2,-2,2
3,-3,3
4,-2,2
...,...,...
995,-2,2
996,-3,3
997,-2,2
998,-2,2


Функции __floor()__ позволяет округлять дробные числа в меньшую сторону, __ceiling__ - в большую, __но только в PostgreSQL__:

In [63]:
sql = '''select t.job * .5, floor(t.job * .5), ceiling(t.job * .5) 
from german_credit t'''
pd.read_sql(sql,engine)

Unnamed: 0,?column?,floor,ceiling
0,1.0,1.0,1.0
1,0.5,0.0,1.0
2,1.0,1.0,1.0
3,1.5,1.0,2.0
4,1.0,1.0,1.0
...,...,...,...
995,1.0,1.0,1.0
996,1.5,1.0,2.0
997,1.0,1.0,1.0
998,1.0,1.0,1.0


Функция __round()__ кроме столбца для округления принимает количество знаков после запятой, до которых нужно округлить (работает и __SQLite3, и Postgres__):

In [64]:
sql = '''
select t.job * 1.33, round(t.job * 1.33,1) from german_credit t 
'''
pd.read_sql(sql,con)

Unnamed: 0,t.job * 1.33,"round(t.job * 1.33,1)"
0,2.66,2.7
1,1.33,1.3
2,2.66,2.7
3,3.99,4.0
4,2.66,2.7
...,...,...
995,2.66,2.7
996,3.99,4.0
997,2.66,2.7
998,2.66,2.7


#### power и sqrt (только для Postgres)

Функция __power()__ позволит возвести число в степень:

In [65]:
sql = '''
select t.job, power(t.job,3) from german_credit t
'''
pd.read_sql(sql,engine)

Unnamed: 0,job,power
0,2,8.0
1,1,1.0
2,2,8.0
3,3,27.0
4,2,8.0
...,...,...
995,2,8.0
996,3,27.0
997,2,8.0
998,2,8.0


__sqrt()__ - расчитает квадратный корень:

In [66]:
sql = '''
select t.credit_amount, sqrt(t.credit_amount) from german_credit t
'''
pd.read_sql(sql,engine)

Unnamed: 0,credit_amount,sqrt
0,3074,55.443665
1,1344,36.660606
2,936,30.594117
3,1393,37.322915
4,776,27.856777
...,...,...
995,2600,50.990195
996,4455,66.745786
997,6403,80.018748
998,5003,70.731888


#### distinct - вывод уникальных значений

Если мы хотим посмотреть на уникальные значения столбца - перед его названием нам нужно добавить слово __distinct__:

In [67]:
sql = '''
select distinct t.purpose
from german_credit t
'''

In [68]:
pd.read_sql(sql,con)

Unnamed: 0,purpose
0,radio/TV
1,car
2,education
3,furniture/equipment
4,repairs
5,business
6,domestic appliances
7,vacation/others


Если передать несколько столбцов - он выберет уникальные комбинации:

In [69]:
sql = '''
select distinct t.purpose, t.sex
from german_credit t
'''

In [70]:
pd.read_sql(sql,con)

Unnamed: 0,purpose,sex
0,radio/TV,male
1,car,male
2,education,male
3,car,female
4,furniture/equipment,female
5,radio/TV,female
6,repairs,male
7,business,male
8,furniture/equipment,male
9,domestic appliances,male


### Несколько строк - limit

Если мы будем выгружать таблицы "на посмотреть" в реальной жизни - наши запросы будут поедать очень много оперативной памяти: БД могут содержать миллионы строк.

Чтобы этого избежать, для визуального знакомства с несколькими строками данных используют __limit - ставят его в конце__:

In [71]:
sql = '''
select * from german_credit t limit 10
'''

In [72]:
pd.read_sql(sql,con)

Unnamed: 0,age,sex,job,housing,saving_accounts,checking_account,credit_amount,duration,purpose,default,contract_dt,client_id
0,33,male,2,own,,,3074,9,radio/TV,0,2008-06-29 18:52:00,210
1,43,male,1,own,little,little,1344,12,car,0,2007-05-20 18:30:19,929
2,52,male,2,own,quite rich,,936,9,education,0,2008-04-27 08:23:07,200
3,35,female,3,own,little,,1393,11,car,0,2007-05-06 10:58:22,45
4,28,male,2,own,little,,776,12,radio/TV,0,2007-07-21 13:22:14,358
5,27,female,2,own,little,moderate,1295,18,furniture/equipment,0,2008-06-18 04:10:05,86
6,29,female,2,own,little,moderate,959,9,furniture/equipment,1,2007-05-21 14:32:00,351
7,42,female,2,rent,rich,rich,409,12,radio/TV,0,2008-06-05 05:31:13,27
8,26,male,2,own,little,little,4370,42,radio/TV,1,2007-11-29 00:20:44,639
9,55,male,2,free,rich,,1555,12,repairs,1,2007-09-11 20:27:28,754


Если же мы хотим получить выгрузку не с начала таблицы, а например из середины - мы передаем дополнительный оператор __offset__, который определяет, сколько строк сверху (с начала таблицы) мы пропустим:

In [73]:
sql = '''
select * from german_credit t
limit 15 offset 500
'''

In [74]:
pd.read_sql(sql,con)

Unnamed: 0,age,sex,job,housing,saving_accounts,checking_account,credit_amount,duration,purpose,default,contract_dt,client_id
0,39,male,1,own,moderate,moderate,1037,12,business,0,2008-02-18 02:55:57,478
1,40,male,0,free,,moderate,5381,48,vacation/others,0,2008-03-18 18:40:46,310
2,47,male,2,free,little,,1984,18,furniture/equipment,0,2007-09-18 07:43:16,133
3,39,male,1,rent,little,little,2122,12,car,0,2008-04-02 03:22:18,494
4,30,male,2,own,little,moderate,7966,26,car,0,2007-11-08 13:56:18,525
5,36,female,2,own,little,rich,2247,12,car,0,2008-04-24 08:01:14,362
6,47,male,2,own,little,moderate,2353,21,car,0,2007-11-19 04:28:09,961
7,34,male,2,own,little,little,6999,48,radio/TV,1,2008-02-13 08:21:05,552
8,75,female,3,own,,little,1374,6,car,0,2007-11-06 00:46:31,536
9,55,male,3,free,little,moderate,9283,42,car,0,2007-07-17 11:55:51,808


И хотя индексы вновь считаются с нуля (поскольку мы заново формируем DataFrame), мы видим, что выведенные записи отличаются от тех, что мы выводили ранее.

### Порядок выдачи - order by

Чтобы отсортировать таблицу по столбцу - нужно передать метод __order by__ и название столбца.

Его пишут в самом конце запроса, после него можно указать только оператор __limit__. 

In [75]:
sql = '''
select * from german_credit t
order by t.duration
limit 20
'''

In [76]:
pd.read_sql(sql,con)

Unnamed: 0,age,sex,job,housing,saving_accounts,checking_account,credit_amount,duration,purpose,default,contract_dt,client_id
0,42,male,1,own,little,,1455,4,car,0,2007-07-16 05:28:49,943
1,37,female,2,own,little,,3380,4,car,0,2007-12-15 09:16:23,734
2,23,female,1,rent,little,,601,4,furniture/equipment,0,2007-08-08 10:14:01,837
3,29,male,1,own,,rich,1494,4,car,0,2008-01-30 10:29:25,314
4,42,male,1,own,little,,1503,4,radio/TV,0,2007-10-04 20:48:21,527
5,42,male,1,own,little,,1544,4,radio/TV,0,2007-11-01 13:50:47,234
6,74,male,1,own,little,,3448,5,business,0,2007-07-03 02:08:34,430
7,34,male,1,own,moderate,,1743,6,business,0,2008-02-14 01:58:09,348
8,62,male,2,own,quite rich,,1338,6,domestic appliances,0,2007-08-01 18:36:24,816
9,43,male,2,own,moderate,little,1203,6,car,0,2007-10-30 23:15:38,518


Если нам нужна сортировка по убыванию - после названия столбца нужно передать параметр __desc__ - descending - убывающий:

In [77]:
sql = '''
select * from german_credit t
order by t.duration desc
limit 20
'''

In [78]:
pd.read_sql(sql,con)

Unnamed: 0,age,sex,job,housing,saving_accounts,checking_account,credit_amount,duration,purpose,default,contract_dt,client_id
0,24,male,2,own,moderate,moderate,5595,72,radio/TV,1,2008-01-03 20:45:43,677
1,34,male,2,free,,,6527,60,car,0,2007-10-07 13:02:48,685
2,27,male,3,own,little,moderate,14027,60,car,1,2008-03-27 13:35:17,714
3,21,male,2,own,little,,15653,60,radio/TV,0,2008-04-26 15:28:20,637
4,24,female,3,own,moderate,moderate,7408,60,car,1,2007-08-30 20:44:44,332
5,27,male,1,own,,moderate,7418,60,radio/TV,0,2008-02-02 14:05:02,255
6,63,male,3,free,,,13756,60,car,0,2007-06-01 13:18:05,373
7,42,male,3,own,little,,10366,60,car,0,2007-07-03 16:44:22,672
8,27,male,3,free,,moderate,9157,60,radio/TV,0,2007-11-18 05:52:51,616
9,42,male,2,free,little,moderate,6288,60,education,1,2008-01-09 08:34:05,938


Если нужна сортировка по нескольким столбцам - указываем их через запятую, причем к каждому столбцу, по которому нужна сортировка по убыванию, нужно будет приписывать __desc__.

Важно: очередность названий столбцов влияет на приоритет сортировок:

In [79]:
sql = '''
select * from german_credit t
order by t.duration desc, t.age, t.credit_amount
limit 20
'''

In [80]:
pd.read_sql(sql,con)

Unnamed: 0,age,sex,job,housing,saving_accounts,checking_account,credit_amount,duration,purpose,default,contract_dt,client_id
0,24,male,2,own,moderate,moderate,5595,72,radio/TV,1,2008-01-03 20:45:43,677
1,21,female,2,own,moderate,,10144,60,radio/TV,0,2008-05-23 10:06:59,134
2,21,male,2,own,little,,15653,60,radio/TV,0,2008-04-26 15:28:20,637
3,24,female,3,own,moderate,moderate,7408,60,car,1,2007-08-30 20:44:44,332
4,27,male,1,own,,moderate,7418,60,radio/TV,0,2008-02-02 14:05:02,255
5,27,male,3,free,,moderate,9157,60,radio/TV,0,2007-11-18 05:52:51,616
6,27,male,3,own,little,moderate,14027,60,car,1,2008-03-27 13:35:17,714
7,34,male,2,free,,,6527,60,car,0,2007-10-07 13:02:48,685
8,36,male,2,rent,little,little,7297,60,business,1,2007-08-02 15:47:08,973
9,42,male,2,free,little,moderate,6288,60,education,1,2008-01-09 08:34:05,938


Здесь мы видим, что сортировка по продолжительности сохраняется - а значит она была наиболее приоритетной.

Далее идет сортировка по возрасту и по объему кредита

### Условие - where

Чтобы выбрать какие-то конкретные строки, нужно уточнить запрос с помощью __where__.

__Where__ ставится сразу после блока __from__.

В __where__ мы можем передать любое условие. Числа можно фильтровать с помощью знаков сравнения: $>,<,=$

Сложные условия (объединение условий) передаются через __and/or__

In [81]:
sql = '''
select * from german_credit t
where t.duration > 12 and t.duration < 18
limit 10
'''

In [82]:
pd.read_sql(sql,con)

Unnamed: 0,age,sex,job,housing,saving_accounts,checking_account,credit_amount,duration,purpose,default,contract_dt,client_id
0,29,male,2,own,,,3556,15,car,0,2007-05-06 15:02:50,962
1,44,male,2,own,little,little,1478,15,furniture/equipment,0,2007-09-23 07:36:29,479
2,36,male,2,own,quite rich,rich,2360,15,car,0,2007-11-01 09:56:05,506
3,28,male,1,own,little,little,1797,13,business,0,2008-04-10 05:41:12,745
4,40,male,2,rent,,,1386,15,radio/TV,0,2008-03-03 19:17:41,903
5,33,male,2,own,little,,3029,15,car,0,2008-01-03 20:56:02,749
6,23,male,2,own,little,moderate,882,13,radio/TV,0,2007-10-14 21:36:04,346
7,34,male,3,own,moderate,moderate,6850,15,car,1,2007-10-30 11:44:28,507
8,22,male,2,free,little,little,3973,14,car,0,2008-03-15 22:06:34,655
9,35,female,2,free,quite rich,,5324,15,car,0,2008-01-29 18:59:16,705


In [83]:
sql = '''select t.age, t.duration, t.credit_amount
from german_credit t 
where t.credit_amount < 1000
'''

In [84]:
pd.read_sql(sql,con)

Unnamed: 0,age,duration,credit_amount
0,52,9,936
1,28,12,776
2,29,9,959
3,42,12,409
4,46,10,727
...,...,...,...
111,66,9,790
112,33,15,950
113,23,12,900
114,24,12,626


Для работы со строками (например, выбрать цель кредита - бизнес) строковое значение будет передаваться в кавычках

In [85]:
sql = '''
select * from german_credit t
where t.duration > 12 and t.duration < 60
and t.purpose = 'business'
'''

In [86]:
pd.read_sql(sql,con)

Unnamed: 0,age,sex,job,housing,saving_accounts,checking_account,credit_amount,duration,purpose,default,contract_dt,client_id
0,37,male,3,own,,moderate,4712,24,business,0,2007-11-23 03:51:16,564
1,41,male,2,own,moderate,moderate,2503,30,business,0,2008-01-25 07:33:01,703
2,26,female,2,own,little,,2764,33,business,0,2007-08-20 03:50:30,468
3,28,male,1,own,little,little,1797,13,business,0,2008-04-10 05:41:12,745
4,31,male,2,rent,little,little,3161,24,business,1,2007-06-02 00:46:37,914
...,...,...,...,...,...,...,...,...,...,...,...,...
74,32,female,2,own,little,moderate,2528,27,business,0,2007-09-13 02:21:39,704
75,27,male,2,own,quite rich,moderate,2326,15,business,0,2007-07-24 16:51:03,388
76,41,female,1,own,little,moderate,5954,42,business,0,2007-06-22 12:37:14,73
77,27,male,2,own,little,,8648,24,business,1,2008-02-13 13:15:39,402


#### in

Если нужно выбрать несколько строковых значений - мы будем использовать оператор __in__ и передавать искомые строковые значения в кортеже - в скобках:

In [87]:
sql = '''
select * from german_credit t
where t.duration > 12
and t.duration < 40
and t.purpose in ('business', 'car')
'''

In [88]:
pd.read_sql(sql,con)

Unnamed: 0,age,sex,job,housing,saving_accounts,checking_account,credit_amount,duration,purpose,default,contract_dt,client_id
0,27,female,2,own,little,little,3123,24,car,1,2008-04-16 08:37:35,500
1,27,male,2,own,little,,3850,18,car,0,2007-09-03 19:56:34,366
2,37,male,3,own,,moderate,4712,24,business,0,2007-11-23 03:51:16,564
3,29,male,2,own,,,3556,15,car,0,2007-05-06 15:02:50,962
4,35,male,1,own,moderate,little,4380,18,car,0,2008-01-04 17:17:51,737
...,...,...,...,...,...,...,...,...,...,...,...,...
246,30,female,2,own,little,,1055,18,car,0,2007-06-09 07:06:13,161
247,35,male,3,own,little,,7253,33,car,0,2008-04-03 06:25:20,411
248,30,male,2,own,little,,4657,15,car,0,2008-05-16 12:50:30,224
249,30,male,3,own,little,moderate,4455,36,business,1,2007-07-12 14:08:58,181


Отделяются логические операторы и группы логических выражений как обычно - скобками:

In [89]:
sql = '''
select * from german_credit t
where t.duration > 12 and t.duration < 40
and (t.purpose = 'car' or t.purpose = 'repairs')
'''

In [90]:
pd.read_sql(sql,con)

Unnamed: 0,age,sex,job,housing,saving_accounts,checking_account,credit_amount,duration,purpose,default,contract_dt,client_id
0,27,female,2,own,little,little,3123,24,car,1,2008-04-16 08:37:35,500
1,27,male,2,own,little,,3850,18,car,0,2007-09-03 19:56:34,366
2,29,male,2,own,,,3556,15,car,0,2007-05-06 15:02:50,962
3,35,male,1,own,moderate,little,4380,18,car,0,2008-01-04 17:17:51,737
4,33,male,2,rent,little,little,2235,20,car,1,2007-06-19 09:54:24,850
...,...,...,...,...,...,...,...,...,...,...,...,...
198,30,female,2,own,little,,1055,18,car,0,2007-06-09 07:06:13,161
199,23,female,2,own,little,,1943,18,repairs,1,2007-11-29 04:41:50,842
200,35,male,3,own,little,,7253,33,car,0,2008-04-03 06:25:20,411
201,30,male,2,own,little,,4657,15,car,0,2008-05-16 12:50:30,224


#### between

Также можно более просто задавать двойные неравенства - рамки для значения - с помощью параметра __between__.

__Between__ также подойдет и для дат.

Важно помнить: __between__ захватывает значения по краям:

In [91]:
sql = '''
select * from german_credit t
where t.contract_dt between '2007-01-01' and '2007-12-31'
and t.duration between 12 and 40
and t.purpose in ('car', 'repairs')
order by t.contract_dt
'''

In [92]:
pd.read_sql(sql,con)

Unnamed: 0,age,sex,job,housing,saving_accounts,checking_account,credit_amount,duration,purpose,default,contract_dt,client_id
0,31,male,2,own,little,,2775,18,car,1,2007-05-01 23:14:02,598
1,36,male,2,own,little,moderate,884,18,car,1,2007-05-02 06:22:11,184
2,55,female,0,free,little,little,1190,18,repairs,1,2007-05-05 00:14:17,429
3,55,male,2,own,rich,,1413,12,car,0,2007-05-05 06:35:11,209
4,75,male,3,free,little,little,6615,24,car,0,2007-05-06 09:37:45,330
...,...,...,...,...,...,...,...,...,...,...,...,...
141,43,male,2,rent,little,little,4843,12,car,1,2007-12-22 16:17:29,668
142,67,female,2,own,little,moderate,3872,18,repairs,0,2007-12-24 12:25:28,779
143,25,male,2,rent,moderate,moderate,1264,15,car,1,2007-12-28 08:38:58,979
144,30,male,2,own,little,moderate,639,12,repairs,1,2007-12-28 17:09:43,127


#### like - мэтчинг запроса по части строки

Если в одном из столбцов значения не стандартизированы - список для запроса __in__ может быть очень длинным:

In [93]:
dt = pd.DataFrame({'purpose':['машина', 'для машины', 'на машину', 'под машину','на авто','на автомобиль'],'amount':[100,120,200,220,150,110]})

In [94]:
dt

Unnamed: 0,purpose,amount
0,машина,100
1,для машины,120
2,на машину,200
3,под машину,220
4,на авто,150
5,на автомобиль,110


In [95]:
dt.to_sql('like_test',con, if_exists='replace',index=False)

Чтобы прочитать все вхождения разных форм слова "машина" придется либо перечислять все варианты, либо - что куда удобнее - воспользоваться методом __like__.

Чтобы воспользоваться им, после __like__ надо передать искомую подстроку, обрамленную знаками __%__:

In [96]:
sql = '''
select * from like_test t
where t.purpose like '%машин%'
'''

In [97]:
pd.read_sql(sql,con)

Unnamed: 0,purpose,amount
0,машина,100
1,для машины,120
2,на машину,200
3,под машину,220


Точно так же можно вывести и все записи для авто:

In [98]:
sql = '''
select * from like_test t
where t.purpose like '%авто%'
'''

In [99]:
pd.read_sql(sql,con)

Unnamed: 0,purpose,amount
0,на авто,150
1,на автомобиль,110


Если же нам наоборот, необходимо отобрать все записи, не содержащие подстроку - используется __оператор like not__:

In [100]:
sql = '''select * from like_test t
where t.purpose not like '%машин%'
'''
pd.read_sql(sql,con)

Unnamed: 0,purpose,amount
0,на авто,150
1,на автомобиль,110


### Case - дополнительные операции по условию

Если мы хотим определить новый столбец по определенному условию для наблюдений - мы используем конструкцию __case when__

По строению она напоминает __условный оператор if__:

    case when x условия then значение else значение end
    
Однако здесь __важно не забывать ставить end в конце__. Также важно не забыть - перед __case__ ставится запятая

In [101]:
sql = '''
select *,
case when t.purpose in ('car','repairs') then 'cars+reps' else 'other' end as group_purpose

from german_credit t
'''

In [102]:
pd.read_sql(sql,con)

Unnamed: 0,age,sex,job,housing,saving_accounts,checking_account,credit_amount,duration,purpose,default,contract_dt,client_id,group_purpose
0,33,male,2,own,,,3074,9,radio/TV,0,2008-06-29 18:52:00,210,other
1,43,male,1,own,little,little,1344,12,car,0,2007-05-20 18:30:19,929,cars+reps
2,52,male,2,own,quite rich,,936,9,education,0,2008-04-27 08:23:07,200,other
3,35,female,3,own,little,,1393,11,car,0,2007-05-06 10:58:22,45,cars+reps
4,28,male,2,own,little,,776,12,radio/TV,0,2007-07-21 13:22:14,358,other
...,...,...,...,...,...,...,...,...,...,...,...,...,...
995,65,male,2,free,little,little,2600,18,radio/TV,1,2007-12-16 20:17:19,624,other
996,30,male,3,own,little,moderate,4455,36,business,1,2007-07-12 14:08:58,181,other
997,33,male,2,own,little,moderate,6403,24,radio/TV,0,2008-04-08 03:24:26,730,other
998,29,female,2,own,,,5003,21,car,1,2007-11-29 15:51:45,557,cars+reps


Если нам нужно больше, чем 2 условия - мы просто дописываем на каждое условие еще один __when__ и продолжаем прописывать условия и действия:

In [103]:
sql = '''
select *,
case when t.credit_amount < 1000 then '1. < 1000'
when t.credit_amount < 3000 then '2. 1000-3000'
when t.credit_amount < 5000 then '3. 3000-5000'
else '4. > 5000' end as credit_type
from german_credit t

'''

In [104]:
pd.read_sql(sql,con)

Unnamed: 0,age,sex,job,housing,saving_accounts,checking_account,credit_amount,duration,purpose,default,contract_dt,client_id,credit_type
0,33,male,2,own,,,3074,9,radio/TV,0,2008-06-29 18:52:00,210,3. 3000-5000
1,43,male,1,own,little,little,1344,12,car,0,2007-05-20 18:30:19,929,2. 1000-3000
2,52,male,2,own,quite rich,,936,9,education,0,2008-04-27 08:23:07,200,1. < 1000
3,35,female,3,own,little,,1393,11,car,0,2007-05-06 10:58:22,45,2. 1000-3000
4,28,male,2,own,little,,776,12,radio/TV,0,2007-07-21 13:22:14,358,1. < 1000
...,...,...,...,...,...,...,...,...,...,...,...,...,...
995,65,male,2,free,little,little,2600,18,radio/TV,1,2007-12-16 20:17:19,624,2. 1000-3000
996,30,male,3,own,little,moderate,4455,36,business,1,2007-07-12 14:08:58,181,3. 3000-5000
997,33,male,2,own,little,moderate,6403,24,radio/TV,0,2008-04-08 03:24:26,730,4. > 5000
998,29,female,2,own,,,5003,21,car,1,2007-11-29 15:51:45,557,4. > 5000


Код выполняется построчно и не перезаписывает значения - то есть если всем значениям меньше 1000 присвоено какое-то новое значение, то при выборе всех значений меньше 2000 новые значения присвоятся только к тем строкам, около которых нового значения нет (то есть больше 1000 в данном примере)

#### iif() - функция SQLite3

Также в рамках __SQLite3__ с задачей неких операций по условию поможет справиться функция __iif()__, которая очень похожа на функцию из __excel__:

    iif(условие, значение если условие выполнилось, значение если условие не выполнилось)

In [105]:
sql = '''
select *,
iif(t.credit_amount > 1500,'big','small') as credit_group
from german_credit t
'''

In [106]:
pd.read_sql(sql,con)

Unnamed: 0,age,sex,job,housing,saving_accounts,checking_account,credit_amount,duration,purpose,default,contract_dt,client_id,credit_group
0,33,male,2,own,,,3074,9,radio/TV,0,2008-06-29 18:52:00,210,big
1,43,male,1,own,little,little,1344,12,car,0,2007-05-20 18:30:19,929,small
2,52,male,2,own,quite rich,,936,9,education,0,2008-04-27 08:23:07,200,small
3,35,female,3,own,little,,1393,11,car,0,2007-05-06 10:58:22,45,small
4,28,male,2,own,little,,776,12,radio/TV,0,2007-07-21 13:22:14,358,small
...,...,...,...,...,...,...,...,...,...,...,...,...,...
995,65,male,2,free,little,little,2600,18,radio/TV,1,2007-12-16 20:17:19,624,big
996,30,male,3,own,little,moderate,4455,36,business,1,2007-07-12 14:08:58,181,big
997,33,male,2,own,little,moderate,6403,24,radio/TV,0,2008-04-08 03:24:26,730,big
998,29,female,2,own,,,5003,21,car,1,2007-11-29 15:51:45,557,big


### Объединение таблиц по вертикали - union all

Иногда может возникнуть потребность объединить строки 2 таблиц в единую таблицу, например:

In [107]:
jan = pd.DataFrame({'month':['jan','jan'],'price':[100,120]})
feb = pd.DataFrame({'month':['feb','feb'],'price':[100,120]})

In [108]:
jan

Unnamed: 0,month,price
0,jan,100
1,jan,120


In [109]:
feb

Unnamed: 0,month,price
0,feb,100
1,feb,120


Нам бы хотелось видеть данные из обеих таблиц в одной таблице. Как нам это сделать?

Для начала - зальем таблицы в БД:

In [110]:
jan.to_sql('jan',con,index=False,if_exists='replace')
feb.to_sql('feb',con,index=False, if_exists='replace')

А теперь - можем селектить с помощью __union all__.

__Важно__: 
- __union all__ должен находиться между __select__ каждой таблицы;
- количество столбцов селектов и порядок их извлечения каждой таблицы должно совпадать;
- типы данных в полях должны соответствовать друг другу. Объединить поле типа integer с полем типа varchar не получится, а поля с типами integer и real — можно (о типах данных - чуть позднее).

In [111]:
sql = '''
select * from jan
union all
select * from feb
'''

In [112]:
pd.read_sql(sql,con)

Unnamed: 0,month,price
0,jan,100
1,jan,120
2,feb,100
3,feb,120


__Дополнение__: мы можем использовать и просто __union__, но важно помнить, что он ведет себя как функция __set()__ python - вернет только уникальные значения (удалит дубликаты)

## Сохранение новой таблицы

После того, как мы вывели какой-то запрос на экран - нам часто нужно таблицу сохранить обратно в бд как новую. Как это можно сделать?

Как мы помним - есть простой и действенный способ: сохранить выведенную запросом таблицу в переменной, а потом воспользоваться методом __to_sql__:

In [113]:
sql = '''
select * from german_credit t
where t.credit_amount > 3500 and t.purpose in ('car', 'repairs')
'''

new_df = pd.read_sql(sql,con)
new_df

Unnamed: 0,age,sex,job,housing,saving_accounts,checking_account,credit_amount,duration,purpose,default,contract_dt,client_id
0,27,male,2,own,little,,3850,18,car,0,2007-09-03 19:56:34,366
1,29,male,2,own,,,3556,15,car,0,2007-05-06 15:02:50,962
2,35,male,1,own,moderate,little,4380,18,car,0,2008-01-04 17:17:51,737
3,34,male,2,free,,,6527,60,car,0,2007-10-07 13:02:48,685
4,27,male,3,own,little,moderate,14027,60,car,1,2008-03-27 13:35:17,714
...,...,...,...,...,...,...,...,...,...,...,...,...
131,37,male,2,rent,little,little,3676,6,car,0,2008-06-05 22:58:54,617
132,48,male,2,free,,,9277,24,car,0,2008-05-23 11:15:16,881
133,35,male,3,own,little,,7253,33,car,0,2008-04-03 06:25:20,411
134,30,male,2,own,little,,4657,15,car,0,2008-05-16 12:50:30,224


In [114]:
new_df.to_sql('exp_car_repairs', engine, if_exists='replace')

### Сохранение новой таблицы в БД на базе SQLite3 - cursor()

Второй способ для __SQLite3__ - использование метода __cursor()__

Сначала курсор надо создать:

In [115]:
cur = con.cursor()

И теперь мы создаем новую таблицу прямо в SQL-запросе:

    sql = '''
    create table table_name as
    запрос'''

In [116]:
sql = '''
create table expensive_credits as
select *,
case when t.purpose in ('car','repairs') then 'car/repairs' else 'other' end as purpose_grouped
from german_credit t
where t.credit_amount > 2000
'''

И теперь нужно новую таблицу сохранить - выполнить запрос:

In [117]:
cur.execute(sql)

<sqlite3.Cursor at 0x1980be575e0>

И теперь мы можем делать селекты с новой таблицы. Проверим:

In [118]:
sql = '''
select * from expensive_credits t
'''

In [119]:
pd.read_sql(sql,con)

Unnamed: 0,age,sex,job,housing,saving_accounts,checking_account,credit_amount,duration,purpose,default,contract_dt,client_id,purpose_grouped
0,33,male,2,own,,,3074,9,radio/TV,0,2008-06-29 18:52:00,210,other
1,26,male,2,own,little,little,4370,42,radio/TV,1,2007-11-29 00:20:44,639,other
2,27,female,2,own,little,little,3123,24,car,1,2008-04-16 08:37:35,500,car/repairs
3,35,male,2,free,little,little,3386,12,car,1,2007-11-16 10:55:10,457,car/repairs
4,35,male,2,own,little,moderate,2576,7,radio/TV,0,2008-01-20 14:51:24,447,other
...,...,...,...,...,...,...,...,...,...,...,...,...,...
563,60,female,3,free,moderate,moderate,14782,60,vacation/others,1,2007-06-11 07:08:00,374,other
564,65,male,2,free,little,little,2600,18,radio/TV,1,2007-12-16 20:17:19,624,other
565,30,male,3,own,little,moderate,4455,36,business,1,2007-07-12 14:08:58,181,other
566,33,male,2,own,little,moderate,6403,24,radio/TV,0,2008-04-08 03:24:26,730,other


Однако здесь мы можем столкнуться с ошибкой: при перезапуске кода питон попытается создать новую таблицу в бд с названием уже существующей - и столкнется с ошибкой, ведь такая таблица уже есть.

Чтобы этого избежать, в __SQL-запрос__ создания таблицы зашивают условие на этот случай - добавляют команду (обязательно с точкой с запятой в конце):

In [120]:
sql = '''
drop table if exists expensive_credits;
create table expensive_credits as
select * ,
case when t.purpose in ('car','repairs') then 'car/repairs' else 'other' end as purpose_grouped
from german_credit t
where t.credit_amount > 3000
'''

Теперь, из-за того, что в запросе 2 команды, обычный __execute__ выдаст ошибку.

Воспользуемся __executescript()__:

In [121]:
cur.executescript(sql)

<sqlite3.Cursor at 0x1980be575e0>

Проверим:

In [122]:
sql = '''
select * from expensive_credits t
'''

In [123]:
pd.read_sql(sql,con)

Unnamed: 0,age,sex,job,housing,saving_accounts,checking_account,credit_amount,duration,purpose,default,contract_dt,client_id,purpose_grouped
0,33,male,2,own,,,3074,9,radio/TV,0,2008-06-29 18:52:00,210,other
1,26,male,2,own,little,little,4370,42,radio/TV,1,2007-11-29 00:20:44,639,other
2,27,female,2,own,little,little,3123,24,car,1,2008-04-16 08:37:35,500,car/repairs
3,35,male,2,free,little,little,3386,12,car,1,2007-11-16 10:55:10,457,car/repairs
4,27,male,2,own,little,,3850,18,car,0,2007-09-03 19:56:34,366,car/repairs
...,...,...,...,...,...,...,...,...,...,...,...,...,...
375,30,male,2,own,little,,4657,15,car,0,2008-05-16 12:50:30,224,car/repairs
376,60,female,3,free,moderate,moderate,14782,60,vacation/others,1,2007-06-11 07:08:00,374,other
377,30,male,3,own,little,moderate,4455,36,business,1,2007-07-12 14:08:58,181,other
378,33,male,2,own,little,moderate,6403,24,radio/TV,0,2008-04-08 03:24:26,730,other


### PostgreSQL

Как мы помним, вместо подключения (__connection__) при запросах из __PostgreSQL__ мы используем движок (__engine__):

In [124]:
sql = '''
select * from german_credit t
where t.credit_amount < 3000
'''

In [125]:
pd.read_sql(sql,engine)

Unnamed: 0,index,age,sex,job,housing,saving_accounts,checking_account,credit_amount,duration,purpose,default,contract_dt,client_id
0,1,43,male,1,own,little,little,1344,12,car,0,2007-05-20 18:30:19,929
1,2,52,male,2,own,quite rich,,936,9,education,0,2008-04-27 08:23:07,200
2,3,35,female,3,own,little,,1393,11,car,0,2007-05-06 10:58:22,45
3,4,28,male,2,own,little,,776,12,radio/TV,0,2007-07-21 13:22:14,358
4,5,27,female,2,own,little,moderate,1295,18,furniture/equipment,0,2008-06-18 04:10:05,86
...,...,...,...,...,...,...,...,...,...,...,...,...,...
615,992,38,male,2,own,little,,1924,10,radio/TV,0,2007-10-04 11:09:45,151
616,993,55,female,3,own,,rich,1424,12,furniture/equipment,0,2007-12-02 14:39:04,448
617,994,45,male,1,own,quite rich,,1750,6,radio/TV,0,2007-05-25 13:59:51,551
618,995,65,male,2,free,little,little,2600,18,radio/TV,1,2007-12-16 20:17:19,624


Создавали мы движок с помощью __sqlalchemy__ - а она сразу наделяет движок методом __execute()__, без необходимости создания курсора. Также этот метод поддерживает исполнение нескольких команд:

In [126]:
sql = '''
drop table cheap_credits;
create table cheap_credits as
select *,
case when t.purpose in ('car','repairs') then 'car/repairs' else 'other' end as purpose_grouped
from german_credit t
where t.credit_amount < 2000
'''

In [127]:
engine.execute(sql)

<sqlalchemy.engine.cursor.LegacyCursorResult at 0x1980bf2eee0>

In [128]:
sql = '''
select *  from cheap_credits t
'''

In [129]:
pd.read_sql(sql,engine)

Unnamed: 0,index,age,sex,job,housing,saving_accounts,checking_account,credit_amount,duration,purpose,default,contract_dt,client_id,purpose_grouped
0,1,43,male,1,own,little,little,1344,12,car,0,2007-05-20 18:30:19,929,car/repairs
1,2,52,male,2,own,quite rich,,936,9,education,0,2008-04-27 08:23:07,200,other
2,3,35,female,3,own,little,,1393,11,car,0,2007-05-06 10:58:22,45,car/repairs
3,4,28,male,2,own,little,,776,12,radio/TV,0,2007-07-21 13:22:14,358,other
4,5,27,female,2,own,little,moderate,1295,18,furniture/equipment,0,2008-06-18 04:10:05,86,other
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
427,990,48,female,1,free,moderate,rich,1240,10,car,1,2007-10-24 10:39:34,611,car/repairs
428,992,38,male,2,own,little,,1924,10,radio/TV,0,2007-10-04 11:09:45,151,other
429,993,55,female,3,own,,rich,1424,12,furniture/equipment,0,2007-12-02 14:39:04,448,other
430,994,45,male,1,own,quite rich,,1750,6,radio/TV,0,2007-05-25 13:59:51,551,other


## Типы данных PostgreSQL

Как и в других языках программирования, в СУБД данные могут обладать разными типами: строковые, числовые и т.д. Более того, в разных СУБД типы данных могут отличаться, но их часто можно объединить в похожие группы. 

В PostgreSQL выделяют такие группы типов данных:

- числовые типы;
- символьные типы;
- логические типы;
- типы для работы с датой и временем;
- разные специализированные типы для конкретных задач.

А внутри этих групп прячутся дополнительные подтипы данных.

Казалось бы, зачем столько. Но разные типы пригодятся для конкретных задач, поэтому их определяют ещё во время проектирования базы. Аналитик нечасто использует всё многообразие типов данных, но познакомиться с основными всё же стоит. 


__Числовые типы__:
- Тип __integer__ хранит целые числа от -2147483648 до +2147483647. Должно хватить. Этот тип данных __обозначают либо int, либо int4__
- Тип __real__ обозначает вещественные числа. У этого тип тоже есть псевдоним — __float4__.
- Тип __double precision__ - более большие вещественные числа; псевдоним - __float8__

Число в конце псевдонима обозначает, сколько байт занимает такой тип. К примеру, int4 занимает 4 байта.

__Символьные типы__
- Тип __character__ содержит текст фиксированной длины. Его обозначают псевдонимом __char(n)__. На месте символа n может стоять любое число. Например, если вместо n подставить 4, строка будет состоять только из четырёх символов. Больше нельзя, но меньше можно: недостающие символы будут заполнены пробелами. Если не указывать n, его значение по умолчанию будет 1.
- В тип __character varying__ входят тексты нефиксированной длины. __Его псевдоним — varchar(n)__. Значение n управляет лимитом строки, но его можно не указывать.
- Тип __text__ содержит строку любой длины. Такого типа в стандарте SQL нет, но в некоторых СУБД, помимо PostgreSQL, его тоже используют.

__Типы для работы с датой и временем__
- Тип __timestamp__ содержит дату и время. В PostegreSQL чаще всего дату и время указывают в формате ISO: 'YYYY-MM-DD'. Например, 30 июня 2010 года записывается 2010-06-30.

В PostgreSQL типов __timestamp__ два: __timestamp with time zone__, который включает данные о часовом поясе, и __timestamp without time zone__, который данных о часовом поясе не содержит. 

Часовые пояса указывают по стандарту UTC: '2004-10-19 10:23:54+02'. В часовом поясе UTC+2 находится, например, Калининград.

По стандарту SQL __тип timestamp по умолчанию подразумевает timestamp without time zone__. Для обозначения типа timestamp with time zone в PostgreSQL используют короткую форму __timestamptz__.

- В тип __date__ входит только дата. Дату можно задавать в любом формате, например October 19, 2004, 2004-Oct-19 или даже 20041019.
- Тип __time__ хранит только время и принимает значения от 00:00:00 до 24:00:00.
- Тип __interval__ используют для обозначения интервала между датами. Задать нужный интервал можно с помощью условных обозначений или в свободной форме. Например, запись '1 12:59:10' обозначает 1 день 12 часов 59 минут 10 секунд.

__Логические типы__

В PostgreSQL к типу __boolean__ относят два значения: __TRUE и FALSE__. Но эти значения можно указывать по-разному.

Для __TRUE__ список аналогий такой: 'true', 't', 'yes', 'y', 'on', '1'.

Вместо __FALSE__ можно написать: 'false', 'f', 'no', 'n', 'off', '0'.

### Управление типом данных - cast()

Поменять тип данных можно сразу при выгрузке. При этом тип данных поля в самой таблице не изменится. В этом случае используют оператор __cast__:

    SELECT CAST(поле AS тип данных)
    FROM таблица; 

In [130]:
sql = '''
select * from german_credit t
limit 5
'''

In [131]:
pd.read_sql(sql,engine)

Unnamed: 0,index,age,sex,job,housing,saving_accounts,checking_account,credit_amount,duration,purpose,default,contract_dt,client_id
0,0,33,male,2,own,,,3074,9,radio/TV,0,2008-06-29 18:52:00,210
1,1,43,male,1,own,little,little,1344,12,car,0,2007-05-20 18:30:19,929
2,2,52,male,2,own,quite rich,,936,9,education,0,2008-04-27 08:23:07,200
3,3,35,female,3,own,little,,1393,11,car,0,2007-05-06 10:58:22,45
4,4,28,male,2,own,little,,776,12,radio/TV,0,2007-07-21 13:22:14,358


Можно изменить тип данных еще проще - через двойное двоеточие (__только в Postgres__):

In [132]:
sql = '''
select t.age::float4, 
t.purpose::char(2), 
t.credit_amount::varchar, 
t.contract_dt::date from german_credit t
'''

In [133]:
pd.read_sql(sql,engine)

Unnamed: 0,age,purpose,credit_amount,contract_dt
0,33.0,ra,3074,2008-06-29
1,43.0,ca,1344,2007-05-20
2,52.0,ed,936,2008-04-27
3,35.0,ca,1393,2007-05-06
4,28.0,ra,776,2007-07-21
...,...,...,...,...
995,65.0,ra,2600,2007-12-16
996,30.0,bu,4455,2007-07-12
997,33.0,ra,6403,2008-04-08
998,29.0,ca,5003,2007-11-29


__Важно__: SQLite3 поддерживает далеко не все вышеперечисленные типы данных

## Работа с пропусками

Как мы помним, __count() и avg()__ пропущенные значения не учитывают.

Но ведь как-то обрабатывать их нужно?

Если мы хотим посчитать пропуски - у нас есть 2 варианта:
1. Вычесть __count(col_name) из count(*)__
2. Более корректно - сделать столбец-флаг с помощью __case when__: создать вспомогательный столбец, который будет заполнен единицами, если значение = None.

В __sql__ корректным сравнением с пропуском будет сформулирована как __is null__:

In [134]:
sql = '''
select
sum(case when t.checking_account is null then 1 else 0 end) as checking_account_nans
from german_credit t
'''

In [135]:
pd.read_sql(sql,con)

Unnamed: 0,checking_account_nans
0,394


### Замена пропущенных значений - coalesce()

Функция __coalesce()__ принимает на вход столбец и значение, на которое надо заменить NaN:

In [136]:
sql = '''
select t.checking_account,
coalesce(t.checking_account, 'no_info') as checking_account_fillna
from german_credit t
'''

In [137]:
pd.read_sql(sql,con)

Unnamed: 0,checking_account,checking_account_fillna
0,,no_info
1,little,little
2,,no_info
3,,no_info
4,,no_info
...,...,...
995,little,little
996,moderate,moderate
997,moderate,moderate
998,,no_info


Также эта функция поможет если мы например хотим заполнить пропуски в одном столбце значениями других столбцов:

In [138]:
sql = '''
select * from german_credit t
'''

In [139]:
pd.read_sql(sql,con)

Unnamed: 0,age,sex,job,housing,saving_accounts,checking_account,credit_amount,duration,purpose,default,contract_dt,client_id
0,33,male,2,own,,,3074,9,radio/TV,0,2008-06-29 18:52:00,210
1,43,male,1,own,little,little,1344,12,car,0,2007-05-20 18:30:19,929
2,52,male,2,own,quite rich,,936,9,education,0,2008-04-27 08:23:07,200
3,35,female,3,own,little,,1393,11,car,0,2007-05-06 10:58:22,45
4,28,male,2,own,little,,776,12,radio/TV,0,2007-07-21 13:22:14,358
...,...,...,...,...,...,...,...,...,...,...,...,...
995,65,male,2,free,little,little,2600,18,radio/TV,1,2007-12-16 20:17:19,624
996,30,male,3,own,little,moderate,4455,36,business,1,2007-07-12 14:08:58,181
997,33,male,2,own,little,moderate,6403,24,radio/TV,0,2008-04-08 03:24:26,730
998,29,female,2,own,,,5003,21,car,1,2007-11-29 15:51:45,557


In [140]:
sql = '''
select t.saving_accounts, t.checking_account, t.credit_amount,
coalesce(t.saving_accounts, t.checking_account, t.credit_amount) as account_fillna
from german_credit t
'''

In [141]:
pd.read_sql(sql,con)

Unnamed: 0,saving_accounts,checking_account,credit_amount,account_fillna
0,,,3074,3074
1,little,little,1344,little
2,quite rich,,936,quite rich
3,little,,1393,little
4,little,,776,little
...,...,...,...,...
995,little,little,2600,little
996,little,moderate,4455,little
997,little,moderate,6403,little
998,,,5003,5003


Как мы видим, если в первом столбце был пропуск - он подтянул __следующее непропущенное значение из coalesce()__

Если же значение не было пропущено - функция вставит его.

## Работа с дубликатами

Довольно часто в разных таблицах встречаются __повторы__.

Для начала - попробуем поработать с ними в лоб: для этого просто выберем все столбцы, а также создадим дополнительный столбец count, а потом сгруппируемся также по всем столбцам:

In [142]:
for el in pd.read_sql(sql,con).columns.tolist():
    print('t.'+el, end=', ')

t.saving_accounts, t.checking_account, t.credit_amount, t.account_fillna, 

In [143]:
sql = '''
select *, count(1) as count
from german_credit t
group by t.age, t.sex, t.job, 
t.housing, t.saving_accounts, t.checking_account, 
t.credit_amount, t.duration, t.purpose, 
t.contract_dt, t.client_id

'''


In [144]:
pd.read_sql(sql,con)

Unnamed: 0,age,sex,job,housing,saving_accounts,checking_account,credit_amount,duration,purpose,default,contract_dt,client_id,count
0,19,female,1,rent,rich,moderate,983,12,furniture/equipment,0,2007-05-14 13:52:15,391,1
1,19,female,2,rent,little,,1980,9,furniture/equipment,1,2007-09-27 09:04:53,633,1
2,20,female,1,rent,little,moderate,2718,24,car,1,2008-04-12 12:34:40,593,1
3,20,female,2,own,little,moderate,1967,24,radio/TV,0,2007-09-26 04:28:25,410,1
4,20,female,2,own,rich,moderate,1577,11,furniture/equipment,0,2007-07-03 09:23:24,167,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...
995,74,male,0,own,little,rich,1299,6,car,0,2007-12-16 10:33:44,756,1
996,74,male,1,own,little,,3448,5,business,0,2007-07-03 02:08:34,430,1
997,74,male,3,own,little,,4526,24,business,0,2008-01-25 14:18:30,606,1
998,75,female,3,own,,little,1374,6,car,0,2007-11-06 00:46:31,536,1


На самом деле прям по всем столбцам группироваться не обязательно (например, группировку по t.default функция __read_sql()__ не пропустила - видимо это какой-то __встроенный метод sql__).

Главное - выделить столько столбцов, чтобы группировка не смогла сгруппировать вместе уникальные записи.

Итак, мы сгруппировали столбцы и посчитали повторы каждой строки. Теперь нам нужно выделить все строки, количество повторов которых больше единицы.

Сделать это вот так:

    select *, count(1) as count
    from german_credit t
    where count(1) > 1
    
Не получится - просто так sql не может сравнивать значения агрегирующих функций с какими-то значениями.

### having

Чтобы сравнивать значение функции с числом внутри самого запроса, мы будем использовать оператор __having__.

__having__ устанавливается в самый конец, после __group by__:

In [145]:
sql = '''
select *, count(1) as count
from german_credit t
group by t.age, t.sex, t.job, 
t.housing, t.saving_accounts, t.checking_account, 
t.credit_amount, t.duration, t.purpose, 
t.contract_dt, t.client_id
having count(1) > 1
'''


In [146]:
pd.read_sql(sql,con)

Unnamed: 0,age,sex,job,housing,saving_accounts,checking_account,credit_amount,duration,purpose,default,contract_dt,client_id,count


Как мы видим, повторов в нашей таблице нет.

Создадим небольшой синтетический сет:

In [147]:
test_df = pd.DataFrame({'a':[1,2,3,3,4,5],'b':['a','c','c','c','d','d'],'order_num':[15,0,35,35,37,42]})
test_df

Unnamed: 0,a,b,order_num
0,1,a,15
1,2,c,0
2,3,c,35
3,3,c,35
4,4,d,37
5,5,d,42


In [148]:
test_df.to_sql('test_df',con, index=False, if_exists='replace')

In [149]:
sql = '''
select *, count(1) as count
from test_df t

group by t.a, t.b, t.order_num
'''

In [150]:
pd.read_sql(sql,con)

Unnamed: 0,a,b,order_num,count
0,1,a,15,1
1,2,c,0,1
2,3,c,35,2
3,4,d,37,1
4,5,d,42,1


Вот они - наши повторы! Воспользуемся __having__:

In [151]:
sql = '''
select *, count(1) as count
from test_df t
group by t.a, t.b, t.order_num
having count(1) > 1
'''

In [152]:
pd.read_sql(sql, con)

Unnamed: 0,a,b,order_num,count
0,3,c,35,2


Готово

Если же мы захотим посмотреть не на полные повторы, а повторы по значениям в столбце/столбцах - нам просто будет нужна группировка только по искомому столбцу:

In [153]:
sql = '''
select *, count(1) as count
from test_df t
group by t.b
having count(1) > 1
'''

In [154]:
pd.read_sql(sql,con)

Unnamed: 0,a,b,order_num,count
0,2,c,0,3
1,4,d,37,2


А что, если мы захотим посмотреть все строки полностью?

С помощью __where__ можно выбрать значения столбца, в котором повторы:

In [155]:
sql = '''
select * from test_df t
where t.b in ('c','d')
'''
pd.read_sql(sql,con)

Unnamed: 0,a,b,order_num
0,2,c,0
1,3,c,35
2,3,c,35
3,4,d,37
4,5,d,42


Однако в реальной жизни таблицы будут большими, и вставлять значения руками будет очень непросто.

На самом деле, sql позволяет использовать запросы внутри запросов.

Сначала нам нужно выбрать искомые значения (в нашем случае - повторяющиеся знаения столбца b):

In [156]:
sql = '''
select t.b
from test_df t
group by t.b
having count(1) > 1
'''

pd.read_sql(sql,con)

Unnamed: 0,b
0,c
1,d


А теперь - передать его внутрь другого запроса. Сначала выполнится запрос в скобках, затем - внешний запрос.

In [157]:
sql = '''
select * from test_df t
where t.b in (select t.b
from test_df t
group by t.b
having count(1) > 1)
'''
pd.read_sql(sql,con)

Unnamed: 0,a,b,order_num
0,2,c,0
1,3,c,35
2,3,c,35
3,4,d,37
4,5,d,42


Такая механика называется __вложенные запросы / подзапросы__ - с ними мы познакомимся позднее

## Сводные таблицы - group by

Чтобы построить сводную таблицу нам понадобятся некоторые агрегирующие функции (такие как __sum или avg__), а также метод __group by__.

В запросе __group by__ всегда располагается после условного оператора __where__. Если __where__ в запросе нет, оператор __group by__ нужно указать после __from__.

In [158]:
sql = '''
select t.sex,
count(t.sex) as count,
avg(t.credit_amount) as avg_credit

from german_credit t
group by t.sex
'''

In [159]:
pd.read_sql(sql, con)

Unnamed: 0,sex,count,avg_credit
0,female,310,2877.774194
1,male,690,3448.04058


Группировать можно сразу по нескольким столбцам - главное не забывать их также селектить:

In [160]:
sql = '''
select t.sex, t.purpose,
count(t.sex) as count,
avg(t.credit_amount) as avg_credit

from german_credit t
group by t.sex, t.purpose
'''

pd.read_sql(sql,con)

Unnamed: 0,sex,purpose,count,avg_credit
0,female,business,19,3195.421053
1,female,car,94,3369.723404
2,female,domestic appliances,6,1409.833333
3,female,education,24,2134.041667
4,female,furniture/equipment,74,2774.72973
5,female,radio/TV,85,2400.517647
6,female,repairs,5,2126.4
7,female,vacation/others,3,11653.666667
8,male,business,78,4392.525641
9,male,car,243,3922.333333


А что, если мы хотим передавать переменные для группировки не только в строки, но и в столбцы?

Например, так:

In [161]:
pd.pivot_table(df, index = ['purpose', 'housing'], columns='sex', values='duration', aggfunc='count')

Unnamed: 0_level_0,sex,female,male
purpose,housing,Unnamed: 2_level_1,Unnamed: 3_level_1
business,free,1.0,4.0
business,own,12.0,64.0
business,rent,6.0,10.0
car,free,9.0,46.0
car,own,53.0,166.0
car,rent,32.0,31.0
domestic appliances,own,4.0,6.0
domestic appliances,rent,2.0,
education,free,4.0,11.0
education,own,15.0,19.0


Начнем с простого - сгруппируемся по purpose и housing:

In [162]:
sql = '''
select t.purpose, t.housing, count(1)
from german_credit t
group by 1,2
'''

In [163]:
pd.read_sql(sql,con)

Unnamed: 0,purpose,housing,count(1)
0,business,free,5
1,business,own,76
2,business,rent,16
3,car,free,55
4,car,own,219
5,car,rent,63
6,domestic appliances,own,10
7,domestic appliances,rent,2
8,education,free,15
9,education,own,34


Теперь нам нужно сделать разбивку по полу. Сделать нам это поможет __case when__, обернутый в __sum()__ (или в любую другую функцию по необходимости), с помощью которого мы сделаем столбцы-флаги по полу:

In [164]:
sql = '''
select t.purpose, t.housing,
sum(case when t.sex = 'female' then 1 else 0 end) as female,
sum(case when t.sex = 'male' then 1 else 0 end) as male
from german_credit t
group by t.purpose, t.housing

'''

In [165]:
pd.read_sql(sql,con)

Unnamed: 0,purpose,housing,female,male
0,business,free,1,4
1,business,own,12,64
2,business,rent,6,10
3,car,free,9,46
4,car,own,53,166
5,car,rent,32,31
6,domestic appliances,own,4,6
7,domestic appliances,rent,2,0
8,education,free,4,11
9,education,own,15,19


Готово.

Но что если у нас много значений переменной - например, мы заходим в столбцы сводной таблицы передать __purpose__? Руками генерировать каждый __case when__ будет неудобно - и тут нам поможет питон.

Мы можем вытащить уникальные значения переменной, затем преобразовать их как нам нужно:

In [166]:
sql = '''
select distinct t.purpose from german_credit t
'''

In [167]:
pd.read_sql(sql,con)

Unnamed: 0,purpose
0,radio/TV
1,car
2,education
3,furniture/equipment
4,repairs
5,business
6,domestic appliances
7,vacation/others


In [168]:
purpose = pd.read_sql(sql, con).purpose.values.tolist()

In [169]:
purpose

['radio/TV',
 'car',
 'education',
 'furniture/equipment',
 'repairs',
 'business',
 'domestic appliances',
 'vacation/others']

А теперь мы можем написать цикл, который создаст нам нужные __case when__:

In [170]:
for el in purpose:
    print(f"sum(case when t.purpose = '{el}' then 1 else 0 end) as {el.replace(' ','_').replace('/','_')},")

sum(case when t.purpose = 'radio/TV' then 1 else 0 end) as radio_TV,
sum(case when t.purpose = 'car' then 1 else 0 end) as car,
sum(case when t.purpose = 'education' then 1 else 0 end) as education,
sum(case when t.purpose = 'furniture/equipment' then 1 else 0 end) as furniture_equipment,
sum(case when t.purpose = 'repairs' then 1 else 0 end) as repairs,
sum(case when t.purpose = 'business' then 1 else 0 end) as business,
sum(case when t.purpose = 'domestic appliances' then 1 else 0 end) as domestic_appliances,
sum(case when t.purpose = 'vacation/others' then 1 else 0 end) as vacation_others,


Воспользуемся новыми строками, скопировав их:

In [171]:
sql = '''
select t.sex, t.housing,
sum(case when t.purpose = 'radio/TV' then 1 else 0 end) as radio_TV,
sum(case when t.purpose = 'car' then 1 else 0 end) as car,
sum(case when t.purpose = 'education' then 1 else 0 end) as education,
sum(case when t.purpose = 'furniture/equipment' then 1 else 0 end) as furniture_equipment,
sum(case when t.purpose = 'repairs' then 1 else 0 end) as repairs,
sum(case when t.purpose = 'business' then 1 else 0 end) as business,
sum(case when t.purpose = 'domestic appliances' then 1 else 0 end) as domestic_appliances,
sum(case when t.purpose = 'vacation/others' then 1 else 0 end) as vacation_others

from german_credit t
group by t.sex, t.housing
'''

In [172]:
pd.read_sql(sql,con)

Unnamed: 0,sex,housing,radio_TV,car,education,furniture_equipment,repairs,business,domestic_appliances,vacation_others
0,female,free,2,9,4,1,1,1,0,1
1,female,own,68,53,15,38,4,12,4,2
2,female,rent,15,32,5,35,0,6,2,0
3,male,free,13,46,11,10,2,4,0,3
4,male,own,159,166,19,84,13,64,6,6
5,male,rent,23,31,5,13,2,10,0,0


### Сводные таблицы и пропуски

In [173]:
sql = '''
select t.checking_account,
count(*) as count,
avg(t.credit_amount) as avg_credit
from german_credit t
group by t.checking_account
'''

In [174]:
pd.read_sql(sql,con)

Unnamed: 0,checking_account,count,avg_credit
0,,394,3133.101523
1,little,274,3175.218978
2,moderate,269,3827.561338
3,rich,63,2177.650794


Как мы видим, в случае группировки NaN считается отдельным значением - и данные группируются и для них тоже

### Работа с датами - SQLite3

Если мы хотим поработать с датами - в __SQLite3__ есть функция __date()__, которая принимает на вход столбец и модификатор, который определяет, как будет изменена дата, переданная в функцию.

- Прибавляет NNN временных промежутков:
-- NNN days
-- NNN hours
-- NNN minutes
-- NNN.NNNN seconds
-- NNN months
-- NNN years


- start of month - выбирает первое число месяца
- start of year - выбирает первое число года
- start of day - выставляет время на начало дня
- weekday N - сдвигает дату на первый следующий за заданной датой день недели; передаются числа от 0 до 6, где 0 - это воскресенье.

In [175]:
sql = '''
select date(t.contract_dt, 'start of month') as month,
count(1) as credit_count
from german_credit t

group by date(t.contract_dt, 'start of month')
'''

In [176]:
pd.read_sql(sql,con)

Unnamed: 0,month,credit_count
0,2007-05-01,81
1,2007-06-01,74
2,2007-07-01,71
3,2007-08-01,57
4,2007-09-01,58
5,2007-10-01,70
6,2007-11-01,87
7,2007-12-01,77
8,2008-01-01,93
9,2008-02-01,55


Мы передали дважды в запрос выражение с функцией __date()__, чтобы всё точно сработало.

На самом деле SQLite3 понял бы и просто переменную __month__, которую мы сформировали до этого:

In [177]:
sql = '''
select date(t.contract_dt, 'start of month') as month,
count(1)
from german_credit t
group by month
'''

In [178]:
pd.read_sql(sql,con)

Unnamed: 0,month,count(1)
0,2007-05-01,81
1,2007-06-01,74
2,2007-07-01,71
3,2007-08-01,57
4,2007-09-01,58
5,2007-10-01,70
6,2007-11-01,87
7,2007-12-01,77
8,2008-01-01,93
9,2008-02-01,55


Но на всякий случай - лучше перестраховаться.

Чтобы не повторять код дважды - можно просто вместо названия столбца передать его номер в таблице: в случае группировки этот столбец всегда должен быть первым, поэтому ошибок не будет:

In [179]:
sql = '''
select date(t.contract_dt, 'start of month') as month,
count(1) as count,
sum(t.credit_amount) as credit_amount_sum,
avg(t.credit_amount) as avg_credit

from german_credit t

group by 1
'''

In [180]:
pd.read_sql(sql,con)

Unnamed: 0,month,count,credit_amount_sum,avg_credit
0,2007-05-01,81,207663,2563.740741
1,2007-06-01,74,239594,3237.756757
2,2007-07-01,71,224333,3159.619718
3,2007-08-01,57,178569,3132.789474
4,2007-09-01,58,186909,3222.568966
5,2007-10-01,70,188534,2693.342857
6,2007-11-01,87,300504,3454.068966
7,2007-12-01,77,273973,3558.090909
8,2008-01-01,93,288080,3097.634409
9,2008-02-01,55,211128,3838.690909


### Работа с датами - PostgreSQL

Иногда будет полезно сравнить данные с текущей датой, например, чтобы понять, сколько дней прошло со дня оформления заказа. В PostgreSQL есть несколько подходящих операторов для такой задачи:

- CURRENT_DATE вернёт текущую дату.
- CURRENT_TIME выведет текущее время.
- CURRENT_TIMESTAMP вернёт текущие дату и время.

Так выглядит запрос, который выведет текущую дату на экран: 
    
    SELECT CURRENT_DATE; 

Дата и время часто хранятся в таком виде: '2009-11-19 11:03:05'. Но сравнивать дату в этом формате не всегда удобно, если нужен, к примеру, только год. 

Для таких случаев в PostgreSQL используют функцию __DATE_TRUNC()__. Функция __DATE_TRUNC()__ «усекает» дату и время до необходимого значения: года, месяца или дня. 

Синтаксис функции такой: DATE_TRUNC('отрезок времени', поле). 

Отрезки времени (главное - не забыть одинарные кавычки):
- 'microseconds' — микросекунды;
- 'milliseconds' — миллисекунды;
- 'second' — секунда;
- 'minute' — минута;
- 'hour' — час;
- 'day' — день;
- 'week' — неделя;
- 'month' — месяц;
- 'quarter' — квартал;
- 'year' — год;
- 'decade' — декада года;
- 'century' — век.

Разберём работу функции __DATE_TRUNC__ на примере нашей таблицы:

In [181]:
sql = '''
select t.client_id, date_trunc('month',t.contract_dt) as contract_month from german_credit t'''

In [182]:
pd.read_sql(sql,engine)

Unnamed: 0,client_id,contract_month
0,210,2008-06-01
1,929,2007-05-01
2,200,2008-04-01
3,45,2007-05-01
4,358,2007-07-01
...,...,...
995,624,2007-12-01
996,181,2007-07-01
997,730,2008-04-01
998,557,2007-11-01


Здесь, как и в случае с __date('start of month') в SQLite3__ мы выбрали первые числа месяцев.

Однако такое "усечение" не подойдёт для случаев, когда нужно получить конкретную часть даты: год, месяц или минуту. 

Для таких задач используют функцию __extract()__. Её синтаксис отличается от функции __DATE_TRUNC__:

    extract(отрезок времени FROM поле).

Одинарные кавычки для значений внутри EXTRACT не нужны. Отрезок времени может быть представлен следующими значениями:
- CENTURY — век;
- DAY — день;
- DOY (от англ. day of the year) — день года, выраженный числом от 1 до 365 или 366, если год високосный;
- DOW (от англ. day of the week) — день недели, выраженный числом от 0 до 6, где понедельник — 1, воскресенье — 0.
- ISODOW (от англ. day of the week и ISO 8601) — день недели, выраженный числом от 1 до 7, где понедельник — 1, воскресенье — 7.
- HOUR — час;
- MILLISECOND — миллисекунда;
- MINUTE — минута;
- MONTH — месяц;
- SECOND — секунда;
- QUARTER — квартал;
- WEEK — неделя в году;
- YEAR — год.

In [183]:
sql = '''
select t.client_id,  
extract(isodow from t.contract_dt) as day_of_week,
extract(month from t.contract_dt) as month,
extract(quarter from t.contract_dt) as quarter


from german_credit t
'''

pd.read_sql(sql,engine)

Unnamed: 0,client_id,day_of_week,month,quarter
0,210,7.0,6.0,2.0
1,929,7.0,5.0,2.0
2,200,7.0,4.0,2.0
3,45,7.0,5.0,2.0
4,358,6.0,7.0,3.0
...,...,...,...,...
995,624,7.0,12.0,4.0
996,181,4.0,7.0,3.0
997,730,2.0,4.0,2.0
998,557,4.0,11.0,4.0


Функции __DATE_TRUNC и EXTRACT__ принимают на вход данные тех типов, которые используют для работы с датой и временем, но есть нюанс: __типы date и time функции автоматически переведут в timestamp with time zone__, а значит, время подстроится к часовому поясу пользователя и потому может сместиться.

У этой проблемы есть решение — явно изменить тип данных на __timestamp - timestamp without time zone__. С типом данных без часового пояса время не сместится.

Другая особенность функций — они возвращают данные разных типов. __DATE_TRUNC__ вернёт данные типов __timestamp или interval__, а __EXTRACT__ — данные типа __double precision__.

## Порядок выполнения запросов

Обычно запрос начинают с __SELECT__, затем пишут __FROM__, а за ними следуют разные __WHERE и GROUP BY__.

Некоторые операторы пишут в самом конце запроса, например __ORDER BY и LIMIT__. Если есть оба оператора — LIMIT нужно указать последним. 

Оператор __HAVING__ всегда указывают после __GROUP BY__, но никогда перед ним.


Это правила написания запросов. Однако порядок их выполнения совсем иной:
1. Сначала нужно определить, откуда брать данные, поэтому первым идёт оператор FROM. На этом же этапе объединяются таблицы операторами JOIN и назначаются для них псевдонимы. Важно учесть, что присоединение предшествует фильтрации и группировке. Это означает, что большие таблицы будут объединяться очень долго. В этом случае выручат временные таблицы.
2. Данные выбраны, и наступает очередь оператора WHERE. Остаются только те данные, которые соответствуют условиям.
3. После срезов выполняется группировка оператором GROUP BY и подсчёт данных агрегирующими функциями. Важно: WHERE предшествует GROUP BY, и это не позволяет сделать срез по группам. В момент получения среза группировка ещё не произошла.
4. Теперь наступает очередь HAVING — отбираются уже сгруппированные данные.
5. Выбор данных с помощью оператора SELECT и присвоение полям в итоговой таблице псевдонимов. По этой причине псевдонимы нельзя использовать после WHERE и HAVING — они ещё не назначены. 
6. После SELECT срабатывает ключевое слово DISTINCT, которое отбирает уникальные значения.
7. Нужные данные отобраны, и происходит сортировка. Оператор ORDER BY действует предпоследним.
8. Замыкающим будет оператор LIMIT.

## Подзапросы

__Подзапросы__ - это запросы внутри запросов; с их помощью можно формировать сложные запросы к базе данных без необходимости формирования нескольких отдельных запросов и создания вспомогательных таблиц.

Вернемся к более раннему примеру с тестовой таблицей:

In [184]:
sql = '''
select * from test_df t
'''

In [185]:
pd.read_sql(sql,con)

Unnamed: 0,a,b,order_num
0,1,a,15
1,2,c,0
2,3,c,35
3,3,c,35
4,4,d,37
5,5,d,42


In [186]:
sql = '''
select *, count(1) as count from test_df t

group by t.a, t.b
'''

In [187]:
pd.read_sql(sql,con)

Unnamed: 0,a,b,order_num,count
0,1,a,15,1
1,2,c,0,1
2,3,c,35,2
3,4,d,37,1
4,5,d,42,1


Чтобы посмотреть только на повторяющиеся строки - нам сначала нужно выбрать значения, которые повторяются, а потом все строки с такими значениями:

In [188]:
sql = '''
select * from test_df t
where t.b in 
    (
    select t.b 
    from test_df t 
    group by t.b 
    having count(1) > 1
    )
'''

In [189]:
pd.read_sql(sql,con)

Unnamed: 0,a,b,order_num
0,2,c,0
1,3,c,35
2,3,c,35
3,4,d,37
4,5,d,42


Ничего сложного на первый взгляд нет. Однако, когда мы сталкиваемся с большим количеством подзапросов в запросе читать такой код будет весьма сложно:

In [190]:
sql = '''

select t.purpose, t.housing, count(1) as count from
    (select * from german_credit t 
    where t. credit_amount in (
        select t.credit_amount 
        from german_credit t 
        where t.credit_amount > 1000 and t.credit_amount < 3000
        group by t.credit_amount)) t
group by t.purpose, t.housing
        
'''

In [191]:
pd.read_sql(sql,con)

Unnamed: 0,purpose,housing,count
0,business,free,1
1,business,own,38
2,business,rent,4
3,car,free,16
4,car,own,103
5,car,rent,35
6,domestic appliances,own,5
7,domestic appliances,rent,2
8,education,free,7
9,education,own,14


### CTE - common table expressions (with)

И тут нам на помощь придут особые выражения - __CTE__. Они позволяют inplace имитировать создание новых таблиц.

Выглядит это следующим образом:

    with new_table_name as (
        select column_1, column_2 from table_name t
        group by column 1)
        
    select * from new_table_name t

Попробуем привести к такому виду пример выше:

In [192]:
sql = '''

-- делаем первую таблицу, в которой содержатся только уникальные объемы кредитов
with medium_credits as (
    select t.credit_amount from german_credit t
    where t.credit_amount > 1000 and t.credit_amount < 3000
    group by t.credit_amount),
    
-- в конце первой таблицы ставим запятую - и в том же with создаем вторую таблицу, уже с использованием первой;
-- в in мы передаем название таблицы без скобок

medium_credits_info as (
    select * from german_credit t
    where t.credit_amount in medium_credits)
    

-- выбираем нужные нам данные

select t.purpose, t.housing, count(1) as count 
from medium_credits_info t
    
group by t.purpose, t.housing
        
'''

In [193]:
pd.read_sql(sql,con)

Unnamed: 0,purpose,housing,count
0,business,free,1
1,business,own,38
2,business,rent,4
3,car,free,16
4,car,own,103
5,car,rent,35
6,domestic appliances,own,5
7,domestic appliances,rent,2
8,education,free,7
9,education,own,14


Здесь __в контекст-менеджере with__ при создании одной таблицы в условии мы ссылались на значения другой таблицы, передавая в __in__ название таблицы без скобок.

В PostgreSQL так не прокатит.

## Join - объединение таблиц

__Join__ - это одна из основных функций реляционных баз данных.

Изначально таких таблиц, как наша __german_credit__, в базах данных нет:

In [194]:
df

Unnamed: 0,age,sex,job,housing,saving_accounts,checking_account,credit_amount,duration,purpose,default,contract_dt,client_id
0,33,male,2,own,,,3074,9,radio/TV,0,2008-06-29 18:52:00,210
1,43,male,1,own,little,little,1344,12,car,0,2007-05-20 18:30:19,929
2,52,male,2,own,quite rich,,936,9,education,0,2008-04-27 08:23:07,200
3,35,female,3,own,little,,1393,11,car,0,2007-05-06 10:58:22,45
4,28,male,2,own,little,,776,12,radio/TV,0,2007-07-21 13:22:14,358
...,...,...,...,...,...,...,...,...,...,...,...,...
995,65,male,2,free,little,little,2600,18,radio/TV,1,2007-12-16 20:17:19,624
996,30,male,3,own,little,moderate,4455,36,business,1,2007-07-12 14:08:58,181
997,33,male,2,own,little,moderate,6403,24,radio/TV,0,2008-04-08 03:24:26,730
998,29,female,2,own,,,5003,21,car,1,2007-11-29 15:51:45,557


Все эти данные будут храниться в разных таблицах бд, например:
- данные о заемщике: id, возраст, пол, тип жилья - отдельно;
- данные о кредите - отдельно: дата подписания, цель, продолжительность, сумма

Разделим данные на 2 таблицы (и добавим клиентам имена)

In [195]:
users = df[['client_id','age','sex','job','housing']].copy()

In [196]:
names = pd.Series(['John','Kira','Sarah','Michael','Ben','Peter','Jenny','James','Nick','Christina','Asastacia','Seth','Marcus']).sample(1000, replace=True)

In [197]:
users['name'] = names.values

In [198]:
users

Unnamed: 0,client_id,age,sex,job,housing,name
0,210,33,male,2,own,Seth
1,929,43,male,1,own,Marcus
2,200,52,male,2,own,Sarah
3,45,35,female,3,own,Seth
4,358,28,male,2,own,James
...,...,...,...,...,...,...
995,624,65,male,2,free,Nick
996,181,30,male,3,own,Christina
997,730,33,male,2,own,Asastacia
998,557,29,female,2,own,Jenny


In [199]:
credits = df[['client_id','saving_accounts','checking_account','credit_amount','duration','purpose','contract_dt']].copy()

In [200]:
credits

Unnamed: 0,client_id,saving_accounts,checking_account,credit_amount,duration,purpose,contract_dt
0,210,,,3074,9,radio/TV,2008-06-29 18:52:00
1,929,little,little,1344,12,car,2007-05-20 18:30:19
2,200,quite rich,,936,9,education,2008-04-27 08:23:07
3,45,little,,1393,11,car,2007-05-06 10:58:22
4,358,little,,776,12,radio/TV,2007-07-21 13:22:14
...,...,...,...,...,...,...,...
995,624,little,little,2600,18,radio/TV,2007-12-16 20:17:19
996,181,little,moderate,4455,36,business,2007-07-12 14:08:58
997,730,little,moderate,6403,24,radio/TV,2008-04-08 03:24:26
998,557,,,5003,21,car,2007-11-29 15:51:45


Для пущего примера мы немного изменим данные: представим, что уникальных пользователей не 1000, а 600 - а вот кредитов будет все еще 1000; не у каждого пользователя будет кредит:

In [201]:
users = users[:600]

In [202]:
users['client_id'] = list(range(600))

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  users['client_id'] = list(range(600))


In [203]:
users

Unnamed: 0,client_id,age,sex,job,housing,name
0,0,33,male,2,own,Seth
1,1,43,male,1,own,Marcus
2,2,52,male,2,own,Sarah
3,3,35,female,3,own,Seth
4,4,28,male,2,own,James
...,...,...,...,...,...,...
595,595,34,male,1,own,John
596,596,27,female,2,rent,Seth
597,597,30,male,2,own,Ben
598,598,30,male,2,free,Jenny


In [204]:
credits['client_id'] = pd.Series(range(600)).sample(1000, replace=True).values

In [205]:
credits.groupby('client_id').duration.count().sort_values(ascending=False)

client_id
553    8
325    7
357    6
20     6
512    6
      ..
336    1
335    1
447    1
448    1
598    1
Name: duration, Length: 483, dtype: int64

In [206]:
credits.client_id.nunique()

483

Итак, у нас 600 пользователей и 1000 кредитов на 500 из них: у кого-то их по 6, у кого-то - по 1.

Загрузим всё это в локальную базу данных и в ElephantSQL:

In [207]:
users.to_sql('users',con,index=False,if_exists='replace')
credits.to_sql('credits',con,index=False, if_exists='replace')

In [208]:
users.to_sql('users',engine,index=False,if_exists='replace')
credits.to_sql('credits',engine,index=False, if_exists='replace')

In [209]:
sql = '''
select* from users t
'''
pd.read_sql(sql,con)

Unnamed: 0,client_id,age,sex,job,housing,name
0,0,33,male,2,own,Seth
1,1,43,male,1,own,Marcus
2,2,52,male,2,own,Sarah
3,3,35,female,3,own,Seth
4,4,28,male,2,own,James
...,...,...,...,...,...,...
595,595,34,male,1,own,John
596,596,27,female,2,rent,Seth
597,597,30,male,2,own,Ben
598,598,30,male,2,free,Jenny


### Left join

Самый простой и "безопасный" джоин - это __left join__.

С его помощью мы можем по значениям определенного столбца из левой таблицы добавить соответствующие им строки из правой таблицы.

Как мы помним, связующим звеном в реляционных базах данных является __идентификационный ключ__ - именно по нему обычно идет связывание таблиц.

В нашем случае связывание будет идти по столбцу __id__.

Выглядит это следующим образом:

In [210]:
sql = '''
-- выбираем столбцы к показу:

select t.*, u.name

-- и наконец делаем конкатенацию: левая таблица с псевдонимом left join правая таблица с псевдонимом
-- on столбец, по которому будем соединять

from credits t left join users u on t.client_id = u.client_id
'''

In [211]:
pd.read_sql(sql,con)

Unnamed: 0,client_id,saving_accounts,checking_account,credit_amount,duration,purpose,contract_dt,name
0,584,,,3074,9,radio/TV,2008-06-29 18:52:00,Nick
1,62,little,little,1344,12,car,2007-05-20 18:30:19,James
2,444,quite rich,,936,9,education,2008-04-27 08:23:07,Sarah
3,264,little,,1393,11,car,2007-05-06 10:58:22,Peter
4,251,little,,776,12,radio/TV,2007-07-21 13:22:14,Christina
...,...,...,...,...,...,...,...,...
995,99,little,little,2600,18,radio/TV,2007-12-16 20:17:19,Peter
996,573,little,moderate,4455,36,business,2007-07-12 14:08:58,Kira
997,31,little,moderate,6403,24,radio/TV,2008-04-08 03:24:26,Nick
998,122,,,5003,21,car,2007-11-29 15:51:45,Peter


Мы к маленькой таблице прибавляли большую - поэтому пропусков нет. Попробуем сконкатенировать к пользователям цель кредита:

In [212]:
sql = '''
select t.*, c.purpose
from users t left join credits c on t.client_id = c.client_id
'''

In [213]:
pd.read_sql(sql,con)

Unnamed: 0,client_id,age,sex,job,housing,name,purpose
0,0,33,male,2,own,Seth,business
1,0,33,male,2,own,Seth,furniture/equipment
2,1,43,male,1,own,Marcus,furniture/equipment
3,2,52,male,2,own,Sarah,business
4,3,35,female,3,own,Seth,business
...,...,...,...,...,...,...,...
1112,596,27,female,2,rent,Seth,furniture/equipment
1113,597,30,male,2,own,Ben,car
1114,597,30,male,2,own,Ben,car
1115,598,30,male,2,free,Jenny,radio/TV


И вот здесь мы можем наблюдать пропуски.

__Left join__ оставила все строки левой таблицы и к ним прибавила все подходящие по __client_id__ строки правой таблицы. Из-за того, что у некоторых клиентов было по несколько кредитов - строк в итоге стало даже больше, чем количество кредитов.

### Inner join

Еще один распространенный join - это __inner join__, который работает по принципу пересечений 2 множеств: он оставит только те строки, которые есть в обеих таблицах

In [214]:
sql = '''
select t.*, c.purpose, c.credit_amount
from users t inner join credits c on c.client_id = t.client_id
order by client_id
'''

In [215]:
pd.read_sql(sql,con)

Unnamed: 0,client_id,age,sex,job,housing,name,purpose,credit_amount
0,0,33,male,2,own,Seth,furniture/equipment,2406
1,0,33,male,2,own,Seth,business,5742
2,1,43,male,1,own,Marcus,furniture/equipment,2028
3,2,52,male,2,own,Sarah,business,2978
4,3,35,female,3,own,Seth,business,2442
...,...,...,...,...,...,...,...,...
995,596,27,female,2,rent,Seth,furniture/equipment,1433
996,596,27,female,2,rent,Seth,car,2325
997,597,30,male,2,own,Ben,car,6187
998,597,30,male,2,own,Ben,car,8978


Мы получили ровно 1000 строк - однако мы видим, что некоторые айдишники клиентов отсутствуют - и отсутствуют они именно потому, что были только в одной из таблиц

Добиться того же самого можно с помощью __left join с условием where__:

In [216]:
sql = '''
select t.*, c.purpose, c.credit_amount
from users t left join credits c on c.client_id = t.client_id
where c.purpose is not null

'''

In [217]:
pd.read_sql(sql,con)

Unnamed: 0,client_id,age,sex,job,housing,name,purpose,credit_amount
0,584,30,female,3,own,Nick,radio/TV,3074
1,62,44,female,1,rent,James,car,1344
2,444,46,female,2,rent,Sarah,education,936
3,264,43,female,1,own,Peter,car,1393
4,251,24,female,3,own,Christina,radio/TV,776
...,...,...,...,...,...,...,...,...
995,99,28,male,3,own,Peter,radio/TV,2600
996,573,36,male,2,own,Kira,business,4455
997,31,41,male,2,own,Nick,radio/TV,6403
998,122,35,male,2,own,Peter,car,5003


__Inner join__ также может работать как условие __where ... in ...__ - например, если нам нужны строки только по тем клиентам, которые есть в другой таблице, вместо __where__ можно сделать __inner join__ таблиц по __id__ - и останутся только строки, которые есть в обеих таблицах (то есть удовлетворяют условию)

### Объединение 3 и более таблиц

С помощью разных __join__ мы также можем объединять более 2 таблиц.

In [218]:
phone_book = users[['client_id','name']].copy()
def phone_number(row):
    return '+7-' + str(pd.Series(range(900,1000)).sample(1).squeeze()) + '-' + str(pd.Series(range(100,1000)).sample(1).squeeze()) + '-' + \
            str(pd.Series(range(10,100)).sample(1).squeeze()) + '-' + str(pd.Series(range(10,100)).sample(1).squeeze())

In [219]:
phone_book['phone_num'] = phone_book.apply(phone_number, axis=1)

In [220]:
phone_book

Unnamed: 0,client_id,name,phone_num
0,0,Seth,+7-911-529-27-12
1,1,Marcus,+7-940-467-65-58
2,2,Sarah,+7-901-191-84-43
3,3,Seth,+7-995-481-96-78
4,4,James,+7-972-743-47-31
...,...,...,...
595,595,John,+7-917-976-77-71
596,596,Seth,+7-985-453-18-63
597,597,Ben,+7-989-803-96-98
598,598,Jenny,+7-906-955-59-11


In [221]:
phone_book.to_sql('phone_book',con,index=False,if_exists='replace')
phone_book.to_sql('phone_book',engine,index=False,if_exists='replace')

Синтаксис же сохранится: сначала джойним 2 таблицы, затем послойно будут джойниться остальные

In [222]:
sql = '''
select t.name, p.phone_num, c.purpose, c.credit_amount
from users t left join credits c on t.client_id = c.client_id
left join phone_book p on t.client_id = p.client_id
'''

In [223]:
pd.read_sql(sql,con)

Unnamed: 0,name,phone_num,purpose,credit_amount
0,Seth,+7-911-529-27-12,furniture/equipment,2406.0
1,Seth,+7-911-529-27-12,business,5742.0
2,Marcus,+7-940-467-65-58,furniture/equipment,2028.0
3,Sarah,+7-901-191-84-43,business,2978.0
4,Seth,+7-995-481-96-78,business,2442.0
...,...,...,...,...
1112,Seth,+7-985-453-18-63,car,2325.0
1113,Ben,+7-989-803-96-98,car,6187.0
1114,Ben,+7-989-803-96-98,car,8978.0
1115,Jenny,+7-906-955-59-11,radio/TV,1655.0


И, конечно, присоединять таблицы друг к другу можно по разным полям (да, таблицы бывают соединены не только единым идентификатором, об этом - далее)

### Объединение таблиц с самими собой

Иногда бывают кейсы, когда таблица соединена парой __PK - FK__ сама с собой - и это нормально: так, например, может обозначаться иерархия в коллективе.

Для нашего примера мы поступим иначе и добавим столбец с номером поручителя, которым будет один из других пользователей:

In [224]:
phone_book['friend_num'] = phone_book.phone_num.sample(600, replace=True).values

In [225]:
phone_book.friend_num.nunique()

379

In [226]:
phone_book.to_sql('phone_book',con,index=False,if_exists='replace')
phone_book.to_sql('phone_book',engine,index=False,if_exists='replace')

Итак, задача запроса: мы хотим выбрать имена клиентов и рядом - имена их поручителей. 

И хотя мы присоединяем одну и ту же таблицу саму к себе, мы обязаны сохранять конструкцию __имя таблицы join имя таблицы on столбец=столбец__. То есть мы укажем одну и ту же таблицу дважды, но с разными псевдонимами:

In [227]:
sql = '''
select t.name, s.name
from phone_book t left join phone_book s on t.friend_num = s.phone_num
'''

In [228]:
pd.read_sql(sql,con)

Unnamed: 0,name,name.1
0,Seth,Sarah
1,Marcus,Marcus
2,Sarah,Kira
3,Seth,Marcus
4,James,Ben
...,...,...
595,John,Christina
596,Seth,Asastacia
597,Ben,Peter
598,Jenny,John


Важно держать в голове следующее: мы присоединяем по столбцу-ссылке (__FK__) из левой таблицы и столбцу-идентификатору (__PK__) правой таблицы

    table1 t left join table1 s on t.link = s.id

## Работа с описанием базы данных и диаграммами 

В примерах выше мы использовали достаточно простую структуру данных:1-3 таблицы в БД, и было очевидно, как они связаны между собой.

В реальной жизни базы данных наполнены куда большим количеством разных таблиц, и не всегда найдется коллега, который подскажет, как БД устроена.

Для того, чтобы разобраться, что откуда "тянуть" и как таблицы в БД связаны, существуют __ER-диаграммы (entity-relationship diagram, диаграмма «сущность — связь»)__.

![image.png](attachment:image.png)

Каждый блок схемы представляет собой одну таблицу. Соединительные линии — связи между таблицами.

![image.png](attachment:image.png)

Меткой __PK__ отмечено поле, которое является __первичным ключом__ (__primary key__) в таблице. 

Меткой __FK__ обозначают __внешний ключ__ - поле, которое отсылает к первичному ключу другой таблицы.

### Связи между таблицами

Как уже упоминалось выше, __реляционные базы данных__ отличаются наличием связей между таблицами. Однако связи бывают разные:
1. __Один к одному, one-to-one__ - это связь, при которой одной записи в одной таблице соответствует всего одна запись в другой таблице. Например, если мы храним адрес доставки пользователей отдельно от их телефона в 2 разных таблицах - одному уникальному пользователю с номером телефона будет соответствовать одна уникальная запись с адресом доставки.

На практике такие таблицы используют редко - ведь их можно очень просто объединить в одну, и тогда никакой нужды в хранении информации в 2 разных таблицах не будет.

2. __Один ко многим, one-to-many__ - связь, при которой одна уникальная запись в одной таблице соответствует нескольким записям в других. Так было, например, в нашем примере о кредитах - у одного клиента могло быть до 6 кредитов - а соответственно, до 6 записей.

3. __Многие ко многим, many-to-many__ - связь, при которой одной уникальной записи одной таблицы соответстует несколько записей другой таблицы и наоброт. Такая связь напоминает двухсторонний __one-to-many__, и только при наличии такой двухсторонней зависимости эта связь будет __many-to-many__.

Например, есть таблица с данными о кондитерских магазинах и таблица о поставщиках. Связь между ними будет __many-to-many__: у одного магазина может быть несколько поставщиков, а у одного поставщика в обслуживании - несколько магазинов.

Для каждого вида связи можно использовать своё условное обозначение — и таким образом отобразить взаимосвязи графически. 

![image.png](attachment:image.png)

Взглянем еще раз на нашу ER-диаграмму:

![image.png](attachment:image.png)

И теперь мы понимаем, что обозначают все эти линии: направление и вид связи

## Apache Spark

__Apache Spark__ – это __распределенный фреймворк__ обработки данных, ставший де-факто стандартом в обработке больших данных.

Написан на языке __scala__ и существует отдельно, однако для работы в Python есть библиотека PySpark.

Сперва мы поговорим о модулях, которые входят в __Spark__, после чего более подробно разберемся, что такое __распределенные фреймворки__ и зачем они нужны.

Spark состоит из нескольких компонентов:
1. Модуль для работы с языком запросов __SQL__ - __Spark SQL__
2. Расширение, которое позволяет осуществлять масштабируемую, отказоустойчивую обработку потока данных с высокой пропускной способностью - __Spark Streaming__
3. Модуль, включающий в себя инструменты машинного обучения - __Spark ML__
4. Расширение для работы с данными как графами - __графовой аналитики__ - __GraphX__

![image.png](attachment:image.png)

Для чего же нам целый отдельный фреймворк? Всё дело в __распределенной обработке данных__.

### Распределенные системы

Когда объём данных растёт, и один компьютер с вычислениями уже не справляется, подключают __распределённые системы__. Они хранят файлы с данными на нескольких компьютерах и предоставляют доступ к данным. 

При таком подходе файл делится на фрагменты, причём каждый фрагмент может быть сохранён несколько раз на разных компьютерах - это гарантирует целостность данных.

Распределённая система состоит из нескольких __узлов__ - отдельных компьютеров с ресурсами вычисления и хранения данных.

Узлы бывают двух типов:
- __Мастер-узел, или ведущий узел__. Он распределяет файлы между компьютерами в __кластере__ — наборе связанных узлов.
- __Узлы данных__. В них данные содержатся и обрабатываются. Чтобы избежать потери информации, каждый файл дублируется в нескольких узлах данных.

![image.png](attachment:image.png)

Чтобы компьютеры хранили и обрабатывали больше данных, им проводят апгрейд, причем делают это разными способами:
- __вертикальное масштабирование__ - замена узлов на более мощные;
- __горизонтальное масштабирование__ - увеличение кол-ва узлов.

Так просто хранить любой файл в распределенной системе не получится - и для этого в __Spark__ существует отдельный тип данных - __отказоустойчивый распределенныый набор данных - Resilient Disturbed Dataset, RDD__

### PySpark

#### Начало работы - __SparkContext__

На данный момент мы предполагаем, что у нас уже установлены:
1. [Anaconda Navigator](https://anaconda.org/anaconda/anaconda-navigator)
2. [Java Developer Kit 8 и старше](https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html)
3. [Spark](https://spark.apache.org/downloads.html)
4. PySpark

Теперь всё что нужно - это прописать необходимые переменные для терминала (не забудьте изменить пути к директориям на актуальные для вашего ПК):

In [229]:
import os
os.environ["SPARK_HOME"] = r"C:\Program Files\spark-3.3.1-bin-hadoop3"
os.environ["PYSPARK_SUBMIT_ARGS"] = "--master local[3] pyspark-shell"
os.environ["JAVA_HOME"] = r"C:\Program Files\Java\jre1.8.0_351"
os.environ['HADOOP_HOME'] = r"C:\Program Files\spark-3.3.1-bin-hadoop3"
os.environ['PYSPARK_DRIVER_PYTHON'] = 'jupyter'
os.environ['PYSPARK_DRIVER_PYTHON_OPTS'] = 'notebook'
os.environ['PYSPARK_PYTHON'] = 'python'

Готово - можем наконец попробовать что-нибудь поделать.

Для начала нам нужно импортировать __SparkContext__ - объект для работы с кластерами

In [230]:
from pyspark import SparkContext

Вызывая объект класса, мы передаем в __SparkContext__ параметры объекта: например, url-подключение к БД, или его название.

- параметр __master__ - подключение к кластеру; если нам нужен локальный объект - мы передаем строковый параметр 'local[x]', где __x__ - кол-во задействуемых ядер при распределенных рассчетах;
- параметр __appName__ - имя нашего приложения - объекта, над которым мы будем работать.


__Важно:__ одновременно может работать только один контекст-менеджер __SparkContext__.
Если мы хотим изменить параметры уже активного - сперва его нужно остановить с помощью метода __stop()__

In [231]:
sc = SparkContext('local[6]','Starter')

Теперь, вызывая у объекта метод __parallelize()__ мы можем превращать списки в __Parallel Collection RDD__

In [232]:
lst = ['model',0,1,15,86.4]

In [233]:
rd = sc.parallelize(lst)
print(rd)

ParallelCollectionRDD[0] at readRDDFromFile at PythonRDD.scala:274


Чтобы просмотреть содержимое объекта, нам нужно вызвать метод __take()__, передав в него количество значений, которое мы хотим просмотреть:

In [234]:
import numpy as np
print(rd.take(4))

['model', 0, 1, 15]


#### SparkSession

Обычно никто не пытается превратить руками даннные типа __list__ в __RDD__: чаще уже готовые данные считывают в виде таблиц.

В этом __Spark__ будет похож на __pandas__: оба модуля будут оперировать типом данных __DataFrame__, при этом в рамках __Spark__ каждая отдельная строка датафрейма будет иметь тип __RDD__.

__Важно помнить о специфике RDD__: в __Spark__ датафреймы - неизменяемы; при любом изменении исходного датафрейма будет создаваться его копия (это обеспечивает сохранность данных).

Для работы с такими датафреймами - в распределённой файловой системе - нужен специальный интерфейс — __DataFrame API__. Он находится __в модуле Spark SQL в библиотеке PySpark__.

Объект __SparkSession__ как раз и будет таким интерфейсом., Из коробки он может читать __csv, json, parquet__ и многие другие типы данных.

__SparkSession__ импортируют из __pyspark.sql__

Изначально, как и для __SparkContext__, создают объект класса, в который передают метод __builder__ (без скобок) для активации. Далее здесь же вызывают методы:
- getOrCreate() возвращает уже существующий SparkSession; если он не существует, создается новый SparkSession;
- master(): сюда передаем url-подключение, а при работе в автономном режиме - local[x] (как и в __SparkContext__)
- appName() - здесь передаем имя нашего приложения.

In [235]:
from pyspark.sql import SparkSession

spark = SparkSession.builder.master('local[5]').appName('Startest').getOrCreate()

#### createDataFrame - конвертация фрейма из pandas в spark

Еще раз повторим особенность __Spark DataFrame__: строки в нем имеют тип __RDD__ и, более того, каждая строка хранит не только значения, но и имена столбцов.

Чтобы создать такой датафрейм, нужно в экземпляре __SparkSession__ обратиться к методу __createDataFrame__ - а в него передать __pandas DataFrame__.

__Важно__: следует с осторожностью работать с пропущенными значениями, ведь по умолчанию все данные типа __object__ __Spark__ постарается привести к виду строки - а пропуск является __float__. В случае пропуска в столбце с числами проблем не будет, но вот если пропуск попадется в столбце со строками - вылезет ошибка:

![image.png](attachment:image.png)

Чтобы этого не допустить - следует заранее разобраться с такими пропусками:

In [236]:
df.saving_accounts = df.saving_accounts.fillna('NaN')
df.checking_account = df.checking_account.fillna('NaN')

In [237]:
spark_df = spark.createDataFrame(df)

In [238]:
spark_df

DataFrame[age: bigint, sex: string, job: bigint, housing: string, saving_accounts: string, checking_account: string, credit_amount: bigint, duration: bigint, purpose: string, default: bigint, contract_dt: timestamp, client_id: bigint]

И вот мы получили перечень названий столбцов и типов данных в них.

Чтобы извлечь данные воспользуемся знакомым методом __take()__:

In [239]:
spark_df.take(10)

[Row(age=33, sex='male', job=2, housing='own', saving_accounts='NaN', checking_account='NaN', credit_amount=3074, duration=9, purpose='radio/TV', default=0, contract_dt=datetime.datetime(2008, 6, 29, 18, 52), client_id=210),
 Row(age=43, sex='male', job=1, housing='own', saving_accounts='little', checking_account='little', credit_amount=1344, duration=12, purpose='car', default=0, contract_dt=datetime.datetime(2007, 5, 20, 18, 30, 19), client_id=929),
 Row(age=52, sex='male', job=2, housing='own', saving_accounts='quite rich', checking_account='NaN', credit_amount=936, duration=9, purpose='education', default=0, contract_dt=datetime.datetime(2008, 4, 27, 8, 23, 7), client_id=200),
 Row(age=35, sex='female', job=3, housing='own', saving_accounts='little', checking_account='NaN', credit_amount=1393, duration=11, purpose='car', default=0, contract_dt=datetime.datetime(2007, 5, 6, 10, 58, 22), client_id=45),
 Row(age=28, sex='male', job=2, housing='own', saving_accounts='little', checking_

#### read.load - чтение из файла

Чтобы прочитать данные из файла, к нашему экземпляру __SparkSession__ мы применим методы __read и load__; в __load__ нужно будет передать путь до файла.

Параметры метода:
- __format__ - формат файла;
- __header__ - определяет, есть ли заголовки в исходном файле;
- __inferSchema__ - определяет, выводить ли схему/структуру данных

In [240]:
spark_df = spark.read.load('german_credit_augmented.csv',format='csv', header='true', inferSchema='true')

In [241]:
spark_df

DataFrame[age: int, sex: string, job: int, housing: string, saving_accounts: string, checking_account: string, credit_amount: int, duration: int, purpose: string, default: int, contract_dt: timestamp, client_id: int]

#### Первичная инспекция данных

Чтобы анализировать данные нужно понять, с чем мы имеем дело.

В __pandas__ мы всегда осматривали датафрейм на наличие аномалий в названиях столбцов, типах данных, на наличие пропусков и прочее. В датафреймах __spark__ мы будем делать то же самое.


Метод __schema__ (без скобок) выведет схему данных в виде

__| Название столбца | Тип данных | Допускает ли значение NULL |__

In [242]:
print(*spark_df.schema, sep='\n')

StructField('age', IntegerType(), True)
StructField('sex', StringType(), True)
StructField('job', IntegerType(), True)
StructField('housing', StringType(), True)
StructField('saving_accounts', StringType(), True)
StructField('checking_account', StringType(), True)
StructField('credit_amount', IntegerType(), True)
StructField('duration', IntegerType(), True)
StructField('purpose', StringType(), True)
StructField('default', IntegerType(), True)
StructField('contract_dt', TimestampType(), True)
StructField('client_id', IntegerType(), True)


Метод __dtypes__ просто выведет названия столбцов и список типов данных в них:

In [243]:
spark_df.dtypes

[('age', 'int'),
 ('sex', 'string'),
 ('job', 'int'),
 ('housing', 'string'),
 ('saving_accounts', 'string'),
 ('checking_account', 'string'),
 ('credit_amount', 'int'),
 ('duration', 'int'),
 ('purpose', 'string'),
 ('default', 'int'),
 ('contract_dt', 'timestamp'),
 ('client_id', 'int')]

Индексация по столбцам работает так же, как в __pandas__: в квадратных скобках мы передаем список нужных столбцов.

In [244]:
spark_df[['age','job']].take(5)

[Row(age=33, job=2),
 Row(age=43, job=1),
 Row(age=52, job=2),
 Row(age=35, job=3),
 Row(age=28, job=2)]

__show()__ покажет первые 20 строк фрейма, если не передать внутрь какое-то число

In [245]:
spark_df.show()

+---+------+---+-------+---------------+----------------+-------------+--------+-------------------+-------+-------------------+---------+
|age|   sex|job|housing|saving_accounts|checking_account|credit_amount|duration|            purpose|default|        contract_dt|client_id|
+---+------+---+-------+---------------+----------------+-------------+--------+-------------------+-------+-------------------+---------+
| 33|  male|  2|    own|           null|            null|         3074|       9|           radio/TV|      0|2008-06-29 18:52:00|      210|
| 43|  male|  1|    own|         little|          little|         1344|      12|                car|      0|2007-05-20 18:30:19|      929|
| 52|  male|  2|    own|     quite rich|            null|          936|       9|          education|      0|2008-04-27 08:23:07|      200|
| 35|female|  3|    own|         little|            null|         1393|      11|                car|      0|2007-05-06 10:58:22|       45|
| 28|  male|  2|    own|   

Метод __head()__ покажет первую строку фрейма, если не передать внутрь число:

In [246]:
spark_df.head()

Row(age=33, sex='male', job=2, housing='own', saving_accounts=None, checking_account=None, credit_amount=3074, duration=9, purpose='radio/TV', default=0, contract_dt=datetime.datetime(2008, 6, 29, 17, 52), client_id=210)

Метод __describe()__ вычисляет некоторые статистические данные для столбцов; список нужных столбцов можно передать сразу в метод.

На выходе получается также __Spark DataFrame__ - для того, чтобы нормально его отобразить, нужно дополнительно применить метод __show()__.

In [247]:
spark_df.describe(['age','sex','job']).show()

+-------+------------------+------+------------------+
|summary|               age|   sex|               job|
+-------+------------------+------+------------------+
|  count|              1000|  1000|              1000|
|   mean|            35.546|  null|             1.904|
| stddev|11.375468574317509|  null|0.6536139619157563|
|    min|                19|female|                 0|
|    max|                75|  male|                 3|
+-------+------------------+------+------------------+



Более подробную информацию - с квартилями - отобразит __summary()__:

In [248]:
spark_df.summary().show()

+-------+------------------+------+------------------+-------+---------------+----------------+----------------+------------------+---------------+-------------------+-----------------+
|summary|               age|   sex|               job|housing|saving_accounts|checking_account|   credit_amount|          duration|        purpose|            default|        client_id|
+-------+------------------+------+------------------+-------+---------------+----------------+----------------+------------------+---------------+-------------------+-----------------+
|  count|              1000|  1000|              1000|   1000|            817|             606|            1000|              1000|           1000|               1000|             1000|
|   mean|            35.546|  null|             1.904|   null|           null|            null|        3271.258|            20.903|           null|                0.3|            499.5|
| stddev|11.375468574317509|  null|0.6536139619157563|   null|        

__columns__ выведет список столбцов фрейма:

In [249]:
spark_df.columns

['age',
 'sex',
 'job',
 'housing',
 'saving_accounts',
 'checking_account',
 'credit_amount',
 'duration',
 'purpose',
 'default',
 'contract_dt',
 'client_id']

Метод __count__ вернет количество строк во фрейме:

In [250]:
spark_df.count()

1000

А метод __distinct__ возвращает только __уникальные__ строки датафрейма. Объединив его с методом __count()__, можно посчитать количество уникальных строк:

In [251]:
spark_df.distinct().count()

1000

Метод __printSchema()__ работает аналогично методу __schema__, однако вернет более упорядоченный и форматированный список:

In [252]:
spark_df.printSchema()

root
 |-- age: integer (nullable = true)
 |-- sex: string (nullable = true)
 |-- job: integer (nullable = true)
 |-- housing: string (nullable = true)
 |-- saving_accounts: string (nullable = true)
 |-- checking_account: string (nullable = true)
 |-- credit_amount: integer (nullable = true)
 |-- duration: integer (nullable = true)
 |-- purpose: string (nullable = true)
 |-- default: integer (nullable = true)
 |-- contract_dt: timestamp (nullable = true)
 |-- client_id: integer (nullable = true)



#### Работа со столбцами

Если нам нужно добавить новый столбец в датафрейм, мы используем метод __withColumn()__, в который передадим название нового столбца, а также данные, которые мы туда кладем.

Как и в __pandas.DataFrame__ мы можем совершенно спокойно совершать арифметические операции над столбцами:

In [253]:
spark_df = spark_df.withColumn('complex_num', spark_df.client_id / spark_df.age)

In [254]:
spark_df.show(5)

+---+------+---+-------+---------------+----------------+-------------+--------+---------+-------+-------------------+---------+------------------+
|age|   sex|job|housing|saving_accounts|checking_account|credit_amount|duration|  purpose|default|        contract_dt|client_id|       complex_num|
+---+------+---+-------+---------------+----------------+-------------+--------+---------+-------+-------------------+---------+------------------+
| 33|  male|  2|    own|           null|            null|         3074|       9| radio/TV|      0|2008-06-29 18:52:00|      210| 6.363636363636363|
| 43|  male|  1|    own|         little|          little|         1344|      12|      car|      0|2007-05-20 18:30:19|      929|  21.6046511627907|
| 52|  male|  2|    own|     quite rich|            null|          936|       9|education|      0|2008-04-27 08:23:07|      200|3.8461538461538463|
| 35|female|  3|    own|         little|            null|         1393|      11|      car|      0|2007-05-06 10:

Если нам нужно переименовать столбец - используем __withColumnRenamed()__, в который передаем старое название столбца и новое название столбца:

In [255]:
spark_df = spark_df.withColumnRenamed('complex_num','strange_num')

In [256]:
spark_df.show(5)

+---+------+---+-------+---------------+----------------+-------------+--------+---------+-------+-------------------+---------+------------------+
|age|   sex|job|housing|saving_accounts|checking_account|credit_amount|duration|  purpose|default|        contract_dt|client_id|       strange_num|
+---+------+---+-------+---------------+----------------+-------------+--------+---------+-------+-------------------+---------+------------------+
| 33|  male|  2|    own|           null|            null|         3074|       9| radio/TV|      0|2008-06-29 18:52:00|      210| 6.363636363636363|
| 43|  male|  1|    own|         little|          little|         1344|      12|      car|      0|2007-05-20 18:30:19|      929|  21.6046511627907|
| 52|  male|  2|    own|     quite rich|            null|          936|       9|education|      0|2008-04-27 08:23:07|      200|3.8461538461538463|
| 35|female|  3|    own|         little|            null|         1393|      11|      car|      0|2007-05-06 10:

Если же нам нужно какой-то столбец отбросить - применяют метод __drop()__:

In [257]:
spark_df = spark_df.drop('strange_num')

In [258]:
spark_df.show(5)

+---+------+---+-------+---------------+----------------+-------------+--------+---------+-------+-------------------+---------+
|age|   sex|job|housing|saving_accounts|checking_account|credit_amount|duration|  purpose|default|        contract_dt|client_id|
+---+------+---+-------+---------------+----------------+-------------+--------+---------+-------+-------------------+---------+
| 33|  male|  2|    own|           null|            null|         3074|       9| radio/TV|      0|2008-06-29 18:52:00|      210|
| 43|  male|  1|    own|         little|          little|         1344|      12|      car|      0|2007-05-20 18:30:19|      929|
| 52|  male|  2|    own|     quite rich|            null|          936|       9|education|      0|2008-04-27 08:23:07|      200|
| 35|female|  3|    own|         little|            null|         1393|      11|      car|      0|2007-05-06 10:58:22|       45|
| 28|  male|  2|    own|         little|            null|          776|      12| radio/TV|      0

#### Работа с пропусками

В данных мы часто встречаемся с пропусками - и часто нам нужно уметь их обрабатывать.

Взглянем на наши имеющиеся пропуски методом __describe()__:

In [259]:
spark_df.describe().show()

+-------+------------------+------+------------------+-------+---------------+----------------+----------------+------------------+---------------+-------------------+-----------------+
|summary|               age|   sex|               job|housing|saving_accounts|checking_account|   credit_amount|          duration|        purpose|            default|        client_id|
+-------+------------------+------+------------------+-------+---------------+----------------+----------------+------------------+---------------+-------------------+-----------------+
|  count|              1000|  1000|              1000|   1000|            817|             606|            1000|              1000|           1000|               1000|             1000|
|   mean|            35.546|  null|             1.904|   null|           null|            null|        3271.258|            20.903|           null|                0.3|            499.5|
| stddev|11.375468574317509|  null|0.6536139619157563|   null|        

Видим пропуски по __saving_accounts__ и __checking_account__.

Их можно просто отбросить с помощью __na.drop()__:

In [260]:
spark_df.na.drop().count()

522

Можно заменить на какое-нибудь константное значение, причем по столбцам. Сделать это можно с помощью метода __na.fill()__, в который нужно сперва передать значение, на которое мы заменим пропуски, а затем - параметр __subset__, который будет содержать список столбцов, в которых будут произведены замены:

In [261]:
spark_df = spark_df.na.fill('unknown', subset=['saving_accounts'])

In [262]:
spark_df.describe().show()

+-------+------------------+------+------------------+-------+---------------+----------------+----------------+------------------+---------------+-------------------+-----------------+
|summary|               age|   sex|               job|housing|saving_accounts|checking_account|   credit_amount|          duration|        purpose|            default|        client_id|
+-------+------------------+------+------------------+-------+---------------+----------------+----------------+------------------+---------------+-------------------+-----------------+
|  count|              1000|  1000|              1000|   1000|           1000|             606|            1000|              1000|           1000|               1000|             1000|
|   mean|            35.546|  null|             1.904|   null|           null|            null|        3271.258|            20.903|           null|                0.3|            499.5|
| stddev|11.375468574317509|  null|0.6536139619157563|   null|        

Либо же можно в этот же метод передать словарь, где ключ - название столбца, а значение словаря - подменное значение:

In [263]:
spark_df = spark_df.na.fill({'checking_account':'nobody_nose'})

In [264]:
spark_df.describe().show()

+-------+------------------+------+------------------+-------+---------------+----------------+----------------+------------------+---------------+-------------------+-----------------+
|summary|               age|   sex|               job|housing|saving_accounts|checking_account|   credit_amount|          duration|        purpose|            default|        client_id|
+-------+------------------+------+------------------+-------+---------------+----------------+----------------+------------------+---------------+-------------------+-----------------+
|  count|              1000|  1000|              1000|   1000|           1000|            1000|            1000|              1000|           1000|               1000|             1000|
|   mean|            35.546|  null|             1.904|   null|           null|            null|        3271.258|            20.903|           null|                0.3|            499.5|
| stddev|11.375468574317509|  null|0.6536139619157563|   null|        

In [265]:
spark_df.show(10)

+---+------+---+-------+---------------+----------------+-------------+--------+-------------------+-------+-------------------+---------+
|age|   sex|job|housing|saving_accounts|checking_account|credit_amount|duration|            purpose|default|        contract_dt|client_id|
+---+------+---+-------+---------------+----------------+-------------+--------+-------------------+-------+-------------------+---------+
| 33|  male|  2|    own|        unknown|     nobody_nose|         3074|       9|           radio/TV|      0|2008-06-29 18:52:00|      210|
| 43|  male|  1|    own|         little|          little|         1344|      12|                car|      0|2007-05-20 18:30:19|      929|
| 52|  male|  2|    own|     quite rich|     nobody_nose|          936|       9|          education|      0|2008-04-27 08:23:07|      200|
| 35|female|  3|    own|         little|     nobody_nose|         1393|      11|                car|      0|2007-05-06 10:58:22|       45|
| 28|  male|  2|    own|   

#### SQL-запросы в Spark

Как уже было сказано ранее, в __Spark__, помимо всего прочего, входит модуль __SQL__, который позволяет делать __SQL-запросы__ к распределенным данным.

Чтобы сделать запрос нужно превратить датафрейм в таблицу базы данных - делается это с помощью метода __createOrReplaceTempView()__, куда мы передаем название для нашей таблицы:

In [266]:
spark_df.createOrReplaceTempView('credits')

Теперь всё что нам нужно - это обернуть в __SparkSession.sql__ наш запрос:

In [267]:
sql = '''
select t.purpose, t. job, round(avg(t.age),2) as avg_age from credits t
where t.purpose in ("repairs","car","education")
group by t.purpose, t.job
order by t.purpose, t.job
'''

In [268]:
spark.sql(sql).show()

+---------+---+-------+
|  purpose|job|avg_age|
+---------+---+-------+
|      car|  0|  40.58|
|      car|  1|  36.98|
|      car|  2|  35.79|
|      car|  3|  40.41|
|education|  0|   27.0|
|education|  1|  41.67|
|education|  2|  36.43|
|education|  3|   41.5|
|  repairs|  0|   60.0|
|  repairs|  1|  31.29|
|  repairs|  2|  39.15|
+---------+---+-------+



Та-дааам! Работает.

## Схемы данных

Мы знаем, что в рамках реляционных баз данных в каждой базе хранятся различные таблички, связанные (или не связанные) друг с другом.

Для удобства таблицы, не связанные друг с другом в рамках одной базы данных разграничивают на так называемые __схемы__.

![image.png](attachment:image.png)

Схемы работают по аналогии с папками: в разных папках можно хранить разные таблицы с одинаковым названием; при этом доступ к ним будет осуществляться не просто по названию таблицы, но с указанием названия папки:

    select * from moscow.income t # moscow - название папки

Таким образом мы в рамках одной базы данных можем иметь, например, разные схемы по продажам в разных городах, или схемы по активностям клиентов разных интернет-ресурсов одного холдинга.

По умолчанию PostgreSQL сохраняет новые таблицы, если не указывать схему, __в схему public__:

In [269]:
sql = '''
select * from german_credit t -- делаем запрос как обычно
limit 10
'''

In [270]:
pd.read_sql(sql,engine)

Unnamed: 0,index,age,sex,job,housing,saving_accounts,checking_account,credit_amount,duration,purpose,default,contract_dt,client_id
0,0,33,male,2,own,,,3074,9,radio/TV,0,2008-06-29 18:52:00,210
1,1,43,male,1,own,little,little,1344,12,car,0,2007-05-20 18:30:19,929
2,2,52,male,2,own,quite rich,,936,9,education,0,2008-04-27 08:23:07,200
3,3,35,female,3,own,little,,1393,11,car,0,2007-05-06 10:58:22,45
4,4,28,male,2,own,little,,776,12,radio/TV,0,2007-07-21 13:22:14,358
5,5,27,female,2,own,little,moderate,1295,18,furniture/equipment,0,2008-06-18 04:10:05,86
6,6,29,female,2,own,little,moderate,959,9,furniture/equipment,1,2007-05-21 14:32:00,351
7,7,42,female,2,rent,rich,rich,409,12,radio/TV,0,2008-06-05 05:31:13,27
8,8,26,male,2,own,little,little,4370,42,radio/TV,1,2007-11-29 00:20:44,639
9,9,55,male,2,free,rich,,1555,12,repairs,1,2007-09-11 20:27:28,754


In [271]:
sql = '''
select * from public.german_credit t -- делаем запрос с указанием схемы
limit 10
'''

In [272]:
pd.read_sql(sql,engine)

Unnamed: 0,index,age,sex,job,housing,saving_accounts,checking_account,credit_amount,duration,purpose,default,contract_dt,client_id
0,0,33,male,2,own,,,3074,9,radio/TV,0,2008-06-29 18:52:00,210
1,1,43,male,1,own,little,little,1344,12,car,0,2007-05-20 18:30:19,929
2,2,52,male,2,own,quite rich,,936,9,education,0,2008-04-27 08:23:07,200
3,3,35,female,3,own,little,,1393,11,car,0,2007-05-06 10:58:22,45
4,4,28,male,2,own,little,,776,12,radio/TV,0,2007-07-21 13:22:14,358
5,5,27,female,2,own,little,moderate,1295,18,furniture/equipment,0,2008-06-18 04:10:05,86
6,6,29,female,2,own,little,moderate,959,9,furniture/equipment,1,2007-05-21 14:32:00,351
7,7,42,female,2,rent,rich,rich,409,12,radio/TV,0,2008-06-05 05:31:13,27
8,8,26,male,2,own,little,little,4370,42,radio/TV,1,2007-11-29 00:20:44,639
9,9,55,male,2,free,rich,,1555,12,repairs,1,2007-09-11 20:27:28,754


На выходе что с указанием схемы, что без запрос Postgres отработал одинаково

## Оконные функции

__Оконные функции__ выполняют вычисления для записей (строк), объединенных по какому-то признаку (например, __user ID или город__). Отсюда в названии и появилось __окно__ - это и есть группа записей, для которых ведутся расчеты.

Вместе с текущей записью (строкой) __оконная функция__ обрабатывает и все остальные записи из этого же окна.

Мы уже сталкивались с понятием __окна__ во время изучения временных рядов - там окно определяло ширину __скользящего среднего__ - а именно, сколько и какие записи окажутся в нём при расчётах.

В отличие от агрегирующих функций, оконные функции не агрегируют записи - а значит в итоговой таблице будет ровно столько же строк, сколько и в первоначальной.

Очень простым примером будет вычисление среднего значения, например, размера кредита, для каждого пользователя:

In [273]:
sql = ''' --группировка
select *, avg(t.credit_amount) from credits t
group by t.client_id
'''

In [274]:
pd.read_sql(sql,con)

Unnamed: 0,client_id,saving_accounts,checking_account,credit_amount,duration,purpose,contract_dt,avg(t.credit_amount)
0,0,little,,2406,9,furniture/equipment,2007-12-21 05:41:36,4074.000000
1,1,little,,2028,24,furniture/equipment,2007-12-23 02:44:41,2028.000000
2,2,,,2978,24,business,2008-01-17 07:26:30,2978.000000
3,3,,moderate,3979,48,radio/TV,2007-05-28 21:43:45,3665.666667
4,4,little,,1231,10,car,2008-04-21 23:08:19,1231.000000
...,...,...,...,...,...,...,...,...
478,594,moderate,,1418,10,car,2008-01-13 02:24:59,3066.333333
479,595,little,little,3398,8,car,2008-03-16 02:08:20,3443.000000
480,596,moderate,little,2325,24,car,2007-08-01 03:15:42,1879.000000
481,597,little,little,8978,14,car,2007-11-19 15:48:19,7582.500000


In [275]:
sql = ''' -- оконная функция
select *, avg(t.credit_amount) over (partition by t.client_id)
from credits t
'''

In [276]:
pd.read_sql(sql,con)

Unnamed: 0,client_id,saving_accounts,checking_account,credit_amount,duration,purpose,contract_dt,avg(t.credit_amount) over (partition by t.client_id)
0,0,little,,2406,9,furniture/equipment,2007-12-21 05:41:36,4074.000000
1,0,moderate,,5742,36,business,2007-10-11 03:14:00,4074.000000
2,1,little,,2028,24,furniture/equipment,2007-12-23 02:44:41,2028.000000
3,2,,,2978,24,business,2008-01-17 07:26:30,2978.000000
4,3,,moderate,3979,48,radio/TV,2007-05-28 21:43:45,3665.666667
...,...,...,...,...,...,...,...,...
995,596,moderate,little,2325,24,car,2007-08-01 03:15:42,1879.000000
996,596,little,little,1433,15,furniture/equipment,2008-06-05 12:57:22,1879.000000
997,597,little,little,8978,14,car,2007-11-19 15:48:19,7582.500000
998,597,moderate,little,6187,30,car,2007-07-21 21:40:35,7582.500000


Как мы видим, группировка агрегировала данные по полю __client_id__, в то время как оконная функция выдала результат, пусть и повторяющийся, для каждой строки - и мы можем видеть более детальные данные по этим строкам

### Агрегирующие оконные функции

Оконная функция всегда начинается с функции обычной и выражения __over__:

    select *, avg(t.credit_amount) over (...)

Для простого разделения на группы после __over__ в скобках мы указываем оператор __partition by__ - оператор разделения на окна - , а также какие поля (признаки/столбцы) у нас будут отделять окна друг от друга:

    select *, avg(t.credit_amount) over (partition by t.client_id) as avg_credit from credits t

Вообще, __over__ может включать другие операторы или быть совсем пустым.

Если оставить выражение __over__ пустым, то его значение будет просто значением агрегирующей функции - причем без агрегации: функция просто посчитает значение функции __для всех записей__:

In [277]:
sql = '''
select *, avg(t.credit_amount) over () as total_average from credits t
'''

In [278]:
pd.read_sql(sql,con)

Unnamed: 0,client_id,saving_accounts,checking_account,credit_amount,duration,purpose,contract_dt,total_average
0,584,,,3074,9,radio/TV,2008-06-29 18:52:00,3271.258
1,62,little,little,1344,12,car,2007-05-20 18:30:19,3271.258
2,444,quite rich,,936,9,education,2008-04-27 08:23:07,3271.258
3,264,little,,1393,11,car,2007-05-06 10:58:22,3271.258
4,251,little,,776,12,radio/TV,2007-07-21 13:22:14,3271.258
...,...,...,...,...,...,...,...,...
995,99,little,little,2600,18,radio/TV,2007-12-16 20:17:19,3271.258
996,573,little,moderate,4455,36,business,2007-07-12 14:08:58,3271.258
997,31,little,moderate,6403,24,radio/TV,2008-04-08 03:24:26,3271.258
998,122,,,5003,21,car,2007-11-29 15:51:45,3271.258


Если указать несколько полей в __partition by__ - функции будут рассчитаны для каждой уникальной комбинации признаков (порядок признаков не имеет значения):

In [279]:
sql = ''' --простое разделение по цели кретида
select *, avg(t.credit_amount) over (partition by t.purpose) from credits t
'''

In [280]:
pd.read_sql(sql,con)

Unnamed: 0,client_id,saving_accounts,checking_account,credit_amount,duration,purpose,contract_dt,avg(t.credit_amount) over (partition by t.purpose)
0,433,moderate,,1743,6,business,2008-02-14 01:58:09,4158.041237
1,73,,moderate,4712,24,business,2007-11-23 03:51:16,4158.041237
2,422,moderate,moderate,2503,30,business,2008-01-25 07:33:01,4158.041237
3,382,little,,2764,33,business,2007-08-20 03:50:30,4158.041237
4,456,little,little,1797,13,business,2008-04-10 05:41:12,4158.041237
...,...,...,...,...,...,...,...,...
995,151,little,moderate,2629,20,vacation/others,2008-03-23 12:57:07,8209.333333
996,336,moderate,moderate,7582,48,vacation/others,2007-07-10 08:52:45,8209.333333
997,255,little,moderate,18424,48,vacation/others,2007-12-21 01:36:29,8209.333333
998,365,little,little,1755,24,vacation/others,2007-11-26 13:20:24,8209.333333


In [281]:
sql = '''select *, avg(t.credit_amount) over (partition by t.purpose, t.duration) from credits t'''

In [282]:
pd.read_sql(sql,con)

Unnamed: 0,client_id,saving_accounts,checking_account,credit_amount,duration,purpose,contract_dt,"avg(t.credit_amount) over (partition by t.purpose, t.duration)"
0,455,little,,3448,5,business,2007-07-03 02:08:34,3448.000000
1,433,moderate,,1743,6,business,2008-02-14 01:58:09,1596.000000
2,37,moderate,moderate,1449,6,business,2007-09-23 23:01:25,1596.000000
3,551,little,moderate,907,8,business,2007-05-23 22:13:16,907.000000
4,394,little,,1449,9,business,2008-02-29 11:12:50,1420.000000
...,...,...,...,...,...,...,...,...
995,470,little,little,15857,36,vacation/others,2007-05-16 07:20:08,15857.000000
996,527,,moderate,5381,48,vacation/others,2008-03-18 18:40:46,10462.333333
997,336,moderate,moderate,7582,48,vacation/others,2007-07-10 08:52:45,10462.333333
998,255,little,moderate,18424,48,vacation/others,2007-12-21 01:36:29,10462.333333


### Ранжирующие оконные функции

Кроме того, что мы можем для каждой записи расчитывать какие-то агрегирующие значения - мы также можем расставлять их по порядку - __ранжировать__ - в зависимости от наших потребностей

#### row_number()

__row_number()__ не является оператором выражения __over__ - однако работает лишь в связке с ним. Вызывается в качестве агрегирующей функции - и присваивает записям ранги от 1 до n.

При этом итоговая сортировка таблицы не важна: при вызове функции __row_number()__ ранжирование происходит с первоначальной таблицей в БД; в то же время фильтрация строк будет иметь значение

In [283]:
sql = '''
select *, row_number() over()
from credits t
where t.purpose = 'car'
order by t.client_id
'''

In [284]:
pd.read_sql(sql,con)

Unnamed: 0,client_id,saving_accounts,checking_account,credit_amount,duration,purpose,contract_dt,row_number() over()
0,3,moderate,moderate,4576,45,car,2008-04-17 11:41:03,94
1,4,little,,1231,10,car,2008-04-21 23:08:19,325
2,5,rich,,5711,36,car,2007-05-06 18:06:16,88
3,5,little,little,6615,24,car,2007-05-06 09:37:45,216
4,10,rich,,1940,24,car,2008-05-15 13:26:20,150
...,...,...,...,...,...,...,...,...
332,595,little,little,3398,8,car,2008-03-16 02:08:20,16
333,595,moderate,,3488,24,car,2007-06-22 19:45:09,253
334,596,moderate,little,2325,24,car,2007-08-01 03:15:42,199
335,597,little,little,8978,14,car,2007-11-19 15:48:19,82


In [285]:
pd.read_sql(sql,con)['row_number() over()'].max() # посмотрим на максимальный ранг, чтобы убедиться, что ранги
                                                    # не присвоены первоначальной таблице с тысячей записей

337

Чтобы __управлять порядком ранжирования__ функции __row_number()__ в выражение __over__ добавляют оператор __order by__.

Здесь так же, как и в обычном __order by__ можно сортировать и по убыванию - с помощью оператора __desc__; также можно указывать сразу несколько полей для сортировки (порядок признаков имеет значение).

In [286]:
sql = '''
select *, row_number() over (order by t.purpose, t.duration desc) from credits t
'''

In [287]:
pd.read_sql(sql,con)

Unnamed: 0,client_id,saving_accounts,checking_account,credit_amount,duration,purpose,contract_dt,"row_number() over (order by t.purpose, t.duration desc)"
0,166,little,little,6836,60,business,2007-12-25 20:29:33,1
1,369,little,little,7297,60,business,2007-08-02 15:47:08,2
2,103,little,moderate,15945,54,business,2007-08-04 20:10:36,3
3,199,little,little,4308,48,business,2008-04-21 00:30:53,4
4,470,little,moderate,15672,48,business,2007-11-30 06:46:27,5
...,...,...,...,...,...,...,...,...
995,8,little,moderate,11328,24,vacation/others,2008-04-06 11:54:47,996
996,212,little,,6314,24,vacation/others,2007-06-30 23:13:06,997
997,365,little,little,1755,24,vacation/others,2007-11-26 13:20:24,998
998,151,little,moderate,2629,20,vacation/others,2008-03-23 12:57:07,999


#### rank() и dense_rank()

Как мы могли заметить, функция __row_number()__ присваивает разные ранги одинаковым (по крайней мере, по отбору) записям.

Это можно увидеть в примере ранжирования выше: записям с одинаковой продолжительностью и целью кредита были присвоены разные ранги.

Иногда такое ранжирования может внести путаницу в данные и усложнить дальнейшую работу - поэтому дополнительно используют функции __rank()__ и __dense_rank()__.

Обе эти функции обладают аналогичным с __row_number()__ синтаксисом:

    функция over (order by...)

Функция __rank()__ будет присваивать одинаковый ранг одинаковым записям; однако каждой последующей отличной от предыдущих записи (группе записей) ранг будет присвоен не последовательно, а пропуская $n$ предыдущих одинаковых записей:

In [288]:
sql = '''
select *, rank() over (order by t.purpose, t.duration desc) from credits t
'''

In [289]:
pd.read_sql(sql,con).head(20)

Unnamed: 0,client_id,saving_accounts,checking_account,credit_amount,duration,purpose,contract_dt,"rank() over (order by t.purpose, t.duration desc)"
0,166,little,little,6836,60,business,2007-12-25 20:29:33,1
1,369,little,little,7297,60,business,2007-08-02 15:47:08,1
2,103,little,moderate,15945,54,business,2007-08-04 20:10:36,3
3,199,little,little,4308,48,business,2008-04-21 00:30:53,4
4,470,little,moderate,15672,48,business,2007-11-30 06:46:27,4
5,581,little,,3609,48,business,2008-01-05 19:59:56,4
6,355,little,,4844,48,business,2008-02-28 23:18:30,4
7,519,,moderate,12204,48,business,2008-04-03 22:04:42,4
8,211,,,3914,48,business,2007-11-06 02:33:15,4
9,328,moderate,moderate,3566,48,business,2008-02-04 05:46:26,4


Если же мы хотим получить одинаковые ранги для одинаковых записей - и без пропусков - мы должны использовать функцию __dense_rank()__:

In [290]:
sql = '''
select *, dense_rank() over (order by t.purpose, t.duration desc) from credits t
'''

In [291]:
pd.read_sql(sql,con).head(20)

Unnamed: 0,client_id,saving_accounts,checking_account,credit_amount,duration,purpose,contract_dt,"dense_rank() over (order by t.purpose, t.duration desc)"
0,166,little,little,6836,60,business,2007-12-25 20:29:33,1
1,369,little,little,7297,60,business,2007-08-02 15:47:08,1
2,103,little,moderate,15945,54,business,2007-08-04 20:10:36,2
3,199,little,little,4308,48,business,2008-04-21 00:30:53,3
4,470,little,moderate,15672,48,business,2007-11-30 06:46:27,3
5,581,little,,3609,48,business,2008-01-05 19:59:56,3
6,355,little,,4844,48,business,2008-02-28 23:18:30,3
7,519,,moderate,12204,48,business,2008-04-03 22:04:42,3
8,211,,,3914,48,business,2007-11-06 02:33:15,3
9,328,moderate,moderate,3566,48,business,2008-02-04 05:46:26,3


#### ntile(n)

Если нам нужно проранжировать записи в рамках фиксированного количества рангов, или, иначе говоря, разбить все записи на $n$ групп, в которых кол-во записей будет стремиться к равному количеству - мы воспользуемся функцией __ntile()__, в которую обязательно передадим максимальный ранг.

Если записи не получится разделить на равные группы - предпочтение отдается первым: если мы __делим 6 записей на 4 группы__, мы получим распределение __2-2-1-1__

Синтаксис аналогичен предыдущим функциям ранжирования

In [292]:
sql = '''
select *, ntile(5) over (order by t.credit_amount) from credits t
'''

In [293]:
pd.read_sql(sql,con)

Unnamed: 0,client_id,saving_accounts,checking_account,credit_amount,duration,purpose,contract_dt,ntile(5) over (order by t.credit_amount)
0,514,rich,,250,6,car,2007-05-17 04:07:19,1
1,492,little,moderate,276,9,car,2007-10-08 00:11:40,1
2,408,quite rich,little,338,6,radio/TV,2007-07-13 08:05:52,1
3,246,little,little,339,12,education,2007-06-23 13:29:45,1
4,119,little,little,343,6,domestic appliances,2007-11-11 12:50:49,1
...,...,...,...,...,...,...,...,...
995,512,little,,15653,60,radio/TV,2008-04-26 15:28:20,5
996,470,little,moderate,15672,48,business,2007-11-30 06:46:27,5
997,470,little,little,15857,36,vacation/others,2007-05-16 07:20:08,5
998,103,little,moderate,15945,54,business,2007-08-04 20:10:36,5


#### Комбинирование группировки и ранжирования

В своих запросах мы можем комбинировать __partition by__ и __order by__, чтобы проранжировать записи внутри групп.

Например, мы можем получить топ-3 самых дорогих кредита из каждой группы по целям кредита.


Синтаксис очень прост: между __partition by и order by__ нет никаких запятых, но последовательность их записи внутри __over__ должна быть именно такая.

In [294]:
sql = '''
with tops as (select *, row_number() over (partition by t.purpose order by t.credit_amount desc) as rn from credits t)
select * from tops t
where t.rn <4

'''

In [295]:
pd.read_sql(sql,con)

Unnamed: 0,client_id,saving_accounts,checking_account,credit_amount,duration,purpose,contract_dt,rn
0,103,little,moderate,15945,54,business,2007-08-04 20:10:36,1
1,470,little,moderate,15672,48,business,2007-11-30 06:46:27,2
2,417,little,moderate,14421,48,business,2008-01-11 22:06:07,3
3,403,little,little,14896,6,car,2008-05-09 12:43:29,1
4,293,,moderate,14555,6,car,2008-03-30 12:45:07,2
5,149,little,moderate,14318,36,car,2007-12-16 18:47:38,3
6,435,,moderate,3990,36,domestic appliances,2007-05-28 12:18:34,1
7,183,little,little,3051,48,domestic appliances,2007-08-05 13:32:56,2
8,468,little,moderate,1424,12,domestic appliances,2008-03-11 17:42:25,3
9,434,moderate,moderate,12612,36,education,2008-05-15 10:23:25,1


Аналогично можно использовать функции __rank(), dense_rank() и ntile()__

#### Расчеты показателей с накоплением - агрегирующие функции + order by

Ранее мы использовали агрегирующие функции с __partition by__, а также функции ранжирования с __partition by + order by__.

Сейчас мы попробуем использовать агрегирующие функции с __order by__ - так мы получим __кумулятивные показатели__ - показатели с накомплением

In [296]:
sql = '''
select *, sum(t.credit_amount) over (order by t.contract_dt) from credits t
'''

In [297]:
pd.read_sql(sql,con)

Unnamed: 0,client_id,saving_accounts,checking_account,credit_amount,duration,purpose,contract_dt,sum(t.credit_amount) over (order by t.contract_dt)
0,219,,little,2996,24,furniture/equipment,2007-05-01 07:17:29,2996
1,54,little,moderate,1092,12,radio/TV,2007-05-01 08:41:46,4088
2,410,little,moderate,4795,36,radio/TV,2007-05-01 12:42:45,8883
3,279,,moderate,932,6,education,2007-05-01 20:28:44,9815
4,52,little,,2775,18,car,2007-05-01 23:14:02,12590
...,...,...,...,...,...,...,...,...
995,553,,,1867,30,radio/TV,2008-06-28 11:49:14,3249357
996,62,little,,1382,6,radio/TV,2008-06-28 12:33:38,3250739
997,71,little,,5507,24,repairs,2008-06-28 14:08:06,3256246
998,487,little,moderate,11938,24,vacation/others,2008-06-28 23:47:51,3268184


Как мы видим, кумулятивная сумма кредитов с каждым кредитом растёт (логично).

Также мы можем комбинировать агрегирующие функции с __partition by и order by__ - и в итоге получить кумулятивные значения, но уже разбитые по окнам:

In [298]:
sql = '''
select *, avg(t.credit_amount) over (partition by t.client_id order by t.contract_dt) from credits t
'''

In [299]:
pd.read_sql(sql,con)

Unnamed: 0,client_id,saving_accounts,checking_account,credit_amount,duration,purpose,contract_dt,avg(t.credit_amount) over (partition by t.client_id order by t.contract_dt)
0,0,moderate,,5742,36,business,2007-10-11 03:14:00,5742.0
1,0,little,,2406,9,furniture/equipment,2007-12-21 05:41:36,4074.0
2,1,little,,2028,24,furniture/equipment,2007-12-23 02:44:41,2028.0
3,2,,,2978,24,business,2008-01-17 07:26:30,2978.0
4,3,,moderate,3979,48,radio/TV,2007-05-28 21:43:45,3979.0
...,...,...,...,...,...,...,...,...
995,596,moderate,little,2325,24,car,2007-08-01 03:15:42,2325.0
996,596,little,little,1433,15,furniture/equipment,2008-06-05 12:57:22,1879.0
997,597,moderate,little,6187,30,car,2007-07-21 21:40:35,6187.0
998,597,little,little,8978,14,car,2007-11-19 15:48:19,7582.5


### Оконные функции смещения

Иногда нам понадобится не только рассчитать какое-то значение и проранжировать записи, но и вывести, например, предыдущее и следующее значения в окне.

Для эти задач используются функции __lag() и lead()__: __lag()__ вовзвращает предыдущее значение, __lead()__ - cледующее.

Синтаксис у них аналогичный:

    lag(поле, смещение, значение по умолчанию) over (окно)

В функцию мы передаем столбец, для которого мы будем искать смещение, размер смещения - сколько записей вперед/назад, а также значение, которым будут заполняться пропуски (например в случае, когда предыдущих/следующих значений в окне нет).

Выведем предыдущую и следующую дату выдачи кредита для каждой записи:

In [300]:
sql = '''
select *, lag(t.contract_dt,1,'none') over (partition by t.client_id order by t.contract_dt) as previous_contract,
lead(t.contract_dt,1,'none') over (partition by t.client_id order by t.contract_dt) as next_contract
from credits t
'''

In [301]:
pd.read_sql(sql,con).head(20)

Unnamed: 0,client_id,saving_accounts,checking_account,credit_amount,duration,purpose,contract_dt,previous_contract,next_contract
0,0,moderate,,5742,36,business,2007-10-11 03:14:00,none,2007-12-21 05:41:36
1,0,little,,2406,9,furniture/equipment,2007-12-21 05:41:36,2007-10-11 03:14:00,none
2,1,little,,2028,24,furniture/equipment,2007-12-23 02:44:41,none,none
3,2,,,2978,24,business,2008-01-17 07:26:30,none,none
4,3,,moderate,3979,48,radio/TV,2007-05-28 21:43:45,none,2008-04-17 11:41:03
5,3,moderate,moderate,4576,45,car,2008-04-17 11:41:03,2007-05-28 21:43:45,2008-05-24 04:39:29
6,3,little,little,2442,27,business,2008-05-24 04:39:29,2008-04-17 11:41:03,none
7,4,little,,1231,10,car,2008-04-21 23:08:19,none,none
8,5,little,little,6615,24,car,2007-05-06 09:37:45,none,2007-05-06 18:06:16
9,5,rich,,5711,36,car,2007-05-06 18:06:16,2007-05-06 09:37:45,2007-12-12 17:31:32


В принципе можно пользоваться всего 1 функцией - просто передавать отрицательное смещение в качестве аргумента:

In [302]:
sql = '''
select *, lead(t.contract_dt,-1,'none') over (partition by t.client_id order by t.contract_dt) as prev_con,
lead(t.contract_dt, 1, 'none') over (partition by t.client_id order by t.contract_dt) as next_con
from credits t
'''

In [303]:
pd.read_sql(sql,con).head(20)

Unnamed: 0,client_id,saving_accounts,checking_account,credit_amount,duration,purpose,contract_dt,prev_con,next_con
0,0,moderate,,5742,36,business,2007-10-11 03:14:00,none,2007-12-21 05:41:36
1,0,little,,2406,9,furniture/equipment,2007-12-21 05:41:36,2007-10-11 03:14:00,none
2,1,little,,2028,24,furniture/equipment,2007-12-23 02:44:41,none,none
3,2,,,2978,24,business,2008-01-17 07:26:30,none,none
4,3,,moderate,3979,48,radio/TV,2007-05-28 21:43:45,none,2008-04-17 11:41:03
5,3,moderate,moderate,4576,45,car,2008-04-17 11:41:03,2007-05-28 21:43:45,2008-05-24 04:39:29
6,3,little,little,2442,27,business,2008-05-24 04:39:29,2008-04-17 11:41:03,none
7,4,little,,1231,10,car,2008-04-21 23:08:19,none,none
8,5,little,little,6615,24,car,2007-05-06 09:37:45,none,2007-05-06 18:06:16
9,5,rich,,5711,36,car,2007-05-06 18:06:16,2007-05-06 09:37:45,2007-12-12 17:31:32


Такие сдвиги открывают нам много возможностей для расчётов, например, периодичности события и его динамики:

In [304]:
sql = '''
select *, lead(t.contract_dt::date, -1) over (partition by t.client_id order by t.contract_dt) as previous_contract,
t.contract_dt::date - lead(t.contract_dt::date, -1, t.contract_dt::date) over (partition by t.client_id order by t.contract_dt) as days_since_last
from credits t

'''

In [305]:
pd.read_sql(sql,engine)

Unnamed: 0,client_id,saving_accounts,checking_account,credit_amount,duration,purpose,contract_dt,previous_contract,days_since_last
0,0,moderate,,5742,36,business,2007-10-11 03:14:00,,0
1,0,little,,2406,9,furniture/equipment,2007-12-21 05:41:36,2007-10-11,71
2,1,little,,2028,24,furniture/equipment,2007-12-23 02:44:41,,0
3,2,,,2978,24,business,2008-01-17 07:26:30,,0
4,3,,moderate,3979,48,radio/TV,2007-05-28 21:43:45,,0
...,...,...,...,...,...,...,...,...,...
995,596,moderate,little,2325,24,car,2007-08-01 03:15:42,,0
996,596,little,little,1433,15,furniture/equipment,2008-06-05 12:57:22,2007-08-01,309
997,597,moderate,little,6187,30,car,2007-07-21 21:40:35,,0
998,597,little,little,8978,14,car,2007-11-19 15:48:19,2007-07-21,121


Мы посчитали кол-во дней с предыдущей выдачи кредита клиенту.

Посмотрим на динамику выдач по месяцам:

In [306]:
sql = '''
with monthly as (select date_trunc('month',t.contract_dt)::date as months, count(*) as con_count from credits t 
                group by date_trunc('month',t.contract_dt)::date)

select *, lag(t.con_count,1) over (order by t.months), 
(t.con_count::float4 / lag(t.con_count,1) over (order by t.months) - 1) * 100 as growth
from monthly t

'''

In [307]:
pd.read_sql(sql,engine)

Unnamed: 0,months,con_count,lag,growth
0,2007-05-01,81,,
1,2007-06-01,74,81.0,-8.641975
2,2007-07-01,71,74.0,-4.054054
3,2007-08-01,57,71.0,-19.71831
4,2007-09-01,58,57.0,1.754386
5,2007-10-01,70,58.0,20.689655
6,2007-11-01,87,70.0,24.285714
7,2007-12-01,77,87.0,-11.494253
8,2008-01-01,93,77.0,20.779221
9,2008-02-01,55,93.0,-40.860215


И мы получили динамику выдач кредитов в процентах месяц к месяцу

### Запаковка окна в переменную

Иногда нам может понадобиться объявить оконную функцию несколько раз:

In [308]:
sql = '''
select *, row_number() over (partition by t.purpose order by t.contract_dt),
rank()  over (partition by t.purpose order by t.contract_dt),
dense_rank() over (partition by t.purpose order by t.contract_dt),
ntile(5) over (partition by t.purpose order by t.contract_dt)
from credits t
'''

In [309]:
pd.read_sql(sql,con)

Unnamed: 0,client_id,saving_accounts,checking_account,credit_amount,duration,purpose,contract_dt,row_number() over (partition by t.purpose order by t.contract_dt),rank() over (partition by t.purpose order by t.contract_dt),dense_rank() over (partition by t.purpose order by t.contract_dt),ntile(5) over (partition by t.purpose order by t.contract_dt)
0,114,little,moderate,1953,36,business,2007-05-13 06:39:55,1,1,1,1
1,261,little,,1950,18,business,2007-05-22 11:05:25,2,2,2,1
2,551,little,moderate,907,8,business,2007-05-23 22:13:16,3,3,3,1
3,16,rich,,1572,21,business,2007-05-31 15:59:25,4,4,4,1
4,581,little,little,3161,24,business,2007-06-02 00:46:37,5,5,5,1
...,...,...,...,...,...,...,...,...,...,...,...
995,454,,little,1358,24,vacation/others,2007-12-21 13:27:11,8,8,8,3
996,527,,moderate,5381,48,vacation/others,2008-03-18 18:40:46,9,9,9,4
997,151,little,moderate,2629,20,vacation/others,2008-03-23 12:57:07,10,10,10,4
998,8,little,moderate,11328,24,vacation/others,2008-04-06 11:54:47,11,11,11,5


Чтобы избежать такой ситуации и не перепечатывать код, используют оператор __window__.

Его объявляют __после where и перед order by__.

Синтаксис похож на контекст менеджер по созданию временных таблиц:

    window имя_переменной1 as (условия после over),
    имя_переменной2 as (условия после over),..

In [310]:
sql = '''
select *, row_number() over ww,
rank() over ww,
dense_rank() over ww,
ntile(5) over ww
from credits t
window ww as (partition by t.purpose order by t.contract_dt)
'''

In [311]:
pd.read_sql(sql,con)

Unnamed: 0,client_id,saving_accounts,checking_account,credit_amount,duration,purpose,contract_dt,row_number() over ww,rank() over ww,dense_rank() over ww,ntile(5) over ww
0,114,little,moderate,1953,36,business,2007-05-13 06:39:55,1,1,1,1
1,261,little,,1950,18,business,2007-05-22 11:05:25,2,2,2,1
2,551,little,moderate,907,8,business,2007-05-23 22:13:16,3,3,3,1
3,16,rich,,1572,21,business,2007-05-31 15:59:25,4,4,4,1
4,581,little,little,3161,24,business,2007-06-02 00:46:37,5,5,5,1
...,...,...,...,...,...,...,...,...,...,...,...
995,454,,little,1358,24,vacation/others,2007-12-21 13:27:11,8,8,8,3
996,527,,moderate,5381,48,vacation/others,2008-03-18 18:40:46,9,9,9,4
997,151,little,moderate,2629,20,vacation/others,2008-03-23 12:57:07,10,10,10,4
998,8,little,moderate,11328,24,vacation/others,2008-04-06 11:54:47,11,11,11,5
