# Clickhouse. Движки таблиц

In [1]:
%%capture
!sudo apt-get install -y apt-transport-https ca-certificates dirmngr
!sudo apt-key adv --keyserver hkp://keyserver.ubuntu.com:80 --recv 8919F6BD2B48D754

!echo "deb https://packages.clickhouse.com/deb stable main" | sudo tee \
    /etc/apt/sources.list.d/clickhouse.list
!sudo apt-get update

!sudo apt-get install -y clickhouse-server clickhouse-client

!sudo service clickhouse-server start

In [2]:
%%capture
!pip install clickhouse-driver

In [3]:
from clickhouse_driver import Client
client = Client(host='localhost', user='default', port='9000')
client.execute('SHOW DATABASES')

[('INFORMATION_SCHEMA',), ('default',), ('information_schema',), ('system',)]

In [4]:
client.execute('DROP DATABASE IF EXISTS db')
client.execute('CREATE DATABASE db')
client.execute('SHOW DATABASES')

[('INFORMATION_SCHEMA',),
 ('db',),
 ('default',),
 ('information_schema',),
 ('system',)]

In [5]:
client = Client(host='localhost', user='default', port='9000', database='db')

## **ReplacingMergeTree**

При слиянии ReplacingMergeTree оставляет только строку для каждого уникального ключа сортировки:
- Последнюю в выборке, если ver не задан. Под выборкой здесь понимается набор строк в наборе кусков данных, участвующих в слиянии. Последний по времени создания кусок (последняя вставка) будет последним в выборке. Таким образом, после дедупликации для каждого значения ключа сортировки останется самая последняя строка из самой последней вставки.
- С максимальной версией, если ver задан. Если ver одинаковый у нескольких строк, то для них используется правило -- если ver не задан, т.е. в результате слияния останется самая последняя строка из самой последней вставки.

In [21]:
client.execute('DROP TABLE IF EXISTS events1')
client.execute('CREATE TABLE IF NOT EXISTS events1 (key Int64, \
                                                        product String, \
                                                        val Int64, \
                                                        eventTime DateTime) \
                                                        ENGINE = ReplacingMergeTree \
                                                        ORDER BY key;')

client.execute("INSERT INTO events1 Values (1, 'pr1', 100, '2020-01-01 00:00:00');")
client.execute("INSERT INTO events1 Values (1, 'pr1', 150, '2020-01-01 01:00:00');")
client.execute("INSERT INTO events1 Values (2, 'pr2', 300, '2020-01-01 01:00:00');")
client.execute("INSERT INTO events1 Values (2, 'pr2', 200, '2020-01-01 00:00:00');")

[]

In [22]:
def select_clickhouse(sql):
  return client.query_dataframe(sql)

In [23]:
sql = '''SELECT tbl.* FROM events1 as tbl FINAL'''

In [24]:
select_clickhouse(sql)

Unnamed: 0,key,product,val,eventTime
0,1,pr1,150,2020-01-01 01:00:00
1,2,pr2,200,2020-01-01 00:00:00


In [25]:
client.execute('DROP TABLE IF EXISTS events2')
client.execute('CREATE TABLE IF NOT EXISTS events2 (key Int64, \
                                                        product String, \
                                                        val Int64, \
                                                        eventTime DateTime) \
                                                        ENGINE = ReplacingMergeTree(eventTime) \
                                                        ORDER BY key;')

client.execute("INSERT INTO events2 Values (1, 'pr1', 100, '2020-01-01 00:00:00');")
client.execute("INSERT INTO events2 Values (1, 'pr1', 150, '2020-01-01 01:00:00');")
client.execute("INSERT INTO events2 Values (2, 'pr2', 300, '2020-01-01 01:00:00');")
client.execute("INSERT INTO events2 Values (2, 'pr2', 200, '2020-01-01 00:00:00');")

[]

In [28]:
sql = '''SELECT tbl.* FROM events2 as tbl FINAL'''

In [29]:
select_clickhouse(sql)

Unnamed: 0,key,product,val,eventTime
0,2,pr2,300,2020-01-01 01:00:00
1,1,pr1,150,2020-01-01 01:00:00


## **CollapsingMergeTree**

CollapsingMergeTree асинхронно удаляет (сворачивает) пары строк, если все поля в ключе сортировки (ORDER BY) эквивалентны, за исключением специального поля Sign, которое может принимать значения 1 и -1. Строки без пары сохраняются. 

In [33]:
client.execute('DROP TABLE IF EXISTS events3')
client.execute('CREATE TABLE IF NOT EXISTS events3 (userid UInt64, \
                                                    pageviews UInt8, \
                                                    duration UInt8, \
                                                    sign Int8) \
                                                    ENGINE = CollapsingMergeTree(sign) \
                                                    ORDER BY userid;')

client.execute("INSERT INTO events3 Values (1, 5, 146, 1);")
client.execute("INSERT INTO events3 Values (1, 5, 146, -1);")
client.execute("INSERT INTO events3 Values (1, 5, 200, 1);")
client.execute("INSERT INTO events3 Values (2, 7, 250, 1);")

[]

In [36]:
# Cтарайтесь не использовать final (он подходит только для тестов и маленьких таблиц)
sql = '''SELECT tbl.* FROM events3 as tbl final'''

In [37]:
select_clickhouse(sql)

Unnamed: 0,userid,pageviews,duration,sign
0,1,5,200,1
1,2,7,250,1


In [38]:
sql = '''SELECT
               userid,
               sum(pageviews * sign) AS pageviews,
               sum(duration * sign) AS duration
         FROM events3
         GROUP BY userid
         HAVING sum(sign) > 0'''

In [39]:
select_clickhouse(sql)

Unnamed: 0,userid,pageviews,duration
0,2,7,250
1,1,5,200


## **postgresql**

Движок PostgreSQL позволяет выполнять запросы SELECT и INSERT для таблиц на удаленном сервере PostgreSQL.

In [40]:
%%capture
# Install postgresql server
!sudo apt-get -y -qq update
!sudo apt-get -y -qq install postgresql
!sudo service postgresql start

# Setup a password `postgres` for username `postgres`
!sudo -u postgres psql -U postgres -c "ALTER USER postgres PASSWORD 'postgres';"

# Setup a database with name `tfio_demo` to be used
!sudo -u postgres psql -U postgres -c 'DROP DATABASE IF EXISTS db;'
!sudo -u postgres psql -U postgres -c 'CREATE DATABASE db;'

In [41]:
import pandas as pd
import numpy as np
from sqlalchemy import create_engine
import psycopg2

In [42]:
endpoint="postgresql://{}:{}@{}:{}/{}".format('postgres','postgres','localhost','5432','db')
print(endpoint)

postgresql://postgres:postgres@localhost:5432/db


In [43]:
con =  create_engine(endpoint)

In [44]:
dataset = {'client_id':[1,2,3,
                        1,2,4,
                        2,3,4,
                        1,3,4,
                        5,1,3], 
           'datetime':['01.01.2023 12:00:00','01.01.2023 12:00:00','01.01.2023 12:00:00',
                       '01.01.2023 23:00:00','01.01.2023 23:00:00','01.01.2023 23:00:00',
                       '04.01.2023 20:00:00','04.01.2023 20:00:00','04.01.2023 20:00:00',
                       '05.01.2023 12:00:00','05.01.2023 12:00:00','05.01.2023 12:00:00',
                       '07.01.2023 12:00:00','07.01.2023 12:00:00','07.01.2023 12:00:00',]}

In [45]:
df = pd.DataFrame(data=dataset)
df['datetime'] = pd.to_datetime(df['datetime'],format='%d.%m.%Y %H:%M:%S', errors='coerce')

In [46]:
df.head()

Unnamed: 0,client_id,datetime
0,1,2023-01-01 12:00:00
1,2,2023-01-01 12:00:00
2,3,2023-01-01 12:00:00
3,1,2023-01-01 23:00:00
4,2,2023-01-01 23:00:00


In [47]:
df.to_sql('events4', con, index=False, if_exists='replace')

In [48]:
def select_postgresql(sql):
    return pd.read_sql(sql,con)

In [49]:
sql = '''select tbl.* from events4 as tbl limit 5'''

In [50]:
select_postgresql(sql)

Unnamed: 0,client_id,datetime
0,1,2023-01-01 12:00:00
1,2,2023-01-01 12:00:00
2,3,2023-01-01 12:00:00
3,1,2023-01-01 23:00:00
4,2,2023-01-01 23:00:00


In [65]:
client.execute('DROP TABLE IF EXISTS events4')
client.execute("CREATE TABLE IF NOT EXISTS events4 (client_id	Int64, \
                                                    datetime DateTime) \
               ENGINE = PostgreSQL('localhost:5432', 'db', 'events4', 'postgres', 'postgres');")

[]

In [66]:
sql = '''SELECT tbl.* FROM events4 as tbl WHERE client_id IN (1,2)'''

In [67]:
select_clickhouse(sql)

Unnamed: 0,client_id,datetime
0,1,2023-01-01 12:00:00
1,2,2023-01-01 12:00:00
2,1,2023-01-01 23:00:00
3,2,2023-01-01 23:00:00
4,2,2023-01-04 20:00:00
5,1,2023-01-05 12:00:00
6,1,2023-01-07 12:00:00
