## Импорты

In [1]:
import pandas as pd
from sqlalchemy import create_engine

In [None]:
import os
from pathlib import Path

In [2]:
import psycopg2
#для связи с postgresql

In [3]:
import sqlite3

## Подключение

### _подключение к postgresql sber_

In [8]:
user = os.getenv('PG_USER_SBER')
password =  os.getenv('PG_PASSWORD_SBER')
hostname =  os.getenv('PG_HOST_SBER')
database_name =  os.getenv('PG_DATABASE_SBER')

In [9]:
# con = create_engine('postgresql+psycopg2://user:password@hostname:port/database_name')
conn_text_sber = f'postgresql+psycopg2://{user}:{password}@{hostname}:6432/{database_name}'
con_pg_sber = create_engine(conn_text_sber)
# бд из Сберовского задания

### _подключение к postgresql + elephantsql.com_

In [None]:
user = os.getenv('PG_USER_ELEPH')
password =  os.getenv('PG_PASSWORD_ELEPH')
hostname =  os.getenv('PG_HOST_ELEPH')
database_name =  os.getenv('PG_DATABASE_ELEPH')

In [None]:
# con = create_engine('postgresql+psycopg2://user:password@hostname:port/database_name')
# реквизиты БД взяты с elephant.com
conn_text_eleph = f'postgresql+psycopg2://{user}:{password}@{hostname}/{database_name}'
con_pg_elephant = create_engine(conn_text_eleph)

### _подключение к local postgresql_

In [None]:
user = os.getenv('PG_USER_LOCAL')
password =  os.getenv('PG_PASSWORD_LOCAL')
hostname =  os.getenv('PG_HOST_LOCAL')
# port =  os.getenv('PG_PORT_LOCAL')
database_name =  os.getenv('PG_DATABASE_LOCAL')

In [None]:
conn_text = f'postgresql+psycopg2://{user}:{password}@{hostname}/{database_name}'
con_pg_local = create_engine(conn_text)

### _подключение к локальной sqlite_

In [5]:
path_sqlite = Path('.') / 'db'

In [15]:
con_to_sqlite = sqlite3.connect(path_sqlite)

In [None]:
# df = pd.read_sql('table_name', con)


### _подключение к google-drive_

In [13]:
google_url = os.getenv('G_URL')

In [14]:
url =f'https://drive.google.com/uc?id=' + f'{google_url}'.split('/')[-2]
# to read csv file from google drive

In [None]:
df = pd.read_csv(url, encoding='unicode_escape')
# or encoding='windows-1251', sep=';'

## SQL

In [None]:
def select(sql):
    return pd.read_sql(sql, con=con_to_sqlite)
    # read from local sqlite
    # select(sql)

In [None]:
# количество строк
sql = '''SELECT count(*) from <name_table>
'''

In [None]:
# упорядочивание
sql = '''SELECT * from <name_table>
    ORDER BY <name_column_1> DESC, <name_column_2> ASC
'''
# по убыванию:
''' DESC'''
# по возрастанию:
'''ASC'''

In [None]:
# столбец с флагом:
sql = ''' SELECT <name_column>
    CASE WHEN <name_column> == 1000
    THEN 1 ELSE 0
    END
    AS <name_new_column>
FROM <name_table>
'''

In [None]:
# пропуски
# столбец с флагом для NONE:
sql = ''' SELECT <name_column>
    CASE WHEN <name_column> is null
    THEN 1 ELSE 0
    END 
    AS is_null
FROM <name_table>
'''

In [None]:
# функция к столбцу с флагом:
sql = ''' SELECT avg(CASE WHEN <name_column> == 1000 THEN 1 ELSE 0 END)
    AS <name_new_column>
FROM <name_table>
'''

In [None]:
# сохранить как отдельную таблицу в БД sqlite
cur = con_to_sqlite.cursor()
sql = '''DROP TABLE if exists <name_new_table>;
CREATE TABLE <name_new_table> AS
    SELECT * FROM <name_table> t
    WHERE t.<name_column> == 1000
'''
# t - это alias
cur.executescript(sql)

sql = '''SELECT * FROM <name_new_table> t'''
select(sql)

In [None]:
# сохранить как отдельную таблицу в БД postgresql
sql = '''DROP TABLE if exists <name_new_table>;
CREATE TABLE <name_new_table> AS
    SELECT * FROM <name_table> t
    WHERE t.<name_column> == 1000
'''
con_pg_local.execute(sql)

sql = '''SELECT * FROM <name_new_table> t'''
select(sql)

In [None]:
# объединить таблицы одна после другой
sql = '''SELECT * FROM <name_table_first> t
    UNION ALL
SELECT * FROM <name_table_second> t
'''
# union - сохраняет только уникальные значений, в отличии от union all

### GROUP BY

#### сводная таблица

In [None]:
sql = '''
SELECT <alias>.<name_column>,
    count(*) as <alias_2>,
    avg(<alias>.<name_column>) as <alias_3>
FROM <name_table> <alias>
GROUP BY <alias>.<name_column>
    '''

In [None]:
# с уникальными значениями
sql = '''
SELECT count(DISTINCT <alias>.<name_column>),
    count(<alias>.<name_column>)
FROM <name_table> <alias>
'''

In [None]:
# сумма NONE

sql = ''' SELECT
    sum(CASE WHEN <name_table>.<name_column> is null THEN 1 ELSE 0 END) 
    AS is_null
FROM <name_table>
'''

In [None]:
# замена NONE на no_info:
sql = '''
SELECT <name_table>.<name_column>,
    COALESCE(<name_table>.<name_column>, 'no_info')
FROM <name_table>
'''

#### дубликаты

In [None]:
# поиск дубликатов строк
sql = '''
SELECT <name_table>.<name_column>, <name_table>.<name_column2>, count(*) AS cnt
FROM <name_table>
GROUP BY <name_table>.<name_column>, <name_table>.<name_column2>
'''

In [None]:
# поиск дубликатов значений столбца
sql = '''
SELECT * FROM <name_table>
    WHERE <name_table>.<name_column> in (
        SELECT <name_table> AS cnt
            FROM <name_table>
            GROUP BY <name_table>.<name_column>
            HAVING count(*) > 1
    )
'''

#### агрегация

In [None]:
# по столбцу даты в разбивке по месяцам и годам
sql = '''
SELECT date(<name_table>.<name_column_date>, 'start of month) AS month,
    count(*) AS <name_column_cnt>,
    count(DISTINCT <name_table>.<name_column>) AS <name_column_unique>,
    sum(<name_table>.<name_column_2>) AS <name_column_2_sum>
FROM <name_table>
GROUP BY date(<name_table>.<name_column_date>),
ORDER BY date(<name_table>.<name_column_date>)

'''

In [None]:
# по полу для строковых значений в <name_column>
sql = '''
SELECT
    <name_table>.<name_column>,
    count(CASE WHEN <name_table>.sex = 'female' THEN 1 ELSE null END) AS female,
    count(CASE WHEN <name_table>.sex = 'male' THEN 1 ELSE null END) AS male,'),
    count(*) AS cnt
FROM <name_table>
GROUP BY <name_table>.<name_column>
'''

In [None]:
# чтобы вручную не набирать все строковые значения в <name_column>
values_from_name_column  = list(select(sql)['<name_column>'].values)
for elem in values_from_name_column:
    print(f"count(CASE WHEN <name_table>.<name_column> = '{elem}' THEN 1 ELSE null END) AS {elem.lower().replace(' ','').replace('/','_')},")
# принт копипастится в sql запрос

#### условия: если то
создание интервалов, диапазонов

In [None]:
sql = '''
SELECT
    CASE
    WHEN <name_table>.<name_column> < 1000 THEN '1. <1000',
    WHEN <name_table>.<name_column> < 2000 THEN '2. 1000-2000',
    WHEN <name_table>.<name_column> >= 3000 THEN '3. >=3000',
    ELSE 'other' 
    END AS <name_column_bin>
FROM <name_table>
GROUP BY 1
'''

#### группировка с помощью LIKE

In [None]:
sql = '''
SELECT 
    CASE
    WHEN <name_table>.<name_column> LIKE '%<корень слова>%' THEN '<категория>',
ELSE 'other' END AS <name_column_cat>
count(*)
FROM <name_table>
GROUP BY 1
'''

In [None]:
# через итерации находим следующее частое значение

In [None]:
sql = '''
SELECT <name_table>.<name_column>, count(*)
FROM (
    SELECT 
    CASE
    WHEN <name_table>.<name_column> LIKE '%<корень слова>%' THEN '<категория>',
    ELSE 'other' END AS <name_column_cat>
    FROM <name_table>
)
GROUP BY <name_table>.<name_column>
ORDER BY count(*) DESC
'''

In [1]:
# другой вариант итераций, см.[Udemy] SQL для Анализа Данных с Глебом Михайловым

In [None]:
category = '''
SELECT <name_table>.<name_column>,
    CASE
    WHEN <name_table>.<name_column> LIKE '%<корень слова>%' THEN '<категория>',
    WHEN  <name_table>.<name_column> LIKE '%<корень др.слова>%' THEN '<др.категория>',
    ELSE 'other' END AS <name_column_cat>
FROM <name_table>
'''

In [None]:
sql = f'''
SELECT <alias>.<name_column>, 
    count(*)
FROM ({category}) <alias>
WHERE <alias>.<name_column_cat> = 'other'
GROUP BY <alias>.<name_column>
ORDER BY count(*) DESC
'''

In [None]:
# c with:

sql = '''
with <name_table_1> AS (
    SELECT <name_table>.<name_column>,
        CASE
        WHEN <name_table>.<name_column> LIKE '%<корень слова>%' THEN '<категория>',
        WHEN  <name_table>.<name_column> LIKE '%<корень др.слова>%' THEN '<др.категория>',
        ELSE 'other' END AS <name_column_cat>
    FROM <name_table>
)

SELECT <name_table>.<name_column>, count(*)
FROM <name_table_1>
GROUP BY <name_column_cat>
ORDER BY count(*) DESC
'''

### подзапросы

#### обычный подзапрос

In [None]:
# выбор повторяющихся значений столбца
sql = '''
SELECT <name_table>.<name_column>
FROM <name_table>
GROUP BY <name_table>.<name_column>
HAVING count(*) > 1
'''

In [None]:
# показать всю строку таблицы по повторяющимся значениям столбца
sql = '''
SELECT * 
FROM (
    SELECT <name_table>.<name_column>
    FROM <name_table>
    GROUP BY <name_table>.<name_column>
    HAVING count(*) > 1
)
'''

#### временные таблицы вместо подзапросов

In [None]:
# создание отдельной таблицы для выбора повторяющихся значений столбца
sql = '''
DROP TABLE if exists <name_table_temp>;
CREATE TABLE <name_table_temp> AS
    SELECT <name_table>.<name_column>
    FROM <name_table>
    GROUP BY <name_table>.<name_column>
    HAVING count(*) > 1
'''

In [None]:
cur.executescript(sql)

In [None]:
sql = '''
SELECT * FROM  <name_table>
WHERE <name_table>.<name_column> in <name_table_temp>
'''

#### CTE (with)

In [None]:
sql = '''
with <name_table_1> AS (
    SELECT <name_table>.<name_column>
    FROM <name_table>
    GROUP BY <name_table>.<name_column>
    HAVING count(*) > 1
),

SELECT * FROM <name_table_1>
'''

#### left, inner join

In [None]:
# left join
sql = '''
SELECT * FROM <name_table_1> a
    LEFT JOIN <name_table_2> b ON
    a.key = b.key 
'''

In [None]:
sql = '''
SELECT a.<name_column_1>, b.<name_column_2> FROM <name_table_1> a
    LEFT JOIN <name_table_2> b ON
    a.key = b.key
'''

In [None]:
#inner join
sql = '''
SELECT * FROM <name_table_1> a
    INNER JOIN <name_table_2> b ON
    a.key = b.key
'''

In [None]:
# join таблицы <name_table_1> самой на себя (нарастающий итог)
sql = '''
SELECT 
    A.date, A.revenue, sum(B.revenue) as <cumulate_name>
FROM <name_table_1> A
    JOIN <name_table_1> B 
    ON B.date <= A.date 
GROUP BY A.date, A.revenue
'''

### оконные функции

In [None]:
# нарастающий итог по каждому user
sql = '''
SELECT 
    A.date, sum(A.revenue)
OVER (
    PARTITION BY user_id
    -- # окно по user_id
    ORDER BY A.date
    -- # сортировка по дате
)
    AS <cumulate_name>
FROM <name_table_1> A
'''

In [None]:
# ранжирование по каждому user
sql = '''
WITH <name_table_temp> AS (

    SELECT 
        A.date, sum(A.revenue)
    RANK()
    OVER (
        PARTITION BY user_id
        -- # окно по user_id
        ORDER BY sum(A.revenue) DESC
        -- # сортировка и ранжирование по max стоимости нарастающим итогом
        )
    AS <cumulate_name>
    FROM <name_table_1> A
    )

SELECT * FROM <name_table_temp> T
    WHERE T.<cumulate_name> = 1
 '''

In [None]:
# выбор ТОП 3 зарплаты по подразделениям
sql = '''
WITH salary_rnk AS (

    SELECT 
    A.*,
    DENSE_RANK()
    OVER (
        PARTITION BY A.dep
        -- # окно по департаменту
        ORDER BY A.sel DESC
        -- # сортировка и ранжирование по max зарплате нарастающим итогом
        )
    AS <cumulate_name>
    FROM <salary_table> A
    )

SELECT * FROM  salary_rnk S
    WHERE S.<cumulate_name> <= 3
    -- # ТОП 3
'''

In [None]:
# скользящее среднее для тек и 2-х предыдущих значений
sql = '''
SELECT 
    A.*,
    avg(A.revenue)
    OVER (
        PARTITION A.user_id
        -- # окно по юзеру
        ORDER BY A.date
        -- # сортировка по дате
        ROWS BETWEEN 2 PRECEDING AND CURRENT ROW
        )
    AS moving_avg
    -- # скользящее среднее (англ)

FROM revenue A
'''

### Особенности ежемесячных отчетов
не потерять месяц с NUL значениями для этого нужно создать отдельную временную таблицу с периодами (месяцами) и заджойнить ее с основной таблицей

In [None]:
min = '''select date(min(t.dt),'start of month') from <name_table_2> t'''

In [None]:
max = '''select date(max(t.dt),'start of month') from <name_table_2> t'''

In [None]:
select(max)

In [None]:
sql = f'''WITH dates(month) AS (
  VALUES(({min}))
  UNION ALL
  SELECT date(month, '+1 month')
  FROM dates
  WHERE month < ({max})
)
SELECT t.month FROM dates t'''