# Введение в SQL на python



## Работа с sqlite3
- sqlite3.connect #подключение к БД, транзакция
- execute #выполнить запрос, функция connect
- commit #обновить состояние, функция connect (CREATE, UPDATE, DELETE, INSERT)
- close #закрыть транзакцию
- fetchall, fetch #обновление

In [1]:
import sqlite3

In [4]:
conn = sqlite3.connect('sales.db') # файл с базой, connection
print("Подключение к базе данных установлено");

# ROW_ID - уникальный идентификатор, если ID не задан
conn.execute('''
CREATE TABLE IF NOT EXISTS customer (
    customer_id INTEGER PRIMARY KEY AUTOINCREMENT,
    first_name TEXT,
    last_name TEXT
);''')

conn.commit() # сохранение изменения

print("Таблица customer создана")

#conn.close() # закрывает подключение к базе

Подключение к базе данных установлено
Таблица customer создана


In [5]:
# Добавляем значения

conn.execute('''INSERT INTO customer (first_name, last_name)
VALUES
('Иван', 'Иванов'),
('Петр', 'Петров'),
('Олег', 'Сидоров'),
('Анна', 'Мелехова'),
('Мария', 'Тарасова'),
('Алексей', 'Винокуров'),
('Тимур', 'Ильясов'),
('Елена', 'Николаева'),
('Ольга', 'Квач'),
('Дмитрий', 'Шестаков');''')

conn.commit()# для команд модификации данных DML

In [6]:
# ROW_ID - уникальный идентификатор, если ID не задан
conn.execute('''
CREATE TABLE IF NOT EXISTS payment (
    payment_id INTEGER PRIMARY KEY AUTOINCREMENT, --SERIAL  id + 1
    customer_id INTEGER,
    amount REAL,
    payment_date TEXT -- SQLite does not have a DATE type, so we use TEXT to store dates
);''')

# row_id autoincrement 1, 2, ... 9,223,372,036,854,775,807 row_id, 64 бита, 8 байт
# id (serial) autoincrement 1, 2, ... 9,223,372,036,854,775,807 int_max, 64 бита, 8 байт
# uuid 123e4567-e89b-12d3-a456-426655440000 (16 байт, 128 бит)

conn.commit()

print("Таблица payment создана");

Таблица payment создана


In [7]:
# Добавляем значения

conn.execute('''INSERT INTO payment (customer_id, amount, payment_date)
VALUES
(1, 500.00, '2022-07-01'),
(1, 300.00, '2022-08-15'),
(1, 200.00, '2022-09-30'),
(2, 400.00, '2022-10-20'),
(2, 600.00, '2022-11-05'),
(3, 800.00, '2022-12-10'),
(4, 700.00, '2023-01-25'),
(4, 900.00, '2023-02-15'),
(5, 1100.00, '2023-03-31'),
(6, 1300.00, '2023-04-21');''')

conn.commit()# для команд модификации данных DML

## Отображение всей таблицы

In [8]:
#Проверим данные таблиц
# Создаем объект курсора для выполнения SQL-запросов
cursor = conn.cursor()
# Выполняем SQL-запрос для выбора всех строк из таблицы "customer"
cursor.execute("SELECT * FROM payment;")
payment_rows = cursor.fetchall() # Извлекаем все строки результата запроса


In [9]:
# Выполнение запроса PRAGMA для получения информации о структуре таблицы
cursor.execute("PRAGMA table_info(payment)")
# Получение результатов запроса
payment_columns_info = cursor.fetchall()
# Извлечение имен столбцов из таблицы
payment_columns = [info[1] for info in payment_columns_info]
print(payment_columns)
# Проходим по каждой строке результата и выводим ее на экран
for row in payment_rows:
    print(row)

['payment_id', 'customer_id', 'amount', 'payment_date']
(1, 1, 500.0, '2022-07-01')
(2, 1, 300.0, '2022-08-15')
(3, 1, 200.0, '2022-09-30')
(4, 2, 400.0, '2022-10-20')
(5, 2, 600.0, '2022-11-05')
(6, 3, 800.0, '2022-12-10')
(7, 4, 700.0, '2023-01-25')
(8, 4, 900.0, '2023-02-15')
(9, 5, 1100.0, '2023-03-31')
(10, 6, 1300.0, '2023-04-21')


## ORM 

ORM (Object Relational Mapping, объектно-реляционное отображение) — это технология, которая позволяет работать с базами данных так, как если бы это были объекты из языков программирования

In [None]:
class Payment:
    _field_type: str # название типа данных поля, например, "INTEGER"
    def __init__(self, customer_id: int = None, amount: float = None, payment_date: str = ""):
        self._customer_id = customer_id
        self._amount = amount
        self._payment_date = payment_date


In [10]:
from sqlalchemy import create_engine, Column, Integer, String, Float, DateTime
from sqlalchemy.ext.declarative import declarative_base
from sqlalchemy.orm import sessionmaker
import uuid
from datetime import datetime

# Создаем базовый класс для наших моделей
Base = declarative_base()

# Создаем модель Payment
class Payment(Base):
    __tablename__ = 'payment'

    id = Column(Integer, primary_key=True)
    customer_id = Column(Integer)
    amount = Column(Float)
    payment_date = Column(DateTime)
    row_id = Column(String(36), unique=True)

# Создаем соединение с базой данных
engine = create_engine('sqlite:///payments.db') # соединение с файлом

# Создаем таблицу в базе данных
Base.metadata.create_all(engine)

# Создаем сессию для работы с базой данных
Session = sessionmaker(bind=engine)
session = Session()

# Функция для генерации UUID
def generate_uuid():
    return str(uuid.uuid4())

# Создание записи в таблице payment
payment = Payment(
    customer_id=12345,
    amount=100.00,
    payment_date=datetime.now(),
    row_id=generate_uuid()
)

# Добавление записи в сессию и сохранение в базу данных
session.add(payment)
session.commit()

print("Запись успешно добавлена в таблицу payments")


Запись успешно добавлена в таблицу payments


  Base = declarative_base()


# Pandas + sqlite3

In [11]:
import pandas as pd # библиотека для работы с табличными значениями

In [12]:
# отобразим в таблицу
# Создаем DataFrame из результатов запроса
payment_table = pd.DataFrame(payment_rows, columns=payment_columns)
# Устанавливаем первый столбец в качестве индекса
payment_table.set_index(payment_columns[0], inplace=True)
payment_table

Unnamed: 0_level_0,customer_id,amount,payment_date
payment_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,1,500.0,2022-07-01
2,1,300.0,2022-08-15
3,1,200.0,2022-09-30
4,2,400.0,2022-10-20
5,2,600.0,2022-11-05
6,3,800.0,2022-12-10
7,4,700.0,2023-01-25
8,4,900.0,2023-02-15
9,5,1100.0,2023-03-31
10,6,1300.0,2023-04-21


In [None]:
#Проверим данные таблиц
# Создаем объект курсора для выполнения SQL-запросов
cursor = conn.cursor()
# Выполняем SQL-запрос для выбора всех строк из таблицы "customer"
cursor.execute("SELECT * FROM customer;")
customer_rows = cursor.fetchall() # Извлекаем все строки результата запроса
# Выполнение запроса PRAGMA для получения информации о структуре таблицы
cursor.execute("PRAGMA table_info(customer)")
# Получение результатов запроса
customer_columns_info = cursor.fetchall()
# Извлечение имен столбцов из таблицы
customer_columns = [info[1] for info in customer_columns_info]
print(customer_columns)
# Проходим по каждой строке результата и выводим ее на экран
for row in customer_rows:
    print(row)

['customer_id', 'first_name', 'last_name']
(1, 'Иван', 'Иванов')
(2, 'Петр', 'Петров')
(3, 'Олег', 'Сидоров')
(4, 'Анна', 'Мелехова')
(5, 'Мария', 'Тарасова')
(6, 'Алексей', 'Винокуров')
(7, 'Тимур', 'Ильясов')
(8, 'Елена', 'Николаева')
(9, 'Ольга', 'Квач')
(10, 'Дмитрий', 'Шестаков')
(11, 'Иван', 'Иванов')
(12, 'Петр', 'Петров')
(13, 'Олег', 'Сидоров')
(14, 'Анна', 'Мелехова')
(15, 'Мария', 'Тарасова')
(16, 'Алексей', 'Винокуров')
(17, 'Тимур', 'Ильясов')
(18, 'Елена', 'Николаева')
(19, 'Ольга', 'Квач')
(20, 'Дмитрий', 'Шестаков')


In [None]:
# отобразим в таблицу
import pandas as pd # библиотека для работы с табличными значениями

# Создаем DataFrame из результатов запроса
customer_table = pd.DataFrame(customer_rows, columns=customer_columns)
# Устанавливаем первый столбец в качестве индекса
customer_table.set_index(customer_columns[0], inplace=True)
customer_table

Unnamed: 0_level_0,first_name,last_name
customer_id,Unnamed: 1_level_1,Unnamed: 2_level_1
1,Иван,Иванов
2,Петр,Петров
3,Олег,Сидоров
4,Анна,Мелехова
5,Мария,Тарасова
6,Алексей,Винокуров
7,Тимур,Ильясов
8,Елена,Николаева
9,Ольга,Квач
10,Дмитрий,Шестаков


In [None]:
#сохранить файл DataFr без индексов на диск
customer_table.to_csv('/content/customer_table.csv', index=False)

## Подключение к postgreSQL

In [49]:
import psycopg2
from psycopg2 import Error, sql

In [50]:
DATABASE = "postgres"
USER = "postgres"
PASSWORD = "postgres" # рекомендуется задавать пароль сложнее
LOCALHOST = "127.0.0.1"
PORT = "5432"

In [51]:
try:
    connection = psycopg2.connect(
        dbname=DATABASE, 
        user=USER, 
        password=PASSWORD, 
        host=LOCALHOST, 
        port=PORT,
        options="-c client_encoding=utf8"
    )
    curs = connection.cursor()

    print("Информация по подключению")
    print(connection.get_dsn_parameters())
    
    curs.execute("SELECT * FROM patients")
    records = curs.fetchall() # для одной записи fetchone()

    for record in records:
        print(f"Текущая запись {record}") # что выгрузилось
    
except(Exception, Error) as error:
    print("Возникло исключение при работе с Postgres", error)

Информация по подключению
{'user': 'postgres', 'channel_binding': 'prefer', 'dbname': 'postgres', 'host': '127.0.0.1', 'port': '5432', 'options': '-c client_encoding=utf8', 'sslmode': 'prefer', 'sslcompression': '0', 'sslcertmode': 'allow', 'sslsni': '1', 'ssl_min_protocol_version': 'TLSv1.2', 'gssencmode': 'disable', 'krbsrvname': 'postgres', 'gssdelegation': '0', 'target_session_attrs': 'any', 'load_balance_hosts': 'disable'}
Текущая запись (231, 29, 'жен', '1995-10-03')
Текущая запись (824, 31, 'жен', '1993-06-01')
Текущая запись (149, 65, 'жен', '1959-08-27')
Текущая запись (270, 51, 'муж', '1973-10-06')
Текущая запись (989, 81, 'муж', '1943-04-10')
Текущая запись (676, 53, 'жен', '1971-08-19')
Текущая запись (316, 82, 'жен', '1942-07-24')
Текущая запись (558, 32, 'жен', '1992-12-27')
Текущая запись (75, 56, 'жен', '1968-02-19')
Текущая запись (715, 31, 'муж', '1993-06-11')
Текущая запись (836, 74, 'муж', '1950-04-09')
Текущая запись (175, 38, 'муж', '1986-03-02')
Текущая запись (2

## ORM + PostgreSQL

In [44]:
from sqlalchemy.ext.declarative import declarative_base

Base = declarative_base()

  Base = declarative_base()


In [45]:
import sqlalchemy as sa

class Patients(Base):
    __tablename__ = 'patients'

    id = sa.Column(sa.Integer, primary_key=True, autoincrement=True)
    age = sa.Column(sa.Integer)
    sex = sa.Column(sa.VARCHAR(50))
    birthday = sa.Column(sa.VARCHAR(50))
    
    def __str__(self):
        return f"Patient with id {self.id}, age {self.age}, sex {self.sex}, birthday {self.birthday}"

In [47]:
from contextlib import contextmanager

import sqlalchemy as sa
from sqlalchemy.orm import sessionmaker
import psycopg2

main_engine = sa.create_engine(
    'postgresql+psycopg2://postgres:postgres@127.0.0.1:5432/postgres',
    echo=True,
)

DBSession = sessionmaker(
    binds={
        Base: main_engine,
    },
    expire_on_commit=False,
)


@contextmanager
def session_scope():
    """Provides a transactional scope around a series of operations."""
    session = DBSession()
    try:
        yield session
        session.commit()
    except Exception as e:
        session.rollback()
        raise e
    finally:
        session.close()

if __name__ == '__main__':
    with session_scope() as s:
        print(s)
        patients = s.query(Patients).all()
        for item in patients:
            print(f"Запись: {item}")
        

<sqlalchemy.orm.session.Session object at 0x0000016E9D10B2C0>
2024-12-18 23:32:10,384 INFO sqlalchemy.engine.Engine select pg_catalog.version()
2024-12-18 23:32:10,385 INFO sqlalchemy.engine.Engine [raw sql] {}
2024-12-18 23:32:10,389 INFO sqlalchemy.engine.Engine select current_schema()
2024-12-18 23:32:10,390 INFO sqlalchemy.engine.Engine [raw sql] {}
2024-12-18 23:32:10,393 INFO sqlalchemy.engine.Engine show standard_conforming_strings
2024-12-18 23:32:10,394 INFO sqlalchemy.engine.Engine [raw sql] {}
2024-12-18 23:32:10,398 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2024-12-18 23:32:10,401 INFO sqlalchemy.engine.Engine SELECT patients.id AS patients_id, patients.age AS patients_age, patients.sex AS patients_sex, patients.birthday AS patients_birthday 
FROM patients
2024-12-18 23:32:10,401 INFO sqlalchemy.engine.Engine [generated in 0.00127s] {}
Запись: Patient with id 231, age 29, sex жен, birthday 1995-10-03
Запись: Patient with id 824, age 31, sex жен, birthday 1993-06-01
Зап

## Чтение скрипта sql

In [None]:
# работа со скриптом SQL
db_conn = sqlite3.connect('sales_full.db')
print("Подключение к базе данных sales_full установлено");

# Открыть файл с SQL-скриптом и прочитать его содержимое
with open('/content/Занятие_02_SQL_полный_скрипт_базы_sqlite.sql', 'r') as sql_file:
    sql_script = sql_file.read()


# ROW_ID - уникальный идентификатор, если ID не задан
db_conn.executescript(sql_script)

print("Таблицы и данные в БД загружены");

# Сохранить изменения и закрыть соединение
db_conn.commit()
# db_conn.close()

Подключение к базе данных sales_full установлено
Таблицы и данные в БД загружены


## Проверка, что таблицы одинаковые

In [None]:
#Проверим данные таблиц
# Создаем объект курсора для выполнения SQL-запросов
db_cursor = db_conn.cursor()
# Выполняем SQL-запрос для выбора всех строк из таблицы "customer"
db_cursor.execute("SELECT * FROM payment;")
db_payment_rows = db_cursor.fetchall() # Извлекаем все строки результата запроса

# Выполнение запроса PRAGMA для получения информации о структуре таблицы
db_cursor.execute("PRAGMA table_info(payment)")
# Получение результатов запроса
db_payment_columns_info = db_cursor.fetchall()
# Извлечение имен столбцов из таблицы
db_payment_columns = [info[1] for info in payment_columns_info]
print(db_payment_columns)
# Проходим по каждой строке результата и выводим ее на экран
for row in db_payment_rows:
    print(row)

['payment_id', 'customer_id', 'amount', 'payment_date']
(1, 1, 500.0, '2022-07-01')
(2, 1, 300.0, '2022-08-15')
(3, 1, 200.0, '2022-09-30')
(4, 2, 400.0, '2022-10-20')
(5, 2, 600.0, '2022-11-05')
(6, 3, 800.0, '2022-12-10')
(7, 4, 700.0, '2023-01-25')
(8, 4, 900.0, '2023-02-15')
(9, 5, 1100.0, '2023-03-31')
(10, 6, 1300.0, '2023-04-21')
(11, 1, 500.0, '2022-07-01')
(12, 1, 300.0, '2022-08-15')
(13, 1, 200.0, '2022-09-30')
(14, 2, 400.0, '2022-10-20')
(15, 2, 600.0, '2022-11-05')
(16, 3, 800.0, '2022-12-10')
(17, 4, 700.0, '2023-01-25')
(18, 4, 900.0, '2023-02-15')
(19, 5, 1100.0, '2023-03-31')
(20, 6, 1300.0, '2023-04-21')
(21, 1, 500.0, '2022-07-01')
(22, 1, 300.0, '2022-08-15')
(23, 1, 200.0, '2022-09-30')
(24, 2, 400.0, '2022-10-20')
(25, 2, 600.0, '2022-11-05')
(26, 3, 800.0, '2022-12-10')
(27, 4, 700.0, '2023-01-25')
(28, 4, 900.0, '2023-02-15')
(29, 5, 1100.0, '2023-03-31')
(30, 6, 1300.0, '2023-04-21')
(31, 8, 2500.0, '2024-06-17')


In [None]:
import pandas as pd # библиотека для работы с табличными значениями

In [None]:
pd.DataFrame?

In [None]:
# отобразим в таблицу
# Создаем DataFrame из результатов запроса
db_payment_table = pd.DataFrame(db_payment_rows, columns=db_payment_columns)
# Устанавливаем первый столбец в качестве индекса
db_payment_table.set_index(db_payment_columns[0], inplace=True)
db_payment_table

Unnamed: 0_level_0,customer_id,amount,payment_date
payment_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,1,500.0,2022-07-01
2,1,300.0,2022-08-15
3,1,200.0,2022-09-30
4,2,400.0,2022-10-20
5,2,600.0,2022-11-05
6,3,800.0,2022-12-10
7,4,700.0,2023-01-25
8,4,900.0,2023-02-15
9,5,1100.0,2023-03-31
10,6,1300.0,2023-04-21


In [None]:
#Проверим данные таблиц
# Создаем объект курсора для выполнения SQL-запросов
db_cursor = db_conn.cursor()
# Выполняем SQL-запрос для выбора всех строк из таблицы "customer"
db_cursor.execute("SELECT * FROM customer;")
db_customer_rows = db_cursor.fetchall() # Извлекаем все строки результата запроса
# Выполнение запроса PRAGMA для получения информации о структуре таблицы
db_cursor.execute("PRAGMA table_info(customer)")
# Получение результатов запроса
db_customer_columns_info = db_cursor.fetchall()
# Извлечение имен столбцов из таблицы
db_customer_columns = [info[1] for info in db_customer_columns_info]
print(db_customer_columns)
# Проходим по каждой строке результата и выводим ее на экран
for row in db_customer_rows:
    print(row)

['customer_id', 'first_name', 'last_name']
(1, 'Иван', 'Иванов')
(2, 'Петр', 'Петров')
(3, 'Олег', 'Сидоров')
(4, 'Анна', 'Мелехова')
(5, 'Мария', 'Тарасова')
(6, 'Алексей', 'Винокуров')
(7, 'Тимур', 'Ильясов')
(8, 'Елена', 'Николаева')
(9, 'Ольга', 'Квач')
(10, 'Дмитрий', 'Шестаков')
(11, 'Иван', 'Иванов')
(12, 'Петр', 'Петров')
(13, 'Олег', 'Сидоров')
(14, 'Анна', 'Мелехова')
(15, 'Мария', 'Тарасова')
(16, 'Алексей', 'Винокуров')
(17, 'Тимур', 'Ильясов')
(18, 'Елена', 'Николаева')
(19, 'Ольга', 'Квач')
(20, 'Дмитрий', 'Шестаков')
(21, 'Иван', 'Иванов')
(22, 'Петр', 'Петров')
(23, 'Олег', 'Сидоров')
(24, 'Анна', 'Мелехова')
(25, 'Мария', 'Тарасова')
(26, 'Алексей', 'Винокуров')
(27, 'Тимур', 'Ильясов')
(28, 'Елена', 'Николаева')
(29, 'Ольга', 'Квач')
(30, 'Дмитрий', 'Шестаков')


In [None]:
db_customer_table = pd.read_sql_query("SELECT * from customer", db_conn)
# Устанавливаем первый столбец в качестве индекса
db_customer_table.set_index(db_customer_columns[0], inplace=True)
db_customer_table

Unnamed: 0_level_0,first_name,last_name
customer_id,Unnamed: 1_level_1,Unnamed: 2_level_1
1,Иван,Иванов
2,Петр,Петров
3,Олег,Сидоров
4,Анна,Петрова
5,Мария,Тарасова
6,Алексей,Винокуров
7,Тимур,Ильясов
8,Елена,Николаева
9,Ольга,Квач
10,Дмитрий,Шестаков


In [None]:
# отобразим в таблицу
import pandas as pd # библиотека для работы с табличными значениями

# Создаем DataFrame из результатов запроса
db_customer_table = pd.DataFrame(db_customer_rows, columns=db_customer_columns)
# Устанавливаем первый столбец в качестве индекса
db_customer_table.set_index(db_customer_columns[0], inplace=True)
db_customer_table

Unnamed: 0_level_0,first_name,last_name
customer_id,Unnamed: 1_level_1,Unnamed: 2_level_1
1,Иван,Иванов
2,Петр,Петров
3,Олег,Сидоров
4,Анна,Мелехова
5,Мария,Тарасова
6,Алексей,Винокуров
7,Тимур,Ильясов
8,Елена,Николаева
9,Ольга,Квач
10,Дмитрий,Шестаков


## Работа с запросами

In [None]:
#Добавление

db_cursor = db_conn.execute('''
INSERT INTO payment (customer_id, amount, payment_date)
VALUES (8, 2500.00, '2024-06-17');''')

db_cursor.fetchall()

[]

In [None]:
#Выборка

db_cursor = db_conn.execute('''
-- Посмотреть общую таблицу
SELECT
    pay.payment_id,
    cust.customer_id,
    cust.first_name,
    cust.last_name,
    pay.amount,
    pay.payment_date
FROM payment pay
JOIN customer cust ON pay.customer_id = cust.customer_id;''')

db_cursor.fetchall()

[(1, 1, 'Иван', 'Иванов', 500.0, '2022-07-01'),
 (2, 1, 'Иван', 'Иванов', 300.0, '2022-08-15'),
 (3, 1, 'Иван', 'Иванов', 200.0, '2022-09-30'),
 (4, 2, 'Петр', 'Петров', 400.0, '2022-10-20'),
 (5, 2, 'Петр', 'Петров', 600.0, '2022-11-05'),
 (6, 3, 'Олег', 'Сидоров', 800.0, '2022-12-10'),
 (7, 4, 'Анна', 'Мелехова', 700.0, '2023-01-25'),
 (8, 4, 'Анна', 'Мелехова', 900.0, '2023-02-15'),
 (9, 5, 'Мария', 'Тарасова', 1100.0, '2023-03-31'),
 (10, 6, 'Алексей', 'Винокуров', 1300.0, '2023-04-21'),
 (11, 1, 'Иван', 'Иванов', 500.0, '2022-07-01'),
 (12, 1, 'Иван', 'Иванов', 300.0, '2022-08-15'),
 (13, 1, 'Иван', 'Иванов', 200.0, '2022-09-30'),
 (14, 2, 'Петр', 'Петров', 400.0, '2022-10-20'),
 (15, 2, 'Петр', 'Петров', 600.0, '2022-11-05'),
 (16, 3, 'Олег', 'Сидоров', 800.0, '2022-12-10'),
 (17, 4, 'Анна', 'Мелехова', 700.0, '2023-01-25'),
 (18, 4, 'Анна', 'Мелехова', 900.0, '2023-02-15'),
 (19, 5, 'Мария', 'Тарасова', 1100.0, '2023-03-31'),
 (20, 6, 'Алексей', 'Винокуров', 1300.0, '2023-04-21'

In [None]:
#Выборка

db_cursor = db_conn.execute('''
-- Посмотреть общую таблицу
SELECT
    pay.payment_id AS "Идентификатор покупки",
    cust.customer_id AS "Идентификатор покупателя",
    cust.first_name AS "Имя покупателя",
    cust.last_name AS "Фамилия покупателя",
    pay.amount AS "Сумма покупки",
    pay.payment_date AS "Дата покупки"
FROM payment pay
JOIN customer cust ON pay.customer_id = cust.customer_id;''')

db_cursor.fetchall()

[(1, 1, 'Иван', 'Иванов', 500.0, '2022-07-01'),
 (2, 1, 'Иван', 'Иванов', 300.0, '2022-08-15'),
 (3, 1, 'Иван', 'Иванов', 200.0, '2022-09-30'),
 (4, 2, 'Петр', 'Петров', 400.0, '2022-10-20'),
 (5, 2, 'Петр', 'Петров', 600.0, '2022-11-05'),
 (6, 3, 'Олег', 'Сидоров', 800.0, '2022-12-10'),
 (7, 4, 'Анна', 'Мелехова', 700.0, '2023-01-25'),
 (8, 4, 'Анна', 'Мелехова', 900.0, '2023-02-15'),
 (9, 5, 'Мария', 'Тарасова', 1100.0, '2023-03-31'),
 (10, 6, 'Алексей', 'Винокуров', 1300.0, '2023-04-21'),
 (11, 1, 'Иван', 'Иванов', 500.0, '2022-07-01'),
 (12, 1, 'Иван', 'Иванов', 300.0, '2022-08-15'),
 (13, 1, 'Иван', 'Иванов', 200.0, '2022-09-30'),
 (14, 2, 'Петр', 'Петров', 400.0, '2022-10-20'),
 (15, 2, 'Петр', 'Петров', 600.0, '2022-11-05'),
 (16, 3, 'Олег', 'Сидоров', 800.0, '2022-12-10'),
 (17, 4, 'Анна', 'Мелехова', 700.0, '2023-01-25'),
 (18, 4, 'Анна', 'Мелехова', 900.0, '2023-02-15'),
 (19, 5, 'Мария', 'Тарасова', 1100.0, '2023-03-31'),
 (20, 6, 'Алексей', 'Винокуров', 1300.0, '2023-04-21'

In [None]:
#Выборка

db_cursor = db_conn.execute('''
SELECT
    cust.customer_id AS "Идентификатор покупателя",
    cust.first_name AS "Имя покупателя",
    cust.last_name AS "Фамилия покупателя",
    SUM(pay.amount) AS "Сумма покупки"
FROM payment pay
JOIN customer cust ON pay.customer_id = cust.customer_id
GROUP BY cust.first_name, cust.last_name, cust.customer_id;''')

db_cursor.fetchall()

[(6, 'Алексей', 'Винокуров', 3900.0),
 (4, 'Анна', 'Мелехова', 4800.0),
 (8, 'Елена', 'Николаева', 5000.0),
 (1, 'Иван', 'Иванов', 3000.0),
 (5, 'Мария', 'Тарасова', 3300.0),
 (3, 'Олег', 'Сидоров', 2400.0),
 (2, 'Петр', 'Петров', 3000.0)]

In [None]:
#Обновление

db_cursor = db_conn.execute('''
UPDATE customer
SET last_name = 'Петрова'
WHERE customer_id = 4; -- меняет данные''')

db_cursor.fetchall()

[]

In [None]:
#Агрегатные функции

db_cursor = db_conn.execute('''
SELECT
    cust.customer_id AS "Идентификатор покупателя",
    cust.first_name AS "Имя покупателя",
    SUM(pay.amount) AS "Сумма",
    ROUND(AVG(pay.amount), 2) AS "Среднее",
    MIN(pay.amount) AS "Мин",
    MAX(pay.amount) AS "Макс",
    COUNT(pay.amount) AS "Количество покупок"
FROM payment pay
JOIN customer cust ON pay.customer_id = cust.customer_id
GROUP BY cust.first_name, cust.last_name, cust.customer_id;''')

db_cursor.fetchall()

[(6, 'Алексей', 3900.0, 1300.0, 1300.0, 1300.0, 3),
 (4, 'Анна', 4800.0, 800.0, 700.0, 900.0, 6),
 (8, 'Елена', 5000.0, 2500.0, 2500.0, 2500.0, 2),
 (1, 'Иван', 3000.0, 333.33, 200.0, 500.0, 9),
 (5, 'Мария', 3300.0, 1100.0, 1100.0, 1100.0, 3),
 (3, 'Олег', 2400.0, 800.0, 800.0, 800.0, 3),
 (2, 'Петр', 3000.0, 500.0, 400.0, 600.0, 6)]

In [None]:
table_beautiful = pd.read_sql_query('''
SELECT
    cust.customer_id AS "ID покупателя",
    cust.first_name AS "Имя покупателя",
    SUM(pay.amount) AS "Сумма",
    ROUND(AVG(pay.amount), 2) AS "Среднее",
    MIN(pay.amount) AS "Мин",
    MAX(pay.amount) AS "Макс",
    COUNT(pay.amount) AS "Количество покупок",
    group_concat(CAST(pay.payment_date AS VARCHAR), ', ') AS "Даты покупки",
    group_concat(CAST(pay.payment_id AS VARCHAR), ', ') AS "ID покупки"
FROM payment pay
JOIN customer cust ON pay.customer_id = cust.customer_id
GROUP BY cust.first_name, cust.last_name, cust.customer_id;''', db_conn)
table_beautiful

Unnamed: 0,ID покупателя,Имя покупателя,Сумма,Среднее,Мин,Макс,Количество покупок,Даты покупки,ID покупки
0,6,Алексей,3900.0,1300.0,1300.0,1300.0,3,"2023-04-21, 2023-04-21, 2023-04-21","10, 20, 30"
1,4,Анна,4800.0,800.0,700.0,900.0,6,"2023-01-25, 2023-02-15, 2023-01-25, 2023-02-15...","7, 8, 17, 18, 27, 28"
2,8,Елена,5000.0,2500.0,2500.0,2500.0,2,"2024-06-17, 2024-06-17","31, 32"
3,1,Иван,3000.0,333.33,200.0,500.0,9,"2022-07-01, 2022-08-15, 2022-09-30, 2022-07-01...","1, 2, 3, 11, 12, 13, 21, 22, 23"
4,5,Мария,3300.0,1100.0,1100.0,1100.0,3,"2023-03-31, 2023-03-31, 2023-03-31","9, 19, 29"
5,3,Олег,2400.0,800.0,800.0,800.0,3,"2022-12-10, 2022-12-10, 2022-12-10","6, 16, 26"
6,2,Петр,3000.0,500.0,400.0,600.0,6,"2022-10-20, 2022-11-05, 2022-10-20, 2022-11-05...","4, 5, 14, 15, 24, 25"


In [None]:
#group_concat вместо STRING_AGG

db_cursor = db_conn.execute('''
SELECT
    cust.customer_id AS "ID покупателя",
    cust.first_name AS "Имя покупателя",
    SUM(pay.amount) AS "Сумма",
    ROUND(AVG(pay.amount), 2) AS "Среднее",
    MIN(pay.amount) AS "Мин",
    MAX(pay.amount) AS "Макс",
    COUNT(pay.amount) AS "Количество покупок",
    group_concat(CAST(pay.payment_date AS VARCHAR), ', ') AS "Даты покупки",
    group_concat(CAST(pay.payment_id AS VARCHAR), ', ') AS "ID покупки"
FROM payment pay
JOIN customer cust ON pay.customer_id = cust.customer_id
GROUP BY cust.first_name, cust.last_name, cust.customer_id;''')

db_cursor.fetchall()

[(6,
  'Алексей',
  3900.0,
  1300.0,
  1300.0,
  1300.0,
  3,
  '2023-04-21, 2023-04-21, 2023-04-21',
  '10, 20, 30'),
 (4,
  'Анна',
  4800.0,
  800.0,
  700.0,
  900.0,
  6,
  '2023-01-25, 2023-02-15, 2023-01-25, 2023-02-15, 2023-01-25, 2023-02-15',
  '7, 8, 17, 18, 27, 28'),
 (8,
  'Елена',
  5000.0,
  2500.0,
  2500.0,
  2500.0,
  2,
  '2024-06-17, 2024-06-17',
  '31, 32'),
 (1,
  'Иван',
  3000.0,
  333.33,
  200.0,
  500.0,
  9,
  '2022-07-01, 2022-08-15, 2022-09-30, 2022-07-01, 2022-08-15, 2022-09-30, 2022-07-01, 2022-08-15, 2022-09-30',
  '1, 2, 3, 11, 12, 13, 21, 22, 23'),
 (5,
  'Мария',
  3300.0,
  1100.0,
  1100.0,
  1100.0,
  3,
  '2023-03-31, 2023-03-31, 2023-03-31',
  '9, 19, 29'),
 (3,
  'Олег',
  2400.0,
  800.0,
  800.0,
  800.0,
  3,
  '2022-12-10, 2022-12-10, 2022-12-10',
  '6, 16, 26'),
 (2,
  'Петр',
  3000.0,
  500.0,
  400.0,
  600.0,
  6,
  '2022-10-20, 2022-11-05, 2022-10-20, 2022-11-05, 2022-10-20, 2022-11-05',
  '4, 5, 14, 15, 24, 25')]

In [None]:
#добавление представления

db_cursor = db_conn.execute('''
CREATE VIEW IF NOT EXISTS payment_aggregations AS
    SELECT
        cust.customer_id AS "ID покупателя",
        cust.first_name AS "Имя покупателя",
        SUM(pay.amount) AS "Сумма",
        COUNT(pay.amount) AS "Количество покупок",
        group_concat(CAST(pay.payment_date AS VARCHAR), ', ') AS "Даты покупки",
        group_concat(CAST(pay.payment_id AS VARCHAR), ', ') AS "ID покупки"
    FROM payment pay
    JOIN customer cust ON pay.customer_id = cust.customer_id
    GROUP BY cust.first_name, cust.last_name, cust.customer_id''')

# Проверка существования представления
db_cursor.execute("SELECT name FROM sqlite_master WHERE type='view';")
views = db_cursor.fetchall()
if ('payment_aggregations',) in views:
    print("Представление payment_aggregations успешно создано.")
else:
    print("Представление payment_aggregations не было найдено.")

# db_cursor.close()

Представление payment_aggregations успешно создано.


In [None]:
#удаление представления

db_cursor = db_conn.execute('''SELECT * FROM payment_aggregations;''')

db_cursor.fetchall()

[(6, 'Алексей', 3900.0, 3, '2023-04-21, 2023-04-21, 2023-04-21', '10, 20, 30'),
 (4,
  'Анна',
  4800.0,
  6,
  '2023-01-25, 2023-02-15, 2023-01-25, 2023-02-15, 2023-01-25, 2023-02-15',
  '7, 8, 17, 18, 27, 28'),
 (8, 'Елена', 5000.0, 2, '2024-06-17, 2024-06-17', '31, 32'),
 (1,
  'Иван',
  3000.0,
  9,
  '2022-07-01, 2022-08-15, 2022-09-30, 2022-07-01, 2022-08-15, 2022-09-30, 2022-07-01, 2022-08-15, 2022-09-30',
  '1, 2, 3, 11, 12, 13, 21, 22, 23'),
 (5, 'Мария', 3300.0, 3, '2023-03-31, 2023-03-31, 2023-03-31', '9, 19, 29'),
 (3, 'Олег', 2400.0, 3, '2022-12-10, 2022-12-10, 2022-12-10', '6, 16, 26'),
 (2,
  'Петр',
  3000.0,
  6,
  '2022-10-20, 2022-11-05, 2022-10-20, 2022-11-05, 2022-10-20, 2022-11-05',
  '4, 5, 14, 15, 24, 25')]

In [None]:
# Устанавливаем первый столбец в качестве индекса
db_customer_table
db_customer_table.set_index(db_customer_columns[0], inplace=True)

In [None]:
#удаление представления

db_cursor = db_conn.execute('''DROP VIEW payment_aggregations;''')

db_cursor.fetchall()

[]

In [None]:
#большой запрос

db_cursor = db_conn.execute('''CREATE VIEW sub_query_agg AS
  SELECT
      cust.customer_id AS "ID покупателя",
      SUM(pay.amount) AS "Сумма",
      CASE
        WHEN SUM(pay.amount) > 2500 THEN 'Бриллиантовый Покупатель'
      	WHEN SUM(pay.amount) > 1500 AND SUM(pay.amount) <= 2500 THEN 'VIP Покупатель'
        ELSE 'Обычный покупатель'
      END AS "Тип покупателя",
      COUNT(pay.amount) AS "Количество покупок",
      group_concat(CAST(pay.payment_date AS VARCHAR), ', ') AS "Даты покупки",
      group_concat(CAST(pay.payment_id AS VARCHAR), ', ') AS "ID покупки"
  FROM payment pay
  JOIN customer cust ON pay.customer_id = cust.customer_id
  GROUP BY cust.first_name, cust.last_name, cust.customer_id, pay.payment_id
  HAVING pay.payment_id IS NOT NULL OR COUNT(pay.amount) > 1''')

db_cursor.fetchall()

[]

In [None]:
#выборка к запросу

db_cursor = db_conn.execute('''SELECT
	sub_query_agg."Тип покупателя",
    COUNT(sub_query_agg."ID покупателя") AS "Количество"
FROM sub_query_agg
GROUP BY "Тип покупателя";''')

db_cursor.fetchall()

[('VIP Покупатель', 2), ('Обычный покупатель', 30)]

In [None]:
conn.close()
db_conn.close()

## Оконные функции

В SQLite поддерживаются следующие оконные функции:

ROW_NUMBER(): Позволяет присвоить каждой строке в наборе результатов уникальный номер строки, начиная с 1.

RANK(): Аналогична ROW_NUMBER(), но строки с одинаковыми значениями получают одинаковый ранг.

DENSE_RANK(): Также аналогична ROW_NUMBER(), но не пропускает номера при наличии одинаковых значений.

NTILE(n): Разделяет набор результатов на n равных групп.

LEAD(column [, offset [, default]]): Возвращает значение указанной колонки для следующей строки в наборе результатов.

LAG(column [, offset [, default]]): Возвращает значение указанной колонки для предыдущей строки в наборе результатов.

FIRST_VALUE(column): Возвращает первое значение указанной колонки в наборе результатов.

LAST_VALUE(column): Возвращает последнее значение указанной колонки в наборе результатов.

SUM() OVER(): Вычисляет сумму значений указанной колонки в наборе результатов.

AVG() OVER(): Вычисляет среднее значение значений указанной колонки в наборе результатов.

### SQL Programming - Основы с magic командами

In [None]:
# Загружаем sql extension

%load_ext sql


#
%sql sqlite:////content/sales.db

The sql extension is already loaded. To reload it, use:
  %reload_ext sql


1. Последняя дата покупки для каждого клиента

In [None]:
%%sql
WITH ranked_payments AS (
    SELECT
        c.customer_id,
        c.first_name,
        c.last_name,
        p.payment_date,
        ROW_NUMBER() OVER(PARTITION BY c.customer_id ORDER BY p.payment_date DESC) AS rn
    FROM customer c
    LEFT JOIN payment p ON c.customer_id = p.customer_id
)
SELECT
    customer_id,
    first_name,
    last_name,
    CASE WHEN rn = 1 THEN payment_date END AS last_purchase_date
FROM ranked_payments;

 * sqlite:////content/sales.db
   sqlite:////content/test.db
Done.


customer_id,first_name,last_name,last_purchase_date
1,Иван,Иванов,2022-09-30
1,Иван,Иванов,
1,Иван,Иванов,
1,Иван,Иванов,
1,Иван,Иванов,
1,Иван,Иванов,
2,Петр,Петров,2022-11-05
2,Петр,Петров,
2,Петр,Петров,
2,Петр,Петров,


In [None]:
%%sql
SELECT c.first_name, c.last_name, COALESCE(max_purchase_date, 'No purchases') AS last_purchase_date
FROM customer c
LEFT JOIN (
    SELECT customer_id, MAX(payment_date) AS max_purchase_date
    FROM payment
    GROUP BY customer_id
) p ON c.customer_id = p.customer_id;


 * sqlite:////content/sales.db
   sqlite:////content/test.db
Done.


first_name,last_name,last_purchase_date
Иван,Иванов,2022-09-30
Петр,Петров,2022-11-05
Олег,Сидоров,2022-12-10
Анна,Мелехова,2023-02-15
Мария,Тарасова,2023-03-31
Алексей,Винокуров,2023-04-21
Тимур,Ильясов,No purchases
Елена,Николаева,No purchases
Ольга,Квач,No purchases
Дмитрий,Шестаков,No purchases


2. Получение номера строки для каждого платежа, упорядоченного по дате платежа

In [None]:
%%sql
SELECT payment_id, customer_id, payment_date,
       ROW_NUMBER() OVER(ORDER BY payment_date) AS row_number
FROM payment;

 * sqlite:////content/sales.db
   sqlite:////content/test.db
Done.


payment_id,customer_id,payment_date,row_number
1,1,2022-07-01,1
11,1,2022-07-01,2
2,1,2022-08-15,3
12,1,2022-08-15,4
3,1,2022-09-30,5
13,1,2022-09-30,6
4,2,2022-10-20,7
14,2,2022-10-20,8
5,2,2022-11-05,9
15,2,2022-11-05,10


3. Расчет среднего чека для каждого клиента

In [None]:
%%sql
SELECT customer_id, AVG(amount) OVER(PARTITION BY customer_id) AS average_amount
FROM payment;

 * sqlite:////content/sales.db
   sqlite:////content/test.db
Done.


customer_id,average_amount
1,333.3333333333333
1,333.3333333333333
1,333.3333333333333
1,333.3333333333333
1,333.3333333333333
1,333.3333333333333
2,500.0
2,500.0
2,500.0
2,500.0


4. Получение ранга клиентов по сумме платежей

In [None]:
%%sql
SELECT customer_id, SUM(amount) OVER(PARTITION BY customer_id) AS total_amount,
       RANK() OVER(ORDER BY SUM(amount) DESC) AS rank
FROM payment
GROUP BY customer_id;

 * sqlite:////content/sales.db
   sqlite:////content/test.db
Done.


customer_id,total_amount,rank
1,500.0,4
2,400.0,4
3,800.0,6
4,700.0,1
5,1100.0,3
6,1300.0,2


5. Получение предыдущей даты платежа для каждого платежа

In [None]:
%%sql
SELECT payment_id, customer_id, payment_date,
       LAG(payment_date, 1) OVER(ORDER BY payment_date) AS previous_payment_date
FROM payment;

 * sqlite:////content/sales.db
   sqlite:////content/test.db
Done.


payment_id,customer_id,payment_date,previous_payment_date
1,1,2022-07-01,
11,1,2022-07-01,2022-07-01
2,1,2022-08-15,2022-07-01
12,1,2022-08-15,2022-08-15
3,1,2022-09-30,2022-08-15
13,1,2022-09-30,2022-09-30
4,2,2022-10-20,2022-09-30
14,2,2022-10-20,2022-10-20
5,2,2022-11-05,2022-10-20
15,2,2022-11-05,2022-11-05


6. Вычисление суммы платежей для каждого клиента

In [None]:
%%sql
SELECT customer_id, SUM(amount) OVER(PARTITION BY customer_id) AS total_amount
FROM payment;

7. Прогнозирование следующей покупки на основе времени между покупками

In [None]:
%%sql
WITH purchases_with_time_diff AS (
    SELECT
        p1.customer_id,
        p1.payment_date,
        strftime('%s', p1.payment_date) - strftime('%s', COALESCE(LAG(p1.payment_date) OVER (PARTITION BY p1.customer_id ORDER BY p1.payment_date), '1970-01-01')) AS time_diff_seconds
    FROM payment p1
)
SELECT
    customer_id,
    payment_date,
    time_diff_seconds,
    LEAD(payment_date) OVER (PARTITION BY customer_id ORDER BY payment_date) AS next_purchase_date
FROM purchases_with_time_diff;

 * sqlite:////content/sales.db
   sqlite:////content/test.db
Done.


customer_id,payment_date,time_diff_seconds,next_purchase_date
1,2022-07-01,1656633600,2022-07-01
1,2022-07-01,0,2022-08-15
1,2022-08-15,3888000,2022-08-15
1,2022-08-15,0,2022-09-30
1,2022-09-30,3974400,2022-09-30
1,2022-09-30,0,
2,2022-10-20,1666224000,2022-10-20
2,2022-10-20,0,2022-11-05
2,2022-11-05,1382400,2022-11-05
2,2022-11-05,0,


8. Определение наиболее активных клиентов по количеству покупок

In [None]:
%%sql
SELECT
    c.customer_id,
    c.first_name,
    c.last_name,
    COUNT(p.payment_id) OVER(PARTITION BY c.customer_id) AS purchase_count
FROM
    customer c
LEFT JOIN
    payment p ON c.customer_id = p.customer_id
ORDER BY
    purchase_count DESC;


 * sqlite:////content/sales.db
   sqlite:////content/test.db
Done.


customer_id,first_name,last_name,purchase_count
1,Иван,Иванов,6
1,Иван,Иванов,6
1,Иван,Иванов,6
1,Иван,Иванов,6
1,Иван,Иванов,6
1,Иван,Иванов,6
2,Петр,Петров,4
2,Петр,Петров,4
2,Петр,Петров,4
2,Петр,Петров,4


9. Вычисление процента от общей суммы покупок, сделанной каждым клиентом

In [None]:
%%sql
WITH total_purchases AS (
    SELECT
        customer_id,
        SUM(amount) AS total_amount
    FROM
        payment
    GROUP BY
        customer_id
),
customer_with_percentage AS (
    SELECT
        c.customer_id,
        c.first_name,
        c.last_name,
        tp.total_amount,
        (tp.total_amount / (SELECT SUM(total_amount) FROM TotalPurchases)) * 100 AS percentage_of_total
    FROM
        customer c
    JOIN
        total_purchases tp ON c.customer_id = tp.customer_id
)
SELECT
    customer_id,
    first_name,
    last_name,
    total_amount,
    percentage_of_total
FROM
    customer_with_percentage
ORDER BY
    percentage_of_total DESC;

 * sqlite:////content/sales.db
   sqlite:////content/test.db
(sqlite3.OperationalError) no such table: TotalPurchases
[SQL: WITH total_purchases AS (
    SELECT 
        customer_id, 
        SUM(amount) AS total_amount
    FROM 
        payment
    GROUP BY 
        customer_id
),
customer_with_percentage AS (
    SELECT 
        c.customer_id, 
        c.first_name, 
        c.last_name,
        tp.total_amount,
        (tp.total_amount / (SELECT SUM(total_amount) FROM TotalPurchases)) * 100 AS percentage_of_total
    FROM 
        customer c
    JOIN 
        total_purchases tp ON c.customer_id = tp.customer_id
)
SELECT 
    customer_id, 
    first_name, 
    last_name, 
    total_amount, 
    percentage_of_total
FROM 
    customer_with_percentage
ORDER BY 
    percentage_of_total DESC;]
(Background on this error at: https://sqlalche.me/e/20/e3q8)


# Работа с PostgreSQL

In [None]:
import psycopg2
from psycopg2 import Error, sql

In [None]:
# настройки БД
DATABASE = "sales"
USER = "postgres"
PASSWORD = "postgres"
LOCALHOST = "127.0.0.1"
PORT = "5432"

In [None]:
connection = psycopg2.connect(
  dbname=DATABASE,
  user=USER,
  password=PASSWORD,
  host=LOCALHOST,
  port=PORT
)
curs = connection.cursor()

print("Информация по подключению")
print(connection.get_dsn_parameters())

In [None]:
curs.execute(SET_PATH)
curs.execute(READ_DEMO_BOARDING_INFO_FULL)

record = curs.fetchall() # для одной записи fetchone()

print(f"Текущая запись {record}") # что выгрузилось
