## Тестовое задание VPROK

**Моё решение заданий с тестовой БД и запросами к ней:**
https://www.db-fiddle.com/f/ntAs6nL7xkQAgXofUummyD/5

Для запуска запроса, надо закомментить все остальные запросы.

### Задание 1:
Написать 3 запроса на основе таблиц Client, Account и Payments.

-- Информация обо всех операциях клиентов
SELECT first_name, second_name, payment_amount, payment_type
FROM Payments
JOIN Account ON Payments.account_id = Account.ID
JOIN Client ON Account.client_id = Client.ID
ORDER BY payment_amount DESC

-- Информация о размере максимального платежа клиента
SELECT first_name, second_name, MAX(payment_amount)
FROM Payments
JOIN Account ON Payments.account_id = Account.ID
JOIN Client ON Account.client_id = Client.ID
WHERE payment_type = 'payments'
GROUP BY first_name, second_name

-- Информация о количестве счетов у клиентов
SELECT first_name, second_name, COUNT(account_id)
FROM Payments
JOIN Account ON Payments.account_id = Account.ID
GROUP BY first_name, second_name

### Задание 2:
Получить список клиентов, которые имеют 5 или более операций и общую сумму платежа более 15 000. В полученном отчете должны присутствовать следующие атрибуты:
•	client first name
•	client second name
•	payment amount sum
•	payment quantity

SELECT  first_name,
        second_name,
        COUNT(payment_amount) AS payment_quantity,
        SUM(payment_amount) as payment_amount_sum
FROM Payments
JOIN Account ON Payments.account_id = Account.ID
JOIN Client ON Account.client_id = Client.ID
GROUP BY first_name, second_name
HAVING COUNT(payment_amount) >= 3 AND MAX(payment_amount) > 15000

### Задание 3:
3. Получить список клиентов, у которых есть хотя бы одна транзакция (любого типа) 5000 или более в течение последних 30 дней. Одна строка в результате должна соответствовать одному клиенту. Мы предполагаем, что операции оплата / возврат можно различить по полю payment_type (например, Payment_type = ’payment’, Payment_type = ‘cancel. В полученном отчете должны присутствовать следующие атрибуты:
•	client id
•	number of accounts
•	sum of payment transactions for current year
•	sum of cancel transactions for current year

SELECT  client_id,
        COUNT(DISTINCT Account.ID) AS number_of_accounts,
        SUM(CASE WHEN payment_type = 'payment' THEN payment_amount ELSE 0 END) AS sum_of_payment,
        SUM(CASE WHEN payment_type = 'cancel' THEN payment_amount ELSE 0 END) AS sum_of_canceled
FROM Payments
JOIN Account ON Payments.account_id = Account.ID
WHERE payment_amount >= 2000 AND payment_date > (NOW() - INTERVAL '7 DAYS')
GROUP BY client_id

### Задание 4.

Написать скрипт(.py) загрузки данных файла “LTV.csv” в PostgreSQL, результирующая таблица должна содержать дополнительный атрибут – load_date.

Подключимся к базе данных PostgreSQL, для этого воспользуемся библиотекой SQLAlchemy.

1. Считаем CSV файл
2. Создадим подключение к БД
3. Создадим новую таблицу
4. Запишем дата фрейм в эту таблицу
5. Проверим, что запись прошла успешно

In [1]:
import pandas as pd
from datetime import date

from sqlalchemy import MetaData, Table, Column, String, Integer, Float, Date, text, create_engine

In [2]:
data = pd.read_csv('LTV.csv', parse_dates=['Effective To Date'])

In [3]:
data.head()

Unnamed: 0,Customer,State,Customer Lifetime Value,Response,Coverage,Education,Effective To Date,EmploymentStatus,Gender,Income,...,Months Since Policy Inception,Number of Open Complaints,Number of Policies,Policy Type,Policy,Renew Offer Type,Sales Channel,Total Claim Amount,Vehicle Class,Vehicle Size
0,BU79786,Washington,2763.519279,No,Basic,Bachelor,2011-02-24,Employed,F,56274,...,5,0,1,Corporate Auto,Corporate L3,Offer1,Agent,384.811147,Two-Door Car,Medsize
1,QZ44356,Arizona,6979.535903,No,Extended,Bachelor,2011-01-31,Unemployed,F,0,...,42,0,8,Personal Auto,Personal L3,Offer3,Agent,1131.464935,Four-Door Car,Medsize
2,AI49188,Nevada,12887.43165,No,Premium,Bachelor,2011-02-19,Employed,F,48767,...,38,0,2,Personal Auto,Personal L3,Offer1,Agent,566.472247,Two-Door Car,Medsize
3,WW63253,California,7645.861827,No,Basic,Bachelor,2011-01-20,Unemployed,M,0,...,65,0,7,Corporate Auto,Corporate L2,Offer1,Call Center,529.881344,SUV,Medsize
4,HB64268,Washington,2813.692575,No,Basic,Bachelor,2011-02-03,Employed,M,43836,...,44,0,1,Personal Auto,Personal L1,Offer1,Agent,138.130879,Four-Door Car,Medsize


In [4]:
#Проверим все типы данных в датафрейме
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9134 entries, 0 to 9133
Data columns (total 24 columns):
 #   Column                         Non-Null Count  Dtype         
---  ------                         --------------  -----         
 0   Customer                       9134 non-null   object        
 1   State                          9134 non-null   object        
 2   Customer Lifetime Value        9134 non-null   float64       
 3   Response                       9134 non-null   object        
 4   Coverage                       9134 non-null   object        
 5   Education                      9134 non-null   object        
 6   Effective To Date              9134 non-null   datetime64[ns]
 7   EmploymentStatus               9134 non-null   object        
 8   Gender                         9134 non-null   object        
 9   Income                         9134 non-null   int64         
 10  Location Code                  9134 non-null   object        
 11  Marital Status   

In [5]:
#Преобразуем поле даты в строку, чтобы она корректно записалась в БД
data['Effective To Date'] = data['Effective To Date'].astype(str)

In [6]:
#Создадим строку подключения к БД Postgres
conn_string = 'postgresql+psycopg2://postgres:postgres@localhost:5433/postgres'
engine = create_engine(conn_string)

#Создадим таблицу 'ltv'
meta = MetaData()
ltv = Table(
    'LTV', meta,
    Column('Customer', String, nullable=False),
    Column('State', String),
    Column('Customer Lifetime Value', Float),
    Column('Response', String),
    Column('Coverage', String),
    Column('Education', String),
    Column('Effective To Date', Date),
    Column('EmploymentStatus', String),
    Column('Gender', String),
    Column('Income', Integer),
    Column('Location Code', String),
    Column('Marital Status', String),
    Column('Monthly Premium Auto', Integer),
    Column('Months Since Last Claim', Integer),
    Column('Months Since Policy Inception', Integer),
    Column('Number of Open Complaints', Integer),
    Column('Number of Policies', Integer),
    Column('Policy Type', String),
    Column('Policy', String),
    Column('Renew Offer Type', String),
    Column('Sales Channel', String),
    Column('Total Claim Amount', Float),
    Column('Vehicle Class', String),
    Column('Vehicle Size', String),
    Column('Load Date', Date)
)
meta.create_all(engine)

#Подключимся к БД
conn = engine.connect()

#Добавим столбец Load Date
data['Load Date'] = str(date.today())

#Запишем данные датафрейма в таблицу 'ltv', которую мы создали
data.to_sql('ltv', con=conn, if_exists='replace', index=False)

In [7]:
#Проверим, все ли значения записались из датафрейма в БД.
#Количество записей в DataFrame
data_counts = data.shape[0]

#Запрос на получение количества записей из БД
sql_query = text('SELECT COUNT(*) FROM "ltv"')
result = conn.execute(sql_query)
db_counts = result.fetchone()[0]

# Выведем результаты сравнения количества записей DataFrame и БД
if data_counts == db_counts:
    print('Все значения перенеслись корректно!')
else:
    print('Во время экспорта Dataframe в базу данных произошла потеря данных.')

Все значения перенеслись корректно!


In [8]:
#Создадим запрос на вывод кортежа с первой строкой из БД ltv
sql_query = text('SELECT * FROM "ltv" LIMIT 5')
result = conn.execute(sql_query)
result_as_list = result.fetchall()

for customer in result_as_list[:1]:
    print(f"{customer}")

('BU79786', 'Washington', 2763.519279, 'No', 'Basic', 'Bachelor', '2011-02-24', 'Employed', 'F', 56274, 'Suburban', 'Married', 69, 32, 5, 0, 1, 'Corporate Auto', 'Corporate L3', 'Offer1', 'Agent', 384.811147, 'Two-Door Car', 'Medsize', '2021-12-08')


In [9]:
conn.close()