# Условия
 
Дан csv-файл с транзакциями с 2023–01-01 до 2023-04-20. Необходимо в Jupyter-ноутбуке выполнить следующие пункты, используя SQLite:

**[Шаг 1](#Шаг-1)**

(Балл - 0.2) Необходимо скачать CSV-файл — «final_transactions.csv», создать таблицу transaction_bd со всеми полями, загрузить данные из файла в таблицу и оставить таблицу со структурой:

(0, 'TX_DATETIME', 'NUMERIC', 0, None, 0) - время транзакций

(1, 'CUSTOMER_ID', 'INTEGER', 0, None, 0) - клиент

(2, 'TX_AMOUNT', 'REAL', 0, None, 0) - сумма транзакций

**[Шаг 2](#Шаг-2)**

(Балл - 0.1 за каждый пункт) Написать следующие запросы к таблице transaction_bd:

[A. Вывести всех клиентов, у которых сумма транзакций больше 700000 за весь период (сортируя клиентов по возрастанию);](#A.-Вывести-всех-клиентов,-у-которых-сумма-транзакций-больше-700000-за-весь-период-(сортируя-клиентов-по-возрастанию);)

[B. Вывести всех клиентов, у которых сумма транзакций больше 200000 за период 01.01.2023 - 13.01.2023 (сортируя клиентов по возрастанию);](#B.-Вывести-всех-клиентов,-у-которых-сумма-транзакций-больше-200000-за-период-01.01.2023---13.01.2023-(сортируя-клиентов-по-возрастанию);)

[C. Вывести тех клиентов, у которых id начинается с 4 и количество транзакций за весь период более 444;](#C.-Вывести-тех-клиентов,-у-которых-id-начинается-с-4-и-количество-транзакций-за-весь-период-более-444;)

[D. Создать флаг доходности клиентов по логике:](#D.-Создать-флаг-доходности-клиентов-по-логике:)

- 1. Если сумма транзакций не более 50000, тогда вывести 'низкая доходность';
- 2. Если сумма транзакций больше 50000 и не более 10000 тогда вывести 'средняя доходность';
- 3. Если сумма транзакций больше 100000 тогда вывести 'высокая доходность'.

[E. Посмотреть количество клиентов с каждым видом доходности (из пункта 2.D);](#E.-Посмотреть-количество-клиентов-с-каждым-видом-доходности-(из-пункта-2.D);)

[F. Вывести сумму транзакций за каждый день (сортируя дни по возрастанию).](#F.-Вывести-сумму-транзакций-за-каждый-день-(сортируя-дни-по-возрастанию).)

[Шаг 3](#Шаг-3)

(Балл - 0.2) Подготовить дашборд с помощью Dash по пункту 2.F, включив туда графики bar и histogram; вставить в конце ноутбука скрин графиков из дашборда.


---

# Решение

In [1]:
import pandas as pd
import sqlite3
from sqlite3 import Error

#### Шаг 1

In [2]:
df = pd.read_csv('final_transactions.csv', parse_dates=['TX_DATETIME'])
df.head()

Unnamed: 0,TRANSACTION_ID,TX_DATETIME,CUSTOMER_ID,TERMINAL_ID,TX_AMOUNT
0,0,2023-01-01 00:00:31,596,3156,533.07
1,1,2023-01-01 00:02:10,4961,3412,808.56
2,2,2023-01-01 00:07:56,2,1365,1442.94
3,3,2023-01-01 00:09:29,4128,8737,620.65
4,4,2023-01-01 00:10:34,927,9906,490.66


In [3]:
df_transaction_bd = df[['TX_DATETIME', 'CUSTOMER_ID', 'TX_AMOUNT']]
df_transaction_bd.head()

Unnamed: 0,TX_DATETIME,CUSTOMER_ID,TX_AMOUNT
0,2023-01-01 00:00:31,596,533.07
1,2023-01-01 00:02:10,4961,808.56
2,2023-01-01 00:07:56,2,1442.94
3,2023-01-01 00:09:29,4128,620.65
4,2023-01-01 00:10:34,927,490.66


Создадим функции для подключения к базе данных, подключимся к ней, создадим таблицу и наполним ее данными

In [4]:
def create_connection(path):
    connection = None
    try:
        connection = sqlite3.connect(path)
        print("Connection to SQLite DB successful")
    except Error as e:
        print(f"The error '{e}' occurred")

    return connection

In [5]:
def execute_query(connection, query):
    cursor = connection.cursor()
    try:
        cursor.execute(query)
        connection.commit()
        print("Query executed successfully")
    except Error as e:
        print(f"The error '{e}' occurred")

In [6]:
connection = create_connection('database.db')

Connection to SQLite DB successful


In [7]:
cursor = sqlite3.Cursor(connection)

In [42]:
sql_create_table = '''
                        CREATE TABLE IF NOT EXISTS transaction_bd (
                                            "TX_DATETIME" TEXT,
                                            "CUSTOMER_ID" INTEGER,
                                            "TX_AMOUNT" REAL
                                                        )
                     '''

In [43]:
execute_query(connection, sql_create_table)

Query executed successfully


In [44]:
df_transaction_bd.to_sql('transaction_bd', connection, if_exists='replace', index=False)

1048575

[Вернуться к условиям](#Условия)

#### Шаг 2

###### A. Вывести всех клиентов, у которых сумма транзакций больше 700000 за весь период (сортируя клиентов по возрастанию);

In [8]:
sql_task_a = '''
            SELECT
                CUSTOMER_ID,
                sum(TX_AMOUNT) as TOTAL_AMOUNT
            FROM
                transaction_bd
            GROUP by
                CUSTOMER_ID
            HAVING TOTAL_AMOUNT > 700000
            ORDER by TOTAL_AMOUNT
'''

data = pd.read_sql(sql_task_a, connection)
data

Unnamed: 0,CUSTOMER_ID,TOTAL_AMOUNT
0,2249,707478.64
1,3116,721980.69
2,389,753411.9
3,4163,765153.63
4,2891,786115.87


#####  B. Вывести всех клиентов, у которых сумма транзакций больше 200000 за период 01.01.2023 - 13.01.2023 (сортируя клиентов по возрастанию);

In [9]:
sql_task_b = '''
                    SELECT
                        CUSTOMER_ID,
                        sum(TX_AMOUNT) as TOTAL_AMOUNT
                    FROM
                        transaction_bd
                    WHERE TX_DATETIME BETWEEN '2023-01-01 00:00:00' AND '2023-01-13 23:59:59'
                    GROUP by CUSTOMER_ID
                    HAVING TOTAL_AMOUNT > 200000
                    ORDER by TOTAL_AMOUNT
'''

data = pd.read_sql(sql_task_b, connection)
data

Unnamed: 0,CUSTOMER_ID,TOTAL_AMOUNT
0,3406,207733.48
1,4252,220650.36
2,1918,241299.96
3,3833,269107.4


##### C. Вывести тех клиентов, у которых id начинается с 4 и количество транзакций за весь период более 444;

In [50]:
sql_task_c = '''
                    SELECT
                        CUSTOMER_ID,
                        count(TX_AMOUNT) as COUNT_AMOUNT
                    FROM
                        (SELECT
                            *
                        FROM
                            transaction_bd
                        WHERE substr(CUSTOMER_ID, 1, 1) = '4')
                    GROUP by CUSTOMER_ID
                    HAVING COUNT_AMOUNT > 444
                    ORDER by COUNT_AMOUNT
                '''

pd.read_sql(sql_task_c, connection)

Unnamed: 0,CUSTOMER_ID,COUNT_AMOUNT
0,4539,445
1,4661,449
2,4231,451


##### D. Создать флаг доходности клиентов по логике:

- 1. Если сумма транзакций не более 50000, тогда вывести 'низкая доходность';
- 2. Если сумма транзакций больше 50000 и не более 10000 тогда вывести 'средняя доходность';
- 3. Если сумма транзакций больше 100000 тогда вывести 'высокая доходность'.

In [51]:
# Добавление столбца 'INCOME_LEVEL' с флагом доходности клиентов
cursor.execute('ALTER TABLE transaction_bd ADD COLUMN INCOME_LEVEL TEXT')

<sqlite3.Cursor at 0x2160c26b6c0>

In [10]:
# Заполнение столбца 'INCOME_LEVEL'
cursor.execute('''UPDATE transaction_bd SET INCOME_LEVEL = t.TOTAL_AMOUNT
                    FROM
                        (SELECT
                            CUSTOMER_ID,
                            CASE
                                WHEN sum(TX_AMOUNT) <= 50000 THEN 'низкая доходность'
                                WHEN sum(TX_AMOUNT) <= 100000 THEN 'средняя доходность'
                                ELSE 'высокая доходность'
                            END  as TOTAL_AMOUNT
                        FROM
                            transaction_bd
                        GROUP BY CUSTOMER_ID) as t
                    WHERE transaction_bd.CUSTOMER_ID=t.CUSTOMER_ID''')

<sqlite3.Cursor at 0x25ad6df9b20>

In [11]:
connection.commit()

##### E. Посмотреть количество клиентов с каждым видом доходности ([из пункта 2.D](#D.-Создать-флаг-доходности-клиентов-по-логике:));

In [12]:
sql_task_e = '''
                SELECT
                    INCOME_LEVEL,
                    count(CUSTOMER_ID) as COUNT_CUSTOMER
                FROM
                    (SELECT
                        CUSTOMER_ID,
                        INCOME_LEVEL
                    FROM
                        transaction_bd
                    GROUP by
                        CUSTOMER_ID,
                        INCOME_LEVEL)
                GROUP by INCOME_LEVEL
'''
data = pd.read_sql(sql_task_e, connection)
data

Unnamed: 0,INCOME_LEVEL,COUNT_CUSTOMER
0,высокая доходность,2167
1,низкая доходность,1812
2,средняя доходность,1007


##### F. Вывести сумму транзакций за каждый день (сортируя дни по возрастанию).

In [13]:
sql_task_f = '''
                SELECT
                    date(TX_DATETIME) as DATE,
                    sum(TX_AMOUNT) as TOTAL_AMOUNT
                FROM
                    transaction_bd
                GROUP by DATE
                ORDER by DAtE
            '''
data = pd.read_sql(sql_task_f, connection)
data

Unnamed: 0,DATE,TOTAL_AMOUNT
0,2023-01-01,4827656.26
1,2023-01-02,4862551.41
2,2023-01-03,5058973.71
3,2023-01-04,4938142.47
4,2023-01-05,5002954.23
...,...,...
105,2023-04-16,5299386.81
106,2023-04-17,5100973.31
107,2023-04-18,5233557.39
108,2023-04-19,5194846.44


[Вернуться к условиям](#Условия)

#### Шаг 3

(Балл - 0.2) Подготовить дашборд с помощью Dash по пункту 2.F, включив туда графики bar и histogram; вставить в конце ноутбука скрин графиков из дашборда.

In [14]:
from dash import Dash, html, dcc
import plotly.express as px
import pandas as pd

app = Dash()

fig1 = px.bar(data, x="DATE", y="TOTAL_AMOUNT", title = 'Зависимость суммы транзакций от даты')

fig2 = px.histogram(data, x="TOTAL_AMOUNT", nbins = 100, title = 'Зависимость суммы транзакций от даты')

app.layout = html.Div(children=[
    html.H1(children='Данные по транзакциям'),

    html.Div(children='''
        Анализ транзакций.
    '''),

    dcc.Graph(
        id='example-graph',
        figure=fig1
    ),
     dcc.Graph(
        id='example-graph1',
        figure=fig2
    )
])

app.run_server()


KeyboardInterrupt



In [15]:
connection.close()

![newplot.png](attacment:newplot.png)