<div style="border:solid LightGrey 4px; padding: 15px"> 
    Клиенты могут повторно звонить/писать в чат по одному и тому же вопросу.
При этом:

    •	У клиентов могут быть цепочки обращений (например, через 10 минут, потом через 5 часов, затем через 30 минут…)

    •	По конкретному вопросу клиента нет отдельного идентификатора, а есть только тематика (например, «Не поступили деньги на счет»)




Напиши SQL/PostgreSQL-код, который показал бы, насколько это масштабное явление (предпочтительнее в разбивке по тематикам).

При этом вся информация о коммуникации (например, дата-время начала звонка/чата) лежит в одной исходной таблице, а информация о тематиках (а также связь, в какой коммуникации она встречалась) – в другой исходной таблице. Пример исходных данных есть в приложенных файлах.
 
Опиши логику, по которой вычисляются значения из этого отчета.


In [2]:
import pandas as pd
from sqlalchemy import create_engine, sql

engine = create_engine('postgresql+psycopg2://niksautk:**********@localhost/niksautk')

In [5]:
def pstgrsql(query_text):
    query_text = sql.text(query_text)
    connection = engine.connect()
    df_query = pd.read_sql(query_text, connection)
    connection.close()
    return df_query

In [6]:
pstgrsql(
"""
select * from table1 limit 1
""")

Unnamed: 0,topic,comm_id
0,topic_547,comm_1


In [106]:
pstgrsql(
"""
select * from table2 limit 1
""")

Unnamed: 0,comm_id,comm_contact_id,comm_type,comm_created_dttm
0,comm_1,customer_834,CHAT,2023-01-09 00:24:00


In [9]:
pstgrsql(
"""
select min(comm_created_dttm), max(comm_created_dttm) from table2
""")

Unnamed: 0,min,max
0,2023-01-09 00:24:00,2023-01-14 23:58:00


In [15]:
pstgrsql(
"""
---в основном запросе создается сводная таблица из подзапроса, формируются отдельные столбцы
---с кол-ом цепочек в каждой категории (2/3/4/5 и более обращений в цепочке)
SELECT
    topic,
    unique_comm,
    SUM(CASE comm_number WHEN '2' THEN renewed_number ELSE 0 END) AS "2",
    SUM(CASE comm_number WHEN '3' THEN renewed_number ELSE 0 END) AS "3",
    SUM(CASE comm_number WHEN '4' THEN renewed_number ELSE 0 END) AS "4",
    SUM(CASE comm_number WHEN '5+' THEN renewed_number ELSE 0 END) AS "5+",
    SUM(renewed_number) AS renewed_total,
    ROUND(SUM(share_percent), 2) AS share_percent
FROM
    ---во втором подзапросе аггрегируется, сколько было цепочек 
    ---с разбивкой по тематикам и по кол-ву повторов.
    (
    SELECT
        topic,
        comm_number,
        count(comm_contact_id) AS renewed_number,
        SUM (count(comm_contact_id)) OVER (PARTITION BY topic) AS unique_comm,
        count(comm_contact_id) / (SUM (count(comm_contact_id)) OVER (PARTITION BY topic)) * 100 as share_percent
    FROM
        ---в первом подзапросе формируется список юзеров, тематик их обращений, 
        ---и кол-во обращений в цепочке (1/2/3/4/5 и более)
        (
        SELECT
            a.topic,
            b.comm_contact_id,
            CASE
                WHEN count(a.comm_id) < 5 
                    THEN CAST(count(a.comm_id) AS varchar(3))
                ELSE '5+'
            END AS comm_number
        FROM
            table1 a
            LEFT JOIN table2 b
            USING (comm_id)
        GROUP BY topic, comm_contact_id
        ) AS subquery1
    GROUP BY topic, comm_number
    ) AS subquery2
WHERE comm_number != '1'
GROUP BY topic, unique_comm
ORDER BY share_percent DESC, topic
""")

Unnamed: 0,topic,unique_comm,2,3,4,5+,renewed_total,share_percent
0,topic_160,1.0,0.0,0.0,1.0,0.0,1.0,100.00
1,topic_195,1.0,0.0,1.0,0.0,0.0,1.0,100.00
2,topic_201,1.0,0.0,1.0,0.0,0.0,1.0,100.00
3,topic_232,1.0,1.0,0.0,0.0,0.0,1.0,100.00
4,topic_243,1.0,1.0,0.0,0.0,0.0,1.0,100.00
...,...,...,...,...,...,...,...,...
113,topic_31,18.0,1.0,0.0,0.0,0.0,1.0,5.56
114,topic_27,19.0,0.0,1.0,0.0,0.0,1.0,5.26
115,topic_24,22.0,1.0,0.0,0.0,0.0,1.0,4.55
116,topic_20,26.0,1.0,0.0,0.0,0.0,1.0,3.85


<div style="border:solid ForestGreen 4px; padding: 15px">
    В таблице есть как абсолютные, так и относительные цифры по повторным обращениям. Для полного понимания масштабов явления важно смотреть на все показатели.
Также важна их динамика, но данные для анализа содержат очень короткий период. Видимо, оценка динамики заданием не предполагается.

Каждая строка – данные по одной тематике.
Столбцы:

"topic" - название тематики.

"unique_comm" - всего уникальных обращений по тематике, повторы не учитываются.

"2" - кол-во цепочек из двух сообщений по тематике.
    
"3" - кол-во цепочек из трёх сообщений по тематике.
    
"4" - кол-во цепочек из четырёх сообщений по тематике.
    
"5+" - кол-во цепочек из пяти и более сообщений по тематике.
    
"renewed_total" – всего цепочек с повторными сообщениями по тематике.
    
"share_percent" - доля цепочек с повторными обращениями от всех уникальных обращений по тематике.