In [None]:

import pandas as pd
from sqlalchemy import create_engine

engine = create_engine("postgresql://user:password@localhost:5432/dbname")

# SQL 1. Отсутствие отзывов снижает конверсию
query_reviews = """
SELECT 
    p.product_id,
    p.name,
    COUNT(o.order_id) AS total_orders,
    COUNT(r.review_id) AS total_reviews
FROM products p
LEFT JOIN orders o ON p.product_id = o.product_id
LEFT JOIN reviews r ON o.order_id = r.order_id
GROUP BY p.product_id, p.name
HAVING COUNT(r.review_id) = 0
ORDER BY total_orders DESC;
"""
#Что даёт: покажет товары без отзывов, которые всё ещё покупают именно их и нужно будет продвигать, например делать просьбу оставить отзыв.




df_reviews = pd.read_sql(query_reviews, engine)
print("Гипотеза 1 — товары без отзывов:")
print(df_reviews.head(), "\n")


# SQL 2. Задержки курьеров и повторные заказы
query_delays = """
WITH delays AS (
    SELECT 
        o.client_id,
        CASE WHEN o.delivery_date > o.expected_delivery_date THEN 1 ELSE 0 END AS is_delayed
    FROM orders o
)
SELECT 
    is_delayed,
    COUNT(DISTINCT client_id) AS clients,
    COUNT(DISTINCT CASE WHEN client_id IN (
        SELECT client_id 
        FROM orders 
        GROUP BY client_id 
        HAVING COUNT(order_id) > 1
    ) THEN client_id END) AS repeat_clients
FROM delays
GROUP BY is_delayed;
"""

df_delays = pd.read_sql(query_delays, engine)
print("Гипотеза 2 — задержки доставки и повторные заказы:")
print(df_delays.head(), "\n")
#Что это даёт: можно сравнить % повторных заказов у тех кто столкнулся с задержкой, и у тех, у кого доставка была вовремя и сделать выводы.


# SQL 3. Промоакции
query_promotions = """
SELECT 
    p.product_id,
    p.name,
    COUNT(o.order_id) FILTER (WHERE o.order_date BETWEEN pr.start_date AND pr.end_date) AS sales_during_promo,
    COUNT(o.order_id) FILTER (WHERE o.order_date NOT BETWEEN pr.start_date AND pr.end_date) AS sales_outside_promo
FROM products p
LEFT JOIN promotions pr ON p.product_id = pr.product_id
LEFT JOIN orders o ON p.product_id = o.product_id
GROUP BY p.product_id, p.name
ORDER BY sales_during_promo DESC;
"""

df_promotions = pd.read_sql(query_promotions, engine)
print("Гипотеза 3 — промоакции:")
print(df_promotions.head(), "\n")

#Что это даёт: можно увидеть есть ли рост заказов именно на промо товары или скидки висят на продуктах, которые и так почти никто не покупает. Если так то  надо перенаправить акции на более популярные.

# SQL 4. Скорость поддержки и отмены
query_support = """
SELECT 
    CASE 
        WHEN EXTRACT(EPOCH FROM (s.response_time - s.create_time))/60 < 30 THEN 'fast'
        WHEN EXTRACT(EPOCH FROM (s.response_time - s.create_time))/60 BETWEEN 30 AND 120 THEN 'medium'
        ELSE 'slow'
    END AS response_speed,
    COUNT(DISTINCT s.ticket_id) AS total_tickets,
    COUNT(DISTINCT o.order_id) FILTER (WHERE o.status = 'cancelled') AS cancelled_orders,
    ROUND(
        COUNT(DISTINCT o.order_id) FILTER (WHERE o.status = 'cancelled')::NUMERIC 
        / NULLIF(COUNT(DISTINCT s.ticket_id),0), 2
    ) AS cancel_rate
FROM support_tickets s
LEFT JOIN orders o ON s.order_id = o.order_id
GROUP BY response_speed
ORDER BY cancel_rate DESC;
"""

df_support = pd.read_sql(query_support, engine)
print("Гипотеза 4 — поддержка и отмены:")
print(df_support.head(), "\n")
#Что даёт: если видно, что при медленных ответах сильно растёт cancel_rate то значит, приоритетное улучшение это скорость поддержки (автоответы,  SLA ≤ 15 мин).

