# Marketing ROI SQL Analysis

**Supabase PostgreSQL 기반 마케팅 데이터 SQL 분석**

이 노트북은 Supabase PostgreSQL에 적재된 810행의 마케팅 캠페인 데이터를 대상으로,  
Window Function, CTE, 집계 함수 등 **고급 SQL 기법**을 활용하여 채널별 성과를 분석합니다.

### 분석 목록
1. 채널별 KPI 요약 — `GROUP BY` + 집계 함수
2. 일별 ROAS 추이 + 7일 이동평균 — `AVG() OVER (ROWS BETWEEN)`
3. 캠페인별 랭킹 — `RANK() OVER (PARTITION BY)`
4. 주중 vs 주말 성과 비교 — `CASE WHEN` + `EXTRACT(DOW)`
5. 월별 성과 트렌드 — `DATE_TRUNC` + `GROUP BY`
6. 채널별 누적 매출 — `SUM() OVER (ORDER BY)`
7. 이상치 탐지 — CTE + Z-score 계산
8. 예산 최적화 시뮬레이션 — `WITH` CTE 기반 ROAS 가중 재배분

### 데이터
- **소스**: `analysis/data/marketing_raw_data.csv` (810행)
- **기간**: 2024-10-01 ~ 2024-12-29 (90일)
- **채널**: Google Ads, Facebook Ads, Naver Ads (각 3개 캠페인)
- **DB**: Supabase PostgreSQL (`marketing_raw_data` 테이블)

In [1]:
import pandas as pd
from sqlalchemy import create_engine
import os
import warnings
from datetime import datetime
warnings.filterwarnings('ignore')

# Supabase PostgreSQL 연결
# 환경변수에서 연결 정보를 가져옵니다 (보안)
DATABASE_URL = os.getenv('SUPABASE_DB_URL',
    'postgresql://postgres.[project-ref]:[password]@aws-0-ap-northeast-2.pooler.supabase.com:6543/postgres'
)

engine = create_engine(DATABASE_URL)

# 연결 테스트 + 서버 정보 출력
row_count = pd.read_sql('SELECT COUNT(*) as cnt FROM marketing_raw_data', engine)
server_info = pd.read_sql("SELECT version() as ver, current_database() as db, inet_server_addr() as host, now() as server_time", engine)

print(f'=== Supabase PostgreSQL Connection Verified ===')
print(f'Server: {server_info["ver"][0][:40]}...')
print(f'Database: {server_info["db"][0]}')
print(f'Host: {server_info["host"][0]} (Seoul Region)')
print(f'Server Time: {server_info["server_time"][0]}')
print(f'Local Time: {datetime.now().strftime("%Y-%m-%d %H:%M:%S")}')
print(f'Table: marketing_raw_data — {row_count["cnt"][0]} rows loaded')
print(f'================================================')

=== Supabase PostgreSQL Connection Verified ===
Server: PostgreSQL 17.6 on aarch64-unknown-linux...
Database: postgres
Host: aws-0-ap-northeast-2 (Seoul Region)
Server Time: 2026-02-09 12:51:36.299902+00:00
Local Time: 2026-02-09 21:51:36
Table: marketing_raw_data — 810 rows loaded


## 1. 채널별 KPI 요약

**SQL 기법**: `GROUP BY` + 집계 함수 (`SUM`, `COUNT`, `ROUND`), 파생 지표 계산

채널별 핵심 성과 지표(KPI)를 한눈에 비교합니다.

In [2]:
query_1 = """
SELECT
  channel,
  COUNT(*) AS data_points,
  ROUND(SUM(cost)::numeric, 2) AS total_cost,
  SUM(impressions) AS total_impressions,
  SUM(clicks) AS total_clicks,
  SUM(conversions) AS total_conversions,
  ROUND(SUM(revenue)::numeric, 2) AS total_revenue,
  ROUND((SUM(revenue) / NULLIF(SUM(cost), 0))::numeric, 2) AS roas,
  ROUND((SUM(clicks)::numeric / NULLIF(SUM(impressions), 0) * 100)::numeric, 2) AS ctr_pct,
  ROUND((SUM(conversions)::numeric / NULLIF(SUM(clicks), 0) * 100)::numeric, 2) AS cvr_pct,
  ROUND((SUM(cost) / NULLIF(SUM(conversions), 0))::numeric, 2) AS cpa
FROM marketing_raw_data
GROUP BY channel
ORDER BY roas DESC;
"""

df1 = pd.read_sql(query_1, engine)
df1

Unnamed: 0,channel,data_points,total_cost,total_impressions,total_clicks,total_conversions,total_revenue,roas,ctr_pct,cvr_pct,cpa
0,Naver Ads,270,50919.22,4584588,238545,12779,165927.24,3.26,5.2,5.36,3.98
1,Google Ads,270,56395.11,5242074,257819,11617,155927.12,2.76,4.92,4.51,4.85
2,Facebook Ads,270,56855.27,4968335,195553,7085,115273.99,2.03,3.94,3.62,8.02


**인사이트**:
- **Naver Ads**가 ROAS 3.26으로 최고 효율. CPA $3.98로 가장 저렴
- **Facebook Ads**는 ROAS 2.03, CPA $8.02로 개선 필요
- Google Ads는 노출·클릭은 최대이나, 전환 효율은 Naver에 뒤처짐

## 2. 일별 ROAS 추이 + 7일 이동평균

**SQL 기법**: Window Function — `AVG() OVER (PARTITION BY ... ORDER BY ... ROWS BETWEEN 6 PRECEDING AND CURRENT ROW)`

일별 ROAS 변동성을 7일 이동평균으로 스무딩하여 트렌드를 파악합니다.

In [3]:
query_2 = """
SELECT
  date,
  channel,
  ROUND((SUM(revenue) / NULLIF(SUM(cost), 0))::numeric, 2) AS daily_roas,
  ROUND(AVG(SUM(revenue) / NULLIF(SUM(cost), 0)) OVER (
    PARTITION BY channel
    ORDER BY date
    ROWS BETWEEN 6 PRECEDING AND CURRENT ROW
  )::numeric, 2) AS roas_7d_ma
FROM marketing_raw_data
GROUP BY date, channel
ORDER BY date, channel;
"""

df2 = pd.read_sql(query_2, engine)
print(f'Shape: {df2.shape} — 90일 x 3채널')
df2.head(10)

Shape: (270, 4) — 90일 x 3채널


Unnamed: 0,date,channel,daily_roas,roas_7d_ma
0,2024-10-01,Facebook Ads,1.85,1.85
1,2024-10-01,Google Ads,2.49,2.49
2,2024-10-01,Naver Ads,2.82,2.82
3,2024-10-02,Facebook Ads,1.82,1.83
4,2024-10-02,Google Ads,3.11,2.8
5,2024-10-02,Naver Ads,3.04,2.93
6,2024-10-03,Facebook Ads,2.38,2.02
7,2024-10-03,Google Ads,2.53,2.71
8,2024-10-03,Naver Ads,3.43,3.09
9,2024-10-04,Facebook Ads,1.96,2.0


**인사이트**:
- 7일 이동평균으로 일별 변동을 스무딩하면, Naver Ads는 일관적으로 ROAS 3.0 이상 유지
- 블랙프라이데이(11/28~12/1) 기간 전 채널 ROAS 급등 확인
- Facebook Ads의 12/18~19 추적 장애 시 ROAS 급락 포착

## 3. 캠페인별 랭킹

**SQL 기법**: `RANK() OVER (PARTITION BY channel ORDER BY ...)` + 전체 랭킹

채널 내 랭킹과 전체 랭킹을 동시에 계산하여 캠페인 성과를 비교합니다.

In [4]:
query_3 = """
SELECT
  channel,
  campaign,
  ROUND(SUM(cost)::numeric, 2) AS total_cost,
  ROUND(SUM(revenue)::numeric, 2) AS total_revenue,
  ROUND((SUM(revenue) / NULLIF(SUM(cost), 0))::numeric, 2) AS roas,
  RANK() OVER (PARTITION BY channel ORDER BY SUM(revenue) / NULLIF(SUM(cost), 0) DESC) AS roas_rank,
  RANK() OVER (ORDER BY SUM(revenue) / NULLIF(SUM(cost), 0) DESC) AS overall_rank
FROM marketing_raw_data
GROUP BY channel, campaign
ORDER BY overall_rank;
"""

df3 = pd.read_sql(query_3, engine)
df3

Unnamed: 0,channel,campaign,total_cost,total_revenue,roas,roas_rank,overall_rank
0,Naver Ads,Naver_Brand,12584.15,51067.45,4.06,1,1
1,Google Ads,Google_Brand,15573.73,53977.43,3.47,1,2
2,Naver Ads,Naver_Retargeting,8438.93,28933.71,3.43,2,3
3,Google Ads,Google_Retargeting,10190.23,30893.35,3.03,2,4
4,Naver Ads,Naver_Shopping,29896.14,85926.08,2.87,3,5
5,Facebook Ads,FB_Retargeting,11971.95,29206.03,2.44,1,6
6,Google Ads,Google_Generic,30631.15,71056.34,2.32,3,7
7,Facebook Ads,FB_Lookalike,25148.79,50052.2,1.99,2,8
8,Facebook Ads,FB_Interest,19734.53,36015.76,1.83,3,9


**인사이트**:
- **Naver_Brand** (ROAS 4.06)가 전체 1위 — 브랜드 키워드의 높은 전환 효율
- 각 채널에서 Brand/Retargeting 캠페인이 Generic/Interest보다 효율적
- Facebook Ads의 모든 캠페인이 전체 하위 3개에 위치 — 채널 전략 재검토 필요

## 4. 주중 vs 주말 성과 비교

**SQL 기법**: `CASE WHEN` + `EXTRACT(DOW FROM date)` — 요일 추출 및 분류

광고 효율이 요일(주중/주말)에 따라 어떻게 달라지는지 비교합니다.

In [5]:
query_4 = """
SELECT
  channel,
  CASE
    WHEN EXTRACT(DOW FROM date) IN (0, 6) THEN 'Weekend'
    ELSE 'Weekday'
  END AS day_type,
  COUNT(DISTINCT date) AS days,
  ROUND(AVG(cost)::numeric, 2) AS avg_daily_cost,
  ROUND(AVG(revenue)::numeric, 2) AS avg_daily_revenue,
  ROUND(AVG(revenue / NULLIF(cost, 0))::numeric, 2) AS avg_roas,
  ROUND(AVG(clicks::numeric / NULLIF(impressions, 0) * 100)::numeric, 2) AS avg_ctr,
  ROUND(AVG(conversions::numeric / NULLIF(clicks, 0) * 100)::numeric, 2) AS avg_cvr
FROM marketing_raw_data
GROUP BY channel, day_type
ORDER BY channel, day_type;
"""

df4 = pd.read_sql(query_4, engine)
df4

Unnamed: 0,channel,day_type,days,avg_daily_cost,avg_daily_revenue,avg_roas,avg_ctr,avg_cvr
0,Facebook Ads,Weekday,64,186.23,375.67,2.09,4.24,3.55
1,Facebook Ads,Weekend,26,270.51,553.14,2.07,4.07,3.74
2,Google Ads,Weekday,64,228.79,625.24,2.92,5.72,4.27
3,Google Ads,Weekend,26,159.83,460.01,2.97,5.71,4.5
4,Naver Ads,Weekday,64,211.56,679.76,3.43,5.83,5.57
5,Naver Ads,Weekend,26,132.04,454.02,3.57,5.96,5.48


**인사이트**:
- Google/Naver는 주말 ROAS가 소폭 높음 (경쟁 감소 + 예산 절감 효과)
- Facebook은 주중/주말 ROAS 차이 미미 (2.09 vs 2.07)
- Naver Ads는 주중 예산을 높이되, 주말도 효율이 좋으므로 유지 전략 권장

## 5. 월별 성과 트렌드

**SQL 기법**: `DATE_TRUNC('month', date)` — 월 단위 집계

10월, 11월, 12월 월별 채널 성과 변화를 추적합니다.

In [6]:
query_5 = """
SELECT
  DATE_TRUNC('month', date)::date AS month,
  channel,
  ROUND(SUM(cost)::numeric, 2) AS total_cost,
  ROUND(SUM(revenue)::numeric, 2) AS total_revenue,
  ROUND((SUM(revenue) / NULLIF(SUM(cost), 0))::numeric, 2) AS roas,
  SUM(conversions) AS total_conversions,
  ROUND((SUM(clicks)::numeric / NULLIF(SUM(impressions), 0) * 100)::numeric, 2) AS ctr_pct
FROM marketing_raw_data
GROUP BY month, channel
ORDER BY month, channel;
"""

df5 = pd.read_sql(query_5, engine)
df5

Unnamed: 0,month,channel,total_cost,total_revenue,roas,total_conversions,ctr_pct
0,2024-10-01,Facebook Ads,16923.21,33387.84,1.97,1920,4.09
1,2024-10-01,Google Ads,17927.68,47605.96,2.66,3251,4.94
2,2024-10-01,Naver Ads,15672.7,48905.19,3.12,3602,5.27
3,2024-11-01,Facebook Ads,19539.3,42775.02,2.19,2344,3.91
4,2024-11-01,Google Ads,18813.31,55232.59,2.94,3522,4.93
5,2024-11-01,Naver Ads,17891.26,61551.74,3.44,4144,5.14
6,2024-12-01,Facebook Ads,20392.76,39111.13,1.92,2821,3.84
7,2024-12-01,Google Ads,19654.12,53088.57,2.7,4844,4.88
8,2024-12-01,Naver Ads,17355.26,55470.31,3.2,5033,5.2


**인사이트**:
- 11월 Naver ROAS 3.44 최고 → 블랙프라이데이 효과 + 성장 트렌드
- 12월 전환수 급증 (Google 4,844, Naver 5,033) → 연말 쇼핑 시즌 효과
- Facebook은 월별 ROAS 변동이 크고 (1.92~2.19), 개선 여지가 큼

## 6. 채널별 누적 매출

**SQL 기법**: `SUM() OVER (PARTITION BY channel ORDER BY date)` — Running Total

채널별 누적 매출 성장 곡선을 Window Function으로 계산합니다.

In [7]:
query_6 = """
SELECT
  date,
  channel,
  ROUND(SUM(revenue)::numeric, 2) AS daily_revenue,
  ROUND(SUM(SUM(revenue)) OVER (
    PARTITION BY channel
    ORDER BY date
  )::numeric, 2) AS cumulative_revenue
FROM marketing_raw_data
GROUP BY date, channel
ORDER BY channel, date;
"""

df6 = pd.read_sql(query_6, engine)
print(f'Shape: {df6.shape} — 90일 x 3채널')
print(f'\n최종 누적 매출:')
for ch in ['Naver Ads', 'Google Ads', 'Facebook Ads']:
    final = df6[df6['channel']==ch]['cumulative_revenue'].iloc[-1]
    print(f'  {ch}: ${final:,.2f}')
df6.head()

Shape: (270, 4) — 90일 x 3채널

최종 누적 매출:
  Naver Ads: $165,927.24
  Google Ads: $155,927.12
  Facebook Ads: $115,273.99


Unnamed: 0,date,channel,daily_revenue,cumulative_revenue
0,2024-10-01,Facebook Ads,827.96,827.96
1,2024-10-02,Facebook Ads,986.35,1814.31
2,2024-10-03,Facebook Ads,1170.58,2984.89
3,2024-10-04,Facebook Ads,955.01,3939.9
4,2024-10-05,Facebook Ads,1507.94,5447.84


**인사이트**:
- Naver Ads가 가장 적은 비용($50.9K)으로 가장 높은 누적 매출($165.9K) 달성
- Google Ads와 Naver Ads의 누적 매출 성장 곡선이 비슷한 기울기
- Facebook Ads는 성장 기울기가 완만 — 투자 대비 매출 회수 속도 느림

## 7. 이상치 탐지 (Z-score)

**SQL 기법**: CTE (`WITH`) + Window Function (`AVG`, `STDDEV` OVER) + Z-score 계산

ROAS가 평균에서 표준편차 2배 이상 벗어난 날을 이상치로 식별합니다.

In [8]:
query_7 = """
WITH channel_stats AS (
  SELECT
    channel,
    date,
    SUM(revenue) / NULLIF(SUM(cost), 0) AS daily_roas,
    AVG(SUM(revenue) / NULLIF(SUM(cost), 0)) OVER (PARTITION BY channel) AS mean_roas,
    STDDEV(SUM(revenue) / NULLIF(SUM(cost), 0)) OVER (PARTITION BY channel) AS std_roas
  FROM marketing_raw_data
  GROUP BY channel, date
)
SELECT
  date,
  channel,
  ROUND(daily_roas::numeric, 2) AS daily_roas,
  ROUND(mean_roas::numeric, 2) AS mean_roas,
  ROUND(std_roas::numeric, 2) AS std_roas,
  ROUND(((daily_roas - mean_roas) / NULLIF(std_roas, 0))::numeric, 2) AS z_score,
  CASE
    WHEN (daily_roas - mean_roas) / NULLIF(std_roas, 0) > 2 THEN 'HIGH'
    WHEN (daily_roas - mean_roas) / NULLIF(std_roas, 0) < -2 THEN 'LOW'
    ELSE 'NORMAL'
  END AS anomaly_flag
FROM channel_stats
WHERE ABS((daily_roas - mean_roas) / NULLIF(std_roas, 0)) > 2
ORDER BY ABS((daily_roas - mean_roas) / NULLIF(std_roas, 0)) DESC;
"""

df7 = pd.read_sql(query_7, engine)
print(f'이상치 총 {len(df7)}건 탐지 (|Z-score| > 2.0)')
df7

이상치 총 14건 탐지 (|Z-score| > 2.0)


Unnamed: 0,date,channel,daily_roas,mean_roas,std_roas,z_score,anomaly_flag
0,2024-11-29,Google Ads,6.03,2.76,0.64,5.1,HIGH
1,2024-11-29,Naver Ads,6.5,3.26,0.64,5.02,HIGH
2,2024-12-01,Naver Ads,6.32,3.26,0.64,4.76,HIGH
3,2024-11-28,Google Ads,5.63,2.76,0.64,4.47,HIGH
4,2024-11-29,Facebook Ads,4.27,2.02,0.51,4.42,HIGH
5,2024-11-28,Facebook Ads,4.1,2.02,0.51,4.09,HIGH
6,2024-12-01,Google Ads,5.29,2.76,0.64,3.94,HIGH
7,2024-12-01,Facebook Ads,3.84,2.02,0.51,3.57,HIGH
8,2024-11-30,Google Ads,4.9,2.76,0.64,3.34,HIGH
9,2024-11-30,Facebook Ads,3.62,2.02,0.51,3.15,HIGH


**인사이트**:
- **블랙프라이데이(11/28~12/1)**: 전 채널 ROAS 급등 — Z-score 최대 5.10 (HIGH)
- **Facebook 추적 장애(12/18~19)**: ROAS 급락 0.44~0.51 — Z-score -3.11 (LOW)
- 이벤트/장애로 인한 이상치를 SQL만으로 정확히 식별 가능

## 8. 예산 최적화 시뮬레이션

**SQL 기법**: 다단계 CTE (`WITH`) + Window Function (`SUM() OVER()`) + `CROSS JOIN`

현재 예산을 ROAS 가중치로 재배분했을 때의 매출 변화를 시뮬레이션합니다.

In [9]:
query_8 = """
WITH channel_perf AS (
  SELECT
    channel,
    SUM(cost) AS total_cost,
    SUM(revenue) AS total_revenue,
    SUM(revenue) / NULLIF(SUM(cost), 0) AS roas
  FROM marketing_raw_data
  GROUP BY channel
),
total_budget AS (
  SELECT SUM(total_cost) AS budget FROM channel_perf
),
optimized AS (
  SELECT
    cp.channel,
    ROUND(cp.total_cost::numeric, 2) AS current_budget,
    ROUND((cp.total_cost / tb.budget * 100)::numeric, 1) AS current_pct,
    ROUND(cp.total_revenue::numeric, 2) AS current_revenue,
    ROUND(cp.roas::numeric, 2) AS roas,
    ROUND((cp.roas / SUM(cp.roas) OVER () * tb.budget)::numeric, 2) AS optimized_budget,
    ROUND((cp.roas / SUM(cp.roas) OVER () * 100)::numeric, 1) AS optimized_pct
  FROM channel_perf cp
  CROSS JOIN total_budget tb
)
SELECT
  channel,
  current_budget,
  current_pct,
  current_revenue,
  roas,
  optimized_budget,
  optimized_pct,
  ROUND((optimized_budget - current_budget)::numeric, 2) AS budget_change,
  ROUND((optimized_budget * roas)::numeric, 2) AS projected_revenue,
  ROUND((optimized_budget * roas - current_revenue)::numeric, 2) AS revenue_change
FROM optimized
ORDER BY roas DESC;
"""

df8 = pd.read_sql(query_8, engine)

total_budget = df8['current_budget'].astype(float).sum()
current_rev = df8['current_revenue'].astype(float).sum()
projected_rev = df8['projected_revenue'].astype(float).sum()
print(f'=== 예산 최적화 시뮬레이션 결과 ===')
print(f'총 예산: ${total_budget:,.2f} (변동 없음)')
print(f'현재 총 매출: ${current_rev:,.2f}')
print(f'예상 총 매출: ${projected_rev:,.2f}')
print(f'매출 증가분: +${projected_rev - current_rev:,.2f} (+{(projected_rev - current_rev) / current_rev * 100:.1f}%)')

df8

=== 예산 최적화 시뮬레이션 결과 ===
총 예산: $164,169.60 (변동 없음)
현재 총 매출: $437,128.35
예상 총 매출: $456,151.35
매출 증가분: +$19,023.00 (+4.4%)


Unnamed: 0,channel,current_budget,current_pct,current_revenue,roas,optimized_budget,optimized_pct,budget_change,projected_revenue,revenue_change
0,Naver Ads,50919.22,31.0,165927.24,3.26,66447.2,40.5,15527.98,216617.87,50690.63
1,Google Ads,56395.11,34.4,155927.12,2.76,56379.46,34.3,-15.65,155607.31,-319.81
2,Facebook Ads,56855.27,34.6,115273.99,2.03,41342.94,25.2,-15512.33,83926.17,-31347.82


**인사이트**:
- ROAS 가중 재배분으로 동일 예산 대비 **+$19,023 (+4.4%) 매출 증가** 가능
- Naver Ads에 $15.5K 추가 투자 (31% → 40.5%)
- Facebook Ads에서 $15.5K 절감 (34.6% → 25.2%)
- Google Ads는 현재 비중 유지 (ROAS 평균에 근접)

---

## 핵심 인사이트 정리

### SQL 분석으로 도출한 5가지 핵심 인사이트

| # | 인사이트 | SQL 기법 | 액션 |
|---|---------|----------|------|
| 1 | Naver Ads ROAS 3.26 최고 효율, CPA $3.98 최저 | GROUP BY + 집계 | Naver 예산 +30% 확대 |
| 2 | 블랙프라이데이 전 채널 ROAS 2~3배 급등 | CTE + Z-score | 시즌 이벤트 예산 사전 확보 |
| 3 | Facebook 12/18~19 추적 장애로 ROAS 급락 | Window + CASE | 실시간 모니터링 알림 구축 |
| 4 | Brand 캠페인이 전 채널 1위 (ROAS 3.47~4.06) | RANK OVER PARTITION | 브랜드 키워드 예산 우선 배정 |
| 5 | ROAS 가중 재배분으로 +4.4% 매출 증가 가능 | 다단계 CTE + CROSS JOIN | 월별 예산 리밸런싱 도입 |

### 사용된 SQL 고급 기법

| 기법 | 쿼리 | 용도 |
|------|------|------|
| `GROUP BY` + 집계 함수 | Q1, Q5 | 채널/월별 KPI 요약 |
| `AVG() OVER (ROWS BETWEEN)` | Q2 | 7일 이동평균 |
| `RANK() OVER (PARTITION BY)` | Q3 | 채널 내 + 전체 랭킹 |
| `CASE WHEN` + `EXTRACT(DOW)` | Q4 | 주중/주말 분류 |
| `DATE_TRUNC('month')` | Q5 | 월 단위 트렌드 |
| `SUM() OVER (ORDER BY)` | Q6 | 누적 합계 (Running Total) |
| CTE + `STDDEV() OVER` | Q7 | Z-score 이상치 탐지 |
| 다단계 CTE + `CROSS JOIN` | Q8 | 예산 최적화 시뮬레이션 |