# Phase 2 개요 (Structural Analysis 시작)

목표: 국제범죄를 건수가 아니라 **구조(구성비 벡터)**로 재정의

입력 데이터:

data_processed/shares_year_category.csv (계약상 Phase 2 단일 입력)

산출물:

구조 벡터 테이블

이후 Change Point / Regime 분석의 입력

## Phase 2-1. Structural Vectorization

본 노트북은 국제범죄를 연도별 단일 수치가 아닌  
범죄 유형 구성비로 이루어진 **구조 벡터(structural vector)**로 재정의한다.

- 분석 단위: 연도(year)
- 차원: 표준 범죄 유형(category_std, 7개)
- 핵심 데이터: share (구성비)

본 단계의 결과는 이후
- 구조 변화 탐지 (Change Point Detection)
- 국면(Regime) 분석
의 입력으로 사용된다.

In [2]:
# Structural Vectorization - Setup

import pandas as pd

DATA_PATH = "data_processed/shares_year_category.csv"

df = pd.read_csv(DATA_PATH)

# 기본 확인
df.head(), df.columns


(   year category_std     count source_primary period_flag  notes  total_count  \
 0  2005         DRUG    4734.0            NPA        CORE    NaN    4613632.0   
 1  2005  TRAFFICKING    3966.0            NPA        CORE    NaN    4613632.0   
 2  2005    SMUGGLING    4258.0            NPA        CORE    NaN    4613632.0   
 3  2005        CYBER    6931.0            NPA        CORE    NaN    4613632.0   
 4  2005    FRAUD_FIN  240315.0            NPA        CORE    NaN    4613632.0   
 
       share  
 0  0.001026  
 1  0.000860  
 2  0.000923  
 3  0.001502  
 4  0.052088  ,
 Index(['year', 'category_std', 'count', 'source_primary', 'period_flag',
        'notes', 'total_count', 'share'],
       dtype='str'))

In [8]:
# Structural Vectorization - Setup

import pandas as pd

DATA_PATH = "data_processed/shares_year_category.csv"

df = pd.read_csv(DATA_PATH)

# 기본 확인
df.head(), df.columns
 
    
# 연도 × 범주 구조 벡터 생성

structure_df = (
    df.pivot_table(
        index="year",
        columns="category_std",
        values="share",
        aggfunc="mean"
    )
    .sort_index()
)

# 검증: 행 단위 합 ≈ 1
structure_df["row_sum"] = structure_df.sum(axis=1)

structure_df.head()

# 구조 벡터 합 검증
structure_df["row_sum"].describe()


count    2.000000e+01
mean     1.000000e+00
std      1.298734e-16
min      1.000000e+00
25%      1.000000e+00
50%      1.000000e+00
75%      1.000000e+00
max      1.000000e+00
Name: row_sum, dtype: float64

# Cell 1 — Phase 2-2. Change Point Detection (구조 전환 탐지)

## Phase 2-2. 구조 변화 탐지 (Change Point Detection)

본 단계에서는 연도별 국제범죄 구조 벡터의 변화가
연속적인 흐름이 아니라 **특정 시점에서 구조적으로 전환되었는지**를 탐지한다.

- 입력 데이터: 연도 × 범죄유형 구성비(share)
- 분석 대상: CORE 기간(2005–2023)
- 관점: 개별 범죄 증가가 아닌 **구성 전체의 변화**

이 단계의 목적은
“언제 국제범죄 구조가 달라졌는가”를 데이터 기반으로 식별하는 것이다.

### Code Cell 1 — 데이터 준비 (CORE 구조 벡터)

In [12]:
import pandas as pd
import numpy as np

# 데이터 로드
df = pd.read_csv("data_processed/shares_year_category.csv")

# CORE 기간만 사용
core_df = df[df["period_flag"] == "CORE"]

# 구조 벡터 (year × category)
X = (
    core_df
    .pivot_table(index="year", columns="category_std", values="share", aggfunc="mean")
    .sort_index()
)

years = X.index.values
X_values = X.values

X.head()


category_std,CYBER,DRUG,FRAUD_FIN,IMMIGRATION,OTHER,SMUGGLING,TRAFFICKING
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
2005,0.001502,0.001026,0.052088,0.000366,0.943235,0.000923,0.00086
2006,0.002113,0.001128,0.053421,0.000443,0.940335,0.00085,0.00171
2007,0.002804,0.001423,0.046082,0.000399,0.946518,0.000945,0.001829
2008,0.003029,0.001075,0.045777,0.000559,0.945351,0.000993,0.003217
2009,0.002747,0.001292,0.05019,0.000578,0.939271,0.001083,0.004839


### Change Point 접근 방식

다변량 구조 데이터에 대해 다음 원칙을 적용한다.

- 단일 범죄 유형 ❌
- 전체 구조 벡터 ⭕
- 연속 연도 간 구조 거리 변화를 기반으로 전환 탐지

여기서는
연속 연도 간 **유클리드 거리(Euclidean distance)**를 계산하고,
구조 변화가 급격히 증가하는 지점을 전환 후보로 간주한다.

※ 통계적 “유의성 검정”이 아니라
구조적 “이상 변화 감지” 관점이다.

### Code Cell 2 — 연도 간 구조 거리 계산

In [15]:
# 연도 간 구조 거리 계산
distances = []

for i in range(1, len(X_values)):
    d = np.linalg.norm(X_values[i] - X_values[i-1])
    distances.append(d)

dist_df = pd.DataFrame({
    "year": years[1:],          # 변화가 발생한 연도
    "structure_distance": distances
})

dist_df.head()


Unnamed: 0,year,structure_distance
0,2006,0.003362
1,2007,0.009627
2,2008,0.001892
3,2009,0.007694
4,2010,0.004031


### 구조 전환 후보 정의

구조 거리 분포 상에서
- 평균 대비 급격히 큰 변화
- 시계열상 단발성이 아닌 “레벨 이동”을 유발한 지점

을 구조 전환(change point) 후보로 간주한다.

본 프로젝트에서는
상위 변화 지점을 **후보군**으로 제시하고,
이후 국면 분석(regime analysis)에서 정합성을 검증한다.

### Code Cell 3 — Change Point 후보 추출

In [19]:
# 상위 구조 변화 지점 확인
threshold = dist_df["structure_distance"].quantile(0.9)

change_points = dist_df[dist_df["structure_distance"] >= threshold]

change_points


Unnamed: 0,year,structure_distance
12,2018,0.019636
14,2020,0.018286


In [20]:
import os
import matplotlib.pyplot as plt

# 저장 경로
OUT_DIR = "data_processed"
FIG_DIR = "figures"
os.makedirs(OUT_DIR, exist_ok=True)
os.makedirs(FIG_DIR, exist_ok=True)

# ---------- 1) 연도별 구조 거리 ----------
dist_csv = os.path.join(OUT_DIR, "phase2_structure_distances.csv")
dist_png = os.path.join(FIG_DIR, "phase2_structure_distances_table.png")

dist_df.to_csv(dist_csv, index=False)

fig, ax = plt.subplots(figsize=(8, 6))
ax.axis("off")
tbl = ax.table(
    cellText=dist_df.values,
    colLabels=dist_df.columns,
    loc="center"
)
tbl.auto_set_font_size(False)
tbl.set_fontsize(8)
tbl.scale(1, 1.2)
plt.title("Table P2-2. Structural Distance Between Consecutive Years", pad=10)
plt.tight_layout()
plt.savefig(dist_png, dpi=200)
plt.close()


# ---------- 2) Change Point 후보 ----------
cp_csv = os.path.join(OUT_DIR, "phase2_change_points.csv")
cp_png = os.path.join(FIG_DIR, "phase2_change_points_table.png")

change_points.to_csv(cp_csv, index=False)

fig, ax = plt.subplots(figsize=(8, 4))
ax.axis("off")
tbl = ax.table(
    cellText=change_points.values,
    colLabels=change_points.columns,
    loc="center"
)
tbl.auto_set_font_size(False)
tbl.set_fontsize(9)
tbl.scale(1, 1.3)
plt.title("Table P2-2. Change Point Candidates (Top Structural Shifts)", pad=10)
plt.tight_layout()
plt.savefig(cp_png, dpi=200)
plt.close()

dist_csv, dist_png, cp_csv, cp_png


('data_processed\\phase2_structure_distances.csv',
 'figures\\phase2_structure_distances_table.png',
 'data_processed\\phase2_change_points.csv',
 'figures\\phase2_change_points_table.png')

## Phase 2-3. Regime Analysis (국면 기반 구조 분석)

본 단계에서는 연도별 국제범죄 구조 벡터를
연속된 시간 흐름이 아닌 **구조적 유사성** 기준으로 군집화하여
서로 다른 **국면(Regime)** 을 정의한다.

- 분석 단위: 연도
- 입력: 범죄 유형 구성비 기반 구조 벡터
- 목표:
  1) 구조적으로 유사한 연도들을 하나의 국면으로 묶기
  2) Change Point 결과와의 정합성 확인

이 단계에서는 시간 정보는 보조적으로만 사용하며,
군집은 구조 공간에서 수행한다.

### Code Cell — Regime Clustering (KMeans, CORE)

In [27]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans

# 데이터 로드
df = pd.read_csv("data_processed/shares_year_category.csv")

# CORE 기간만 사용
core_df = df[df["period_flag"] == "CORE"]

# 구조 벡터 (year × category)
X = (
    core_df
    .pivot_table(index="year", columns="category_std", values="share", aggfunc="mean")
    .sort_index()
)

years = X.index.values
X_values = X.values

# (선택) 스케일링 – 구성비 데이터라 큰 영향은 없지만 안정성 확보
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X_values)

# 군집 수 설정 (Change Point 결과를 고려해 3개 권장)
k = 3
kmeans = KMeans(n_clusters=k, random_state=42, n_init=20)
labels = kmeans.fit_predict(X_scaled)

# 결과 정리
regime_df = pd.DataFrame({
    "year": years,
    "regime": labels
}).sort_values("year")

regime_df


Unnamed: 0,year,regime
0,2005,0
1,2006,0
2,2007,0
3,2008,2
4,2009,2
5,2010,0
6,2011,0
7,2012,0
8,2013,0
9,2014,0
