# Day 4: 기초 분석 및 시각화 (1)

**날짜**: 2025-07-07

**목표**:
- 통합 데이터 로드
- 상관분석 (Pearson, Spearman)
- 상관 행렬 히트맵
- 자치구별 CCTV 및 범죄 비교 (막대그래프)
- 상위/하위 자치구 분석

In [None]:
import sys
import os
sys.path.append('..')

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats

from utils import *

set_korean_font()
set_plot_style()
pd.set_option('display.max_columns', None)

print("✅ Day 4: 기초 분석 및 시각화")

## 1. 통합 데이터 로드

In [None]:
df = pd.read_csv(os.path.join(DATA_PATHS['processed'], 'integrated_data.csv'), encoding='utf-8-sig')
print(f"데이터 로드: {df.shape}")
df.head(3)

## 2. 상관분석

In [None]:
# 주요 변수 선택
corr_vars = [
    '인구당_총CCTV', '인구당_방범용', '인구당_교통단속용',
    '인구당_CCTV효과범죄율', '인구당_절도율', '인구당_강도율',
    '인구밀도'
]

# Pearson 상관계수
corr_matrix = df[corr_vars].corr(method='pearson')

# 히트맵
plt.figure(figsize=(10, 8))
sns.heatmap(corr_matrix, annot=True, fmt='.3f', cmap='coolwarm', center=0,
            square=True, linewidths=1, cbar_kws={"shrink": 0.8})
plt.title('주요 변수 상관계수 히트맵 (Pearson)', fontsize=14, fontweight='bold')
plt.tight_layout()
plt.savefig(os.path.join(DATA_PATHS['figures'], 'day4_correlation_heatmap.png'), dpi=300)
plt.show()

print("\n주요 상관계수:")
print(f"인구당 총CCTV vs 범죄율: {df['인구당_총CCTV'].corr(df['인구당_CCTV효과범죄율']):.4f}")
print(f"인구당 방범용 vs 범죄율: {df['인구당_방범용'].corr(df['인구당_CCTV효과범죄율']):.4f}")

## 3. 자치구별 비교 (막대그래프)

In [None]:
# 인구당 CCTV 상위 10개 자치구
top10 = df.nlargest(10, '인구당_총CCTV').sort_values('인구당_총CCTV')

fig, ax = plt.subplots(figsize=(10, 6))
ax.barh(top10['자치구'], top10['인구당_총CCTV'], color='steelblue')
ax.set_xlabel('인구당 총CCTV (대/천명)', fontsize=12)
ax.set_title('인구당 CCTV 상위 10개 자치구', fontsize=14, fontweight='bold')
ax.grid(axis='x', alpha=0.3)
plt.tight_layout()
plt.savefig(os.path.join(DATA_PATHS['figures'], 'day4_top10_cctv.png'), dpi=300)
plt.show()

In [None]:
# 인구당 범죄율 상위 10개 자치구
top10_crime = df.nlargest(10, '인구당_CCTV효과범죄율').sort_values('인구당_CCTV효과범죄율')

fig, ax = plt.subplots(figsize=(10, 6))
ax.barh(top10_crime['자치구'], top10_crime['인구당_CCTV효과범죄율'], color='coral')
ax.set_xlabel('인구당 CCTV효과범죄율 (건/천명)', fontsize=12)
ax.set_title('인구당 범죄율 상위 10개 자치구', fontsize=14, fontweight='bold')
ax.grid(axis='x', alpha=0.3)
plt.tight_layout()
plt.savefig(os.path.join(DATA_PATHS['figures'], 'day4_top10_crime.png'), dpi=300)
plt.show()

## 4. 산점도 분석

In [None]:
# CCTV vs 범죄율 산점도
fig, axes = plt.subplots(1, 2, figsize=(16, 6))

# 총CCTV vs 범죄율
axes[0].scatter(df['인구당_총CCTV'], df['인구당_CCTV효과범죄율'], 
                s=100, alpha=0.6, edgecolors='black')
axes[0].set_xlabel('인구당 총CCTV (대/천명)')
axes[0].set_ylabel('인구당 범죄율 (건/천명)')
axes[0].set_title('총CCTV vs 범죄율')
axes[0].grid(alpha=0.3)

# 방범용CCTV vs 범죄율
axes[1].scatter(df['인구당_방범용'], df['인구당_CCTV효과범죄율'],
                s=100, alpha=0.6, edgecolors='black', color='green')
axes[1].set_xlabel('인구당 방범용CCTV (대/천명)')
axes[1].set_ylabel('인구당 범죄율 (건/천명)')
axes[1].set_title('방범용CCTV vs 범죄율')
axes[1].grid(alpha=0.3)

plt.tight_layout()
plt.savefig(os.path.join(DATA_PATHS['figures'], 'day4_scatter_cctv_crime.png'), dpi=300)
plt.show()

In [None]:
print("✅ Day 4 완료")