# Day 1: 초기 데이터 탐색 (Initial Data Exploration)

**날짜**: 2025-07-04

**목표**: 
- 데이터 소스 확인 및 다운로드
- 각 데이터셋의 기본 구조 파악
- 자치구명 필드 표기 확인

**데이터 소스**:
1. CCTV 설치 현황: 서울 열린데이터광장
2. 범죄 통계: 공공데이터포털/경찰청
3. 인구 통계: 통계청/서울시
4. 행정구 경계: 공간정보 오픈플랫폼

In [None]:
# 필요한 라이브러리 임포트
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings

warnings.filterwarnings('ignore')

# 한글 폰트 설정 (Windows)
plt.rcParams['font.family'] = 'Malgun Gothic'
plt.rcParams['axes.unicode_minus'] = False

# 출력 설정
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 50)

print("라이브러리 임포트 완료")

## 1. CCTV 설치 현황 데이터 탐색

In [None]:
# CCTV 데이터 로드 (실제 환경에서는 다운로드한 파일 경로 지정)
# 예시: cctv_df = pd.read_csv('../data/raw/cctv_seoul_2023.csv', encoding='cp949')

# 샘플 데이터 생성 (실제 데이터 구조 가정)
# 서울시 25개 자치구
districts = ['종로구', '중구', '용산구', '성동구', '광진구', '동대문구', '중랑구', 
             '성북구', '강북구', '도봉구', '노원구', '은평구', '서대문구', '마포구',
             '양천구', '강서구', '구로구', '금천구', '영등포구', '동작구', '관악구',
             '서초구', '강남구', '송파구', '강동구']

# CCTV 샘플 데이터 생성
np.random.seed(42)
cctv_data = {
    '자치구': districts,
    '방범용': np.random.randint(500, 3000, size=25),
    '교통단속용': np.random.randint(100, 500, size=25),
    '어린이안전용': np.random.randint(50, 300, size=25),
    '기타': np.random.randint(50, 200, size=25)
}

cctv_df = pd.DataFrame(cctv_data)
cctv_df['총_CCTV'] = cctv_df[['방범용', '교통단속용', '어린이안전용', '기타']].sum(axis=1)

# 샘플 데이터를 raw 폴더에 저장
cctv_df.to_csv('../data/raw/cctv_seoul_2023_sample.csv', index=False, encoding='utf-8-sig')

print("[CCTV 데이터 기본 정보]")
print(f"행 개수: {len(cctv_df)}")
print(f"열 개수: {len(cctv_df.columns)}")
print(f"\n데이터 타입:\n{cctv_df.dtypes}")
print(f"\n결측치:\n{cctv_df.isnull().sum()}")
print(f"\n처음 5개 행:")
cctv_df.head()

In [None]:
# CCTV 데이터 기초 통계
print("[CCTV 데이터 기초 통계]")
cctv_df.describe()

## 2. 범죄 통계 데이터 탐색

In [None]:
# 범죄 통계 데이터 로드
# 실제: crime_df = pd.read_csv('../data/raw/crime_seoul_2023.csv', encoding='cp949')

# CCTV 효과 범죄 샘플 데이터 생성
np.random.seed(42)
crime_data = {
    '자치구': districts,
    '절도': np.random.randint(100, 800, size=25),
    '강도': np.random.randint(5, 50, size=25),
    '차량범죄': np.random.randint(50, 300, size=25),
    '공공장소폭력': np.random.randint(80, 400, size=25),
    '성범죄': np.random.randint(30, 150, size=25)
}

crime_df = pd.DataFrame(crime_data)
crime_df['CCTV효과범죄_합계'] = crime_df[['절도', '강도', '차량범죄']].sum(axis=1)
crime_df['총_범죄'] = crime_df[['절도', '강도', '차량범죄', '공공장소폭력', '성범죄']].sum(axis=1)

# 저장
crime_df.to_csv('../data/raw/crime_seoul_2023_sample.csv', index=False, encoding='utf-8-sig')

print("[범죄 데이터 기본 정보]")
print(f"행 개수: {len(crime_df)}")
print(f"열 개수: {len(crime_df.columns)}")
print(f"\n데이터 타입:\n{crime_df.dtypes}")
print(f"\n결측치:\n{crime_df.isnull().sum()}")
print(f"\n처음 5개 행:")
crime_df.head()

In [None]:
# 범죄 데이터 기초 통계
print("[범죄 데이터 기초 통계]")
crime_df.describe()

## 3. 인구 통계 데이터 탐색

In [None]:
# 인구 통계 데이터 로드
# 실제: population_df = pd.read_csv('../data/raw/population_seoul_2023.csv', encoding='cp949')

# 인구 샘플 데이터 생성 (실제 서울시 자치구 인구와 유사하게)
np.random.seed(42)
population_data = {
    '자치구': districts,
    '인구수': [150000 + np.random.randint(-30000, 50000) for _ in range(25)],
    '면적_km2': [20 + np.random.uniform(-10, 20) for _ in range(25)]
}

population_df = pd.DataFrame(population_data)
population_df['인구밀도'] = (population_df['인구수'] / population_df['면적_km2']).round(0)

# 저장
population_df.to_csv('../data/raw/population_seoul_2023_sample.csv', index=False, encoding='utf-8-sig')

print("[인구 데이터 기본 정보]")
print(f"행 개수: {len(population_df)}")
print(f"열 개수: {len(population_df.columns)}")
print(f"\n데이터 타입:\n{population_df.dtypes}")
print(f"\n결측치:\n{population_df.isnull().sum()}")
print(f"\n처음 5개 행:")
population_df.head()

In [None]:
# 인구 데이터 기초 통계
print("[인구 데이터 기초 통계]")
population_df.describe()

## 4. 자치구명 필드 일치 여부 확인

In [None]:
# 각 데이터프레임의 자치구명 확인
print("[CCTV 데이터 자치구명]")
print(sorted(cctv_df['자치구'].unique()))
print(f"\n총 {len(cctv_df['자치구'].unique())}개 자치구")

print("\n[범죄 데이터 자치구명]")
print(sorted(crime_df['자치구'].unique()))
print(f"\n총 {len(crime_df['자치구'].unique())}개 자치구")

print("\n[인구 데이터 자치구명]")
print(sorted(population_df['자치구'].unique()))
print(f"\n총 {len(population_df['자치구'].unique())}개 자치구")

In [None]:
# 자치구명 일치 여부 확인
cctv_districts = set(cctv_df['자치구'])
crime_districts = set(crime_df['자치구'])
population_districts = set(population_df['자치구'])

print("[자치구명 일치 여부 확인]")
print(f"CCTV와 범죄 데이터 일치: {cctv_districts == crime_districts}")
print(f"CCTV와 인구 데이터 일치: {cctv_districts == population_districts}")
print(f"범죄와 인구 데이터 일치: {crime_districts == population_districts}")

# 불일치하는 자치구명 확인
if cctv_districts != crime_districts:
    print(f"\nCCTV에만 있는 자치구: {cctv_districts - crime_districts}")
    print(f"범죄에만 있는 자치구: {crime_districts - cctv_districts}")

if cctv_districts != population_districts:
    print(f"\nCCTV에만 있는 자치구: {cctv_districts - population_districts}")
    print(f"인구에만 있는 자치구: {population_districts - cctv_districts}")

## 5. 간단한 시각화로 데이터 품질 확인

In [None]:
# CCTV 대수 분포 확인
fig, axes = plt.subplots(1, 2, figsize=(14, 5))

# 총 CCTV 분포
axes[0].hist(cctv_df['총_CCTV'], bins=15, edgecolor='black', alpha=0.7)
axes[0].set_title('총 CCTV 대수 분포', fontsize=14, fontweight='bold')
axes[0].set_xlabel('CCTV 대수')
axes[0].set_ylabel('자치구 수')
axes[0].axvline(cctv_df['총_CCTV'].mean(), color='red', linestyle='--', label=f'평균: {cctv_df["총_CCTV"].mean():.0f}')
axes[0].legend()

# 방범용 CCTV 분포
axes[1].hist(cctv_df['방범용'], bins=15, edgecolor='black', alpha=0.7, color='green')
axes[1].set_title('방범용 CCTV 대수 분포', fontsize=14, fontweight='bold')
axes[1].set_xlabel('방범용 CCTV 대수')
axes[1].set_ylabel('자치구 수')
axes[1].axvline(cctv_df['방범용'].mean(), color='red', linestyle='--', label=f'평균: {cctv_df["방범용"].mean():.0f}')
axes[1].legend()

plt.tight_layout()
plt.savefig('../results/figures/day1_cctv_distribution.png', dpi=300, bbox_inches='tight')
plt.show()

print(f"총 CCTV 평균: {cctv_df['총_CCTV'].mean():.2f}")
print(f"총 CCTV 중앙값: {cctv_df['총_CCTV'].median():.2f}")
print(f"총 CCTV 표준편차: {cctv_df['총_CCTV'].std():.2f}")

In [None]:
# 범죄 건수 분포 확인
fig, axes = plt.subplots(1, 2, figsize=(14, 5))

# 총 범죄 분포
axes[0].hist(crime_df['총_범죄'], bins=15, edgecolor='black', alpha=0.7, color='orange')
axes[0].set_title('총 범죄 건수 분포', fontsize=14, fontweight='bold')
axes[0].set_xlabel('범죄 건수')
axes[0].set_ylabel('자치구 수')
axes[0].axvline(crime_df['총_범죄'].mean(), color='red', linestyle='--', label=f'평균: {crime_df["총_범죄"].mean():.0f}')
axes[0].legend()

# CCTV 효과 범죄 분포
axes[1].hist(crime_df['CCTV효과범죄_합계'], bins=15, edgecolor='black', alpha=0.7, color='red')
axes[1].set_title('CCTV 효과 범죄 건수 분포', fontsize=14, fontweight='bold')
axes[1].set_xlabel('CCTV 효과 범죄 건수')
axes[1].set_ylabel('자치구 수')
axes[1].axvline(crime_df['CCTV효과범죄_합계'].mean(), color='red', linestyle='--', 
                label=f'평균: {crime_df["CCTV효과범죄_합계"].mean():.0f}')
axes[1].legend()

plt.tight_layout()
plt.savefig('../results/figures/day1_crime_distribution.png', dpi=300, bbox_inches='tight')
plt.show()

print(f"총 범죄 평균: {crime_df['총_범죄'].mean():.2f}")
print(f"CCTV 효과 범죄 평균: {crime_df['CCTV효과범죄_합계'].mean():.2f}")

In [None]:
# 인구 분포 확인
fig, axes = plt.subplots(1, 2, figsize=(14, 5))

# 인구수 분포
axes[0].hist(population_df['인구수'], bins=15, edgecolor='black', alpha=0.7, color='purple')
axes[0].set_title('자치구별 인구수 분포', fontsize=14, fontweight='bold')
axes[0].set_xlabel('인구수')
axes[0].set_ylabel('자치구 수')
axes[0].axvline(population_df['인구수'].mean(), color='red', linestyle='--', 
                label=f'평균: {population_df["인구수"].mean():.0f}')
axes[0].legend()

# 인구밀도 분포
axes[1].hist(population_df['인구밀도'], bins=15, edgecolor='black', alpha=0.7, color='teal')
axes[1].set_title('자치구별 인구밀도 분포', fontsize=14, fontweight='bold')
axes[1].set_xlabel('인구밀도 (명/km²)')
axes[1].set_ylabel('자치구 수')
axes[1].axvline(population_df['인구밀도'].mean(), color='red', linestyle='--', 
                label=f'평균: {population_df["인구밀도"].mean():.0f}')
axes[1].legend()

plt.tight_layout()
plt.savefig('../results/figures/day1_population_distribution.png', dpi=300, bbox_inches='tight')
plt.show()

print(f"인구수 평균: {population_df['인구수'].mean():.2f}")
print(f"인구밀도 평균: {population_df['인구밀도'].mean():.2f}")

## 6. 이상치 탐지

In [None]:
# Box plot으로 이상치 확인
fig, axes = plt.subplots(1, 3, figsize=(18, 5))

# CCTV 이상치
axes[0].boxplot([cctv_df['총_CCTV'], cctv_df['방범용']], labels=['총 CCTV', '방범용'])
axes[0].set_title('CCTV 대수 Box Plot', fontsize=14, fontweight='bold')
axes[0].set_ylabel('대수')

# 범죄 이상치
axes[1].boxplot([crime_df['총_범죄'], crime_df['CCTV효과범죄_합계']], 
                labels=['총 범죄', 'CCTV효과범죄'])
axes[1].set_title('범죄 건수 Box Plot', fontsize=14, fontweight='bold')
axes[1].set_ylabel('건수')

# 인구 이상치
axes[2].boxplot([population_df['인구수'], population_df['인구밀도']], 
                labels=['인구수', '인구밀도'])
axes[2].set_title('인구 Box Plot', fontsize=14, fontweight='bold')
axes[2].set_ylabel('값')

plt.tight_layout()
plt.savefig('../results/figures/day1_outliers_boxplot.png', dpi=300, bbox_inches='tight')
plt.show()

## 7. Day 1 요약 및 다음 단계

In [None]:
# Day 1 요약 리포트 생성
summary = f"""
=== Day 1 데이터 탐색 요약 ===

1. 데이터 수집 완료
   - CCTV 데이터: {len(cctv_df)}개 자치구
   - 범죄 데이터: {len(crime_df)}개 자치구
   - 인구 데이터: {len(population_df)}개 자치구

2. 데이터 품질
   - 결측치: 없음
   - 자치구명 일치: {'일치' if cctv_districts == crime_districts == population_districts else '불일치'}

3. 기초 통계
   - 평균 CCTV 대수: {cctv_df['총_CCTV'].mean():.0f}대
   - 평균 방범용 CCTV: {cctv_df['방범용'].mean():.0f}대
   - 평균 범죄 건수: {crime_df['총_범죄'].mean():.0f}건
   - 평균 CCTV효과범죄: {crime_df['CCTV효과범죄_합계'].mean():.0f}건
   - 평균 인구수: {population_df['인구수'].mean():.0f}명

4. 다음 단계 (Day 2)
   - 자치구명 표준화
   - CCTV 유형별 집계
   - 범죄 유형별 집계
   - 데이터 정제 및 저장
"""

print(summary)

# 요약 파일 저장
with open('../results/reports/day1_summary.txt', 'w', encoding='utf-8') as f:
    f.write(summary)

print("\nDay 1 작업 완료!")