In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from datetime import datetime, timedelta
import warnings
warnings.filterwarnings('ignore')

# 한글 폰트 설정
plt.rcParams['font.family'] = 'DejaVu Sans'
plt.rcParams['axes.unicode_minus'] = False

print("="*60)
print("한국전력공사 전력 사용패턴 변동계수 개발 프로젝트")
print("Step 1: 데이터 탐색 및 기본 분석")
print("="*60)

# ============================================================================
# 1. 대상고객 데이터 로딩 및 탐색
# ============================================================================

print("\n[1단계] 대상고객 데이터 분석")
print("-" * 40)

# 고객 데이터 로딩 (실제 환경에서는 파일 경로 수정 필요)
try:
    # customer_df = pd.read_excel('제13회 산업부 공모전 대상고객.xlsx')
    # 임시로 샘플 데이터 생성 (실제 분석시에는 위 코드 사용)
    customer_df = pd.DataFrame({
        '순번': range(1, 3001),
        '고객번호': [f'CUST_{i:04d}' for i in range(1, 3001)],
        '계약전력': np.random.choice([100, 200, 300, 500, 700, 900], 3000),
        '계약종별': np.random.choice([222, 226, 311, 322, 726], 3000),
        '사용용도': np.random.choice(['02', '09'], 3000),
        '주생산품': ['제품A', '제품B', '제품C', '', '제품D'] * 600,
        '산업분류(소)': ['업종1', '업종2', '#N/A', '업종3', '업종4'] * 600
    })
    
    print(f"✓ 고객 데이터 로딩 완료: {len(customer_df):,}건")
    
except Exception as e:
    print(f"✗ 고객 데이터 로딩 실패: {e}")

# 기본 정보 확인
print(f"\n📋 고객 데이터 기본 정보:")
print(f"   - 총 고객 수: {len(customer_df):,}명")
print(f"   - 컬럼 수: {len(customer_df.columns)}개")
print(f"   - 메모리 사용량: {customer_df.memory_usage(deep=True).sum() / 1024**2:.2f} MB")

# 컬럼별 데이터 타입 및 결측치 확인
print(f"\n📊 컬럼별 상세 정보:")
for col in customer_df.columns:
    null_count = customer_df[col].isnull().sum()
    null_pct = (null_count / len(customer_df)) * 100
    unique_count = customer_df[col].nunique()
    print(f"   {col:15s}: {customer_df[col].dtype:10s} | 결측치: {null_count:4d}개 ({null_pct:5.1f}%) | 고유값: {unique_count:4d}개")

# 계약종별 분포
print(f"\n📈 계약종별 분포:")
contract_counts = customer_df['계약종별'].value_counts().sort_index()
for contract_type, count in contract_counts.items():
    pct = (count / len(customer_df)) * 100
    # 계약종별 설명 매핑
    contract_desc = {
        222: "일반용(갑)||고압A",
        226: "일반용(을) 고압A", 
        311: "산업용(갑) 저압",
        322: "산업용(갑)||고압A",
        726: "산업용(을) 고압A"
    }
    desc = contract_desc.get(contract_type, "미분류")
    print(f"   {contract_type}: {count:4d}명 ({pct:5.1f}%) - {desc}")

# 사용용도 분포
print(f"\n📈 사용용도 분포:")
usage_counts = customer_df['사용용도'].value_counts().sort_index()
for usage_type, count in usage_counts.items():
    pct = (count / len(customer_df)) * 100
    usage_desc = {"02": "상업용", "09": "광공업용"}
    desc = usage_desc.get(usage_type, "미분류")
    print(f"   {usage_type}: {count:4d}명 ({pct:5.1f}%) - {desc}")

# 계약전력 분포
print(f"\n📈 계약전력 분포:")
power_stats = customer_df['계약전력'].describe()
print(f"   평균: {power_stats['mean']:6.1f} | 중위수: {power_stats['50%']:6.1f}")
print(f"   최소: {power_stats['min']:6.1f} | 최대: {power_stats['max']:6.1f}")
print(f"   표준편차: {power_stats['std']:6.1f}")

# ============================================================================
# 2. LP 데이터 샘플 생성 및 탐색 (실제 환경에서는 파일 로딩)
# ============================================================================

print(f"\n\n[2단계] LP 데이터 분석")
print("-" * 40)

# LP 데이터 샘플 생성 (실제 분석시에는 CSV 파일들을 로딩)
print("📁 LP 데이터 샘플 생성 중...")

# 시간 범위 설정
start_date = datetime(2022, 3, 16, 0, 15)
end_date = datetime(2022, 4, 1, 0, 0)
time_range = pd.date_range(start=start_date, end=end_date, freq='15min')

# 고객별 LP 데이터 샘플 생성 (메모리 효율성을 위해 일부 고객만)
sample_customers = customer_df['고객번호'].head(100).tolist()  # 샘플 100명
lp_data_list = []

for customer_id in sample_customers[:10]:  # 더 작은 샘플로 시작
    for timestamp in time_range[:96]:  # 1일치만 샘플
        # 실제적인 전력 사용 패턴 시뮬레이션
        hour = timestamp.hour
        
        # 시간대별 기본 부하 패턴 (업무시간 높음)
        if 9 <= hour <= 18:
            base_load = np.random.normal(50, 10)
        elif 19 <= hour <= 22:
            base_load = np.random.normal(30, 8)
        else:
            base_load = np.random.normal(15, 5)
        
        # 음수 방지
        base_load = max(0, base_load)
        
        lp_data_list.append({
            '대체고객번호': customer_id,
            'LP 수신일자': timestamp.strftime('%Y-%m-%d %H:%M'),
            '순방향 유효전력': round(base_load + np.random.normal(0, 2), 1),
            '지상무효': round(base_load * 0.3 + np.random.normal(0, 1), 1),
            '진상무효': round(base_load * 0.2 + np.random.normal(0, 0.5), 1),
            '피상전력': round(base_load * 1.1 + np.random.normal(0, 1), 1)
        })

lp_df = pd.DataFrame(lp_data_list)

# 음수값 처리
numeric_cols = ['순방향 유효전력', '지상무효', '진상무효', '피상전력']
for col in numeric_cols:
    lp_df[col] = lp_df[col].clip(lower=0)

print(f"✓ LP 데이터 샘플 생성 완료: {len(lp_df):,}건")

# LP 데이터 기본 정보
print(f"\n📋 LP 데이터 기본 정보:")
print(f"   - 총 레코드 수: {len(lp_df):,}건")
print(f"   - 대상 고객 수: {lp_df['대체고객번호'].nunique():,}명")
print(f"   - 시간 범위: {lp_df['LP 수신일자'].min()} ~ {lp_df['LP 수신일자'].max()}")
print(f"   - 메모리 사용량: {lp_df.memory_usage(deep=True).sum() / 1024**2:.2f} MB")

# 수치 데이터 기본 통계
print(f"\n📊 전력 데이터 기본 통계:")
print(lp_df[numeric_cols].describe().round(2))

# ============================================================================
# 3. 데이터 품질 검증
# ============================================================================

print(f"\n\n[3단계] 데이터 품질 검증")
print("-" * 40)

# 결측치 확인
print("🔍 결측치 현황:")
for df_name, df in [("고객 데이터", customer_df), ("LP 데이터", lp_df)]:
    null_counts = df.isnull().sum()
    if null_counts.sum() > 0:
        print(f"   {df_name}:")
        for col, null_count in null_counts[null_counts > 0].items():
            print(f"     - {col}: {null_count:,}건")
    else:
        print(f"   {df_name}: 결측치 없음 ✓")

# 중복 데이터 확인
print(f"\n🔍 중복 데이터 현황:")
customer_dups = customer_df.duplicated().sum()
lp_dups = lp_df.duplicated(['대체고객번호', 'LP 수신일자']).sum()
print(f"   고객 데이터 중복: {customer_dups:,}건")
print(f"   LP 데이터 중복: {lp_dups:,}건")

# 데이터 연계성 확인
print(f"\n🔍 데이터 연계성 확인:")
customer_ids = set(customer_df['고객번호'].unique())
lp_customer_ids = set(lp_df['대체고객번호'].unique())

matched_customers = customer_ids.intersection(lp_customer_ids)
unmatched_in_customer = customer_ids - lp_customer_ids
unmatched_in_lp = lp_customer_ids - customer_ids

print(f"   연계 가능 고객: {len(matched_customers):,}명")
print(f"   고객 데이터만 존재: {len(unmatched_in_customer):,}명")
print(f"   LP 데이터만 존재: {len(unmatched_in_lp):,}명")

# ============================================================================
# 4. 기본 시각화
# ============================================================================

print(f"\n\n[4단계] 기본 시각화")
print("-" * 40)

# 시각화 생성
fig, axes = plt.subplots(2, 3, figsize=(18, 12))
fig.suptitle('한국전력공사 고객 및 LP 데이터 기본 분석', fontsize=16, y=0.98)

# 1. 계약종별 분포
ax1 = axes[0, 0]
contract_counts.plot(kind='bar', ax=ax1, color='skyblue')
ax1.set_title('계약종별 고객 분포')
ax1.set_xlabel('계약종별')
ax1.set_ylabel('고객 수')
ax1.tick_params(axis='x', rotation=45)

# 2. 사용용도 분포
ax2 = axes[0, 1]
usage_counts.plot(kind='pie', ax=ax2, autopct='%1.1f%%', colors=['lightcoral', 'lightgreen'])
ax2.set_title('사용용도 분포')
ax2.set_ylabel('')

# 3. 계약전력 분포
ax3 = axes[0, 2]
customer_df['계약전력'].hist(bins=20, ax=ax3, color='gold', alpha=0.7)
ax3.set_title('계약전력 분포')
ax3.set_xlabel('계약전력')
ax3.set_ylabel('빈도')

# 4. 시간대별 평균 전력 사용량
if len(lp_df) > 0:
    lp_df['LP 수신일자'] = pd.to_datetime(lp_df['LP 수신일자'])
    lp_df['시간'] = lp_df['LP 수신일자'].dt.hour
    hourly_avg = lp_df.groupby('시간')['순방향 유효전력'].mean()
    
    ax4 = axes[1, 0]
    hourly_avg.plot(kind='line', ax=ax4, marker='o', color='green')
    ax4.set_title('시간대별 평균 전력 사용량')
    ax4.set_xlabel('시간')
    ax4.set_ylabel('평균 유효전력')
    ax4.grid(True, alpha=0.3)

# 5. 전력 데이터 박스플롯
ax5 = axes[1, 1]
lp_df[['순방향 유효전력', '지상무효', '진상무효']].boxplot(ax=ax5)
ax5.set_title('전력 데이터 분포')
ax5.set_ylabel('전력값')
ax5.tick_params(axis='x', rotation=45)

# 6. 고객별 평균 전력 사용량 (상위 10명)
ax6 = axes[1, 2]
customer_avg = lp_df.groupby('대체고객번호')['순방향 유효전력'].mean().sort_values(ascending=False).head(10)
customer_avg.plot(kind='bar', ax=ax6, color='purple', alpha=0.7)
ax6.set_title('고객별 평균 전력 사용량 (상위 10명)')
ax6.set_xlabel('고객번호')
ax6.set_ylabel('평균 유효전력')
ax6.tick_params(axis='x', rotation=45)

plt.tight_layout()
plt.show()

print("✓ 기본 시각화 완료")

# ============================================================================
# 5. 다음 단계 준비
# ============================================================================

print(f"\n\n[완료] Step 1 데이터 탐색 완료")
print("="*60)
print("✅ 다음 단계:")
print("   1. 데이터 전처리 및 정제")
print("   2. 변동계수 정의 및 계산")
print("   3. 고객별 패턴 분석")
print("   4. 예측 모델 개발")
print("="*60)

한국전력공사 전력 사용패턴 변동계수 개발 프로젝트
Step 1: 데이터 탐색 및 기본 분석

[1단계] 대상고객 데이터 분석
----------------------------------------
✓ 고객 데이터 로딩 완료: 3,000건

📋 고객 데이터 기본 정보:
   - 총 고객 수: 3,000명
   - 컬럼 수: 7개
   - 메모리 사용량: 0.87 MB

📊 컬럼별 상세 정보:


TypeError: unsupported format string passed to numpy.dtype[int64].__format__