In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from datetime import datetime, timedelta
import warnings
import glob
import os
warnings.filterwarnings('ignore')

# 한글 폰트 설정
plt.rcParams['font.family'] = 'DejaVu Sans'
plt.rcParams['axes.unicode_minus'] = False

class KEPCODataAnalyzer:
    def __init__(self):
        self.customer_data = None
        self.lp_data = None
        
    def load_customer_data(self, file_path='제13회 산업부 공모전 대상고객/제13회 산업부 공모전 대상고객.xlsx'):
        """실제 고객 기본정보 로딩 및 기본 분석"""
        print("=== 고객 기본정보 로딩 ===")
        
        try:
            # 실제 Excel 파일 읽기
            self.customer_data = pd.read_excel(file_path, header=1)
            
            print(f"총 고객 수: {len(self.customer_data):,}명")
            print(f"컬럼: {list(self.customer_data.columns)}")
            print("\\n기본 정보:")
            print(self.customer_data.head())
            
            return self._analyze_customer_distribution()
            
        except Exception as e:
            print(f"고객 데이터 로딩 실패: {e}")
            return None
    
    def _analyze_customer_distribution(self):
        """고객 분포 분석"""
        print("\\n=== 고객 분포 분석 ===")
        
        # 계약종별 분포
        contract_counts = self.customer_data['계약종별'].value_counts()
        print("\\n📊 계약종별 분포:")
        for contract, count in contract_counts.items():
            pct = (count / len(self.customer_data)) * 100
            print(f"  {contract}: {count}명 ({pct:.1f}%)")
        
        # 사용용도별 분포
        usage_counts = self.customer_data['사용용도'].value_counts()
        print("\\n🏭 사용용도별 분포:")
        for usage, count in usage_counts.items():
            pct = (count / len(self.customer_data)) * 100
            print(f"  {usage}: {count}명 ({pct:.1f}%)")
        
        # 계약전력 분포
        print("\\n⚡ 계약전력 분포:")
        power_stats = self.customer_data['계약전력'].describe()
        print(power_stats)
        
        return {
            'contract_distribution': contract_counts,
            'usage_distribution': usage_counts,
            'power_stats': power_stats
        }
    
    def load_lp_data(self, data_directory='./제13회 산업부 공모전 대상고객 LP데이터/'):
        """실제 LP 데이터 로딩 (여러 CSV 파일)"""
        print("\\n=== LP 데이터 로딩 ===")
        
        try:
            # processed_LPData_YYYYMMDD_DD.csv 패턴의 파일들 찾기
            lp_files = glob.glob(os.path.join(data_directory, 'processed_LPData_*.csv'))
            
            if not lp_files:
                print("LP 데이터 파일을 찾을 수 없습니다.")
                return None
            
            print(f"발견된 LP 파일 수: {len(lp_files)}개")
            
            # 모든 LP 파일 읽기 및 결합
            lp_dataframes = []
            total_records = 0
            
            for i, file_path in enumerate(sorted(lp_files)):
                try:
                    print(f"파일 {i+1} 로딩: {os.path.basename(file_path)}")
                    
                    # CSV 파일 읽기
                    df = pd.read_csv(file_path)
                    
                    # 컬럼명 확인 및 표준화 (실제 파일 구조에 맞춰 조정)
                    expected_columns = ['대체고객번호', 'LP 수신일자', '순방향 유효전력', '지상무효', '진상무효', '피상전력']
                    
                    if all(col in df.columns for col in expected_columns):
                        lp_dataframes.append(df)
                        total_records += len(df)
                        
                        # 기간 정보 출력
                        if 'LP 수신일자' in df.columns:
                            min_date = df['LP 수신일자'].min()
                            max_date = df['LP 수신일자'].max()
                            print(f"  레코드 수: {len(df):,}")
                            print(f"  고객 수: {df['대체고객번호'].nunique()}")
                            print(f"  기간: {min_date} ~ {max_date}")
                    else:
                        print(f"  ⚠️ 컬럼 구조가 예상과 다름: {list(df.columns)}")
                        
                except Exception as e:
                    print(f"  ✗ 파일 로딩 실패: {e}")
                    continue
            
            if not lp_dataframes:
                print("유효한 LP 데이터가 없습니다.")
                return None
            
            # 모든 데이터 결합
            self.lp_data = pd.concat(lp_dataframes, ignore_index=True)
            
            print(f"\\n✅ 전체 LP 데이터 결합 완료:")
            print(f"  총 레코드: {len(self.lp_data):,}")
            print(f"  총 고객: {self.lp_data['대체고객번호'].nunique()}")
            
            return self._analyze_lp_quality()
            
        except Exception as e:
            print(f"LP 데이터 로딩 실패: {e}")
            return None
    
    def _analyze_lp_quality(self):
        """LP 데이터 품질 분석"""
        print("\\n=== LP 데이터 품질 분석 ===")
        
        # 기본 통계
        numeric_columns = ['순방향 유효전력', '지상무효', '진상무효', '피상전력']
        print("📈 기본 통계:")
        print(self.lp_data[numeric_columns].describe())
        
        # 시간 간격 체크 (LP 수신일자를 datetime으로 변환)
        print("\\n⏰ 시간 간격 체크:")
        #수정전
        #self.lp_data['datetime'] = pd.to_datetime(self.lp_data['LP 수신일자'])
        
        #수정후
        # 24:00을 다음날 00:00으로 정확히 변환
        self.lp_data['LP 수신일자'] = self.lp_data['LP 수신일자'].str.replace(' 24:00', ' 00:00')
        self.lp_data['datetime'] = pd.to_datetime(self.lp_data['LP 수신일자'], errors='coerce')

        # 원래 24:00이었던 행들을 다음날로 이동
        mask_24 = self.lp_data['LP 수신일자'].str.contains(' 00:00')
        self.lp_data.loc[mask_24, 'datetime'] += pd.Timedelta(days=1)
        
        # 고객별 샘플 체크 (상위 3개 고객)
        sample_customers = self.lp_data['대체고객번호'].unique()[:3]
        
        for customer in sample_customers:
            customer_data = self.lp_data[self.lp_data['대체고객번호'] == customer].sort_values('datetime')
            if len(customer_data) > 1:
                time_diffs = customer_data['datetime'].diff().dt.total_seconds() / 60  # 분 단위
                time_diffs = time_diffs.dropna()
                
                avg_interval = time_diffs.mean()
                std_interval = time_diffs.std()
                print(f"  {customer}: 평균 간격 {avg_interval:.1f}분, 표준편차 {std_interval:.1f}분")
        
        # 데이터 품질 체크
        print("\\n🔍 데이터 품질 체크:")
        for col in numeric_columns:
            if col in self.lp_data.columns:
                missing_count = self.lp_data[col].isnull().sum()
                missing_pct = (missing_count / len(self.lp_data)) * 100
                zero_count = (self.lp_data[col] == 0).sum()
                zero_pct = (zero_count / len(self.lp_data)) * 100
                
                print(f"  {col}:")
                print(f"    결측치: {missing_count}건 ({missing_pct:.2f}%)")
                print(f"    0값: {zero_count}건 ({zero_pct:.2f}%)")
        
        # 이상치 탐지 (IQR 방법)
        print("\\n🚨 이상치 탐지:")
        return self.detect_outliers('iqr')
    
    def detect_outliers(self, method='iqr'):
        """이상치 탐지"""
        outlier_summary = {}
        numeric_columns = ['순방향 유효전력', '지상무효', '진상무효', '피상전력']
        
        for col in numeric_columns:
            if col in self.lp_data.columns:
                if method == 'iqr':
                    Q1 = self.lp_data[col].quantile(0.25)
                    Q3 = self.lp_data[col].quantile(0.75)
                    IQR = Q3 - Q1
                    lower_bound = Q1 - 1.5 * IQR
                    upper_bound = Q3 + 1.5 * IQR
                    
                    outliers = self.lp_data[
                        (self.lp_data[col] < lower_bound) | 
                        (self.lp_data[col] > upper_bound)
                    ]
                    
                    outlier_count = len(outliers)
                    outlier_pct = (outlier_count / len(self.lp_data)) * 100
                    
                    print(f"  {col}: {outlier_count}건 ({outlier_pct:.2f}%)")
                    outlier_summary[col] = {
                        'count': outlier_count,
                        'percentage': outlier_pct,
                        'lower_bound': lower_bound,
                        'upper_bound': upper_bound
                    }
        
        return outlier_summary
    
    def generate_quality_report(self):
        """데이터 품질 종합 리포트"""
        print("\\n" + "="*60)
        print("📋 데이터 품질 종합 리포트")
        print("="*60)
        
        # 고객 데이터 요약
        if self.customer_data is not None:
            print(f"\\n👥 고객 데이터:")
            print(f"  총 고객 수: {len(self.customer_data):,}명")
            print(f"  계약종별 유형: {self.customer_data['계약종별'].nunique()}개")
            print(f"  사용용도 유형: {self.customer_data['사용용도'].nunique()}개")
        
        # LP 데이터 요약
        if self.lp_data is not None:
            print(f"\\n⚡ LP 데이터:")
            print(f"  총 레코드: {len(self.lp_data):,}건")
            print(f"  측정 기간: {self.lp_data['datetime'].min()} ~ {self.lp_data['datetime'].max()}")
            print(f"  데이터 커버리지: {(self.lp_data['datetime'].max() - self.lp_data['datetime'].min()).days}일")
            
            # 평균 전력 사용량
            avg_power = self.lp_data['순방향 유효전력'].mean()
            print(f"  평균 유효전력: {avg_power:.2f}kW")
        
        # 권장사항
        print("\\n💡 다음 단계 권장사항:")
        print("  1. 시계열 패턴 분석 (일/주/월별 사용 패턴)")
        print("  2. 고객별 사용량 프로파일링")
        print("  3. 변동성 지표 계산 및 비교")
        print("  4. 이상 패턴 탐지 알고리즘 개발")
        
        return True

# 사용 예제 (실제 데이터안심구역에서 실행)
if __name__ == "__main__":
    print("한국전력공사 전력 사용패턴 변동계수 개발 프로젝트")
    print("데이터안심구역 전용 - 실제 데이터 분석")
    print("="*60)
    
    # 분석기 초기화
    analyzer = KEPCODataAnalyzer()
    
    # 1단계: 고객 기본정보 분석
    print("\\n[1단계] 고객 기본정보 로딩 및 분석")
    customer_analysis = analyzer.load_customer_data('제13회 산업부 공모전 대상고객/제13회 산업부 공모전 대상고객.xlsx')
    
    # 2단계: LP 데이터 분석
    print("\\n[2단계] LP 데이터 로딩 및 품질 분석")
    lp_analysis = analyzer.load_lp_data('./제13회 산업부 공모전 대상고객 LP데이터/')  # 현재 디렉터리에서 LP 파일 찾기
    
    # 3단계: 이상치 탐지
    print("\\n[3단계] 이상치 탐지 및 데이터 정제")
    outliers = analyzer.detect_outliers('iqr')
    
    # 4단계: 종합 리포트
    print("\\n[4단계] 데이터 품질 종합 평가")
    analyzer.generate_quality_report()
    
    print("\\n🎯 1단계 데이터 품질 점검 완료!")
    print("다음: 2단계 시계열 패턴 분석 준비 완료")

한국전력공사 전력 사용패턴 변동계수 개발 프로젝트
데이터안심구역 전용 - 실제 데이터 분석
\n[1단계] 고객 기본정보 로딩 및 분석
=== 고객 기본정보 로딩 ===
고객 데이터 로딩 실패: [Errno 2] No such file or directory: '제13회 산업부 공모전 대상고객.xlsx'
\n[2단계] LP 데이터 로딩 및 품질 분석
\n=== LP 데이터 로딩 ===
LP 데이터 파일을 찾을 수 없습니다.
\n[3단계] 이상치 탐지 및 데이터 정제


AttributeError: 'NoneType' object has no attribute 'columns'

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from datetime import datetime, timedelta
from scipy import stats
from sklearn.preprocessing import StandardScaler
import warnings
import glob
import os
import json
warnings.filterwarnings('ignore')

# 한글 폰트 설정
plt.rcParams['font.family'] = ['DejaVu Sans', 'Arial Unicode MS', 'Malgun Gothic']
plt.rcParams['axes.unicode_minus'] = False

class KEPCOTimeSeriesAnalyzer:
    """한국전력공사 LP 데이터 시계열 패턴 분석 클래스"""
    
    def __init__(self, base_path='./'):
        """
        초기화
        Args:
            base_path: 데이터가 저장된 기본 경로
        """
        self.base_path = base_path
        self.customer_data = None
        self.lp_data = None
        self.analysis_results = {}
        
        # 결과 저장 디렉토리 생성
        self.output_dir = os.path.join(base_path, 'analysis_results')
        os.makedirs(self.output_dir, exist_ok=True)
        
        print("=" * 80)
        print("한국전력공사 전력 사용패턴 변동계수 개발 프로젝트")
        print("2단계: 시계열 패턴 분석 및 변동성 지표 개발")
        print("=" * 80)
        print(f"작업 디렉토리: {self.base_path}")
        print(f"결과 저장: {self.output_dir}")
        print()

    def load_customer_data(self, filename='제13회 산업부 공모전 대상고객.xlsx'):
        """실제 고객 기본정보 로딩"""
        print("🔄 1단계: 고객 기본정보 로딩...")
        
        try:
            file_path = os.path.join(self.base_path, filename)
            self.customer_data = pd.read_excel(file_path)
            
            print(f"✅ 고객 데이터 로딩 완료")
            print(f"   - 총 고객 수: {len(self.customer_data):,}명")
            print(f"   - 컬럼: {list(self.customer_data.columns)}")
            
            # 고객 분포 분석
            contract_dist = self.customer_data['계약종별'].value_counts()
            usage_dist = self.customer_data['사용용도'].value_counts()
            
            print(f"\\n📊 고객 분포:")
            print(f"   - 계약종별: {len(contract_dist)}개 유형")
            print(f"   - 사용용도: {len(usage_dist)}개 유형")
            
            self.analysis_results['customer_summary'] = {
                'total_customers': len(self.customer_data),
                'contract_types': contract_dist.to_dict(),
                'usage_types': usage_dist.to_dict()
            }
            
            return True
            
        except Exception as e:
            print(f"❌ 고객 데이터 로딩 실패: {e}")
            return False

    def load_lp_data(self, data_directory=None):
        """실제 LP 데이터 로딩 (대용량 처리)"""
        print("\\n🔄 2단계: LP 데이터 로딩...")
        
        if data_directory is None:
            data_directory = self.base_path
        
        try:
            # processed_LPData_YYYYMMDD_DD.csv 패턴의 파일들 찾기
            lp_files = glob.glob(os.path.join(data_directory, 'processed_LPData_*.csv'))
            
            if not lp_files:
                print("❌ LP 데이터 파일을 찾을 수 없습니다.")
                print(f"   경로: {data_directory}")
                print("   파일명 패턴: processed_LPData_*.csv")
                return False
            
            print(f"📁 발견된 LP 파일 수: {len(lp_files)}개")
            
            # 메모리 효율적 로딩을 위한 청크 처리
            lp_dataframes = []
            total_records = 0
            processed_files = 0
            
            # 파일을 날짜 순으로 정렬
            lp_files.sort()
            
            for i, file_path in enumerate(lp_files):
                try:
                    filename = os.path.basename(file_path)
                    print(f"   [{i+1}/{len(lp_files)}] {filename} 처리 중...")
                    
                    # CSV 파일 읽기 (실제 컬럼명에 맞춰 조정)
                    df = pd.read_csv(file_path)
                    
                    # 컬럼명 확인 및 표준화
                    expected_columns = ['대체고객번호', 'LP 수신일자', '순방향 유효전력', '지상무효', '진상무효', '피상전력']
                    
                    # 컬럼명이 다를 수 있으므로 유연하게 처리
                    if 'LP수신일자' in df.columns:
                        df = df.rename(columns={'LP수신일자': 'LP 수신일자'})
                    if '순방향유효전력' in df.columns:
                        df = df.rename(columns={'순방향유효전력': '순방향 유효전력'})
                    
                    # 필수 컬럼 존재 확인
                    required_cols = ['대체고객번호', 'LP 수신일자', '순방향 유효전력']
                    if all(col in df.columns for col in required_cols):
                        # 날짜 컬럼 변환
                        df['LP 수신일자'] = pd.to_datetime(df['LP 수신일자'])
                        
                        # 데이터 품질 기본 체크
                        df = df.dropna(subset=required_cols)  # 필수 컬럼 결측치 제거
                        df = df[df['순방향 유효전력'] >= 0]     # 음수 전력값 제거
                        
                        lp_dataframes.append(df)
                        total_records += len(df)
                        processed_files += 1
                        
                        # 진행상황 출력
                        print(f"      레코드: {len(df):,}개, 고객: {df['대체고객번호'].nunique()}명")
                        
                        # 메모리 사용량 체크 (500만 레코드마다)
                        if total_records % 5000000 == 0:
                            print(f"      📊 누적 레코드: {total_records:,}개")
                            
                    else:
                        print(f"      ⚠️ 컬럼 구조 불일치: {list(df.columns)}")
                        
                except Exception as e:
                    print(f"      ❌ 파일 처리 실패: {e}")
                    continue
            
            if not lp_dataframes:
                print("❌ 유효한 LP 데이터가 없습니다.")
                return False
            
            print(f"\\n🔄 데이터 결합 중... ({processed_files}개 파일)")
            
            # 모든 데이터 결합
            self.lp_data = pd.concat(lp_dataframes, ignore_index=True)
            
            # 시간 순서로 정렬
            self.lp_data = self.lp_data.sort_values(['대체고객번호', 'LP 수신일자']).reset_index(drop=True)
            
            print(f"✅ LP 데이터 로딩 완료:")
            print(f"   - 총 레코드: {len(self.lp_data):,}개")
            print(f"   - 총 고객: {self.lp_data['대체고객번호'].nunique()}명")
            print(f"   - 기간: {self.lp_data['LP 수신일자'].min()} ~ {self.lp_data['LP 수신일자'].max()}")
            
            # 메모리 정리
            del lp_dataframes
            
            return self._validate_data_quality()
            
        except Exception as e:
            print(f"❌ LP 데이터 로딩 실패: {e}")
            import traceback
            traceback.print_exc()
            return False

    def _validate_data_quality(self):
        """데이터 품질 검증"""
        print("\\n🔍 데이터 품질 검증 중...")
        
        # 기본 통계
        numeric_columns = ['순방향 유효전력', '지상무효', '진상무효', '피상전력']
        available_numeric_cols = [col for col in numeric_columns if col in self.lp_data.columns]
        
        print(f"   📈 수치형 컬럼: {len(available_numeric_cols)}개")
        
        # 결측치 확인
        null_counts = self.lp_data[available_numeric_cols].isnull().sum()
        total_nulls = null_counts.sum()
        
        if total_nulls > 0:
            print(f"   ⚠️ 결측치: {total_nulls:,}개 ({total_nulls/len(self.lp_data)*100:.2f}%)")
            for col, count in null_counts.items():
                if count > 0:
                    print(f"      {col}: {count:,}개")
        else:
            print("   ✅ 결측치 없음")
        
        # 시간 간격 체크 (샘플 고객으로)
        sample_customers = self.lp_data['대체고객번호'].unique()[:3]
        
        print("   ⏰ 시간 간격 검증:")
        for customer in sample_customers:
            customer_data = self.lp_data[self.lp_data['대체고객번호'] == customer].sort_values('LP 수신일자')
            
            if len(customer_data) > 1:
                time_diffs = customer_data['LP 수신일자'].diff().dt.total_seconds() / 60
                time_diffs = time_diffs.dropna()
                
                if len(time_diffs) > 0:
                    avg_interval = time_diffs.mean()
                    std_interval = time_diffs.std()
                    print(f"      {customer}: 평균 {avg_interval:.1f}분 (표준편차: {std_interval:.1f})")
        
        # 분석 결과 저장
        self.analysis_results['data_quality'] = {
            'total_records': len(self.lp_data),
            'customers': self.lp_data['대체고객번호'].nunique(),
            'null_counts': null_counts.to_dict(),
            'date_range': {
                'start': str(self.lp_data['LP 수신일자'].min()),
                'end': str(self.lp_data['LP 수신일자'].max())
            }
        }
        
        return True

    def analyze_temporal_patterns(self):
        """시계열 패턴 분석"""
        print("\\n📈 3단계: 시계열 패턴 분석...")
        
        # 시간 관련 파생 변수 생성
        print("   🕐 시간 파생 변수 생성 중...")
        self.lp_data['날짜'] = self.lp_data['LP 수신일자'].dt.date
        self.lp_data['시간'] = self.lp_data['LP 수신일자'].dt.hour
        self.lp_data['요일'] = self.lp_data['LP 수신일자'].dt.weekday  # 0=월요일
        self.lp_data['월'] = self.lp_data['LP 수신일자'].dt.month
        self.lp_data['주'] = self.lp_data['LP 수신일자'].dt.isocalendar().week
        self.lp_data['주말여부'] = self.lp_data['요일'].isin([5, 6])  # 토, 일
        
        # 1. 시간대별 패턴 분석
        print("   📊 시간대별 패턴 분석...")
        hourly_patterns = self.lp_data.groupby('시간')['순방향 유효전력'].agg([
            'mean', 'std', 'min', 'max', 'count'
        ]).round(2)
        
        # 피크/비피크 시간대 식별
        avg_by_hour = hourly_patterns['mean']
        peak_threshold = avg_by_hour.quantile(0.75)
        off_peak_threshold = avg_by_hour.quantile(0.25)
        
        peak_hours = avg_by_hour[avg_by_hour >= peak_threshold].index.tolist()
        off_peak_hours = avg_by_hour[avg_by_hour <= off_peak_threshold].index.tolist()
        
        print(f"      피크 시간대: {peak_hours}")
        print(f"      비피크 시간대: {off_peak_hours}")
        
        # 2. 요일별 패턴 분석
        print("   📅 요일별 패턴 분석...")
        daily_patterns = self.lp_data.groupby('요일')['순방향 유효전력'].agg([
            'mean', 'std', 'count'
        ]).round(2)
        
        # 평일 vs 주말 비교
        weekday_avg = self.lp_data[~self.lp_data['주말여부']]['순방향 유효전력'].mean()
        weekend_avg = self.lp_data[self.lp_data['주말여부']]['순방향 유효전력'].mean()
        weekend_ratio = weekend_avg / weekday_avg if weekday_avg > 0 else 0
        
        print(f"      평일 평균: {weekday_avg:.2f}kW")
        print(f"      주말 평균: {weekend_avg:.2f}kW")
        print(f"      주말/평일 비율: {weekend_ratio:.3f}")
        
        # 3. 월별 계절성 패턴
        print("   🗓️ 월별 계절성 분석...")
        monthly_patterns = self.lp_data.groupby('월')['순방향 유효전력'].agg([
            'mean', 'std', 'count'
        ]).round(2)
        
        # 계절 구분 (한국 기준)
        season_map = {12: '겨울', 1: '겨울', 2: '겨울',
                     3: '봄', 4: '봄', 5: '봄',
                     6: '여름', 7: '여름', 8: '여름',
                     9: '가을', 10: '가을', 11: '가을'}
        
        self.lp_data['계절'] = self.lp_data['월'].map(season_map)
        seasonal_patterns = self.lp_data.groupby('계절')['순방향 유효전력'].agg([
            'mean', 'std', 'count'
        ]).round(2)
        
        print(f"      계절별 평균 사용량:")
        for season, values in seasonal_patterns.iterrows():
            print(f"        {season}: {values['mean']:.2f}kW")
        
        # 분석 결과 저장
        self.analysis_results['temporal_patterns'] = {
            'hourly_patterns': hourly_patterns.to_dict(),
            'daily_patterns': daily_patterns.to_dict(),
            'monthly_patterns': monthly_patterns.to_dict(),
            'seasonal_patterns': seasonal_patterns.to_dict(),
            'peak_hours': peak_hours,
            'off_peak_hours': off_peak_hours,
            'weekend_ratio': weekend_ratio
        }
        
        return True

    def analyze_volatility_indicators(self):
        """변동성 지표 분석 (집계 중심)"""
        print("\\n📊 4단계: 변동성 지표 분석...")
        
        customers = self.lp_data['대체고객번호'].unique()
        print(f"   🔄 {len(customers)}명 고객 변동성 분석 중...")
        
        # 전체 데이터에 대한 집계 분석
        
        # 1. 전체 변동성 통계
        overall_power = self.lp_data['순방향 유효전력']
        overall_cv = overall_power.std() / overall_power.mean() if overall_power.mean() > 0 else 0
        
        print(f"   📈 전체 데이터 변동성:")
        print(f"      전체 변동계수: {overall_cv:.4f}")
        print(f"      평균 전력: {overall_power.mean():.2f}kW")
        print(f"      표준편차: {overall_power.std():.2f}kW")
        
        # 2. 시간대별 변동성 패턴
        hourly_volatility = self.lp_data.groupby('시간')['순방향 유효전력'].agg([
            'mean', 'std', 'count'
        ])
        hourly_volatility['cv'] = hourly_volatility['std'] / hourly_volatility['mean']
        
        print(f"\\n   ⏰ 시간대별 변동성 패턴:")
        high_volatility_hours = hourly_volatility.nlargest(3, 'cv').index.tolist()
        low_volatility_hours = hourly_volatility.nsmallest(3, 'cv').index.tolist()
        print(f"      고변동성 시간대: {high_volatility_hours}시 (CV: {hourly_volatility.loc[high_volatility_hours, 'cv'].mean():.4f})")
        print(f"      저변동성 시간대: {low_volatility_hours}시 (CV: {hourly_volatility.loc[low_volatility_hours, 'cv'].mean():.4f})")
        
        # 3. 요일별 변동성 패턴
        daily_volatility = self.lp_data.groupby('요일')['순방향 유효전력'].agg([
            'mean', 'std', 'count'
        ])
        daily_volatility['cv'] = daily_volatility['std'] / daily_volatility['mean']
        
        weekday_cv = daily_volatility.loc[0:4, 'cv'].mean()  # 월-금
        weekend_cv = daily_volatility.loc[5:6, 'cv'].mean()  # 토-일
        
        print(f"\\n   📅 요일별 변동성 패턴:")
        print(f"      평일 평균 변동계수: {weekday_cv:.4f}")
        print(f"      주말 평균 변동계수: {weekend_cv:.4f}")
        print(f"      주말/평일 변동성 비율: {weekend_cv/weekday_cv:.3f}")
        
        # 4. 월별 변동성 패턴
        monthly_volatility = self.lp_data.groupby('월')['순방향 유효전력'].agg([
            'mean', 'std', 'count'
        ])
        monthly_volatility['cv'] = monthly_volatility['std'] / monthly_volatility['mean']
        
        print(f"\\n   🗓️ 월별 변동성 패턴:")
        high_var_months = monthly_volatility.nlargest(2, 'cv').index.tolist()
        low_var_months = monthly_volatility.nsmallest(2, 'cv').index.tolist()
        print(f"      고변동성 월: {high_var_months}월")
        print(f"      저변동성 월: {low_var_months}월")
        
        # 5. 고객별 변동성 분포 (요약 통계만)
        print(f"\\n   👥 고객별 변동성 분포 분석...")
        
        # 청크 단위로 고객별 변동계수 계산 (메모리 효율성)
        chunk_size = 100
        customer_cvs = []
        
        for i in range(0, len(customers), chunk_size):
            chunk_customers = customers[i:i+chunk_size]
            if (i // chunk_size + 1) % 5 == 0:  # 500명마다 진행상황 출력
                print(f"      진행: {min(i+chunk_size, len(customers))}/{len(customers)} ({min(i+chunk_size, len(customers))/len(customers)*100:.1f}%)")
            
            for customer in chunk_customers:
                customer_data = self.lp_data[self.lp_data['대체고객번호'] == customer]
                power_series = customer_data['순방향 유효전력']
                
                if len(power_series) >= 96 and power_series.mean() > 0:  # 최소 1일 데이터
                    cv = power_series.std() / power_series.mean()
                    customer_cvs.append(cv)
        
        # 고객별 변동계수 분포 통계
        cv_array = np.array(customer_cvs)
        cv_percentiles = np.percentile(cv_array, [10, 25, 50, 75, 90])
        
        print(f"   📊 고객별 변동계수 분포 ({len(customer_cvs)}명):")
        print(f"      평균: {cv_array.mean():.4f}")
        print(f"      표준편차: {cv_array.std():.4f}")
        print(f"      10%ile: {cv_percentiles[0]:.4f}")
        print(f"      25%ile: {cv_percentiles[1]:.4f}")
        print(f"      50%ile: {cv_percentiles[2]:.4f}")
        print(f"      75%ile: {cv_percentiles[3]:.4f}")
        print(f"      90%ile: {cv_percentiles[4]:.4f}")
        
        # 변동계수 구간별 고객 수
        cv_bins = [0, 0.1, 0.2, 0.3, 0.5, 1.0, float('inf')]
        cv_labels = ['매우 안정 (<0.1)', '안정 (0.1-0.2)', '보통 (0.2-0.3)', 
                    '높음 (0.3-0.5)', '매우 높음 (0.5-1.0)', '극히 높음 (>1.0)']
        
        cv_counts = pd.cut(cv_array, bins=cv_bins, labels=cv_labels, include_lowest=True).value_counts()
        
        print(f"\\n   🎯 변동성 등급별 고객 분포:")
        for grade, count in cv_counts.items():
            percentage = count / len(customer_cvs) * 100
            print(f"      {grade}: {count}명 ({percentage:.1f}%)")
        
        # 분석 결과 저장
        self.analysis_results['volatility_analysis'] = {
            'overall_cv': overall_cv,
            'hourly_volatility': hourly_volatility.to_dict(),
            'daily_volatility': daily_volatility.to_dict(),
            'monthly_volatility': monthly_volatility.to_dict(),
            'customer_cv_stats': {
                'count': len(customer_cvs),
                'mean': float(cv_array.mean()),
                'std': float(cv_array.std()),
                'percentiles': {
                    '10%': float(cv_percentiles[0]),
                    '25%': float(cv_percentiles[1]),
                    '50%': float(cv_percentiles[2]),
                    '75%': float(cv_percentiles[3]),
                    '90%': float(cv_percentiles[4])
                }
            },
            'volatility_distribution': cv_counts.to_dict()
        }
        
        # 요약 데이터만 CSV로 저장 (개별 고객 데이터는 제외)
        summary_data = {
            'metric': ['overall_cv', 'weekday_cv', 'weekend_cv', 'customer_cv_mean', 
                      'customer_cv_std', 'customer_cv_median'],
            'value': [overall_cv, weekday_cv, weekend_cv, cv_array.mean(), 
                     cv_array.std(), cv_percentiles[2]]
        }
        
        summary_df = pd.DataFrame(summary_data)
        output_file = os.path.join(self.output_dir, 'volatility_summary.csv')
        summary_df.to_csv(output_file, index=False, encoding='utf-8-sig')
        print(f"\\n   💾 변동성 요약 저장: {output_file}")
        
        return cv_array

    def detect_anomalies(self):
        """이상 패턴 탐지 (집계 중심)"""
        print("\\n🚨 5단계: 이상 패턴 탐지...")
        
        customers = self.lp_data['대체고객번호'].unique()
        print(f"   🔍 {len(customers)}명 고객 이상 패턴 탐지 중...")
        
        # 전체 데이터 기반 이상 패턴 탐지
        
        # 1. 전체 데이터의 통계적 이상치 임계값 설정
        overall_power = self.lp_data['순방향 유효전력']
        q1, q3 = overall_power.quantile([0.25, 0.75])
        iqr = q3 - q1
        lower_bound = q1 - 1.5 * iqr
        upper_bound = q3 + 1.5 * iqr
        
        # 전체 통계적 이상치
        total_outliers = ((overall_power < lower_bound) | (overall_power > upper_bound)).sum()
        outlier_rate = total_outliers / len(overall_power) * 100
        
        print(f"   📊 전체 데이터 이상치 현황:")
        print(f"      통계적 이상치: {total_outliers:,}개 ({outlier_rate:.2f}%)")
        print(f"      정상 범위: {lower_bound:.1f} ~ {upper_bound:.1f}kW")
        
        # 2. 시간대별 이상 패턴
        night_hours = [0, 1, 2, 3, 4, 5]  # 야간 시간대
        day_hours = [9, 10, 11, 12, 13, 14, 15, 16, 17]  # 주간 시간대
        
        night_data = self.lp_data[self.lp_data['시간'].isin(night_hours)]
        day_data = self.lp_data[self.lp_data['시간'].isin(day_hours)]
        
        night_avg = night_data['순방향 유효전력'].mean()
        day_avg = day_data['순방향 유효전력'].mean()
        night_day_ratio = night_avg / day_avg if day_avg > 0 else 0
        
        print(f"\\n   🌙 시간대별 사용 패턴:")
        print(f"      야간 평균: {night_avg:.2f}kW")
        print(f"      주간 평균: {day_avg:.2f}kW")
        print(f"      야간/주간 비율: {night_day_ratio:.3f}")
        
        # 3. 0값 패턴 분석
        zero_count = (overall_power == 0).sum()
        zero_rate = zero_count / len(overall_power) * 100
        
        print(f"\\n   ⚫ 0값 패턴 분석:")
        print(f"      0값 측정: {zero_count:,}개 ({zero_rate:.2f}%)")
        
        # 4. 급격한 변화 패턴 (전체 데이터 기준)
        power_changes = self.lp_data.sort_values(['대체고객번호', 'LP 수신일자'])['순방향 유효전력'].pct_change().abs()
        sudden_changes = power_changes[power_changes > 2.0]  # 200% 이상 변화
        sudden_change_rate = len(sudden_changes) / len(power_changes.dropna()) * 100
        
        print(f"\\n   ⚡ 급격한 변화 패턴:")
        print(f"      급격한 변화: {len(sudden_changes):,}건 ({sudden_change_rate:.2f}%)")
        
        # 5. 고객별 이상 패턴 요약 통계 (개별 출력 없이)
        anomaly_customers = {
            'high_night_usage': 0,      # 야간 과다 사용
            'excessive_zeros': 0,        # 과도한 0값
            'high_volatility': 0,        # 높은 변동성
            'statistical_outliers': 0    # 통계적 이상치 다수
        }
        
        chunk_size = 100
        processed_customers = 0
        
        for i in range(0, len(customers), chunk_size):
            chunk_customers = customers[i:i+chunk_size]
            if (i // chunk_size + 1) % 5 == 0:
                print(f"      진행: {min(i+chunk_size, len(customers))}/{len(customers)} ({min(i+chunk_size, len(customers))/len(customers)*100:.1f}%)")
            
            for customer in chunk_customers:
                customer_data = self.lp_data[self.lp_data['대체고객번호'] == customer]
                power_series = customer_data['순방향 유효전력']
                
                if len(power_series) < 96:  # 최소 1일 데이터 필요
                    continue
                
                processed_customers += 1
                
                # 야간 과다 사용 체크
                customer_night = customer_data[customer_data['시간'].isin(night_hours)]['순방향 유효전력'].mean()
                customer_day = customer_data[customer_data['시간'].isin(day_hours)]['순방향 유효전력'].mean()
                if customer_day > 0 and customer_night / customer_day > 0.8:
                    anomaly_customers['high_night_usage'] += 1
                
                # 과도한 0값 체크
                zero_ratio = (power_series == 0).sum() / len(power_series)
                if zero_ratio > 0.1:  # 10% 이상이 0값
                    anomaly_customers['excessive_zeros'] += 1
                
                # 높은 변동성 체크
                if power_series.mean() > 0:
                    cv = power_series.std() / power_series.mean()
                    if cv > 1.0:  # 변동계수 1.0 이상
                        anomaly_customers['high_volatility'] += 1
                
                # 통계적 이상치 다수 체크
                customer_outliers = ((power_series < lower_bound) | (power_series > upper_bound)).sum()
                outlier_ratio = customer_outliers / len(power_series)
                if outlier_ratio > 0.05:  # 5% 이상이 이상치
                    anomaly_customers['statistical_outliers'] += 1
        
        # 종합 이상 패턴 고객 (중복 제거를 위해 실제로는 근사치)
        total_anomaly_customers = max(anomaly_customers.values())  # 단순 근사
        anomaly_rate = total_anomaly_customers / processed_customers * 100 if processed_customers > 0 else 0
        
        print(f"\\n   📊 이상 패턴 고객 요약 ({processed_customers}명 분석):")
        print(f"      야간 과다 사용: {anomaly_customers['high_night_usage']}명")
        print(f"      과도한 0값: {anomaly_customers['excessive_zeros']}명")
        print(f"      높은 변동성: {anomaly_customers['high_volatility']}명")
        print(f"      통계적 이상치 다수: {anomaly_customers['statistical_outliers']}명")
        print(f"      전체 이상 패턴 비율: 약 {anomaly_rate:.1f}%")
        
        # 분석 결과 저장
        self.analysis_results['anomaly_analysis'] = {
            'processed_customers': processed_customers,
            'total_outliers': int(total_outliers),
            'outlier_rate': float(outlier_rate),
            'zero_count': int(zero_count),
            'zero_rate': float(zero_rate),
            'sudden_changes': len(sudden_changes),
            'sudden_change_rate': float(sudden_change_rate),
            'night_day_ratio': float(night_day_ratio),
            'anomaly_customers': anomaly_customers,
            'estimated_anomaly_rate': float(anomaly_rate)
        }
        
        return anomaly_customers
        }
        
        return anomaly_customers

    def create_summary_visualizations(self):
        """요약 시각화 생성 (집계 데이터 중심)"""
        print("\\n📊 6단계: 분석 결과 시각화...")
        
        try:
            # 1. 시간대별/요일별 패턴 시각화
            fig, axes = plt.subplots(2, 2, figsize=(15, 12))
            
            # 시간대별 패턴
            hourly_avg = self.lp_data.groupby('시간')['순방향 유효전력'].mean()
            axes[0, 0].plot(hourly_avg.index, hourly_avg.values, marker='o', linewidth=2, color='blue')
            axes[0, 0].set_title('시간대별 평균 전력 사용량', fontsize=14, fontweight='bold')
            axes[0, 0].set_xlabel('시간')
            axes[0, 0].set_ylabel('평균 유효전력 (kW)')
            axes[0, 0].grid(True, alpha=0.3)
            axes[0, 0].set_xticks(range(0, 24, 3))
            
            # 요일별 패턴
            daily_avg = self.lp_data.groupby('요일')['순방향 유효전력'].mean()
            weekday_names = ['월', '화', '수', '목', '금', '토', '일']
            axes[0, 1].bar(range(len(daily_avg)), daily_avg.values, color='skyblue')
            axes[0, 1].set_title('요일별 평균 전력 사용량', fontsize=14, fontweight='bold')
            axes[0, 1].set_xlabel('요일')
            axes[0, 1].set_ylabel('평균 유효전력 (kW)')
            axes[0, 1].set_xticks(range(7))
            axes[0, 1].set_xticklabels(weekday_names)
            axes[0, 1].grid(True, alpha=0.3, axis='y')
            
            # 시간대별 변동성
            hourly_std = self.lp_data.groupby('시간')['순방향 유효전력'].std()
            axes[1, 0].plot(hourly_std.index, hourly_std.values, marker='s', linewidth=2, color='red')
            axes[1, 0].set_title('시간대별 전력 사용량 변동성', fontsize=14, fontweight='bold')
            axes[1, 0].set_xlabel('시간')
            axes[1, 0].set_ylabel('표준편차 (kW)')
            axes[1, 0].grid(True, alpha=0.3)
            axes[1, 0].set_xticks(range(0, 24, 3))
            
            # 월별 계절성 패턴
            monthly_avg = self.lp_data.groupby('월')['순방향 유효전력'].mean()
            axes[1, 1].plot(monthly_avg.index, monthly_avg.values, marker='s', linewidth=2, color='orange')
            axes[1, 1].set_title('월별 평균 전력 사용량 (계절성)', fontsize=14, fontweight='bold')
            axes[1, 1].set_xlabel('월')
            axes[1, 1].set_ylabel('평균 유효전력 (kW)')
            axes[1, 1].grid(True, alpha=0.3)
            axes[1, 1].set_xticks(range(1, 13))
            
            plt.tight_layout()
            
            # 이미지 저장
            output_file = os.path.join(self.output_dir, 'temporal_patterns_summary.png')
            plt.savefig(output_file, dpi=300, bbox_inches='tight')
            plt.close()
            print(f"   💾 시계열 패턴 시각화 저장: {output_file}")
            
            # 2. 변동성 및 이상치 분포 시각화
            fig, axes = plt.subplots(2, 2, figsize=(15, 12))
            
            # 전체 전력 사용량 분포
            axes[0, 0].hist(self.lp_data['순방향 유효전력'], bins=50, alpha=0.7, color='lightblue')
            axes[0, 0].set_title('전력 사용량 분포', fontsize=14, fontweight='bold')
            axes[0, 0].set_xlabel('순방향 유효전력 (kW)')
            axes[0, 0].set_ylabel('빈도')
            axes[0, 0].grid(True, alpha=0.3, axis='y')
            
            # 시간대별 변동계수
            hourly_volatility = self.analysis_results.get('volatility_analysis', {}).get('hourly_volatility', {})
            if hourly_volatility and 'cv' in hourly_volatility:
                cv_data = hourly_volatility['cv']
                hours = list(cv_data.keys())
                cv_values = list(cv_data.values())
                axes[0, 1].bar(hours, cv_values, color='lightgreen')
                axes[0, 1].set_title('시간대별 변동계수', fontsize=14, fontweight='bold')
                axes[0, 1].set_xlabel('시간')
                axes[0, 1].set_ylabel('변동계수')
                axes[0, 1].grid(True, alpha=0.3, axis='y')
            
            # 요일별 변동계수
            daily_volatility = self.analysis_results.get('volatility_analysis', {}).get('daily_volatility', {})
            if daily_volatility and 'cv' in daily_volatility:
                cv_data = daily_volatility['cv']
                weekdays = list(cv_data.keys())
                cv_values = list(cv_data.values())
                weekday_names = ['월', '화', '수', '목', '금', '토', '일']
                axes[1, 0].bar(range(len(cv_values)), cv_values, color='purple')
                axes[1, 0].set_title('요일별 변동계수', fontsize=14, fontweight='bold')
                axes[1, 0].set_xlabel('요일')
                axes[1, 0].set_ylabel('변동계수')
                axes[1, 0].set_xticks(range(7))
                axes[1, 0].set_xticklabels(weekday_names)
                axes[1, 0].grid(True, alpha=0.3, axis='y')
            
            # 월별 변동계수
            monthly_volatility = self.analysis_results.get('volatility_analysis', {}).get('monthly_volatility', {})
            if monthly_volatility and 'cv' in monthly_volatility:
                cv_data = monthly_volatility['cv']
                months = list(cv_data.keys())
                cv_values = list(cv_data.values())
                axes[1, 1].plot(months, cv_values, marker='o', linewidth=2, color='red')
                axes[1, 1].set_title('월별 변동계수 (계절성)', fontsize=14, fontweight='bold')
                axes[1, 1].set_xlabel('월')
                axes[1, 1].set_ylabel('변동계수')
                axes[1, 1].grid(True, alpha=0.3)
                axes[1, 1].set_xticks(range(1, 13))
            
            plt.tight_layout()
            
            # 이미지 저장
            output_file = os.path.join(self.output_dir, 'volatility_analysis_summary.png')
            plt.savefig(output_file, dpi=300, bbox_inches='tight')
            plt.close()
            print(f"   💾 변동성 분석 시각화 저장: {output_file}")
            
            # 3. 변동성 등급별 분포 시각화 (있는 경우)
            volatility_dist = self.analysis_results.get('volatility_analysis', {}).get('volatility_distribution', {})
            if volatility_dist:
                fig, ax = plt.subplots(1, 1, figsize=(12, 8))
                
                grades = list(volatility_dist.keys())
                counts = list(volatility_dist.values())
                
                bars = ax.bar(range(len(grades)), counts, color=['green', 'lightgreen', 'yellow', 'orange', 'red', 'darkred'])
                ax.set_title('변동성 등급별 고객 분포', fontsize=16, fontweight='bold')
                ax.set_xlabel('변동성 등급', fontsize=12)
                ax.set_ylabel('고객 수', fontsize=12)
                ax.set_xticks(range(len(grades)))
                ax.set_xticklabels(grades, rotation=45, ha='right')
                ax.grid(True, alpha=0.3, axis='y')
                
                # 각 막대 위에 수치 표시
                for i, (bar, count) in enumerate(zip(bars, counts)):
                    height = bar.get_height()
                    ax.text(bar.get_x() + bar.get_width()/2., height + height*0.01,
                           f'{count}명', ha='center', va='bottom', fontweight='bold')
                
                plt.tight_layout()
                
                # 이미지 저장
                output_file = os.path.join(self.output_dir, 'volatility_distribution.png')
                plt.savefig(output_file, dpi=300, bbox_inches='tight')
                plt.close()
                print(f"   💾 변동성 분포 시각화 저장: {output_file}")
            
            return True
            
        except Exception as e:
            print(f"   ❌ 시각화 생성 실패: {e}")
            import traceback
            traceback.print_exc()
            return False

    def create_summary_visualizations(self):
        """요약 시각화 생성"""
        print("\\n📊 6단계: 분석 결과 시각화...")
        
        try:
            # 1. 시간대별 평균 전력 사용 패턴
            fig, axes = plt.subplots(2, 2, figsize=(15, 12))
            
            # 시간대별 패턴
            hourly_avg = self.lp_data.groupby('시간')['순방향 유효전력'].mean()
            axes[0, 0].plot(hourly_avg.index, hourly_avg.values, marker='o', linewidth=2)
            axes[0, 0].set_title('시간대별 평균 전력 사용량', fontsize=14, fontweight='bold')
            axes[0, 0].set_xlabel('시간')
            axes[0, 0].set_ylabel('평균 유효전력 (kW)')
            axes[0, 0].grid(True, alpha=0.3)
            axes[0, 0].set_xticks(range(0, 24, 3))
            
            # 요일별 패턴
            daily_avg = self.lp_data.groupby('요일')['순방향 유효전력'].mean()
            weekday_names = ['월', '화', '수', '목', '금', '토', '일']
            axes[0, 1].bar(range(len(daily_avg)), daily_avg.values, color='skyblue')
            axes[0, 1].set_title('요일별 평균 전력 사용량', fontsize=14, fontweight='bold')
            axes[0, 1].set_xlabel('요일')
            axes[0, 1].set_ylabel('평균 유효전력 (kW)')
            axes[0, 1].set_xticks(range(7))
            axes[0, 1].set_xticklabels(weekday_names)
            axes[0, 1].grid(True, alpha=0.3, axis='y')
            
            # 변동계수 분포 (변동성 분석이 완료된 경우)
            if 'volatility_analysis' in self.analysis_results:
                volatility_file = os.path.join(self.output_dir, 'volatility_indicators.csv')
                if os.path.exists(volatility_file):
                    volatility_df = pd.read_csv(volatility_file)
                    axes[1, 0].hist(volatility_df['cv_basic'].dropna(), bins=30, alpha=0.7, color='lightgreen')
                    axes[1, 0].set_title('변동계수 분포', fontsize=14, fontweight='bold')
                    axes[1, 0].set_xlabel('변동계수 (CV)')
                    axes[1, 0].set_ylabel('고객 수')
                    axes[1, 0].grid(True, alpha=0.3, axis='y')
            
            # 월별 계절성 패턴
            monthly_avg = self.lp_data.groupby('월')['순방향 유효전력'].mean()
            month_names = ['1월', '2월', '3월', '4월', '5월', '6월', 
                          '7월', '8월', '9월', '10월', '11월', '12월']
            axes[1, 1].plot(monthly_avg.index, monthly_avg.values, marker='s', linewidth=2, color='orange')
            axes[1, 1].set_title('월별 평균 전력 사용량 (계절성)', fontsize=14, fontweight='bold')
            axes[1, 1].set_xlabel('월')
            axes[1, 1].set_ylabel('평균 유효전력 (kW)')
            axes[1, 1].grid(True, alpha=0.3)
            axes[1, 1].set_xticks(range(1, 13))
            
            plt.tight_layout()
            
            # 이미지 저장
            output_file = os.path.join(self.output_dir, 'temporal_patterns_summary.png')
            plt.savefig(output_file, dpi=300, bbox_inches='tight')
            plt.close()
            print(f"   💾 시계열 패턴 시각화 저장: {output_file}")
            
            # 2. 변동성 관련 시각화 (추가)
            if 'volatility_analysis' in self.analysis_results:
                volatility_file = os.path.join(self.output_dir, 'volatility_indicators.csv')
                if os.path.exists(volatility_file):
                    volatility_df = pd.read_csv(volatility_file)
                    
                    fig, axes = plt.subplots(2, 2, figsize=(15, 12))
                    
                    # 평균 사용량 vs 변동계수
                    axes[0, 0].scatter(volatility_df['mean_power'], volatility_df['cv_basic'], alpha=0.6, s=20)
                    axes[0, 0].set_title('평균 사용량 vs 변동계수', fontsize=14, fontweight='bold')
                    axes[0, 0].set_xlabel('평균 전력 (kW)')
                    axes[0, 0].set_ylabel('변동계수')
                    axes[0, 0].grid(True, alpha=0.3)
                    
                    # 시간대별 변동성 vs 일별 변동성
                    axes[0, 1].scatter(volatility_df['hourly_cv_mean'], volatility_df['daily_cv_mean'], alpha=0.6, s=20, color='red')
                    axes[0, 1].set_title('시간대별 vs 일별 변동성', fontsize=14, fontweight='bold')
                    axes[0, 1].set_xlabel('시간대별 평균 변동계수')
                    axes[0, 1].set_ylabel('일별 평균 변동계수')
                    axes[0, 1].grid(True, alpha=0.3)
                    
                    # 주말/평일 변동계수 비교
                    weekend_weekday_ratio = volatility_df['weekend_weekday_cv_ratio'].dropna()
                    axes[1, 0].hist(weekend_weekday_ratio, bins=20, alpha=0.7, color='purple')
                    axes[1, 0].set_title('주말/평일 변동계수 비율 분포', fontsize=14, fontweight='bold')
                    axes[1, 0].set_xlabel('주말/평일 변동계수 비율')
                    axes[1, 0].set_ylabel('고객 수')
                    axes[1, 0].grid(True, alpha=0.3, axis='y')
                    
                    # 변동계수 상위/하위 분포
                    cv_top10 = volatility_df.nlargest(10, 'cv_basic')['cv_basic']
                    cv_bottom10 = volatility_df.nsmallest(10, 'cv_basic')['cv_basic']
                    
                    x_pos = range(10)
                    width = 0.35
                    axes[1, 1].bar([x - width/2 for x in x_pos], cv_top10.values, width, 
                                  label='상위 10명', alpha=0.8, color='red')
                    axes[1, 1].bar([x + width/2 for x in x_pos], cv_bottom10.values, width, 
                                  label='하위 10명', alpha=0.8, color='blue')
                    axes[1, 1].set_title('변동계수 상위/하위 10명 비교', fontsize=14, fontweight='bold')
                    axes[1, 1].set_xlabel('순위')
                    axes[1, 1].set_ylabel('변동계수')
                    axes[1, 1].legend()
                    axes[1, 1].grid(True, alpha=0.3, axis='y')
                    
                    plt.tight_layout()
                    
                    # 이미지 저장
                    output_file = os.path.join(self.output_dir, 'volatility_analysis_summary.png')
                    plt.savefig(output_file, dpi=300, bbox_inches='tight')
                    plt.close()
                    print(f"   💾 변동성 분석 시각화 저장: {output_file}")
            
            return True
            
        except Exception as e:
            print(f"   ❌ 시각화 생성 실패: {e}")
            return False

    def generate_comprehensive_report(self):
        """종합 분석 리포트 생성"""
        print("\\n📋 7단계: 종합 분석 리포트 생성...")
        
        report_file = os.path.join(self.output_dir, 'comprehensive_analysis_report.txt')
        
        try:
            with open(report_file, 'w', encoding='utf-8') as f:
                f.write("한국전력공사 전력 사용패턴 변동계수 개발 프로젝트\\n")
                f.write("시계열 패턴 분석 및 변동성 지표 개발 결과 리포트\\n")
                f.write("=" * 80 + "\\n\\n")
                
                # 1. 분석 개요
                f.write("1. 분석 개요\\n")
                f.write("-" * 40 + "\\n")
                f.write(f"분석 일시: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}\\n")
                f.write(f"고객 수: {self.analysis_results.get('customer_summary', {}).get('total_customers', 'N/A'):,}명\\n")
                f.write(f"LP 레코드: {self.analysis_results.get('data_quality', {}).get('total_records', 'N/A'):,}개\\n")
                f.write(f"분석 대상 고객: {self.analysis_results.get('data_quality', {}).get('customers', 'N/A')}명\\n")
                
                date_range = self.analysis_results.get('data_quality', {}).get('date_range', {})
                if date_range:
                    f.write(f"데이터 기간: {date_range.get('start', 'N/A')} ~ {date_range.get('end', 'N/A')}\\n")
                f.write("\\n")
                
                # 2. 시계열 패턴 분석 결과
                f.write("2. 시계열 패턴 분석 결과\\n")
                f.write("-" * 40 + "\\n")
                
                temporal = self.analysis_results.get('temporal_patterns', {})
                if temporal:
                    f.write(f"피크 시간대: {temporal.get('peak_hours', [])}\\n")
                    f.write(f"비피크 시간대: {temporal.get('off_peak_hours', [])}\\n")
                    f.write(f"주말/평일 사용량 비율: {temporal.get('weekend_ratio', 0):.3f}\\n")
                    
                    # 계절별 패턴
                    seasonal = temporal.get('seasonal_patterns', {})
                    if seasonal:
                        f.write("\\n계절별 평균 사용량:\\n")
                        for season in ['봄', '여름', '가을', '겨울']:
                            if season in seasonal and 'mean' in seasonal[season]:
                                f.write(f"  {season}: {seasonal[season]['mean']:.2f}kW\\n")
                f.write("\\n")
                
                # 3. 변동성 지표 분석 결과
                f.write("3. 변동성 지표 분석 결과\\n")
                f.write("-" * 40 + "\\n")
                
                volatility = self.analysis_results.get('volatility_analysis', {})
                if volatility:
                    summary_stats = volatility.get('summary_stats', {})
                    cv_stats = summary_stats.get('cv_basic', {})
                    
                    if cv_stats:
                        f.write("기본 변동계수(CV) 통계:\\n")
                        f.write(f"  평균: {cv_stats.get('mean', 0):.4f}\\n")
                        f.write(f"  표준편차: {cv_stats.get('std', 0):.4f}\\n")
                        f.write(f"  최솟값: {cv_stats.get('min', 0):.4f}\\n")
                        f.write(f"  최댓값: {cv_stats.get('max', 0):.4f}\\n")
                        
                    quartiles = volatility.get('quartiles', {})
                    if quartiles:
                        f.write("\\n변동계수 사분위수:\\n")
                        f.write(f"  Q1 (25%): {quartiles.get(0.25, 0):.4f}\\n")
                        f.write(f"  Q2 (50%): {quartiles.get(0.5, 0):.4f}\\n")
                        f.write(f"  Q3 (75%): {quartiles.get(0.75, 0):.4f}\\n")
                f.write("\\n")
                
                # 4. 이상 패턴 탐지 결과
                f.write("4. 이상 패턴 탐지 결과\\n")
                f.write("-" * 40 + "\\n")
                
                anomaly = self.analysis_results.get('anomaly_analysis', {})
                if anomaly:
                    total_anomaly = anomaly.get('total_anomaly_customers', 0)
                    anomaly_rate = anomaly.get('anomaly_rate', 0) * 100
                    f.write(f"이상 패턴 고객: {total_anomaly}명 ({anomaly_rate:.1f}%)\\n")
                    
                    anomaly_types = anomaly.get('anomaly_types', {})
                    f.write("\\n이상 패턴 유형별 분포:\\n")
                    for pattern_type, count in anomaly_types.items():
                        f.write(f"  {pattern_type}: {count}명\\n")
                f.write("\\n")
                
                # 5. 변동계수 개발을 위한 인사이트
                f.write("5. 변동계수 개발을 위한 핵심 인사이트\\n")
                f.write("-" * 40 + "\\n")
                f.write("가. 시간대별 차별화 필요성:\\n")
                f.write("   - 피크/비피크 시간대별 가중치 적용\\n")
                f.write("   - 야간 시간대 이상 사용 패턴 별도 처리\\n")
                f.write("\\n")
                f.write("나. 요일별 패턴 고려:\\n")
                f.write("   - 주말/평일 사용 패턴 차이 반영\\n")
                f.write("   - 요일별 변동성 가중치 조정\\n")
                f.write("\\n")
                f.write("다. 계절성 보정:\\n")
                f.write("   - 월별/계절별 기준값 차별화\\n")
                f.write("   - 외부 기상 데이터 연계 고려\\n")
                f.write("\\n")
                f.write("라. 다차원 변동성 지표:\\n")
                f.write("   - 기본 변동계수(CV) 외 추가 지표 활용\\n")
                f.write("   - 시간 윈도우별 변동성 조합\\n")
                f.write("   - 방향성 변동성 고려\\n")
                f.write("\\n")
                f.write("마. 이상 패턴 필터링:\\n")
                f.write("   - 급격한 변화 및 장기간 0값 처리\\n")
                f.write("   - 통계적 이상치 제거 알고리즘\\n")
                f.write("\\n")
                
                # 6. 다음 단계 권장사항
                f.write("6. 다음 단계 권장사항\\n")
                f.write("-" * 40 + "\\n")
                f.write("1. 업종별 변동계수 기준값 설정\\n")
                f.write("   - 계약종별/사용용도별 임계값 차별화\\n")
                f.write("   - 업종 특성 반영한 가중치 설계\\n")
                f.write("\\n")
                f.write("2. 스태킹 알고리즘 개발\\n")
                f.write("   - Level-0: 개별 변동성 지표 모델\\n")
                f.write("   - Level-1: 메타모델을 통한 통합 변동계수\\n")
                f.write("\\n")
                f.write("3. 외부 데이터 연계\\n")
                f.write("   - 기상청 기상 데이터 (온도, 습도 등)\\n")
                f.write("   - 경제 지표 및 업종별 운영 현황\\n")
                f.write("\\n")
                f.write("4. 실시간 모니터링 시스템\\n")
                f.write("   - 변동계수 임계값 기반 알림 시스템\\n")
                f.write("   - 이상 패턴 자동 탐지 및 보고\\n")
                f.write("\\n")
                f.write("5. 성능 검증 및 최적화\\n")
                f.write("   - 교차검증을 통한 모델 성능 평가\\n")
                f.write("   - 하이퍼파라미터 튜닝 및 최적화\\n")
                
            print(f"   💾 종합 리포트 저장: {report_file}")
            return True
            
        except Exception as e:
            print(f"   ❌ 리포트 생성 실패: {e}")
            return False

    def save_analysis_results(self):
        """분석 결과를 JSON 파일로 저장"""
        print("\\n💾 8단계: 분석 결과 저장...")
        
        try:
            # JSON으로 저장 가능한 형태로 변환
            results_for_json = {}
            
            for key, value in self.analysis_results.items():
                if isinstance(value, dict):
                    results_for_json[key] = {}
                    for sub_key, sub_value in value.items():
                        if hasattr(sub_value, 'to_dict'):  # pandas 객체인 경우
                            results_for_json[key][sub_key] = sub_value.to_dict()
                        else:
                            results_for_json[key][sub_key] = sub_value
                else:
                    results_for_json[key] = value
            
            # JSON 파일로 저장
            output_file = os.path.join(self.output_dir, 'analysis_results.json')
            with open(output_file, 'w', encoding='utf-8') as f:
                json.dump(results_for_json, f, ensure_ascii=False, indent=2, default=str)
            
            print(f"   💾 분석 결과 JSON 저장: {output_file}")
            return True
            
        except Exception as e:
            print(f"   ❌ 분석 결과 저장 실패: {e}")
            return False

    def run_complete_analysis(self):
        """전체 분석 프로세스 실행"""
        start_time = datetime.now()
        
        print("🚀 한국전력공사 LP 데이터 시계열 패턴 분석 시작")
        print(f"시작 시간: {start_time.strftime('%Y-%m-%d %H:%M:%S')}")
        print()
        
        try:
            # 1. 고객 데이터 로딩
            if not self.load_customer_data():
                print("❌ 고객 데이터 로딩 실패로 분석을 중단합니다.")
                return False
            
            # 2. LP 데이터 로딩
            if not self.load_lp_data():
                print("❌ LP 데이터 로딩 실패로 분석을 중단합니다.")
                return False
            
            # 3. 시계열 패턴 분석
            if not self.analyze_temporal_patterns():
                print("❌ 시계열 패턴 분석 실패")
                return False
            
            # 4. 변동성 지표 분석
            cv_array = self.analyze_volatility_indicators()
            if cv_array is None or len(cv_array) == 0:
                print("❌ 변동성 지표 분석 실패")
                return False
            
            # 5. 이상 패턴 탐지
            anomaly_summary = self.detect_anomalies()
            if anomaly_summary is None:
                print("❌ 이상 패턴 탐지 실패")
                return False
            
            # 6. 시각화 생성
            self.create_summary_visualizations()
            
            # 7. 종합 리포트 생성
            self.generate_comprehensive_report()
            
            # 8. 결과 저장
            self.save_analysis_results()
            
            end_time = datetime.now()
            duration = end_time - start_time
            
            print("\\n" + "=" * 80)
            print("🎉 시계열 패턴 분석 완료!")
            print("=" * 80)
            print(f"소요 시간: {duration}")
            print(f"결과 저장 위치: {self.output_dir}")
            
            print("\\n📁 생성된 파일:")
            output_files = [
                'comprehensive_analysis_report.txt',
                'analysis_results.json', 
                'volatility_summary.csv',
                'temporal_patterns_summary.png',
                'volatility_analysis_summary.png',
                'volatility_distribution.png'
            ]
            
            for file in output_files:
                file_path = os.path.join(self.output_dir, file)
                if os.path.exists(file_path):
                    file_size = os.path.getsize(file_path) / 1024  # KB
                    print(f"   ✅ {file} ({file_size:.1f}KB)")
                else:
                    print(f"   ❌ {file}")
            
            print("\\n🎯 다음 단계: 변동계수 알고리즘 설계")
            print("   1. 업종별 특성 반영한 가중치 설계")
            print("   2. 스태킹 모델 Level-0 구현")
            print("   3. 메타모델 개발 및 최적화")
            print("   4. 외부 데이터 연계 방안 수립")
            
            return True
            
        except Exception as e:
            print(f"\\n❌ 분석 중 오류 발생: {e}")
            import traceback
            traceback.print_exc()
            return False

def main():
    """메인 실행 함수"""
    # 데이터안심구역 환경에 맞는 경로 설정
    base_paths = [
        '/data/kepco',           # 데이터안심구역 기본 경로
        '/home/user/kepco_data', # 사용자 홈 디렉토리
        './data',                # 상대 경로
        '.'                      # 현재 디렉토리
    ]
    
    # 존재하는 경로 찾기
    data_path = None
    for path in base_paths:
        if os.path.exists(path):
            data_path = path
            break
    
    if data_path is None:
        print("❌ 데이터 디렉토리를 찾을 수 없습니다.")
        print("다음 경로 중 하나에 데이터를 배치해주세요:")
        for path in base_paths:
            print(f"   - {path}")
        print("\\n필요한 파일:")
        print("   - 제13회 산업부 공모전 대상고객.xlsx")
        print("   - processed_LPData_*.csv (여러 파일)")
        return
    
    print(f"📂 데이터 경로: {data_path}")
    
    # 필수 파일 존재 확인
    customer_file = os.path.join(data_path, '제13회 산업부 공모전 대상고객.xlsx')
    lp_files = glob.glob(os.path.join(data_path, 'processed_LPData_*.csv'))
    
    if not os.path.exists(customer_file):
        print(f"❌ 고객 데이터 파일이 없습니다: {customer_file}")
        return
    
    if not lp_files:
        print(f"❌ LP 데이터 파일이 없습니다: {data_path}/processed_LPData_*.csv")
        return
    
    print(f"✅ 고객 데이터 파일 확인: {customer_file}")
    print(f"✅ LP 데이터 파일 확인: {len(lp_files)}개")
    
    # 분석 실행
    analyzer = KEPCOTimeSeriesAnalyzer(base_path=data_path)
    success = analyzer.run_complete_analysis()
    
    if success:
        print("\\n🏆 분석이 성공적으로 완료되었습니다!")
    else:
        print("\\n💥 분석 중 오류가 발생했습니다.")

if __name__ == "__main__":
    main()