In [4]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from datetime import datetime, timedelta
import warnings
warnings.filterwarnings('ignore')

class KEPCOTimeSeriesAnalyzer:
    def __init__(self):
        self.lp_data = None
        self.weather_data = None
        self.calendar_data = None
        
    def load_sample_data(self, customer_df=None):
        """테스트용 샘플 LP 데이터 생성 (실제 환경에서는 사용 안함)"""
        print("=== 테스트용 샘플 데이터 생성 ===")
        print("⚠️  주의: 실제 환경에서는 load_real_lp_data() 사용")
        
        # 테스트용 샘플 데이터 생성
        self.lp_data = self._create_comprehensive_sample_data(customer_df)
        
        # 날짜/시간 전처리
        self.lp_data['datetime'] = pd.to_datetime(self.lp_data['LP수신일자'], format='%Y-%m-%d-%H:%M')
        self.lp_data['date'] = self.lp_data['datetime'].dt.date
        self.lp_data['hour'] = self.lp_data['datetime'].dt.hour
        self.lp_data['minute'] = self.lp_data['datetime'].dt.minute
        self.lp_data['weekday'] = self.lp_data['datetime'].dt.weekday  # 0=월요일
        self.lp_data['is_weekend'] = self.lp_data['weekday'].isin([5, 6])
        
        print(f"✅ 테스트 데이터 생성 완료: {len(self.lp_data):,}레코드")
        print(f"기간: {self.lp_data['datetime'].min()} ~ {self.lp_data['datetime'].max()}")
        print(f"고객 수: {self.lp_data['대체고객번호'].nunique()}명")
        
        return self.lp_data
    
    def load_real_lp_data(self, lp_files):
        """실제 LP 데이터 로딩 (실제 환경에서 사용)"""
        print("=== 실제 LP 데이터 로딩 ===")
        
        lp_data_list = []
        
        for file_path in lp_files:
            print(f"📂 로딩 중: {file_path}")
            try:
                df = pd.read_csv(file_path)
                lp_data_list.append(df)
                print(f"   ✅ 완료: {len(df):,}레코드")
            except Exception as e:
                print(f"   ❌ 실패: {e}")
        
        if lp_data_list:
            self.lp_data = pd.concat(lp_data_list, ignore_index=True)
            
            # 날짜/시간 전처리
            self.lp_data['datetime'] = pd.to_datetime(self.lp_data['LP수신일자'], format='%Y-%m-%d-%H:%M')
            self.lp_data['date'] = self.lp_data['datetime'].dt.date
            self.lp_data['hour'] = self.lp_data['datetime'].dt.hour
            self.lp_data['minute'] = self.lp_data['datetime'].dt.minute
            self.lp_data['weekday'] = self.lp_data['datetime'].dt.weekday
            self.lp_data['is_weekend'] = self.lp_data['weekday'].isin([5, 6])
            
            print(f"✅ 전체 데이터 결합 완료: {len(self.lp_data):,}레코드")
            print(f"기간: {self.lp_data['datetime'].min()} ~ {self.lp_data['datetime'].max()}")
            print(f"고객 수: {self.lp_data['대체고객번호'].nunique()}명")
        
        return self.lp_data
    
    def load_external_data(self):
        """기상 및 달력 데이터 로딩"""
        print("\n=== 외부 데이터 로딩 ===")
        
        try:
            # 기상 데이터 로딩
            print("📊 기상 데이터 로딩 중...")
            self.weather_data = pd.read_csv('weather_daily_processed.csv')
            
            # 날짜 컬럼 전처리
            self.weather_data['date'] = pd.to_datetime(self.weather_data['날짜'])
            
            print(f"✅ 기상 데이터 로딩 완료: {len(self.weather_data):,}일")
            print(f"   기간: {self.weather_data['date'].min().date()} ~ {self.weather_data['date'].max().date()}")
            print(f"   컬럼: {len(self.weather_data.columns)}개 - {list(self.weather_data.columns[:5])}...")
            
        except FileNotFoundError:
            print("⚠️  기상 데이터 파일을 찾을 수 없음 (weather_daily_processed.csv)")
            self.weather_data = None
        except Exception as e:
            print(f"❌ 기상 데이터 로딩 실패: {e}")
            self.weather_data = None
        
        try:
            # 달력 데이터 로딩
            print("\n📅 달력 데이터 로딩 중...")
            self.calendar_data = pd.read_csv('power_analysis_calendar_2022_2025.csv')
            
            # 날짜 컬럼 전처리
            self.calendar_data['date'] = pd.to_datetime(self.calendar_data['date'])
            
            print(f"✅ 달력 데이터 로딩 완료: {len(self.calendar_data):,}일")
            print(f"   기간: {self.calendar_data['date'].min().date()} ~ {self.calendar_data['date'].max().date()}")
            print(f"   컬럼: {len(self.calendar_data.columns)}개 - {list(self.calendar_data.columns[:5])}...")
            
        except FileNotFoundError:
            print("⚠️  달력 데이터 파일을 찾을 수 없음 (power_analysis_calendar_2022_2025.csv)")
            self.calendar_data = None
        except Exception as e:
            print(f"❌ 달력 데이터 로딩 실패: {e}")
            self.calendar_data = None
    
    def _create_customer_profiles_from_data(self, customer_df=None):
        """실제 고객 정보를 기반으로 고객 프로파일 생성"""
        profiles = {}
        
        if customer_df is not None:
            # 실제 고객 데이터가 있는 경우
            for _, customer in customer_df.iterrows():
                customer_id = customer['고객번호']
                
                # 계약전력에서 base_power 추정
                contract_power = customer['계약전력']
                if '100~199' in str(contract_power):
                    base_power = np.random.uniform(80, 120)
                elif '200~299' in str(contract_power):
                    base_power = np.random.uniform(120, 180)
                elif '400~499' in str(contract_power):
                    base_power = np.random.uniform(200, 280)
                elif '500~599' in str(contract_power):
                    base_power = np.random.uniform(280, 360)
                elif '700~799' in str(contract_power):
                    base_power = np.random.uniform(400, 500)
                elif '800~899' in str(contract_power):
                    base_power = np.random.uniform(500, 650)
                else:
                    base_power = np.random.uniform(100, 200)
                
                # 사용용도별 패턴 정의
                usage_type = customer['사용용도']
                if '상업용' in str(usage_type):
                    peak_hours = [9, 14, 19]  # 상업용: 오전, 오후, 저녁 피크
                    weekend_factor = np.random.uniform(0.7, 1.3)  # 상업용은 주말 변동 큼
                else:  # 광공업용
                    peak_hours = [8, 13, 18]  # 산업용: 작업시간 피크
                    weekend_factor = np.random.uniform(0.1, 0.4)  # 산업용은 주말 낮음
                
                # 계약종별 세부 조정
                contract_type = customer['계약종별']
                if '일반용' in str(contract_type):
                    # 일반용은 더 불규칙한 패턴
                    weekend_factor *= np.random.uniform(0.8, 1.5)
                
                # 산업분류별 특성 반영 (있는 경우)
                industry = customer.get('산업분류(소)', '')
                if '제조' in str(industry) or '생산' in str(industry):
                    # 제조업은 더 일정한 패턴
                    weekend_factor *= 0.3
                    peak_hours = [8, 13, 18, 22]  # 교대근무 고려
                
                profiles[customer_id] = {
                    'type': self._classify_business_type(customer),
                    'base_power': round(base_power, 1),
                    'peak_hours': peak_hours,
                    'weekend_factor': round(weekend_factor, 2),
                    'contract_power': contract_power,
                    'usage_type': usage_type
                }
        else:
            # 샘플 데이터용 기본 프로파일
            profiles = self._get_default_sample_profiles()
        
        return profiles
    
    def _classify_business_type(self, customer):
        """고객 정보를 바탕으로 업종 분류"""
        usage_type = str(customer['사용용도'])
        contract_type = str(customer['계약종별'])
        industry = str(customer.get('산업분류(소)', ''))
        product = str(customer.get('주생산품', ''))
        
        # 사용용도 기반 1차 분류
        if '상업용' in usage_type:
            if '일반용' in contract_type:
                return 'commercial'  # 상가, 사무소 등
            else:
                return 'service'     # 대형 서비스업
        else:  # 광공업용
            if any(keyword in industry.lower() for keyword in ['제조', '생산', '공장']):
                return 'manufacturing'
            else:
                return 'industrial'
        
    def _get_default_sample_profiles(self):
        """샘플 데이터용 기본 프로파일"""
        return {
            'A1001': {'type': 'hospital', 'base_power': 120, 'peak_hours': [9, 14, 20], 'weekend_factor': 0.8},
            'A1002': {'type': 'office', 'base_power': 80, 'peak_hours': [9, 14], 'weekend_factor': 0.3},
            'A1003': {'type': 'retail', 'base_power': 100, 'peak_hours': [11, 15, 19], 'weekend_factor': 1.2},
            'A1004': {'type': 'factory', 'base_power': 150, 'peak_hours': [8, 13, 18], 'weekend_factor': 0.1},
            'A1005': {'type': 'restaurant', 'base_power': 90, 'peak_hours': [12, 18], 'weekend_factor': 1.1},
            'A1006': {'type': 'gym', 'base_power': 70, 'peak_hours': [7, 18, 21], 'weekend_factor': 1.3},
            'A1007': {'type': 'school', 'base_power': 110, 'peak_hours': [10, 14], 'weekend_factor': 0.2},
            'A1008': {'type': 'hotel', 'base_power': 130, 'peak_hours': [8, 20], 'weekend_factor': 1.0},
            'A1009': {'type': 'warehouse', 'base_power': 60, 'peak_hours': [9, 16], 'weekend_factor': 0.5},
            'A1010': {'type': 'clinic', 'base_power': 85, 'peak_hours': [10, 15], 'weekend_factor': 0.6}
        }

    def _create_comprehensive_sample_data(self, customer_df=None):
        """포괄적인 테스트용 샘플 데이터 생성"""
        data = []
        customers = [f'A{1001+i}' for i in range(10)]  # A1001~A1010
        start_date = datetime(2024, 3, 1)
        days = 31  # 3월 전체
        
        # 동적 고객 프로파일 생성
        customer_profiles = self._create_customer_profiles_from_data(customer_df)
        
        for customer in customers:
            profile = customer_profiles[customer]
            
            for day in range(days):
                current_date = start_date + timedelta(days=day)
                is_weekend = current_date.weekday() >= 5
                
                for hour in range(24):
                    for minute in [0, 15, 30, 45]:
                        timestamp = current_date.replace(hour=hour, minute=minute)
                        
                        # 기본 전력 계산
                        base_power = profile['base_power']
                        
                        # 시간대별 패턴 (사인파 기반)
                        time_factor = 0.3 + 0.7 * (np.sin(2 * np.pi * hour / 24) + 1) / 2
                        
                        # 피크 시간 보정
                        peak_factor = 1.0
                        for peak_hour in profile['peak_hours']:
                            if abs(hour - peak_hour) <= 1:
                                peak_factor = 1.5
                        
                        # 주말 보정
                        weekend_factor = profile['weekend_factor'] if is_weekend else 1.0
                        
                        # 최종 전력 계산
                        power = base_power * time_factor * peak_factor * weekend_factor
                        power += np.random.normal(0, power * 0.1)  # 10% 노이즈
                        power = max(0, power)
                        
                        # 무효전력 계산
                        reactive_lag = power * np.random.uniform(0.1, 0.3)
                        reactive_lead = power * np.random.uniform(0.05, 0.15)
                        apparent_power = np.sqrt(power**2 + (reactive_lag - reactive_lead)**2)
                        
                        data.append({
                            '대체고객번호': customer,
                            'LP수신일자': timestamp.strftime('%Y-%m-%d-%H:%M'),
                            '순방향유효전력': round(power, 1),
                            '지상무효': round(reactive_lag, 1),
                            '진상무효': round(reactive_lead, 1),
                            '피상전력': round(apparent_power, 1)
                        })
        
        return pd.DataFrame(data)
    
    def merge_with_external_data(self):
        """LP 데이터와 외부 데이터 결합"""
        if self.lp_data is None:
            print("❌ LP 데이터가 로딩되지 않음")
            return
        
        print("\n=== 외부 데이터와 결합 ===")
        
        # 일별 LP 데이터 집계
        daily_lp = self.lp_data.groupby(['대체고객번호', 'date'])['순방향유효전력'].agg(['sum', 'mean', 'std', 'min', 'max']).reset_index()
        daily_lp.columns = ['대체고객번호', 'date', 'daily_sum', 'daily_mean', 'daily_std', 'daily_min', 'daily_max']
        daily_lp['date'] = pd.to_datetime(daily_lp['date'])
        
        # 기상 데이터와 결합
        if self.weather_data is not None:
            print("🌤️  기상 데이터 결합 중...")
            merged_data = daily_lp.merge(
                self.weather_data[['date', '평균기온', '최고기온', '최저기온', '평균습도', '총강수량', '불쾌지수', '냉방필요도', '난방필요도']],
                on='date',
                how='left'
            )
            print(f"   ✅ 기상 데이터 결합 완료: {merged_data['평균기온'].notna().sum():,}일 매칭")
        else:
            merged_data = daily_lp.copy()
        
        # 달력 데이터와 결합
        if self.calendar_data is not None:
            print("📅 달력 데이터 결합 중...")
            merged_data = merged_data.merge(
                self.calendar_data[['date', 'is_workday', 'is_weekend', 'is_holiday', 'is_consecutive_holiday', 'day_type']],
                on='date',
                how='left'
            )
            print(f"   ✅ 달력 데이터 결합 완료: {merged_data['is_workday'].notna().sum():,}일 매칭")
        
        # 결합된 데이터 저장
        self.merged_daily_data = merged_data
        
        print(f"\n📊 결합된 데이터 요약:")
        print(f"   총 레코드: {len(merged_data):,}개")
        print(f"   고객 수: {merged_data['대체고객번호'].nunique():,}명")
        print(f"   기간: {merged_data['date'].min().date()} ~ {merged_data['date'].max().date()}")
        print(f"   컬럼 수: {len(merged_data.columns)}개")
        
        return merged_data
    
    def analyze_weather_impact(self):
        """기상 요인이 전력 사용량에 미치는 영향 분석"""
        if not hasattr(self, 'merged_daily_data') or self.weather_data is None:
            print("⚠️  기상 데이터가 없어 기상 영향 분석을 건너뜁니다.")
            return None
        
        print("\n=== 기상 요인 영향 분석 ===")
        
        # 기상 변수별 상관관계 분석
        weather_cols = ['평균기온', '최고기온', '최저기온', '평균습도', '총강수량', '불쾌지수', '냉방필요도', '난방필요도']
        power_cols = ['daily_sum', 'daily_mean']
        
        correlations = {}
        for weather_col in weather_cols:
            if weather_col in self.merged_daily_data.columns:
                corr_sum = self.merged_daily_data[weather_col].corr(self.merged_daily_data['daily_sum'])
                corr_mean = self.merged_daily_data[weather_col].corr(self.merged_daily_data['daily_mean'])
                correlations[weather_col] = {'sum': corr_sum, 'mean': corr_mean}
        
        print("🌡️  기상 요인별 상관관계 (전력사용량):")
        print("기상요인\t\t일총사용량\t일평균사용량")
        for weather_factor, corrs in correlations.items():
            print(f"{weather_factor}\t{corrs['sum']:.3f}\t\t{corrs['mean']:.3f}")
        
        # 온도별 전력 사용 패턴
        temp_bins = [-10, 0, 10, 20, 25, 30, 35, 50]
        temp_labels = ['극한저온', '저온', '서늘', '적정', '따뜻', '더움', '고온']
        
        if '평균기온' in self.merged_daily_data.columns:
            self.merged_daily_data['temp_category'] = pd.cut(
                self.merged_daily_data['평균기온'], 
                bins=temp_bins, 
                labels=temp_labels, 
                include_lowest=True
            )
            
            temp_power = self.merged_daily_data.groupby('temp_category')['daily_mean'].agg(['count', 'mean', 'std']).round(1)
            
            print(f"\n🌡️  온도별 전력 사용 패턴:")
            print("온도구간\t일수\t평균사용량\t표준편차")
            for temp_cat in temp_power.index:
                stats = temp_power.loc[temp_cat]
                print(f"{temp_cat}\t{stats['count']}\t{stats['mean']}\t{stats['std']}")
        
        return correlations
    
    def analyze_calendar_patterns(self):
        """달력 요인별 전력 사용 패턴 분석"""
        if not hasattr(self, 'merged_daily_data') or self.calendar_data is None:
            print("⚠️  달력 데이터가 없어 달력 패턴 분석을 건너뜁니다.")
            return None
        
        print("\n=== 달력 패턴 분석 ===")
        
        # 평일/주말/휴일별 패턴
        if 'day_type' in self.merged_daily_data.columns:
            day_type_stats = self.merged_daily_data.groupby('day_type')['daily_mean'].agg(['count', 'mean', 'std']).round(1)
            
            print("📅 일자 유형별 전력 사용 패턴:")
            print("일자유형\t일수\t평균사용량\t표준편차")
            for day_type in day_type_stats.index:
                stats = day_type_stats.loc[day_type]
                print(f"{day_type}\t{stats['count']}\t{stats['mean']}\t{stats['std']}")
        
        # 연휴 효과 분석
        if 'is_consecutive_holiday' in self.merged_daily_data.columns:
            holiday_effect = self.merged_daily_data.groupby('is_consecutive_holiday')['daily_mean'].agg(['count', 'mean']).round(1)
            
            print(f"\n🎊 연휴 효과 분석:")
            for is_holiday, stats in holiday_effect.iterrows():
                holiday_label = "연휴기간" if is_holiday else "일반기간"
                print(f"{holiday_label}: 일수 {stats['count']}일, 평균 {stats['mean']}kW")
        
        # 월별 패턴 (계절성)
        self.merged_daily_data['month'] = self.merged_daily_data['date'].dt.month
        monthly_stats = self.merged_daily_data.groupby('month')['daily_mean'].agg(['count', 'mean', 'std']).round(1)
        
        print(f"\n📊 월별 전력 사용 패턴:")
        print("월\t일수\t평균사용량\t표준편차")
        for month in monthly_stats.index:
            stats = monthly_stats.loc[month]
            print(f"{month}월\t{stats['count']}\t{stats['mean']}\t{stats['std']}")
        
        return {
            'day_type_stats': day_type_stats if 'day_type' in self.merged_daily_data.columns else None,
            'holiday_effect': holiday_effect if 'is_consecutive_holiday' in self.merged_daily_data.columns else None,
            'monthly_stats': monthly_stats
        }
    
    def analyze_hourly_patterns(self):
        """시간대별 전력 사용 패턴 분석"""
        print("\n=== 시간대별 전력 사용 패턴 분석 ===")
        
        # 시간대별 평균 사용량
        hourly_avg = self.lp_data.groupby('hour')['순방향유효전력'].agg(['mean', 'std', 'min', 'max']).round(1)
        
        print("📊 시간대별 평균 전력 사용량 (kW):")
        print("시간\t평균\t표준편차\t최소\t최대")
        for hour in range(24):
            stats = hourly_avg.loc[hour]
            print(f"{hour:02d}시\t{stats['mean']}\t{stats['std']}\t{stats['min']}\t{stats['max']}")
        
        # 피크/비피크 시간대 식별
        peak_threshold = hourly_avg['mean'].quantile(0.8)
        peak_hours = hourly_avg[hourly_avg['mean'] >= peak_threshold].index.tolist()
        off_peak_hours = hourly_avg[hourly_avg['mean'] < hourly_avg['mean'].quantile(0.3)].index.tolist()
        
        print(f"\n⚡ 피크 시간대 (상위 20%): {peak_hours}시")
        print(f"💤 비피크 시간대 (하위 30%): {off_peak_hours}시")
        
        return {
            'hourly_stats': hourly_avg,
            'peak_hours': peak_hours,
            'off_peak_hours': off_peak_hours
        }
    
    def analyze_daily_patterns(self):
        """일별/요일별 패턴 분석"""
        print("\n=== 일별/요일별 패턴 분석 ===")
        
        # 일별 총 사용량
        daily_usage = self.lp_data.groupby(['대체고객번호', 'date'])['순방향유효전력'].sum().reset_index()
        daily_usage['weekday'] = pd.to_datetime(daily_usage['date']).dt.weekday
        daily_usage['is_weekend'] = daily_usage['weekday'].isin([5, 6])
        
        # 요일별 평균 사용량
        weekday_avg = daily_usage.groupby('weekday')['순방향유효전력'].agg(['mean', 'std']).round(1)
        weekday_names = ['월', '화', '수', '목', '금', '토', '일']
        
        print("📅 요일별 평균 일간 사용량 (kWh):")
        for i, day_name in enumerate(weekday_names):
            stats = weekday_avg.loc[i]
            print(f"{day_name}요일: {stats['mean']:,.1f} ± {stats['std']:.1f}")
        
        # 평일 vs 주말 비교
        weekday_mean = daily_usage[~daily_usage['is_weekend']]['순방향유효전력'].mean()
        weekend_mean = daily_usage[daily_usage['is_weekend']]['순방향유효전력'].mean()
        weekend_ratio = weekend_mean / weekday_mean
        
        print(f"\n📊 평일 vs 주말 비교:")
        print(f"평일 평균: {weekday_mean:,.1f} kWh")
        print(f"주말 평균: {weekend_mean:,.1f} kWh")
        print(f"주말/평일 비율: {weekend_ratio:.2f}")
        
        return {
            'daily_usage': daily_usage,
            'weekday_stats': weekday_avg,
            'weekend_ratio': weekend_ratio
        }
    
    def analyze_customer_profiles(self):
        """고객별 사용량 프로파일 분석"""
        print("\n=== 고객별 사용량 프로파일 분석 ===")
        
        # 고객별 기본 통계
        customer_stats = self.lp_data.groupby('대체고객번호')['순방향유효전력'].agg([
            'count', 'mean', 'std', 'min', 'max'
        ]).round(1)
        customer_stats['cv'] = (customer_stats['std'] / customer_stats['mean']).round(3)  # 변동계수
        
        print("👥 고객별 기본 통계 (kW):")
        print("고객번호\t평균\t표준편차\t변동계수\t최소\t최대")
        for customer in customer_stats.index:
            stats = customer_stats.loc[customer]
            print(f"{customer}\t{stats['mean']}\t{stats['std']}\t{stats['cv']}\t{stats['min']}\t{stats['max']}")
        
        # 사용량 규모별 분류
        mean_usage = customer_stats['mean']
        high_users = mean_usage[mean_usage >= mean_usage.quantile(0.8)].index.tolist()
        low_users = mean_usage[mean_usage <= mean_usage.quantile(0.2)].index.tolist()
        
        print(f"\n📈 대용량 사용자 (상위 20%): {high_users}")
        print(f"📉 소용량 사용자 (하위 20%): {low_users}")
        
        # 변동성별 분류
        high_volatility = customer_stats[customer_stats['cv'] >= customer_stats['cv'].quantile(0.8)].index.tolist()
        low_volatility = customer_stats[customer_stats['cv'] <= customer_stats['cv'].quantile(0.2)].index.tolist()
        
        print(f"\n🌊 고변동성 고객: {high_volatility}")
        print(f"📊 저변동성 고객: {low_volatility}")
        
        return {
            'customer_stats': customer_stats,
            'usage_segments': {
                'high_users': high_users,
                'low_users': low_users,
                'high_volatility': high_volatility,
                'low_volatility': low_volatility
            }
        }
    
    def calculate_load_factors(self):
        """부하율 및 효율성 지표 계산"""
        print("\n=== 부하율 및 효율성 지표 계산 ===")
        
        # 고객별 부하율 계산
        customer_load_factors = {}
        
        for customer in self.lp_data['대체고객번호'].unique():
            customer_data = self.lp_data[self.lp_data['대체고객번호'] == customer]
            
            avg_load = customer_data['순방향유효전력'].mean()
            max_load = customer_data['순방향유효전력'].max()
            load_factor = avg_load / max_load if max_load > 0 else 0
            
            # 피크 집중도 (피크 시간대 사용량 비중)
            peak_hours = [9, 14, 18]  # 대표 피크 시간
            peak_usage = customer_data[customer_data['hour'].isin(peak_hours)]['순방향유효전력'].mean()
            total_avg = customer_data['순방향유효전력'].mean()
            peak_concentration = peak_usage / total_avg if total_avg > 0 else 0
            
            customer_load_factors[customer] = {
                'load_factor': round(load_factor, 3),
                'peak_concentration': round(peak_concentration, 3),
                'avg_load': round(avg_load, 1),
                'max_load': round(max_load, 1)
            }
        
        print("⚡ 고객별 부하율 및 피크 집중도:")
        print("고객번호\t부하율\t피크집중도\t평균부하\t최대부하")
        for customer, metrics in customer_load_factors.items():
            print(f"{customer}\t{metrics['load_factor']}\t{metrics['peak_concentration']}\t{metrics['avg_load']}\t{metrics['max_load']}")
        
        # 전체 부하율 분포
        load_factors = [metrics['load_factor'] for metrics in customer_load_factors.values()]
        avg_load_factor = np.mean(load_factors)
        
        print(f"\n📊 전체 부하율 분포:")
        print(f"평균 부하율: {avg_load_factor:.3f}")
        print(f"부하율 범위: {min(load_factors):.3f} ~ {max(load_factors):.3f}")
        
        return customer_load_factors
    
    def detect_usage_anomalies(self):
        """사용량 이상 패턴 탐지"""
        print("\n=== 사용량 이상 패턴 탐지 ===")
        
        anomalies = []
        
        for customer in self.lp_data['대체고객번호'].unique():
            customer_data = self.lp_data[self.lp_data['대체고객번호'] == customer].copy()
            customer_data = customer_data.sort_values('datetime')
            
            # 1. 급격한 변화 탐지 (전시점 대비 200% 이상 변화)
            customer_data['power_change'] = customer_data['순방향유효전력'].pct_change()
            sudden_changes = customer_data[abs(customer_data['power_change']) > 2.0]
            
            # 2. 연속적인 0값 탐지 (2시간 이상)
            customer_data['is_zero'] = customer_data['순방향유효전력'] == 0
            customer_data['zero_group'] = (customer_data['is_zero'] != customer_data['is_zero'].shift()).cumsum()
            zero_periods = customer_data[customer_data['is_zero']].groupby('zero_group').size()
            long_zero_periods = zero_periods[zero_periods >= 8]  # 2시간 = 8개 15분 구간
            
            # 3. 통계적 이상치 (Z-score > 3)
            mean_power = customer_data['순방향유효전력'].mean()
            std_power = customer_data['순방향유효전력'].std()
            if std_power > 0:
                customer_data['z_score'] = abs(customer_data['순방향유효전력'] - mean_power) / std_power
                statistical_outliers = customer_data[customer_data['z_score'] > 3]
            else:
                statistical_outliers = pd.DataFrame()
            
            # 이상치 정보 저장
            if len(sudden_changes) > 0 or len(long_zero_periods) > 0 or len(statistical_outliers) > 0:
                anomalies.append({
                    'customer': customer,
                    'sudden_changes': len(sudden_changes),
                    'long_zero_periods': len(long_zero_periods),
                    'statistical_outliers': len(statistical_outliers)
                })
        
        print("🚨 이상 패턴 탐지 결과:")
        if anomalies:
            print("고객번호\t급격변화\t장기0값\t통계이상치")
            for anomaly in anomalies:
                print(f"{anomaly['customer']}\t{anomaly['sudden_changes']}\t{anomaly['long_zero_periods']}\t{anomaly['statistical_outliers']}")
        else:
            print("✅ 심각한 이상 패턴 없음")
        
        return anomalies
    
    def generate_enhanced_pattern_summary(self):
        """강화된 패턴 분석 종합 요약"""
        print("\n" + "="*60)
        print("📊 강화된 시계열 패턴 분석 종합 요약")
        print("="*60)
        
        # 외부 데이터 로딩
        self.load_external_data()
        
        # 데이터 결합
        merged_data = self.merge_with_external_data()
        
        # 기존 패턴 분석
        hourly_stats = self.analyze_hourly_patterns()
        daily_stats = self.analyze_daily_patterns()
        customer_stats = self.analyze_customer_profiles()
        load_factors = self.calculate_load_factors()
        anomalies = self.detect_usage_anomalies()
        
        # 강화된 분석 (외부 데이터 활용)
        weather_impact = self.analyze_weather_impact()
        calendar_patterns = self.analyze_calendar_patterns()
        
        print("\n🔍 주요 발견사항:")
        
        # 1. 시간 패턴
        peak_hours = hourly_stats['peak_hours']
        print(f"  • 주요 피크 시간: {peak_hours}시")
        
        # 2. 요일 패턴  
        weekend_ratio = daily_stats['weekend_ratio']
        print(f"  • 주말/평일 사용량 비율: {weekend_ratio:.2f}")
        
        # 3. 고객 다양성
        cv_range = customer_stats['customer_stats']['cv']
        print(f"  • 고객별 변동계수 범위: {cv_range.min():.3f} ~ {cv_range.max():.3f}")
        
        # 4. 부하율
        load_factor_avg = np.mean([lf['load_factor'] for lf in load_factors.values()])
        print(f"  • 평균 부하율: {load_factor_avg:.3f}")
        
        # 5. 이상 패턴
        anomaly_customers = len(anomalies)
        print(f"  • 이상 패턴 고객: {anomaly_customers}명")
        
        # 6. 기상 영향 (있는 경우)
        if weather_impact:
            temp_corr = weather_impact.get('평균기온', {}).get('mean', 0)
            humidity_corr = weather_impact.get('평균습도', {}).get('mean', 0)
            print(f"  • 기온과 전력사용량 상관관계: {temp_corr:.3f}")
            print(f"  • 습도와 전력사용량 상관관계: {humidity_corr:.3f}")
        
        # 7. 달력 효과 (있는 경우)
        if calendar_patterns and calendar_patterns.get('holiday_effect') is not None:
            holiday_effect = calendar_patterns['holiday_effect']
            if len(holiday_effect) >= 2:
                normal_avg = holiday_effect.loc[False, 'mean'] if False in holiday_effect.index else 0
                holiday_avg = holiday_effect.loc[True, 'mean'] if True in holiday_effect.index else 0
                if normal_avg > 0:
                    holiday_ratio = holiday_avg / normal_avg
                    print(f"  • 연휴/일반 사용량 비율: {holiday_ratio:.3f}")
        
        print("\n💡 강화된 변동계수 설계를 위한 인사이트:")
        print("  1. 시간대별 가중치 필요 (피크/비피크 구분)")
        print("  2. 요일별 보정 계수 고려") 
        print("  3. 고객별 기준 변동성 설정")
        print("  4. 부하율과 변동성의 상관관계 분석")
        print("  5. 기상 요인 보정 (온도, 습도, 강수량)")
        print("  6. 달력 효과 반영 (휴일, 연휴, 계절성)")
        print("  7. 다차원 변동성 지표 조합 검토")
        print("  8. 이상 패턴 필터링 메커니즘")
        
        return {
            'hourly_patterns': hourly_stats,
            'daily_patterns': daily_stats,
            'customer_profiles': customer_stats,
            'load_factors': load_factors,
            'anomalies': anomalies,
            'weather_impact': weather_impact,
            'calendar_patterns': calendar_patterns,
            'merged_data': merged_data
        }
    
    def generate_pattern_summary(self):
        """기존 패턴 분석 종합 요약 (하위 호환성)"""
        print("\n" + "="*60)
        print("📊 시계열 패턴 분석 종합 요약")
        print("="*60)
        
        # 주요 패턴 특성
        hourly_stats = self.analyze_hourly_patterns()
        daily_stats = self.analyze_daily_patterns()
        customer_stats = self.analyze_customer_profiles()
        load_factors = self.calculate_load_factors()
        anomalies = self.detect_usage_anomalies()
        
        print("\n🔍 주요 발견사항:")
        
        # 1. 시간 패턴
        peak_hours = hourly_stats['peak_hours']
        print(f"  • 주요 피크 시간: {peak_hours}시")
        
        # 2. 요일 패턴  
        weekend_ratio = daily_stats['weekend_ratio']
        print(f"  • 주말/평일 사용량 비율: {weekend_ratio:.2f}")
        
        # 3. 고객 다양성
        cv_range = customer_stats['customer_stats']['cv']
        print(f"  • 고객별 변동계수 범위: {cv_range.min():.3f} ~ {cv_range.max():.3f}")
        
        # 4. 부하율
        load_factor_avg = np.mean([lf['load_factor'] for lf in load_factors.values()])
        print(f"  • 평균 부하율: {load_factor_avg:.3f}")
        
        # 5. 이상 패턴
        anomaly_customers = len(anomalies)
        print(f"  • 이상 패턴 고객: {anomaly_customers}명")
        
        print("\n💡 변동계수 설계를 위한 인사이트:")
        print("  1. 시간대별 가중치 필요 (피크/비피크 구분)")
        print("  2. 요일별 보정 계수 고려") 
        print("  3. 고객별 기준 변동성 설정")
        print("  4. 부하율과 변동성의 상관관계 분석")
        print("  5. 다차원 변동성 지표 조합 검토")
        
        return {
            'hourly_patterns': hourly_stats,
            'daily_patterns': daily_stats,
            'customer_profiles': customer_stats,
            'load_factors': load_factors,
            'anomalies': anomalies
        }

# 사용 예제
if __name__ == "__main__":
    # 분석기 초기화
    analyzer = KEPCOTimeSeriesAnalyzer()
    
    print("🔧 실제 환경에서 사용 방법 (3000호):")
    print("""
    # 실제 LP 데이터만 로딩하면 끝!
    lp_files = ['LP데이터1.csv', 'LP데이터2.csv']
    analyzer.load_real_lp_data(lp_files)
    
    # 실제 데이터로 패턴 분석
    enhanced_summary = analyzer.generate_enhanced_pattern_summary()
    """)
    
    print("\n" + "="*50)
    print("🧪 현재는 테스트용 샘플 데이터로 시연")
    print("="*50)
    
    # 테스트용으로만 샘플 데이터 생성
    lp_data = analyzer.load_sample_data()
    
    # 패턴 분석 실행
    pattern_summary = analyzer.generate_pattern_summary()
    
    print("\n💡 핵심 포인트:")
    print("  ✅ 실제 환경: 실제 LP 데이터 그대로 분석")
    print("  ✅ 테스트용: 샘플 데이터로 알고리즘 검증")
    print("  ✅ 3000호: 실제 데이터 있으니 프로파일 생성 불필요")
    print("  ✅ 패턴 분석: 실제 사용량에서 변동성 지표 계산")

🔧 실제 환경에서 사용 방법 (3000호):

    # 실제 LP 데이터만 로딩하면 끝!
    lp_files = ['LP데이터1.csv', 'LP데이터2.csv']
    analyzer.load_real_lp_data(lp_files)
    
    # 실제 데이터로 패턴 분석
    enhanced_summary = analyzer.generate_enhanced_pattern_summary()
    

🧪 현재는 테스트용 샘플 데이터로 시연
=== 테스트용 샘플 데이터 생성 ===
⚠️  주의: 실제 환경에서는 load_real_lp_data() 사용
✅ 테스트 데이터 생성 완료: 29,760레코드
기간: 2024-03-01 00:00:00 ~ 2024-03-31 23:45:00
고객 수: 10명

📊 시계열 패턴 분석 종합 요약

=== 시간대별 전력 사용 패턴 분석 ===
📊 시간대별 평균 전력 사용량 (kW):
시간	평균	표준편차	최소	최대
00시	58.3	23.8	7.4	122.1
01시	66.2	27.4	8.6	133.2
02시	73.7	30.4	10.1	159.4
03시	79.8	32.5	9.8	159.2
04시	84.9	34.9	11.7	170.7
05시	88.1	36.3	10.6	180.2
06시	92.8	37.2	12.3	190.1
07시	104.0	56.2	16.1	287.0
08시	111.3	54.2	15.5	262.6
09시	107.8	51.5	15.4	255.9
10시	93.6	38.3	10.3	183.9
11시	79.8	34.9	8.2	152.7
12시	68.0	34.5	11.3	180.6
13시	62.8	31.1	9.4	154.7
14시	55.2	26.5	8.1	135.4
15시	45.7	18.5	4.7	91.4
16시	35.0	14.1	4.3	77.3
17시	32.9	14.9	5.4	90.5
18시	32.4	15.9	4.8	89.6
19시	37.7	19.1	5.4	83.4
20시	38.2	19.0	3.9	87.0
21