In [8]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from datetime import datetime
import warnings
warnings.filterwarnings('ignore')

# 한글 폰트 설정
plt.rcParams['font.family'] = 'DejaVu Sans'
plt.rcParams['axes.unicode_minus'] = False

class RealEstateAnalyzer:
    def __init__(self, data_path='data/'):
        self.data_path = data_path
        self.regions = ['광주', '부산', '제주']
        self.raw_data = {}
        self.processed_data = {}
        
    def load_all_data(self):
        """모든 지역의 데이터를 로드"""
        print("=== 데이터 로딩 시작 ===")
        
        for region in self.regions:
            self.raw_data[region] = []
            print(f"\n[{region}] 데이터 로딩 중...")
            
            for i in range(1, 6):  # 1~5번 파일
                try:
                    filename = f"{region}_아파트_{i}.csv"
                    filepath = f"{self.data_path}{filename}"
                    
                    # 다양한 인코딩으로 시도
                    for encoding in ['utf-8', 'cp949', 'euc-kr']:
                        try:
                            df = pd.read_csv(filepath, encoding=encoding)
                            print(f"  ✓ {filename} 로드 완료 ({len(df)} rows, {len(df.columns)} cols)")
                            self.raw_data[region].append(df)
                            break
                        except UnicodeDecodeError:
                            continue
                    else:
                        print(f"  ✗ {filename} 인코딩 오류")
                        
                except Exception as e:
                    print(f"  ✗ {filename} 로드 실패: {e}")
        
        return self.raw_data
    
    def explore_data_structure(self):
        """데이터 구조 탐색"""
        print("\n=== 데이터 구조 분석 ===")
        
        for region in self.regions:
            print(f"\n[{region}] 데이터 구조:")
            
            if not self.raw_data[region]:
                print("  데이터 없음")
                continue
                
            for i, df in enumerate(self.raw_data[region], 1):
                print(f"  파일 {i}: {df.shape}")
                print(f"  컬럼: {list(df.columns)}")
                
                # 첫 번째 파일의 샘플 데이터 표시
                if i == 1:
                    print(f"  샘플 데이터:")
                    print(df.head(3).to_string())
                print("-" * 50)
    
    def combine_region_data(self):
        """지역별 데이터 결합"""
        print("\n=== 지역별 데이터 결합 ===")
        
        for region in self.regions:
            if not self.raw_data[region]:
                continue
                
            try:
                # 모든 파일을 하나로 결합
                combined_df = pd.concat(self.raw_data[region], ignore_index=True)
                
                # 지역 정보 추가
                combined_df['지역'] = region
                
                self.processed_data[region] = combined_df
                print(f"{region}: {len(combined_df)} 건의 데이터 결합 완료")
                
            except Exception as e:
                print(f"{region} 데이터 결합 실패: {e}")
    
    def basic_statistics(self):
        """기본 통계 정보"""
        print("\n=== 기본 통계 정보 ===")
        
        for region in self.regions:
            if region not in self.processed_data:
                continue
                
            df = self.processed_data[region]
            print(f"\n[{region}]")
            print(f"총 거래 건수: {len(df):,}건")
            
            # 가격 관련 컬럼이 있는지 확인
            price_cols = [col for col in df.columns if any(keyword in col.lower() 
                         for keyword in ['가격', '금액', 'price', '거래금액', '매매가'])]
            
            if price_cols:
                for col in price_cols[:3]:  # 상위 3개만 표시
                    if df[col].dtype in ['int64', 'float64']:
                        print(f"{col}:")
                        print(f"  평균: {df[col].mean():,.0f}")
                        print(f"  중앙값: {df[col].median():,.0f}")
                        print(f"  최대값: {df[col].max():,.0f}")
                        print(f"  최소값: {df[col].min():,.0f}")
    
    def run_initial_analysis(self):
        """초기 분석 실행"""
        self.load_all_data()
        self.explore_data_structure() 
        self.combine_region_data()
        self.basic_statistics()
        
        return self.processed_data

# 분석 실행
analyzer = RealEstateAnalyzer()
data = analyzer.run_initial_analysis()

print("\n=== 초기 분석 완료 ===")
print("다음 단계에서는 가격 변동 패턴과 투자 매력도를 분석하겠습니다.")

=== 데이터 로딩 시작 ===

[광주] 데이터 로딩 중...
  ✓ 광주_아파트_1.csv 로드 완료 (15803 rows, 20 cols)
  ✓ 광주_아파트_2.csv 로드 완료 (15125 rows, 20 cols)
  ✓ 광주_아파트_3.csv 로드 완료 (11862 rows, 20 cols)
  ✓ 광주_아파트_4.csv 로드 완료 (18517 rows, 20 cols)
  ✓ 광주_아파트_5.csv 로드 완료 (31392 rows, 20 cols)

[부산] 데이터 로딩 중...
  ✓ 부산_아파트_1.csv 로드 완료 (29610 rows, 20 cols)
  ✓ 부산_아파트_2.csv 로드 완료 (27960 rows, 20 cols)
  ✓ 부산_아파트_3.csv 로드 완료 (21907 rows, 20 cols)
  ✓ 부산_아파트_4.csv 로드 완료 (25130 rows, 20 cols)
  ✓ 부산_아파트_5.csv 로드 완료 (68731 rows, 20 cols)

[제주] 데이터 로딩 중...
  ✓ 제주_아파트_1.csv 로드 완료 (4433 rows, 20 cols)
  ✓ 제주_아파트_2.csv 로드 완료 (3026 rows, 20 cols)
  ✓ 제주_아파트_3.csv 로드 완료 (1962 rows, 20 cols)
  ✓ 제주_아파트_4.csv 로드 완료 (2382 rows, 20 cols)
  ✓ 제주_아파트_5.csv 로드 완료 (2353 rows, 20 cols)

=== 데이터 구조 분석 ===

[광주] 데이터 구조:
  파일 1: (15803, 20)
  컬럼: ['NO', '시군구', '번지', '본번', '부번', '단지명', '전용면적(㎡)', '계약년월', '계약일', '거래금액(만원)', '동', '층', '매수자', '매도자', '건축년도', '도로명', '해제사유발생일', '거래유형', '중개사소재지', '등기일자']
  샘플 데이터:
   NO           시군구     번지   본번  부번 

In [None]:
pip install plotly

Collecting plotly
  Downloading plotly-6.3.0-py3-none-any.whl.metadata (8.5 kB)
Collecting narwhals>=1.15.1 (from plotly)
  Downloading narwhals-2.1.2-py3-none-any.whl.metadata (11 kB)
Downloading plotly-6.3.0-py3-none-any.whl (9.8 MB)
   ---------------------------------------- 0.0/9.8 MB ? eta -:--:--
   - -------------------------------------- 0.3/9.8 MB ? eta -:--:--
   ----- ---------------------------------- 1.3/9.8 MB 4.5 MB/s eta 0:00:02
   -------- ------------------------------- 2.1/9.8 MB 4.2 MB/s eta 0:00:02
   ------------ --------------------------- 3.1/9.8 MB 4.4 MB/s eta 0:00:02
   ------------- -------------------------- 3.4/9.8 MB 4.5 MB/s eta 0:00:02
   ----------------- ---------------------- 4.2/9.8 MB 3.7 MB/s eta 0:00:02
   ------------------- -------------------- 4.7/9.8 MB 3.7 MB/s eta 0:00:02
   ------------------------ --------------- 6.0/9.8 MB 3.9 MB/s eta 0:00:01
   --------------------------- ------------ 6.8/9.8 MB 3.9 MB/s eta 0:00:01
   ---------------


[notice] A new release of pip is available: 24.3.1 -> 25.2
[notice] To update, run: python.exe -m pip install --upgrade pip


In [11]:
# 아파트 총 거래량 분석


import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from datetime import datetime
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots
import warnings
warnings.filterwarnings('ignore')

# 한글 폰트 설정
plt.rcParams['font.family'] = 'DejaVu Sans'
plt.rcParams['axes.unicode_minus'] = False

class StepByStepAnalyzer:
    def __init__(self, data_path='data/'):
        self.data_path = data_path
        self.regions = ['광주', '부산', '제주']
        self.raw_data = {}
        
    def load_and_explore_raw_data(self):
        """원본 데이터 로드 및 구조 탐색"""
        print("=== 1단계: 원본 데이터 구조 파악 ===")
        
        for region in self.regions:
            print(f"\n📍 [{region}] 데이터 분석:")
            self.raw_data[region] = []
            
            for i in range(1, 6):
                try:
                    filename = f"{region}_아파트_{i}.csv"
                    filepath = f"{self.data_path}{filename}"
                    
                    # 다양한 인코딩으로 시도
                    for encoding in ['utf-8', 'cp949', 'euc-kr']:
                        try:
                            df = pd.read_csv(filepath, encoding=encoding)
                            self.raw_data[region].append(df)
                            
                            print(f"  📄 {filename}: {len(df)}건, {len(df.columns)}개 컬럼")
                            
                            # 첫 번째 파일의 컬럼 구조 상세 분석
                            if i == 1:
                                print(f"  📋 컬럼 목록:")
                                for idx, col in enumerate(df.columns, 1):
                                    print(f"    {idx:2d}. {col}")
                                
                                print(f"  📊 샘플 데이터 (상위 3건):")
                                print(df.head(3).to_string())
                                print("-" * 80)
                            break
                        except UnicodeDecodeError:
                            continue
                    
                except Exception as e:
                    print(f"  ❌ {filename} 로드 실패: {e}")
    
    def analyze_total_transaction_volume(self):
        """총거래량 분석"""
        print("\n=== 2단계: 총거래량 분석 ===")
        
        transaction_summary = []
        
        for region in self.regions:
            if not self.raw_data[region]:
                continue
                
            print(f"\n🏠 [{region}] 거래량 분석:")
            
            region_total = 0
            file_breakdown = []
            
            for i, df in enumerate(self.raw_data[region], 1):
                file_count = len(df)
                region_total += file_count
                file_breakdown.append(f"파일{i}: {file_count:,}건")
                
            print(f"  📁 파일별 거래량: {', '.join(file_breakdown)}")
            print(f"  📈 총 거래량: {region_total:,}건")
            
            # 전체 데이터 결합
            combined_df = pd.concat(self.raw_data[region], ignore_index=True)
            
            # 날짜 컬럼 찾기
            date_cols = [col for col in combined_df.columns if any(keyword in col.lower() 
                        for keyword in ['날짜', 'date', '계약', '거래', '년', '월'])]
            
            print(f"  📅 발견된 날짜 관련 컬럼: {date_cols}")
            
            # 날짜별 분석 시도
            if date_cols:
                self.analyze_temporal_patterns(combined_df, region, date_cols)
            
            transaction_summary.append({
                '지역': region,
                '총거래량': region_total,
                '파일수': len(self.raw_data[region]),
                '평균파일크기': region_total // len(self.raw_data[region]) if self.raw_data[region] else 0
            })
        
        # 거래량 비교 시각화
        self.visualize_transaction_volume(transaction_summary)
        
        return transaction_summary
    
    def analyze_temporal_patterns(self, df, region, date_cols):
        """시간별 패턴 분석"""
        print(f"  🕐 시간별 패턴 분석:")
        
        for date_col in date_cols[:2]:  # 상위 2개 날짜 컬럼만 시도
            try:
                # 다양한 날짜 형식 시도
                date_formats = ['%Y-%m-%d', '%Y.%m.%d', '%Y/%m/%d', '%Y-%m', '%Y.%m']
                
                for fmt in date_formats:
                    try:
                        df['parsed_date'] = pd.to_datetime(df[date_col], format=fmt)
                        break
                    except:
                        continue
                else:
                    # 자동 파싱 시도
                    df['parsed_date'] = pd.to_datetime(df[date_col], errors='coerce')
                
                if 'parsed_date' in df.columns and not df['parsed_date'].isna().all():
                    # 연도별 집계
                    yearly = df.groupby(df['parsed_date'].dt.year).size()
                    print(f"    📊 {date_col} 기준 연도별 거래량:")
                    for year, count in yearly.items():
                        if pd.notna(year):
                            print(f"      {int(year)}년: {count:,}건")
                    
                    # 월별 집계 (최근 연도)
                    if len(yearly) > 0:
                        latest_year = yearly.index.max()
                        if pd.notna(latest_year):
                            monthly = df[df['parsed_date'].dt.year == latest_year].groupby(
                                df['parsed_date'].dt.month).size()
                            print(f"    📅 {int(latest_year)}년 월별 거래량:")
                            for month, count in monthly.items():
                                if pd.notna(month):
                                    print(f"      {int(month):2d}월: {count:,}건")
                    break
                    
            except Exception as e:
                print(f"    ⚠️ {date_col} 날짜 파싱 실패: {e}")
    
    def visualize_transaction_volume(self, summary_data):
        """거래량 시각화"""
        print(f"\n=== 3단계: 거래량 시각화 ===")
        
        df_summary = pd.DataFrame(summary_data)
        
        # 1. Plotly 인터랙티브 바차트
        fig = go.Figure()
        
        colors = ['#FF6B6B', '#4ECDC4', '#45B7D1']
        
        fig.add_trace(go.Bar(
            x=df_summary['지역'],
            y=df_summary['총거래량'],
            text=df_summary['총거래량'].apply(lambda x: f'{x:,}건'),
            textposition='auto',
            marker_color=colors,
            hovertemplate='<b>%{x}</b><br>총 거래량: %{y:,}건<br>파일 수: %{customdata}개<extra></extra>',
            customdata=df_summary['파일수']
        ))
        
        fig.update_layout(
            title='🏠 지역별 총 거래량 비교',
            title_x=0.5,
            title_font_size=20,
            xaxis_title='지역',
            yaxis_title='총 거래량 (건)',
            showlegend=False,
            height=500
        )
        
        fig.show()
        
        # 2. 거래량 비율 파이차트
        fig2 = go.Figure(data=[go.Pie(
            labels=df_summary['지역'],
            values=df_summary['총거래량'],
            hole=0.3,
            marker_colors=colors,
            textinfo='label+percent+value',
            texttemplate='<b>%{label}</b><br>%{percent}<br>%{value:,}건'
        )])
        
        fig2.update_layout(
            title='📊 지역별 거래량 비율',
            title_x=0.5,
            title_font_size=20,
            height=500
        )
        
        fig2.show()
        
        # 3. 요약 통계
        total_transactions = df_summary['총거래량'].sum()
        print(f"\n📈 거래량 요약:")
        print(f"  🔢 전체 거래량: {total_transactions:,}건")
        
        for _, row in df_summary.iterrows():
            percentage = (row['총거래량'] / total_transactions) * 100
            print(f"  📍 {row['지역']}: {row['총거래량']:,}건 ({percentage:.1f}%)")
    
    def run_step1_analysis(self):
        """1단계 분석 실행"""
        print("🚀 부동산 데이터 단계별 분석 시작!")
        print("=" * 60)
        
        # 단계별 실행
        self.load_and_explore_raw_data()
        summary = self.analyze_total_transaction_volume()
        
        
        return summary

# 분석 실행
analyzer = StepByStepAnalyzer()
results = analyzer.run_step1_analysis()

🚀 부동산 데이터 단계별 분석 시작!
=== 1단계: 원본 데이터 구조 파악 ===

📍 [광주] 데이터 분석:
  📄 광주_아파트_1.csv: 15803건, 20개 컬럼
  📋 컬럼 목록:
     1. NO
     2. 시군구
     3. 번지
     4. 본번
     5. 부번
     6. 단지명
     7. 전용면적(㎡)
     8. 계약년월
     9. 계약일
    10. 거래금액(만원)
    11. 동
    12. 층
    13. 매수자
    14. 매도자
    15. 건축년도
    16. 도로명
    17. 해제사유발생일
    18. 거래유형
    19. 중개사소재지
    20. 등기일자
  📊 샘플 데이터 (상위 3건):
   NO           시군구     번지   본번  부번           단지명   전용면적(㎡)    계약년월  계약일 거래금액(만원)  동   층 매수자 매도자  건축년도        도로명 해제사유발생일  거래유형  중개사소재지 등기일자
0   1  광주광역시 북구 삼각동    835  835   0      일곡엘리체프라임   84.9426  202508   14   41,500  -  17  개인  개인  2016    설죽로 419       -  중개거래   광주 북구    -
1   2  광주광역시 서구 마륵동      1    1   0          상무자이  170.8552  202508   14   68,000  -   4  개인  개인  2008  백석길 22-23       -  중개거래  광주 광산구    -
2   3  광주광역시 서구 화정동  23-20   23  20  해광샹그릴라센트럴337   54.6212  202508   14   17,900  -  18  개인  개인  2017    내방로 337       -  중개거래   광주 서구    -
---------------------------------------------------------


📈 거래량 요약:
  🔢 전체 거래량: 280,193건
  📍 광주: 92,699건 (33.1%)
  📍 부산: 173,338건 (61.9%)
  📍 제주: 14,156건 (5.1%)


In [22]:
import pandas as pd
import numpy as np
import plotly.graph_objects as go
from plotly.subplots import make_subplots
from datetime import datetime
import warnings
warnings.filterwarnings('ignore')

class ChronologicalAnalyzer:
    def __init__(self, data_path='data/'):
        self.data_path = data_path
        self.regions = ['광주', '부산', '제주']
        self.chronological_data = {}
        
    def extract_actual_periods(self):
        """실제 데이터 기간 추출 및 시간순 정렬"""
        print("=== 실제 데이터 기간 기준 분석 ===")
        
        for region in self.regions:
            print(f"\n📅 [{region}] 실제 기간별 데이터 추출:")
            
            period_data = []
            
            for i in range(1, 6):
                try:
                    filename = f"{region}_아파트_{i}.csv"
                    filepath = f"{self.data_path}{filename}"
                    
                    # 파일 로드
                    for encoding in ['utf-8', 'cp949', 'euc-kr']:
                        try:
                            df = pd.read_csv(filepath, encoding=encoding)
                            
                            # 날짜 및 가격 처리
                            processed_info = self.process_file_data(df, filename)
                            
                            if processed_info:
                                period_data.append({
                                    'original_file': filename,
                                    'file_num': i,
                                    'start_date': processed_info['start_date'],
                                    'end_date': processed_info['end_date'],
                                    'period_label': processed_info['period_label'],
                                    'valid_count': processed_info['valid_count'],
                                    'mean_price': processed_info['mean_price'],
                                    'median_price': processed_info['median_price'],
                                    'start_year_month': processed_info['start_year_month'],
                                    'end_year_month': processed_info['end_year_month'],
                                    'data': processed_info['valid_data']
                                })
                                
                                print(f"  📄 {filename}")
                                print(f"    📅 실제기간: {processed_info['period_label']}")
                                print(f"    📊 유효데이터: {processed_info['valid_count']:,}건")
                                print(f"    💰 평균가격: {processed_info['mean_price']:,.0f}만원")
                            
                            break
                        except UnicodeDecodeError:
                            continue
                            
                except Exception as e:
                    print(f"  ❌ {filename}: {e}")
            
            # 시간순으로 정렬 (시작 날짜 기준)
            if period_data:
                period_data_sorted = sorted(period_data, key=lambda x: x['start_date'])
                
                print(f"\n  🕐 시간순 정렬 결과:")
                for idx, period in enumerate(period_data_sorted, 1):
                    print(f"    {idx}순위: {period['period_label']} (원파일: {period['original_file']})")
                
                self.chronological_data[region] = period_data_sorted
    
    def process_file_data(self, df, filename):
        """파일 데이터 처리"""
        # 날짜 컬럼 찾기 및 파싱
        date_cols = [col for col in df.columns if any(keyword in col.lower() 
                    for keyword in ['날짜', 'date', '계약', '거래', '년월'])]
        
        parsed_dates = None
        for date_col in date_cols:
            try:
                # 여러 날짜 형식 시도
                formats = ['%Y-%m-%d', '%Y.%m.%d', '%Y/%m/%d', '%Y-%m', '%Y.%m', '%Y%m']
                
                for fmt in formats:
                    try:
                        temp_dates = pd.to_datetime(df[date_col], format=fmt, errors='coerce')
                        if temp_dates.notna().sum() / len(temp_dates) > 0.8:  # 80% 이상 성공
                            parsed_dates = temp_dates
                            break
                    except:
                        continue
                
                if parsed_dates is None:
                    parsed_dates = pd.to_datetime(df[date_col], errors='coerce')
                
                if parsed_dates.notna().sum() > len(df) * 0.5:  # 50% 이상 성공
                    break
                    
            except:
                continue
        
        if parsed_dates is None or parsed_dates.notna().sum() == 0:
            return None
        
        # 가격 컬럼 처리
        price_keywords = ['가격', '금액', 'price', '거래금액', '매매가']
        price_cols = [col for col in df.columns if any(keyword in col.lower() for keyword in price_keywords)]
        
        if not price_cols:
            return None
        
        main_price_col = price_cols[0]
        
        try:
            if df[main_price_col].dtype == 'object':
                price_clean = df[main_price_col].astype(str)
                price_clean = price_clean.str.replace(',', '').str.replace('만원', '').str.replace('원', '')
                price_clean = price_clean.str.extract('(\d+\.?\d*)')[0]
                cleaned_prices = pd.to_numeric(price_clean, errors='coerce')
            else:
                cleaned_prices = pd.to_numeric(df[main_price_col], errors='coerce')
        except:
            return None
        
        # 유효한 데이터만 필터링
        df['거래날짜'] = parsed_dates
        df['거래가격'] = cleaned_prices
        
        valid_data = df[(df['거래날짜'].notna()) & 
                       (df['거래가격'].notna()) & 
                       (df['거래가격'] > 0) & 
                       (df['거래가격'] < 1000000)]  # 현실적 범위
        
        if len(valid_data) == 0:
            return None
        
        # 기간 정보 계산
        start_date = valid_data['거래날짜'].min()
        end_date = valid_data['거래날짜'].max()
        
        start_ym = start_date.strftime('%Y.%m')
        end_ym = end_date.strftime('%Y.%m')
        period_label = f"{start_ym}~{end_ym}"
        
        # 가격 통계
        mean_price = valid_data['거래가격'].mean()
        median_price = valid_data['거래가격'].median()
        
        return {
            'start_date': start_date,
            'end_date': end_date,
            'start_year_month': start_ym,
            'end_year_month': end_ym,
            'period_label': period_label,
            'valid_count': len(valid_data),
            'mean_price': mean_price,
            'median_price': median_price,
            'valid_data': valid_data
        }
    
    def create_period_based_analysis(self):
        """기간 기준 분석"""
        print("\n=== 기간 기준 종합 분석 ===")
        
        analysis_results = {}
        
        for region in self.regions:
            if region not in self.chronological_data:
                continue
                
            periods = self.chronological_data[region]
            print(f"\n📊 [{region}] 기간별 가격 추이:")
            
            # 기간별 요약
            period_summary = []
            for i, period in enumerate(periods):
                period_summary.append({
                    'chronological_order': i + 1,
                    'period_label': period['period_label'],
                    'start_date': period['start_date'],
                    'end_date': period['end_date'],
                    'duration_days': (period['end_date'] - period['start_date']).days,
                    'valid_count': period['valid_count'],
                    'mean_price': period['mean_price'],
                    'median_price': period['median_price'],
                    'original_file': period['original_file']
                })
                
                print(f"  {i+1}기: {period['period_label']} ({period['valid_count']:,}건, {period['mean_price']:,.0f}만원)")
            
            # 증감률 계산
            for i in range(1, len(period_summary)):
                prev_price = period_summary[i-1]['mean_price']
                curr_price = period_summary[i]['mean_price']
                change_rate = ((curr_price - prev_price) / prev_price) * 100
                period_summary[i]['price_change_rate'] = change_rate
                
                direction = "📈" if change_rate > 0 else "📉" if change_rate < 0 else "➡️"
                print(f"    └ 전기 대비: {change_rate:+.1f}% {direction}")
            
            period_summary[0]['price_change_rate'] = None  # 첫 번째는 기준
            
            analysis_results[region] = period_summary
        
        return analysis_results
    
    def create_chronological_visualization(self, analysis_results):
        """시간순 시각화"""
        print("\n=== 시간순 시각화 생성 ===")
        
        # 1. 기간별 가격 추이 (시간순)
        fig1 = go.Figure()
        colors = {'광주': '#FF6B6B', '부산': '#4ECDC4', '제주': '#45B7D1'}
        
        for region in self.regions:
            if region in analysis_results:
                data = analysis_results[region]
                
                x_values = [f"{i+1}기" for i in range(len(data))]
                y_values = [item['mean_price'] for item in data]
                period_labels = [item['period_label'] for item in data]
                counts = [item['valid_count'] for item in data]
                
                fig1.add_trace(go.Scatter(
                    x=x_values,
                    y=y_values,
                    mode='lines+markers+text',
                    name=region,
                    line=dict(color=colors[region], width=3),
                    marker=dict(size=12),
                    text=[f'{price:,.0f}만원' for price in y_values],
                    textposition='top center',
                    textfont=dict(size=11, color=colors[region]),
                    hovertemplate=f'<b>{region}</b><br>' +
                                '실제기간: %{customdata}<br>' +
                                '평균가격: %{y:,.0f}만원<br>' +
                                '거래건수: %{meta:,}건<extra></extra>',
                    customdata=period_labels,
                    meta=counts
                ))
        
        fig1.update_layout(
            title='📈 실제 기간 기준 평균 거래가격 추이 (시간순)',
            title_x=0.5,
            title_font_size=20,
            xaxis_title='시간순 기간',
            yaxis_title='평균 거래가격 (만원)',
            height=600,
            margin=dict(t=100, b=100)
        )
        
        fig1.show()
        
        # 2. 가격 변동률 차트
        self.create_change_rate_chart(analysis_results)
        
        # 3. 기간별 상세 정보 테이블
        self.create_comprehensive_table(analysis_results)
    
    def create_change_rate_chart(self, analysis_results):
        """가격 변동률 차트"""
        fig = go.Figure()
        colors = {'광주': '#FF6B6B', '부산': '#4ECDC4', '제주': '#45B7D1'}
        
        for region in self.regions:
            if region in analysis_results:
                data = analysis_results[region]
                
                # 변동률이 있는 데이터만 (2기부터)
                change_data = [item for item in data if item['price_change_rate'] is not None]
                
                if change_data:
                    x_values = [f"{item['chronological_order']}기" for item in change_data]
                    y_values = [item['price_change_rate'] for item in change_data]
                    period_labels = [item['period_label'] for item in change_data]
                    
                    fig.add_trace(go.Bar(
                        x=x_values,
                        y=y_values,
                        name=region,
                        marker_color=colors[region],
                        text=[f'{v:+.1f}%' for v in y_values],
                        textposition='auto',
                        hovertemplate=f'<b>{region}</b><br>' +
                                    '기간: %{customdata}<br>' +
                                    '변동률: %{y:+.1f}%<extra></extra>',
                        customdata=period_labels
                    ))
        
        fig.add_hline(y=0, line=dict(color='gray', dash='dash', width=1))
        
        fig.update_layout(
            title='📊 기간별 가격 변동률 (전기 대비)',
            title_x=0.5,
            title_font_size=20,
            xaxis_title='기간',
            yaxis_title='가격 변동률 (%)',
            height=500,
            barmode='group'
        )
        
        fig.show()
    
    def create_comprehensive_table(self, analysis_results):
        """종합 정보 테이블"""
        print("\n=== 기간별 종합 정보 테이블 ===")
        
        # 모든 지역 데이터를 하나의 테이블로
        table_data = []
        
        for region in self.regions:
            if region in analysis_results:
                for item in analysis_results[region]:
                    change_str = f"{item['price_change_rate']:+.1f}%" if item['price_change_rate'] is not None else "-"
                    
                    table_data.append([
                        region,
                        f"{item['chronological_order']}기",
                        item['period_label'],
                        f"{item['duration_days']}일",
                        f"{item['valid_count']:,}건",
                        f"{item['mean_price']:,.0f}만원",
                        change_str,
                        item['original_file']
                    ])
        
        if table_data:
            fig = go.Figure(data=[go.Table(
                header=dict(
                    values=['지역', '순서', '실제 기간', '기간', '거래건수', '평균가격', '변동률', '원본파일'],
                    fill_color='lightblue',
                    align='center',
                    font=dict(size=11, color='black'),
                    height=40
                ),
                cells=dict(
                    values=list(zip(*table_data)),
                    fill_color='white',
                    align='center',
                    font=dict(size=10),
                    height=32
                )
            )])
            
            fig.update_layout(
                title='📋 지역별 실제 기간 기준 종합 분석표',
                title_x=0.5,
                title_font_size=16,
                height=500,
                margin=dict(l=20, r=20, t=80, b=20)
            )
            
            fig.show()
    
    def run_chronological_analysis(self):
        """시간순 종합 분석 실행"""
        print("📅 실제 기간 기준 시간순 분석 시작")
        print("=" * 60)
        
        self.extract_actual_periods()
        analysis_results = self.create_period_based_analysis()
        self.create_chronological_visualization(analysis_results)
        
        print(f"\n✅ 실제 기간 기준 분석 완료")
        print(f"   파일 순서가 아닌 실제 거래 시기를 기준으로 정확한 분석을 수행했습니다.")
        
        return analysis_results

# 실행
chronological_analyzer = ChronologicalAnalyzer()
chronological_results = chronological_analyzer.run_chronological_analysis()

📅 실제 기간 기준 시간순 분석 시작
=== 실제 데이터 기간 기준 분석 ===

📅 [광주] 실제 기간별 데이터 추출:
  📄 광주_아파트_1.csv
    📅 실제기간: 2024.08~2025.08
    📊 유효데이터: 15,803건
    💰 평균가격: 30,782만원
  📄 광주_아파트_2.csv
    📅 실제기간: 2023.08~2024.08
    📊 유효데이터: 15,125건
    💰 평균가격: 28,823만원
  📄 광주_아파트_3.csv
    📅 실제기간: 2022.08~2023.08
    📊 유효데이터: 11,862건
    💰 평균가격: 28,724만원
  📄 광주_아파트_4.csv
    📅 실제기간: 2021.08~2022.08
    📊 유효데이터: 18,517건
    💰 평균가격: 26,495만원
  📄 광주_아파트_5.csv
    📅 실제기간: 2020.08~2021.08
    📊 유효데이터: 31,392건
    💰 평균가격: 26,711만원

  🕐 시간순 정렬 결과:
    1순위: 2020.08~2021.08 (원파일: 광주_아파트_5.csv)
    2순위: 2021.08~2022.08 (원파일: 광주_아파트_4.csv)
    3순위: 2022.08~2023.08 (원파일: 광주_아파트_3.csv)
    4순위: 2023.08~2024.08 (원파일: 광주_아파트_2.csv)
    5순위: 2024.08~2025.08 (원파일: 광주_아파트_1.csv)

📅 [부산] 실제 기간별 데이터 추출:
  📄 부산_아파트_1.csv
    📅 실제기간: 2024.08~2025.08
    📊 유효데이터: 29,610건
    💰 평균가격: 42,442만원
  📄 부산_아파트_2.csv
    📅 실제기간: 2023.08~2024.08
    📊 유효데이터: 27,960건
    💰 평균가격: 39,822만원
  📄 부산_아파트_3.csv
    📅 실제기간: 2022.08~2023.08
    📊 유효데이터: 2


=== 기간별 종합 정보 테이블 ===



✅ 실제 기간 기준 분석 완료
   파일 순서가 아닌 실제 거래 시기를 기준으로 정확한 분석을 수행했습니다.


In [23]:
import pandas as pd
import numpy as np
import plotly.graph_objects as go
from plotly.subplots import make_subplots
from datetime import datetime
import warnings
warnings.filterwarnings('ignore')

class MedianVsMeanAnalyzer:
    def __init__(self, data_path='data/'):
        self.data_path = data_path
        self.regions = ['광주', '부산', '제주']
        self.price_comparison_data = {}
        
    def load_and_analyze_prices(self):
        """가격 데이터 로드 및 평균/중위 비교 분석"""
        print("=== 중위가격 vs 평균가격 비교 분석 ===")
        
        for region in self.regions:
            print(f"\n💰 [{region}] 가격 분포 분석:")
            
            period_analysis = []
            
            for i in range(1, 6):
                try:
                    filename = f"{region}_아파트_{i}.csv"
                    filepath = f"{self.data_path}{filename}"
                    
                    # 파일 로드
                    for encoding in ['utf-8', 'cp949', 'euc-kr']:
                        try:
                            df = pd.read_csv(filepath, encoding=encoding)
                            
                            # 날짜 및 가격 처리
                            processed_data = self.extract_price_data(df, filename)
                            
                            if processed_data:
                                period_analysis.append({
                                    'file_num': i,
                                    'filename': filename,
                                    'period_label': processed_data['period_label'],
                                    'start_date': processed_data['start_date'],
                                    'valid_count': processed_data['valid_count'],
                                    'mean_price': processed_data['mean_price'],
                                    'median_price': processed_data['median_price'],
                                    'std_price': processed_data['std_price'],
                                    'min_price': processed_data['min_price'],
                                    'max_price': processed_data['max_price'],
                                    'q1_price': processed_data['q1_price'],
                                    'q3_price': processed_data['q3_price'],
                                    'price_data': processed_data['price_data']
                                })
                                
                                # 평균 vs 중위가격 차이 분석
                                mean_median_diff = processed_data['mean_price'] - processed_data['median_price']
                                diff_ratio = (mean_median_diff / processed_data['median_price']) * 100
                                
                                print(f"  📄 {filename} ({processed_data['period_label']}):")
                                print(f"    📊 평균가격: {processed_data['mean_price']:,.0f}만원")
                                print(f"    📊 중위가격: {processed_data['median_price']:,.0f}만원")
                                print(f"    📊 차이: {mean_median_diff:+.0f}만원 ({diff_ratio:+.1f}%)")
                                print(f"    📊 표준편차: {processed_data['std_price']:,.0f}만원")
                                print(f"    📊 최저~최고: {processed_data['min_price']:,.0f}~{processed_data['max_price']:,.0f}만원")
                                
                                # 고가 아파트 영향 분석
                                if diff_ratio > 10:
                                    print(f"    ⚠️ 고가 아파트 영향 높음 (차이 {diff_ratio:.1f}%)")
                                elif diff_ratio < 5:
                                    print(f"    ✅ 균등한 가격 분포 (차이 {diff_ratio:.1f}%)")
                                
                            break
                        except UnicodeDecodeError:
                            continue
                            
                except Exception as e:
                    print(f"  ❌ {filename}: {e}")
            
            # 시간순 정렬
            if period_analysis:
                period_analysis_sorted = sorted(period_analysis, key=lambda x: x['start_date'])
                self.price_comparison_data[region] = period_analysis_sorted
    
    def extract_price_data(self, df, filename):
        """가격 데이터 추출 및 통계 계산"""
        # 날짜 컬럼 처리
        date_cols = [col for col in df.columns if any(keyword in col.lower() 
                    for keyword in ['날짜', 'date', '계약', '거래', '년월'])]
        
        parsed_dates = None
        for date_col in date_cols:
            try:
                formats = ['%Y-%m-%d', '%Y.%m.%d', '%Y/%m/%d', '%Y-%m', '%Y.%m', '%Y%m']
                
                for fmt in formats:
                    try:
                        temp_dates = pd.to_datetime(df[date_col], format=fmt, errors='coerce')
                        if temp_dates.notna().sum() / len(temp_dates) > 0.7:
                            parsed_dates = temp_dates
                            break
                    except:
                        continue
                
                if parsed_dates is None:
                    parsed_dates = pd.to_datetime(df[date_col], errors='coerce')
                
                if parsed_dates.notna().sum() > len(df) * 0.5:
                    break
            except:
                continue
        
        # 가격 컬럼 처리
        price_keywords = ['가격', '금액', 'price', '거래금액', '매매가']
        price_cols = [col for col in df.columns if any(keyword in col.lower() for keyword in price_keywords)]
        
        if not price_cols or parsed_dates is None:
            return None
        
        main_price_col = price_cols[0]
        
        try:
            if df[main_price_col].dtype == 'object':
                price_clean = df[main_price_col].astype(str)
                price_clean = price_clean.str.replace(',', '').str.replace('만원', '').str.replace('원', '')
                price_clean = price_clean.str.extract('(\d+\.?\d*)')[0]
                cleaned_prices = pd.to_numeric(price_clean, errors='coerce')
            else:
                cleaned_prices = pd.to_numeric(df[main_price_col], errors='coerce')
        except:
            return None
        
        # 유효한 데이터 필터링
        df['거래날짜'] = parsed_dates
        df['거래가격'] = cleaned_prices
        
        valid_data = df[(df['거래날짜'].notna()) & 
                       (df['거래가격'].notna()) & 
                       (df['거래가격'] > 0) & 
                       (df['거래가격'] < 1000000)]
        
        if len(valid_data) < 100:  # 최소 100건 이상
            return None
        
        # 기간 정보
        start_date = valid_data['거래날짜'].min()
        end_date = valid_data['거래날짜'].max()
        period_label = f"{start_date.strftime('%Y.%m')}~{end_date.strftime('%Y.%m')}"
        
        # 가격 통계
        price_data = valid_data['거래가격']
        
        return {
            'start_date': start_date,
            'end_date': end_date,
            'period_label': period_label,
            'valid_count': len(valid_data),
            'mean_price': price_data.mean(),
            'median_price': price_data.median(),
            'std_price': price_data.std(),
            'min_price': price_data.min(),
            'max_price': price_data.max(),
            'q1_price': price_data.quantile(0.25),
            'q3_price': price_data.quantile(0.75),
            'price_data': price_data
        }
    
    def analyze_price_trends(self):
        """평균/중위가격 트렌드 분석"""
        print("\n=== 평균 vs 중위가격 트렌드 분석 ===")
        
        trend_analysis = {}
        
        for region in self.regions:
            if region not in self.price_comparison_data:
                continue
                
            periods = self.price_comparison_data[region]
            print(f"\n📈 [{region}] 가격 트렌드:")
            
            # 기간별 변화율 계산
            for i, period in enumerate(periods):
                if i == 0:
                    print(f"  {i+1}기 ({period['period_label']}): 기준")
                    print(f"    평균: {period['mean_price']:,.0f}만원")
                    print(f"    중위: {period['median_price']:,.0f}만원")
                else:
                    prev_period = periods[i-1]
                    
                    # 평균가격 변화율
                    mean_change = ((period['mean_price'] - prev_period['mean_price']) / prev_period['mean_price']) * 100
                    
                    # 중위가격 변화율
                    median_change = ((period['median_price'] - prev_period['median_price']) / prev_period['median_price']) * 100
                    
                    print(f"  {i+1}기 ({period['period_label']}):")
                    print(f"    평균: {period['mean_price']:,.0f}만원 ({mean_change:+.1f}%)")
                    print(f"    중위: {period['median_price']:,.0f}만원 ({median_change:+.1f}%)")
                    
                    # 트렌드 차이 분석
                    trend_diff = mean_change - median_change
                    if abs(trend_diff) > 2:
                        if trend_diff > 0:
                            print(f"    💡 고가 아파트가 평균을 끌어올림 (차이: {trend_diff:+.1f}%p)")
                        else:
                            print(f"    💡 고가 아파트 영향 감소 (차이: {trend_diff:+.1f}%p)")
            
            trend_analysis[region] = periods
        
        return trend_analysis
    
    def create_comparison_visualizations(self):
        """비교 시각화 생성"""
        print("\n=== 평균 vs 중위가격 시각화 ===")
        
        # 1. 평균 vs 중위가격 추이 비교
        fig1 = make_subplots(
            rows=len(self.regions), cols=1,
            subplot_titles=[f'{region} - 평균 vs 중위가격 추이' for region in self.regions],
            vertical_spacing=0.1
        )
        
        colors_mean = {'광주': '#FF6B6B', '부산': '#4ECDC4', '제주': '#45B7D1'}
        colors_median = {'광주': '#FF9999', '부산': '#7FDDDD', '제주': '#7FC7E8'}
        
        for row, region in enumerate(self.regions, 1):
            if region in self.price_comparison_data:
                periods = self.price_comparison_data[region]
                
                x_values = [f"{i+1}기" for i in range(len(periods))]
                mean_values = [p['mean_price'] for p in periods]
                median_values = [p['median_price'] for p in periods]
                period_labels = [p['period_label'] for p in periods]
                
                # 평균가격
                fig1.add_trace(
                    go.Scatter(
                        x=x_values,
                        y=mean_values,
                        mode='lines+markers+text',
                        name=f'{region} 평균',
                        line=dict(color=colors_mean[region], width=3),
                        marker=dict(size=8),
                        text=[f'{price:,.0f}' for price in mean_values],
                        textposition='top center',
                        hovertemplate=f'<b>{region} 평균</b><br>기간: %{{customdata}}<br>가격: %{{y:,.0f}}만원<extra></extra>',
                        customdata=period_labels,
                        showlegend=(row==1)
                    ),
                    row=row, col=1
                )
                
                # 중위가격
                fig1.add_trace(
                    go.Scatter(
                        x=x_values,
                        y=median_values,
                        mode='lines+markers+text',
                        name=f'{region} 중위',
                        line=dict(color=colors_median[region], width=3, dash='dash'),
                        marker=dict(size=8),
                        text=[f'{price:,.0f}' for price in median_values],
                        textposition='bottom center',
                        hovertemplate=f'<b>{region} 중위</b><br>기간: %{{customdata}}<br>가격: %{{y:,.0f}}만원<extra></extra>',
                        customdata=period_labels,
                        showlegend=(row==1)
                    ),
                    row=row, col=1
                )
        
        fig1.update_layout(
            title='📊 지역별 평균가격 vs 중위가격 추이 비교',
            title_x=0.5,
            title_font_size=18,
            height=800,
            margin=dict(t=100, b=50)
        )
        
        fig1.show()
        
        # 2. 평균-중위 가격차 분석
        self.create_price_gap_analysis()
        
        # 3. 가격 분포 박스플롯
        self.create_distribution_analysis()
    
    def create_price_gap_analysis(self):
        """평균-중위 가격차 분석"""
        fig = go.Figure()
        colors = {'광주': '#FF6B6B', '부산': '#4ECDC4', '제주': '#45B7D1'}
        
        for region in self.regions:
            if region in self.price_comparison_data:
                periods = self.price_comparison_data[region]
                
                x_values = [f"{i+1}기\n({p['period_label']})" for i, p in enumerate(periods)]
                gap_values = [(p['mean_price'] - p['median_price']) for p in periods]
                gap_ratios = [((p['mean_price'] - p['median_price']) / p['median_price'] * 100) for p in periods]
                
                fig.add_trace(go.Bar(
                    x=x_values,
                    y=gap_values,
                    name=region,
                    marker_color=colors[region],
                    text=[f'{gap:,.0f}만원<br>({ratio:.1f}%)' for gap, ratio in zip(gap_values, gap_ratios)],
                    textposition='auto',
                    hovertemplate=f'<b>{region}</b><br>기간: %{{x}}<br>가격차: %{{y:,.0f}}만원<extra></extra>'
                ))
        
        fig.update_layout(
            title='📈 평균가격 - 중위가격 차이 (고가 아파트 영향도)',
            title_x=0.5,
            title_font_size=18,
            xaxis_title='기간',
            yaxis_title='가격차 (만원)',
            height=500,
            barmode='group'
        )
        
        fig.show()
    
    def create_distribution_analysis(self):
        """가격 분포 분석 (박스플롯)"""
        fig = go.Figure()
        colors = {'광주': '#FF6B6B', '부산': '#4ECDC4', '제주': '#45B7D1'}
        
        for region in self.regions:
            if region in self.price_comparison_data:
                periods = self.price_comparison_data[region]
                
                for i, period in enumerate(periods):
                    fig.add_trace(go.Box(
                        y=period['price_data'],
                        name=f"{region}\n{i+1}기",
                        marker_color=colors[region],
                        boxpoints='outliers',
                        hovertemplate=f'<b>{region} {i+1}기</b><br>기간: {period["period_label"]}<br>가격: %{{y:,.0f}}만원<extra></extra>'
                    ))
        
        fig.update_layout(
            title='📦 기간별 가격 분포 (박스플롯)',
            title_x=0.5,
            title_font_size=18,
            xaxis_title='지역 및 기간',
            yaxis_title='거래가격 (만원)',
            height=600
        )
        
        fig.show()
    
    def generate_insights(self):
        """인사이트 생성"""
        print("\n=== 📊 분석 인사이트 ===")
        
        for region in self.regions:
            if region not in self.price_comparison_data:
                continue
                
            periods = self.price_comparison_data[region]
            print(f"\n🏠 [{region}] 주요 발견사항:")
            
            # 전체 기간 평균 vs 중위 차이
            total_mean_gaps = [(p['mean_price'] - p['median_price']) / p['median_price'] * 100 for p in periods]
            avg_gap = np.mean(total_mean_gaps)
            
            if avg_gap > 15:
                print(f"  ⚠️ 고가 아파트 영향 높음 (평균 차이: {avg_gap:.1f}%)")
                print(f"     → 중위가격이 실제 체감가격에 더 가까움")
            elif avg_gap < 8:
                print(f"  ✅ 균등한 가격 분포 (평균 차이: {avg_gap:.1f}%)")
                print(f"     → 평균가격과 중위가격 모두 신뢰 가능")
            else:
                print(f"  📊 보통 수준의 가격 분포 (평균 차이: {avg_gap:.1f}%)")
            
            # 최근 트렌드 (마지막 2-3기)
            recent_periods = periods[-3:] if len(periods) >= 3 else periods[-2:]
            
            recent_mean_changes = []
            recent_median_changes = []
            
            for i in range(1, len(recent_periods)):
                mean_change = ((recent_periods[i]['mean_price'] - recent_periods[i-1]['mean_price']) / recent_periods[i-1]['mean_price']) * 100
                median_change = ((recent_periods[i]['median_price'] - recent_periods[i-1]['median_price']) / recent_periods[i-1]['median_price']) * 100
                
                recent_mean_changes.append(mean_change)
                recent_median_changes.append(median_change)
            
            if recent_mean_changes and recent_median_changes:
                avg_mean_change = np.mean(recent_mean_changes)
                avg_median_change = np.mean(recent_median_changes)
                
                print(f"  📈 최근 트렌드:")
                print(f"     평균가격: {avg_mean_change:+.1f}% {'📈' if avg_mean_change > 0 else '📉'}")
                print(f"     중위가격: {avg_median_change:+.1f}% {'📈' if avg_median_change > 0 else '📉'}")
                
                if abs(avg_mean_change - avg_median_change) > 3:
                    if avg_mean_change > avg_median_change:
                        print(f"     💡 고가 아파트가 상승을 주도")
                    else:
                        print(f"     💡 고가 아파트 상승폭이 더 작음")
    
    def run_median_vs_mean_analysis(self):
        """전체 분석 실행"""
        print("💰 중위가격 vs 평균가격 비교 분석 시작")
        print("=" * 60)
        
        self.load_and_analyze_prices()
        trend_analysis = self.analyze_price_trends()
        self.create_comparison_visualizations()
        self.generate_insights()
        
        print(f"\n✅ 중위가격 vs 평균가격 분석 완료")
        print(f"   고가 아파트의 영향과 실제 체감 가격 변화를 확인했습니다.")
        
        return self.price_comparison_data

# 분석 실행
median_mean_analyzer = MedianVsMeanAnalyzer()
comparison_results = median_mean_analyzer.run_median_vs_mean_analysis()

💰 중위가격 vs 평균가격 비교 분석 시작
=== 중위가격 vs 평균가격 비교 분석 ===

💰 [광주] 가격 분포 분석:
  📄 광주_아파트_1.csv (2024.08~2025.08):
    📊 평균가격: 30,782만원
    📊 중위가격: 27,000만원
    📊 차이: +3782만원 (+14.0%)
    📊 표준편차: 19,786만원
    📊 최저~최고: 3,000~220,500만원
    ⚠️ 고가 아파트 영향 높음 (차이 14.0%)
  📄 광주_아파트_2.csv (2023.08~2024.08):
    📊 평균가격: 28,823만원
    📊 중위가격: 25,500만원
    📊 차이: +3323만원 (+13.0%)
    📊 표준편차: 18,484만원
    📊 최저~최고: 2,100~199,000만원
    ⚠️ 고가 아파트 영향 높음 (차이 13.0%)
  📄 광주_아파트_3.csv (2022.08~2023.08):
    📊 평균가격: 28,724만원
    📊 중위가격: 24,500만원
    📊 차이: +4224만원 (+17.2%)
    📊 표준편차: 18,519만원
    📊 최저~최고: 3,450~191,000만원
    ⚠️ 고가 아파트 영향 높음 (차이 17.2%)
  📄 광주_아파트_4.csv (2021.08~2022.08):
    📊 평균가격: 26,495만원
    📊 중위가격: 19,000만원
    📊 차이: +7495만원 (+39.4%)
    📊 표준편차: 19,724만원
    📊 최저~최고: 3,300~213,000만원
    ⚠️ 고가 아파트 영향 높음 (차이 39.4%)
  📄 광주_아파트_5.csv (2020.08~2021.08):
    📊 평균가격: 26,711만원
    📊 중위가격: 22,000만원
    📊 차이: +4711만원 (+21.4%)
    📊 표준편차: 18,023만원
    📊 최저~최고: 3,000~204,000만원
    ⚠️ 고가 아파트 영향 높음 (차이 21.4%)




=== 📊 분석 인사이트 ===

🏠 [광주] 주요 발견사항:
  ⚠️ 고가 아파트 영향 높음 (평균 차이: 21.0%)
     → 중위가격이 실제 체감가격에 더 가까움
  📈 최근 트렌드:
     평균가격: +3.6% 📈
     중위가격: +5.0% 📈

🏠 [부산] 주요 발견사항:
  ⚠️ 고가 아파트 영향 높음 (평균 차이: 22.8%)
     → 중위가격이 실제 체감가격에 더 가까움
  📈 최근 트렌드:
     평균가격: +4.6% 📈
     중위가격: +5.5% 📈

🏠 [제주] 주요 발견사항:
  📊 보통 수준의 가격 분포 (평균 차이: 12.8%)
  📈 최근 트렌드:
     평균가격: +5.0% 📈
     중위가격: +6.8% 📈

✅ 중위가격 vs 평균가격 분석 완료
   고가 아파트의 영향과 실제 체감 가격 변화를 확인했습니다.


In [24]:
import pandas as pd
import numpy as np
import plotly.graph_objects as go
from plotly.subplots import make_subplots
from datetime import datetime
import warnings
warnings.filterwarnings('ignore')

class VolumePriceCorrelationAnalyzer:
    def __init__(self, data_path='data/'):
        self.data_path = data_path
        self.regions = ['광주', '부산', '제주']
        self.volume_price_data = {}
        
    def load_and_process_data(self):
        """데이터 로드 및 년도별 거래량/가격 분석"""
        print("=== 년도별 거래량 vs 가격 분석 ===")
        
        for region in self.regions:
            print(f"\n📊 [{region}] 데이터 처리:")
            
            all_data = []
            
            for i in range(1, 6):
                try:
                    filename = f"{region}_아파트_{i}.csv"
                    filepath = f"{self.data_path}{filename}"
                    
                    # 파일 로드
                    for encoding in ['utf-8', 'cp949', 'euc-kr']:
                        try:
                            df = pd.read_csv(filepath, encoding=encoding)
                            
                            # 날짜 및 가격 처리
                            processed_df = self.process_date_price_data(df, filename)
                            
                            if processed_df is not None and len(processed_df) > 0:
                                processed_df['원본파일'] = filename
                                all_data.append(processed_df)
                                print(f"  ✅ {filename}: {len(processed_df)}건 처리완료")
                            
                            break
                        except UnicodeDecodeError:
                            continue
                            
                except Exception as e:
                    print(f"  ❌ {filename}: {e}")
            
            if all_data:
                # 모든 데이터 통합
                combined_df = pd.concat(all_data, ignore_index=True)
                
                # 년도별 집계
                yearly_analysis = self.analyze_yearly_data(combined_df, region)
                self.volume_price_data[region] = yearly_analysis
                
                print(f"  📈 총 {len(combined_df):,}건 → {len(yearly_analysis)}년간 분석완료")
    
    def process_date_price_data(self, df, filename):
        """날짜 및 가격 데이터 처리"""
        # 날짜 컬럼 찾기
        date_cols = [col for col in df.columns if any(keyword in col.lower() 
                    for keyword in ['날짜', 'date', '계약', '거래', '년월'])]
        
        parsed_dates = None
        for date_col in date_cols:
            try:
                formats = ['%Y-%m-%d', '%Y.%m.%d', '%Y/%m/%d', '%Y-%m', '%Y.%m', '%Y%m']
                
                for fmt in formats:
                    try:
                        temp_dates = pd.to_datetime(df[date_col], format=fmt, errors='coerce')
                        if temp_dates.notna().sum() / len(temp_dates) > 0.7:
                            parsed_dates = temp_dates
                            break
                    except:
                        continue
                
                if parsed_dates is None:
                    parsed_dates = pd.to_datetime(df[date_col], errors='coerce')
                
                if parsed_dates.notna().sum() > len(df) * 0.5:
                    break
            except:
                continue
        
        # 가격 컬럼 찾기
        price_keywords = ['가격', '금액', 'price', '거래금액', '매매가']
        price_cols = [col for col in df.columns if any(keyword in col.lower() for keyword in price_keywords)]
        
        if not price_cols or parsed_dates is None:
            return None
        
        main_price_col = price_cols[0]
        
        try:
            if df[main_price_col].dtype == 'object':
                price_clean = df[main_price_col].astype(str)
                price_clean = price_clean.str.replace(',', '').str.replace('만원', '').str.replace('원', '')
                price_clean = price_clean.str.extract('(\d+\.?\d*)')[0]
                cleaned_prices = pd.to_numeric(price_clean, errors='coerce')
            else:
                cleaned_prices = pd.to_numeric(df[main_price_col], errors='coerce')
        except:
            return None
        
        # 유효한 데이터만 추출
        df['거래날짜'] = parsed_dates
        df['거래가격'] = cleaned_prices
        df['거래년도'] = df['거래날짜'].dt.year
        df['거래월'] = df['거래날짜'].dt.month
        
        valid_data = df[(df['거래날짜'].notna()) & 
                       (df['거래가격'].notna()) & 
                       (df['거래가격'] > 0) & 
                       (df['거래가격'] < 1000000) &
                       (df['거래년도'].notna())]
        
        return valid_data
    
    def analyze_yearly_data(self, df, region):
        """년도별 데이터 분석"""
        print(f"\n  📅 [{region}] 년도별 분석:")
        
        yearly_stats = df.groupby('거래년도').agg({
            '거래가격': ['count', 'mean', 'median', 'std'],
            '거래날짜': ['min', 'max']
        }).round(2)
        
        yearly_stats.columns = ['거래량', '평균가격', '중위가격', '가격표준편차', '기간시작', '기간종료']
        
        # 전년 대비 증감률 계산
        yearly_stats['거래량증감률'] = yearly_stats['거래량'].pct_change() * 100
        yearly_stats['평균가격증감률'] = yearly_stats['평균가격'].pct_change() * 100
        yearly_stats['중위가격증감률'] = yearly_stats['중위가격'].pct_change() * 100
        
        yearly_results = []
        
        for year, row in yearly_stats.iterrows():
            if pd.notna(year):
                year_int = int(year)
                
                result = {
                    'year': year_int,
                    'volume': int(row['거래량']),
                    'mean_price': row['평균가격'],
                    'median_price': row['중위가격'],
                    'price_std': row['가격표준편차'],
                    'volume_change': row['거래량증감률'] if pd.notna(row['거래량증감률']) else None,
                    'price_change': row['평균가격증감률'] if pd.notna(row['평균가격증감률']) else None,
                    'median_change': row['중위가격증감률'] if pd.notna(row['중위가격증감률']) else None,
                    'period_start': row['기간시작'].strftime('%Y.%m.%d'),
                    'period_end': row['기간종료'].strftime('%Y.%m.%d')
                }
                
                yearly_results.append(result)
                
                # 출력
                vol_change_str = f" ({result['volume_change']:+.1f}%)" if result['volume_change'] is not None else ""
                price_change_str = f" ({result['price_change']:+.1f}%)" if result['price_change'] is not None else ""
                
                print(f"    {year_int}년: {result['volume']:,}건{vol_change_str}, {result['mean_price']:,.0f}만원{price_change_str}")
        
        return yearly_results
    
    def create_dual_axis_visualization(self):
        """이중축 시각화 (거래량 + 가격)"""
        print("\n=== 거래량 vs 가격 이중축 시각화 ===")
        
        # 지역별 서브플롯
        fig = make_subplots(
            rows=len(self.regions), cols=1,
            subplot_titles=[f'{region} - 년도별 거래량 vs 평균가격' for region in self.regions],
            specs=[[{"secondary_y": True}] for _ in self.regions],
            vertical_spacing=0.1
        )
        
        colors = {'광주': '#FF6B6B', '부산': '#4ECDC4', '제주': '#45B7D1'}
        
        for row, region in enumerate(self.regions, 1):
            if region in self.volume_price_data:
                data = self.volume_price_data[region]
                
                years = [d['year'] for d in data]
                volumes = [d['volume'] for d in data]
                prices = [d['mean_price'] for d in data]
                
                # 거래량 (막대그래프)
                fig.add_trace(
                    go.Bar(
                        x=years,
                        y=volumes,
                        name=f'{region} 거래량',
                        marker_color=colors[region],
                        opacity=0.7,
                        text=[f'{v:,}건' for v in volumes],
                        textposition='auto',
                        yaxis='y',
                        hovertemplate=f'<b>{region} 거래량</b><br>년도: %{{x}}<br>거래량: %{{y:,}}건<extra></extra>',
                        showlegend=(row==1)
                    ),
                    row=row, col=1,
                    secondary_y=False
                )
                
                # 평균가격 (선그래프)
                fig.add_trace(
                    go.Scatter(
                        x=years,
                        y=prices,
                        mode='lines+markers+text',
                        name=f'{region} 평균가격',
                        line=dict(color=colors[region], width=4),
                        marker=dict(size=10, color='white', line=dict(color=colors[region], width=2)),
                        text=[f'{p:,.0f}만원' for p in prices],
                        textposition='top center',
                        textfont=dict(color=colors[region], size=10),
                        yaxis='y2',
                        hovertemplate=f'<b>{region} 평균가격</b><br>년도: %{{x}}<br>평균가격: %{{y:,.0f}}만원<extra></extra>',
                        showlegend=(row==1)
                    ),
                    row=row, col=1,
                    secondary_y=True
                )
        
        # 축 라벨 설정
        for i in range(1, len(self.regions) + 1):
            fig.update_yaxes(title_text="거래량 (건)", secondary_y=False, row=i, col=1)
            fig.update_yaxes(title_text="평균가격 (만원)", secondary_y=True, row=i, col=1)
        
        fig.update_layout(
            title='📊 년도별 거래량 vs 평균가격 동시 분석',
            title_x=0.5,
            title_font_size=20,
            height=300 * len(self.regions),
            margin=dict(t=100, b=50)
        )
        
        fig.show()
    
    def create_correlation_analysis(self):
        """상관관계 분석"""
        print("\n=== 거래량-가격 상관관계 분석 ===")
        
        # 1. 산점도 (거래량 vs 가격)
        fig1 = go.Figure()
        colors = {'광주': '#FF6B6B', '부산': '#4ECDC4', '제주': '#45B7D1'}
        
        for region in self.regions:
            if region in self.volume_price_data:
                data = self.volume_price_data[region]
                
                volumes = [d['volume'] for d in data]
                prices = [d['mean_price'] for d in data]
                years = [d['year'] for d in data]
                
                # 상관계수 계산
                if len(volumes) > 2:
                    correlation = np.corrcoef(volumes, prices)[0, 1]
                    
                    fig1.add_trace(go.Scatter(
                        x=volumes,
                        y=prices,
                        mode='markers+text',
                        name=f'{region} (상관계수: {correlation:.2f})',
                        marker=dict(size=12, color=colors[region]),
                        text=[str(y) for y in years],
                        textposition='top center',
                        hovertemplate=f'<b>{region}</b><br>년도: %{{text}}<br>거래량: %{{x:,}}건<br>평균가격: %{{y:,.0f}}만원<extra></extra>'
                    ))
        
        fig1.update_layout(
            title='📈 거래량 vs 평균가격 상관관계 (산점도)',
            title_x=0.5,
            title_font_size=18,
            xaxis_title='년간 거래량 (건)',
            yaxis_title='평균가격 (만원)',
            height=500
        )
        
        fig1.show()
        
        # 2. 증감률 비교
        self.create_change_rate_comparison()
    
    def create_change_rate_comparison(self):
        """증감률 비교 분석"""
        fig = make_subplots(
            rows=1, cols=2,
            subplot_titles=('거래량 증감률', '평균가격 증감률'),
            specs=[[{"secondary_y": False}, {"secondary_y": False}]]
        )
        
        colors = {'광주': '#FF6B6B', '부산': '#4ECDC4', '제주': '#45B7D1'}
        
        for region in self.regions:
            if region in self.volume_price_data:
                data = self.volume_price_data[region]
                
                # 증감률이 있는 데이터만 (2년차부터)
                change_data = [d for d in data if d['volume_change'] is not None and d['price_change'] is not None]
                
                if change_data:
                    years = [d['year'] for d in change_data]
                    volume_changes = [d['volume_change'] for d in change_data]
                    price_changes = [d['price_change'] for d in change_data]
                    
                    # 거래량 증감률
                    fig.add_trace(
                        go.Bar(
                            x=years,
                            y=volume_changes,
                            name=f'{region}',
                            marker_color=colors[region],
                            text=[f'{v:+.1f}%' for v in volume_changes],
                            textposition='auto',
                            showlegend=True
                        ),
                        row=1, col=1
                    )
                    
                    # 가격 증감률
                    fig.add_trace(
                        go.Bar(
                            x=years,
                            y=price_changes,
                            name=f'{region}',
                            marker_color=colors[region],
                            text=[f'{v:+.1f}%' for v in price_changes],
                            textposition='auto',
                            showlegend=False
                        ),
                        row=1, col=2
                    )
        
        # 0% 기준선
        fig.add_hline(y=0, line=dict(color='gray', dash='dash', width=1), row=1, col=1)
        fig.add_hline(y=0, line=dict(color='gray', dash='dash', width=1), row=1, col=2)
        
        fig.update_layout(
            title='📊 년도별 거래량 vs 가격 증감률 비교',
            title_x=0.5,
            title_font_size=18,
            height=500
        )
        
        fig.update_yaxes(title_text="거래량 증감률 (%)", row=1, col=1)
        fig.update_yaxes(title_text="가격 증감률 (%)", row=1, col=2)
        
        fig.show()
    
    def create_summary_table(self):
        """년도별 종합 요약 테이블"""
        print("\n=== 년도별 종합 요약 테이블 ===")
        
        # 모든 지역 데이터를 하나의 테이블로
        table_data = []
        
        for region in self.regions:
            if region in self.volume_price_data:
                for item in self.volume_price_data[region]:
                    vol_change_str = f"{item['volume_change']:+.1f}%" if item['volume_change'] is not None else "-"
                    price_change_str = f"{item['price_change']:+.1f}%" if item['price_change'] is not None else "-"
                    
                    table_data.append([
                        region,
                        item['year'],
                        f"{item['volume']:,}건",
                        vol_change_str,
                        f"{item['mean_price']:,.0f}만원",
                        price_change_str,
                        f"{item['median_price']:,.0f}만원"
                    ])
        
        if table_data:
            fig = go.Figure(data=[go.Table(
                header=dict(
                    values=['지역', '년도', '거래량', '거래량증감률', '평균가격', '가격증감률', '중위가격'],
                    fill_color='lightblue',
                    align='center',
                    font=dict(size=12, color='black'),
                    height=40
                ),
                cells=dict(
                    values=list(zip(*table_data)),
                    fill_color='white',
                    align='center',
                    font=dict(size=11),
                    height=32
                )
            )])
            
            fig.update_layout(
                title='📋 년도별 거래량 vs 가격 종합 요약표',
                title_x=0.5,
                title_font_size=16,
                height=600,
                margin=dict(l=20, r=20, t=80, b=20)
            )
            
            fig.show()
    
    def analyze_market_insights(self):
        """시장 인사이트 분석"""
        print("\n=== 🔍 시장 분석 인사이트 ===")
        
        for region in self.regions:
            if region not in self.volume_price_data:
                continue
                
            data = self.volume_price_data[region]
            print(f"\n🏠 [{region}] 시장 특성:")
            
            if len(data) < 2:
                print("  ⚠️ 분석 데이터 부족")
                continue
            
            # 거래량과 가격의 상관관계
            volumes = [d['volume'] for d in data]
            prices = [d['mean_price'] for d in data]
            
            if len(volumes) > 2:
                correlation = np.corrcoef(volumes, prices)[0, 1]
                
                if correlation > 0.5:
                    print(f"  📈 강한 양의 상관관계 ({correlation:.2f})")
                    print("     → 거래량 증가 시 가격도 상승하는 경향")
                elif correlation < -0.5:
                    print(f"  📉 강한 음의 상관관계 ({correlation:.2f})")
                    print("     → 거래량 증가 시 가격은 하락하는 경향 (매물 급증)")
                else:
                    print(f"  📊 약한 상관관계 ({correlation:.2f})")
                    print("     → 거래량과 가격이 독립적으로 움직임")
            
            # 최근 3년 트렌드
            recent_data = data[-3:] if len(data) >= 3 else data
            
            volume_trend = "증가" if recent_data[-1]['volume'] > recent_data[0]['volume'] else "감소"
            price_trend = "상승" if recent_data[-1]['mean_price'] > recent_data[0]['mean_price'] else "하락"
            
            print(f"  📅 최근 트렌드: 거래량 {volume_trend}, 가격 {price_trend}")
            
            # 가격 대비 거래량 패턴
            max_price_year = max(data, key=lambda x: x['mean_price'])
            max_volume_year = max(data, key=lambda x: x['volume'])
            
            print(f"  🔥 최고가격: {max_price_year['year']}년 ({max_price_year['mean_price']:,.0f}만원)")
            print(f"  📊 최다거래: {max_volume_year['year']}년 ({max_volume_year['volume']:,}건)")
            
            if max_price_year['year'] == max_volume_year['year']:
                print("     💡 가격 최고점과 거래량 최고점이 동일 → 과열 양상")
            else:
                print("     💡 가격 최고점과 거래량 최고점이 상이 → 시차 존재")
    
    def run_volume_price_analysis(self):
        """전체 분석 실행"""
        print("📊 년도별 거래량 vs 가격 동시 분석 시작")
        print("=" * 60)
        
        self.load_and_process_data()
        self.create_dual_axis_visualization()
        self.create_correlation_analysis()
        self.create_summary_table()
        self.analyze_market_insights()
        
        print(f"\n✅ 거래량 vs 가격 분석 완료")
        print(f"   년도별 거래량과 가격의 상관관계를 종합적으로 분석했습니다.")
        
        return self.volume_price_data

# 분석 실행
volume_price_analyzer = VolumePriceCorrelationAnalyzer()
correlation_results = volume_price_analyzer.run_volume_price_analysis()

📊 년도별 거래량 vs 가격 동시 분석 시작
=== 년도별 거래량 vs 가격 분석 ===

📊 [광주] 데이터 처리:
  ✅ 광주_아파트_1.csv: 15803건 처리완료
  ✅ 광주_아파트_2.csv: 15125건 처리완료
  ✅ 광주_아파트_3.csv: 11862건 처리완료
  ✅ 광주_아파트_4.csv: 18517건 처리완료
  ✅ 광주_아파트_5.csv: 31392건 처리완료

  📅 [광주] 년도별 분석:
    2020년: 14,622건, 29,116만원
    2021년: 25,567건 (+74.9%), 25,889만원 (-11.1%)
    2022년: 12,598건 (-50.7%), 25,052만원 (-3.2%)
    2023년: 14,235건 (+13.0%), 29,244만원 (+16.7%)
    2024년: 15,598건 (+9.6%), 29,945만원 (+2.4%)
    2025년: 10,079건 (-35.4%), 30,323만원 (+1.3%)
  📈 총 92,699건 → 6년간 분석완료

📊 [부산] 데이터 처리:
  ✅ 부산_아파트_1.csv: 29610건 처리완료
  ✅ 부산_아파트_2.csv: 27960건 처리완료
  ✅ 부산_아파트_3.csv: 21907건 처리완료
  ✅ 부산_아파트_4.csv: 25130건 처리완료
  ✅ 부산_아파트_5.csv: 68731건 처리완료

  📅 [부산] 년도별 분석:
    2020년: 39,213건, 35,034만원
    2021년: 41,854건 (+6.7%), 31,207만원 (-10.9%)
    2022년: 18,078건 (-56.8%), 31,822만원 (+2.0%)
    2023년: 26,263건 (+45.3%), 39,839만원 (+25.2%)
    2024년: 29,018건 (+10.5%), 40,922만원 (+2.7%)
    2025년: 18,912건 (-34.8%), 42,543만원 (+4.0%)
  📈 총 173,338건 → 6년간 분석완료

📊 [제주] 데이터


=== 거래량-가격 상관관계 분석 ===



=== 년도별 종합 요약 테이블 ===



=== 🔍 시장 분석 인사이트 ===

🏠 [광주] 시장 특성:
  📊 약한 상관관계 (-0.47)
     → 거래량과 가격이 독립적으로 움직임
  📅 최근 트렌드: 거래량 감소, 가격 상승
  🔥 최고가격: 2025년 (30,323만원)
  📊 최다거래: 2021년 (25,567건)
     💡 가격 최고점과 거래량 최고점이 상이 → 시차 존재

🏠 [부산] 시장 특성:
  📊 약한 상관관계 (-0.42)
     → 거래량과 가격이 독립적으로 움직임
  📅 최근 트렌드: 거래량 감소, 가격 상승
  🔥 최고가격: 2025년 (42,543만원)
  📊 최다거래: 2021년 (41,854건)
     💡 가격 최고점과 거래량 최고점이 상이 → 시차 존재

🏠 [제주] 시장 특성:
  📊 약한 상관관계 (-0.45)
     → 거래량과 가격이 독립적으로 움직임
  📅 최근 트렌드: 거래량 감소, 가격 상승
  🔥 최고가격: 2025년 (33,705만원)
  📊 최다거래: 2021년 (4,010건)
     💡 가격 최고점과 거래량 최고점이 상이 → 시차 존재

✅ 거래량 vs 가격 분석 완료
   년도별 거래량과 가격의 상관관계를 종합적으로 분석했습니다.


In [25]:
import pandas as pd
import numpy as np
import plotly.graph_objects as go
from plotly.subplots import make_subplots
from datetime import datetime
import warnings
warnings.filterwarnings('ignore')

class PeriodBasedVolumePriceAnalyzer:
    def __init__(self, data_path='data/'):
        self.data_path = data_path
        self.regions = ['광주', '부산', '제주']
        self.period_data = {}
        
    def extract_actual_periods(self):
        """실제 데이터 기간별 거래량 및 가격 추출"""
        print("=== 실제 기간별 거래량 vs 가격 분석 ===")
        
        for region in self.regions:
            print(f"\n📊 [{region}] 실제 기간별 데이터 추출:")
            
            period_analysis = []
            
            for i in range(1, 6):
                try:
                    filename = f"{region}_아파트_{i}.csv"
                    filepath = f"{self.data_path}{filename}"
                    
                    # 파일 로드
                    for encoding in ['utf-8', 'cp949', 'euc-kr']:
                        try:
                            df = pd.read_csv(filepath, encoding=encoding)
                            
                            # 실제 기간 및 거래량/가격 분석
                            period_info = self.analyze_file_period(df, filename, i)
                            
                            if period_info:
                                period_analysis.append(period_info)
                                
                                print(f"  📄 {filename}")
                                print(f"    📅 실제기간: {period_info['period_label']}")
                                print(f"    📊 거래량: {period_info['volume']:,}건")
                                print(f"    💰 평균가격: {period_info['mean_price']:,.0f}만원")
                                print(f"    💰 중위가격: {period_info['median_price']:,.0f}만원")
                            
                            break
                        except UnicodeDecodeError:
                            continue
                            
                except Exception as e:
                    print(f"  ❌ {filename}: {e}")
            
            # 실제 기간 시작일 기준으로 시간순 정렬
            if period_analysis:
                period_analysis_sorted = sorted(period_analysis, key=lambda x: x['start_date'])
                
                print(f"\n  🕐 시간순 정렬 결과:")
                for idx, period in enumerate(period_analysis_sorted, 1):
                    print(f"    {idx}순위: {period['period_label']} (원파일: {period['filename']})")
                
                # 전기 대비 증감률 계산
                for i in range(1, len(period_analysis_sorted)):
                    prev_period = period_analysis_sorted[i-1]
                    curr_period = period_analysis_sorted[i]
                    
                    # 거래량 증감률
                    volume_change = ((curr_period['volume'] - prev_period['volume']) / prev_period['volume']) * 100
                    curr_period['volume_change'] = volume_change
                    
                    # 가격 증감률
                    price_change = ((curr_period['mean_price'] - prev_period['mean_price']) / prev_period['mean_price']) * 100
                    curr_period['price_change'] = price_change
                    
                    median_change = ((curr_period['median_price'] - prev_period['median_price']) / prev_period['median_price']) * 100
                    curr_period['median_change'] = median_change
                
                # 첫 번째 기간은 증감률 없음
                period_analysis_sorted[0]['volume_change'] = None
                period_analysis_sorted[0]['price_change'] = None
                period_analysis_sorted[0]['median_change'] = None
                
                self.period_data[region] = period_analysis_sorted
    
    def analyze_file_period(self, df, filename, file_num):
        """개별 파일의 실제 기간 및 거래량/가격 분석"""
        # 날짜 컬럼 찾기 및 파싱
        date_cols = [col for col in df.columns if any(keyword in col.lower() 
                    for keyword in ['날짜', 'date', '계약', '거래', '년월'])]
        
        parsed_dates = None
        for date_col in date_cols:
            try:
                formats = ['%Y-%m-%d', '%Y.%m.%d', '%Y/%m/%d', '%Y-%m', '%Y.%m', '%Y%m']
                
                for fmt in formats:
                    try:
                        temp_dates = pd.to_datetime(df[date_col], format=fmt, errors='coerce')
                        if temp_dates.notna().sum() / len(temp_dates) > 0.7:  # 70% 이상 성공
                            parsed_dates = temp_dates
                            break
                    except:
                        continue
                
                if parsed_dates is None:
                    parsed_dates = pd.to_datetime(df[date_col], errors='coerce')
                
                if parsed_dates.notna().sum() > len(df) * 0.5:  # 50% 이상 성공
                    break
            except:
                continue
        
        # 가격 컬럼 찾기 및 파싱
        price_keywords = ['가격', '금액', 'price', '거래금액', '매매가']
        price_cols = [col for col in df.columns if any(keyword in col.lower() for keyword in price_keywords)]
        
        if not price_cols or parsed_dates is None:
            return None
        
        main_price_col = price_cols[0]
        
        try:
            if df[main_price_col].dtype == 'object':
                price_clean = df[main_price_col].astype(str)
                price_clean = price_clean.str.replace(',', '').str.replace('만원', '').str.replace('원', '')
                price_clean = price_clean.str.extract('(\d+\.?\d*)')[0]
                cleaned_prices = pd.to_numeric(price_clean, errors='coerce')
            else:
                cleaned_prices = pd.to_numeric(df[main_price_col], errors='coerce')
        except:
            return None
        
        # 유효한 데이터만 필터링
        df['거래날짜'] = parsed_dates
        df['거래가격'] = cleaned_prices
        
        valid_data = df[(df['거래날짜'].notna()) & 
                       (df['거래가격'].notna()) & 
                       (df['거래가격'] > 0) & 
                       (df['거래가격'] < 1000000)]
        
        if len(valid_data) < 50:  # 최소 50건 이상
            return None
        
        # 실제 기간 계산
        start_date = valid_data['거래날짜'].min()
        end_date = valid_data['거래날짜'].max()
        
        # 기간 라벨 생성 (년.월 형태)
        start_ym = f"{start_date.year}.{start_date.month}"
        end_ym = f"{end_date.year}.{end_date.month}"
        period_label = f"{start_ym}~{end_ym}"
        
        # 거래량 및 가격 통계
        volume = len(valid_data)
        mean_price = valid_data['거래가격'].mean()
        median_price = valid_data['거래가격'].median()
        price_std = valid_data['거래가격'].std()
        
        return {
            'filename': filename,
            'file_num': file_num,
            'start_date': start_date,
            'end_date': end_date,
            'period_label': period_label,
            'start_ym': start_ym,
            'end_ym': end_ym,
            'volume': volume,
            'mean_price': mean_price,
            'median_price': median_price,
            'price_std': price_std,
            'duration_days': (end_date - start_date).days
        }
    
    def create_period_dual_axis_visualization(self):
        """실제 기간별 이중축 시각화"""
        print("\n=== 실제 기간별 거래량 vs 가격 이중축 시각화 ===")
        
        # 지역별 서브플롯
        fig = make_subplots(
            rows=len(self.regions), cols=1,
            subplot_titles=[f'{region} - 기간별 거래량 vs 평균가격 (실제 기간 기준)' for region in self.regions],
            specs=[[{"secondary_y": True}] for _ in self.regions],
            vertical_spacing=0.15
        )
        
        colors = {'광주': '#FF6B6B', '부산': '#4ECDC4', '제주': '#45B7D1'}
        
        for row, region in enumerate(self.regions, 1):
            if region in self.period_data:
                periods = self.period_data[region]
                
                x_labels = [f"{i+1}기\n({p['period_label']})" for i, p in enumerate(periods)]
                volumes = [p['volume'] for p in periods]
                prices = [p['mean_price'] for p in periods]
                period_labels = [p['period_label'] for p in periods]
                
                # 거래량 (막대그래프)
                fig.add_trace(
                    go.Bar(
                        x=list(range(len(periods))),
                        y=volumes,
                        name=f'{region} 거래량',
                        marker_color=colors[region],
                        opacity=0.7,
                        text=[f'{v:,}건' for v in volumes],
                        textposition='auto',
                        hovertemplate=f'<b>{region} 거래량</b><br>기간: %{{customdata}}<br>거래량: %{{y:,}}건<extra></extra>',
                        customdata=period_labels,
                        showlegend=(row==1)
                    ),
                    row=row, col=1,
                    secondary_y=False
                )
                
                # 평균가격 (선그래프)
                fig.add_trace(
                    go.Scatter(
                        x=list(range(len(periods))),
                        y=prices,
                        mode='lines+markers+text',
                        name=f'{region} 평균가격',
                        line=dict(color=colors[region], width=4),
                        marker=dict(size=12, color='white', line=dict(color=colors[region], width=3)),
                        text=[f'{p:,.0f}만원' for p in prices],
                        textposition='top center',
                        textfont=dict(color=colors[region], size=11, family="Arial Black"),
                        hovertemplate=f'<b>{region} 평균가격</b><br>기간: %{{customdata}}<br>평균가격: %{{y:,.0f}}만원<extra></extra>',
                        customdata=period_labels,
                        showlegend=(row==1)
                    ),
                    row=row, col=1,
                    secondary_y=True
                )
                
                # x축 라벨 설정 (기간 표시)
                fig.update_xaxes(
                    tickmode='array',
                    tickvals=list(range(len(periods))),
                    ticktext=x_labels,
                    row=row, col=1
                )
        
        # 축 라벨 설정
        for i in range(1, len(self.regions) + 1):
            fig.update_yaxes(title_text="거래량 (건)", secondary_y=False, row=i, col=1)
            fig.update_yaxes(title_text="평균가격 (만원)", secondary_y=True, row=i, col=1)
        
        fig.update_layout(
            title='📊 실제 기간별 거래량 vs 평균가격 동시 분석',
            title_x=0.5,
            title_font_size=20,
            height=350 * len(self.regions),
            margin=dict(t=100, b=80)
        )
        
        fig.show()
    
    def create_period_correlation_analysis(self):
        """실제 기간별 상관관계 분석"""
        print("\n=== 기간별 거래량-가격 상관관계 분석 ===")
        
        # 산점도
        fig1 = go.Figure()
        colors = {'광주': '#FF6B6B', '부산': '#4ECDC4', '제주': '#45B7D1'}
        
        for region in self.regions:
            if region in self.period_data:
                periods = self.period_data[region]
                
                volumes = [p['volume'] for p in periods]
                prices = [p['mean_price'] for p in periods]
                period_labels = [p['period_label'] for p in periods]
                
                # 상관계수 계산
                if len(volumes) > 2:
                    correlation = np.corrcoef(volumes, prices)[0, 1]
                    
                    fig1.add_trace(go.Scatter(
                        x=volumes,
                        y=prices,
                        mode='markers+text',
                        name=f'{region} (상관계수: {correlation:.2f})',
                        marker=dict(size=15, color=colors[region]),
                        text=period_labels,
                        textposition='top center',
                        textfont=dict(size=10),
                        hovertemplate=f'<b>{region}</b><br>기간: %{{text}}<br>거래량: %{{x:,}}건<br>평균가격: %{{y:,.0f}}만원<extra></extra>'
                    ))
        
        fig1.update_layout(
            title='📈 기간별 거래량 vs 평균가격 상관관계 (산점도)',
            title_x=0.5,
            title_font_size=18,
            xaxis_title='기간별 거래량 (건)',
            yaxis_title='평균가격 (만원)',
            height=500
        )
        
        fig1.show()
        
        # 증감률 비교
        self.create_period_change_rate_comparison()
    
    def create_period_change_rate_comparison(self):
        """기간별 증감률 비교"""
        fig = make_subplots(
            rows=1, cols=2,
            subplot_titles=('거래량 증감률 (전기 대비)', '평균가격 증감률 (전기 대비)'),
            specs=[[{"secondary_y": False}, {"secondary_y": False}]]
        )
        
        colors = {'광주': '#FF6B6B', '부산': '#4ECDC4', '제주': '#45B7D1'}
        
        for region in self.regions:
            if region in self.period_data:
                periods = self.period_data[region]
                
                # 증감률이 있는 데이터만 (2기부터)
                change_data = [p for p in periods if p['volume_change'] is not None and p['price_change'] is not None]
                
                if change_data:
                    x_labels = [f"{periods.index(p)+1}기\n({p['period_label']})" for p in change_data]
                    volume_changes = [p['volume_change'] for p in change_data]
                    price_changes = [p['price_change'] for p in change_data]
                    
                    # 거래량 증감률
                    fig.add_trace(
                        go.Bar(
                            x=x_labels,
                            y=volume_changes,
                            name=f'{region}',
                            marker_color=colors[region],
                            text=[f'{v:+.1f}%' for v in volume_changes],
                            textposition='auto',
                            showlegend=True
                        ),
                        row=1, col=1
                    )
                    
                    # 가격 증감률
                    fig.add_trace(
                        go.Bar(
                            x=x_labels,
                            y=price_changes,
                            name=f'{region}',
                            marker_color=colors[region],
                            text=[f'{v:+.1f}%' for v in price_changes],
                            textposition='auto',
                            showlegend=False
                        ),
                        row=1, col=2
                    )
        
        # 0% 기준선
        fig.add_hline(y=0, line=dict(color='gray', dash='dash', width=1), row=1, col=1)
        fig.add_hline(y=0, line=dict(color='gray', dash='dash', width=1), row=1, col=2)
        
        fig.update_layout(
            title='📊 기간별 거래량 vs 가격 증감률 비교 (전기 대비)',
            title_x=0.5,
            title_font_size=18,
            height=500
        )
        
        fig.update_yaxes(title_text="거래량 증감률 (%)", row=1, col=1)
        fig.update_yaxes(title_text="가격 증감률 (%)", row=1, col=2)
        
        fig.show()
    
    def create_comprehensive_period_table(self):
        """실제 기간별 종합 테이블"""
        print("\n=== 실제 기간별 종합 요약 테이블 ===")
        
        table_data = []
        
        for region in self.regions:
            if region in self.period_data:
                for i, period in enumerate(self.period_data[region]):
                    vol_change_str = f"{period['volume_change']:+.1f}%" if period['volume_change'] is not None else "-"
                    price_change_str = f"{period['price_change']:+.1f}%" if period['price_change'] is not None else "-"
                    median_change_str = f"{period['median_change']:+.1f}%" if period['median_change'] is not None else "-"
                    
                    table_data.append([
                        region,
                        f"{i+1}기",
                        period['period_label'],
                        f"{period['duration_days']}일",
                        f"{period['volume']:,}건",
                        vol_change_str,
                        f"{period['mean_price']:,.0f}만원",
                        price_change_str,
                        f"{period['median_price']:,.0f}만원",
                        period['filename']
                    ])
        
        if table_data:
            fig = go.Figure(data=[go.Table(
                header=dict(
                    values=['지역', '순서', '실제 기간', '기간', '거래량', '거래량증감률', '평균가격', '가격증감률', '중위가격', '원본파일'],
                    fill_color='lightblue',
                    align='center',
                    font=dict(size=11, color='black'),
                    height=45
                ),
                cells=dict(
                    values=list(zip(*table_data)),
                    fill_color='white',
                    align='center',
                    font=dict(size=10),
                    height=35
                )
            )])
            
            fig.update_layout(
                title='📋 실제 기간별 거래량 vs 가격 종합 분석표',
                title_x=0.5,
                title_font_size=16,
                height=600,
                margin=dict(l=20, r=20, t=80, b=20)
            )
            
            fig.show()
    
    def analyze_period_market_insights(self):
        """실제 기간별 시장 인사이트"""
        print("\n=== 🔍 실제 기간별 시장 분석 인사이트 ===")
        
        for region in self.regions:
            if region not in self.period_data:
                continue
                
            periods = self.period_data[region]
            print(f"\n🏠 [{region}] 기간별 시장 특성:")
            
            if len(periods) < 2:
                print("  ⚠️ 분석 기간 부족")
                continue
            
            # 거래량과 가격의 상관관계
            volumes = [p['volume'] for p in periods]
            prices = [p['mean_price'] for p in periods]
            
            if len(volumes) > 2:
                correlation = np.corrcoef(volumes, prices)[0, 1]
                
                if correlation > 0.5:
                    print(f"  📈 강한 양의 상관관계 ({correlation:.2f})")
                    print("     → 거래량 증가 시 가격도 상승 (수요 증가형)")
                elif correlation < -0.5:
                    print(f"  📉 강한 음의 상관관계 ({correlation:.2f})")
                    print("     → 거래량 증가 시 가격 하락 (매물 급증형)")
                else:
                    print(f"  📊 약한 상관관계 ({correlation:.2f})")
                    print("     → 거래량과 가격이 독립적 움직임")
            
            # 최고/최저 시기
            max_price_period = max(periods, key=lambda x: x['mean_price'])
            min_price_period = min(periods, key=lambda x: x['mean_price'])
            max_volume_period = max(periods, key=lambda x: x['volume'])
            min_volume_period = min(periods, key=lambda x: x['volume'])
            
            print(f"  🔥 최고가격: {max_price_period['period_label']} ({max_price_period['mean_price']:,.0f}만원)")
            print(f"  ❄️ 최저가격: {min_price_period['period_label']} ({min_price_period['mean_price']:,.0f}만원)")
            print(f"  📊 최다거래: {max_volume_period['period_label']} ({max_volume_period['volume']:,}건)")
            print(f"  📉 최소거래: {min_volume_period['period_label']} ({min_volume_period['volume']:,}건)")
            
            # 최근 트렌드 (마지막 2-3기간)
            recent_periods = periods[-3:] if len(periods) >= 3 else periods[-2:]
            
            if len(recent_periods) >= 2:
                recent_volume_trend = "증가" if recent_periods[-1]['volume'] > recent_periods[0]['volume'] else "감소"
                recent_price_trend = "상승" if recent_periods[-1]['mean_price'] > recent_periods[0]['mean_price'] else "하락"
                
                print(f"  📅 최근 트렌드: 거래량 {recent_volume_trend}, 가격 {recent_price_trend}")
                
                # 코로나 후 시장 분석 (2022년 이후 데이터가 있는 경우)
                post_2022_periods = [p for p in periods if p['start_date'].year >= 2022]
                if len(post_2022_periods) >= 2:
                    price_trend_2022 = "하락" if post_2022_periods[-1]['mean_price'] < post_2022_periods[0]['mean_price'] else "상승"
                    print(f"  🦠 2022년 이후: 가격 {price_trend_2022} (금리인상/코로나 회복기)")
    
    def run_period_volume_price_analysis(self):
        """실제 기간별 전체 분석 실행"""
        print("📊 실제 기간별 거래량 vs 가격 동시 분석 시작")
        print("=" * 60)
        
        self.extract_actual_periods()
        self.create_period_dual_axis_visualization()
        self.create_period_correlation_analysis()
        self.create_comprehensive_period_table()
        self.analyze_period_market_insights()
        
        print(f"\n✅ 실제 기간별 거래량 vs 가격 분석 완료")
        print(f"   실제 데이터 기간을 기준으로 정확한 거래량-가격 관계를 분석했습니다.")
        
        return self.period_data

# 분석 실행
period_analyzer = PeriodBasedVolumePriceAnalyzer()
period_results = period_analyzer.run_period_volume_price_analysis()

📊 실제 기간별 거래량 vs 가격 동시 분석 시작
=== 실제 기간별 거래량 vs 가격 분석 ===

📊 [광주] 실제 기간별 데이터 추출:
  📄 광주_아파트_1.csv
    📅 실제기간: 2024.8~2025.8
    📊 거래량: 15,803건
    💰 평균가격: 30,782만원
    💰 중위가격: 27,000만원
  📄 광주_아파트_2.csv
    📅 실제기간: 2023.8~2024.8
    📊 거래량: 15,125건
    💰 평균가격: 28,823만원
    💰 중위가격: 25,500만원
  📄 광주_아파트_3.csv
    📅 실제기간: 2022.8~2023.8
    📊 거래량: 11,862건
    💰 평균가격: 28,724만원
    💰 중위가격: 24,500만원
  📄 광주_아파트_4.csv
    📅 실제기간: 2021.8~2022.8
    📊 거래량: 18,517건
    💰 평균가격: 26,495만원
    💰 중위가격: 19,000만원
  📄 광주_아파트_5.csv
    📅 실제기간: 2020.8~2021.8
    📊 거래량: 31,392건
    💰 평균가격: 26,711만원
    💰 중위가격: 22,000만원

  🕐 시간순 정렬 결과:
    1순위: 2020.8~2021.8 (원파일: 광주_아파트_5.csv)
    2순위: 2021.8~2022.8 (원파일: 광주_아파트_4.csv)
    3순위: 2022.8~2023.8 (원파일: 광주_아파트_3.csv)
    4순위: 2023.8~2024.8 (원파일: 광주_아파트_2.csv)
    5순위: 2024.8~2025.8 (원파일: 광주_아파트_1.csv)

📊 [부산] 실제 기간별 데이터 추출:
  📄 부산_아파트_1.csv
    📅 실제기간: 2024.8~2025.8
    📊 거래량: 29,610건
    💰 평균가격: 42,442만원
    💰 중위가격: 35,500만원
  📄 부산_아파트_2.csv
    📅 실제기간: 2023.8~2024.8



=== 기간별 거래량-가격 상관관계 분석 ===



=== 실제 기간별 종합 요약 테이블 ===



=== 🔍 실제 기간별 시장 분석 인사이트 ===

🏠 [광주] 기간별 시장 특성:
  📉 강한 음의 상관관계 (-0.60)
     → 거래량 증가 시 가격 하락 (매물 급증형)
  🔥 최고가격: 2024.8~2025.8 (30,782만원)
  ❄️ 최저가격: 2021.8~2022.8 (26,495만원)
  📊 최다거래: 2020.8~2021.8 (31,392건)
  📉 최소거래: 2022.8~2023.8 (11,862건)
  📅 최근 트렌드: 거래량 증가, 가격 상승
  🦠 2022년 이후: 가격 상승 (금리인상/코로나 회복기)

🏠 [부산] 기간별 시장 특성:
  📊 약한 상관관계 (-0.38)
     → 거래량과 가격이 독립적 움직임
  🔥 최고가격: 2024.8~2025.8 (42,442만원)
  ❄️ 최저가격: 2021.8~2022.8 (31,179만원)
  📊 최다거래: 2020.8~2021.8 (68,731건)
  📉 최소거래: 2022.8~2023.8 (21,907건)
  📅 최근 트렌드: 거래량 증가, 가격 상승
  🦠 2022년 이후: 가격 상승 (금리인상/코로나 회복기)

🏠 [제주] 기간별 시장 특성:
  📉 강한 음의 상관관계 (-0.52)
     → 거래량 증가 시 가격 하락 (매물 급증형)
  🔥 최고가격: 2024.8~2025.8 (33,712만원)
  ❄️ 최저가격: 2020.8~2021.8 (30,052만원)
  📊 최다거래: 2020.8~2021.8 (4,433건)
  📉 최소거래: 2022.8~2023.8 (1,962건)
  📅 최근 트렌드: 거래량 증가, 가격 상승
  🦠 2022년 이후: 가격 상승 (금리인상/코로나 회복기)

✅ 실제 기간별 거래량 vs 가격 분석 완료
   실제 데이터 기간을 기준으로 정확한 거래량-가격 관계를 분석했습니다.


In [26]:
import pandas as pd
import numpy as np
import plotly.graph_objects as go
from plotly.subplots import make_subplots
from datetime import datetime
import warnings
warnings.filterwarnings('ignore')

class PeriodBasedVolumePriceAnalyzer:
    def __init__(self, data_path='data/'):
        self.data_path = data_path
        self.regions = ['광주', '부산', '제주']
        self.period_data = {}
        
    def extract_actual_periods(self):
        """실제 데이터 기간별 거래량 및 가격 추출"""
        print("=== 실제 기간별 거래량 vs 가격 분석 ===")
        
        for region in self.regions:
            print(f"\n📊 [{region}] 실제 기간별 데이터 추출:")
            
            period_analysis = []
            
            for i in range(1, 6):
                try:
                    filename = f"{region}_아파트_{i}.csv"
                    filepath = f"{self.data_path}{filename}"
                    
                    # 파일 로드
                    for encoding in ['utf-8', 'cp949', 'euc-kr']:
                        try:
                            df = pd.read_csv(filepath, encoding=encoding)
                            
                            # 실제 기간 및 거래량/가격 분석
                            period_info = self.analyze_file_period(df, filename, i)
                            
                            if period_info:
                                period_analysis.append(period_info)
                                
                                print(f"  📄 {filename}")
                                print(f"    📅 실제기간: {period_info['period_label']}")
                                print(f"    📊 거래량: {period_info['volume']:,}건")
                                print(f"    💰 평균가격: {period_info['mean_price']:,.0f}만원")
                                print(f"    💰 중위가격: {period_info['median_price']:,.0f}만원")
                            
                            break
                        except UnicodeDecodeError:
                            continue
                            
                except Exception as e:
                    print(f"  ❌ {filename}: {e}")
            
            # 실제 기간 시작일 기준으로 시간순 정렬
            if period_analysis:
                period_analysis_sorted = sorted(period_analysis, key=lambda x: x['start_date'])
                
                print(f"\n  🕐 시간순 정렬 결과:")
                for idx, period in enumerate(period_analysis_sorted, 1):
                    print(f"    {idx}순위: {period['period_label']} (원파일: {period['filename']})")
                
                # 전기 대비 증감률 계산
                for i in range(1, len(period_analysis_sorted)):
                    prev_period = period_analysis_sorted[i-1]
                    curr_period = period_analysis_sorted[i]
                    
                    # 거래량 증감률
                    volume_change = ((curr_period['volume'] - prev_period['volume']) / prev_period['volume']) * 100
                    curr_period['volume_change'] = volume_change
                    
                    # 가격 증감률
                    price_change = ((curr_period['mean_price'] - prev_period['mean_price']) / prev_period['mean_price']) * 100
                    curr_period['price_change'] = price_change
                    
                    median_change = ((curr_period['median_price'] - prev_period['median_price']) / prev_period['median_price']) * 100
                    curr_period['median_change'] = median_change
                
                # 첫 번째 기간은 증감률 없음
                period_analysis_sorted[0]['volume_change'] = None
                period_analysis_sorted[0]['price_change'] = None
                period_analysis_sorted[0]['median_change'] = None
                
                self.period_data[region] = period_analysis_sorted
    
    def analyze_file_period(self, df, filename, file_num):
        """개별 파일의 실제 기간 및 거래량/가격 분석"""
        # 날짜 컬럼 찾기 및 파싱
        date_cols = [col for col in df.columns if any(keyword in col.lower() 
                    for keyword in ['날짜', 'date', '계약', '거래', '년월'])]
        
        parsed_dates = None
        for date_col in date_cols:
            try:
                formats = ['%Y-%m-%d', '%Y.%m.%d', '%Y/%m/%d', '%Y-%m', '%Y.%m', '%Y%m']
                
                for fmt in formats:
                    try:
                        temp_dates = pd.to_datetime(df[date_col], format=fmt, errors='coerce')
                        if temp_dates.notna().sum() / len(temp_dates) > 0.7:  # 70% 이상 성공
                            parsed_dates = temp_dates
                            break
                    except:
                        continue
                
                if parsed_dates is None:
                    parsed_dates = pd.to_datetime(df[date_col], errors='coerce')
                
                if parsed_dates.notna().sum() > len(df) * 0.5:  # 50% 이상 성공
                    break
            except:
                continue
        
        # 가격 컬럼 찾기 및 파싱
        price_keywords = ['가격', '금액', 'price', '거래금액', '매매가']
        price_cols = [col for col in df.columns if any(keyword in col.lower() for keyword in price_keywords)]
        
        if not price_cols or parsed_dates is None:
            return None
        
        main_price_col = price_cols[0]
        
        try:
            if df[main_price_col].dtype == 'object':
                price_clean = df[main_price_col].astype(str)
                price_clean = price_clean.str.replace(',', '').str.replace('만원', '').str.replace('원', '')
                price_clean = price_clean.str.extract('(\d+\.?\d*)')[0]
                cleaned_prices = pd.to_numeric(price_clean, errors='coerce')
            else:
                cleaned_prices = pd.to_numeric(df[main_price_col], errors='coerce')
        except:
            return None
        
        # 유효한 데이터만 필터링
        df['거래날짜'] = parsed_dates
        df['거래가격'] = cleaned_prices
        
        valid_data = df[(df['거래날짜'].notna()) & 
                       (df['거래가격'].notna()) & 
                       (df['거래가격'] > 0) & 
                       (df['거래가격'] < 1000000)]
        
        if len(valid_data) < 50:  # 최소 50건 이상
            return None
        
        # 실제 기간 계산
        start_date = valid_data['거래날짜'].min()
        end_date = valid_data['거래날짜'].max()
        
        # 기간 라벨 생성 (년.월 형태)
        start_ym = f"{start_date.year}.{start_date.month}"
        end_ym = f"{end_date.year}.{end_date.month}"
        period_label = f"{start_ym}~{end_ym}"
        
        # 거래량 및 가격 통계
        volume = len(valid_data)
        mean_price = valid_data['거래가격'].mean()
        median_price = valid_data['거래가격'].median()
        price_std = valid_data['거래가격'].std()
        
        return {
            'filename': filename,
            'file_num': file_num,
            'start_date': start_date,
            'end_date': end_date,
            'period_label': period_label,
            'start_ym': start_ym,
            'end_ym': end_ym,
            'volume': volume,
            'mean_price': mean_price,
            'median_price': median_price,
            'price_std': price_std,
            'duration_days': (end_date - start_date).days
        }
    
    def create_period_dual_axis_visualization(self):
        """실제 기간별 이중축 시각화"""
        print("\n=== 실제 기간별 거래량 vs 가격 이중축 시각화 ===")
        
        # 지역별 서브플롯
        fig = make_subplots(
            rows=len(self.regions), cols=1,
            subplot_titles=[f'{region} - 기간별 거래량 vs 평균가격 (실제 기간 기준)' for region in self.regions],
            specs=[[{"secondary_y": True}] for _ in self.regions],
            vertical_spacing=0.15
        )
        
        colors = {'광주': '#FF6B6B', '부산': '#4ECDC4', '제주': '#45B7D1'}
        
        for row, region in enumerate(self.regions, 1):
            if region in self.period_data:
                periods = self.period_data[region]
                
                x_labels = [f"{i+1}기\n({p['period_label']})" for i, p in enumerate(periods)]
                volumes = [p['volume'] for p in periods]
                prices = [p['mean_price'] for p in periods]
                period_labels = [p['period_label'] for p in periods]
                
                # 거래량 (막대그래프)
                fig.add_trace(
                    go.Bar(
                        x=list(range(len(periods))),
                        y=volumes,
                        name=f'{region} 거래량',
                        marker_color=colors[region],
                        opacity=0.7,
                        text=[f'{v:,}건' for v in volumes],
                        textposition='auto',
                        hovertemplate=f'<b>{region} 거래량</b><br>기간: %{{customdata}}<br>거래량: %{{y:,}}건<extra></extra>',
                        customdata=period_labels,
                        showlegend=(row==1)
                    ),
                    row=row, col=1,
                    secondary_y=False
                )
                
                # 평균가격 (선그래프)
                fig.add_trace(
                    go.Scatter(
                        x=list(range(len(periods))),
                        y=prices,
                        mode='lines+markers+text',
                        name=f'{region} 평균가격',
                        line=dict(color=colors[region], width=4),
                        marker=dict(size=12, color='white', line=dict(color=colors[region], width=3)),
                        text=[f'{p:,.0f}만원' for p in prices],
                        textposition='middle right',  # 텍스트 위치를 오른쪽으로 변경
                        textfont=dict(color=colors[region], size=11, family="Arial Black"),
                        hovertemplate=f'<b>{region} 평균가격</b><br>기간: %{{customdata}}<br>평균가격: %{{y:,.0f}}만원<extra></extra>',
                        customdata=period_labels,
                        showlegend=(row==1)
                    ),
                    row=row, col=1,
                    secondary_y=True
                )
                
                # x축 라벨 설정 (기간 표시)
                fig.update_xaxes(
                    tickmode='array',
                    tickvals=list(range(len(periods))),
                    ticktext=x_labels,
                    row=row, col=1
                )
        
        # 축 라벨 설정
        for i in range(1, len(self.regions) + 1):
            fig.update_yaxes(title_text="거래량 (건)", secondary_y=False, row=i, col=1)
            fig.update_yaxes(title_text="평균가격 (만원)", secondary_y=True, row=i, col=1)
        
        fig.update_layout(
            title='📊 실제 기간별 거래량 vs 평균가격 동시 분석',
            title_x=0.5,
            title_font_size=20,
            height=350 * len(self.regions),
            margin=dict(t=120, b=100, l=80, r=120)  # 오른쪽, 위쪽 여백 충분히 확보
        )
        
        fig.show()
    
    def create_period_correlation_analysis(self):
        """실제 기간별 상관관계 분석"""
        print("\n=== 기간별 거래량-가격 상관관계 분석 ===")
        
        # 산점도
        fig1 = go.Figure()
        colors = {'광주': '#FF6B6B', '부산': '#4ECDC4', '제주': '#45B7D1'}
        
        for region in self.regions:
            if region in self.period_data:
                periods = self.period_data[region]
                
                volumes = [p['volume'] for p in periods]
                prices = [p['mean_price'] for p in periods]
                period_labels = [p['period_label'] for p in periods]
                
                # 상관계수 계산
                if len(volumes) > 2:
                    correlation = np.corrcoef(volumes, prices)[0, 1]
                    
                    fig1.add_trace(go.Scatter(
                        x=volumes,
                        y=prices,
                        mode='markers+text',
                        name=f'{region} (상관계수: {correlation:.2f})',
                        marker=dict(size=15, color=colors[region]),
                        text=period_labels,
                        textposition='top center',
                        textfont=dict(size=10),
                        hovertemplate=f'<b>{region}</b><br>기간: %{{text}}<br>거래량: %{{x:,}}건<br>평균가격: %{{y:,.0f}}만원<extra></extra>'
                    ))
        
        fig1.update_layout(
            title='📈 기간별 거래량 vs 평균가격 상관관계 (산점도)',
            title_x=0.5,
            title_font_size=18,
            xaxis_title='기간별 거래량 (건)',
            yaxis_title='평균가격 (만원)',
            height=500
        )
        
        fig1.show()
        
        # 증감률 비교
        self.create_period_change_rate_comparison()
    
    def create_period_change_rate_comparison(self):
        """기간별 증감률 비교"""
        fig = make_subplots(
            rows=1, cols=2,
            subplot_titles=('거래량 증감률 (전기 대비)', '평균가격 증감률 (전기 대비)'),
            specs=[[{"secondary_y": False}, {"secondary_y": False}]]
        )
        
        colors = {'광주': '#FF6B6B', '부산': '#4ECDC4', '제주': '#45B7D1'}
        
        for region in self.regions:
            if region in self.period_data:
                periods = self.period_data[region]
                
                # 증감률이 있는 데이터만 (2기부터)
                change_data = [p for p in periods if p['volume_change'] is not None and p['price_change'] is not None]
                
                if change_data:
                    x_labels = [f"{periods.index(p)+1}기\n({p['period_label']})" for p in change_data]
                    volume_changes = [p['volume_change'] for p in change_data]
                    price_changes = [p['price_change'] for p in change_data]
                    
                    # 거래량 증감률
                    fig.add_trace(
                        go.Bar(
                            x=x_labels,
                            y=volume_changes,
                            name=f'{region}',
                            marker_color=colors[region],
                            text=[f'{v:+.1f}%' for v in volume_changes],
                            textposition='auto',
                            showlegend=True
                        ),
                        row=1, col=1
                    )
                    
                    # 가격 증감률
                    fig.add_trace(
                        go.Bar(
                            x=x_labels,
                            y=price_changes,
                            name=f'{region}',
                            marker_color=colors[region],
                            text=[f'{v:+.1f}%' for v in price_changes],
                            textposition='auto',
                            showlegend=False
                        ),
                        row=1, col=2
                    )
        
        # 0% 기준선
        fig.add_hline(y=0, line=dict(color='gray', dash='dash', width=1), row=1, col=1)
        fig.add_hline(y=0, line=dict(color='gray', dash='dash', width=1), row=1, col=2)
        
        fig.update_layout(
            title='📊 기간별 거래량 vs 가격 증감률 비교 (전기 대비)',
            title_x=0.5,
            title_font_size=18,
            height=500
        )
        
        fig.update_yaxes(title_text="거래량 증감률 (%)", row=1, col=1)
        fig.update_yaxes(title_text="가격 증감률 (%)", row=1, col=2)
        
        fig.show()
    
    def create_comprehensive_period_table(self):
        """실제 기간별 종합 테이블"""
        print("\n=== 실제 기간별 종합 요약 테이블 ===")
        
        table_data = []
        
        for region in self.regions:
            if region in self.period_data:
                for i, period in enumerate(self.period_data[region]):
                    vol_change_str = f"{period['volume_change']:+.1f}%" if period['volume_change'] is not None else "-"
                    price_change_str = f"{period['price_change']:+.1f}%" if period['price_change'] is not None else "-"
                    median_change_str = f"{period['median_change']:+.1f}%" if period['median_change'] is not None else "-"
                    
                    table_data.append([
                        region,
                        f"{i+1}기",
                        period['period_label'],
                        f"{period['duration_days']}일",
                        f"{period['volume']:,}건",
                        vol_change_str,
                        f"{period['mean_price']:,.0f}만원",
                        price_change_str,
                        f"{period['median_price']:,.0f}만원",
                        period['filename']
                    ])
        
        if table_data:
            fig = go.Figure(data=[go.Table(
                header=dict(
                    values=['지역', '순서', '실제 기간', '기간', '거래량', '거래량증감률', '평균가격', '가격증감률', '중위가격', '원본파일'],
                    fill_color='lightblue',
                    align='center',
                    font=dict(size=11, color='black'),
                    height=45
                ),
                cells=dict(
                    values=list(zip(*table_data)),
                    fill_color='white',
                    align='center',
                    font=dict(size=10),
                    height=35
                )
            )])
            
            fig.update_layout(
                title='📋 실제 기간별 거래량 vs 가격 종합 분석표',
                title_x=0.5,
                title_font_size=16,
                height=600,
                margin=dict(l=20, r=20, t=80, b=20)
            )
            
            fig.show()
    
    def analyze_period_market_insights(self):
        """실제 기간별 시장 인사이트"""
        print("\n=== 🔍 실제 기간별 시장 분석 인사이트 ===")
        
        for region in self.regions:
            if region not in self.period_data:
                continue
                
            periods = self.period_data[region]
            print(f"\n🏠 [{region}] 기간별 시장 특성:")
            
            if len(periods) < 2:
                print("  ⚠️ 분석 기간 부족")
                continue
            
            # 거래량과 가격의 상관관계
            volumes = [p['volume'] for p in periods]
            prices = [p['mean_price'] for p in periods]
            
            if len(volumes) > 2:
                correlation = np.corrcoef(volumes, prices)[0, 1]
                
                if correlation > 0.5:
                    print(f"  📈 강한 양의 상관관계 ({correlation:.2f})")
                    print("     → 거래량 증가 시 가격도 상승 (수요 증가형)")
                elif correlation < -0.5:
                    print(f"  📉 강한 음의 상관관계 ({correlation:.2f})")
                    print("     → 거래량 증가 시 가격 하락 (매물 급증형)")
                else:
                    print(f"  📊 약한 상관관계 ({correlation:.2f})")
                    print("     → 거래량과 가격이 독립적 움직임")
            
            # 최고/최저 시기
            max_price_period = max(periods, key=lambda x: x['mean_price'])
            min_price_period = min(periods, key=lambda x: x['mean_price'])
            max_volume_period = max(periods, key=lambda x: x['volume'])
            min_volume_period = min(periods, key=lambda x: x['volume'])
            
            print(f"  🔥 최고가격: {max_price_period['period_label']} ({max_price_period['mean_price']:,.0f}만원)")
            print(f"  ❄️ 최저가격: {min_price_period['period_label']} ({min_price_period['mean_price']:,.0f}만원)")
            print(f"  📊 최다거래: {max_volume_period['period_label']} ({max_volume_period['volume']:,}건)")
            print(f"  📉 최소거래: {min_volume_period['period_label']} ({min_volume_period['volume']:,}건)")
            
            # 최근 트렌드 (마지막 2-3기간)
            recent_periods = periods[-3:] if len(periods) >= 3 else periods[-2:]
            
            if len(recent_periods) >= 2:
                recent_volume_trend = "증가" if recent_periods[-1]['volume'] > recent_periods[0]['volume'] else "감소"
                recent_price_trend = "상승" if recent_periods[-1]['mean_price'] > recent_periods[0]['mean_price'] else "하락"
                
                print(f"  📅 최근 트렌드: 거래량 {recent_volume_trend}, 가격 {recent_price_trend}")
                
                # 코로나 후 시장 분석 (2022년 이후 데이터가 있는 경우)
                post_2022_periods = [p for p in periods if p['start_date'].year >= 2022]
                if len(post_2022_periods) >= 2:
                    price_trend_2022 = "하락" if post_2022_periods[-1]['mean_price'] < post_2022_periods[0]['mean_price'] else "상승"
                    print(f"  🦠 2022년 이후: 가격 {price_trend_2022} (금리인상/코로나 회복기)")
    
    def run_period_volume_price_analysis(self):
        """실제 기간별 전체 분석 실행"""
        print("📊 실제 기간별 거래량 vs 가격 동시 분석 시작")
        print("=" * 60)
        
        self.extract_actual_periods()
        self.create_period_dual_axis_visualization()
        self.create_period_correlation_analysis()
        self.create_comprehensive_period_table()
        self.analyze_period_market_insights()
        
        print(f"\n✅ 실제 기간별 거래량 vs 가격 분석 완료")
        print(f"   실제 데이터 기간을 기준으로 정확한 거래량-가격 관계를 분석했습니다.")
        
        return self.period_data

# 분석 실행
period_analyzer = PeriodBasedVolumePriceAnalyzer()
period_results = period_analyzer.run_period_volume_price_analysis()

📊 실제 기간별 거래량 vs 가격 동시 분석 시작
=== 실제 기간별 거래량 vs 가격 분석 ===

📊 [광주] 실제 기간별 데이터 추출:
  📄 광주_아파트_1.csv
    📅 실제기간: 2024.8~2025.8
    📊 거래량: 15,803건
    💰 평균가격: 30,782만원
    💰 중위가격: 27,000만원
  📄 광주_아파트_2.csv
    📅 실제기간: 2023.8~2024.8
    📊 거래량: 15,125건
    💰 평균가격: 28,823만원
    💰 중위가격: 25,500만원
  📄 광주_아파트_3.csv
    📅 실제기간: 2022.8~2023.8
    📊 거래량: 11,862건
    💰 평균가격: 28,724만원
    💰 중위가격: 24,500만원
  📄 광주_아파트_4.csv
    📅 실제기간: 2021.8~2022.8
    📊 거래량: 18,517건
    💰 평균가격: 26,495만원
    💰 중위가격: 19,000만원
  📄 광주_아파트_5.csv
    📅 실제기간: 2020.8~2021.8
    📊 거래량: 31,392건
    💰 평균가격: 26,711만원
    💰 중위가격: 22,000만원

  🕐 시간순 정렬 결과:
    1순위: 2020.8~2021.8 (원파일: 광주_아파트_5.csv)
    2순위: 2021.8~2022.8 (원파일: 광주_아파트_4.csv)
    3순위: 2022.8~2023.8 (원파일: 광주_아파트_3.csv)
    4순위: 2023.8~2024.8 (원파일: 광주_아파트_2.csv)
    5순위: 2024.8~2025.8 (원파일: 광주_아파트_1.csv)

📊 [부산] 실제 기간별 데이터 추출:
  📄 부산_아파트_1.csv
    📅 실제기간: 2024.8~2025.8
    📊 거래량: 29,610건
    💰 평균가격: 42,442만원
    💰 중위가격: 35,500만원
  📄 부산_아파트_2.csv
    📅 실제기간: 2023.8~2024.8



=== 기간별 거래량-가격 상관관계 분석 ===



=== 실제 기간별 종합 요약 테이블 ===



=== 🔍 실제 기간별 시장 분석 인사이트 ===

🏠 [광주] 기간별 시장 특성:
  📉 강한 음의 상관관계 (-0.60)
     → 거래량 증가 시 가격 하락 (매물 급증형)
  🔥 최고가격: 2024.8~2025.8 (30,782만원)
  ❄️ 최저가격: 2021.8~2022.8 (26,495만원)
  📊 최다거래: 2020.8~2021.8 (31,392건)
  📉 최소거래: 2022.8~2023.8 (11,862건)
  📅 최근 트렌드: 거래량 증가, 가격 상승
  🦠 2022년 이후: 가격 상승 (금리인상/코로나 회복기)

🏠 [부산] 기간별 시장 특성:
  📊 약한 상관관계 (-0.38)
     → 거래량과 가격이 독립적 움직임
  🔥 최고가격: 2024.8~2025.8 (42,442만원)
  ❄️ 최저가격: 2021.8~2022.8 (31,179만원)
  📊 최다거래: 2020.8~2021.8 (68,731건)
  📉 최소거래: 2022.8~2023.8 (21,907건)
  📅 최근 트렌드: 거래량 증가, 가격 상승
  🦠 2022년 이후: 가격 상승 (금리인상/코로나 회복기)

🏠 [제주] 기간별 시장 특성:
  📉 강한 음의 상관관계 (-0.52)
     → 거래량 증가 시 가격 하락 (매물 급증형)
  🔥 최고가격: 2024.8~2025.8 (33,712만원)
  ❄️ 최저가격: 2020.8~2021.8 (30,052만원)
  📊 최다거래: 2020.8~2021.8 (4,433건)
  📉 최소거래: 2022.8~2023.8 (1,962건)
  📅 최근 트렌드: 거래량 증가, 가격 상승
  🦠 2022년 이후: 가격 상승 (금리인상/코로나 회복기)

✅ 실제 기간별 거래량 vs 가격 분석 완료
   실제 데이터 기간을 기준으로 정확한 거래량-가격 관계를 분석했습니다.


In [27]:
import pandas as pd
import numpy as np
import plotly.graph_objects as go
from plotly.subplots import make_subplots
from datetime import datetime
import warnings
warnings.filterwarnings('ignore')

class AreaBasedAnalyzer:
    def __init__(self, data_path='data/'):
        self.data_path = data_path
        self.regions = ['광주', '부산', '제주']
        self.area_data = {}
        
        # 면적별 분류 기준 (㎡)
        self.area_categories = {
            '소형': (0, 60),      # ~60㎡ (약 ~18평)
            '중형': (60, 85),     # 60~85㎡ (약 18~26평)
            '대형': (85, 200)     # 85㎡~ (약 26평~)
        }
        
    def load_and_classify_by_area(self):
        """면적별 분류 및 데이터 로드"""
        print("=== 전용면적별 분류 및 분석 ===")
        
        for region in self.regions:
            print(f"\n🏠 [{region}] 면적별 데이터 분류:")
            
            all_data = []
            
            for i in range(1, 6):
                try:
                    filename = f"{region}_아파트_{i}.csv"
                    filepath = f"{self.data_path}{filename}"
                    
                    # 파일 로드
                    for encoding in ['utf-8', 'cp949', 'euc-kr']:
                        try:
                            df = pd.read_csv(filepath, encoding=encoding)
                            
                            # 날짜, 가격, 면적 처리
                            processed_df = self.process_area_price_data(df, filename, i)
                            
                            if processed_df is not None and len(processed_df) > 0:
                                all_data.append(processed_df)
                                print(f"  ✅ {filename}: {len(processed_df)}건 처리완료")
                            
                            break
                        except UnicodeDecodeError:
                            continue
                            
                except Exception as e:
                    print(f"  ❌ {filename}: {e}")
            
            if all_data:
                # 모든 데이터 통합
                combined_df = pd.concat(all_data, ignore_index=True)
                
                # 면적별 분류
                area_analysis = self.classify_and_analyze_by_area(combined_df, region)
                self.area_data[region] = area_analysis
                
                print(f"  📊 총 {len(combined_df):,}건 → 면적별 분류 완료")
    
    def process_area_price_data(self, df, filename, file_num):
        """날짜, 가격, 면적 데이터 처리"""
        # 날짜 컬럼 처리
        date_cols = [col for col in df.columns if any(keyword in col.lower() 
                    for keyword in ['날짜', 'date', '계약', '거래', '년월'])]
        
        parsed_dates = None
        for date_col in date_cols:
            try:
                formats = ['%Y-%m-%d', '%Y.%m.%d', '%Y/%m/%d', '%Y-%m', '%Y.%m', '%Y%m']
                
                for fmt in formats:
                    try:
                        temp_dates = pd.to_datetime(df[date_col], format=fmt, errors='coerce')
                        if temp_dates.notna().sum() / len(temp_dates) > 0.7:
                            parsed_dates = temp_dates
                            break
                    except:
                        continue
                
                if parsed_dates is None:
                    parsed_dates = pd.to_datetime(df[date_col], errors='coerce')
                
                if parsed_dates.notna().sum() > len(df) * 0.5:
                    break
            except:
                continue
        
        # 가격 컬럼 처리
        price_keywords = ['가격', '금액', 'price', '거래금액', '매매가']
        price_cols = [col for col in df.columns if any(keyword in col.lower() for keyword in price_keywords)]
        
        # 면적 컬럼 처리
        area_keywords = ['면적', 'area', '평', '㎡', 'm2', '전용면적']
        area_cols = [col for col in df.columns if any(keyword in col.lower() for keyword in area_keywords)]
        
        if not price_cols or not area_cols or parsed_dates is None:
            return None
        
        main_price_col = price_cols[0]
        main_area_col = area_cols[0]
        
        try:
            # 가격 처리
            if df[main_price_col].dtype == 'object':
                price_clean = df[main_price_col].astype(str)
                price_clean = price_clean.str.replace(',', '').str.replace('만원', '').str.replace('원', '')
                price_clean = price_clean.str.extract('(\d+\.?\d*)')[0]
                cleaned_prices = pd.to_numeric(price_clean, errors='coerce')
            else:
                cleaned_prices = pd.to_numeric(df[main_price_col], errors='coerce')
            
            # 면적 처리
            if df[main_area_col].dtype == 'object':
                area_clean = df[main_area_col].astype(str)
                area_clean = area_clean.str.replace(',', '').str.extract('(\d+\.?\d*)')[0]
                cleaned_areas = pd.to_numeric(area_clean, errors='coerce')
            else:
                cleaned_areas = pd.to_numeric(df[main_area_col], errors='coerce')
        except:
            return None
        
        # 유효한 데이터만 추출
        df['거래날짜'] = parsed_dates
        df['거래가격'] = cleaned_prices
        df['전용면적'] = cleaned_areas
        df['평수'] = df['전용면적'] / 3.3058
        df['파일번호'] = file_num
        
        # 실제 기간 계산
        valid_dates = df['거래날짜'].dropna()
        if len(valid_dates) > 0:
            start_date = valid_dates.min()
            end_date = valid_dates.max()
            df['실제기간'] = f"{start_date.strftime('%Y.%m')}~{end_date.strftime('%Y.%m')}"
        
        valid_data = df[(df['거래날짜'].notna()) & 
                       (df['거래가격'].notna()) & 
                       (df['전용면적'].notna()) &
                       (df['거래가격'] > 0) & 
                       (df['거래가격'] < 1000000) &
                       (df['전용면적'] > 10) &  # 최소 10㎡ 이상
                       (df['전용면적'] < 300)]  # 최대 300㎡ 미만
        
        return valid_data
    
    def classify_and_analyze_by_area(self, df, region):
        """면적별 분류 및 분석"""
        print(f"\n  📐 [{region}] 면적별 분류:")
        
        # 면적 카테고리 분류
        def get_area_category(area):
            for category, (min_area, max_area) in self.area_categories.items():
                if min_area <= area < max_area:
                    return category
            return '대형'  # 85㎡ 이상은 모두 대형
        
        df['면적구분'] = df['전용면적'].apply(get_area_category)
        
        # 면적별 통계
        area_stats = df.groupby('면적구분').agg({
            '거래가격': ['count', 'mean', 'median'],
            '전용면적': 'mean',
            '평수': 'mean'
        }).round(2)
        
        area_stats.columns = ['거래건수', '평균가격', '중위가격', '평균면적', '평균평수']
        
        print(f"    면적별 거래 현황:")
        for category in ['소형', '중형', '대형']:
            if category in area_stats.index:
                stats = area_stats.loc[category]
                total_count = len(df)
                ratio = (stats['거래건수'] / total_count) * 100
                
                print(f"      {category} ({self.area_categories.get(category, (85, 200))[0]}~{self.area_categories.get(category, (85, 200))[1]}㎡): "
                      f"{stats['거래건수']:,}건 ({ratio:.1f}%) - "
                      f"평균 {stats['평균가격']:,.0f}만원")
        
        # 기간별 면적별 분석
        period_area_analysis = self.analyze_period_area_trends(df, region)
        
        return {
            'raw_data': df,
            'area_stats': area_stats,
            'period_analysis': period_area_analysis
        }
    
    def analyze_period_area_trends(self, df, region):
        """기간별 면적별 트렌드 분석"""
        # 파일별(기간별) + 면적별 집계
        period_area = df.groupby(['실제기간', '면적구분']).agg({
            '거래가격': ['count', 'mean'],
            '파일번호': 'first'
        }).round(0)
        
        period_area.columns = ['거래건수', '평균가격', '파일번호']
        period_area = period_area.reset_index()
        
        # 기간별 정렬 (파일번호 기준)
        period_area = period_area.sort_values(['파일번호', '면적구분'])
        
        return period_area
    
    def create_area_price_trend_chart(self):
        """전용면적별 평균가격 추이 차트"""
        print("\n=== 전용면적별 평균가격 추이 차트 ===")
        
        fig = make_subplots(
            rows=len(self.regions), cols=1,
            subplot_titles=[f'{region} - 면적별 평균가격 추이 (5년간)' for region in self.regions],
            vertical_spacing=0.12
        )
        
        # 면적별 색상
        area_colors = {
            '소형': '#FF6B6B',  # 빨강 (소형)
            '중형': '#4ECDC4',  # 청록 (중형)
            '대형': '#45B7D1'   # 파랑 (대형)
        }
        
        for row, region in enumerate(self.regions, 1):
            if region not in self.area_data:
                continue
                
            period_analysis = self.area_data[region]['period_analysis']
            
            # 기간별로 정리
            periods = sorted(period_analysis['실제기간'].unique(), 
                           key=lambda x: period_analysis[period_analysis['실제기간']==x]['파일번호'].iloc[0])
            
            for category in ['소형', '중형', '대형']:
                category_data = period_analysis[period_analysis['면적구분'] == category]
                
                if not category_data.empty:
                    x_values = []
                    y_values = []
                    
                    for period in periods:
                        period_data = category_data[category_data['실제기간'] == period]
                        if not period_data.empty:
                            x_values.append(period)
                            y_values.append(period_data['평균가격'].iloc[0])
                        else:
                            x_values.append(period)
                            y_values.append(None)
                    
                    # None 값 제거
                    valid_data = [(x, y) for x, y in zip(x_values, y_values) if y is not None]
                    if valid_data:
                        x_clean, y_clean = zip(*valid_data)
                        
                        fig.add_trace(
                            go.Scatter(
                                x=x_clean,
                                y=y_clean,
                                mode='lines+markers+text',
                                name=f'{category}',
                                line=dict(color=area_colors[category], width=3),
                                marker=dict(size=8),
                                text=[f'{y:,.0f}만원' for y in y_clean],
                                textposition='top center',
                                textfont=dict(size=10, color=area_colors[category]),
                                hovertemplate=f'<b>{region} {category}</b><br>기간: %{{x}}<br>평균가격: %{{y:,.0f}}만원<extra></extra>',
                                showlegend=(row==1)
                            ),
                            row=row, col=1
                        )
        
        fig.update_layout(
            title='🏠 전용면적별 평균가격 추이 (5년간 라인차트)',
            title_x=0.5,
            title_font_size=20,
            height=350 * len(self.regions),
            margin=dict(t=120, b=100, l=80, r=120)
        )
        
        fig.show()
    
    def create_area_volume_price_chart(self):
        """규모별 거래량 vs 가격 동시 그래프"""
        print("\n=== 규모별 거래량 vs 가격 동시 그래프 ===")
        
        fig = make_subplots(
            rows=len(self.regions), cols=1,
            subplot_titles=[f'{region} - 면적별 거래량 vs 평균가격' for region in self.regions],
            specs=[[{"secondary_y": True}] for _ in self.regions],
            vertical_spacing=0.15
        )
        
        area_colors = {
            '소형': '#FF6B6B',
            '중형': '#4ECDC4', 
            '대형': '#45B7D1'
        }
        
        for row, region in enumerate(self.regions, 1):
            if region not in self.area_data:
                continue
                
            area_stats = self.area_data[region]['area_stats']
            
            categories = ['소형', '중형', '대형']
            volumes = []
            prices = []
            
            for category in categories:
                if category in area_stats.index:
                    volumes.append(area_stats.loc[category, '거래건수'])
                    prices.append(area_stats.loc[category, '평균가격'])
                else:
                    volumes.append(0)
                    prices.append(0)
            
            # 거래량 (막대그래프)
            fig.add_trace(
                go.Bar(
                    x=categories,
                    y=volumes,
                    name=f'{region} 거래량',
                    marker_color=[area_colors[cat] for cat in categories],
                    opacity=0.7,
                    text=[f'{v:,}건' for v in volumes],
                    textposition='auto',
                    hovertemplate=f'<b>{region} 거래량</b><br>면적구분: %{{x}}<br>거래량: %{{y:,}}건<extra></extra>',
                    showlegend=(row==1)
                ),
                row=row, col=1,
                secondary_y=False
            )
            
            # 평균가격 (선그래프)
            fig.add_trace(
                go.Scatter(
                    x=categories,
                    y=prices,
                    mode='lines+markers+text',
                    name=f'{region} 평균가격',
                    line=dict(color='black', width=4),
                    marker=dict(size=12, color='white', line=dict(color='black', width=3)),
                    text=[f'{p:,.0f}만원' for p in prices],
                    textposition='middle right',
                    textfont=dict(color='black', size=11),
                    hovertemplate=f'<b>{region} 평균가격</b><br>면적구분: %{{x}}<br>평균가격: %{{y:,.0f}}만원<extra></extra>',
                    showlegend=(row==1)
                ),
                row=row, col=1,
                secondary_y=True
            )
        
        # 축 라벨 설정
        for i in range(1, len(self.regions) + 1):
            fig.update_yaxes(title_text="거래량 (건)", secondary_y=False, row=i, col=1)
            fig.update_yaxes(title_text="평균가격 (만원)", secondary_y=True, row=i, col=1)
        
        fig.update_layout(
            title='📊 규모별 거래량 vs 가격 동시 그래프',
            title_x=0.5,
            title_font_size=20,
            height=350 * len(self.regions),
            margin=dict(t=120, b=100, l=80, r=120)
        )
        
        fig.show()
    
    def create_area_ratio_pie_charts(self):
        """지역별 소형·중형·대형 비중 파이차트"""
        print("\n=== 지역별 면적별 비중 파이차트 ===")
        
        fig = make_subplots(
            rows=1, cols=len(self.regions),
            subplot_titles=[f'{region}' for region in self.regions],
            specs=[[{"type": "pie"}] * len(self.regions)]
        )
        
        area_colors = ['#FF6B6B', '#4ECDC4', '#45B7D1']  # 소형, 중형, 대형
        
        for col, region in enumerate(self.regions, 1):
            if region not in self.area_data:
                continue
                
            area_stats = self.area_data[region]['area_stats']
            
            labels = []
            values = []
            colors = []
            
            for i, category in enumerate(['소형', '중형', '대형']):
                if category in area_stats.index:
                    count = area_stats.loc[category, '거래건수']
                    labels.append(f'{category}<br>({count:,}건)')
                    values.append(count)
                    colors.append(area_colors[i])
            
            if values:
                fig.add_trace(
                    go.Pie(
                        labels=labels,
                        values=values,
                        name=region,
                        marker_colors=colors,
                        textinfo='label+percent',
                        textposition='auto',
                        hovertemplate='<b>%{label}</b><br>비중: %{percent}<br>거래량: %{value:,}건<extra></extra>'
                    ),
                    row=1, col=col
                )
        
        fig.update_layout(
            title='🥧 지역별 소형·중형·대형 비중 파이차트',
            title_x=0.5,
            title_font_size=20,
            height=500,
            margin=dict(t=100, b=50)
        )
        
        fig.show()
    
    def create_area_summary_table(self):
        """면적별 종합 요약 테이블"""
        print("\n=== 면적별 종합 요약 테이블 ===")
        
        table_data = []
        
        for region in self.regions:
            if region not in self.area_data:
                continue
                
            area_stats = self.area_data[region]['area_stats']
            total_count = area_stats['거래건수'].sum()
            
            for category in ['소형', '중형', '대형']:
                if category in area_stats.index:
                    stats = area_stats.loc[category]
                    ratio = (stats['거래건수'] / total_count) * 100
                    
                    area_range = self.area_categories.get(category, (85, 200))
                    if category == '대형':
                        area_desc = f"{area_range[0]}㎡ 이상"
                    else:
                        area_desc = f"{area_range[0]}~{area_range[1]}㎡"
                    
                    table_data.append([
                        region,
                        category,
                        area_desc,
                        f"{stats['평균면적']:.1f}㎡",
                        f"{stats['평균평수']:.1f}평",
                        f"{stats['거래건수']:,}건",
                        f"{ratio:.1f}%",
                        f"{stats['평균가격']:,.0f}만원",
                        f"{stats['중위가격']:,.0f}만원"
                    ])
        
        if table_data:
            fig = go.Figure(data=[go.Table(
                header=dict(
                    values=['지역', '면적구분', '면적범위', '평균면적', '평균평수', '거래건수', '비중', '평균가격', '중위가격'],
                    fill_color='lightblue',
                    align='center',
                    font=dict(size=12, color='black'),
                    height=45
                ),
                cells=dict(
                    values=list(zip(*table_data)),
                    fill_color='white',
                    align='center',
                    font=dict(size=11),
                    height=35
                )
            )])
            
            fig.update_layout(
                title='📋 지역별 면적별 종합 분석표',
                title_x=0.5,
                title_font_size=16,
                height=500,
                margin=dict(l=20, r=20, t=80, b=20)
            )
            
            fig.show()
    
    def analyze_area_insights(self):
        """면적별 시장 인사이트"""
        print("\n=== 🔍 면적별 시장 인사이트 ===")
        
        for region in self.regions:
            if region not in self.area_data:
                continue
                
            area_stats = self.area_data[region]['area_stats']
            print(f"\n🏠 [{region}] 면적별 특성:")
            
            total_count = area_stats['거래건수'].sum()
            
            # 가장 많이 거래되는 면적대
            max_volume_category = area_stats['거래건수'].idxmax()
            max_volume_ratio = (area_stats.loc[max_volume_category, '거래건수'] / total_count) * 100
            
            print(f"  📊 주력 면적대: {max_volume_category} ({max_volume_ratio:.1f}%)")
            
            # 가장 비싼 면적대
            max_price_category = area_stats['평균가격'].idxmax()
            max_price = area_stats.loc[max_price_category, '평균가격']
            min_price_category = area_stats['평균가격'].idxmin()
            min_price = area_stats.loc[min_price_category, '평균가격']
            
            price_gap = ((max_price - min_price) / min_price) * 100
            
            print(f"  💰 최고가: {max_price_category} ({max_price:,.0f}만원)")
            print(f"  💰 최저가: {min_price_category} ({min_price:,.0f}만원)")
            print(f"  📈 면적별 가격 격차: {price_gap:.1f}%")
            
            # 면적대별 비중 분석
            if '소형' in area_stats.index and '대형' in area_stats.index:
                small_ratio = (area_stats.loc['소형', '거래건수'] / total_count) * 100
                large_ratio = (area_stats.loc['대형', '거래건수'] / total_count) * 100
                
                if small_ratio > 50:
                    print(f"  🏘️ 소형 중심 시장 (소형 {small_ratio:.1f}%)")
                elif large_ratio > 40:
                    print(f"  🏢 대형 선호 시장 (대형 {large_ratio:.1f}%)")
                else:
                    print(f"  ⚖️ 균형잡힌 시장 구조")
    
    def run_area_analysis(self):
        """전체 면적별 분석 실행"""
        print("🏠 전용면적별 가격 및 거래량 분석 시작")
        print("=" * 60)
        
        self.load_and_classify_by_area()
        self.create_area_price_trend_chart()
        self.create_area_volume_price_chart() 
        self.create_area_ratio_pie_charts()
        self.create_area_summary_table()
        self.analyze_area_insights()
        
        print(f"\n✅ 전용면적별 분석 완료")
        print(f"   소형/중형/대형별 가격 트렌드와 거래 패턴을 종합 분석했습니다.")
        
        return self.area_data

# 분석 실행
area_analyzer = AreaBasedAnalyzer()
area_results = area_analyzer.run_area_analysis()

🏠 전용면적별 가격 및 거래량 분석 시작
=== 전용면적별 분류 및 분석 ===

🏠 [광주] 면적별 데이터 분류:
  ✅ 광주_아파트_1.csv: 15803건 처리완료
  ✅ 광주_아파트_2.csv: 15125건 처리완료
  ✅ 광주_아파트_3.csv: 11862건 처리완료
  ✅ 광주_아파트_4.csv: 18517건 처리완료
  ✅ 광주_아파트_5.csv: 31392건 처리완료

  📐 [광주] 면적별 분류:
    면적별 거래 현황:
      소형 (0~60㎡): 38,332.0건 (41.4%) - 평균 14,947만원
      중형 (60~85㎡): 45,935.0건 (49.6%) - 평균 33,840만원
      대형 (85~200㎡): 8,432.0건 (9.1%) - 평균 55,130만원
  📊 총 92,699건 → 면적별 분류 완료

🏠 [부산] 면적별 데이터 분류:
  ✅ 부산_아파트_1.csv: 29609건 처리완료
  ✅ 부산_아파트_2.csv: 27959건 처리완료
  ✅ 부산_아파트_3.csv: 21907건 처리완료
  ✅ 부산_아파트_4.csv: 25129건 처리완료
  ✅ 부산_아파트_5.csv: 68731건 처리완료

  📐 [부산] 면적별 분류:
    면적별 거래 현황:
      소형 (0~60㎡): 68,174.0건 (39.3%) - 평균 21,623만원
      중형 (60~85㎡): 82,710.0건 (47.7%) - 평균 39,829만원
      대형 (85~200㎡): 22,451.0건 (13.0%) - 평균 67,934만원
  📊 총 173,335건 → 면적별 분류 완료

🏠 [제주] 면적별 데이터 분류:
  ✅ 제주_아파트_1.csv: 4433건 처리완료
  ✅ 제주_아파트_2.csv: 3026건 처리완료
  ✅ 제주_아파트_3.csv: 1962건 처리완료
  ✅ 제주_아파트_4.csv: 2382건 처리완료
  ✅ 제주_아파트_5.csv: 2353건 처리완료

  📐 [제주] 면적별 분류:
    면적별 거


=== 규모별 거래량 vs 가격 동시 그래프 ===



=== 지역별 면적별 비중 파이차트 ===



=== 면적별 종합 요약 테이블 ===



=== 🔍 면적별 시장 인사이트 ===

🏠 [광주] 면적별 특성:
  📊 주력 면적대: 중형 (49.6%)
  💰 최고가: 대형 (55,130만원)
  💰 최저가: 소형 (14,947만원)
  📈 면적별 가격 격차: 268.8%
  ⚖️ 균형잡힌 시장 구조

🏠 [부산] 면적별 특성:
  📊 주력 면적대: 중형 (47.7%)
  💰 최고가: 대형 (67,934만원)
  💰 최저가: 소형 (21,623만원)
  📈 면적별 가격 격차: 214.2%
  ⚖️ 균형잡힌 시장 구조

🏠 [제주] 면적별 특성:
  📊 주력 면적대: 중형 (57.5%)
  💰 최고가: 대형 (56,800만원)
  💰 최저가: 소형 (19,378만원)
  📈 면적별 가격 격차: 193.1%
  ⚖️ 균형잡힌 시장 구조

✅ 전용면적별 분석 완료
   소형/중형/대형별 가격 트렌드와 거래 패턴을 종합 분석했습니다.


In [28]:
import pandas as pd
import numpy as np
import plotly.graph_objects as go
from plotly.subplots import make_subplots
import plotly.express as px
from datetime import datetime
import re
import warnings
warnings.filterwarnings('ignore')

class DistrictLevelAnalyzer:
    def __init__(self, data_path='data/'):
        self.data_path = data_path
        self.regions = ['광주', '부산', '제주']
        self.district_data = {}
        self.price_per_sqm_data = {}
        
    def load_and_process_district_data(self):
        """지역별 데이터 로드 및 구·동 단위 전처리"""
        print("=== 구·동 단위 가격 분석 데이터 처리 ===")
        
        for region in self.regions:
            print(f"\n🏘️ [{region}] 구·동별 데이터 처리:")
            
            all_data = []
            
            for i in range(1, 6):
                try:
                    filename = f"{region}_아파트_{i}.csv"
                    filepath = f"{self.data_path}{filename}"
                    
                    # 파일 로드
                    for encoding in ['utf-8', 'cp949', 'euc-kr']:
                        try:
                            df = pd.read_csv(filepath, encoding=encoding)
                            
                            # 구·동 정보와 가격 데이터 처리
                            processed_df = self.process_district_price_data(df, filename, i)
                            
                            if processed_df is not None and len(processed_df) > 0:
                                all_data.append(processed_df)
                                print(f"  ✅ {filename}: {len(processed_df)}건 처리완료")
                            
                            break
                        except UnicodeDecodeError:
                            continue
                            
                except Exception as e:
                    print(f"  ❌ {filename}: {e}")
            
            if all_data:
                # 모든 데이터 통합
                combined_df = pd.concat(all_data, ignore_index=True)
                
                # 구·동별 가격 분석
                district_analysis = self.analyze_district_prices(combined_df, region)
                self.district_data[region] = district_analysis
                
                print(f"  📊 총 {len(combined_df):,}건 → 구·동별 분석 완료")
    
    def process_district_price_data(self, df, filename, file_num):
        """구·동 정보 및 가격 데이터 처리"""
        # 지역 관련 컬럼 찾기
        location_keywords = ['시군구', '구', '동', '지역', '위치', '주소', '법정동', '행정동']
        location_cols = [col for col in df.columns if any(keyword in col.lower() for keyword in location_keywords)]
        
        # 날짜 컬럼 처리
        date_cols = [col for col in df.columns if any(keyword in col.lower() 
                    for keyword in ['날짜', 'date', '계약', '거래', '년월'])]
        
        # 가격 컬럼 처리
        price_keywords = ['가격', '금액', 'price', '거래금액', '매매가']
        price_cols = [col for col in df.columns if any(keyword in col.lower() for keyword in price_keywords)]
        
        # 면적 컬럼 처리
        area_keywords = ['면적', 'area', '평', '㎡', 'm2', '전용면적']
        area_cols = [col for col in df.columns if any(keyword in col.lower() for keyword in area_keywords)]
        
        print(f"    📍 발견된 지역 컬럼: {location_cols}")
        print(f"    💰 발견된 가격 컬럼: {price_cols}")
        print(f"    📐 발견된 면적 컬럼: {area_cols}")
        
        if not location_cols or not price_cols or not area_cols:
            print(f"    ⚠️ 필수 컬럼 부족")
            return None
        
        # 날짜 파싱
        parsed_dates = None
        if date_cols:
            for date_col in date_cols:
                try:
                    formats = ['%Y-%m-%d', '%Y.%m.%d', '%Y/%m/%d', '%Y-%m', '%Y.%m', '%Y%m']
                    
                    for fmt in formats:
                        try:
                            temp_dates = pd.to_datetime(df[date_col], format=fmt, errors='coerce')
                            if temp_dates.notna().sum() / len(temp_dates) > 0.7:
                                parsed_dates = temp_dates
                                break
                        except:
                            continue
                    
                    if parsed_dates is None:
                        parsed_dates = pd.to_datetime(df[date_col], errors='coerce')
                    
                    if parsed_dates.notna().sum() > len(df) * 0.5:
                        break
                except:
                    continue
        
        # 가격 및 면적 처리
        main_price_col = price_cols[0]
        main_area_col = area_cols[0]
        main_location_col = location_cols[0]
        
        try:
            # 가격 처리
            if df[main_price_col].dtype == 'object':
                price_clean = df[main_price_col].astype(str)
                price_clean = price_clean.str.replace(',', '').str.replace('만원', '').str.replace('원', '')
                price_clean = price_clean.str.extract('(\d+\.?\d*)')[0]
                cleaned_prices = pd.to_numeric(price_clean, errors='coerce')
            else:
                cleaned_prices = pd.to_numeric(df[main_price_col], errors='coerce')
            
            # 면적 처리
            if df[main_area_col].dtype == 'object':
                area_clean = df[main_area_col].astype(str)
                area_clean = area_clean.str.replace(',', '').str.extract('(\d+\.?\d*)')[0]
                cleaned_areas = pd.to_numeric(area_clean, errors='coerce')
            else:
                cleaned_areas = pd.to_numeric(df[main_area_col], errors='coerce')
            
            # 지역명 정리
            cleaned_locations = df[main_location_col].astype(str)
            
        except Exception as e:
            print(f"    ❌ 데이터 처리 실패: {e}")
            return None
        
        # 데이터 통합
        df['거래날짜'] = parsed_dates
        df['거래가격'] = cleaned_prices
        df['전용면적'] = cleaned_areas
        df['지역명'] = cleaned_locations
        df['파일번호'] = file_num
        
        # ㎡당 가격 계산 (만원 → 원/㎡ 변환)
        df['㎡당가격'] = (df['거래가격'] * 10000) / df['전용면적']
        
        # 유효한 데이터만 필터링
        valid_data = df[(df['거래가격'].notna()) & 
                       (df['전용면적'].notna()) & 
                       (df['지역명'].notna()) &
                       (df['거래가격'] > 0) & 
                       (df['거래가격'] < 1000000) &
                       (df['전용면적'] > 10) &
                       (df['전용면적'] < 300) &
                       (df['㎡당가격'] > 100000) &  # 최소 10만원/㎡
                       (df['㎡당가격'] < 50000000)]  # 최대 5천만원/㎡
        
        # 지역명 정리 (구·동 추출)
        valid_data = self.clean_district_names(valid_data)
        
        return valid_data
    
    def clean_district_names(self, df):
        """구·동명 정리 및 표준화"""
        def extract_district(location_str):
            if pd.isna(location_str):
                return None
            
            location_str = str(location_str).strip()
            
            # 구 단위 추출 (예: 해운대구, 서구, 북구 등)
            gu_pattern = r'([가-힣]+구)'
            gu_match = re.search(gu_pattern, location_str)
            
            # 동 단위 추출 (예: 센텀동, 우동, 좌동 등)
            dong_pattern = r'([가-힣]+동)'
            dong_match = re.search(dong_pattern, location_str)
            
            if gu_match and dong_match:
                return f"{gu_match.group(1)} {dong_match.group(1)}"
            elif gu_match:
                return gu_match.group(1)
            elif dong_match:
                return dong_match.group(1)
            else:
                # 기타 지역명 처리
                if len(location_str) > 1:
                    return location_str[:10]  # 너무 긴 경우 자르기
                return None
        
        df['정리된지역명'] = df['지역명'].apply(extract_district)
        
        # 유효한 지역명이 있는 데이터만 유지
        df = df[df['정리된지역명'].notna()]
        
        return df
    
    def analyze_district_prices(self, df, region):
        """구·동별 가격 분석"""
        print(f"\n  📊 [{region}] 구·동별 가격 분석:")
        
        # 구·동별 집계
        district_stats = df.groupby('정리된지역명').agg({
            '거래가격': ['count', 'mean', 'median'],
            '㎡당가격': ['mean', 'median', 'std'],
            '전용면적': 'mean'
        }).round(0)
        
        district_stats.columns = ['거래건수', '평균거래가격', '중위거래가격', '평균㎡당가격', '중위㎡당가격', '㎡당가격표준편차', '평균면적']
        
        # 최소 거래건수 필터링 (신뢰성 확보)
        min_transactions = max(10, len(df) // 100)  # 최소 10건 또는 전체의 1%
        district_stats = district_stats[district_stats['거래건수'] >= min_transactions]
        
        # ㎡당 가격 기준 정렬
        district_stats = district_stats.sort_values('평균㎡당가격', ascending=False)
        
        print(f"    📍 분석 가능한 지역: {len(district_stats)}개")
        print(f"    📊 최소 거래건수 기준: {min_transactions}건")
        
        # Top 3 / Bottom 3 추출
        top3 = district_stats.head(3)
        bottom3 = district_stats.tail(3)
        
        print(f"\n    🏆 Top 3 비싼 지역:")
        for i, (district, row) in enumerate(top3.iterrows(), 1):
            print(f"      {i}. {district}: {row['평균㎡당가격']:,.0f}원/㎡ ({row['거래건수']}건)")
        
        print(f"\n    💰 Top 3 저렴한 지역:")
        for i, (district, row) in enumerate(bottom3.iterrows(), 1):
            print(f"      {i}. {district}: {row['평균㎡당가격']:,.0f}원/㎡ ({row['거래건수']}건)")
        
        return {
            'district_stats': district_stats,
            'top3': top3,
            'bottom3': bottom3,
            'raw_data': df
        }
    
    def create_district_price_ranking_chart(self):
        """지역별 ㎡당 가격 순위 바차트"""
        print("\n=== 구·동별 ㎡당 가격 순위 바차트 ===")
        
        fig = make_subplots(
            rows=len(self.regions), cols=1,
            subplot_titles=[f'{region} - 구·동별 ㎡당 가격 순위 (Top 10)' for region in self.regions],
            vertical_spacing=0.15
        )
        
        colors = {'광주': '#FF6B6B', '부산': '#4ECDC4', '제주': '#45B7D1'}
        
        for row, region in enumerate(self.regions, 1):
            if region not in self.district_data:
                continue
                
            district_stats = self.district_data[region]['district_stats']
            
            # Top 10만 표시
            top10 = district_stats.head(10)
            
            fig.add_trace(
                go.Bar(
                    x=top10['평균㎡당가격'],
                    y=list(range(len(top10))),
                    orientation='h',
                    name=region,
                    marker_color=colors[region],
                    text=[f'{price:,.0f}원/㎡' for price in top10['평균㎡당가격']],
                    textposition='auto',
                    hovertemplate='<b>%{customdata}</b><br>㎡당가격: %{x:,.0f}원/㎡<br>거래건수: %{meta:,}건<extra></extra>',
                    customdata=top10.index,
                    meta=top10['거래건수'],
                    showlegend=(row==1)
                ),
                row=row, col=1
            )
            
            # y축 라벨을 지역명으로 설정
            fig.update_yaxes(
                tickmode='array',
                tickvals=list(range(len(top10))),
                ticktext=top10.index,
                row=row, col=1
            )
        
        fig.update_layout(
            title='📊 지역별 구·동별 ㎡당 가격 순위 (Top 10)',
            title_x=0.5,
            title_font_size=20,
            height=400 * len(self.regions),
            margin=dict(t=120, b=100, l=200, r=120)
        )
        
        fig.update_xaxes(title_text="㎡당 가격 (원/㎡)")
        
        fig.show()
    
    def create_price_comparison_heatmap(self):
        """지역별 가격 비교 히트맵"""
        print("\n=== 지역별 가격 비교 히트맵 ===")
        
        # 각 지역의 상위 5개 지역 추출
        heatmap_data = []
        
        for region in self.regions:
            if region not in self.district_data:
                continue
                
            district_stats = self.district_data[region]['district_stats']
            top5 = district_stats.head(5)
            
            for district, row in top5.iterrows():
                heatmap_data.append({
                    '광역시': region,
                    '구동': district,
                    '㎡당가격': row['평균㎡당가격'],
                    '거래건수': row['거래건수'],
                    '라벨': f"{district}<br>{row['평균㎡당가격']:,.0f}원/㎡"
                })
        
        if heatmap_data:
            heatmap_df = pd.DataFrame(heatmap_data)
            
            # 히트맵 생성
            fig = go.Figure(data=go.Scatter(
                x=heatmap_df['광역시'],
                y=heatmap_df['구동'],
                mode='markers+text',
                marker=dict(
                    size=heatmap_df['거래건수'] / 50,  # 거래건수에 비례한 크기
                    color=heatmap_df['㎡당가격'],
                    colorscale='Viridis',
                    showscale=True,
                    colorbar=dict(title="㎡당 가격 (원/㎡)")
                ),
                text=heatmap_df['라벨'],
                textposition='middle center',
                textfont=dict(size=10, color='white'),
                hovertemplate='<b>%{y}</b><br>광역시: %{x}<br>㎡당가격: %{marker.color:,.0f}원/㎡<br>거래건수: %{marker.size}건<extra></extra>'
            ))
            
            fig.update_layout(
                title='🔥 지역별 프리미엄 구·동 가격 히트맵 (Top 5)',
                title_x=0.5,
                title_font_size=18,
                xaxis_title='광역시',
                yaxis_title='구·동',
                height=600,
                margin=dict(t=100, b=50, l=150, r=100)
            )
            
            fig.show()
    
    def create_top_bottom_comparison(self):
        """최고가 vs 최저가 지역 비교"""
        print("\n=== 최고가 vs 최저가 지역 비교 ===")
        
        fig = make_subplots(
            rows=1, cols=2,
            subplot_titles=('🏆 지역별 최고가 구·동', '💰 지역별 최저가 구·동'),
            specs=[[{"type": "bar"}, {"type": "bar"}]]
        )
        
        colors = {'광주': '#FF6B6B', '부산': '#4ECDC4', '제주': '#45B7D1'}
        
        # 최고가 지역
        top_districts = []
        bottom_districts = []
        
        for region in self.regions:
            if region not in self.district_data:
                continue
                
            top3 = self.district_data[region]['top3']
            bottom3 = self.district_data[region]['bottom3']
            
            if not top3.empty:
                top_district = top3.iloc[0]
                top_districts.append({
                    'region': region,
                    'district': top_district.name,
                    'price': top_district['평균㎡당가격'],
                    'count': top_district['거래건수']
                })
            
            if not bottom3.empty:
                bottom_district = bottom3.iloc[-1]
                bottom_districts.append({
                    'region': region,
                    'district': bottom_district.name,
                    'price': bottom_district['평균㎡당가격'],
                    'count': bottom_district['거래건수']
                })
        
        # 최고가 차트
        if top_districts:
            top_df = pd.DataFrame(top_districts)
            fig.add_trace(
                go.Bar(
                    x=top_df['region'],
                    y=top_df['price'],
                    name='최고가',
                    marker_color=[colors[region] for region in top_df['region']],
                    text=[f"{district}<br>{price:,.0f}원/㎡" for district, price in zip(top_df['district'], top_df['price'])],
                    textposition='auto',
                    hovertemplate='<b>%{x}</b><br>지역: %{customdata}<br>㎡당가격: %{y:,.0f}원/㎡<extra></extra>',
                    customdata=top_df['district']
                ),
                row=1, col=1
            )
        
        # 최저가 차트
        if bottom_districts:
            bottom_df = pd.DataFrame(bottom_districts)
            fig.add_trace(
                go.Bar(
                    x=bottom_df['region'],
                    y=bottom_df['price'],
                    name='최저가',
                    marker_color=[colors[region] for region in bottom_df['region']],
                    text=[f"{district}<br>{price:,.0f}원/㎡" for district, price in zip(bottom_df['district'], bottom_df['price'])],
                    textposition='auto',
                    hovertemplate='<b>%{x}</b><br>지역: %{customdata}<br>㎡당가격: %{y:,.0f}원/㎡<extra></extra>',
                    customdata=bottom_df['district'],
                    showlegend=False
                ),
                row=1, col=2
            )
        
        fig.update_layout(
            title='⚖️ 지역별 최고가 vs 최저가 구·동 비교',
            title_x=0.5,
            title_font_size=18,
            height=500,
            margin=dict(t=100, b=50)
        )
        
        fig.update_yaxes(title_text="㎡당 가격 (원/㎡)")
        
        fig.show()
    
    def create_district_summary_table(self):
        """구·동별 종합 요약 테이블"""
        print("\n=== 구·동별 종합 요약 테이블 ===")
        
        table_data = []
        
        for region in self.regions:
            if region not in self.district_data:
                continue
                
            # 상위 5개, 하위 3개 지역 포함
            top5 = self.district_data[region]['district_stats'].head(5)
            bottom3 = self.district_data[region]['district_stats'].tail(3)
            
            combined = pd.concat([top5, bottom3])
            
            for district, row in combined.iterrows():
                price_gap = ((row['평균㎡당가격'] - self.district_data[region]['district_stats']['평균㎡당가격'].min()) / 
                           self.district_data[region]['district_stats']['평균㎡당가격'].min()) * 100
                
                table_data.append([
                    region,
                    district,
                    f"{row['거래건수']:,}건",
                    f"{row['평균㎡당가격']:,.0f}원/㎡",
                    f"{row['중위㎡당가격']:,.0f}원/㎡", 
                    f"{row['평균거래가격']:,.0f}만원",
                    f"{row['평균면적']:.1f}㎡",
                    f"{price_gap:.1f}%"
                ])
        
        if table_data:
            fig = go.Figure(data=[go.Table(
                header=dict(
                    values=['광역시', '구·동', '거래건수', '평균㎡당가격', '중위㎡당가격', '평균거래가격', '평균면적', '최저가대비'],
                    fill_color='lightblue',
                    align='center',
                    font=dict(size=12, color='black'),
                    height=45
                ),
                cells=dict(
                    values=list(zip(*table_data)),
                    fill_color='white',
                    align='center',
                    font=dict(size=11),
                    height=35
                )
            )])
            
            fig.update_layout(
                title='📋 구·동별 부동산 가격 종합 분석표',
                title_x=0.5,
                title_font_size=16,
                height=600,
                margin=dict(l=20, r=20, t=80, b=20)
            )
            
            fig.show()
    
    def analyze_district_insights(self):
        """구·동별 시장 인사이트"""
        print("\n=== 🔍 구·동별 시장 인사이트 ===")
        
        for region in self.regions:
            if region not in self.district_data:
                continue
                
            district_stats = self.district_data[region]['district_stats']
            print(f"\n🏘️ [{region}] 구·동별 특성:")
            
            # 가격 격차 분석
            max_price = district_stats['평균㎡당가격'].max()
            min_price = district_stats['평균㎡당가격'].min()
            price_gap = ((max_price - min_price) / min_price) * 100
            
            print(f"  📊 최고가 vs 최저가 격차: {price_gap:.1f}%")
            print(f"    최고: {district_stats['평균㎡당가격'].idxmax()} ({max_price:,.0f}원/㎡)")
            print(f"    최저: {district_stats['평균㎡당가격'].idxmin()} ({min_price:,.0f}원/㎡)")
            
            # 거래 활발도 분석
            total_transactions = district_stats['거래건수'].sum()
            avg_transactions = district_stats['거래건수'].mean()
            
            most_active = district_stats['거래건수'].idxmax()
            most_active_count = district_stats.loc[most_active, '거래건수']
            
            print(f"  📈 가장 활발한 지역: {most_active} ({most_active_count:,}건)")
            print(f"  📊 평균 거래량: {avg_transactions:.0f}건/지역")
            
            # 프리미엄 지역 특성
            premium_threshold = district_stats['평균㎡당가격'].quantile(0.8)  # 상위 20%
            premium_districts = district_stats[district_stats['평균㎡당가격'] >= premium_threshold]
            
            print(f"  🏆 프리미엄 지역 ({len(premium_districts)}개): ㎡당 {premium_threshold:,.0f}원 이상")
            
            # 가성비 지역 추천
            value_districts = district_stats[
                (district_stats['평균㎡당가격'] <= district_stats['평균㎡당가격'].median()) &
                (district_stats['거래건수'] >= district_stats['거래건수'].median())
            ]
            
            if not value_districts.empty:
                print(f"  💎 가성비 추천 지역: {', '.join(value_districts.head(3).index)}")
    
    def run_district_analysis(self):
        """전체 구·동별 분석 실행"""
        print("🏘️ 구·동별 가격 분석 시작")
        print("=" * 60)
        
        self.load_and_process_district_data()
        self.create_district_price_ranking_chart()
        self.create_price_comparison_heatmap()
        self.create_top_bottom_comparison()
        self.create_district_summary_table()
        self.analyze_district_insights()
        
        print(f"\n✅ 구·동별 가격 분석 완료")
        print(f"   각 지역의 핫플레이스와 가성비 좋은 지역을 분석했습니다.")
        
        return self.district_data

# 분석 실행
district_analyzer = DistrictLevelAnalyzer()
district_results = district_analyzer.run_district_analysis()

🏘️ 구·동별 가격 분석 시작
=== 구·동 단위 가격 분석 데이터 처리 ===

🏘️ [광주] 구·동별 데이터 처리:
    📍 발견된 지역 컬럼: ['시군구', '동']
    💰 발견된 가격 컬럼: ['거래금액(만원)']
    📐 발견된 면적 컬럼: ['전용면적(㎡)']
  ✅ 광주_아파트_1.csv: 15803건 처리완료
    📍 발견된 지역 컬럼: ['시군구', '동']
    💰 발견된 가격 컬럼: ['거래금액(만원)']
    📐 발견된 면적 컬럼: ['전용면적(㎡)']
  ✅ 광주_아파트_2.csv: 15125건 처리완료
    📍 발견된 지역 컬럼: ['시군구', '동']
    💰 발견된 가격 컬럼: ['거래금액(만원)']
    📐 발견된 면적 컬럼: ['전용면적(㎡)']
  ✅ 광주_아파트_3.csv: 11862건 처리완료
    📍 발견된 지역 컬럼: ['시군구', '동']
    💰 발견된 가격 컬럼: ['거래금액(만원)']
    📐 발견된 면적 컬럼: ['전용면적(㎡)']
  ✅ 광주_아파트_4.csv: 18517건 처리완료
    📍 발견된 지역 컬럼: ['시군구', '동']
    💰 발견된 가격 컬럼: ['거래금액(만원)']
    📐 발견된 면적 컬럼: ['전용면적(㎡)']
  ✅ 광주_아파트_5.csv: 31392건 처리완료

  📊 [광주] 구·동별 가격 분석:
    📍 분석 가능한 지역: 37개
    📊 최소 거래건수 기준: 926건

    🏆 Top 3 비싼 지역:
      1. 광산구 수완동: 6,641,157원/㎡ (1260.0건)
      2. 동구 계림동: 5,593,627원/㎡ (1935.0건)
      3. 남구 봉선동: 5,346,047원/㎡ (3160.0건)

    💰 Top 3 저렴한 지역:
      1. 북구 문흥동: 2,163,982원/㎡ (3390.0건)
      2. 북구 두암동: 1,916,019원/㎡ (1858.0건)
      3. 북구 오치동: 1,856,142원/㎡ 


=== 지역별 가격 비교 히트맵 ===



=== 최고가 vs 최저가 지역 비교 ===



=== 구·동별 종합 요약 테이블 ===



=== 🔍 구·동별 시장 인사이트 ===

🏘️ [광주] 구·동별 특성:
  📊 최고가 vs 최저가 격차: 257.8%
    최고: 광산구 수완동 (6,641,157원/㎡)
    최저: 북구 오치동 (1,856,142원/㎡)
  📈 가장 활발한 지역: 서구 화정동 (3,557건)
  📊 평균 거래량: 2003건/지역
  🏆 프리미엄 지역 (8개): ㎡당 4,411,433원 이상
  💎 가성비 추천 지역: 북구 운암동, 서구 풍암동, 광산구 운남동

🏘️ [부산] 구·동별 특성:
  📊 최고가 vs 최저가 격차: 377.0%
    최고: 수영구 남천동 (10,624,289원/㎡)
    최저: 사하구 장림동 (2,227,207원/㎡)
  📈 가장 활발한 지역: 부산광역시 기장군  (11,238건)
  📊 평균 거래량: 3555건/지역
  🏆 프리미엄 지역 (8개): ㎡당 5,666,874원 이상
  💎 가성비 추천 지역: 금정구 구서동, 해운대구 반여동, 부산진구 개금동

🏘️ [제주] 구·동별 특성:
  📊 최고가 vs 최저가 격차: 133.8%
    최고: 이도이동 (6,496,412원/㎡)
    최저: 서귀동 (2,778,832원/㎡)
  📈 가장 활발한 지역: 노형동 (1,678건)
  📊 평균 거래량: 545건/지역
  🏆 프리미엄 지역 (5개): ㎡당 5,575,140원 이상
  💎 가성비 추천 지역: 외도일동, 일도이동, 중문동

✅ 구·동별 가격 분석 완료
   각 지역의 핫플레이스와 가성비 좋은 지역을 분석했습니다.


In [30]:
pip install statsmodels

Collecting statsmodels
  Using cached statsmodels-0.14.5-cp313-cp313-win_amd64.whl.metadata (9.8 kB)
Collecting patsy>=0.5.6 (from statsmodels)
  Using cached patsy-1.0.1-py2.py3-none-any.whl.metadata (3.3 kB)
Using cached statsmodels-0.14.5-cp313-cp313-win_amd64.whl (9.6 MB)
Using cached patsy-1.0.1-py2.py3-none-any.whl (232 kB)
Installing collected packages: patsy, statsmodels
Successfully installed patsy-1.0.1 statsmodels-0.14.5
Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip is available: 24.3.1 -> 25.2
[notice] To update, run: python.exe -m pip install --upgrade pip


In [31]:
import pandas as pd
import numpy as np
import plotly.graph_objects as go
from plotly.subplots import make_subplots
import plotly.express as px
from datetime import datetime, timedelta
from scipy import stats
from sklearn.linear_model import LinearRegression
from statsmodels.tsa.stattools import grangercausalitytests
import warnings
warnings.filterwarnings('ignore')

class TimeLagMarketAnalyzer:
    def __init__(self, data_path='data/'):
        self.data_path = data_path
        self.regions = ['광주', '부산', '제주']
        self.monthly_panel_data = {}
        self.lag_analysis_results = {}
        self.market_indicators = {}
        
    def create_monthly_panel_data(self):
        """월별 패널데이터 생성 (YYYY-MM 형태)"""
        print("=== 1️⃣ 월별 패널데이터 생성 ===")
        
        for region in self.regions:
            print(f"\n📊 [{region}] 월별 집계:")
            
            all_data = []
            
            for i in range(1, 6):
                try:
                    filename = f"{region}_아파트_{i}.csv"
                    filepath = f"{self.data_path}{filename}"
                    
                    # 파일 로드
                    for encoding in ['utf-8', 'cp949', 'euc-kr']:
                        try:
                            df = pd.read_csv(filepath, encoding=encoding)
                            
                            # 날짜, 가격 데이터 처리
                            processed_df = self.process_monthly_data(df, filename, i)
                            
                            if processed_df is not None and len(processed_df) > 0:
                                all_data.append(processed_df)
                                print(f"  ✅ {filename}: {len(processed_df)}건 처리완료")
                            
                            break
                        except UnicodeDecodeError:
                            continue
                            
                except Exception as e:
                    print(f"  ❌ {filename}: {e}")
            
            if all_data:
                # 모든 데이터 통합
                combined_df = pd.concat(all_data, ignore_index=True)
                
                # 월별 집계
                monthly_agg = self.aggregate_monthly_data(combined_df, region)
                self.monthly_panel_data[region] = monthly_agg
                
                print(f"  📅 월별 집계 완료: {len(monthly_agg)}개월")
    
    def process_monthly_data(self, df, filename, file_num):
        """월별 데이터 처리"""
        # 날짜 컬럼 처리
        date_cols = [col for col in df.columns if any(keyword in col.lower() 
                    for keyword in ['날짜', 'date', '계약', '거래', '년월'])]
        
        # 가격 컬럼 처리
        price_keywords = ['가격', '금액', 'price', '거래금액', '매매가']
        price_cols = [col for col in df.columns if any(keyword in col.lower() for keyword in price_keywords)]
        
        if not date_cols or not price_cols:
            return None
        
        # 날짜 파싱
        parsed_dates = None
        for date_col in date_cols:
            try:
                formats = ['%Y-%m-%d', '%Y.%m.%d', '%Y/%m/%d', '%Y-%m', '%Y.%m', '%Y%m']
                
                for fmt in formats:
                    try:
                        temp_dates = pd.to_datetime(df[date_col], format=fmt, errors='coerce')
                        if temp_dates.notna().sum() / len(temp_dates) > 0.7:
                            parsed_dates = temp_dates
                            break
                    except:
                        continue
                
                if parsed_dates is None:
                    parsed_dates = pd.to_datetime(df[date_col], errors='coerce')
                
                if parsed_dates.notna().sum() > len(df) * 0.5:
                    break
            except:
                continue
        
        # 가격 파싱
        main_price_col = price_cols[0]
        try:
            if df[main_price_col].dtype == 'object':
                price_clean = df[main_price_col].astype(str)
                price_clean = price_clean.str.replace(',', '').str.replace('만원', '').str.replace('원', '')
                price_clean = price_clean.str.extract('(\d+\.?\d*)')[0]
                cleaned_prices = pd.to_numeric(price_clean, errors='coerce')
            else:
                cleaned_prices = pd.to_numeric(df[main_price_col], errors='coerce')
        except:
            return None
        
        # 데이터 통합
        df['거래날짜'] = parsed_dates
        df['거래가격'] = cleaned_prices
        
        # 유효한 데이터만 필터링
        valid_data = df[(df['거래날짜'].notna()) & 
                       (df['거래가격'].notna()) & 
                       (df['거래가격'] > 0) & 
                       (df['거래가격'] < 1000000)]
        
        return valid_data
    
    def aggregate_monthly_data(self, df, region):
        """월별 집계"""
        # 년월 컬럼 생성
        df['년월'] = df['거래날짜'].dt.to_period('M')
        
        # 월별 집계
        monthly_agg = df.groupby('년월').agg({
            '거래가격': ['count', 'mean', 'median'],
            '거래날짜': ['min', 'max']
        }).round(2)
        
        monthly_agg.columns = ['transaction_count', 'price_avg', 'price_median', 'period_start', 'period_end']
        
        # 필수 컬럼 생성
        monthly_agg = monthly_agg.reset_index()
        monthly_agg['date'] = monthly_agg['년월'].astype(str)
        monthly_agg['region'] = region
        monthly_agg['year_month'] = pd.to_datetime(monthly_agg['date'])
        
        # 시계열 순서 정렬
        monthly_agg = monthly_agg.sort_values('year_month')
        
        return monthly_agg
    
    def exploratory_data_analysis(self):
        """2️⃣ 탐색적 분석 (EDA)"""
        print("\n=== 2️⃣ 탐색적 분석 (EDA) ===")
        
        # 1. 거래량과 가격 추세 시각화
        self.create_dual_axis_timeseries()
        
        # 2. 기본 상관관계 분석
        self.analyze_basic_correlation()
    
    def create_dual_axis_timeseries(self):
        """거래량과 가격 추세 시각화 (이중축)"""
        print("\n📈 거래량-가격 시계열 시각화:")
        
        fig = make_subplots(
            rows=len(self.regions), cols=1,
            subplot_titles=[f'{region} - 거래량 vs 가격 추세 (선행-후행 관계 확인)' for region in self.regions],
            specs=[[{"secondary_y": True}] for _ in self.regions],
            vertical_spacing=0.15
        )
        
        colors = {'광주': '#FF6B6B', '부산': '#4ECDC4', '제주': '#45B7D1'}
        
        for row, region in enumerate(self.regions, 1):
            if region in self.monthly_panel_data:
                data = self.monthly_panel_data[region]
                
                # 거래량 (막대그래프)
                fig.add_trace(
                    go.Bar(
                        x=data['year_month'],
                        y=data['transaction_count'],
                        name=f'{region} 거래량',
                        marker_color=colors[region],
                        opacity=0.6,
                        hovertemplate=f'<b>{region} 거래량</b><br>날짜: %{{x}}<br>거래량: %{{y:,}}건<extra></extra>',
                        showlegend=(row==1)
                    ),
                    row=row, col=1,
                    secondary_y=False
                )
                
                # 평균가격 (선그래프)
                fig.add_trace(
                    go.Scatter(
                        x=data['year_month'],
                        y=data['price_avg'],
                        mode='lines+markers',
                        name=f'{region} 평균가격',
                        line=dict(color=colors[region], width=3),
                        marker=dict(size=6),
                        hovertemplate=f'<b>{region} 평균가격</b><br>날짜: %{{x}}<br>평균가격: %{{y:,.0f}}만원<extra></extra>',
                        showlegend=(row==1)
                    ),
                    row=row, col=1,
                    secondary_y=True
                )
        
        # 축 라벨 설정
        for i in range(1, len(self.regions) + 1):
            fig.update_yaxes(title_text="거래량 (건)", secondary_y=False, row=i, col=1)
            fig.update_yaxes(title_text="평균가격 (만원)", secondary_y=True, row=i, col=1)
        
        fig.update_layout(
            title='📊 거래량-가격 시계열 분석 (선행-후행 관계 확인)',
            title_x=0.5,
            title_font_size=20,
            height=350 * len(self.regions),
            margin=dict(t=120, b=100, l=80, r=120)
        )
        
        fig.show()
    
    def analyze_basic_correlation(self):
        """기본 상관관계 분석"""
        print("\n🔍 기본 상관관계 분석:")
        
        for region in self.regions:
            if region not in self.monthly_panel_data:
                continue
                
            data = self.monthly_panel_data[region]
            
            if len(data) > 5:
                corr_coef = data['transaction_count'].corr(data['price_avg'])
                print(f"  📊 {region}: 거래량-가격 상관계수 = {corr_coef:.3f}")
                
                if corr_coef > 0.3:
                    print(f"    → 양의 상관관계 (거래량↑ → 가격↑)")
                elif corr_coef < -0.3:
                    print(f"    → 음의 상관관계 (거래량↑ → 가격↓)")
                else:
                    print(f"    → 약한 상관관계")
    
    def time_lag_analysis(self):
        """3️⃣ 시차 분석 (Time-lagged Analysis)"""
        print("\n=== 3️⃣ 시차 분석 (Time-lagged Analysis) ===")
        
        # A. 단순 상관계수 (Lag Correlation)
        self.lag_correlation_analysis()
        
        # B. 회귀 분석 (Distributed Lag Model)
        self.distributed_lag_model()
        
        # C. 그랜저 인과 검정 (선택적 - 데이터 충분시)
        self.granger_causality_test()
    
    def lag_correlation_analysis(self):
        """방법 A: 단순 상관계수 (Lag Correlation)"""
        print("\n📊 방법 A: 시차 상관계수 분석")
        
        lag_results = {}
        
        for region in self.regions:
            if region not in self.monthly_panel_data:
                continue
                
            data = self.monthly_panel_data[region].copy()
            
            if len(data) < 10:  # 최소 10개월 데이터 필요
                continue
            
            print(f"\n  🏠 [{region}] 시차별 상관계수:")
            
            lag_correlations = []
            
            # 1개월부터 6개월까지 시차 분석
            for lag in range(1, 7):
                if len(data) > lag:
                    # 거래량을 lag만큼 앞으로 당겨서 미래 가격과 비교
                    volume_lagged = data['transaction_count'].iloc[:-lag]
                    price_future = data['price_avg'].iloc[lag:]
                    
                    if len(volume_lagged) > 3:
                        corr_coef = volume_lagged.corr(price_future)
                        lag_correlations.append({
                            'lag_months': lag,
                            'correlation': corr_coef,
                            'sample_size': len(volume_lagged)
                        })
                        
                        significance = "🔥 높음" if abs(corr_coef) > 0.5 else "📈 보통" if abs(corr_coef) > 0.3 else "📊 낮음"
                        print(f"    {lag}개월 후 가격 예측력: {corr_coef:+.3f} ({significance})")
            
            lag_results[region] = lag_correlations
        
        self.lag_analysis_results['correlations'] = lag_results
        
        # 시차 상관계수 시각화
        self.visualize_lag_correlations(lag_results)
    
    def visualize_lag_correlations(self, lag_results):
        """시차 상관계수 시각화"""
        fig = go.Figure()
        colors = {'광주': '#FF6B6B', '부산': '#4ECDC4', '제주': '#45B7D1'}
        
        for region, correlations in lag_results.items():
            if correlations:
                lags = [item['lag_months'] for item in correlations]
                corrs = [item['correlation'] for item in correlations]
                
                fig.add_trace(go.Scatter(
                    x=lags,
                    y=corrs,
                    mode='lines+markers',
                    name=f'{region}',
                    line=dict(color=colors[region], width=3),
                    marker=dict(size=8),
                    hovertemplate=f'<b>{region}</b><br>시차: %{{x}}개월<br>상관계수: %{{y:.3f}}<extra></extra>'
                ))
        
        fig.add_hline(y=0, line=dict(color='gray', dash='dash', width=1))
        fig.add_hline(y=0.3, line=dict(color='green', dash='dot', width=1), annotation_text="보통 상관관계")
        fig.add_hline(y=-0.3, line=dict(color='red', dash='dot', width=1))
        
        fig.update_layout(
            title='📈 거래량 → 가격 시차별 상관계수 (예측력 분석)',
            title_x=0.5,
            title_font_size=18,
            xaxis_title='시차 (개월)',
            yaxis_title='상관계수',
            height=500,
            xaxis=dict(dtick=1)
        )
        
        fig.show()
    
    def distributed_lag_model(self):
        """방법 B: 분산지연모형 (Distributed Lag Model)"""
        print("\n📊 방법 B: 분산지연모형 회귀분석")
        
        regression_results = {}
        
        for region in self.regions:
            if region not in self.monthly_panel_data:
                continue
                
            data = self.monthly_panel_data[region].copy()
            
            if len(data) < 15:  # 최소 15개월 데이터 필요
                continue
            
            print(f"\n  🏠 [{region}] 회귀분석 결과:")
            
            # 독립변수: 1~3개월 전 거래량
            # 종속변수: 현재 가격
            max_lag = min(3, len(data) - 5)
            
            if max_lag < 1:
                continue
            
            # 데이터 준비
            y = data['price_avg'].iloc[max_lag:].values  # 현재 가격
            X = []
            
            for lag in range(1, max_lag + 1):
                volume_lag = data['transaction_count'].iloc[max_lag-lag:-lag].values
                X.append(volume_lag)
            
            X = np.column_stack(X)
            
            if len(X) > 5:
                # 선형회귀 실행
                reg = LinearRegression()
                reg.fit(X, y)
                
                r_squared = reg.score(X, y)
                
                print(f"    📊 결정계수 (R²): {r_squared:.3f}")
                print(f"    📈 회귀계수:")
                
                for i, coef in enumerate(reg.coef_, 1):
                    significance = "🔥" if abs(coef) > 50 else "📈" if abs(coef) > 20 else "📊"
                    print(f"      {i}개월 전 거래량: {coef:+.2f} {significance}")
                
                regression_results[region] = {
                    'r_squared': r_squared,
                    'coefficients': reg.coef_,
                    'intercept': reg.intercept_
                }
        
        self.lag_analysis_results['regression'] = regression_results
    
    def granger_causality_test(self):
        """방법 C: 그랜저 인과검정 (선택적)"""
        print("\n📊 방법 C: 그랜저 인과검정")
        
        granger_results = {}
        
        for region in self.regions:
            if region not in self.monthly_panel_data:
                continue
                
            data = self.monthly_panel_data[region].copy()
            
            if len(data) < 20:  # 최소 20개월 데이터 필요
                print(f"  ⚠️ {region}: 데이터 부족 ({len(data)}개월)")
                continue
            
            try:
                # 데이터 준비 (결측값 제거)
                test_data = data[['transaction_count', 'price_avg']].dropna()
                
                if len(test_data) < 15:
                    continue
                
                # 그랜저 인과검정 실행 (최대 6개월 시차)
                max_lag = min(6, len(test_data) // 4)
                
                result = grangercausalitytests(test_data[['price_avg', 'transaction_count']], 
                                             maxlag=max_lag, verbose=False)
                
                print(f"  🏠 [{region}] 그랜저 인과검정:")
                
                significant_lags = []
                for lag in range(1, max_lag + 1):
                    p_value = result[lag][0]['ssr_ftest'][1]  # F-test p-value
                    
                    if p_value < 0.05:
                        significant_lags.append(lag)
                        print(f"    {lag}개월: p-value = {p_value:.3f} ✅ 유의미")
                    else:
                        print(f"    {lag}개월: p-value = {p_value:.3f}")
                
                if significant_lags:
                    print(f"    🎯 거래량이 가격을 예측하는 최적 시차: {significant_lags}개월")
                else:
                    print(f"    📊 통계적으로 유의미한 인과관계 없음")
                
                granger_results[region] = {
                    'significant_lags': significant_lags,
                    'test_results': result
                }
                
            except Exception as e:
                print(f"  ❌ {region}: 그랜저 검정 실패 - {e}")
        
        self.lag_analysis_results['granger'] = granger_results
    
    def market_turning_point_indicators(self):
        """4️⃣ 시장 전환점 예측 지표 개발"""
        print("\n=== 4️⃣ 시장 전환점 예측 지표 개발 ===")
        
        for region in self.regions:
            if region not in self.monthly_panel_data:
                continue
                
            data = self.monthly_panel_data[region].copy()
            
            if len(data) < 12:
                continue
            
            print(f"\n🎯 [{region}] 시장 전환점 지표:")
            
            # 1. Volume-to-Price Ratio (VPR)
            data['VPR'] = data['transaction_count'] / (data['price_avg'] / 1000)  # 천만원 단위로 정규화
            
            # 2. 거래량 이동평균 교차 지표
            data['volume_ma_3'] = data['transaction_count'].rolling(window=3).mean()
            data['volume_ma_12'] = data['transaction_count'].rolling(window=12).mean()
            data['volume_cross_signal'] = data['volume_ma_3'] / data['volume_ma_12']
            
            # 3. 거래량 급증률 + 가격 상승률 조합 지표
            data['volume_change_3m'] = data['transaction_count'].pct_change(3) * 100
            data['price_change_3m'] = data['price_avg'].pct_change(3) * 100
            data['combined_momentum'] = data['volume_change_3m'] + data['price_change_3m']
            
            # 최근 3개월 지표 출력
            recent_data = data.tail(3)
            
            print(f"  📊 최근 3개월 지표 변화:")
            for _, row in recent_data.iterrows():
                date_str = row['date']
                vpr = row['VPR'] if pd.notna(row['VPR']) else 0
                cross_signal = row['volume_cross_signal'] if pd.notna(row['volume_cross_signal']) else 1
                momentum = row['combined_momentum'] if pd.notna(row['combined_momentum']) else 0
                
                # 신호 해석
                vpr_signal = "🔥 급등 신호" if vpr > data['VPR'].quantile(0.8) else "❄️ 침체 신호" if vpr < data['VPR'].quantile(0.2) else "📊 보통"
                cross_signal_text = "📈 활황" if cross_signal > 1.1 else "📉 침체" if cross_signal < 0.9 else "➡️ 보합"
                momentum_signal = "🚀 상승" if momentum > 20 else "🔻 하락" if momentum < -20 else "➡️ 횡보"
                
                print(f"    {date_str}: VPR={vpr:.2f} ({vpr_signal}), 교차={cross_signal:.2f} ({cross_signal_text}), 모멘텀={momentum:+.1f}% ({momentum_signal})")
            
            self.market_indicators[region] = data
        
        # 지표 시각화
        self.visualize_market_indicators()
    
    def visualize_market_indicators(self):
        """시장 전환점 지표 시각화"""
        print("\n📈 시장 전환점 지표 시각화")
        
        fig = make_subplots(
            rows=3, cols=1,
            subplot_titles=('VPR (Volume-to-Price Ratio)', '거래량 이동평균 교차', '결합 모멘텀 지표'),
            vertical_spacing=0.1
        )
        
        colors = {'광주': '#FF6B6B', '부산': '#4ECDC4', '제주': '#45B7D1'}
        
        for region in self.regions:
            if region not in self.market_indicators:
                continue
                
            data = self.market_indicators[region]
            
            # 1. VPR
            fig.add_trace(
                go.Scatter(
                    x=data['year_month'],
                    y=data['VPR'],
                    mode='lines',
                    name=f'{region} VPR',
                    line=dict(color=colors[region], width=2),
                    showlegend=True
                ),
                row=1, col=1
            )
            
            # 2. 거래량 교차 신호
            fig.add_trace(
                go.Scatter(
                    x=data['year_month'],
                    y=data['volume_cross_signal'],
                    mode='lines',
                    name=f'{region} 교차신호',
                    line=dict(color=colors[region], width=2),
                    showlegend=False
                ),
                row=2, col=1
            )
            
            # 3. 결합 모멘텀
            fig.add_trace(
                go.Scatter(
                    x=data['year_month'],
                    y=data['combined_momentum'],
                    mode='lines',
                    name=f'{region} 모멘텀',
                    line=dict(color=colors[region], width=2),
                    showlegend=False
                ),
                row=3, col=1
            )
        
        # 기준선 추가
        fig.add_hline(y=1, line=dict(color='gray', dash='dash', width=1), row=2, col=1)
        fig.add_hline(y=0, line=dict(color='gray', dash='dash', width=1), row=3, col=1)
        
        fig.update_layout(
            title='🎯 시장 전환점 예측 지표 대시보드',
            title_x=0.5,
            title_font_size=20,
            height=800,
            margin=dict(t=120, b=100)
        )
        
        fig.show()
    
    def generate_market_forecast_summary(self):
        """시장 전망 요약"""
        print("\n=== 🔮 시장 전망 요약 ===")
        
        for region in self.regions:
            if region not in self.market_indicators:
                continue
                
            data = self.market_indicators[region]
            recent = data.tail(1).iloc[0]
            
            print(f"\n🏠 [{region}] 현재 시장 상황:")
            
            # 종합 신호 판단
            signals = []
            
            # VPR 신호
            vpr_current = recent['VPR'] if pd.notna(recent['VPR']) else 0
            vpr_threshold_high = data['VPR'].quantile(0.75)
            vpr_threshold_low = data['VPR'].quantile(0.25)
            
            if vpr_current > vpr_threshold_high:
                signals.append("상승")
                vpr_signal = "🔥 과열 (매도 신호)"
            elif vpr_current < vpr_threshold_low:
                signals.append("하락")
                vpr_signal = "❄️ 침체 (매수 신호)"
            else:
                signals.append("보합")
                vpr_signal = "📊 적정 수준"
            
            # 교차 신호
            cross_current = recent['volume_cross_signal'] if pd.notna(recent['volume_cross_signal']) else 1
            if cross_current > 1.1:
                signals.append("상승")
                cross_signal = "📈 활황 전환"
            elif cross_current < 0.9:
                signals.append("하락")
                cross_signal = "📉 침체 전환"
            else:
                signals.append("보합")
                cross_signal = "➡️ 현상 유지"
            
            # 모멘텀 신호
            momentum_current = recent['combined_momentum'] if pd.notna(recent['combined_momentum']) else 0
            if momentum_current > 20:
                signals.append("상승")
                momentum_signal = "🚀 강한 상승 모멘텀"
            elif momentum_current < -20:
                signals.append("하락")
                momentum_signal = "🔻 강한 하락 모멘텀"
            else:
                signals.append("보합")
                momentum_signal = "➡️ 약한 모멘텀"
            
            # 종합 판단
            signal_count = {"상승": signals.count("상승"), "하락": signals.count("하락"), "보합": signals.count("보합")}
            dominant_signal = max(signal_count, key=signal_count.get)
            
            print(f"  💡 VPR 지표: {vpr_signal}")
            print(f"  💡 교차 지표: {cross_signal}")
            print(f"  💡 모멘텀 지표: {momentum_signal}")
            
            if dominant_signal == "상승":
                overall_forecast = "🚀 상승 전망"
                recommendation = "매수 검토 시점"
            elif dominant_signal == "하락":
                overall_forecast = "📉 하락 전망"
                recommendation = "매도 검토 또는 관망"
            else:
                overall_forecast = "➡️ 횡보 전망"
                recommendation = "현상 유지"
            
            print(f"  🎯 종합 전망: {overall_forecast}")
            print(f"  📋 투자 방향: {recommendation}")
            
            # 신뢰도 평가
            signal_strength = max(signal_count.values()) / len(signals)
            if signal_strength >= 0.67:
                confidence = "높음 🔥"
            elif signal_strength >= 0.5:
                confidence = "보통 📊"
            else:
                confidence = "낮음 ⚠️"
            
            print(f"  📊 신뢰도: {confidence} ({signal_strength:.1%})")
    
    def create_comprehensive_summary_table(self):
        """종합 분석 요약 테이블"""
        print("\n=== 📋 종합 분석 요약 테이블 ===")
        
        table_data = []
        
        for region in self.regions:
            if region not in self.monthly_panel_data:
                continue
            
            # 기본 통계
            data = self.monthly_panel_data[region]
            avg_volume = data['transaction_count'].mean()
            avg_price = data['price_avg'].mean()
            
            # 시차 분석 결과
            best_lag = "N/A"
            best_correlation = 0
            
            if region in self.lag_analysis_results.get('correlations', {}):
                correlations = self.lag_analysis_results['correlations'][region]
                if correlations:
                    best_item = max(correlations, key=lambda x: abs(x['correlation']))
                    best_lag = f"{best_item['lag_months']}개월"
                    best_correlation = best_item['correlation']
            
            # 현재 지표 값
            current_vpr = "N/A"
            current_momentum = "N/A"
            
            if region in self.market_indicators:
                recent = self.market_indicators[region].tail(1).iloc[0]
                current_vpr = f"{recent['VPR']:.2f}" if pd.notna(recent['VPR']) else "N/A"
                current_momentum = f"{recent['combined_momentum']:+.1f}%" if pd.notna(recent['combined_momentum']) else "N/A"
            
            table_data.append([
                region,
                f"{len(data)}개월",
                f"{avg_volume:,.0f}건",
                f"{avg_price:,.0f}만원",
                best_lag,
                f"{best_correlation:+.3f}",
                current_vpr,
                current_momentum
            ])
        
        if table_data:
            fig = go.Figure(data=[go.Table(
                header=dict(
                    values=['지역', '분석기간', '평균거래량', '평균가격', '최적시차', '최고상관계수', '현재VPR', '현재모멘텀'],
                    fill_color='lightblue',
                    align='center',
                    font=dict(size=12, color='black'),
                    height=45
                ),
                cells=dict(
                    values=list(zip(*table_data)),
                    fill_color='white',
                    align='center',
                    font=dict(size=11),
                    height=35
                )
            )])
            
            fig.update_layout(
                title='📊 거래량-가격 시차분석 및 시장지표 종합요약',
                title_x=0.5,
                title_font_size=16,
                height=400,
                margin=dict(l=20, r=20, t=80, b=20)
            )
            
            fig.show()
    
    def run_comprehensive_analysis(self):
        """전체 분석 실행"""
        print("🔬 거래량-가격 시차분석 및 시장 전환점 예측 분석 시작")
        print("=" * 80)
        
        # 1단계: 월별 패널데이터 생성
        self.create_monthly_panel_data()
        
        # 2단계: 탐색적 분석
        self.exploratory_data_analysis()
        
        # 3단계: 시차 분석
        self.time_lag_analysis()
        
        # 4단계: 시장 전환점 지표
        self.market_turning_point_indicators()
        
        # 5단계: 종합 전망
        self.generate_market_forecast_summary()
        
        # 6단계: 요약 테이블
        self.create_comprehensive_summary_table()
        
        print(f"\n✅ 고급 시계열 분석 완료")
        print(f"   거래량의 가격 예측력과 시장 전환점을 종합 분석했습니다.")
        print(f"   🎯 핵심 발견: 거래량이 가격을 선행하는 최적 시차와 현재 시장 신호")
        
        return {
            'monthly_data': self.monthly_panel_data,
            'lag_analysis': self.lag_analysis_results,
            'market_indicators': self.market_indicators
        }

# 분석 실행
time_lag_analyzer = TimeLagMarketAnalyzer()
comprehensive_results = time_lag_analyzer.run_comprehensive_analysis()

🔬 거래량-가격 시차분석 및 시장 전환점 예측 분석 시작
=== 1️⃣ 월별 패널데이터 생성 ===

📊 [광주] 월별 집계:
  ✅ 광주_아파트_1.csv: 15803건 처리완료
  ✅ 광주_아파트_2.csv: 15125건 처리완료
  ✅ 광주_아파트_3.csv: 11862건 처리완료
  ✅ 광주_아파트_4.csv: 18517건 처리완료
  ✅ 광주_아파트_5.csv: 31392건 처리완료
  📅 월별 집계 완료: 61개월

📊 [부산] 월별 집계:
  ✅ 부산_아파트_1.csv: 29610건 처리완료
  ✅ 부산_아파트_2.csv: 27960건 처리완료
  ✅ 부산_아파트_3.csv: 21907건 처리완료
  ✅ 부산_아파트_4.csv: 25130건 처리완료
  ✅ 부산_아파트_5.csv: 68731건 처리완료
  📅 월별 집계 완료: 61개월

📊 [제주] 월별 집계:
  ✅ 제주_아파트_1.csv: 4433건 처리완료
  ✅ 제주_아파트_2.csv: 3026건 처리완료
  ✅ 제주_아파트_3.csv: 1962건 처리완료
  ✅ 제주_아파트_4.csv: 2382건 처리완료
  ✅ 제주_아파트_5.csv: 2353건 처리완료
  📅 월별 집계 완료: 61개월

=== 2️⃣ 탐색적 분석 (EDA) ===

📈 거래량-가격 시계열 시각화:



🔍 기본 상관관계 분석:
  📊 광주: 거래량-가격 상관계수 = -0.014
    → 약한 상관관계
  📊 부산: 거래량-가격 상관계수 = -0.087
    → 약한 상관관계
  📊 제주: 거래량-가격 상관계수 = -0.163
    → 약한 상관관계

=== 3️⃣ 시차 분석 (Time-lagged Analysis) ===

📊 방법 A: 시차 상관계수 분석

  🏠 [광주] 시차별 상관계수:
    1개월 후 가격 예측력: +0.003 (📊 낮음)
    2개월 후 가격 예측력: +0.016 (📊 낮음)
    3개월 후 가격 예측력: -0.039 (📊 낮음)
    4개월 후 가격 예측력: -0.162 (📊 낮음)
    5개월 후 가격 예측력: -0.172 (📊 낮음)
    6개월 후 가격 예측력: -0.163 (📊 낮음)

  🏠 [부산] 시차별 상관계수:
    1개월 후 가격 예측력: -0.075 (📊 낮음)
    2개월 후 가격 예측력: -0.093 (📊 낮음)
    3개월 후 가격 예측력: -0.185 (📊 낮음)
    4개월 후 가격 예측력: -0.202 (📊 낮음)
    5개월 후 가격 예측력: -0.084 (📊 낮음)
    6개월 후 가격 예측력: -0.075 (📊 낮음)

  🏠 [제주] 시차별 상관계수:
    1개월 후 가격 예측력: -0.157 (📊 낮음)
    2개월 후 가격 예측력: -0.137 (📊 낮음)
    3개월 후 가격 예측력: -0.130 (📊 낮음)
    4개월 후 가격 예측력: -0.148 (📊 낮음)
    5개월 후 가격 예측력: -0.126 (📊 낮음)
    6개월 후 가격 예측력: -0.060 (📊 낮음)



📊 방법 B: 분산지연모형 회귀분석

  🏠 [광주] 회귀분석 결과:
    📊 결정계수 (R²): 0.206
    📈 회귀계수:
      1개월 전 거래량: +0.72 📊
      2개월 전 거래량: -0.23 📊
      3개월 전 거래량: -1.77 📊

  🏠 [부산] 회귀분석 결과:
    📊 결정계수 (R²): 0.209
    📈 회귀계수:
      1개월 전 거래량: -0.35 📊
      2개월 전 거래량: -0.10 📊
      3개월 전 거래량: -0.86 📊

  🏠 [제주] 회귀분석 결과:
    📊 결정계수 (R²): 0.088
    📈 회귀계수:
      1개월 전 거래량: +1.83 📊
      2개월 전 거래량: -4.85 📊
      3개월 전 거래량: -6.24 📊

📊 방법 C: 그랜저 인과검정
  🏠 [광주] 그랜저 인과검정:
    1개월: p-value = 0.066
    2개월: p-value = 0.006 ✅ 유의미
    3개월: p-value = 0.039 ✅ 유의미
    4개월: p-value = 0.053
    5개월: p-value = 0.256
    6개월: p-value = 0.227
    🎯 거래량이 가격을 예측하는 최적 시차: [2, 3]개월
  🏠 [부산] 그랜저 인과검정:
    1개월: p-value = 0.000 ✅ 유의미
    2개월: p-value = 0.000 ✅ 유의미
    3개월: p-value = 0.000 ✅ 유의미
    4개월: p-value = 0.026 ✅ 유의미
    5개월: p-value = 0.374
    6개월: p-value = 0.045 ✅ 유의미
    🎯 거래량이 가격을 예측하는 최적 시차: [1, 2, 3, 4, 6]개월
  🏠 [제주] 그랜저 인과검정:
    1개월: p-value = 0.268
    2개월: p-value = 0.317
    3개월: p-value = 0.597
    4개월: p-value = 


=== 🔮 시장 전망 요약 ===

🏠 [광주] 현재 시장 상황:
  💡 VPR 지표: ❄️ 침체 (매수 신호)
  💡 교차 지표: 📉 침체 전환
  💡 모멘텀 지표: 🔻 강한 하락 모멘텀
  🎯 종합 전망: 📉 하락 전망
  📋 투자 방향: 매도 검토 또는 관망
  📊 신뢰도: 높음 🔥 (100.0%)

🏠 [부산] 현재 시장 상황:
  💡 VPR 지표: ❄️ 침체 (매수 신호)
  💡 교차 지표: ➡️ 현상 유지
  💡 모멘텀 지표: 🔻 강한 하락 모멘텀
  🎯 종합 전망: 📉 하락 전망
  📋 투자 방향: 매도 검토 또는 관망
  📊 신뢰도: 보통 📊 (66.7%)

🏠 [제주] 현재 시장 상황:
  💡 VPR 지표: ❄️ 침체 (매수 신호)
  💡 교차 지표: 📉 침체 전환
  💡 모멘텀 지표: 🔻 강한 하락 모멘텀
  🎯 종합 전망: 📉 하락 전망
  📋 투자 방향: 매도 검토 또는 관망
  📊 신뢰도: 높음 🔥 (100.0%)

=== 📋 종합 분석 요약 테이블 ===



✅ 고급 시계열 분석 완료
   거래량의 가격 예측력과 시장 전환점을 종합 분석했습니다.
   🎯 핵심 발견: 거래량이 가격을 선행하는 최적 시차와 현재 시장 신호
