# 서울시 요식업 평균 매출 예측 모델

이 노트북은 서울시 요식업 매출 데이터를 분석하고 예측 모델을 구축하는 과정을 담고 있습니다.

## 프로젝트 목표
* 서울시 상권별 요식업 매출액을 예측하는 머신러닝 모델 개발
* 매출액에 영향을 미치는 주요 요인 분석
* 위치별 잠재 매출 예측을 통한 창업 의사결정 지원

## 1. 필요한 라이브러리 임포트

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# 한글 폰트 설정
plt.rc('font', family='Malgun Gothic')
plt.rcParams['axes.unicode_minus'] = False

# 모델링 라이브러리
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.metrics import r2_score, mean_squared_error, mean_absolute_error
from sklearn.linear_model import LinearRegression, Ridge, Lasso
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor
from sklearn.impute import SimpleImputer
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline

# 추가 임포트
import joblib

## 2. 데이터 로딩

서울시 상권 분석을 위한 데이터를 로드합니다.

In [None]:
print("데이터 로드 중...")
# 원본 데이터 로드
sales_df = pd.read_csv("data/서울시 상권분석서비스(추정매출-상권).csv", encoding="cp949")
work_df = pd.read_csv("data/서울시 상권분석서비스(직장인구-상권).csv", encoding="cp949")
street_df = pd.read_csv("data/서울시 상권분석서비스(길단위인구-상권).csv", encoding="cp949")

# 파일 구조 확인
print(f"매출 데이터 행 수: {len(sales_df)}")

# 요식업 데이터 필터링 (CS1 코드는 요식업)
restaurant_sales = sales_df[sales_df["서비스_업종_코드"].str.startswith("CS1")].copy()
print(f"요식업 데이터 행 수: {len(restaurant_sales)}")

## 3. 데이터 전처리 및 병합

데이터를 분석에 적합한 형태로 변환하고, 결측치를 처리합니다.

In [None]:
print("데이터 전처리 및 병합 중...")
# 전처리 함수 정의 - 문자열을 숫자로 변환 (에러 처리 포함)
def convert_to_numeric(df):
    # 숫자형 컬럼 식별
    numeric_cols = df.select_dtypes(include=['int64', 'float64']).columns
    
    # object 컬럼 확인 (추후 참고용)
    object_cols = df.select_dtypes(include=['object']).columns
    print(f"숫자형 컬럼 수: {len(numeric_cols)}, 문자형 컬럼 수: {len(object_cols)}")
    
    # 각 숫자 컬럼 변환 (문자열 제거 등)
    for col in numeric_cols:
        try:
            # pd.to_numeric 함수로 문자열 처리
            df[col] = pd.to_numeric(df[col], errors='coerce')
        except Exception as e:
            print(f"컬럼 {col} 처리 중 오류: {e}")
    
    return df

# 전처리 적용
restaurant_sales = convert_to_numeric(restaurant_sales)
work_df = convert_to_numeric(work_df)
street_df = convert_to_numeric(street_df)

In [None]:
# 모든 숫자형 컬럼만 선택하여 그룹화하기 위한 함수
def get_numeric_cols(df):
    return [col for col in df.select_dtypes(include=[np.number]).columns]

# 상권별로 데이터 집계 (분기별 데이터를 상권별로 평균 집계)
restaurant_grouped = restaurant_sales.groupby(["상권_코드_명"])[
    ["당월_매출_금액", "월요일_매출_금액", "화요일_매출_금액", "수요일_매출_금액", 
     "목요일_매출_금액", "금요일_매출_금액", "토요일_매출_금액", "일요일_매출_금액"]
].mean().reset_index()

# 평균매출 컬럼명 변경
restaurant_grouped.rename(columns={"당월_매출_금액": "평균매출"}, inplace=True)

# 인구 데이터도 상권별로 집계 (숫자형 컬럼만 선택)
street_numeric_cols = get_numeric_cols(street_df)
street_df_grouped = street_df.groupby(["상권_코드_명"])[street_numeric_cols].mean().reset_index()

work_numeric_cols = get_numeric_cols(work_df)
work_df_grouped = work_df.groupby(["상권_코드_명"])[work_numeric_cols].mean().reset_index()

print(f"길단위 인구 집계 후 데이터 크기: {street_df_grouped.shape}")
print(f"직장 인구 집계 후 데이터 크기: {work_df_grouped.shape}")

In [None]:
# 병합 키 설정
merge_key = "상권_코드_명"

# 데이터 병합
restaurant_data = pd.merge(restaurant_grouped, street_df_grouped, on=merge_key, how="left")
restaurant_data = pd.merge(restaurant_data, work_df_grouped, on=merge_key, how="left")

# 상권 구분 코드 정보 추가
category_info = restaurant_sales[["상권_코드_명", "상권_구분_코드_명"]].drop_duplicates()
restaurant_data = pd.merge(restaurant_data, category_info, on="상권_코드_명", how="left")
restaurant_data['상권_구분_코드_명'] = restaurant_data['상권_구분_코드_명'].fillna('기타')

# 상권 구분 코드 분포 확인
print("상권 구분 코드 분포:")
print(restaurant_data['상권_구분_코드_명'].value_counts())

In [None]:
# 관광특구 필터링 - 데이터가 적어 제외
if '관광특구' in restaurant_data['상권_구분_코드_명'].values:
    print("관광특구 데이터 제외 중...")
    restaurant_data = restaurant_data[restaurant_data['상권_구분_코드_명'] != '관광특구']
print(f"필터링 후 데이터 크기: {len(restaurant_data)}")

## 4. 특성 엔지니어링

모델링에 유용한 추가 특성을 생성하고 데이터를 전처리합니다.

In [None]:
print("특성 엔지니어링 중...")
# 모든 숫자형 컬럼 결측치 확인
numeric_cols = restaurant_data.select_dtypes(include=[np.number]).columns
missing_values = restaurant_data[numeric_cols].isnull().sum()
print(f"결측치가 많은 컬럼 Top 5: {missing_values.sort_values(ascending=False).head()}")

# 결측치 처리 - 모든 숫자형 컬럼
restaurant_data[numeric_cols] = restaurant_data[numeric_cols].fillna(0)

In [None]:
# 연령대별 인구 그룹화
age_columns = ["연령대_10_유동인구_수", "연령대_20_유동인구_수", "연령대_30_유동인구_수", 
               "연령대_40_유동인구_수", "연령대_50_유동인구_수", "연령대_60_이상_유동인구_수",
               "연령대_10_직장_인구_수", "연령대_20_직장_인구_수", "연령대_30_직장_인구_수", 
               "연령대_40_직장_인구_수", "연령대_50_직장_인구_수", "연령대_60_이상_직장_인구_수"]

# 필요한 컬럼만 있는지 확인
existing_age_columns = [col for col in age_columns if col in restaurant_data.columns]
if len(existing_age_columns) < len(age_columns):
    print(f"누락된 연령대 컬럼: {set(age_columns) - set(existing_age_columns)}")

In [None]:
# 존재하는 연령대 컬럼만 사용하여 연령대별 인구 그룹화
if "연령대_10_유동인구_수" in restaurant_data.columns and "연령대_20_유동인구_수" in restaurant_data.columns:
    restaurant_data["초년_유동인구_수"] = restaurant_data["연령대_10_유동인구_수"] + restaurant_data["연령대_20_유동인구_수"]
else:
    restaurant_data["초년_유동인구_수"] = 0

if "연령대_30_유동인구_수" in restaurant_data.columns and "연령대_40_유동인구_수" in restaurant_data.columns:
    restaurant_data["중년_유동인구_수"] = restaurant_data["연령대_30_유동인구_수"] + restaurant_data["연령대_40_유동인구_수"]
else:
    restaurant_data["중년_유동인구_수"] = 0

if "연령대_50_유동인구_수" in restaurant_data.columns and "연령대_60_이상_유동인구_수" in restaurant_data.columns:
    restaurant_data["노년_유동인구_수"] = restaurant_data["연령대_50_유동인구_수"] + restaurant_data["연령대_60_이상_유동인구_수"]
else:
    restaurant_data["노년_유동인구_수"] = 0

if "연령대_10_직장_인구_수" in restaurant_data.columns and "연령대_20_직장_인구_수" in restaurant_data.columns:
    restaurant_data["초년_직장_인구_수"] = restaurant_data["연령대_10_직장_인구_수"] + restaurant_data["연령대_20_직장_인구_수"]
else:
    restaurant_data["초년_직장_인구_수"] = 0

if "연령대_30_직장_인구_수" in restaurant_data.columns and "연령대_40_직장_인구_수" in restaurant_data.columns:
    restaurant_data["중년_직장_인구_수"] = restaurant_data["연령대_30_직장_인구_수"] + restaurant_data["연령대_40_직장_인구_수"]
else:
    restaurant_data["중년_직장_인구_수"] = 0

if "연령대_50_직장_인구_수" in restaurant_data.columns and "연령대_60_이상_직장_인구_수" in restaurant_data.columns:
    restaurant_data["노년_직장_인구_수"] = restaurant_data["연령대_50_직장_인구_수"] + restaurant_data["연령대_60_이상_직장_인구_수"]
else:
    restaurant_data["노년_직장_인구_수"] = 0

In [None]:
# 총계 컬럼 처리
if '총_유동인구_수' not in restaurant_data.columns:
    restaurant_data['총_유동인구_수'] = restaurant_data["초년_유동인구_수"] + restaurant_data["중년_유동인구_수"] + restaurant_data["노년_유동인구_수"]
else:
    restaurant_data['총_유동인구_수'] = restaurant_data['총_유동인구_수'].fillna(
        restaurant_data["초년_유동인구_수"] + restaurant_data["중년_유동인구_수"] + restaurant_data["노년_유동인구_수"])

if '총_직장_인구_수' not in restaurant_data.columns:
    restaurant_data['총_직장_인구_수'] = restaurant_data["초년_직장_인구_수"] + restaurant_data["중년_직장_인구_수"] + restaurant_data["노년_직장_인구_수"]
else:
    restaurant_data['총_직장_인구_수'] = restaurant_data['총_직장_인구_수'].fillna(
        restaurant_data["초년_직장_인구_수"] + restaurant_data["중년_직장_인구_수"] + restaurant_data["노년_직장_인구_수"])

In [None]:
# 비율 특성 추가 - 0으로 나누는 경우 방지
restaurant_data['여성_비율_유동인구'] = np.where(restaurant_data['총_유동인구_수'] > 0, 
                               restaurant_data['여성_유동인구_수'] / restaurant_data['총_유동인구_수'], 0)
restaurant_data['여성_비율_직장인구'] = np.where(restaurant_data['총_직장_인구_수'] > 0, 
                               restaurant_data['여성_직장_인구_수'] / restaurant_data['총_직장_인구_수'], 0)
restaurant_data['직장_유동_인구_비율'] = np.where(restaurant_data['총_유동인구_수'] > 0, 
                               restaurant_data['총_직장_인구_수'] / restaurant_data['총_유동인구_수'], 0)

In [None]:
# 세부 연령대 데이터 제거
columns_to_drop = [col for col in age_columns if col in restaurant_data.columns]
restaurant_data = restaurant_data.drop(columns=columns_to_drop, errors='ignore')

# 요일별 매출 관련 컬럼 제거
daily_sales_cols = [col for col in restaurant_data.columns if '매출_금액' in col]
restaurant_data = restaurant_data.drop(columns=daily_sales_cols, errors='ignore')

# 중복 컬럼 제거
for suffix in ['_x', '_y']:
    dup_cols = [col for col in restaurant_data.columns if col.endswith(suffix)]
    restaurant_data = restaurant_data.drop(columns=dup_cols, errors='ignore')

# 기준_년분기_코드 컬럼 제거
if '기준_년분기_코드' in restaurant_data.columns:
    restaurant_data = restaurant_data.drop(columns=['기준_년분기_코드'])

# 데이터 확인
print(f"최종 데이터 형태: {restaurant_data.shape}")
print(f"최종 컬럼 목록: {restaurant_data.columns.tolist()}")

## 5. 데이터 탐색 분석(EDA)

데이터 탐색 분석(EDA)은 머신러닝 모델링 전에 데이터의 특성과 패턴을 이해하기 위한 중요한 과정입니다.
여기서는 다양한 시각화와 통계적 방법을 통해 서울시 요식업 매출 데이터의 특징을 살펴보겠습니다.

### 5.1 기본 통계량 분석

데이터의 기본 통계량을 확인하여 전반적인 분포와 특성을 파악합니다.

In [None]:
print("기본 통계량 분석 중...")
# 수치형 변수들의 기술 통계량 계산
numeric_stats = restaurant_data.describe().T
numeric_stats['변동계수'] = numeric_stats['std'] / numeric_stats['mean']  # 변동계수 추가 (표준편차/평균)
print("수치형 변수 기술 통계량:")
print(numeric_stats)

# 주요 변수의 분포 시각화
plt.figure(figsize=(15, 10))
plt.suptitle('주요 변수 분포', fontsize=16)

# 1. 평균매출 분포
plt.subplot(2, 3, 1)
sns.histplot(restaurant_data['평균매출'], kde=True)
plt.title('평균매출 분포')
plt.xlabel('평균매출 (원)')
plt.ylabel('빈도')

# 2. 총 유동인구 분포
plt.subplot(2, 3, 2)
sns.histplot(restaurant_data['총_유동인구_수'], kde=True)
plt.title('총 유동인구 분포')
plt.xlabel('총 유동인구 수')
plt.ylabel('빈도')

# 3. 총 직장인구 분포
plt.subplot(2, 3, 3)
sns.histplot(restaurant_data['총_직장_인구_수'], kde=True)
plt.title('총 직장인구 분포')
plt.xlabel('총 직장인구 수')
plt.ylabel('빈도')

# 4. 초년 유동인구 분포
plt.subplot(2, 3, 4)
sns.histplot(restaurant_data['초년_유동인구_수'], kde=True)
plt.title('초년 유동인구 분포')
plt.xlabel('초년 유동인구 수')
plt.ylabel('빈도')

# 5. 중년 유동인구 분포
plt.subplot(2, 3, 5)
sns.histplot(restaurant_data['중년_유동인구_수'], kde=True)
plt.title('중년 유동인구 분포')
plt.xlabel('중년 유동인구 수')
plt.ylabel('빈도')

# 6. 노년 유동인구 분포
plt.subplot(2, 3, 6)
sns.histplot(restaurant_data['노년_유동인구_수'], kde=True)
plt.title('노년 유동인구 분포')
plt.xlabel('노년 유동인구 수')
plt.ylabel('빈도')

plt.tight_layout(rect=[0, 0, 1, 0.95])
plt.savefig('plots/주요변수_분포.png')
plt.close()

# 분석 인사이트 출력
print("\n주요 변수 분포 분석 인사이트:")
print(f"- 평균매출 중앙값: {restaurant_data['평균매출'].median():,.0f}원, 평균: {restaurant_data['평균매출'].mean():,.0f}원")
print(f"- 유동인구는 평균 {restaurant_data['총_유동인구_수'].mean():,.0f}명이며, 중앙값은 {restaurant_data['총_유동인구_수'].median():,.0f}명입니다.")
print(f"- 직장인구는 평균 {restaurant_data['총_직장_인구_수'].mean():,.0f}명이며, 중앙값은 {restaurant_data['총_직장_인구_수'].median():,.0f}명입니다.")
print(f"- 대부분의 변수에서 평균이 중앙값보다 크게 나타나는 오른쪽 꼬리 분포를 보입니다.")

### 5.2 상권 유형별 분석

상권 유형에 따른 매출과 인구 특성의 차이를 분석합니다.

In [None]:
print("상권 유형별 분석 중...")
# 1. 상권 유형별 평균매출 비교
plt.figure(figsize=(12, 8))
plt.subplot(2, 1, 1)
sns.boxplot(x='상권_구분_코드_명', y='평균매출', data=restaurant_data)
plt.title('상권 유형별 평균 매출 분포')
plt.xticks(rotation=45)
plt.ylabel('평균매출 (원)')
plt.xlabel('상권 유형')

# 상권 유형별 기초 통계량 계산
commercial_type_stats = restaurant_data.groupby('상권_구분_코드_명')['평균매출'].agg(
    ['count', 'mean', 'median', 'std', 'min', 'max']
).reset_index()
commercial_type_stats['변동계수'] = commercial_type_stats['std'] / commercial_type_stats['mean']
commercial_type_stats = commercial_type_stats.sort_values('mean', ascending=False)

# 2. 상권 유형별 평균매출 막대 그래프
plt.subplot(2, 1, 2)
sns.barplot(x='상권_구분_코드_명', y='mean', data=commercial_type_stats)
plt.title('상권 유형별 평균 매출액')
plt.xticks(rotation=45)
plt.ylabel('평균매출 (원)')
plt.xlabel('상권 유형')
plt.tight_layout()
plt.savefig('plots/상권유형별_매출분석.png')
plt.close()

print("\n상권 유형별 평균매출 통계:")
print(commercial_type_stats[['상권_구분_코드_명', 'count', 'mean', 'median', 'std', '변동계수']])

# 3. 상권 유형별 인구 특성 비교
plt.figure(figsize=(15, 10))
plt.suptitle('상권 유형별 인구 특성 비교', fontsize=16)

# 총 유동인구 비교
plt.subplot(2, 2, 1)
sns.boxplot(x='상권_구분_코드_명', y='총_유동인구_수', data=restaurant_data)
plt.title('상권 유형별 총 유동인구')
plt.xticks(rotation=45)
plt.ylabel('총 유동인구 수')
plt.xlabel('상권 유형')

# 총 직장인구 비교
plt.subplot(2, 2, 2)
sns.boxplot(x='상권_구분_코드_명', y='총_직장_인구_수', data=restaurant_data)
plt.title('상권 유형별 총 직장인구')
plt.xticks(rotation=45)
plt.ylabel('총 직장인구 수')
plt.xlabel('상권 유형')

# 직장-유동 인구 비율 비교
plt.subplot(2, 2, 3)
sns.boxplot(x='상권_구분_코드_명', y='직장_유동_인구_비율', data=restaurant_data)
plt.title('상권 유형별 직장-유동 인구 비율')
plt.xticks(rotation=45)
plt.ylabel('직장/유동 인구 비율')
plt.xlabel('상권 유형')

# 여성 비율(유동인구) 비교
plt.subplot(2, 2, 4)
sns.boxplot(x='상권_구분_코드_명', y='여성_비율_유동인구', data=restaurant_data)
plt.title('상권 유형별 여성 유동인구 비율')
plt.xticks(rotation=45)
plt.ylabel('여성 비율')
plt.xlabel('상권 유형')

plt.tight_layout(rect=[0, 0, 1, 0.95])
plt.savefig('plots/상권유형별_인구특성.png')
plt.close()

# 분석 인사이트 출력
commercial_population_stats = restaurant_data.groupby('상권_구분_코드_명')[
    ['총_유동인구_수', '총_직장_인구_수', '직장_유동_인구_비율', '여성_비율_유동인구']
].mean().reset_index()

print("\n상권 유형별 인구 특성 분석 인사이트:")
for idx, row in commercial_population_stats.iterrows():
    print(f"- {row['상권_구분_코드_명']} 상권: 평균 유동인구 {row['총_유동인구_수']:,.0f}명, 직장인구 {row['총_직장_인구_수']:,.0f}명, " + 
          f"직장/유동 비율 {row['직장_유동_인구_비율']:.2f}, 여성 비율 {row['여성_비율_유동인구']:.2f}")

### 5.3 연령대별 인구와 매출의 관계 분석

다양한 연령대별 인구 분포와 매출 간의 관계를 분석합니다.

In [None]:
print("연령대별 인구와 매출의 관계 분석 중...")

# 1. 연령대별 유동인구와 매출 간의 산점도
plt.figure(figsize=(15, 10))
plt.suptitle('연령대별 유동인구와 평균매출 관계', fontsize=16)

# 초년 유동인구와 매출
plt.subplot(2, 3, 1)
sns.scatterplot(x='초년_유동인구_수', y='평균매출', hue='상권_구분_코드_명', data=restaurant_data)
plt.title('초년 유동인구와 평균매출')
plt.xlabel('초년 유동인구 수')
plt.ylabel('평균매출 (원)')

# 중년 유동인구와 매출
plt.subplot(2, 3, 2)
sns.scatterplot(x='중년_유동인구_수', y='평균매출', hue='상권_구분_코드_명', data=restaurant_data)
plt.title('중년 유동인구와 평균매출')
plt.xlabel('중년 유동인구 수')
plt.ylabel('평균매출 (원)')
plt.legend([])  # 범례 숨김 (공간 확보)

# 노년 유동인구와 매출
plt.subplot(2, 3, 3)
sns.scatterplot(x='노년_유동인구_수', y='평균매출', hue='상권_구분_코드_명', data=restaurant_data)
plt.title('노년 유동인구와 평균매출')
plt.xlabel('노년 유동인구 수')
plt.ylabel('평균매출 (원)')
plt.legend([])  # 범례 숨김 (공간 확보)

# 초년 직장인구와 매출
plt.subplot(2, 3, 4)
sns.scatterplot(x='초년_직장_인구_수', y='평균매출', hue='상권_구분_코드_명', data=restaurant_data)
plt.title('초년 직장인구와 평균매출')
plt.xlabel('초년 직장인구 수')
plt.ylabel('평균매출 (원)')

# 중년 직장인구와 매출
plt.subplot(2, 3, 5)
sns.scatterplot(x='중년_직장_인구_수', y='평균매출', hue='상권_구분_코드_명', data=restaurant_data)
plt.title('중년 직장인구와 평균매출')
plt.xlabel('중년 직장인구 수')
plt.ylabel('평균매출 (원)')
plt.legend([])  # 범례 숨김 (공간 확보)

# 노년 직장인구와 매출
plt.subplot(2, 3, 6)
sns.scatterplot(x='노년_직장_인구_수', y='평균매출', hue='상권_구분_코드_명', data=restaurant_data)
plt.title('노년 직장인구와 평균매출')
plt.xlabel('노년 직장인구 수')
plt.ylabel('평균매출 (원)')
plt.legend(title='상권 유형', bbox_to_anchor=(1.05, 1), loc='upper left')

plt.tight_layout(rect=[0, 0, 1, 0.95])
plt.savefig('plots/연령대별_인구_매출관계.png')
plt.close()

# 2. 연령대별 매출 기여도 분석
# 각 연령대와 매출 간의 상관관계 계산
age_correlations = pd.DataFrame({
    '특성': ['초년_유동인구_수', '중년_유동인구_수', '노년_유동인구_수', 
            '초년_직장_인구_수', '중년_직장_인구_수', '노년_직장_인구_수'],
    '매출과의_상관계수': [
        restaurant_data['초년_유동인구_수'].corr(restaurant_data['평균매출']),
        restaurant_data['중년_유동인구_수'].corr(restaurant_data['평균매출']),
        restaurant_data['노년_유동인구_수'].corr(restaurant_data['평균매출']),
        restaurant_data['초년_직장_인구_수'].corr(restaurant_data['평균매출']),
        restaurant_data['중년_직장_인구_수'].corr(restaurant_data['평균매출']),
        restaurant_data['노년_직장_인구_수'].corr(restaurant_data['평균매출'])
    ]
})
age_correlations = age_correlations.sort_values('매출과의_상관계수', ascending=False)

# 상관계수 시각화
plt.figure(figsize=(10, 6))
sns.barplot(x='매출과의_상관계수', y='특성', data=age_correlations)
plt.title('연령대별 인구특성과 평균매출 간의 상관계수')
plt.xlabel('상관계수')
plt.ylabel('인구 특성')
plt.axvline(x=0, color='black', linestyle='--')
plt.tight_layout()
plt.savefig('plots/연령대별_상관계수.png')
plt.close()

# 분석 인사이트 출력
print("\n연령대별 인구와 매출 관계 인사이트:")
for idx, row in age_correlations.iterrows():
    corr_strength = "강한 양의" if row['매출과의_상관계수'] > 0.5 else \
                   "중간 양의" if row['매출과의_상관계수'] > 0.3 else \
                   "약한 양의" if row['매출과의_상관계수'] > 0 else \
                   "약한 음의" if row['매출과의_상관계수'] > -0.3 else \
                   "중간 음의" if row['매출과의_상관계수'] > -0.5 else "강한 음의"
    print(f"- {row['특성']}는 평균매출과 {corr_strength} 상관관계({row['매출과의_상관계수']:.3f})를 보입니다.")

### 5.4 인구 비율 특성과 매출 관계 분석

여성 비율, 직장-유동 인구 비율 등 비율 특성과 매출의 관계를 분석합니다.

In [None]:
print("인구 비율 특성과 매출 관계 분석 중...")

# 1. 비율 특성과 매출의 관계 시각화
plt.figure(figsize=(15, 6))
plt.suptitle('인구 비율 특성과 평균매출 관계', fontsize=16)

# 여성 비율(유동인구)과 매출
plt.subplot(1, 3, 1)
sns.scatterplot(x='여성_비율_유동인구', y='평균매출', hue='상권_구분_코드_명', data=restaurant_data)
plt.title('여성 비율(유동인구)과 평균매출')
plt.xlabel('여성 비율')
plt.ylabel('평균매출 (원)')

# 여성 비율(직장인구)과 매출
plt.subplot(1, 3, 2)
sns.scatterplot(x='여성_비율_직장인구', y='평균매출', hue='상권_구분_코드_명', data=restaurant_data)
plt.title('여성 비율(직장인구)과 평균매출')
plt.xlabel('여성 비율')
plt.ylabel('평균매출 (원)')
plt.legend([])  # 범례 숨김 (공간 확보)

# 직장-유동 인구 비율과 매출
plt.subplot(1, 3, 3)
sns.scatterplot(x='직장_유동_인구_비율', y='평균매출', hue='상권_구분_코드_명', data=restaurant_data)
plt.title('직장-유동 인구 비율과 평균매출')
plt.xlabel('직장/유동 인구 비율')
plt.ylabel('평균매출 (원)')
plt.legend(title='상권 유형', bbox_to_anchor=(1.05, 1), loc='upper left')

plt.tight_layout(rect=[0, 0, 1, 0.95])
plt.savefig('plots/인구비율_매출관계.png')
plt.close()

# 2. 비율 특성별 상관관계 분석
ratio_correlations = pd.DataFrame({
    '특성': ['여성_비율_유동인구', '여성_비율_직장인구', '직장_유동_인구_비율'],
    '매출과의_상관계수': [
        restaurant_data['여성_비율_유동인구'].corr(restaurant_data['평균매출']),
        restaurant_data['여성_비율_직장인구'].corr(restaurant_data['평균매출']),
        restaurant_data['직장_유동_인구_비율'].corr(restaurant_data['평균매출'])
    ]
})
ratio_correlations = ratio_correlations.sort_values('매출과의_상관계수', ascending=False)

# 상관계수 시각화
plt.figure(figsize=(10, 4))
sns.barplot(x='매출과의_상관계수', y='특성', data=ratio_correlations)
plt.title('인구 비율 특성과 평균매출 간의 상관계수')
plt.xlabel('상관계수')
plt.ylabel('비율 특성')
plt.axvline(x=0, color='black', linestyle='--')
plt.tight_layout()
plt.savefig('plots/비율특성_상관계수.png')
plt.close()

# 분석 인사이트 출력
print("\n인구 비율 특성과 매출 관계 인사이트:")
for idx, row in ratio_correlations.iterrows():
    corr_strength = "강한 양의" if row['매출과의_상관계수'] > 0.5 else \
                   "중간 양의" if row['매출과의_상관계수'] > 0.3 else \
                   "약한 양의" if row['매출과의_상관계수'] > 0 else \
                   "약한 음의" if row['매출과의_상관계수'] > -0.3 else \
                   "중간 음의" if row['매출과의_상관계수'] > -0.5 else "강한 음의"
    print(f"- {row['특성']}는 평균매출과 {corr_strength} 상관관계({row['매출과의_상관계수']:.3f})를 보입니다.")

### 5.5 상관관계 분석 및 특성 선택

모든 특성 간의 상관관계를 분석하고, 이를 바탕으로 중요 특성을 선별합니다.

In [None]:
print("상관관계 분석 및 특성 선택 중...")

# 1. 전체 수치형 변수 간의 상관관계 계산
numeric_data = restaurant_data.select_dtypes(include=[np.number])
correlation_matrix = numeric_data.corr()

# 상관계수 히트맵 시각화
plt.figure(figsize=(16, 14))
mask = np.triu(np.ones_like(correlation_matrix, dtype=bool))
sns.heatmap(correlation_matrix, mask=mask, annot=True, fmt='.2f', cmap='coolwarm',
            linewidths=0.5, cbar_kws={"shrink": .8})
plt.title('특성 간 상관관계 매트릭스')
plt.tight_layout()
plt.savefig('plots/상관관계_매트릭스.png')
plt.close()

# 2. 타겟 변수와의 상관관계 분석
correlation_with_target = correlation_matrix['평균매출'].drop('평균매출').sort_values(ascending=False)
print("\n평균매출과의 상관관계 (내림차순):")
print(correlation_with_target)

# 상관계수 시각화 (타겟 변수와의 관계)
plt.figure(figsize=(12, 8))
sns.barplot(x=correlation_with_target.values, y=correlation_with_target.index)
plt.title('평균매출과 각 특성 간의 상관계수')
plt.xlabel('상관계수')
plt.ylabel('특성')
plt.axvline(x=0, color='black', linestyle='--')
plt.tight_layout()
plt.savefig('plots/타겟변수_상관계수.png')
plt.close()

# 3. 절대값 기준 상관계수 정렬
abs_correlation_with_target = correlation_with_target.abs().sort_values(ascending=False)
print("\n평균매출과의 상관관계 (절대값 기준 내림차순):")
print(abs_correlation_with_target)

# 절대값 기준 상관계수 시각화
plt.figure(figsize=(12, 8))
sns.barplot(x=abs_correlation_with_target.values, y=abs_correlation_with_target.index)
plt.title('평균매출과 각 특성 간의 상관계수 (절대값 기준)')
plt.xlabel('상관계수 절대값')
plt.ylabel('특성')
plt.tight_layout()
plt.savefig('plots/타겟변수_상관계수_절대값.png')
plt.close()

# 4. 다중공선성 확인
high_correlation_pairs = []
for i in range(len(correlation_matrix.columns)):
    for j in range(i+1, len(correlation_matrix.columns)):
        if abs(correlation_matrix.iloc[i, j]) > 0.7:  # 임계값 0.7
            col_i = correlation_matrix.columns[i]
            col_j = correlation_matrix.columns[j]
            high_correlation_pairs.append((col_i, col_j, correlation_matrix.iloc[i, j]))

print("\n강한 상관관계를 가진 특성 쌍 (상관계수 > 0.7):")
for col_i, col_j, corr in high_correlation_pairs:
    print(f"- {col_i} 와 {col_j}: {corr:.3f}")

# 5. 주요 인사이트 출력
top_features = abs_correlation_with_target.head(10).index.tolist()
print("\n상관관계 분석 인사이트:")
print(f"- 타겟 변수(평균매출)와 가장 높은 상관관계를 가진 상위 10개 특성: {', '.join(top_features)}")
print(f"- 평균매출과 가장 높은 양의 상관관계: {correlation_with_target.index[0]} ({correlation_with_target.values[0]:.3f})")
print(f"- 평균매출과 가장 높은 음의 상관관계: {correlation_with_target.index[-1]} ({correlation_with_target.values[-1]:.3f})")
print(f"- 다중공선성 우려가 있는 특성 쌍 수: {len(high_correlation_pairs)}")

# 6. 특성 선택을 위한 상관계수 임계값 설정 및 결과 출력
correlation_threshold = 0.3  # 상관계수 임계값 설정 (조정 가능)
selected_features_by_correlation = abs_correlation_with_target[abs_correlation_with_target > correlation_threshold].index.tolist()

print(f"\n상관계수 절대값 {correlation_threshold} 이상인 특성들:")
for feature in selected_features_by_correlation:
    print(f"- {feature}: {correlation_with_target[feature]:.3f}")

# 상관관계와 다중공선성을 고려한 추천 특성 목록
print("\n상관관계 분석을 바탕으로 한 추천 특성 목록:")
# 높은 상관관계를 가진 쌍에서 타겟과의 상관관계가 더 높은 특성만 선택
recommended_features = set(selected_features_by_correlation)
for col_i, col_j, _ in high_correlation_pairs:
    if col_i in recommended_features and col_j in recommended_features:
        # 둘 다 선택된 경우, 타겟과의 상관관계가 더 낮은 것을 제거
        corr_i = abs_correlation_with_target.get(col_i, 0)
        corr_j = abs_correlation_with_target.get(col_j, 0)
        if corr_i < corr_j:
            recommended_features.remove(col_i)
            print(f"- 다중공선성 우려로 제외: {col_i} (유사 특성: {col_j})")
        else:
            recommended_features.remove(col_j)
            print(f"- 다중공선성 우려로 제외: {col_j} (유사 특성: {col_i})")

recommended_features = list(recommended_features)
print("\n최종 추천 특성 목록:")
for feature in recommended_features:
    print(f"- {feature}: {correlation_with_target[feature]:.3f}")

### 5.6 통합적 데이터 분석 결과 요약

지금까지의 모든 분석 결과를 종합하여 주요 인사이트를 정리합니다.

In [None]:
print("\n데이터 분석 결과 종합적 요약:")

print("\n1. 데이터 기본 특성:")
print(f"- 총 데이터 크기: {len(restaurant_data)} 상권")
print(f"- 상권 유형 분포: {dict(restaurant_data['상권_구분_코드_명'].value_counts())}")
print(f"- 평균매출 범위: {restaurant_data['평균매출'].min():,.0f}원 ~ {restaurant_data['평균매출'].max():,.0f}원")

print("\n2. 상권 유형별 특성:")
for idx, row in commercial_type_stats.iterrows():
    print(f"- {row['상권_구분_코드_명']} 상권 ({row['count']}개): 평균매출 {row['mean']:,.0f}원, 변동계수 {row['변동계수']:.2f}")

print("\n3. 매출과 가장 관련성 높은 특성:")
for idx, feature in enumerate(correlation_with_target.index[:5]):
    print(f"- {feature}: 상관계수 {correlation_with_target[feature]:.3f}")

print("\n4. 인구 특성 관련 인사이트:")
print(f"- 유동인구와 직장인구는 매출과 양의 상관관계를 보이며, 특히 {age_correlations.iloc[0]['특성']}가 가장 높은 상관계수({age_correlations.iloc[0]['매출과의_상관계수']:.3f})를 보임")
print(f"- 인구 비율 특성 중에서는 {ratio_correlations.iloc[0]['특성']}가 매출과 가장 높은 상관관계({ratio_correlations.iloc[0]['매출과의_상관계수']:.3f})를 보임")

print("\n5. 데이터 분석으로부터 도출된 비즈니스 인사이트:")
print("- 상권 유형에 따라 매출 특성이 크게 달라지며, 이는 상권별 맞춤형 전략이 필요함을 시사")
print("- 연령대별로 매출 기여도가 다르므로 타겟 고객층에 맞는 위치 선정이 중요")
print("- 단순 인구수뿐만 아니라 인구 구성 비율도 매출에 중요한 영향을 미침")
print(f"- 추천 특성 목록 기반으로 예측 모델 구축 시 더 좋은 성능을 기대할 수 있음")

## 6. 모델링을 위한 데이터 준비

앞서 진행한 데이터 탐색 분석(EDA) 결과를 바탕으로 모델링에 사용할 최적의 특성을 선택하고 데이터를 준비합니다.

In [None]:
print("모델링을 위한 데이터 준비 중...")
# 앞선 상관관계 분석과 EDA를 바탕으로 특성 선택
categorical_features = ['상권_구분_코드_명']

# 방법 1: 상관계수 기반 특성 선택
print("\n방법 1: 상관계수 기반 특성 선택")
# 상관계수 임계값(0.3) 이상인 특성 선택 
correlation_threshold = 0.3
corr_based_features = [feat for feat in abs_correlation_with_target[abs_correlation_with_target > correlation_threshold].index 
                       if feat in restaurant_data.columns and feat != '평균매출']
print(f"- 상관계수 {correlation_threshold} 이상 선택된 특성 ({len(corr_based_features)}개): {corr_based_features}")

# 방법 2: 다중공선성을 고려한 특성 선택
print("\n방법 2: 다중공선성을 고려한 특성 선택")
multicollinearity_considered_features = list(recommended_features)
print(f"- 다중공선성 고려 후 선택된 특성 ({len(multicollinearity_considered_features)}개): {multicollinearity_considered_features}")

# 방법 3: 도메인 지식 기반 특성 선택
print("\n방법 3: 도메인 지식 기반 특성 선택")
domain_knowledge_features = ['총_유동인구_수', '총_직장_인구_수', '초년_유동인구_수', '중년_유동인구_수', '노년_유동인구_수',
                           '초년_직장_인구_수', '중년_직장_인구_수', '노년_직장_인구_수',
                           '여성_비율_유동인구', '여성_비율_직장인구', '직장_유동_인구_비율']
print(f"- 도메인 지식 기반 선택된 특성 ({len(domain_knowledge_features)}개): {domain_knowledge_features}")

# 최종 특성 선택: 다중공선성을 고려한 특성 선택 방법 사용
numeric_features = multicollinearity_considered_features

print("\n최종 선택된 특성:")
print(f"- 범주형 특성: {categorical_features}")
print(f"- 수치형 특성: {numeric_features}")

# 선택된 특성이 데이터프레임에 있는지 확인
for feat in numeric_features + categorical_features:
    if feat not in restaurant_data.columns:
        print(f"경고: {feat} 컬럼이 데이터에 없습니다.")

# 최종 특성 및 타겟 설정
X = restaurant_data[numeric_features + categorical_features]
y = restaurant_data['평균매출']

# 데이터 분할
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 전처리 파이프라인 구성
preprocessor = ColumnTransformer(
    transformers=[
        ('num', StandardScaler(), numeric_features),
        ('cat', OneHotEncoder(sparse_output=False, handle_unknown='ignore'), categorical_features)
    ])

# 전처리 파이프라인 적용
X_train_preprocessed = preprocessor.fit_transform(X_train)
X_test_preprocessed = preprocessor.transform(X_test)

# 모델에 사용될 특성명 저장 (특성 중요도 시각화 등에 활용)
numeric_features = X_numeric.columns.tolist()
categorical_features = X_categorical.columns.tolist()

# 원-핫 인코딩된 특성 이름 추출
all_feature_names = numeric_features.copy()
processed_numeric_features = numeric_features.copy()

# 원-핫 인코딩된 범주형 변수 이름 추출 (가능한 경우)
if hasattr(preprocessor, 'named_transformers_') and 'cat' in preprocessor.named_transformers_:
    if hasattr(preprocessor.named_transformers_['cat'], 'get_feature_names_out'):
        categorical_features_encoded = preprocessor.named_transformers_['cat'].get_feature_names_out()
        all_feature_names.extend(categorical_features_encoded)
    else:
        # 대체 방법: 원-핫 인코딩된 특성 이름을 추정
        one_hot_suffix = [f"{cat}_{val}" for cat in categorical_features for val in X[cat].unique()]
        all_feature_names.extend(one_hot_suffix)

print(f"모델링에 사용되는 전체 특성 수: {len(all_feature_names)}")
print(f"수치형 특성 수: {len(numeric_features)}")
print(f"범주형 특성 수: {len(categorical_features)}")

## 7. 모델 학습 및 평가

다양한 회귀 모델을 학습하고 여러 평가 지표로 성능을 비교합니다. 또한 교차 검증을 통해 모델의 일반화 성능을 평가합니다.

In [None]:
print("모델 학습 및 평가 중...")
# 모델 정의
models = {
    'Linear Regression': LinearRegression(),
    'Ridge': Ridge(alpha=1.0),
    'Lasso': Lasso(alpha=0.1),
    'Random Forest': RandomForestRegressor(n_estimators=100, random_state=42),
    'Gradient Boosting': GradientBoostingRegressor(n_estimators=100, random_state=42)
}

# 모델 평가 결과 저장
results = []

# 1. 기본 모델 훈련 및 테스트 세트 평가
for name, model in models.items():
    print(f"\n{name} 모델 학습 중...")
    # 모델 학습
    model.fit(X_train_preprocessed, y_train)
    
    # 훈련 세트 예측
    y_train_pred = model.predict(X_train_preprocessed)
    train_rmse = np.sqrt(mean_squared_error(y_train, y_train_pred))
    train_r2 = r2_score(y_train, y_train_pred)
    
    # 테스트 세트 예측
    y_pred = model.predict(X_test_preprocessed)
    test_rmse = np.sqrt(mean_squared_error(y_test, y_pred))
    test_mae = mean_absolute_error(y_test, y_pred)
    test_r2 = r2_score(y_test, y_pred)
    
    # RMSPE (Root Mean Square Percentage Error) 계산
    rmspe = np.sqrt(np.mean(((y_test - y_pred) / y_test) ** 2)) if np.all(y_test != 0) else np.nan
    
    # 결과 저장
    results.append({
        'Model': name,
        'Train RMSE': train_rmse,
        'Test RMSE': test_rmse,
        'Test MAE': test_mae,
        'Train R2': train_r2,
        'Test R2': test_r2,
        'RMSPE': rmspe
    })
    
    print(f"- 훈련 세트: RMSE={train_rmse:.2f}, R2={train_r2:.3f}")
    print(f"- 테스트 세트: RMSE={test_rmse:.2f}, MAE={test_mae:.2f}, R2={test_r2:.3f}, RMSPE={rmspe:.3f}")

# 결과 데이터프레임 생성 및 RMSE 기준 정렬
results_df = pd.DataFrame(results)
results_df = results_df.sort_values('Test RMSE')
print("\n모델 평가 결과 (테스트 RMSE 기준 정렬):")
print(results_df)

# 2. 모델 성능 시각화
plt.figure(figsize=(14, 10))
plt.suptitle('모델 성능 비교', fontsize=16)

# RMSE 비교
plt.subplot(2, 2, 1)
models_list = results_df['Model'].tolist()
test_rmse_list = results_df['Test RMSE'].tolist()
train_rmse_list = results_df['Train RMSE'].tolist()

x = np.arange(len(models_list))
width = 0.35

plt.bar(x - width/2, train_rmse_list, width, label='훈련 RMSE')
plt.bar(x + width/2, test_rmse_list, width, label='테스트 RMSE')
plt.xlabel('모델')
plt.ylabel('RMSE')
plt.title('훈련/테스트 RMSE 비교')
plt.xticks(x, models_list, rotation=45)
plt.legend()

# R2 비교
plt.subplot(2, 2, 2)
test_r2_list = results_df['Test R2'].tolist()
train_r2_list = results_df['Train R2'].tolist()

plt.bar(x - width/2, train_r2_list, width, label='훈련 R2')
plt.bar(x + width/2, test_r2_list, width, label='테스트 R2')
plt.xlabel('모델')
plt.ylabel('R2 Score')
plt.title('훈련/테스트 R2 비교')
plt.xticks(x, models_list, rotation=45)
plt.legend()

# MAE 비교
plt.subplot(2, 2, 3)
test_mae_list = results_df['Test MAE'].tolist()
plt.bar(x, test_mae_list, width)
plt.xlabel('모델')
plt.ylabel('MAE')
plt.title('테스트 MAE 비교')
plt.xticks(x, models_list, rotation=45)

# RMSPE 비교
plt.subplot(2, 2, 4)
rmspe_list = results_df['RMSPE'].tolist()
plt.bar(x, rmspe_list, width)
plt.xlabel('모델')
plt.ylabel('RMSPE')
plt.title('테스트 RMSPE 비교')
plt.xticks(x, models_list, rotation=45)

plt.tight_layout(rect=[0, 0, 1, 0.95])
plt.savefig('plots/모델_성능_비교.png')
plt.close()

# 3. 과적합 분석
overfitting_analysis = results_df.copy()
overfitting_analysis['RMSE_Difference'] = overfitting_analysis['Test RMSE'] - overfitting_analysis['Train RMSE']
overfitting_analysis['R2_Difference'] = overfitting_analysis['Train R2'] - overfitting_analysis['Test R2']
overfitting_analysis = overfitting_analysis.sort_values('RMSE_Difference', ascending=False)

print("\n모델 과적합 분석 (RMSE 차이 기준 정렬):")
print(overfitting_analysis[['Model', 'Train RMSE', 'Test RMSE', 'RMSE_Difference', 'Train R2', 'Test R2', 'R2_Difference']])

# 과적합 시각화
plt.figure(figsize=(12, 6))
plt.subplot(1, 2, 1)
plt.bar(overfitting_analysis['Model'], overfitting_analysis['RMSE_Difference'])
plt.title('테스트-훈련 RMSE 차이 (높을수록 과적합)')
plt.xticks(rotation=45)
plt.ylabel('RMSE 차이')

plt.subplot(1, 2, 2)
plt.bar(overfitting_analysis['Model'], overfitting_analysis['R2_Difference'])
plt.title('훈련-테스트 R2 차이 (높을수록 과적합)')
plt.xticks(rotation=45)
plt.ylabel('R2 차이')

plt.tight_layout()
plt.savefig('plots/모델_과적합_분석.png')
plt.close()

# 4. 분석 인사이트 출력
best_model_name = results_df.iloc[0]['Model']
worst_model_name = results_df.iloc[-1]['Model']
most_overfitting_model = overfitting_analysis.iloc[0]['Model']

print("\n모델 성능 분석 인사이트:")
print(f"- 테스트 RMSE 기준 최고 성능 모델: {best_model_name} (RMSE: {results_df.iloc[0]['Test RMSE']:.2f}, R2: {results_df.iloc[0]['Test R2']:.3f})")
print(f"- 테스트 RMSE 기준 최저 성능 모델: {worst_model_name} (RMSE: {results_df.iloc[-1]['Test RMSE']:.2f}, R2: {results_df.iloc[-1]['Test R2']:.3f})")
print(f"- 가장 과적합이 심한 모델: {most_overfitting_model} (RMSE 차이: {overfitting_analysis.iloc[0]['RMSE_Difference']:.2f}, R2 차이: {overfitting_analysis.iloc[0]['R2_Difference']:.3f})")

# 최적 모델의 성능이 다른 모델에 비해 얼마나 좋은지
best_rmse = results_df.iloc[0]['Test RMSE']
average_rmse = results_df['Test RMSE'].mean()
improvement = ((average_rmse - best_rmse) / average_rmse) * 100
print(f"- 최적 모델({best_model_name})은 평균 대비 {improvement:.1f}% 개선된 RMSE를 보입니다.")

## 8. 최적 모델 선택 및 특성 중요도 분석

다양한 평가 지표를 종합적으로 고려하여 최적의 모델을 선택하고, 선택된 모델에서 각 특성의 중요도를 분석합니다.

In [None]:
print("\n최적 모델 선택 및 평가 중...")
# 성능과 과적합을 종합적으로 고려하여 최적 모델 선택 
# (여기서는 간단히 테스트 RMSE 기준으로 선택하지만, 실제로는 여러 지표를 종합적으로 고려할 수 있음)
best_model_name = results_df.iloc[0]['Model']
best_model = models[best_model_name]
print(f"선택된 최적 모델: {best_model_name}")

# 모델 재학습 (전체 데이터셋 사용)
print("최적 모델 최종 학습 중...")
final_pipeline = Pipeline(steps=[
    ('preprocessor', preprocessor),
    ('model', best_model)
])
final_pipeline.fit(X_train, y_train)  # 전처리 파이프라인과 모델을 함께 학습

# 테스트 세트 최종 예측
y_pred = final_pipeline.predict(X_test)

# 최종 모델 성능 평가
final_rmse = np.sqrt(mean_squared_error(y_test, y_pred))
final_mae = mean_absolute_error(y_test, y_pred)
final_r2 = r2_score(y_test, y_pred)
final_rmspe = np.sqrt(np.mean(((y_test - y_pred) / y_test) ** 2)) if np.all(y_test != 0) else np.nan

print(f"최종 모델 테스트 성능: RMSE={final_rmse:.2f}, MAE={final_mae:.2f}, R2={final_r2:.3f}, RMSPE={final_rmspe:.3f}")

# 특성 중요도 분석 (트리 기반 모델인 경우)
if best_model_name in ['Random Forest', 'Gradient Boosting']:
    print("\n특성 중요도 분석 중...")
    # 특성 중요도 추출
    feature_importances = best_model.feature_importances_
    
    # 특성 이름과 중요도 매핑
    feature_importance_df = pd.DataFrame({
        'Feature': all_feature_names,
        'Importance': feature_importances
    }).sort_values('Importance', ascending=False)
    
    # 특성 중요도 시각화
    plt.figure(figsize=(12, 8))
    sns.barplot(x='Importance', y='Feature', data=feature_importance_df)
    plt.title(f'{best_model_name} 모델의 특성 중요도 (상위 15개)')
    plt.xlabel('중요도')
    plt.ylabel('특성')
    plt.tight_layout()
    plt.savefig('plots/특성_중요도.png')
    plt.close()
    
    print("상위 10개 중요 특성:")
    for idx, row in feature_importance_df.head(10).iterrows():
        print(f"- {row['Feature']}: {row['Importance']:.4f}")
    
    # 특성 중요도와 상관계수 비교 분석
    feature_importance_correlation = []
    for feature in processed_numeric_features:
        if feature in correlation_with_target.index:
            corr = correlation_with_target[feature]
            importance = feature_importance_df[feature_importance_df['Feature'] == feature]['Importance'].values[0] if feature in feature_importance_df['Feature'].values else 0
            feature_importance_correlation.append({
                'Feature': feature,
                'Correlation': corr,
                'Importance': importance
            })
    
    if feature_importance_correlation:  # 리스트가 비어있지 않을 경우
        feature_corr_imp_df = pd.DataFrame(feature_importance_correlation)
        
        # 상관계수와 중요도 비교 산점도
        plt.figure(figsize=(10, 6))
        sns.scatterplot(x='Correlation', y='Importance', data=feature_corr_imp_df)
        
        # 특성 이름 표시
        for idx, row in feature_corr_imp_df.iterrows():
            plt.text(row['Correlation'], row['Importance'], row['Feature'], fontsize=9)
            
        plt.title('특성 중요도와 상관계수 비교')
        plt.xlabel('타겟과의 상관계수')
        plt.ylabel('특성 중요도')
        plt.axhline(y=0, color='r', linestyle='-', alpha=0.3)
        plt.axvline(x=0, color='r', linestyle='-', alpha=0.3)
        plt.grid(True, linestyle='--', alpha=0.7)
        plt.tight_layout()
        plt.savefig('plots/특성_중요도_상관계수_비교.png')
        plt.close()
        
        print("\n특성 중요도와 상관계수 비교 인사이트:")
        for idx, row in feature_corr_imp_df.sort_values('Importance', ascending=False).head(5).iterrows():
            importance_vs_corr = "비슷한" if abs(row['Importance'] - abs(row['Correlation'])) < 0.1 else \
                               "더 높은" if row['Importance'] > abs(row['Correlation']) else "더 낮은"
            print(f"- {row['Feature']}: 중요도({row['Importance']:.3f})는 상관계수({row['Correlation']:.3f})보다 {importance_vs_corr} 값을 보임")

elif best_model_name in ['Linear Regression', 'Ridge', 'Lasso']:
    print("\n선형 모델 계수 분석 중...")
    # 선형 모델의 계수 추출
    model_coefficients = best_model.coef_
    
    # 전처리 파이프라인에서 수치형 변수의 스케일러 가져오기
    scaler = preprocessor.named_transformers_['num']
    
    # 원본 스케일로 계수 복원 (필요한 경우)
    if best_model_name != 'Lasso':  # Lasso는 이미 특성 선택을 내장하고 있음
        # 계수와 특성 이름 매핑
        coefficient_df = pd.DataFrame({
            'Feature': all_feature_names,
            'Coefficient': model_coefficients
        }).sort_values('Coefficient', ascending=False)
        
        # 계수 시각화
        plt.figure(figsize=(12, 8))
        sns.barplot(x='Coefficient', y='Feature', data=coefficient_df)
        plt.title(f'{best_model_name} 모델의 특성 계수')
        plt.xlabel('계수')
        plt.ylabel('특성')
        plt.axvline(x=0, color='r', linestyle='-', alpha=0.3)
        plt.tight_layout()
        plt.savefig('plots/모델_계수.png')
        plt.close()
        
        print("주요 특성 계수:")
        # 절대값 기준 상위 계수
        abs_coefficient_df = coefficient_df.copy()
        abs_coefficient_df['AbsCoefficient'] = abs_coefficient_df['Coefficient'].abs()
        abs_coefficient_df = abs_coefficient_df.sort_values('AbsCoefficient', ascending=False)
        
        for idx, row in abs_coefficient_df.head(10).iterrows():
            effect = "양의" if row['Coefficient'] > 0 else "음의"
            print(f"- {row['Feature']}: {effect} 효과 ({row['Coefficient']:.4f})")

# 모델과 전처리기 함께 저장
print("\n최종 모델 저장 중...")
final_model = {
    'pipeline': final_pipeline,
    'feature_names': all_feature_names,
    'model_name': best_model_name
}
joblib.dump(final_model, f'models/{best_model_name.replace(" ", "_").lower()}_model.pkl')
print(f"모델 저장 완료: models/{best_model_name.replace(' ', '_').lower()}_model.pkl")

## 9. 예측 결과 분석

최적 모델의 예측 결과를 다양한 방법으로 분석하고 시각화하여 모델의 성능과 특성을 이해합니다.

In [None]:
print("\n예측 결과 분석 중...")
# 예측값과 실제값 비교
y_pred = final_pipeline.predict(X_test)
comparison_df = pd.DataFrame({
    '실제_매출': y_test,
    '예측_매출': y_pred,
    '오차': y_test - y_pred,
    '절대_오차': np.abs(y_test - y_pred),
    '상대_오차(%)': np.abs((y_test - y_pred) / y_test) * 100
})

# 상권 유형 정보 추가
comparison_df['상권_구분_코드_명'] = X_test['상권_구분_코드_명'].values

# 1. 예측 vs 실제 산점도
plt.figure(figsize=(10, 6))
sns.scatterplot(x='실제_매출', y='예측_매출', hue='상권_구분_코드_명', data=comparison_df, alpha=0.7)
# 대각선 그리기 (완벽한 예측 라인)
plt.plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], 'r--')
plt.title('실제 매출 vs 예측 매출')
plt.xlabel('실제 매출')
plt.ylabel('예측 매출')
plt.legend(title='상권 유형')
plt.grid(True, linestyle='--', alpha=0.7)
plt.tight_layout()
plt.savefig('plots/실제_예측_비교.png')
plt.close()

# 예측 성능 요약 통계
print("\n예측 성능 요약 통계:")
print(f"- 평균 절대 오차(MAE): {comparison_df['절대_오차'].mean():,.0f}원")
print(f"- 중앙 절대 오차(MedAE): {comparison_df['절대_오차'].median():,.0f}원")
print(f"- 평균 상대 오차(MAPE): {comparison_df['상대_오차(%)'].mean():.2f}%")
print(f"- 최대 절대 오차: {comparison_df['절대_오차'].max():,.0f}원")
print(f"- 최소 절대 오차: {comparison_df['절대_오차'].min():,.0f}원")

# 2. 오차 분포 히스토그램
plt.figure(figsize=(12, 5))
plt.subplot(1, 2, 1)
sns.histplot(comparison_df['오차'], kde=True)
plt.axvline(x=0, color='r', linestyle='--')
plt.title('예측 오차 분포')
plt.xlabel('오차')
plt.ylabel('빈도')

plt.subplot(1, 2, 2)
sns.histplot(comparison_df['상대_오차(%)'], kde=True)
plt.title('상대 오차 분포(%)')
plt.xlabel('상대 오차(%)')
plt.ylabel('빈도')
plt.tight_layout()
plt.savefig('plots/오차_분포.png')
plt.close()

# 3. 잔차 분석
plt.figure(figsize=(15, 10))
plt.suptitle('잔차 분석', fontsize=16)

# 예측값 대비 잔차
plt.subplot(2, 2, 1)
sns.scatterplot(x='예측_매출', y='오차', hue='상권_구분_코드_명', data=comparison_df)
plt.axhline(y=0, color='r', linestyle='--')
plt.title('예측값 대비 잔차')
plt.xlabel('예측 매출')
plt.ylabel('잔차')
plt.legend([])  # 범례 숨김

# 실제값 대비 잔차
plt.subplot(2, 2, 2)
sns.scatterplot(x='실제_매출', y='오차', hue='상권_구분_코드_명', data=comparison_df)
plt.axhline(y=0, color='r', linestyle='--')
plt.title('실제값 대비 잔차')
plt.xlabel('실제 매출')
plt.ylabel('잔차')
plt.legend([])  # 범례 숨김

# 잔차의 Q-Q 플롯
plt.subplot(2, 2, 3)
from scipy import stats
stats.probplot(comparison_df['오차'], dist="norm", plot=plt)
plt.title('잔차의 Q-Q 플롯')

# 상권 유형별 예측 성능
plt.subplot(2, 2, 4)
sns.boxplot(x='상권_구분_코드_명', y='상대_오차(%)', data=comparison_df)
plt.title('상권 유형별 상대 오차')
plt.xlabel('상권 유형')
plt.ylabel('상대 오차(%)')
plt.xticks(rotation=45)
plt.tight_layout()
plt.savefig('plots/잔차_분석.png')
plt.close()

## 10. 새로운 위치 매출 예측 예시

학습된 모델을 사용하여 새로운 상권의 잠재 매출을 예측하는 예시를 보여줍니다.

In [None]:
print("\n새로운 위치 매출 예측 예시:")
# 예시: 테스트 데이터의 첫 번째 행을 사용하여 설명
new_location_example = X_test.iloc[0:1].copy()
print(f"예시 상권: {new_location_example['상권_코드_명'].values[0]}")
print(f"상권 유형: {new_location_example['상권_구분_코드_명'].values[0]}")

# 예시 데이터 출력
sample_features = ['총_유동인구_수', '총_직장_인구_수', '초년_유동인구_수', '중년_유동인구_수', '여성_비율_유동인구']
for feature in sample_features:
    if feature in new_location_example.columns:
        print(f"- {feature}: {new_location_example[feature].values[0]:,.0f}")

# 전처리 및 예측
new_location_preprocessed = preprocessor.transform(new_location_example)
predicted_sales = best_model.predict(new_location_preprocessed)[0]
print(f'예상 월평균 매출: {predicted_sales:,.0f}원')
print(f'실제 월평균 매출: {y_test.iloc[0]:,.0f}원')
print(f'예측 오차: {abs(y_test.iloc[0] - predicted_sales):,.0f}원 ({abs(y_test.iloc[0] - predicted_sales) / y_test.iloc[0] * 100:.2f}%)')

## 11. 결론 및 요약

이 분석을 통해 서울시 요식업 상권의 매출에 영향을 미치는 주요 요인들을 확인하고, 
매출을 예측할 수 있는 머신러닝 모델을 구축했습니다. 이 모델은 창업자나 투자자가 
상권을 선택할 때 유용한 의사결정 도구로 활용할 수 있습니다.

In [None]:
print("\n분석 완료!")

# 오차(잔차) 분포 확인
sns.histplot(residuals, kde=True)
plt.title('모델 오차 분포')
plt.xlabel('잔차')
plt.axvline(x=0, color='r', linestyle='--')
plt.savefig('plots/residual_distribution.png')
plt.close()