In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.preprocessing import StandardScaler

# 데이터 불러오기
data_path = "C:/Users/m/Desktop/머신러닝 사용 데이터/피처엔지니어링한통합데이터/피처엔지니어링일단다한통합데이터.csv"
df = pd.read_csv(data_path)

# 필요한 컬럼 선택
target_columns = [
    "연령대_10_매출_건수", "연령대_20_매출_건수", "연령대_30_매출_건수", "연령대_40_매출_건수", "연령대_50_매출_건수", "연령대_60_이상_매출_건수",
    "연령대_10_매출_건수_비율", "연령대_20_매출_건수_비율", "연령대_30_매출_건수_비율", "연령대_40_매출_건수_비율", "연령대_50_매출_건수_비율", "연령대_60_이상_매출_건수_비율"
]
feature_columns = [
    "총_유동인구_수", "연령대_10_유동인구_수", "연령대_20_유동인구_수", "연령대_30_유동인구_수", "연령대_40_유동인구_수", "연령대_50_유동인구_수", "연령대_60_이상_유동인구_수",
    "연령대_10_유동인구_수_비율", "연령대_20_유동인구_수_비율", "연령대_30_유동인구_수_비율", "연령대_40_유동인구_수_비율", "연령대_50_유동인구_수_비율", "연령대_60_이상_유동인구_수_비율"
]

# 특정 상권코드명과 업종명을 입력받아 해당 데이터 필터링
def get_top3_age_groups(df, 상권명, 업종명):
    selected_df = df[(df["상권_코드_명"] == 상권명) & (df["서비스_업종_코드_명"] == 업종명)]
    행정동_코드 = selected_df["행정동_코드"].unique()
    filtered_df = df[df["행정동_코드"].isin(행정동_코드)]
    
    # 년분기 순서 정렬
    filtered_df = filtered_df.sort_values(by=["기준_년분기_코드"])
    
    # 학습 데이터 분할
    X = filtered_df[feature_columns]
    y = filtered_df[target_columns]
    
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, shuffle=False)
    
    # 데이터 스케일링
    scaler = StandardScaler()
    X_train_scaled = scaler.fit_transform(X_train)
    X_test_scaled = scaler.transform(X_test)
    
    # 모델 학습
    model = RandomForestRegressor(n_estimators=100, random_state=42)
    model.fit(X_train_scaled, y_train)
    
    # 예측
    y_pred = model.predict(X_test_scaled)
    
    # 상위 3개 연령대 선택
    predictions_df = pd.DataFrame(y_pred, columns=target_columns)
    top3_ages = predictions_df.mean().nlargest(3).index.tolist()
    
    return top3_ages

# 예제 실행 (사용자가 원하는 상권명과 업종명 입력)
상권명 = "예제 상권명"
업종명 = "예제 업종명"
상위_3개_연령대 = get_top3_age_groups(df, 상권명, 업종명)
print("상위 3개 연령대:", 상위_3개_연령대)

ValueError: With n_samples=0, test_size=0.2 and train_size=None, the resulting train set will be empty. Adjust any of the aforementioned parameters.

In [2]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.preprocessing import StandardScaler

# 데이터 불러오기
data_path = "C:/Users/m/Desktop/머신러닝 사용 데이터/피처엔지니어링한통합데이터/피처엔지니어링일단다한통합데이터.csv"
df = pd.read_csv(data_path)

# 필요한 컬럼 선택
target_columns = [
    "연령대_10_매출_건수", "연령대_20_매출_건수", "연령대_30_매출_건수", "연령대_40_매출_건수", "연령대_50_매출_건수", "연령대_60_이상_매출_건수",
    "연령대_10_매출_건수_비율", "연령대_20_매출_건수_비율", "연령대_30_매출_건수_비율", "연령대_40_매출_건수_비율", "연령대_50_매출_건수_비율", "연령대_60_이상_매출_건수_비율"
]
feature_columns = [
    "총_유동인구_수", "연령대_10_유동인구_수", "연령대_20_유동인구_수", "연령대_30_유동인구_수", "연령대_40_유동인구_수", "연령대_50_유동인구_수", "연령대_60_이상_유동인구_수",
    "연령대_10_유동인구_수_비율", "연령대_20_유동인구_수_비율", "연령대_30_유동인구_수_비율", "연령대_40_유동인구_수_비율", "연령대_50_유동인구_수_비율", "연령대_60_이상_유동인구_수_비율"
]

# 특정 상권코드명과 업종명을 입력받아 해당 데이터 필터링
def get_top3_age_groups(df, 상권명, 업종명):
    selected_df = df[(df["상권_코드_명"] == 상권명) & (df["서비스_업종_코드_명"] == 업종명)]
    
    if selected_df.empty:
        print(f"상권명 '{상권명}'과 업종명 '{업종명}'에 해당하는 데이터가 없습니다.")
        return None
    
    행정동_코드 = selected_df["행정동_코드"].unique()
    filtered_df = df[df["행정동_코드"].isin(행정동_코드)]
    
    if filtered_df.empty:
        print(f"상권명 '{상권명}'과 업종명 '{업종명}'에 해당하는 행정동 데이터가 없습니다.")
        return None
    
    # 년분기 순서 정렬
    filtered_df = filtered_df.sort_values(by=["기준_년분기_코드"])
    
    # 학습 데이터 분할
    X = filtered_df[feature_columns]
    y = filtered_df[target_columns]
    
    if len(X) == 0 or len(y) == 0:
        print("학습 데이터가 없습니다.")
        return None
    
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, shuffle=False)
    
    # 데이터 스케일링
    scaler = StandardScaler()
    X_train_scaled = scaler.fit_transform(X_train)
    X_test_scaled = scaler.transform(X_test)
    
    # 모델 학습
    model = RandomForestRegressor(n_estimators=100, random_state=42)
    model.fit(X_train_scaled, y_train)
    
    # 예측
    y_pred = model.predict(X_test_scaled)
    
    # 상위 3개 연령대 선택
    predictions_df = pd.DataFrame(y_pred, columns=target_columns)
    top3_ages = predictions_df.mean().nlargest(3).index.tolist()
    
    return top3_ages

# 사용자로부터 상권명과 업종명 입력받기
상권명 = input("상권명을 입력하세요: ")
업종명 = input("업종명을 입력하세요: ")

# 상위 3개 연령대 구하기
상위_3개_연령대 = get_top3_age_groups(df, 상권명, 업종명)

if 상위_3개_연령대 is not None:
    print("상위 3개 연령대:", 상위_3개_연령대)

상위 3개 연령대: ['연령대_20_매출_건수', '연령대_30_매출_건수', '연령대_50_매출_건수']


In [3]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.preprocessing import StandardScaler

# 데이터 불러오기
data_path = "C:/Users/m/Desktop/머신러닝 사용 데이터/피처엔지니어링한통합데이터/피처엔지니어링일단다한통합데이터.csv"
df = pd.read_csv(data_path)

# 필요한 컬럼 선택
target_columns_amount = [
    "연령대_10_매출_금액", "연령대_20_매출_금액", "연령대_30_매출_금액", "연령대_40_매출_금액", "연령대_50_매출_금액", "연령대_60_이상_매출_금액"
]
target_columns_count = [
    "연령대_10_매출_건수", "연령대_20_매출_건수", "연령대_30_매출_건수", "연령대_40_매출_건수", "연령대_50_매출_건수", "연령대_60_이상_매출_건수"
]
feature_columns = [
    "총_유동인구_수", "연령대_10_유동인구_수", "연령대_20_유동인구_수", "연령대_30_유동인구_수", "연령대_40_유동인구_수", "연령대_50_유동인구_수", "연령대_60_이상_유동인구_수",
    "연령대_10_유동인구_수_비율", "연령대_20_유동인구_수_비율", "연령대_30_유동인구_수_비율", "연령대_40_유동인구_수_비율", "연령대_50_유동인구_수_비율", "연령대_60_이상_유동인구_수_비율"
]

# 특정 상권코드명과 업종명을 입력받아 해당 데이터 필터링
def get_top3_age_groups(df, 상권명, 업종명):
    selected_df = df[(df["상권_코드_명"] == 상권명) & (df["서비스_업종_코드_명"] == 업종명)]
    
    if selected_df.empty:
        print(f"상권명 '{상권명}'과 업종명 '{업종명}'에 해당하는 데이터가 없습니다.")
        return None
    
    행정동_코드 = selected_df["행정동_코드"].unique()
    filtered_df = df[df["행정동_코드"].isin(행정동_코드)]
    
    if filtered_df.empty:
        print(f"상권명 '{상권명}'과 업종명 '{업종명}'에 해당하는 행정동 데이터가 없습니다.")
        return None
    
    # 년분기 순서 정렬
    filtered_df = filtered_df.sort_values(by=["기준_년분기_코드"])
    
    # 학습 데이터 분할
    X = filtered_df[feature_columns]
    y_amount = filtered_df[target_columns_amount]  # 매출 금액 타겟
    y_count = filtered_df[target_columns_count]    # 매출 건수 타겟
    
    if len(X) == 0 or len(y_amount) == 0 or len(y_count) == 0:
        print("학습 데이터가 없습니다.")
        return None
    
    X_train, X_test, y_train_amount, y_test_amount, y_train_count, y_test_count = train_test_split(
        X, y_amount, y_count, test_size=0.2, shuffle=False
    )
    
    # 데이터 스케일링
    scaler = StandardScaler()
    X_train_scaled = scaler.fit_transform(X_train)
    X_test_scaled = scaler.transform(X_test)
    
    # 매출 금액 모델 학습
    model_amount = RandomForestRegressor(n_estimators=100, random_state=42)
    model_amount.fit(X_train_scaled, y_train_amount)
    
    # 매출 건수 모델 학습
    model_count = RandomForestRegressor(n_estimators=100, random_state=42)
    model_count.fit(X_train_scaled, y_train_count)
    
    # 매출 금액 예측
    y_pred_amount = model_amount.predict(X_test_scaled)
    predictions_amount_df = pd.DataFrame(y_pred_amount, columns=target_columns_amount)
    top3_ages_amount = predictions_amount_df.mean().nlargest(3).index.tolist()
    
    # 매출 건수 예측
    y_pred_count = model_count.predict(X_test_scaled)
    predictions_count_df = pd.DataFrame(y_pred_count, columns=target_columns_count)
    top3_ages_count = predictions_count_df.mean().nlargest(3).index.tolist()
    
    return top3_ages_amount, top3_ages_count

# 사용자로부터 상권명과 업종명 입력받기
상권명 = input("상권명을 입력하세요: ")
업종명 = input("업종명을 입력하세요: ")

# 상위 3개 연령대 구하기
상위_3개_연령대_금액, 상위_3개_연령대_건수 = get_top3_age_groups(df, 상권명, 업종명)

if 상위_3개_연령대_금액 is not None and 상위_3개_연령대_건수 is not None:
    print("매출 금액 상위 3개 연령대:", 상위_3개_연령대_금액)
    print("매출 건수 상위 3개 연령대:", 상위_3개_연령대_건수)

매출 금액 상위 3개 연령대: ['연령대_50_매출_금액', '연령대_40_매출_금액', '연령대_30_매출_금액']
매출 건수 상위 3개 연령대: ['연령대_20_매출_건수', '연령대_30_매출_건수', '연령대_50_매출_건수']


In [4]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.preprocessing import StandardScaler

# 데이터 불러오기
data_path = "C:/Users/m/Desktop/머신러닝 사용 데이터/피처엔지니어링한통합데이터/피처엔지니어링일단다한통합데이터.csv"
df = pd.read_csv(data_path)

# 필요한 컬럼 선택
target_columns_amount = [
    "연령대_10_매출_금액", "연령대_20_매출_금액", "연령대_30_매출_금액", "연령대_40_매출_금액", "연령대_50_매출_금액", "연령대_60_이상_매출_금액"
]
target_columns_count = [
    "연령대_10_매출_건수", "연령대_20_매출_건수", "연령대_30_매출_건수", "연령대_40_매출_건수", "연령대_50_매출_건수", "연령대_60_이상_매출_건수"
]
feature_columns = [
    "총_유동인구_수", "연령대_10_유동인구_수", "연령대_20_유동인구_수", "연령대_30_유동인구_수", "연령대_40_유동인구_수", "연령대_50_유동인구_수", "연령대_60_이상_유동인구_수",
    "연령대_10_유동인구_수_비율", "연령대_20_유동인구_수_비율", "연령대_30_유동인구_수_비율", "연령대_40_유동인구_수_비율", "연령대_50_유동인구_수_비율", "연령대_60_이상_유동인구_수_비율"
]

# 연령대 문자열을 간단한 형태로 변환하는 함수
def simplify_age_group(age_groups):
    simplified = []
    for age_group in age_groups:
        # "연령대_50_매출_금액" -> "50대"
        age = age_group.split("_")[1]  # "50" 추출
        simplified.append(f"{age}대")
    return simplified

# 특정 상권코드명과 업종명을 입력받아 해당 데이터 필터링
def get_top3_age_groups(df, 상권명, 업종명):
    selected_df = df[(df["상권_코드_명"] == 상권명) & (df["서비스_업종_코드_명"] == 업종명)]
    
    if selected_df.empty:
        print(f"상권명 '{상권명}'과 업종명 '{업종명}'에 해당하는 데이터가 없습니다.")
        return None
    
    행정동_코드 = selected_df["행정동_코드"].unique()
    filtered_df = df[df["행정동_코드"].isin(행정동_코드)]
    
    if filtered_df.empty:
        print(f"상권명 '{상권명}'과 업종명 '{업종명}'에 해당하는 행정동 데이터가 없습니다.")
        return None
    
    # 년분기 순서 정렬
    filtered_df = filtered_df.sort_values(by=["기준_년분기_코드"])
    
    # 학습 데이터 분할
    X = filtered_df[feature_columns]
    y_amount = filtered_df[target_columns_amount]  # 매출 금액 타겟
    y_count = filtered_df[target_columns_count]    # 매출 건수 타겟
    
    if len(X) == 0 or len(y_amount) == 0 or len(y_count) == 0:
        print("학습 데이터가 없습니다.")
        return None
    
    X_train, X_test, y_train_amount, y_test_amount, y_train_count, y_test_count = train_test_split(
        X, y_amount, y_count, test_size=0.2, shuffle=False
    )
    
    # 데이터 스케일링
    scaler = StandardScaler()
    X_train_scaled = scaler.fit_transform(X_train)
    X_test_scaled = scaler.transform(X_test)
    
    # 매출 금액 모델 학습
    model_amount = RandomForestRegressor(n_estimators=100, random_state=42)
    model_amount.fit(X_train_scaled, y_train_amount)
    
    # 매출 건수 모델 학습
    model_count = RandomForestRegressor(n_estimators=100, random_state=42)
    model_count.fit(X_train_scaled, y_train_count)
    
    # 매출 금액 예측
    y_pred_amount = model_amount.predict(X_test_scaled)
    predictions_amount_df = pd.DataFrame(y_pred_amount, columns=target_columns_amount)
    top3_ages_amount = predictions_amount_df.mean().nlargest(3).index.tolist()
    
    # 매출 건수 예측
    y_pred_count = model_count.predict(X_test_scaled)
    predictions_count_df = pd.DataFrame(y_pred_count, columns=target_columns_count)
    top3_ages_count = predictions_count_df.mean().nlargest(3).index.tolist()
    
    # 연령대 문자열 간단하게 변환
    simplified_amount = simplify_age_group(top3_ages_amount)
    simplified_count = simplify_age_group(top3_ages_count)
    
    return simplified_amount, simplified_count

# 사용자로부터 상권명과 업종명 입력받기
상권명 = input("상권명을 입력하세요: ")
업종명 = input("업종명을 입력하세요: ")

# 상위 3개 연령대 구하기
상위_3개_연령대_금액, 상위_3개_연령대_건수 = get_top3_age_groups(df, 상권명, 업종명)

if 상위_3개_연령대_금액 is not None and 상위_3개_연령대_건수 is not None:
    print("매출 금액 상위 3개 연령대:", ", ".join(상위_3개_연령대_금액))
    print("매출 건수 상위 3개 연령대:", ", ".join(상위_3개_연령대_건수))

매출 금액 상위 3개 연령대: 50대, 40대, 30대
매출 건수 상위 3개 연령대: 20대, 30대, 50대


In [5]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.preprocessing import StandardScaler

# 데이터 불러오기
data_path = "C:/Users/m/Desktop/머신러닝 사용 데이터/피처엔지니어링한통합데이터/피처엔지니어링일단다한통합데이터.csv"
df = pd.read_csv(data_path)

# 필요한 컬럼 선택
target_columns_amount = [
    "연령대_10_매출_금액", "연령대_20_매출_금액", "연령대_30_매출_금액", "연령대_40_매출_금액", "연령대_50_매출_금액", "연령대_60_이상_매출_금액"
]
target_columns_count = [
    "연령대_10_매출_건수", "연령대_20_매출_건수", "연령대_30_매출_건수", "연령대_40_매출_건수", "연령대_50_매출_건수", "연령대_60_이상_매출_건수"
]
feature_columns = [
    "총_유동인구_수", "연령대_10_유동인구_수", "연령대_20_유동인구_수", "연령대_30_유동인구_수", "연령대_40_유동인구_수", "연령대_50_유동인구_수", "연령대_60_이상_유동인구_수",
    "연령대_10_유동인구_수_비율", "연령대_20_유동인구_수_비율", "연령대_30_유동인구_수_비율", "연령대_40_유동인구_수_비율", "연령대_50_유동인구_수_비율", "연령대_60_이상_유동인구_수_비율"
]

# 연령대 문자열을 간단한 형태로 변환하는 함수
def simplify_age_group(age_groups):
    simplified = []
    for age_group in age_groups:
        # "연령대_50_매출_금액" -> "50대"
        age = age_group.split("_")[1]  # "50" 추출
        simplified.append(f"{age}대")
    return simplified

# 특정 상권코드명과 업종명을 입력받아 해당 데이터 필터링
def get_top3_age_groups(df, 상권명, 업종명):
    selected_df = df[(df["상권_코드_명"] == 상권명) & (df["서비스_업종_코드_명"] == 업종명)]
    
    if selected_df.empty:
        print(f"상권명 '{상권명}'과 업종명 '{업종명}'에 해당하는 데이터가 없습니다.")
        return None
    
    행정동_코드 = selected_df["행정동_코드"].unique()
    filtered_df = df[df["행정동_코드"].isin(행정동_코드)]
    
    if filtered_df.empty:
        print(f"상권명 '{상권명}'과 업종명 '{업종명}'에 해당하는 행정동 데이터가 없습니다.")
        return None
    
    # 학습 데이터와 검증 데이터 분리
    train_df = filtered_df[filtered_df["기준_년분기_코드"] <= 20234]  # 2023년 4분기까지 학습 데이터
    validation_df = filtered_df[filtered_df["기준_년분기_코드"] >= 20241]  # 2024년부터 검증 데이터
    
    if len(train_df) == 0 or len(validation_df) == 0:
        print("학습 데이터 또는 검증 데이터가 없습니다.")
        return None
    
    # 학습 데이터 준비
    X_train = train_df[feature_columns]
    y_train_amount = train_df[target_columns_amount]  # 매출 금액 타겟
    y_train_count = train_df[target_columns_count]    # 매출 건수 타겟
    
    # 검증 데이터 준비
    X_validation = validation_df[feature_columns]
    y_validation_amount = validation_df[target_columns_amount]  # 매출 금액 타겟
    y_validation_count = validation_df[target_columns_count]    # 매출 건수 타겟
    
    # 데이터 스케일링
    scaler = StandardScaler()
    X_train_scaled = scaler.fit_transform(X_train)
    X_validation_scaled = scaler.transform(X_validation)
    
    # 매출 금액 모델 학습
    model_amount = RandomForestRegressor(n_estimators=100, random_state=42)
    model_amount.fit(X_train_scaled, y_train_amount)
    
    # 매출 건수 모델 학습
    model_count = RandomForestRegressor(n_estimators=100, random_state=42)
    model_count.fit(X_train_scaled, y_train_count)
    
    # 학습 데이터에 대한 예측 (상위 3개 연령대)
    y_pred_train_amount = model_amount.predict(X_train_scaled)
    predictions_train_amount_df = pd.DataFrame(y_pred_train_amount, columns=target_columns_amount)
    top3_ages_train_amount = predictions_train_amount_df.mean().nlargest(3).index.tolist()
    
    y_pred_train_count = model_count.predict(X_train_scaled)
    predictions_train_count_df = pd.DataFrame(y_pred_train_count, columns=target_columns_count)
    top3_ages_train_count = predictions_train_count_df.mean().nlargest(3).index.tolist()
    
    # 검증 데이터에 대한 예측 (상위 3개 연령대)
    y_pred_validation_amount = model_amount.predict(X_validation_scaled)
    predictions_validation_amount_df = pd.DataFrame(y_pred_validation_amount, columns=target_columns_amount)
    top3_ages_validation_amount = predictions_validation_amount_df.mean().nlargest(3).index.tolist()
    
    y_pred_validation_count = model_count.predict(X_validation_scaled)
    predictions_validation_count_df = pd.DataFrame(y_pred_validation_count, columns=target_columns_count)
    top3_ages_validation_count = predictions_validation_count_df.mean().nlargest(3).index.tolist()
    
    # 연령대 문자열 간단하게 변환
    simplified_train_amount = simplify_age_group(top3_ages_train_amount)
    simplified_train_count = simplify_age_group(top3_ages_train_count)
    simplified_validation_amount = simplify_age_group(top3_ages_validation_amount)
    simplified_validation_count = simplify_age_group(top3_ages_validation_count)
    
    return (
        simplified_train_amount, simplified_train_count,
        simplified_validation_amount, simplified_validation_count
    )

# 사용자로부터 상권명과 업종명 입력받기
상권명 = input("상권명을 입력하세요: ")
업종명 = input("업종명을 입력하세요: ")

# 상위 3개 연령대 구하기
(
    상위_3개_연령대_금액_학습, 상위_3개_연령대_건수_학습,
    상위_3개_연령대_금액_검증, 상위_3개_연령대_건수_검증
) = get_top3_age_groups(df, 상권명, 업종명)

if 상위_3개_연령대_금액_학습 is not None:
    print("학습 데이터 매출 금액 상위 3개 연령대:", ", ".join(상위_3개_연령대_금액_학습))
    print("학습 데이터 매출 건수 상위 3개 연령대:", ", ".join(상위_3개_연령대_건수_학습))
    print("검증 데이터 매출 금액 상위 3개 연령대:", ", ".join(상위_3개_연령대_금액_검증))
    print("검증 데이터 매출 건수 상위 3개 연령대:", ", ".join(상위_3개_연령대_건수_검증))

학습 데이터 매출 금액 상위 3개 연령대: 50대, 40대, 30대
학습 데이터 매출 건수 상위 3개 연령대: 20대, 30대, 40대
검증 데이터 매출 금액 상위 3개 연령대: 50대, 40대, 30대
검증 데이터 매출 건수 상위 3개 연령대: 20대, 30대, 50대


In [6]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import mean_squared_error
from sklearn.inspection import permutation_importance

# 데이터 불러오기
data_path = "C:/Users/m/Desktop/머신러닝 사용 데이터/피처엔지니어링한통합데이터/피처엔지니어링일단다한통합데이터.csv"
df = pd.read_csv(data_path)

# 필요한 컬럼 선택
target_columns_amount = [
    "연령대_10_매출_금액", "연령대_20_매출_금액", "연령대_30_매출_금액", "연령대_40_매출_금액", "연령대_50_매출_금액", "연령대_60_이상_매출_금액"
]
target_columns_count = [
    "연령대_10_매출_건수", "연령대_20_매출_건수", "연령대_30_매출_건수", "연령대_40_매출_건수", "연령대_50_매출_건수", "연령대_60_이상_매출_건수"
]
feature_columns = [
    "총_유동인구_수", "연령대_10_유동인구_수", "연령대_20_유동인구_수", "연령대_30_유동인구_수", "연령대_40_유동인구_수", "연령대_50_유동인구_수", "연령대_60_이상_유동인구_수",
    "연령대_10_유동인구_수_비율", "연령대_20_유동인구_수_비율", "연령대_30_유동인구_수_비율", "연령대_40_유동인구_수_비율", "연령대_50_유동인구_수_비율", "연령대_60_이상_유동인구_수_비율"
]

# 연령대 문자열을 간단한 형태로 변환하는 함수
def simplify_age_group(age_groups):
    simplified = []
    for age_group in age_groups:
        # "연령대_50_매출_금액" -> "50대"
        age = age_group.split("_")[1]  # "50" 추출
        simplified.append(f"{age}대")
    return simplified

# 지니 계수 계산 함수
def gini_coefficient(x):
    x = np.sort(x)
    n = len(x)
    cumx = np.cumsum(x)
    return (np.sum(cumx) / cumx[-1] - (n + 1) / 2) / n

# 특정 상권코드명과 업종명을 입력받아 해당 데이터 필터링
def get_top3_age_groups(df, 상권명, 업종명):
    selected_df = df[(df["상권_코드_명"] == 상권명) & (df["서비스_업종_코드_명"] == 업종명)]
    
    if selected_df.empty:
        print(f"상권명 '{상권명}'과 업종명 '{업종명}'에 해당하는 데이터가 없습니다.")
        return None
    
    행정동_코드 = selected_df["행정동_코드"].unique()
    filtered_df = df[df["행정동_코드"].isin(행정동_코드)]
    
    if filtered_df.empty:
        print(f"상권명 '{상권명}'과 업종명 '{업종명}'에 해당하는 행정동 데이터가 없습니다.")
        return None
    
    # 학습 데이터와 검증 데이터 분리
    train_df = filtered_df[filtered_df["기준_년분기_코드"] <= 20234]  # 2023년 4분기까지 학습 데이터
    validation_df = filtered_df[filtered_df["기준_년분기_코드"] >= 20241]  # 2024년부터 검증 데이터
    
    if len(train_df) == 0 or len(validation_df) == 0:
        print("학습 데이터 또는 검증 데이터가 없습니다.")
        return None
    
    # 학습 데이터 준비
    X_train = train_df[feature_columns]
    y_train_amount = train_df[target_columns_amount]  # 매출 금액 타겟
    y_train_count = train_df[target_columns_count]    # 매출 건수 타겟
    
    # 검증 데이터 준비
    X_validation = validation_df[feature_columns]
    y_validation_amount = validation_df[target_columns_amount]  # 매출 금액 타겟
    y_validation_count = validation_df[target_columns_count]    # 매출 건수 타겟
    
    # 데이터 스케일링
    scaler = StandardScaler()
    X_train_scaled = scaler.fit_transform(X_train)
    X_validation_scaled = scaler.transform(X_validation)
    
    # 매출 금액 모델 학습
    model_amount = RandomForestRegressor(n_estimators=100, random_state=42)
    model_amount.fit(X_train_scaled, y_train_amount)
    
    # 매출 건수 모델 학습
    model_count = RandomForestRegressor(n_estimators=100, random_state=42)
    model_count.fit(X_train_scaled, y_train_count)
    
    # 검증 데이터에 대한 예측
    y_pred_validation_amount = model_amount.predict(X_validation_scaled)
    y_pred_validation_count = model_count.predict(X_validation_scaled)
    
    # 검증 데이터에 대한 MSE 계산
    mse_amount = mean_squared_error(y_validation_amount, y_pred_validation_amount)
    mse_count = mean_squared_error(y_validation_count, y_pred_validation_count)
    
    # 검증 데이터에 대한 지니 계수 계산
    gini_amount = gini_coefficient(y_pred_validation_amount.mean(axis=0))
    gini_count = gini_coefficient(y_pred_validation_count.mean(axis=0))
    
    # 2024년 3분기 예측 (가장 최근 데이터를 사용하여 예측)
    latest_data = validation_df[validation_df["기준_년분기_코드"] == 20243][feature_columns]
    if len(latest_data) == 0:
        print("2024년 3분기 데이터가 없습니다.")
        return None
    
    latest_data_scaled = scaler.transform(latest_data)
    y_pred_latest_amount = model_amount.predict(latest_data_scaled)
    y_pred_latest_count = model_count.predict(latest_data_scaled)
    
    # 2024년 3분기 예측 결과에서 상위 3개 연령대 선택
    predictions_latest_amount_df = pd.DataFrame(y_pred_latest_amount, columns=target_columns_amount)
    top3_ages_latest_amount = predictions_latest_amount_df.mean().nlargest(3).index.tolist()
    
    predictions_latest_count_df = pd.DataFrame(y_pred_latest_count, columns=target_columns_count)
    top3_ages_latest_count = predictions_latest_count_df.mean().nlargest(3).index.tolist()
    
    # 연령대 문자열 간단하게 변환
    simplified_latest_amount = simplify_age_group(top3_ages_latest_amount)
    simplified_latest_count = simplify_age_group(top3_ages_latest_count)
    
    return (
        simplified_latest_amount, simplified_latest_count,
        mse_amount, mse_count, gini_amount, gini_count
    )

# 사용자로부터 상권명과 업종명 입력받기
상권명 = input("상권명을 입력하세요: ")
업종명 = input("업종명을 입력하세요: ")

# 상위 3개 연령대 구하기
(
    상위_3개_연령대_금액, 상위_3개_연령대_건수,
    mse_amount, mse_count, gini_amount, gini_count
) = get_top3_age_groups(df, 상권명, 업종명)

if 상위_3개_연령대_금액 is not None:
    print("2024년 3분기 예측 매출 금액 상위 3개 연령대:", ", ".join(상위_3개_연령대_금액))
    print("2024년 3분기 예측 매출 건수 상위 3개 연령대:", ", ".join(상위_3개_연령대_건수))
    print("검증 데이터 매출 금액 MSE:", mse_amount)
    print("검증 데이터 매출 건수 MSE:", mse_count)
    print("검증 데이터 매출 금액 지니 계수:", gini_amount)
    print("검증 데이터 매출 건수 지니 계수:", gini_count)

2024년 3분기 데이터가 없습니다.


TypeError: cannot unpack non-iterable NoneType object

In [9]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.preprocessing import StandardScaler

# 데이터 불러오기
data_path = "C:/Users/m/Desktop/머신러닝 사용 데이터/피처엔지니어링한통합데이터/피처엔지니어링일단다한통합데이터.csv"
df = pd.read_csv(data_path)

# 필요한 컬럼 선택
target_columns = [
    "연령대_10_매출_건수", "연령대_20_매출_건수", "연령대_30_매출_건수", "연령대_40_매출_건수", "연령대_50_매출_건수", "연령대_60_이상_매출_건수",
    "연령대_10_매출_건수_비율", "연령대_20_매출_건수_비율", "연령대_30_매출_건수_비율", "연령대_40_매출_건수_비율", "연령대_50_매출_건수_비율", "연령대_60_이상_매출_건수_비율"
]
feature_columns = [
    "총_유동인구_수", "연령대_10_유동인구_수", "연령대_20_유동인구_수", "연령대_30_유동인구_수", "연령대_40_유동인구_수", "연령대_50_유동인구_수", "연령대_60_이상_유동인구_수",
    "연령대_10_유동인구_수_비율", "연령대_20_유동인구_수_비율", "연령대_30_유동인구_수_비율", "연령대_40_유동인구_수_비율", "연령대_50_유동인구_수_비율", "연령대_60_이상_유동인구_수_비율"
]

# 특정 상권코드명과 업종명을 입력받아 해당 데이터 필터링
def get_top3_age_groups(df, 상권명, 업종명):
    selected_df = df[(df["상권_코드_명"] == 상권명) & (df["서비스_업종_코드_명"] == 업종명)]
    
    if selected_df.empty:
        print(f"조건에 맞는 데이터가 없습니다: 상권명={상권명}, 업종명={업종명}")
        return []
    
    행정동_코드 = selected_df["행정동_코드"].unique()
    filtered_df = df[df["행정동_코드"].isin(행정동_코드)]
    
    if filtered_df.empty:
        print("행정동 코드에 맞는 데이터가 없습니다.")
        return []
    
    filtered_df = filtered_df.sort_values(by=["기준_년분기_코드"])
    
    # 학습 데이터 분할
    X = filtered_df[feature_columns]
    y = filtered_df[target_columns]
    
    if X.empty or y.empty:
        print("학습 데이터가 부족합니다.")
        return []
    
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, shuffle=False)
    
    # 데이터 스케일링
    scaler = StandardScaler()
    X_train_scaled = scaler.fit_transform(X_train)
    X_test_scaled = scaler.transform(X_test)
    
    # 모델 학습
    model = RandomForestRegressor(n_estimators=100, random_state=42)
    model.fit(X_train_scaled, y_train)
    
    # 예측
    y_pred = model.predict(X_test_scaled)
    
    # 상위 3개 연령대 선택
    predictions_df = pd.DataFrame(y_pred, columns=target_columns)
    top3_ages = predictions_df.mean().nlargest(3).index.tolist()
    
    return top3_ages

# 예제 실행 (사용자가 원하는 상권명과 업종명 입력)
상권명 = "예제 상권명"
업종명 = "예제 업종명"
상위_3개_연령대 = get_top3_age_groups(df, 상권명, 업종명)
print("상위 3개 연령대:", 상위_3개_연령대)

조건에 맞는 데이터가 없습니다: 상권명=예제 상권명, 업종명=예제 업종명
상위 3개 연령대: []


In [10]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.preprocessing import StandardScaler

# 데이터 불러오기
data_path = "C:/Users/m/Desktop/머신러닝 사용 데이터/피처엔지니어링한통합데이터/피처엔지니어링일단다한통합데이터.csv"
df = pd.read_csv(data_path)

# 필요한 컬럼 선택
target_amount_columns = [
    "연령대_10_매출_금액", "연령대_20_매출_금액", "연령대_30_매출_금액", "연령대_40_매출_금액", "연령대_50_매출_금액", "연령대_60_이상_매출_금액"
]
target_count_columns = [
    "연령대_10_매출_건수", "연령대_20_매출_건수", "연령대_30_매출_건수", "연령대_40_매출_건수", "연령대_50_매출_건수", "연령대_60_이상_매출_건수"
]
feature_columns = [
    "총_유동인구_수", "연령대_10_유동인구_수", "연령대_20_유동인구_수", "연령대_30_유동인구_수", "연령대_40_유동인구_수", "연령대_50_유동인구_수", "연령대_60_이상_유동인구_수"
]

# 특정 상권코드명과 업종명을 입력받아 해당 데이터 필터링
def get_top3_age_groups(df):
    상권명 = input("상권명을 입력하세요: ")
    업종명 = input("업종명을 입력하세요: ")

    selected_df = df[(df["상권_코드_명"] == 상권명) & (df["서비스_업종_코드_명"] == 업종명)]
    
    if selected_df.empty:
        print(f"조건에 맞는 데이터가 없습니다: 상권명={상권명}, 업종명={업종명}")
        return [], []

    행정동_코드 = selected_df["행정동_코드"].unique()
    filtered_df = df[df["행정동_코드"].isin(행정동_코드)]
    
    if filtered_df.empty:
        print("행정동 코드에 맞는 데이터가 없습니다.")
        return [], []

    filtered_df = filtered_df.sort_values(by=["기준_년분기_코드"])

    # 학습 데이터 분할
    X = filtered_df[feature_columns]
    y_amount = filtered_df[target_amount_columns]
    y_count = filtered_df[target_count_columns]

    if X.empty or y_amount.empty or y_count.empty:
        print("학습 데이터가 부족합니다.")
        return [], []

    X_train, X_test, y_amount_train, y_amount_test = train_test_split(X, y_amount, test_size=0.2, shuffle=False)
    _, _, y_count_train, y_count_test = train_test_split(X, y_count, test_size=0.2, shuffle=False)

    # 데이터 스케일링
    scaler = StandardScaler()
    X_train_scaled = scaler.fit_transform(X_train)
    X_test_scaled = scaler.transform(X_test)

    # 모델 학습
    model_amount = RandomForestRegressor(n_estimators=100, random_state=42)
    model_count = RandomForestRegressor(n_estimators=100, random_state=42)

    model_amount.fit(X_train_scaled, y_amount_train)
    model_count.fit(X_train_scaled, y_count_train)

    # 예측
    y_amount_pred = model_amount.predict(X_test_scaled)
    y_count_pred = model_count.predict(X_test_scaled)

    # 상위 3개 연령대 선택
    predictions_amount_df = pd.DataFrame(y_amount_pred, columns=target_amount_columns)
    predictions_count_df = pd.DataFrame(y_count_pred, columns=target_count_columns)

    top3_amount_ages = predictions_amount_df.mean().nlargest(3).index.tolist()
    top3_count_ages = predictions_count_df.mean().nlargest(3).index.tolist()

    return top3_amount_ages, top3_count_ages

# 실행
top3_amount, top3_count = get_top3_age_groups(df)
print("상위 3개 연령대 (매출 금액):", top3_amount)
print("상위 3개 연령대 (매출 건수):", top3_count)

상위 3개 연령대 (매출 금액): ['연령대_40_매출_금액', '연령대_50_매출_금액', '연령대_20_매출_금액']
상위 3개 연령대 (매출 건수): ['연령대_20_매출_건수', '연령대_30_매출_건수', '연령대_40_매출_건수']


In [12]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import mean_absolute_error

# 데이터 불러오기
data_path = "C:/Users/m/Desktop/머신러닝 사용 데이터/피처엔지니어링한통합데이터/피처엔지니어링일단다한통합데이터.csv"
df = pd.read_csv(data_path)

# 필요한 컬럼 설정
target_amount_columns = [
    "연령대_10_매출_금액", "연령대_20_매출_금액", "연령대_30_매출_금액", "연령대_40_매출_금액", "연령대_50_매출_금액", "연령대_60_이상_매출_금액"
]
target_count_columns = [
    "연령대_10_매출_건수", "연령대_20_매출_건수", "연령대_30_매출_건수", "연령대_40_매출_건수", "연령대_50_매출_건수", "연령대_60_이상_매출_건수"
]
feature_columns = [
    "총_유동인구_수", "연령대_10_유동인구_수", "연령대_20_유동인구_수", "연령대_30_유동인구_수", 
    "연령대_40_유동인구_수", "연령대_50_유동인구_수", "연령대_60_이상_유동인구_수"
]

age_mapping = {
    "연령대_10": "10대", "연령대_20": "20대", "연령대_30": "30대",
    "연령대_40": "40대", "연령대_50": "50대", "연령대_60_이상": "60대 이상"
}

def format_age_columns(columns):
    """연령대 컬럼명을 읽기 쉽게 변환"""
    return [age_mapping[col.split('_')[1]] for col in columns]

def get_top3_age_groups(df):
    상권명 = input("상권명을 입력하세요: ")
    업종명 = input("업종명을 입력하세요: ")

    selected_df = df[(df["상권_코드_명"] == 상권명) & (df["서비스_업종_코드_명"] == 업종명)]
    
    if selected_df.empty:
        print(f"조건에 맞는 데이터가 없습니다: 상권명={상권명}, 업종명={업종명}")
        return [], []

    # 학습 및 검증 데이터 구분 (2023년 4분기까지 학습, 2024년 검증)
    train_data = selected_df[selected_df["기준_년분기_코드"] <= 20230401]
    test_data = selected_df[selected_df["기준_년분기_코드"] > 20230401]

    if train_data.empty or test_data.empty:
        print("데이터가 충분하지 않습니다.")
        return [], []

    # 데이터 분리
    X_train = train_data[feature_columns]
    y_train_amount = train_data[target_amount_columns]
    y_train_count = train_data[target_count_columns]

    X_test = test_data[feature_columns]
    y_test_amount = test_data[target_amount_columns]
    y_test_count = test_data[target_count_columns]

    # 데이터 스케일링
    scaler = StandardScaler()
    X_train_scaled = scaler.fit_transform(X_train)
    X_test_scaled = scaler.transform(X_test)

    # 모델 학습
    model_amount = RandomForestRegressor(n_estimators=100, random_state=42)
    model_count = RandomForestRegressor(n_estimators=100, random_state=42)

    model_amount.fit(X_train_scaled, y_train_amount)
    model_count.fit(X_train_scaled, y_train_count)

    # 예측
    y_amount_pred = model_amount.predict(X_test_scaled)
    y_count_pred = model_count.predict(X_test_scaled)

    # 검증 결과 출력
    mae_amount = mean_absolute_error(y_test_amount, y_amount_pred)
    mae_count = mean_absolute_error(y_test_count, y_count_pred)

    print("\n[검증 결과]")
    print(f"매출 금액 예측 MAE: {mae_amount:.2f}")
    print(f"매출 건수 예측 MAE: {mae_count:.2f}")

    # 상위 3개 연령대 선택
    predictions_amount_df = pd.DataFrame(y_amount_pred, columns=target_amount_columns)
    predictions_count_df = pd.DataFrame(y_count_pred, columns=target_count_columns)

    top3_amount_ages = predictions_amount_df.mean().nlargest(3).index.tolist()
    top3_count_ages = predictions_count_df.mean().nlargest(3).index.tolist()

    # 연령대 이름 변환
    top3_amount_ages = format_age_columns(top3_amount_ages)
    top3_count_ages = format_age_columns(top3_count_ages)

    return top3_amount_ages, top3_count_ages

# 실행
top3_amount, top3_count = get_top3_age_groups(df)
print("\n[예측 결과 - 2024년 3분기 상위 연령대]")
print("상위 3개 연령대 (매출 금액):", top3_amount)
print("상위 3개 연령대 (매출 건수):", top3_count)

데이터가 충분하지 않습니다.

[예측 결과 - 2024년 3분기 상위 연령대]
상위 3개 연령대 (매출 금액): []
상위 3개 연령대 (매출 건수): []


In [18]:
import pandas as pd
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_absolute_error
from sklearn.preprocessing import StandardScaler

# 데이터 로드
df = pd.read_csv(r"C:\Users\m\Desktop\머신러닝 사용 데이터\피처엔지니어링한통합데이터\피처엔지니어링일단다한통합데이터.csv")

# 피처 및 타겟 컬럼 설정
feature_columns = ["평균_기온", "강수량", "유동인구"]
target_amount_columns = ["10대_매출_금액", "20대_매출_금액", "30대_매출_금액", "40대_매출_금액", "50대_매출_금액"]
target_count_columns = ["10대_매출_건수", "20대_매출_건수", "30대_매출_건수", "40대_매출_건수", "50대_매출_건수"]

# 연령대 포맷 함수
def format_age_columns(age_columns):
    return [age_col.split("_")[0] for age_col in age_columns]

# 기준 년분기 변환 함수
def convert_quarter_code(code):
    code_str = str(code)
    return f"{code_str[:4]}Q{int(code_str[4])}"

df["기준_년분기_코드"] = df["기준_년분기_코드"].astype(str).apply(convert_quarter_code)

def get_top3_age_groups_fixed(df):
    상권명 = input("상권명을 입력하세요: ")
    업종명 = input("업종명을 입력하세요: ")

    # 데이터 필터링
    selected_df = df[(df["상권_코드_명"] == 상권명) & (df["서비스_업종_코드_명"] == 업종명)]

    if selected_df.empty:
        print(f"조건에 맞는 데이터가 없습니다: 상권명={상권명}, 업종명={업종명}")
        return [], []

    # 기준 년분기 변환 및 데이터 분할
    train_df = selected_df[selected_df["기준_년분기_코드"] <= "2023Q4"]
    test_df = selected_df[selected_df["기준_년분기_코드"] == "2024Q1"]

    if train_df.empty or test_df.empty:
        print("데이터가 충분하지 않습니다.")
        return [], []

    # 학습 및 검증 데이터 구성
    X_train = train_df[feature_columns]
    X_test = test_df[feature_columns]
    y_train_amount = train_df[target_amount_columns]
    y_train_count = train_df[target_count_columns]
    
    scaler = StandardScaler()
    X_train_scaled = scaler.fit_transform(X_train)
    X_test_scaled = scaler.transform(X_test)

    # 모델 학습
    model_amount = RandomForestRegressor(n_estimators=100, random_state=42)
    model_count = RandomForestRegressor(n_estimators=100, random_state=42)

    model_amount.fit(X_train_scaled, y_train_amount)
    model_count.fit(X_train_scaled, y_train_count)

    # 예측
    y_amount_pred = model_amount.predict(X_test_scaled)
    y_count_pred = model_count.predict(X_test_scaled)

    # 검증 결과 출력
    mae_amount = mean_absolute_error(y_train_amount.mean(), y_amount_pred.mean())
    mae_count = mean_absolute_error(y_train_count.mean(), y_count_pred.mean())

    print("\n[검증 결과]")
    print(f"매출 금액 예측 MAE: {mae_amount:.2f}")
    print(f"매출 건수 예측 MAE: {mae_count:.2f}")

    # 상위 3개 연령대 선택
    predictions_amount_df = pd.DataFrame(y_amount_pred, columns=target_amount_columns)
    predictions_count_df = pd.DataFrame(y_count_pred, columns=target_count_columns)

    top3_amount_ages = predictions_amount_df.mean().nlargest(3).index.tolist()
    top3_count_ages = predictions_count_df.mean().nlargest(3).index.tolist()

    # 연령대 이름 변환
    top3_amount_ages = format_age_columns(top3_amount_ages)
    top3_count_ages = format_age_columns(top3_count_ages)

    return top3_amount_ages, top3_count_ages

# 실행
top3_amount, top3_count = get_top3_age_groups_fixed(df)
print("\n[예측 결과 - 상위 연령대]")
print("상위 3개 연령대 (매출 금액):", top3_amount)
print("상위 3개 연령대 (매출 건수):", top3_count)

KeyError: "None of [Index(['평균_기온', '강수량', '유동인구'], dtype='object')] are in the [columns]"

In [3]:
import pandas as pd

# 데이터 로드
df = pd.read_csv(r"C:\Users\m\Desktop\머신러닝 사용 데이터\피처엔지니어링한통합데이터\피처엔지니어링일단다한통합데이터.csv")

# 🔍 현재 데이터셋의 컬럼 출력
print("📌 데이터셋 컬럼 목록:", df.columns.tolist())

# 사용할 컬럼 리스트 (첫 번째 대화 기준)
selected_columns = [
    "기준_년분기_코드", "상권_코드_명", "서비스_업종_코드_명", "행정동",
    "10대_매출_금액", "20대_매출_금액", "30대_매출_금액", "40대_매출_금액", "50대_매출_금액",
    "10대_매출_건수", "20대_매출_건수", "30대_매출_건수", "40대_매출_건수", "50대_매출_건수",
    "10대_유동인구", "20대_유동인구", "30대_유동인구", "40대_유동인구", "50대_유동인구",
    "10대_매출_금액_비율", "20대_매출_금액_비율", "30대_매출_금액_비율", "40대_매출_금액_비율", "50대_매출_금액_비율",
    "10대_매출_건수_비율", "20대_매출_건수_비율", "30대_매출_건수_비율", "40대_매출_건수_비율", "50대_매출_건수_비율",
    "10대_유동인구_비율", "20대_유동인구_비율", "30대_유동인구_비율", "40대_유동인구_비율", "50대_유동인구_비율"
]

# ✅ 데이터셋에 존재하는 컬럼만 선택
selected_columns = [col for col in selected_columns if col in df.columns]
df = df[selected_columns]

# 🔎 최종 선택된 컬럼 확인
print("✅ 사용 가능한 컬럼 목록:", df.columns.tolist())

📌 데이터셋 컬럼 목록: ['기준_년분기_코드', '상권_구분_코드', '상권_구분_코드_명', '상권_코드', '상권_코드_명', '서비스_업종_코드', '서비스_업종_코드_명', '당월_매출_금액', '당월_매출_건수', '주중_매출_금액', '주말_매출_금액', '월요일_매출_금액', '화요일_매출_금액', '수요일_매출_금액', '목요일_매출_금액', '금요일_매출_금액', '토요일_매출_금액', '일요일_매출_금액', '시간대_00~06_매출_금액', '시간대_06~11_매출_금액', '시간대_11~14_매출_금액', '시간대_14~17_매출_금액', '시간대_17~21_매출_금액', '시간대_21~24_매출_금액', '남성_매출_금액', '여성_매출_금액', '연령대_10_매출_금액', '연령대_20_매출_금액', '연령대_30_매출_금액', '연령대_40_매출_금액', '연령대_50_매출_금액', '연령대_60_이상_매출_금액', '주중_매출_건수', '주말_매출_건수', '월요일_매출_건수', '화요일_매출_건수', '수요일_매출_건수', '목요일_매출_건수', '금요일_매출_건수', '토요일_매출_건수', '일요일_매출_건수', '시간대_00~06_매출_건수', '시간대_06~11_매출_건수', '시간대_11~14_매출_건수', '시간대_14~17_매출_건수', '시간대_17~21_매출_건수', '시간대_21~24_매출_건수', '남성_매출_건수', '여성_매출_건수', '연령대_10_매출_건수', '연령대_20_매출_건수', '연령대_30_매출_건수', '연령대_40_매출_건수', '연령대_50_매출_건수', '연령대_60_이상_매출_건수', '총_유동인구_수', '남성_유동인구_수', '여성_유동인구_수', '연령대_10_유동인구_수', '연령대_20_유동인구_수', '연령대_30_유동인구_수', '연령대_40_유동인구_수', '연령대_50_유동인구_수', '연령대_60_이상_유동인구_수', '시간대_00_06_유동인구_수', '시간대_06

최종 완성 코드 (택1)

In [7]:
import pandas as pd
import numpy as np
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_absolute_error
from sklearn.model_selection import train_test_split

# 데이터 불러오기
df = pd.read_csv("C:/Users/m/Desktop/머신러닝 사용 데이터/피처엔지니어링한통합데이터/피처엔지니어링일단다한통합데이터.csv")

def predict_sales(top_quarter=20243):
    # 사용자 입력
    target_market = input("상권명을 입력하세요: ")
    target_category = input("업종명을 입력하세요: ")
    
    # 해당 상권과 업종에 해당하는 행정동 찾기
    target_region = df[(df['상권_코드_명'] == target_market) & (df['서비스_업종_코드_명'] == target_category)]['행정동_코드_명'].unique()
    
    if len(target_region) == 0:
        print("해당 조건에 맞는 데이터가 없습니다.")
        return
    
    target_region = target_region[0]
    print(f"선택된 행정동: {target_region}")
    
    # 해당 행정동의 데이터 필터링
    region_data = df[df['행정동_코드_명'] == target_region]
    
    # 시계열 정렬
    region_data = region_data.sort_values(by=['기준_년분기_코드'])
    
    # 사용 변수 선정
    feature_cols = [
        '연령대_10_매출_금액', '연령대_20_매출_금액', '연령대_30_매출_금액', '연령대_40_매출_금액', '연령대_50_매출_금액', '연령대_60_이상_매출_금액',
        '연령대_10_매출_건수', '연령대_20_매출_건수', '연령대_30_매출_건수', '연령대_40_매출_건수', '연령대_50_매출_건수', '연령대_60_이상_매출_건수',
        '연령대_10_유동인구_수', '연령대_20_유동인구_수', '연령대_30_유동인구_수', '연령대_40_유동인구_수', '연령대_50_유동인구_수', '연령대_60_이상_유동인구_수'
    ]
    
    # X, y 정의 (독립변수, 종속변수)
    X = region_data[feature_cols]
    y_sales = region_data[['연령대_10_매출_금액', '연령대_20_매출_금액', '연령대_30_매출_금액', '연령대_40_매출_금액', '연령대_50_매출_금액', '연령대_60_이상_매출_금액']]
    y_count = region_data[['연령대_10_매출_건수', '연령대_20_매출_건수', '연령대_30_매출_건수', '연령대_40_매출_건수', '연령대_50_매출_건수', '연령대_60_이상_매출_건수']]
    
    # 훈련/검증 데이터 분리 (2023년까지 학습, 2024년 검증)
    X_train = X[region_data['기준_년분기_코드'] < 20241]
    X_test = X[(region_data['기준_년분기_코드'] >= 20241) & (region_data['기준_년분기_코드'] < top_quarter)]
    y_train_sales = y_sales[region_data['기준_년분기_코드'] < 20241]
    y_test_sales = y_sales[(region_data['기준_년분기_코드'] >= 20241) & (region_data['기준_년분기_코드'] < top_quarter)]
    y_train_count = y_count[region_data['기준_년분기_코드'] < 20241]
    y_test_count = y_count[(region_data['기준_년분기_코드'] >= 20241) & (region_data['기준_년분기_코드'] < top_quarter)]
    
    # 모델 학습
    model_sales = RandomForestRegressor(n_estimators=100, random_state=42)
    model_sales.fit(X_train, y_train_sales)
    model_count = RandomForestRegressor(n_estimators=100, random_state=42)
    model_count.fit(X_train, y_train_count)
    
    # 모델 검증
    y_pred_sales = model_sales.predict(X_test)
    y_pred_count = model_count.predict(X_test)
    
    mae_sales = mean_absolute_error(y_test_sales, y_pred_sales)
    mae_count = mean_absolute_error(y_test_count, y_pred_count)
    
    print(f"매출 금액 예측 모델 MAE: {mae_sales:.2f}")
    print(f"매출 건수 예측 모델 MAE: {mae_count:.2f}")
    
    # 2024년 3분기 예측 (마지막 데이터 기반)
    X_future = X[region_data['기준_년분기_코드'] == region_data['기준_년분기_코드'].max()]
    future_sales = model_sales.predict(X_future)[0]
    future_count = model_count.predict(X_future)[0]
    
    # 상위 3개 연령대 선정
    sales_top3 = np.argsort(future_sales)[-3:][::-1]
    count_top3 = np.argsort(future_count)[-3:][::-1]
    age_groups = ['10대', '20대', '30대', '40대', '50대', '60대 이상']
    
    print(f"2024년 3분기 예상 매출 금액 상위 3개 연령대: {', '.join([age_groups[i] for i in sales_top3])}")
    print(f"2024년 3분기 예상 매출 건수 상위 3개 연령대: {', '.join([age_groups[i] for i in count_top3])}")

# 실행
predict_sales()

선택된 행정동: 서교동
매출 금액 예측 모델 MAE: 939201.36
매출 건수 예측 모델 MAE: 35.40
2024년 3분기 예상 매출 금액 상위 3개 연령대: 30대, 20대, 40대
2024년 3분기 예상 매출 건수 상위 3개 연령대: 20대, 30대, 40대


In [6]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score

# 데이터 로드
data = pd.read_csv("C:/Users/m/Desktop/머신러닝 사용 데이터/피처엔지니어링한통합데이터/피처엔지니어링일단다한통합데이터.csv")

# 사용자 입력: 상권명과 업종명    
selected_district = input("상권명을 입력하세요: ")
selected_industry = input("업종명을 입력하세요: ")

# 해당 상권과 업종에 해당하는 행정동 찾기
selected_row = data[(data['상권_코드_명'] == selected_district) & (data['서비스_업종_코드_명'] == selected_industry)]
if selected_row.empty:
    raise ValueError("입력한 상권명과 업종명에 해당하는 데이터가 없습니다.")
selected_admin_district = selected_row.iloc[0]['행정동_코드_명']

# 해당 행정동의 데이터만 필터링
district_data = data[data['행정동_코드_명'] == selected_admin_district]

# 시계열 정렬
district_data = district_data.sort_values(by=['기준_년분기_코드'])

# 학습에 사용할 피처 선정
features = [
    '연령대_10_매출_금액', '연령대_20_매출_금액', '연령대_30_매출_금액', '연령대_40_매출_금액',
    '연령대_50_매출_금액', '연령대_60_이상_매출_금액', '연령대_10_매출_건수', '연령대_20_매출_건수',
    '연령대_30_매출_건수', '연령대_40_매출_건수', '연령대_50_매출_건수', '연령대_60_이상_매출_건수',
    '연령대_10_유동인구_수', '연령대_20_유동인구_수', '연령대_30_유동인구_수', '연령대_40_유동인구_수', '연령대_50_유동인구_수', '연령대_60_이상_유동인구_수'
]

# 학습 데이터와 검증 데이터 분리
train_data = district_data[district_data['기준_년분기_코드'] <= 20234]
test_data = district_data[district_data['기준_년분기_코드'] > 20234]

X_train = train_data[features]
y_train_sales = train_data[['연령대_10_매출_금액', '연령대_20_매출_금액', '연령대_30_매출_금액', '연령대_40_매출_금액', '연령대_50_매출_금액', '연령대_60_이상_매출_금액']]
y_train_count = train_data[['연령대_10_매출_건수', '연령대_20_매출_건수', '연령대_30_매출_건수', '연령대_40_매출_건수', '연령대_50_매출_건수', '연령대_60_이상_매출_건수']]

X_test = test_data[features]
y_test_sales = test_data[['연령대_10_매출_금액', '연령대_20_매출_금액', '연령대_30_매출_금액', '연령대_40_매출_금액', '연령대_50_매출_금액', '연령대_60_이상_매출_금액']]
y_test_count = test_data[['연령대_10_매출_건수', '연령대_20_매출_건수', '연령대_30_매출_건수', '연령대_40_매출_건수', '연령대_50_매출_건수', '연령대_60_이상_매출_건수']]

# 모델 학습
model_sales = RandomForestRegressor(n_estimators=100, random_state=42)
model_sales.fit(X_train, y_train_sales)

model_count = RandomForestRegressor(n_estimators=100, random_state=42)
model_count.fit(X_train, y_train_count)

# 예측 수행
pred_sales = model_sales.predict(X_test)
pred_count = model_count.predict(X_test)

# 평가 지표 계산
def calculate_metrics(y_true, y_pred):
    mae = mean_absolute_error(y_true, y_pred)
    mse = mean_squared_error(y_true, y_pred)
    rmse = np.sqrt(mse)
    mape = np.mean(np.abs((y_true - y_pred) / y_true)) * 100
    r2 = r2_score(y_true, y_pred)
    return mae, mse, rmse, mape, r2

mae_sales, mse_sales, rmse_sales, mape_sales, r2_sales = calculate_metrics(y_test_sales, pred_sales)
mae_count, mse_count, rmse_count, mape_count, r2_count = calculate_metrics(y_test_count, pred_count)

# 상위 3개 연령대 찾기
def get_top_3_ages(predictions):
    avg_preds = np.mean(predictions, axis=0)
    age_groups = ['10대', '20대', '30대', '40대', '50대', '60대 이상']
    sorted_indices = np.argsort(avg_preds)[::-1][:3]
    return [age_groups[i] for i in sorted_indices]

# 결과 출력
print(f"\n🔹 예측된 2024년 3분기 매출 금액 상위 3개 연령대: {get_top_3_ages(pred_sales)}")
print(f"🔹 예측된 2024년 3분기 매출 건수 상위 3개 연령대: {get_top_3_ages(pred_count)}")

# 평가 지표 출력
print("\n📊 모델 성능 평가 지표")
print(f"매출 금액 예측 - MAE: {mae_sales:.2f}, MSE: {mse_sales:.2f}, RMSE: {rmse_sales:.2f}, MAPE: {mape_sales:.2f}%, R²: {r2_sales:.2f}")
print(f"매출 건수 예측 - MAE: {mae_count:.2f}, MSE: {mse_count:.2f}, RMSE: {rmse_count:.2f}, MAPE: {mape_count:.2f}%, R²: {r2_count:.2f}")


🔹 예측된 2024년 3분기 매출 금액 상위 3개 연령대: ['20대', '30대', '40대']
🔹 예측된 2024년 3분기 매출 건수 상위 3개 연령대: ['20대', '30대', '40대']

📊 모델 성능 평가 지표
매출 금액 예측 - MAE: 939201.36, MSE: 9335423957823.84, RMSE: 3055392.60, MAPE: inf%, R²: 0.96
매출 건수 예측 - MAE: 35.40, MSE: 18296.87, RMSE: 135.27, MAPE: inf%, R²: 0.98


새로운 변수를 추가, 반영한 코드