# 데이터 불러오기

In [None]:
!sudo apt-get install -y fonts-nanum
!sudo fc-cache -fv
!rm ~/.cache/matplotlib -rf

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# matplotlib에 나눔고딕 폰트 적용
plt.rc('font', family='NanumBarunGothic')
plt.rcParams['axes.unicode_minus'] = False

In [None]:
pd.set_option('display.max_rows', None)

# 데이터 전처리

In [None]:
df = pd.read_csv('/content/naver_reviews_2.csv')

In [None]:
df_copy = df.copy()

In [None]:
# 중복 제거 (유저+날짜+내용이 같으면 중복)
df_copy = df_copy.drop_duplicates(subset=["user_id", "date", "review_text"])

In [None]:
# 방문횟수 숫자만 추출
df_copy["visit_count"] = df_copy["visit_count"].str.extract(r"(\d+)").astype(int)

In [None]:
# 날짜 형식으로 변환
df_copy["date"] = pd.to_datetime(df_copy["date"], errors="coerce")

In [None]:
# visit_tags에 다른 종류의 항목들이 한번에 들어가있어서 새로운 열을 만들어서 이를 나눠줌.
# 쉼표로 최대 5개 항목까지 분리 (부족하면 NaN으로 자동 채워짐)
split_cols = df_copy['visit_tags'].str.split(',', n=4, expand=True)

# 앞뒤 공백 제거
split_cols = split_cols.apply(lambda col: col.str.strip())

# 열 이름 지정
split_cols.columns = ['visit_when', 'reservation', 'wait', 'visit_type', 'visit_who']

# 원본 데이터프레임에 병합
df_copy = pd.concat([df_copy, split_cols], axis=1)


In [None]:
df_copy = df_copy.drop(columns=['visit_tags'])

In [None]:
#visit_tag를 나누는 과정에서 몇몇 열들이 잘못 들어감 => reversion 하나만 없으니까 그냥 가장 많은 예약 없이 이용으로 대체
#58행의 값을 대체
df_copy.at[58, 'reservation'] = '예약 없이 이용'
df_copy.at[58, 'wait'] = '바로 입장'
df_copy.at[58, 'visit_type'] = '데이트'
df_copy.at[58, 'visit_who'] = '연인・배우자'

#125행의 값을 대체
df_copy.at[125, 'reservation'] = '예약 없이 이용'
df_copy.at[125, 'wait'] = '바로 입장'
df_copy.at[125, 'visit_type'] = '친목'
df_copy.at[125, 'visit_who'] = '연인・배우자'

#133행의 값을 대체
df_copy.at[133, 'reservation'] = '예약 없이 이용'
df_copy.at[133, 'wait'] = '바로 입장'
df_copy.at[133, 'visit_type'] = '일상'
df_copy.at[133, 'visit_who'] = '아이'

#148행의 값을 대체
df_copy.at[148, 'reservation'] = '예약 없이 이용'
df_copy.at[148, 'wait'] = '바로 입장'
df_copy.at[148, 'visit_type'] = '일상'
df_copy.at[148, 'visit_who'] = '아이'

#251행의 값을 대체
df_copy.at[251, 'reservation'] = '예약 없이 이용'
df_copy.at[251, 'wait'] = '바로 입장'
df_copy.at[251, 'visit_type'] = '데이트'
df_copy.at[251, 'visit_who'] = '부모님'

#288행의 값을 대체
df_copy.at[288, 'reservation'] = '예약 없이 이용'
df_copy.at[288, 'wait'] = '바로 입장'
df_copy.at[288, 'visit_type'] = '친목'
df_copy.at[288, 'visit_who'] = '친구'


#298행의 값을 대체
df_copy.at[298, 'reservation'] = '예약 없이 이용'
df_copy.at[298, 'wait'] = '바로 입장'
df_copy.at[298, 'visit_type'] = '일상'
df_copy.at[298, 'visit_who'] = '아이'


In [None]:
df_copy.at[11, 'visit_type'] = '일상'
df_copy.at[11, 'visit_who'] = '혼자'

df_copy.at[85, 'visit_type'] = '가족모임'
df_copy.at[85, 'visit_who'] = '부모님'

df_copy.at[109, 'visit_type'] = '회식'
df_copy.at[109, 'visit_who'] = '지인・동료'

df_copy.at[137, 'visit_type'] = '일상'
df_copy.at[137, 'visit_who'] = '혼자'

df_copy.at[178, 'visit_type'] = '가족모임'
df_copy.at[178, 'visit_who'] = '부모님'

df_copy.at[373, 'visit_who'] = '연인・배우자'

df_copy.at[358, 'visit_who'] = '지인・동료'

In [None]:
# 찾고자 하는 문자열 리스트
target_values = [
    '가족모임',
    '일상',
    '가족모임,',
    '나들이,',
    '나들이, 여행, 일상,',
    '일상, 기념일, 회식, 가족모임,'
]

# 해당 값이 포함된 행 필터링
filtered_df = df_copy[df_copy['visit_who'].isin(target_values)]

# 결과 출력
filtered_df


In [None]:
df_copy.loc[[2,19,107,174,211,264,311], 'visit_who'] = '연인・배우자'
df_copy.loc[[35,226,241], 'visit_who'] = '연인'
df_copy.loc[[134,203,213, 216], 'visit_who'] = '친구'
df_copy.loc[[318], 'visit_who'] = '지인・동료'

In [None]:
# 대상 인덱스 리스트
target_indices = [4, 6, 8, 13, 18, 20, 22, 28, 30, 34, 39, 40, 41, 46, 47, 48, 54, 55, 57, 59, 63, 64, 65, 67, 70, 72, 75, 81, 82, 86, 88, 89, 99, 103, 104, 106, 108, 112, 117, 129, 132, 135, 138, 143, 147, 149, 151, 152, 154, 156, 157, 159, 160, 161, 163, 165, 168, 169, 170, 179, 186, 187, 190, 196, 197, 202, 205, 206, 212, 215, 222, 225, 230, 231, 233, 234, 238, 239, 245, 246, 247, 249, 253, 257, 259, 260, 265, 269, 270, 273, 274, 277, 278, 279, 282, 284, 286, 287, 290, 292, 295, 299, 300, 301, 304, 306, 313, 321, 325, 326, 327, 328, 329, 330, 332, 340, 341, 348, 350, 352, 356, 357, 359, 360]

# 조건별 매핑 딕셔너리
type_to_who = {
    '일상': '연인・배우자',
    '데이트': '연인',
    '친목': '친구',
    '회식': '지인・동료',
    '나들이': '연인・배우자',
    '가족모임': '부모님',
    '비즈니스': '지인・동료'

}

# 적용
for idx in target_indices:
    visit_type = df_copy.at[idx, 'visit_type']
    if pd.notna(visit_type) and visit_type in type_to_who:
        df_copy.at[idx, 'visit_who'] = type_to_who[visit_type]


In [None]:
# 대상 인덱스 리스트
target_indices = [7, 31,60, 126, 139, 195, 235, 266]

# 조건별 매핑 딕셔너리
type_to_who = {
    '데이트': '연인',
    '친목': '친구'
}

# 적용
for idx in target_indices:
    visit_type = df_copy.at[idx, 'visit_type']
    if pd.notna(visit_type) and visit_type in type_to_who:
        df_copy.at[idx, 'visit_who'] = type_to_who[visit_type]


In [None]:
# 조건: visit_type은 존재하고, visit_who는 NaN 또는 빈 문자열
missing_who_idx = df_copy[
    df_copy['visit_type'].notna() & ((df_copy['visit_who'].isna()) | (df_copy['visit_who'].str.strip() == ''))
].index

# 결과 출력
print("해당 행 번호들:", missing_who_idx.tolist())


In [None]:
df_copy.to_csv('df_after.csv', index=False, encoding='utf-8-sig')

### 엑셀 내에서 매출 데이터와 df_after.csv를 통합하여 df_final.csv 생성

In [None]:
df_final = pd.read_csv('/content/df_final.csv')

## 시간에 따른 매출 추이

In [None]:
# 날짜 형식 변환
df = df_final.copy()
df['date'] = pd.to_datetime(df['date'])

# 날짜별 매출 합계 계산
daily_sales = df.groupby('date')['sales'].sum().reset_index()

# 시각화
plt.figure(figsize=(12, 5))
plt.plot(daily_sales['date'], daily_sales['sales'], color='mediumblue', linewidth=2)
plt.title("2024.01 ~ 2025.04 매출 추이", fontsize=14)
plt.xlabel("날짜")
plt.ylabel("매출 (원)")
plt.grid(True)
plt.tight_layout()
plt.show()


## 키워드 분석

In [None]:
import pandas as pd
import re
import matplotlib.pyplot as plt

# 텍스트 전처리 함수 (한글만 남기기)
def clean_text(text):
    text = str(text)
    text = re.sub(r'[^가-힣\s]', '', text)
    return text

df_final['cleaned_review'] = df_final['review_text'].apply(clean_text)

# -----------------------------
# (1) '아이', '가족' 키워드 분석
# -----------------------------
baby_keywords = ['아이']

df_baby = df_final[df_final['cleaned_review'].str.contains('|'.join(baby_keywords), na=False)]
overall_sales = df_final['sales'].mean()

baby_sales = df_baby['sales'].mean()

print("\n📍 [1] '아이' 키워드 분석 결과")
print(f"'아이' 키워드 리뷰 평균 매출: {baby_sales:,.0f}원 (전체 평균 매출: {overall_sales:,.0f}원)")

# -----------------------------
# (2) '혼밥', '가능' 키워드 분석
# -----------------------------
solo_keywords = ['혼밥']

df_solo = df_final[df_final['cleaned_review'].str.contains('|'.join(solo_keywords), na=False)]

solo_sales = df_solo['sales'].mean()

print("\n📍 [2] '혼밥' 키워드 분석 결과")
print(f"'혼밥' 관련 리뷰 평균 매출: {solo_sales:,.0f}원 (전체 평균: {overall_sales:,.0f}원)")

# -----------------------------
# (3) '찌개' vs '고기' 키워드 분석 (시간대 비교)
# -----------------------------

jjigae_keywords = ['김치찌개']
meat_keywords = ['고기']

df_jjigae = df_final[df_final['cleaned_review'].str.contains('|'.join(jjigae_keywords), na=False)]
df_meat = df_final[df_final['cleaned_review'].str.contains('|'.join(meat_keywords), na=False)]

jjigae_sales = df_jjigae['sales'].mean()
meat_sales = df_meat['sales'].mean()

print("\n📍 [3] '찌개' vs '고기' 키워드 시간대 분석 결과")
print(f"'찌개' 키워드 리뷰 평균 매출: {jjigae_sales:,.0f}원")
print(f"'고기' 키워드 리뷰 평균 매출: {meat_sales:,.0f}원")

# -----------------------------
# 추가 시각화 (선택)
# -----------------------------
# 키워드별 매출 비교
labels = ['전체', '아이', '혼밥', '김치찌개', '고기']
sales_values = [overall_sales, baby_sales, solo_sales, jjigae_sales, meat_sales]

plt.figure(figsize=(10,6))
plt.bar(labels, sales_values)
plt.title('키워드별 평균 매출 비교')
plt.ylabel('Average Sales (KRW)')
plt.xlabel('Keyword Group')
plt.tight_layout()
plt.show()


## 리뷰 수와 매출 간의 상관관계 분석

In [None]:
import pandas as pd
from scipy.stats import pearsonr, spearmanr

# 데이터 준비
# df는 이미 존재한다고 가정 (df['review_text'], df['sales'] 컬럼 포함)

# 1. 리뷰 수 존재 여부 컬럼 생성
df['has_review'] = df['review_text'].notnull().astype(int)

# 2. 날짜별 리뷰 수와 매출 합계 계산
daily_summary = df.groupby('date').agg({
    'has_review': 'sum',  # 날짜별 리뷰 수
    'sales': 'sum'        # 날짜별 매출 합계
}).rename(columns={'has_review': 'review_count'})

# 3. 피어슨 상관계수 (선형 관계)
pearson_corr, pearson_p = pearsonr(daily_summary['review_count'], daily_summary['sales'])

# 4. 스피어만 상관계수 (순위 기반 비선형 관계)
spearman_corr, spearman_p = spearmanr(daily_summary['review_count'], daily_summary['sales'])

# 5. 결과 출력
print(f"✅ 피어슨 상관계수 (선형): {pearson_corr:.3f} (p-value: {pearson_p:.4f})")
print(f"✅ 스피어만 상관계수 : {spearman_corr:.3f} (p-value: {spearman_p:.4f})")


In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import StandardScaler

# 리뷰 수가 존재하는 날짜 계산
df['has_review'] = df['review_text'].notnull().astype(int)

# 날짜별 리뷰 수와 매출 합계
daily_summary = df.groupby('date').agg({
    'has_review': 'sum',
    'sales': 'sum'
}).rename(columns={'has_review': 'review_count'})

# 매출 표준화 (평균 0, 표준편차 1)
scaler = StandardScaler()
daily_summary['sales_scaled'] = scaler.fit_transform(daily_summary[['sales']])

# 리뷰 수가 0, 1, 2, 3, 4인 경우만 필터링
filtered_summary = daily_summary[daily_summary['review_count'].isin([0, 1, 2, 3, 4])]

# 시각화
plt.figure(figsize=(8, 5))
sns.scatterplot(
    data=filtered_summary,
    x='review_count',
    y='sales_scaled',
    color='mediumblue',  # 점 색깔 지정
    marker='x'       # x 모양 마커로 변경
)
plt.title("리뷰 수 (0~4개) vs 일 별 매출 (표준화)")
plt.xlabel("리뷰 수")
plt.ylabel("표준화된 매출")
plt.grid(False)  # 그리드 제거
plt.xticks([0, 1, 2, 3, 4])  # X축을 0~4로 고정
plt.tight_layout()
plt.show()


In [None]:
# visit_who 그룹 통합 매핑
visit_who_map = {
    '지인・동료, 아이': '아이',
    '친구, 아이': '아이',
    '연인・배우자, 아이': '아이',
    '연인': '연인・배우자',
    '연인・배우자, 지인・동료': '연인・배우자',
    '연인・배우자, 부모님': '부모님',
    '지인・동료': '친구',
    '친구, 지인・동료': '친구'
}

# 새 변수로 저장 (기존값 유지 원할 경우)
df_final['visit_who_cleaned'] = df_final['visit_who'].replace(visit_who_map)

# 필요 없는 그룹 제거
valid_groups = ['아이', '연인・배우자', '친구', '혼자', '부모님', '친척・형제']
df_final = df_final[df_final['visit_who_cleaned'].isin(valid_groups)]


## 변수 별 매출에 영향을 미치는 영향 분석

In [None]:
import pandas as pd
import statsmodels.api as sm
import patsy
import matplotlib.pyplot as plt

# 결측 제거
df = df_final.dropna(subset=['sales', 'visit_who_cleaned'])

# 변수명 교체
full_formula = 'sales ~ C(visit_when) + C(weekday) + C(reservation) + C(wait) + C(visit_type) + C(visit_who_cleaned)'
y_full, X_full = patsy.dmatrices(full_formula, data=df, return_type='dataframe')
model_full = sm.OLS(y_full, X_full).fit()
r2_full = model_full.rsquared

# 분석 대상 변수군
groups = ['visit_when', 'weekday', 'reservation', 'wait', 'visit_type', 'visit_who_cleaned']
r2_drop = {}

# 변수 제거 후 R² 비교
for group in groups:
    reduced_formula = 'sales ~ ' + ' + '.join([f'C({g})' for g in groups if g != group])
    y_reduced, X_reduced = patsy.dmatrices(reduced_formula, data=df, return_type='dataframe')
    model_reduced = sm.OLS(y_reduced, X_reduced).fit()
    r2_drop[group] = r2_full - model_reduced.rsquared

# 결과 시각화
r2_df = pd.DataFrame({'변수': list(r2_drop.keys()), '설명력 감소(R²)': list(r2_drop.values())})
r2_df = r2_df.sort_values('설명력 감소(R²)', ascending=True)

plt.figure(figsize=(10, 6))
bars = plt.barh(r2_df['변수'], r2_df['설명력 감소(R²)'], color='mediumblue')
plt.title("변수 제거 시 매출 설명력 감소 (R² 기준)", fontsize=14)
plt.xlabel("R² 감소량 (매출 설명력 손실)", fontsize=12)

for bar in bars:
    plt.text(bar.get_width() + 0.001,
             bar.get_y() + bar.get_height()/2,
             f"{bar.get_width():.4f}",
             va='center', fontsize=10)

plt.tight_layout()
plt.show()


## 고객 세분화를 위한 클러스터링

In [None]:
import pandas as pd
from sklearn.preprocessing import LabelEncoder, StandardScaler
from sklearn.mixture import GaussianMixture
from sklearn.decomposition import PCA
import matplotlib.pyplot as plt

# 1. 데이터 준비
df['review_flag'] = df['review_text'].notnull().astype(int)
daily_review = df.groupby('date')['review_flag'].sum().reset_index().rename(columns={'review_flag': 'review_count'})
df = pd.merge(df, daily_review, on='date', how='left')

df = df.dropna(subset=['sales', 'weekday','review_count'])
cluster_df = df[['weekday', 'review_count', 'sales']].copy()

# 인코딩
le_weekday = LabelEncoder()
cluster_df['weekday_encoded'] = le_weekday.fit_transform(cluster_df['weekday'])

# sales 숫자형 변환
cluster_df['sales'] = cluster_df['sales'].astype(str).str.replace(',', '').astype(float)

# 피처 구성 및 스케일링
features = cluster_df[['weekday_encoded', 'review_count', 'sales']]
scaler = StandardScaler()
scaled_features = scaler.fit_transform(features)

# GMM 클러스터링
gmm = GaussianMixture(n_components=4, random_state=42)
cluster_df['gmm_cluster'] = gmm.fit_predict(scaled_features)

# PCA 차원 축소
pca = PCA(n_components=2)
pca_result = pca.fit_transform(scaled_features)
cluster_df['PCA1'] = pca_result[:, 0]
cluster_df['PCA2'] = pca_result[:, 1]

# 클러스터별 평균값 계산
summary = cluster_df.groupby('gmm_cluster').agg({
    'review_count': 'mean',
    'sales': 'mean',
    'weekday': lambda x: x.mode()[0],  # 최빈값
    'PCA1': 'mean',
    'PCA2': 'mean'
}).reset_index()

# 시각화
plt.figure(figsize=(10, 7))
scatter = plt.scatter(
    cluster_df['PCA1'], cluster_df['PCA2'],
    c=cluster_df['gmm_cluster'],
    cmap='Set2', alpha=0.7
)
plt.title('GMM 클러스터링 결과 (PCA 2D)', fontsize=15)
plt.xlabel('PCA1')
plt.ylabel('PCA2')
plt.grid(True)

# 클러스터 중심에 평균 정보 라벨 표시
for _, row in summary.iterrows():
    label = f"Cluster {int(row['gmm_cluster'])}\n📅 {row['weekday']}\n💬 {row['review_count']:.2f}건\n💰 {int(row['sales']):,}원"
    plt.text(row['PCA1'], row['PCA2'], label,
             fontsize=9, fontweight='bold', ha='center',
             bbox=dict(boxstyle='round,pad=0.3', fc='white', ec='gray', alpha=0.9))

plt.colorbar(scatter, label='GMM Cluster')
plt.tight_layout()
plt.show()


In [None]:
# 클러스터별 평균값 계산
summary = cluster_df.groupby('gmm_cluster').agg({
    'review_count': 'mean',
    'sales': 'mean',
    'weekday': lambda x: x.mode()[0],  # 최빈값
    'PCA1': 'mean',
    'PCA2': 'mean'
}).reset_index()

# 전체 평균 매출 계산
overall_avg_sales = cluster_df['sales'].mean()

# 각 클러스터의 매출이 전체 평균 대비 몇 퍼센트 차이 나는지 계산
summary['sales_diff_percent'] = ((summary['sales'] - overall_avg_sales) / overall_avg_sales) * 100

# 시각화
plt.figure(figsize=(10, 7))
scatter = plt.scatter(
    cluster_df['PCA1'], cluster_df['PCA2'],
    c=cluster_df['gmm_cluster'],
    cmap='Set2', alpha=0.7
)
plt.title('GMM 클러스터링 결과', fontsize=15)
plt.xlabel('PCA1')
plt.ylabel('PCA2')
plt.grid(True)

# 클러스터 중심에 평균 정보 라벨 표시 (매출 대비 퍼센트 차이 표시)
for _, row in summary.iterrows():
    diff = row['sales_diff_percent']
    sign = "+" if diff >= 0 else "-"
    label = f"Cluster {int(row['gmm_cluster'])}\n📅 {row['weekday']}\n💬 {row['review_count']:.2f}건\n📈 전체 평균 대비 {sign}{abs(diff):.1f}%"
    plt.text(row['PCA1'], row['PCA2'], label,
             fontsize=9, fontweight='bold', ha='center',
             bbox=dict(boxstyle='round,pad=0.3', fc='white', ec='gray', alpha=0.9))

plt.colorbar(scatter, label='GMM Cluster')
plt.tight_layout()
plt.show()


In [None]:
import numpy as np

# 클러스터 별 색상 수동 지정
# 순서: 클러스터 0, 1, 2, 3
cluster_colors = {
    0: 'mediumaquamarine',  # 연한 붉은색
    1: 'lightskyblue',
    2: 'gold',
    3: 'lightcoral'
}

# 각 데이터에 색상을 매핑
cluster_df['color'] = cluster_df['gmm_cluster'].map(cluster_colors)

# 시각화
plt.figure(figsize=(10, 7))
scatter = plt.scatter(
    cluster_df['PCA1'], cluster_df['PCA2'],
    c=cluster_df['color'],  # 직접 색상 지정
    alpha=0.7
)
plt.title('GMM 클러스터링 결과', fontsize=15)
plt.xlabel('PCA1')
plt.ylabel('PCA2')
plt.grid(True)

# 클러스터 중심 라벨 (이전과 동일)
for _, row in summary.iterrows():
    diff = row['sales_diff_percent']
    sign = "+" if diff >= 0 else "-"
    label = f"Cluster {int(row['gmm_cluster'])}\n📅 {row['weekday']}\n💬 {row['review_count']:.2f}건\n📈 전체 평균 대비 {sign}{abs(diff):.1f}%"
    plt.text(row['PCA1'], row['PCA2'], label,
             fontsize=9, fontweight='bold', ha='center',
             bbox=dict(boxstyle='round,pad=0.3', fc='white', ec='gray', alpha=0.9))

plt.colorbar(scatter, label='GMM Cluster')
plt.tight_layout()
plt.show()


In [None]:
# 클러스터별 수치형 변수 평균 계산
cluster_summary = cluster_df.groupby('gmm_cluster')[['review_count', 'sales']].mean()

# 클러스터별 대표 범주형 변수 (최빈값) 추출
cluster_summary['weekday'] = cluster_df.groupby('gmm_cluster')['weekday'].agg(lambda x: x.mode()[0])

# 클러스터별 인원 수 추가
cluster_summary['count'] = cluster_df.groupby('gmm_cluster').size()

# 컬럼 순서 정리
cluster_summary = cluster_summary[['count', 'review_count', 'sales', 'weekday']]

display(cluster_summary)


## XGBoost를 성능 측정


In [None]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import LabelEncoder
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
from xgboost import XGBRegressor
from sklearn.model_selection import train_test_split

# 요일 인코딩
le = LabelEncoder()
df['weekday_encoded'] = le.fit_transform(df['weekday'])

# 피처 및 타겟 지정
X = df[['review_count', 'weekday_encoded']]
y = df['sales']

# 학습용 / 테스트용 데이터 분할
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# XGBoost 회귀 모델 학습
model = XGBRegressor(random_state=42, n_estimators=100, learning_rate=0.1)
model.fit(X_train, y_train)

# 예측
y_pred = model.predict(X_test)

# 성능 평가
r2 = r2_score(y_test, y_pred)
rmse = np.sqrt(mean_squared_error(y_test, y_pred))
mae = mean_absolute_error(y_test, y_pred)

# 결과 출력
print("📊 XGBoost 회귀 모델 성능")
print(f"R² (결정계수): {r2:.3f}")
print(f"RMSE (평균 제곱근 오차): {int(rmse):,}원")
print(f"MAE (평균 절댓값 오차): {int(mae):,}원")


## 리뷰 수 증대 → 매출 증가 시뮬레이션 코드

In [None]:
# 현재 평균 입력값 사용
X_mean = X.mean()
X_base = X_mean.copy()
X_plus = X_mean.copy()

# 리뷰 수 1건 증가
X_plus['review_count'] += 1

# 입력값을 DataFrame으로 변환
X_base_df = pd.DataFrame([X_base])
X_plus_df = pd.DataFrame([X_plus])

# 예측값 계산
base_sales = model.predict(X_base_df)[0]
plus_sales = model.predict(X_plus_df)[0]

delta = plus_sales - base_sales

print(f"✅ 리뷰 수가 1건 증가하면 하루 매출은 약 {int(delta):,}원 증가할 것으로 예측됩니다.")


## 고매출 클러스터 유입 증가 시뮬레이션 예시

In [None]:
# 💡 Cluster 3 하루 평균 매출 시뮬레이션
cluster_3 = cluster_df[cluster_df['gmm_cluster'] == 3].copy()
cluster_3 = cluster_3.merge(df[['date', 'review_text']], left_index=True, right_index=True)
cluster_3['date'] = pd.to_datetime(cluster_3['date'])

cluster_3_unique = cluster_3.drop_duplicates(subset=['date', 'review_text'])
cluster_3_daily = cluster_3.groupby(cluster_3['date'].dt.date)['sales'].mean().reset_index()
daily_avg_sales_cluster3 = cluster_3_daily['sales'].mean()
expected_increase = daily_avg_sales_cluster3 * 0.2

print(f"\n💰 Cluster 3 고객군이 하루 기준 20% 더 유입되면, 매출은 약 {int(expected_increase):,}원 증가할 것으로 예측됩니다.")

In [None]:
import matplotlib.pyplot as plt

# 결과 값 입력 (예시 기반, 실제 값에 맞게 수정 가능)
review_effect = 114426      # 리뷰 수 1건 증가 시
cluster3_effect = 285216    # Cluster 3 하루 유입 20% 증가 시

# 항목명 및 값
labels = ['리뷰 수 1건 증가 시', 'Cluster 3 고객 20% 유입 증가 시']
values = [review_effect, cluster3_effect]

# 시각화
plt.figure(figsize=(8, 5))
bars = plt.bar(labels, values)
plt.title('시뮬레이션 기반 매출 증가 예상 효과', fontsize=14)
plt.ylabel('예상 매출 증가액 (원)', fontsize=12)

# 값 표시
for bar in bars:
    height = bar.get_height()
    plt.text(bar.get_x() + bar.get_width() / 2, height + 10000,
             f"{int(height):,}원", ha='center', va='bottom', fontsize=10)

plt.tight_layout()
plt.grid(axis='y', linestyle='--', alpha=0.5)
plt.show()
