## 📊 피처 엔지니어링 단계

이 파일은 원본 데이터를 불러와서 모델 학습에 필요한 다양한 파생 피처를 생성하는 과정을 단계별로 구현합니다.

1. 기본 시계열 및 인구통계학적 피처 생성
2. 혼잡도 및 체류 관련 고급 피처 추가
3. 행동 기반 피처 (행동 로그, 좌석 등) 추가


In [2]:
#라이브러리 로드

import pandas as pd
import numpy as np
import sqlalchemy
from sqlalchemy import create_engine
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score

In [3]:
# 데이터 불러오기

engine = sqlalchemy.create_engine("mysql+pymysql://root:passwd@localhost/Project1")

In [4]:
# 공통 전처리

query = """
SELECT
    w.person_id,
    w.start_time AS queue_enter_time,
    w.end_time,
    w.wait_duration,
    p.timestamp AS enter_time,
    p.person_type,
    p.age_group,
    p.gender,
    DAYOFWEEK(w.start_time) AS weekday,
    HOUR(w.start_time) AS hour,
    DATE(w.start_time) AS date
FROM wait_log AS w
INNER JOIN people_log p ON w.person_id = p.person_id
WHERE p.event_type = 'enter';
"""
df = pd.read_sql(query, engine)

# 전처리

df['queue_enter_time'] = pd.to_datetime(df['queue_enter_time'])
df['end_time'] = pd.to_datetime(df['end_time'])
df['date'] = pd.to_datetime(df['date'])

### 📌 공통 전처리
- 원시 로그 데이터를 SQL로 불러온 후, datetime 컬럼 정리
- 분석에 필요한 컬럼만 선별하여 사용


In [6]:
#1단계 - 기본 피처 생성

# 요일명, 시간, 고객 속성 → 기본 피처
weekday_map = {1: 'Monday', 2: 'Tuesday', 3: 'Wednesday',
               4: 'Thursday', 5: 'Friday', 6: 'Saturday', 7: 'Sunday'}
df['weekday_name'] = df['weekday'].map(weekday_map)
df['hour'] = df['hour'].astype(str)

df[['person_type', 'age_group', 'gender']] = df[['person_type', 'age_group', 'gender']].astype(str)

df_step1 = df[['weekday_name', 'hour', 'person_type', 'age_group', 'gender', 'wait_duration']]
df_step1.to_csv('../data/basic_features.csv', index=False)

### ✅ Step 1: 기본 피처
- 요일명, 시간, 성별, 연령대, 고객 유형을 범주형 피처로 정리
- 예측 대상인 `wait_duration` 포함

In [8]:
# 2단계: 환경 기반 피처

df['is_weekend'] = df['weekday_name'].isin(['Saturday', 'Sunday']).astype(int)
public_holidays = [...]
df['is_holiday'] = df['date'].dt.strftime('%Y-%m-%d').isin(public_holidays).astype(int)

df['datetime_hour'] = df['queue_enter_time'].dt.floor('h')
df['visitor_count'] = df.groupby('datetime_hour')['person_id'].transform('count')
df['concurrent_wait_count'] = df.groupby('datetime_hour')['wait_duration'].transform('count')

df['hour_int'] = df['hour'].astype(int)
df['hour_sin'] = np.sin(2 * np.pi * df['hour_int'] / 24)
df['hour_cos'] = np.cos(2 * np.pi * df['hour_int'] / 24)

df_step2 = df[['weekday_name', 'hour', 'person_type', 'age_group', 'gender',
               'is_weekend', 'is_holiday', 'visitor_count', 'concurrent_wait_count',
               'hour_sin', 'hour_cos', 'wait_duration']]
df_step2.to_csv('../data/environmental_features.csv', index=False)


### ✅ Step 2: 환경 기반 피처
- 주말 여부, 공휴일 여부 추가
- 시간대별 방문자 수 / 동시 대기자 수로 혼잡도 표현
- 시간 주기성 반영 (sine/cosine 인코딩)

In [10]:
# 3단계: 행동 기반 피처 추가

# 이동 평균, 좌석 이탈 수, 출퇴근 시간대, 직전 대기시간
df = df.sort_values('queue_enter_time')

def calc_recent_exit_count(df, window_minutes=10):
    exit_times = df['end_time'].dropna().values
    return [((exit_times > t - pd.Timedelta(minutes=10)) & (exit_times <= t)).sum()
            for t in df['queue_enter_time']]

df['rolling_wait_mean'] = df['wait_duration'].rolling(window=10, min_periods=1).mean()
df['rolling_exit_count'] = calc_recent_exit_count(df)

df['is_morning_rush'] = df['hour_int'].between(7, 9).astype(int)
df['is_lunch_time'] = df['hour_int'].between(12, 13).astype(int)
df['is_evening_rush'] = df['hour_int'].between(17, 19).astype(int)

df['prev_wait'] = df['wait_duration'].shift(1).fillna(df['wait_duration'].mean())
df['wait_diff'] = df['wait_duration'].diff().fillna(0)

df_step3 = df_step2.copy()
df_step3[['rolling_wait_mean', 'rolling_exit_count',
          'is_morning_rush', 'is_lunch_time', 'is_evening_rush',
          'prev_wait', 'wait_diff']] = df[['rolling_wait_mean', 'rolling_exit_count',
                                           'is_morning_rush', 'is_lunch_time', 'is_evening_rush',
                                           'prev_wait', 'wait_diff']]
df_step3.to_csv('../data/behavioral_features.csv', index=False)


### ✅ Step 3: 행동 기반 피처
- 최근 평균 대기시간 (`rolling_wait_mean`)
- 최근 좌석 이탈 수 (10분 내)
- 출퇴근/점심 시간 여부
- 직전 고객의 대기시간, 변화량

In [12]:
# 서브 모델: 다음 퇴장까지 걸리는 시간 예측 (사용 안 함)

# 1. 퇴장 로그 불러오기 및 간격 계산
query_exit = """
SELECT person_id, timestamp AS exit_time, person_type, age_group, gender
FROM people_log
WHERE event_type = 'exit'
ORDER BY timestamp
"""
df_exit = pd.read_sql(query_exit, engine)
df_exit['exit_time'] = pd.to_datetime(df_exit['exit_time'])
df_exit = df_exit.sort_values('exit_time').reset_index(drop=True)
df_exit['next_exit_time'] = df_exit['exit_time'].shift(-1)
df_exit['next_exit_gap'] = (df_exit['next_exit_time'] - df_exit['exit_time']).dt.total_seconds() / 60
df_exit = df_exit.dropna(subset=['next_exit_gap'])

# 2. 파생 피처 생성 및 인코딩
df_exit['hour'] = df_exit['exit_time'].dt.hour
df_exit['weekday'] = df_exit['exit_time'].dt.dayofweek
df_exit['hour_sin'] = np.sin(2 * np.pi * df_exit['hour'] / 24)
df_exit['hour_cos'] = np.cos(2 * np.pi * df_exit['hour'] / 24)
df_exit['is_weekend'] = df_exit['weekday'].isin([5, 6]).astype(int)
df_exit[['person_type', 'age_group', 'gender']] = df_exit[['person_type', 'age_group', 'gender']].astype(str)

X_gap = pd.get_dummies(df_exit[['hour', 'weekday', 'person_type', 'age_group', 'gender',
                                'hour_sin', 'hour_cos', 'is_weekend']], drop_first=True)
y_gap = df_exit['next_exit_gap']

# 3. 모델 학습 및 평가
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_absolute_error, r2_score

Xg_train, Xg_test, yg_train, yg_test = train_test_split(X_gap, y_gap, test_size=0.2, random_state=42)
gap_model = RandomForestRegressor(random_state=42, n_estimators=100, max_depth=10)
gap_model.fit(Xg_train, yg_train)
yg_pred = gap_model.predict(Xg_test)

print("GAP MAE:", mean_absolute_error(yg_test, yg_pred))
print("GAP R²:", r2_score(yg_test, yg_pred))


GAP MAE: 14.821157683055485
GAP R²: 0.08827110897332913


### 🧪 서브 모델: 다음 퇴장까지의 간격 예측

- **목적**: 퇴장 간격을 예측하여 좌석 회전율 관련 패턴을 파악
- **타겟**: `next_exit_gap` (현재 퇴장 시점에서 다음 퇴장까지 걸린 시간, 단위: 분)
- **피처**: 시간대, 요일, 주말 여부, 개인 정보(유형/나이/성별) 등
- **모델 성능**
  - MAE: 약 14.8분
  - R²: 0.088
- **결론**: 예측 성능이 낮아 운영 모델에는 사용하지 않음


## ✅ 피처 생성 요약

- 1단계부터 3단계까지 단계별로 주요 피처를 생성하여 각csv 파일로 저장
- 추가로, 좌석이 언제 비는지 예측하는 서브 모델용 피처도 추가하였으나,
  모델 성능(MAE: 약 14.8, R²: 0.088) 미흡으로 실제 모델 학습에는 사용 안함
- 피처 고도화에 따라 모델 예측 성능이 점진적으로 개선될 것으로 기대

---

**서브 모델 성능 요약**

| 모델명       | MAE    | R²      | 비고          |
|--------------|--------|---------|---------------|
| 좌석 빈 시간 예측 | 14.82  | 0.088   | 성능 낮아 미사용 |

---
