In [1]:
import pandas as pd
import numpy as np
from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
from sklearn.metrics.pairwise import cosine_similarity
from sklearn.ensemble import IsolationForest
from sklearn.neighbors import NearestNeighbors
import matplotlib.pyplot as plt
import seaborn as sns

class MLLocationRecommendationSystem:
    def __init__(self, commercial_data, district_data):
        self.commercial_data = commercial_data
        self.district_data = district_data
        self.scaler = StandardScaler()
        self.feature_columns = []
        
    def show_available_business_types(self):
        """
        데이터에서 사용 가능한 업종 목록 출력
        """
        print("=== 상권 데이터 업종 목록 ===")
        if '서비스_업종_코드_명' in self.commercial_data.columns:
            commercial_types = self.commercial_data['서비스_업종_코드_명'].unique()
            print(f"상권 데이터 업종 수: {len(commercial_types)}개")
            for i, business_type in enumerate(sorted(commercial_types), 1):
                print(f"  {i:2d}. {business_type}")
        
        print("\n=== 행정동 데이터 업종 목록 ===")
        if '서비스_업종_코드_명' in self.district_data.columns:
            district_types = self.district_data['서비스_업종_코드_명'].unique()
            print(f"행정동 데이터 업종 수: {len(district_types)}개")
            for i, business_type in enumerate(sorted(district_types), 1):
                print(f"  {i:2d}. {business_type}")
        
        # 공통 업종 출력
        if '서비스_업종_코드_명' in self.commercial_data.columns and '서비스_업종_코드_명' in self.district_data.columns:
            common_types = set(commercial_types) & set(district_types)
            print(f"\n=== 공통 업종 ({len(common_types)}개) ===")
            for i, business_type in enumerate(sorted(common_types), 1):
                print(f"  {i:2d}. {business_type}")
        
    def prepare_features(self, data, business_type):
        """
        ML을 위한 특성 추출 
        """
        # 해당 업종 데이터만 필터링
        business_data = data[data['서비스_업종_코드_명'] == business_type].copy()
        
        if business_data.empty:
            return pd.DataFrame()
        
        # 특성 엔지니어링
        features = pd.DataFrame()
        
        # 지역 정보 설정 
        if '상권_코드_명' in business_data.columns:
            features['location_name'] = business_data['상권_코드_명']
            features['location_type'] = '상권'
            features['district_name'] = ''  
        else:
            features['location_name'] = business_data['행정동_코드_명']
            features['location_type'] = '행정동'
            features['district_name'] = business_data['행정동_코드'].astype(str) 

        features.index = business_data.index
        
        # 1. 매출 관련 특성
        features['total_sales'] = business_data['당월_매출_금액']
        features['total_transactions'] = business_data['당월_매출_건수']
        features['avg_transaction'] = features['total_sales'] / (features['total_transactions'] + 1)
        
        # 2. 시간대별 매출 분포 특성 
        time_cols = []
        potential_time_cols = ['시간대_00~06_매출_금액', '시간대_06~11_매출_금액', 
                              '시간대_11~14_매출_금액', '시간대_14~17_매출_금액',
                              '시간대_17~21_매출_금액', '시간대_21~24_매출_금액']
        
        for col in potential_time_cols:
            if col in business_data.columns:
                time_cols.append(col)
        
        for col in time_cols:
            features[f'{col}_ratio'] = business_data[col] / (business_data['당월_매출_금액'] + 1)
        
        # 3. 요일별 매출 분포 특성
        if '주중_매출_금액' in business_data.columns and '주말_매출_금액' in business_data.columns:
            features['weekday_ratio'] = business_data['주중_매출_금액'] / (business_data['당월_매출_금액'] + 1)
            features['weekend_ratio'] = business_data['주말_매출_금액'] / (business_data['당월_매출_금액'] + 1)
        else:
            weekday_cols = ['월요일_매출_금액', '화요일_매출_금액', '수요일_매출_금액', 
                           '목요일_매출_금액', '금요일_매출_금액']
            weekend_cols = ['토요일_매출_금액', '일요일_매출_금액']
            
            weekday_sales = 0
            weekend_sales = 0
            
            for col in weekday_cols:
                if col in business_data.columns:
                    weekday_sales += business_data[col].fillna(0)
            
            for col in weekend_cols:
                if col in business_data.columns:
                    weekend_sales += business_data[col].fillna(0)
            
            features['weekday_ratio'] = weekday_sales / (business_data['당월_매출_금액'] + 1)
            features['weekend_ratio'] = weekend_sales / (business_data['당월_매출_금액'] + 1)
        
        # 4. 연령대별 매출 분포 특성
        age_cols = ['연령대_10_매출_금액', '연령대_20_매출_금액', '연령대_30_매출_금액',
                   '연령대_40_매출_금액', '연령대_50_매출_금액', '연령대_60_이상_매출_금액']
        
        for col in age_cols:
            if col in business_data.columns:
                features[f'{col}_ratio'] = business_data[col] / (business_data['당월_매출_금액'] + 1)
        
        # 5. 성별 매출 분포 특성
        if '남성_매출_금액' in business_data.columns and '여성_매출_금액' in business_data.columns:
            features['male_ratio'] = business_data['남성_매출_금액'] / (business_data['당월_매출_금액'] + 1)
            features['female_ratio'] = business_data['여성_매출_금액'] / (business_data['당월_매출_금액'] + 1)
        else:
            features['male_ratio'] = 0.5
            features['female_ratio'] = 0.5
        
        # 6. 매출 집중도 특성 
        if time_cols:  
            time_sales = business_data[time_cols].fillna(0)
            features['time_concentration'] = time_sales.apply(
                lambda x: np.sum((x / x.sum())**2) if x.sum() > 0 else 0, axis=1
            )
            
            # 7. 피크 시간대 특성
            features['peak_time_sales'] = time_sales.max(axis=1)
            features['peak_time_ratio'] = features['peak_time_sales'] / (features['total_sales'] + 1)
        else:
            features['time_concentration'] = 0.2  
            features['peak_time_sales'] = features['total_sales'] * 0.3  
            features['peak_time_ratio'] = 0.3
        
        return features
    

    def cluster_based_recommendation(self, features, user_profile, n_clusters=5):
        """
        클러스터링 기반 추천 
        """
        if features.empty:
            return pd.DataFrame(), []
        
        # 지역 정보 분리
        location_info = features[['location_name', 'location_type', 'district_name']].copy()
        
        # 수치형 특성만 선택하여 스케일링
        numeric_features = features.select_dtypes(include=[np.number])
        features_scaled = self.scaler.fit_transform(numeric_features)
        
        # K-means 클러스터링
        kmeans = KMeans(n_clusters=n_clusters, random_state=42)
        clusters = kmeans.fit_predict(features_scaled)
        
        # 각 클러스터의 특성 분석
        cluster_profiles = []
        for i in range(n_clusters):
            cluster_mask = clusters == i
            cluster_data = numeric_features[cluster_mask]
            
            if len(cluster_data) > 0:
                profile = {
                    'cluster_id': i,
                    'size': len(cluster_data),
                    'avg_sales': cluster_data['total_sales'].mean(),
                    'avg_transaction': cluster_data['avg_transaction'].mean(),
                    'time_concentration': cluster_data['time_concentration'].mean(),
                    'peak_time_ratio': cluster_data['peak_time_ratio'].mean()
                }
                cluster_profiles.append(profile)
        
        # 사용자 프로필에 맞는 최적 클러스터 선택
        best_cluster = self._select_best_cluster(cluster_profiles, user_profile)
        
        # 해당 클러스터 내 위치들 추천 (지역명 포함)
        best_cluster_mask = clusters == best_cluster
        recommendations = features[best_cluster_mask].copy()
        recommendations['cluster'] = best_cluster
        
        return recommendations, cluster_profiles
    
    def collaborative_filtering_approach(self, data, business_type):
        """
        협업 필터링 방식 (업종간 유사성 기반)
        """
        # 상권별-업종별 매출 매트릭스 생성
        if '상권_코드_명' in data.columns:
            pivot_data = data.pivot_table(
                index='상권_코드_명', 
                columns='서비스_업종_코드_명', 
                values='당월_매출_금액', 
                fill_value=0
            )
            location_info = pd.DataFrame()  # 시군구_코드_명 제거로 단순화
        else:
            pivot_data = data.pivot_table(
                index='행정동_코드_명', 
                columns='서비스_업종_코드_명', 
                values='당월_매출_금액', 
                fill_value=0
            )
            location_info = data[['행정동_코드_명', '행정동_코드']].drop_duplicates()
            location_info = location_info.set_index('행정동_코드_명')
        
        if business_type not in pivot_data.columns:
            return []
        
        # 코사인 유사도 계산
        similarity_matrix = cosine_similarity(pivot_data.T)
        
        # 타겟 업종과 유사한 업종들 찾기
        business_idx = list(pivot_data.columns).index(business_type)
        similar_businesses = []
        
        for i, similarity in enumerate(similarity_matrix[business_idx]):
            if i != business_idx and similarity > 0.3:  # 유사도 임계값
                similar_businesses.append({
                    'business': pivot_data.columns[i],
                    'similarity': similarity
                })
        
        # 유사 업종들이 잘되는 지역 추천
        similar_businesses = sorted(similar_businesses, key=lambda x: x['similarity'], reverse=True)[:5]
        
        recommendations = {}
        for location in pivot_data.index:
            score = pivot_data.loc[location, business_type] 
            
            # 유사 업종들의 성과 가중합
            for similar in similar_businesses:
                score += pivot_data.loc[location, similar['business']] * similar['similarity'] * 0.1
            
            # 지역 정보 추가 
            district_info = ""
            if not location_info.empty and location in location_info.index:
                if '행정동_코드' in location_info.columns:
                    district_info = f" (코드: {location_info.loc[location, '행정동_코드']})"
            
            recommendations[location + district_info] = score
        
        return sorted(recommendations.items(), key=lambda x: x[1], reverse=True)
    
    def anomaly_detection_approach(self, features):
        """
        이상치 탐지로 특별히 좋은 입지 찾기
        """
        if features.empty:
            return pd.DataFrame()
        
        # 지역 정보 분리
        location_info = features[['location_name', 'location_type', 'district_name']].copy()
        
        # 수치형 특성만 선택하여 스케일링
        numeric_features = features.select_dtypes(include=[np.number])
        features_scaled = self.scaler.fit_transform(numeric_features)
        
        # Isolation Forest로 이상치(특별히 좋은 곳) 탐지
        iso_forest = IsolationForest(contamination=0.1, random_state=42)
        anomaly_scores = iso_forest.fit_predict(features_scaled)
        anomaly_scores_prob = iso_forest.score_samples(features_scaled)
        
        # 양의 이상치(좋은 성과)를 찾기 위해 높은 매출 + 이상치 조합
        high_sales_mask = features['total_sales'] > features['total_sales'].quantile(0.7)
        anomaly_mask = anomaly_scores == -1  # 이상치
        
        special_locations = features[high_sales_mask & anomaly_mask].copy()
        special_locations['anomaly_score'] = anomaly_scores_prob[high_sales_mask & anomaly_mask]
        
        return special_locations.sort_values('anomaly_score', ascending=False)
    
    def _select_best_cluster(self, cluster_profiles, user_profile):
        """
        사용자 프로필에 맞는 최적 클러스터 선택
        """
        best_score = -1
        best_cluster = 0
        
        for profile in cluster_profiles:
            score = 0
            
            # 매출 규모 선호도
            if user_profile.get('priority', {}).get('sales_volume', 0) > 0.3:
                score += profile['avg_sales'] * 0.4
            
            # 안정성 선호도 (집중도가 낮을수록 좋음)
            score += (1 - profile['time_concentration']) * 0.3
            
            # 효율성 선호도
            score += profile['avg_transaction'] * 0.3
            
            if score > best_score:
                best_score = score
                best_cluster = profile['cluster_id']
        
        return best_cluster
    
    def get_ml_recommendations(self, business_type, user_profile, method='ensemble'):
 
        print(f"=== {business_type} 업종 추천 분석 ===")
        
        # 특성 준비
        commercial_features = self.prepare_features(self.commercial_data, business_type)
        district_features = self.prepare_features(self.district_data, business_type)
        
        recommendations = {}
        
        if method in ['cluster', 'ensemble']:
            # 클러스터링 기반 추천
            if not commercial_features.empty:
                cluster_recs, cluster_profiles = self.cluster_based_recommendation(
                    commercial_features, user_profile
                )
                recommendations['cluster_commercial'] = cluster_recs
                recommendations['cluster_profiles'] = cluster_profiles
        
        if method in ['collaborative', 'ensemble']:
            # 협업 필터링 추천
            collab_recs = self.collaborative_filtering_approach(self.commercial_data, business_type)
            recommendations['collaborative'] = collab_recs[:20]
        
        if method in ['anomaly', 'ensemble']:
            # 이상치 탐지 추천
            if not commercial_features.empty:
                anomaly_recs = self.anomaly_detection_approach(commercial_features)
                recommendations['anomaly'] = anomaly_recs
        
        return recommendations
    
    def print_detailed_recommendations(self, recommendations, business_type):

        print(f"\n=== {business_type} 추천 결과 ===")
        
        if 'collaborative' in recommendations:
            print("\n협업 필터링 추천 Top 10:")
            for i, (location, score) in enumerate(recommendations['collaborative'][:10]):
                print(f"  {i+1}. {location}: {score:,.0f}점")
        
        if 'cluster_commercial' in recommendations and not recommendations['cluster_commercial'].empty:
            print(f"\n클러스터링 추천 Top 10:")
            cluster_data = recommendations['cluster_commercial']
            top_cluster = cluster_data.nlargest(10, 'total_sales')
            for i, (idx, row) in enumerate(top_cluster.iterrows()):
                location_name = row['location_name']
                location_type = row['location_type']
                district_name = row.get('district_name', '')
                
                # 지역 정보 포맷팅 
                location_display = f"{location_name} ({location_type})"
                if district_name and district_name != '':
                    location_display += f" [{district_name}]"
                
                print(f"  {i+1}. {location_display}: "
                      f"매출 {row['total_sales']:,.0f}원, 객단가 {row['avg_transaction']:,.0f}원")
        
        if 'anomaly' in recommendations and not recommendations['anomaly'].empty:
            print(f"\n특별한 입지 Top 10:")
            anomaly_data = recommendations['anomaly'].head(10)
            for i, (idx, row) in enumerate(anomaly_data.iterrows()):
                location_name = row['location_name']
                location_type = row['location_type']
                district_name = row.get('district_name', '')
                
                # 지역 정보 포맷팅 
                location_display = f"{location_name} ({location_type})"
                if district_name and district_name != '':
                    location_display += f" [{district_name}]"
                
                print(f"  {i+1}. {location_display}: "
                      f"매출 {row['total_sales']:,.0f}원, 이상치점수 {row['anomaly_score']:.3f}")
        
        if 'cluster_profiles' in recommendations:
            print(f"\n발견된 클러스터 특성:")
            for profile in recommendations['cluster_profiles']:
                print(f"  클러스터 {profile['cluster_id']}: {profile['size']}개 지역, "
                      f"평균매출 {profile['avg_sales']:,.0f}원, "
                      f"평균객단가 {profile['avg_transaction']:,.0f}원")

def load_and_run_ml_system():
    """
    실제 서울시 상권 데이터로 추천시스템 실행
    """

    df = pd.read_csv('../social_3/서울시 상권분석서비스(추정매출-상권).csv', encoding="EUC-KR")
    df2 = pd.read_csv('../social_3/서울시 상권분석서비스(추정매출-행정동).csv', encoding="EUC-KR")

    ml_recommender = MLLocationRecommendationSystem(df, df2)
    
    ml_recommender.show_available_business_types()
    
    print("\n=== 기반 입지 추천 시스템 ===")
    business_type = input("분석할 업종을 입력하세요 (예: 일반의류, 노래방): ").strip()
    
    user_profile = {
        'business_type': business_type,
        'priority': {'sales_volume': 0.4, 'customer_match': 0.3, 'competition': 0.2, 'growth_potential': 0.1}
    }
    
    ml_recommendations = ml_recommender.get_ml_recommendations(business_type, user_profile, method='ensemble')

    ml_recommender.print_detailed_recommendations(ml_recommendations, business_type)
    
    return ml_recommendations

# 실행
if __name__ == "__main__":
    ml_recommendations = load_and_run_ml_system()

=== 상권 데이터 업종 목록 ===
상권 데이터 업종 수: 62개
   1. PC방
   2. 가구
   3. 가방
   4. 가전제품
   5. 가전제품수리
   6. 골프연습장
   7. 네일숍
   8. 노래방
   9. 당구장
  10. 문구
  11. 미곡판매
  12. 미용실
  13. 반찬가게
  14. 부동산중개업
  15. 분식전문점
  16. 서적
  17. 섬유제품
  18. 세탁소
  19. 수산물판매
  20. 슈퍼마켓
  21. 스포츠 강습
  22. 스포츠클럽
  23. 시계및귀금속
  24. 신발
  25. 안경
  26. 애완동물
  27. 양식음식점
  28. 여관
  29. 예술학원
  30. 완구
  31. 외국어학원
  32. 운동/경기용품
  33. 육류판매
  34. 의료기기
  35. 의약품
  36. 인테리어
  37. 일반교습학원
  38. 일반의류
  39. 일반의원
  40. 일식음식점
  41. 자동차미용
  42. 자동차수리
  43. 자전거 및 기타운송장비
  44. 전자상거래업
  45. 제과점
  46. 조명용품
  47. 중식음식점
  48. 철물점
  49. 청과상
  50. 치과의원
  51. 치킨전문점
  52. 커피-음료
  53. 컴퓨터및주변장치판매
  54. 패스트푸드점
  55. 편의점
  56. 피부관리실
  57. 한식음식점
  58. 한의원
  59. 핸드폰
  60. 호프-간이주점
  61. 화장품
  62. 화초

=== 행정동 데이터 업종 목록 ===
행정동 데이터 업종 수: 63개
   1. PC방
   2. 가구
   3. 가방
   4. 가전제품
   5. 가전제품수리
   6. 고시원
   7. 골프연습장
   8. 네일숍
   9. 노래방
  10. 당구장
  11. 문구
  12. 미곡판매
  13. 미용실
  14. 반찬가게
  15. 부동산중개업
  16. 분식전문점
  17. 서적
  18. 섬유제품
  19. 세탁소
  20. 수산물판매
  21. 슈퍼마켓


분석할 업종을 입력하세요 (예: 일반의류, 노래방):  노래방


=== 노래방 업종 추천 분석 ===

=== 노래방 추천 결과 ===

협업 필터링 추천 Top 10:
  1. 명동 남대문 북창동 다동 무교동 관광특구: 9,388,338,750점
  2. 강남역: 8,941,724,308점
  3. 여의도역(여의도): 5,875,843,771점
  4. 홍대입구역(홍대): 5,518,786,726점
  5. 종로?청계 관광특구: 5,336,219,840점
  6. 잠실새내역(신천): 4,977,657,564점
  7. 잠실 관광특구: 4,919,156,153점
  8. 가산디지털단지: 4,902,858,976점
  9. 노원역: 4,675,803,348점
  10. 종로3가역: 4,657,150,226점

클러스터링 추천 Top 10:
  1. 잠실새내역(신천) (상권): 매출 2,073,732,207원, 객단가 24,891원
  2. 잠실새내역(신천) (상권): 매출 1,850,323,549원, 객단가 23,221원
  3. 잠실새내역(신천) (상권): 매출 1,765,608,425원, 객단가 21,412원
  4. 잠실새내역(신천) (상권): 매출 1,662,170,605원, 객단가 21,937원
  5. 가락시장역 (상권): 매출 1,492,140,691원, 객단가 255,722원
  6. 노원역 (상권): 매출 1,455,741,584원, 객단가 18,283원
  7. 가락시장역 (상권): 매출 1,402,613,272원, 객단가 211,014원
  8. 홍대입구역(홍대) (상권): 매출 1,376,815,886원, 객단가 10,943원
  9. 홍대입구역(홍대) (상권): 매출 1,368,057,845원, 객단가 12,817원
  10. 가락시장역 (상권): 매출 1,365,687,422원, 객단가 253,798원

특별한 입지 Top 10:
  1. 가산디지털단지 (상권): 매출 946,140,803원, 이상치점수 -0.483
  2. 왕십리도선동상점가 (상권): 매출 789,057,540원, 이상치점수 -0.