In [1]:
import warnings

# 오류 경고 무시하기
warnings.filterwarnings(action='ignore')

# 1. 데이터 불러오기

In [2]:
import pandas as pd
import os

pd.options.display.float_format = '{:.3f}'.format
pd.set_option('display.max_columns', None)

PATH = './data/'

file_list= os.listdir(PATH)
csv_list = list()

for file in file_list:
    if file.split(".")[-1] == 'csv':
        csv_list.append(file)
data = ['living_popul', 'resident_popul', 'area', 'store', 'working_popul', 'facilitie', 'estimated_sales']

for name, file in zip(data, csv_list):
    globals()[name] = pd.read_csv(PATH + file, encoding = "ansi")

store = store.drop("Unnamed: 0", axis = 1)
estimated_sales = estimated_sales.drop("Unnamed: 0", axis = 1)

# 2. 데이터 전처리

## 2-0. 시점 통일 / 관광특구 제거

In [3]:
# 시점 통일
years = [20223, 20224, 20231, 20232]

living_popul = living_popul[living_popul['기준_년분기_코드'].isin(years)]
resident_popul = resident_popul[resident_popul['기준_년분기_코드'].isin(years)]
store = store[store['기준_년분기_코드'].isin(years)]
working_popul = working_popul[working_popul['기준_년분기_코드'].isin(years)]
facilitie = facilitie[facilitie['기준_년분기_코드'].isin(years)]
estimated_sales = estimated_sales[estimated_sales['기준_년분기_코드'].isin(years)]

# 관광특구 제거
living_popul = living_popul[living_popul['상권_구분_코드_명']!='관광특구']
resident_popul = resident_popul[resident_popul['상권_구분_코드_명']!='관광특구']
store = store[store['상권_구분_코드_명']!='관광특구']
working_popul = working_popul[working_popul['상권_구분_코드_명']!='관광특구']
facilitie = facilitie[facilitie['상권_구분_코드_명']!='관광특구']
estimated_sales = estimated_sales[estimated_sales['상권_구분_코드_명']!='관광특구']

## 2-1. 길단위인구 전처리

### 2-1-1 변수 처리

In [4]:
# 필요힌 변수 선택
living_popul = living_popul[['기준_년분기_코드', '상권_구분_코드_명', '상권_코드_명', '총_유동인구_수', '연령대_10_유동인구_수',
                            '연령대_20_유동인구_수', '연령대_30_유동인구_수', '연령대_40_유동인구_수',
                            '연령대_50_유동인구_수', '연령대_60_이상_유동인구_수']]

### 2-1-3. 분기별 데이터 연도 기준 변환

In [5]:
living_popul_year = living_popul.drop('기준_년분기_코드', axis = 1)\
                                .groupby(['상권_구분_코드_명','상권_코드_명'],as_index = False)\
                                .mean()

## 2-2. 상주인구 전처리

### 2-2-1. 변수 처리

In [6]:
# 필요한 변수 선택
resident_popul = resident_popul[['기준_년분기_코드', '상권_구분_코드_명', '상권_코드_명', '총_상주인구_수',
                                '연령대_10_상주인구_수', '연령대_20_상주인구_수', '연령대_30_상주인구_수', '연령대_40_상주인구_수',
                                '연령대_50_상주인구_수', '연령대_60_이상_상주인구_수']]

### 2-2-3. 분기별 데이터 연도 기준 변환

In [7]:
resident_popul_year = resident_popul[resident_popul['기준_년분기_코드'] == 20232].drop(['기준_년분기_코드'],axis=1)

## 2-3. 점포 전처리

### 2-3-1. 변수 처리

In [8]:
# 필요한 변수 선택
store = store[['기준_년분기_코드', '상권_구분_코드_명', '상권_코드_명', '서비스_업종_코드_명',
              '유사_업종_점포_수']]

### 2-3-2. 분기별 데이터 연도 기준 변환

In [9]:
store_year = store[store['기준_년분기_코드'] == 20232].drop('기준_년분기_코드', axis = 1)\
                                                    .groupby(['상권_구분_코드_명', '상권_코드_명', '서비스_업종_코드_명'], as_index = False)\
                                                    .sum()

## 2-4. 직장인구 전처리

### 2-4-1. 변수 처리

In [10]:
working_popul = working_popul[['기준_년분기_코드', '상권_구분_코드_명', '상권_코드_명', '총_직장_인구_수',
                              '연령대_10_직장_인구_수', '연령대_20_직장_인구_수', '연령대_30_직장_인구_수',
                              '연령대_40_직장_인구_수', '연령대_50_직장_인구_수', '연령대_60_이상_직장_인구_수']]

### 2-4-3. 분기별 데이터 연도 기준 변환

In [11]:
working_popul_year = working_popul[working_popul['기준_년분기_코드'] == 20232].drop(['기준_년분기_코드'],axis=1)

## 2-5. 집객시설 전처리

### 2-5-1. 변수 처리

In [12]:
# 파생변수 생성
facilitie['교통시설수'] = facilitie['버스_정거장_수'] + facilitie['지하철_역_수']
 
facilitie['집객시설수'] = facilitie['집객시설_수']-facilitie['교통시설수']

# 필요한 변수 선택
facilitie = facilitie[['기준_년분기_코드', '상권_구분_코드_명', '상권_코드_명', '집객시설수', '교통시설수' ]]

In [13]:
# 결측값 0으로 대체
facilitie = facilitie.fillna(0)

### 2-5-3. 분기별 데이터 연도 기준 변환

In [14]:
facilitie_year = facilitie[facilitie['기준_년분기_코드'] == 20232].drop(['기준_년분기_코드'], axis = 1)

## 2-6. 추정매출 전처리

### 2-6-1. 변수 처리

In [15]:
# 필요한 변수 선택
estimated_sales = estimated_sales[['기준_년분기_코드', '상권_구분_코드_명', '상권_코드_명', 
                                  '서비스_업종_코드_명', '당월_매출_금액', '연령대_10_매출_금액',
                                  '연령대_20_매출_금액', '연령대_30_매출_금액', '연령대_40_매출_금액',
                                  '연령대_50_매출_금액', '연령대_60_이상_매출_금액']]

### 2-6-3. 분기별 데이터 연도 기준 변환

In [16]:
estimated_sales_year = estimated_sales.drop(columns = ['기준_년분기_코드'])\
                                      .groupby(['상권_구분_코드_명', '상권_코드_명', '서비스_업종_코드_명'])\
                                      .mean()\
                                      .reset_index()

## 2-7. 영역 전처리

### 2-7-1. 변수처리

In [17]:
area = area[['상권_구분_코드_명', '상권_코드_명', '자치구_코드_명']]

## 2-7. 데이터 병합

In [18]:
preprocessed_df = pd.merge(living_popul_year, resident_popul_year)
preprocessed_df = pd.merge(preprocessed_df, store_year)
preprocessed_df = pd.merge(preprocessed_df, working_popul_year)
preprocessed_df = pd.merge(preprocessed_df, facilitie_year)
preprocessed_df = pd.merge(preprocessed_df, estimated_sales_year)
preprocessed_df = pd.merge(preprocessed_df, area)

# 3. 군집화 알고리즘

In [19]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import LabelEncoder, StandardScaler
from sklearn.cluster import DBSCAN, KMeans

def categorization(df):
    col_num = list(df.select_dtypes(include = 'number').columns)

    for col in col_num:
        unique_bin_edges = np.unique(df[col])
        
        # 중복된 경계를 제거하고 qcut 적용
        _, bins = pd.qcut(df[col], 
                           q=[0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1],
                           labels=False,  # labels를 False로 지정하여 정수형 라벨 생성
                           duplicates='drop',
                           retbins=True)  # 경계만을 반환하도록 수정
        
        # 중복된 경계를 제거하고 cut 적용
        df[f'{col}_category'] = pd.cut(df[col], bins=bins, labels=False, include_lowest=True)
    
    df.drop(columns = col_num, inplace = True)

def clustering(df):
    ### 모델 학습 부분
    df_service = list(df['서비스_업종_코드_명'].unique())
    train = df[['서비스_업종_코드_명', '집객시설수', '당월_매출_금액', '유사_업종_점포_수', '교통시설수', '총_상주인구_수', '총_유동인구_수', '총_직장_인구_수']]
    df_length = 0
    #
    for i in df_service:
        temp = train[train['서비스_업종_코드_명'] == i]

        categorization(temp)
        
        scaler = StandardScaler()
        col_num = list(temp.select_dtypes(include = 'number').columns)
        temp[col_num] = scaler.fit_transform(temp[col_num])
        
        col_cat = list(temp.select_dtypes(include = 'object').columns)
        le = LabelEncoder()
        temp[col_cat] = temp[col_cat].apply(le.fit_transform)
        
        kmeans = KMeans(n_clusters=4, random_state=2023)
        kmeans.fit(temp)
        labels = kmeans.predict(temp)
        
        result = df[df['서비스_업종_코드_명'] == i]
        result['cluster'] = labels
        result.to_csv(f"./cluster/{i}.csv", index = False)

In [20]:
preprocessed_df.loc[preprocessed_df['서비스_업종_코드_명'] == '운동/경기용품', ['서비스_업종_코드_명']] = '운동경기용품'
clustering(preprocessed_df)