In [1]:
import pandas as pd

# 1. Load and combine data
df1 = pd.read_csv('Data/big_data_set1_f.csv', encoding='cp949')
df2 = pd.read_csv('Data/big_data_set2_f.csv', encoding='cp949')
df3 = pd.read_csv('Data/big_data_set3_f.csv', encoding='cp949')
df = pd.concat([df1, df2, df3])

In [2]:
# Rename columns for clarity
df.rename(columns={
    'HPSN_MCT_BZN_CD_NM': '업종',
    'HPSN_MCT_ZCD_NM': '상권',
    'ARE_D': '개설일',
    'MCT_ME_D': '폐업일'
}, inplace=True)

In [3]:
# 2. Calculate business lifespan
df_closed = df.dropna(subset=['폐업일'])
df_closed['개설일'] = pd.to_datetime(df_closed['개설일'], format='%Y%m%d')
df_closed['폐업일'] = pd.to_datetime(df_closed['폐업일'], format='%Y%m%d')
df_closed['영업기간'] = (df_closed['폐업일'] - df_closed['개설일']).dt.days

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_closed['개설일'] = pd.to_datetime(df_closed['개설일'], format='%Y%m%d')
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_closed['폐업일'] = pd.to_datetime(df_closed['폐업일'], format='%Y%m%d')
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_closed['영업기간'] = (df_closed['폐업일'] - df_closed['개설일']).dt.days


In [4]:
# 3. Analysis 1: Average lifespan by business category
avg_lifespan_by_category = df_closed.groupby('업종')['영업기간'].mean().reset_index()
avg_lifespan_by_category['평균영업기간_년'] = avg_lifespan_by_category['영업기간'] / 365
print('--- 업종 별 평균 영업 기간 ---')
print(avg_lifespan_by_category[['업종', '평균영업기간_년']].sort_values(by='평균영업기간_년', ascending=False))

--- 업종 별 평균 영업 기간 ---
        업종  평균영업기간_년
3      마장동  7.969406
5      신금호  6.073973
0     금남시장  4.772994
4       성수  4.748989
9      한양대  4.610372
1      답십리  4.584018
8   장한평자동차  4.206849
6       옥수  4.104110
7      왕십리  4.050228
2       뚝섬  3.686454
10      행당  3.356164


In [5]:
# 4. Analysis 2: Average lifespan by commercial district
avg_lifespan_by_district = df_closed.groupby('상권')['영업기간'].mean().reset_index()
avg_lifespan_by_district['평균영업기간_년'] = avg_lifespan_by_district['영업기간'] / 365
print('--- 상권 별 평균 영업 기간 ---')
print(avg_lifespan_by_district[['상권', '평균영업기간_년']].sort_values(by='평균영업기간_년', ascending=False))

--- 상권 별 평균 영업 기간 ---
             상권   평균영업기간_년
11        식품 제조  11.997260
33          햄버거  10.024658
17      일반 유흥주점   8.339726
18      일식-샤브샤브   7.816438
3      동남아/인도음식   7.109589
23          축산물   6.943249
32     한식-해물/생선   6.281644
26        커피전문점   6.183014
4       떡/한과 제조   6.041096
29    한식-국밥/설렁탕   5.972603
9           수산물   5.873973
24           치킨   5.196477
14          와인바   5.180822
31     한식-육류/고기   4.888917
5        백반/가정식   4.861187
16         요리주점   4.738356
30    한식-단품요리일반   4.532116
22          중식당   3.977169
25           카페   3.960046
7            분식   3.834247
13           양식   3.737769
6          베이커리   3.425571
8      샌드위치/토스트   3.326941
28           피자   3.202740
19  일식-우동/소바/라면   2.945205
34        호프/맥주   2.715068
15          와인샵   2.668493
21    중식-훠궈/마라탕   2.569863
20          일식당   2.062466
2           도시락   1.958904
0     구내식당/푸드코트   1.816438
1        기타세계요리   1.457534
10          식료품   1.386986
27         포장마차   0.904110
12     아이스크림/빙수   0.545205


In [6]:
# 5. Analysis 3: Top 5 business categories per commercial district
top5_by_district = df.groupby(['상권', '업종']).size().reset_index(name='업종수')
top5_by_district = top5_by_district.sort_values(['상권', '업종수'], ascending=[True, False])
top5_results = top5_by_district.groupby('상권').head(5)
print('--- 상권별 가장 많은 업종 BEST 5 ---')
print(top5_results)

--- 상권별 가장 많은 업종 BEST 5 ---
        상권      업종  업종수
2     건강식품     왕십리    4
0     건강식품    금남시장    2
4     건강식품      행당    2
1     건강식품  압구정로데오    1
3     건강식품  장한평자동차    1
..     ...     ...  ...
441  호프/맥주     왕십리   15
442  호프/맥주     한양대   14
438  호프/맥주      성수   12
434  호프/맥주    금남시장    6
436  호프/맥주      뚝섬    6

[291 rows x 3 columns]
