# 사회적 활동성 지표 산출

In [1]:
import pandas as pd
# 서울 시민 생활이동 데이터 로드
life_df = pd.read_excel('2024.9월_29개 통신정보.xlsx')
# 사회적 활동성 지표에 필요한 컬럼 추출
life_df =life_df[['자치구','행정동','성별','연령대','총인구수','1인가구수','평균 통화량','평균 문자량','평균 통화대상자 수','평균 문자대상자 수',
         '주간상주지 변경횟수 평균','휴일 총 이동 횟수 평균','휴일 총 이동 거리 합계']]

# 대졸 신입 평균 연령대부터 정년퇴임 나이까지 필터링
life_df = life_df[(life_df['연령대'] >= 30) & (life_df['연령대'] <= 60)]

life_df

Unnamed: 0,자치구,행정동,성별,연령대,총인구수,1인가구수,평균 통화량,평균 문자량,평균 통화대상자 수,평균 문자대상자 수,주간상주지 변경횟수 평균,휴일 총 이동 횟수 평균,휴일 총 이동 거리 합계
2,종로구,사직동,1,30,368.0,124.74,72.29,8.29,14.53,5.32,2.63,9.98,549.90
3,종로구,사직동,1,35,376.0,115.89,67.75,10.14,15.69,6.21,2.43,8.36,432.91
4,종로구,사직동,1,40,404.0,97.88,73.51,10.23,17.27,6.08,2.50,8.51,466.67
5,종로구,사직동,1,45,396.0,93.61,66.05,13.81,17.24,6.48,2.35,8.92,505.36
6,종로구,사직동,1,50,522.0,80.61,64.44,12.83,17.10,6.23,2.47,8.87,527.67
...,...,...,...,...,...,...,...,...,...,...,...,...,...
10168,강동구,길동,2,40,1732.0,277.36,72.30,13.67,12.32,6.17,2.53,7.23,335.66
10169,강동구,길동,2,45,1819.0,281.42,72.96,14.23,13.02,6.04,2.50,7.40,326.85
10170,강동구,길동,2,50,2192.0,270.06,72.42,16.48,13.34,5.62,2.53,7.42,346.03
10171,강동구,길동,2,55,2342.0,293.67,73.84,12.00,14.08,5.16,2.63,7.46,353.53


In [2]:
# 자치구별 집계
grouped_gu = life_df.groupby('자치구').agg({
    '총인구수': 'sum',
    '평균 통화량': 'mean',
    '평균 문자량': 'mean',
    '평균 통화대상자 수': 'mean',
    '평균 문자대상자 수': 'mean',
    '주간상주지 변경횟수 평균': 'mean',
    '휴일 총 이동 횟수 평균': 'mean',
    '휴일 총 이동 거리 합계': 'mean'
}).reset_index()

grouped_gu

Unnamed: 0,자치구,총인구수,평균 통화량,평균 문자량,평균 통화대상자 수,평균 문자대상자 수,주간상주지 변경횟수 평균,휴일 총 이동 횟수 평균,휴일 총 이동 거리 합계
0,강남구,334699.0,70.416753,12.942857,15.704123,6.421656,2.310227,9.074545,438.123604
1,강동구,273468.0,65.969603,12.340079,14.969167,5.824444,2.326349,8.637024,420.973333
2,강북구,176619.0,63.387967,13.100879,13.682143,5.268462,2.451538,8.002912,372.57478
3,강서구,337336.0,65.26625,12.428964,14.360143,5.592571,2.421107,8.364393,429.802536
4,관악구,283312.0,63.240646,12.952075,13.417279,5.455306,2.505544,7.864966,404.012857
5,광진구,203098.0,64.034571,12.330714,14.319429,5.61781,2.429619,8.235,408.860905
6,구로구,264774.0,63.634667,12.645476,14.10819,5.497143,2.436952,8.004952,408.903952
7,금천구,154212.0,65.388357,12.578643,14.082786,5.444786,2.4975,8.090929,407.946286
8,노원구,296449.0,64.792519,12.744135,14.284323,5.609398,2.233534,8.285714,399.489737
9,도봉구,187767.0,64.22102,12.925204,13.979898,5.4075,2.347551,8.211071,384.59801


In [3]:
# 사회 활동성 통합 지표 생성 - 가중치 동일하게 적용
grouped_gu['소통 빈도'] = (grouped_gu['평균 통화량'] + grouped_gu['평균 문자량']) / 2
grouped_gu['네트워크 크기'] = (grouped_gu['평균 통화대상자 수'] + grouped_gu['평균 문자대상자 수']) / 2

# 통합 지표 계산
grouped_gu['통합 활동성 지표'] = (grouped_gu['소통 빈도'] + grouped_gu['네트워크 크기'] + grouped_gu['휴일 총 이동 횟수 평균'] + grouped_gu['휴일 총 이동 거리 합계']) / 4

social_df = grouped_gu[['자치구','소통 빈도','네트워크 크기','휴일 총 이동 횟수 평균','휴일 총 이동 거리 합계','통합 활동성 지표']]

social_df

Unnamed: 0,자치구,소통 빈도,네트워크 크기,휴일 총 이동 횟수 평균,휴일 총 이동 거리 합계,통합 활동성 지표
0,강남구,41.679805,11.06289,9.074545,438.123604,124.985211
1,강동구,39.154841,10.396806,8.637024,420.973333,119.790501
2,강북구,38.244423,9.475302,8.002912,372.57478,107.074354
3,강서구,38.847607,9.976357,8.364393,429.802536,121.747723
4,관악구,38.096361,9.436293,7.864966,404.012857,114.852619
5,광진구,38.182643,9.968619,8.235,408.860905,116.311792
6,구로구,38.140071,9.802667,8.004952,408.903952,116.212911
7,금천구,38.9835,9.763786,8.090929,407.946286,116.196125
8,노원구,38.768327,9.946861,8.285714,399.489737,114.12266
9,도봉구,38.573112,9.693699,8.211071,384.59801,110.268973


# 지역별 소득 평균 결합

In [4]:
# 소득데이터 로드
import pandas as pd
wage_df = pd.read_csv('서울시 상권분석서비스(소득소비-자치구).csv', encoding='ANSI').loc[:,'기준_년분기_코드':'지출_총금액']
# 가장 최근 기준 평균 소득 추출하기
wage_df = wage_df[wage_df['기준_년분기_코드'] == 20242].loc[:,'행정동_코드_명':'월_평균_소득_금액'].reset_index(drop=True)
wage_df = wage_df.rename(columns = {'행정동_코드_명':'자치구'})
# social_df와 join
df = pd.merge(wage_df, social_df, on = '자치구', how='left')
wage_df

Unnamed: 0,자치구,월_평균_소득_금액
0,성동구,3734499
1,중랑구,2598785
2,양천구,3796034
3,도봉구,2785111
4,은평구,2912739
5,구로구,2994059
6,강남구,4943841
7,동대문구,3030256
8,서대문구,3417706
9,마포구,3832436


# 지역별 평균 임대료 데이터 결합

In [5]:
# 임대료 데이터 로드
rental_df = pd.read_csv('상권별_상업용_중대형상가_임대료.csv')

In [6]:
# 상업지역 - 자치구 매핑
mapping_table = {
    # 종로구
    "광화문": "종로구",
    "동대문": "종로구",
    "종로": "종로구",
    "혜화동": "종로구",
    # 중구
    "남대문": "중구",
    "명동": "중구",
    "시청": "중구",
    "을지로": "중구",
    "충무로": "중구",
    # 서초구
    "강남대로": "서초구",
    "교대역": "서초구",
    "남부터미널": "서초구",
    "방배역/내방역": "서초구",
    "서래마을": "서초구",
    "양재말죽거리": "서초구",
    "양재역": "서초구",
    # 강남구
    "논현역": "강남구",
    "도산대로": "강남구",
    "신사역": "강남구",
    "압구정": "강남구",
    "청담": "강남구",
    "테헤란로": "강남구",
    "학동/강남구청역": "강남구",
    # 마포구
    "공덕역": "마포구",
    "동교/연남": "마포구",
    "망원역": "마포구",
    "홍대/합정": "마포구",
    # 영등포구
    "당산역": "영등포구",
    "영등포역": "영등포구",
    # 송파구
    "가락시장": "송파구",
    "잠실/송파": "송파구",
    "잠실새내역": "송파구",
    # 광진구
    "건대입구": "광진구",
    "구의역": "광진구",
    "군자": "광진구",
    # 동대문구
    "경희대": "동대문구",
    "장안동": "동대문구",
    "청량리": "동대문구",
    # 구로구
    "구로디지털단지역": "구로구",
    "오류동역": "구로구",
    # 동작구
    "노량진": "동작구",
    "사당": "동작구",
    # 금천구
    "독산/시흥": "금천구",
    # 성동구
    "뚝섬": "성동구",
    "왕십리": "성동구",
    # 양천구
    "목동": "양천구",
    # 강북구
    "미아사거리": "강북구",
    "수유": "강북구",
    # 은평구
    "불광역": "은평구",
    "연신내": "은평구",
    # 노원구
    "상계역": "노원구",
    # 중랑구
    "상봉역": "중랑구",
    # 관악구
    "서울대입구역": "관악구",
    "신림역": "관악구",
    # 성북구
    "성신여대": "성북구",
    # 용산구
    "숙명여대": "용산구",
    "용산역": "용산구",
    "이태원": "용산구",
    # 강동구
    "천호": "강동구",
    # 강서구
    "화곡": "강서구"
}

# 매핑 적용
rental_df["자치구"] = rental_df["하위상권"].map(mapping_table)
rental_df['하위상권'] = rental_df['하위상권'].dropna(axis=0)

In [7]:
# 자치구 단위 평균 집계
grouped_rental = rental_df.groupby('자치구')['평당_임대료'].mean().reset_index()

# 도봉구 / 서대문구 인근지역 평균값으로 채우기

# 도봉구는 강북구, 강서구 임대료의 평균
도봉구_임대료 = (grouped_rental.loc[2, '평당_임대료'] + grouped_rental.loc[9, '평당_임대료']) /2
# 서대문구는 마포구, 종로구의 평균
서대문구_임대료 = (grouped_rental.loc[11, '평당_임대료'] + grouped_rental.loc[20, '평당_임대료']) / 2
grouped_rental.loc[23] = ['도봉구', 도봉구_임대료]
grouped_rental.loc[24] = ['서대문구', 서대문구_임대료]

grouped_rental

Unnamed: 0,자치구,평당_임대료
0,강남구,90412.430839
1,강동구,62032.761905
2,강북구,60838.984127
3,강서구,51202.460317
4,관악구,94177.579365
5,광진구,65737.719577
6,구로구,62742.111111
7,금천구,59301.015873
8,노원구,49949.222222
9,동대문구,58374.301587


In [8]:
# 임대료 데이터 병합
df = df.merge(grouped_rental , on = '자치구', how = 'left')
df

Unnamed: 0,자치구,월_평균_소득_금액,소통 빈도,네트워크 크기,휴일 총 이동 횟수 평균,휴일 총 이동 거리 합계,통합 활동성 지표,평당_임대료
0,성동구,3734499,38.423971,10.333319,8.398866,426.856134,121.003072,65837.5
1,중랑구,2598785,38.692946,9.832455,8.141696,397.036518,113.425904,66781.555556
2,양천구,3796034,39.516806,10.340278,8.334444,414.532143,118.180918,53442.936508
3,도봉구,2785111,38.573112,9.693699,8.211071,384.59801,110.268973,59606.642857
4,은평구,2912739,38.021786,9.753147,8.358393,386.65808,110.697852,64035.071429
5,구로구,2994059,38.140071,9.802667,8.004952,408.903952,116.212911,62742.111111
6,강남구,4943841,41.679805,11.06289,9.074545,438.123604,124.985211,90412.430839
7,동대문구,3030256,38.199566,10.075485,8.074133,406.83949,115.797168,58374.301587
8,서대문구,3417706,37.394133,10.064337,8.366939,413.866837,117.423061,83396.581349
9,마포구,3832436,37.413103,10.023013,8.125223,416.420759,117.995525,75973.805556


# 사업체수, 종사자수 데이터 결합

In [9]:
# 자치구별 사업체 현황 데이터 join
company_df = pd.read_csv('사업체_종사자_현황.csv').loc[2:, '동별(2)':]
company_df = company_df.rename(columns = {'동별(2)':'자치구','2022':'사업체수','2022.1':'종사자수'})

df = df.merge(company_df, on='자치구', how='left')

In [10]:
df

Unnamed: 0,자치구,월_평균_소득_금액,소통 빈도,네트워크 크기,휴일 총 이동 횟수 평균,휴일 총 이동 거리 합계,통합 활동성 지표,평당_임대료,사업체수,종사자수
0,성동구,3734499,38.423971,10.333319,8.398866,426.856134,121.003072,65837.5,41306,205900
1,중랑구,2598785,38.692946,9.832455,8.141696,397.036518,113.425904,66781.555556,40320,114733
2,양천구,3796034,39.516806,10.340278,8.334444,414.532143,118.180918,53442.936508,37774,133815
3,도봉구,2785111,38.573112,9.693699,8.211071,384.59801,110.268973,59606.642857,25193,77618
4,은평구,2912739,38.021786,9.753147,8.358393,386.65808,110.697852,64035.071429,36430,107697
5,구로구,2994059,38.140071,9.802667,8.004952,408.903952,116.212911,62742.111111,52988,242640
6,강남구,4943841,41.679805,11.06289,9.074545,438.123604,124.985211,90412.430839,107804,802908
7,동대문구,3030256,38.199566,10.075485,8.074133,406.83949,115.797168,58374.301587,42491,145879
8,서대문구,3417706,37.394133,10.064337,8.366939,413.866837,117.423061,83396.581349,28427,119608
9,마포구,3832436,37.413103,10.023013,8.125223,416.420759,117.995525,75973.805556,55516,274678


# 산업집중도(HHI) 지수 산출 및 결합

In [11]:
# 업종별 사업체수 로드
industry_df = pd.read_csv('자치구별_업종별_사업체수.csv')

# 결측치 및 '-' 값 처리
industry_df = industry_df.replace('-', 0)  # '-'를 0으로 변환
industry_df.loc[:, industry_df.columns[1:]] = industry_df.loc[:, industry_df.columns[1:]].apply(pd.to_numeric, errors='coerce')  # 숫자형으로 변환

# HHI 계산 함수 적용
def calculate_hhi(row):
    proportions = row / row.sum()  # 업종별 비율 계산
    hhi = (proportions**2).sum()  # 제곱합 계산
    return hhi

# 각 자치구별 HHI 계산
industry_df['산업집중도'] = industry_df.loc[:, industry_df.columns[1:]].apply(calculate_hhi, axis=1)


industry_df = industry_df[['자치구','산업집중도']]

# join
df = df.merge(industry_df, on='자치구',how='left')
df

Unnamed: 0,자치구,월_평균_소득_금액,소통 빈도,네트워크 크기,휴일 총 이동 횟수 평균,휴일 총 이동 거리 합계,통합 활동성 지표,평당_임대료,사업체수,종사자수,산업집중도
0,성동구,3734499,38.423971,10.333319,8.398866,426.856134,121.003072,65837.5,41306,205900,0.129707
1,중랑구,2598785,38.692946,9.832455,8.141696,397.036518,113.425904,66781.555556,40320,114733,0.126689
2,양천구,3796034,39.516806,10.340278,8.334444,414.532143,118.180918,53442.936508,37774,133815,0.126593
3,도봉구,2785111,38.573112,9.693699,8.211071,384.59801,110.268973,59606.642857,25193,77618,0.136191
4,은평구,2912739,38.021786,9.753147,8.358393,386.65808,110.697852,64035.071429,36430,107697,0.130005
5,구로구,2994059,38.140071,9.802667,8.004952,408.903952,116.212911,62742.111111,52988,242640,0.149082
6,강남구,4943841,41.679805,11.06289,9.074545,438.123604,124.985211,90412.430839,107804,802908,0.115875
7,동대문구,3030256,38.199566,10.075485,8.074133,406.83949,115.797168,58374.301587,42491,145879,0.162169
8,서대문구,3417706,37.394133,10.064337,8.366939,413.866837,117.423061,83396.581349,28427,119608,0.120862
9,마포구,3832436,37.413103,10.023013,8.125223,416.420759,117.995525,75973.805556,55516,274678,0.114843


In [13]:
df.to_csv('분석용_데이터셋.csv',encoding='utf-8',index=False)