# 서울시 생활인구
## 서울 생활인구 현황 (2022.09.28. 기준)
### url: https://data.seoul.go.kr/dataVisual/seoul/seoulLivingPopulation.do

1. 집계구 단위 서울 생활인구(내국인)
    - url: https://data.seoul.go.kr/dataList/OA-14979/F/1/datasetView.do
    - 설명: 서울시가 보유한 공공데이터와 통신데이터로 측정한 특정시점에 서울의 특정 지역에 존재하는 인구 중 내국인

<!-- <br> -->


2. 집계구 단위 서울 생활인구(장기체류 외국인)
    - url: https://data.seoul.go.kr/dataList/OA-14978/F/1/datasetView.do
    - 설명:서울시가 보유한 공공데이터와 통신데이터로 측정한 특정시점에 서울의 특정 지역에 존재하는 인구 중 장기체류 외국인

<!-- <br> -->


3. 집계구 단위 서울 생활인구(단기체류 외국인)
    - url: https://data.seoul.go.kr/dataList/OA-14980/F/1/datasetView.do
    - 설명:서울시가 보유한 공공데이터와 통신데이터로 측정한 특정시점에 서울의 특정 지역에 존재하는 인구 중 단기체류 외국인

<!-- <br> -->



※ 개인정보 비 식별화를 위하여 ‘3명’ 이하인 경우 “ * ” 처리


In [1]:
import os
import glob
import pandas as pd
import numpy as np

In [2]:
from tqdm.auto import tqdm, trange
from time import sleep

## 1. 집계구 단위 서울 생활인구(내국인)
    - a)2022년 01월~08월
    - b)2019년, 2020년, 2021년
    - 2019년 10월 15-27일 데이터 없음
## 2. 집계구 단위 서울 생활인구(장기체류 외국인)
    - a)2022년 01월~08월
    - b)2019년, 2020년, 2021년
## 3. 집계구 단위 서울 생활인구(단기체류 외국인)
    - a)2022년 01월~08월
    - b)2019년, 2020년, 2021년

In [3]:
# 폴더 안 파일명 리스트 가져오기
local_people_2019_list = []
local_people_2020_list = []
local_people_2021_list = []

long_foreigner_list = []
temp_foreinger_list= []
pbar = tqdm(os.listdir(r"./data/집계동 단위 서울 생활인구/local_people/2019"))
for file in pbar:
    if file.endswith(".csv"):
        pbar.set_description(file)
        local_people_2019_list.append(file)
        
pbar = tqdm(os.listdir(r"./data/집계동 단위 서울 생활인구/local_people/2020"))
for file in pbar:
    if file.endswith(".csv"):
        pbar.set_description(file)
        local_people_2020_list.append(file)
        
pbar = tqdm(os.listdir(r"./data/집계동 단위 서울 생활인구/local_people/2021"))
for file in pbar:
    if file.endswith(".csv"):
        pbar.set_description(file)
        local_people_2021_list.append(file)

pbar = tqdm(os.listdir(r"./data/집계동 단위 서울 생활인구/long_foreigner/"))
for file in pbar:
    if file.endswith(".csv"):
        pbar.set_description(file)
        long_foreigner_list.append(file)
 
pbar = tqdm(os.listdir(r"./data/집계동 단위 서울 생활인구/temp_foreigner/"))
for file in pbar:
    if file.endswith(".csv"):
        pbar.set_description(file)
        temp_foreinger_list.append(file)

local_people_2019_list.sort()
local_people_2020_list.sort()
local_people_2021_list.sort()
long_foreigner_list.sort()
temp_foreinger_list.sort()

print("local_people_2019_list >>", len(local_people_2019_list))
print("local_people_2020_list >>", len(local_people_2020_list))
print("local_people_2021_list >>", len(local_people_2021_list))

print("long_foreigner_list >>", long_foreigner_list)
print("temp_foreinger_list >>", temp_foreinger_list)

  0%|          | 0/352 [00:00<?, ?it/s]

  0%|          | 0/366 [00:00<?, ?it/s]

  0%|          | 0/365 [00:00<?, ?it/s]

  0%|          | 0/1 [00:00<?, ?it/s]

  0%|          | 0/1 [00:00<?, ?it/s]

local_people_2019_list >> 351
local_people_2020_list >> 366
local_people_2021_list >> 365
long_foreigner_list >> ['LONG_FOREIGNER_20220924.csv']
temp_foreinger_list >> ['TEMP_FOREIGNER_20220924.csv']


In [4]:
def data_process(file_list, path):
    df_sum_per_day_list = []
    problem_list = []
    pbar = tqdm(file_list)
    for file in pbar:
        pbar.set_description(file) # pbar description에 작업중인 파일명 업데이트
        try:df_temp = pd.read_csv(path + file, encoding="utf-8", na_values="*")
        except: 
            # df_temp = pd.read_csv(path + file, encoding="euc-kr", na_values="*")
            print("encoding문제 파일 >>", file)
            problem_list.append(file)
            continue
        df_temp.rename(columns={'?"기준일ID"' : '기준일ID'})
        #결측값 0으로 대체
        df_temp.fillna(0, inplace=True)         
        df_temp = create_dates(df_temp)
        df_sum_per_day = combine_ages(df_temp)
        df_sum_per_day_list.append(df_sum_per_day)
    df_concat = pd.concat(df_sum_per_day_list)
    return df_concat

In [5]:
# 기준일ID 컬럼을 date형식으로 변환
# 년, 월 컬럼 생성
def create_dates(df_temp):
    df_temp.insert(0, '날짜', pd.to_datetime(df_temp['기준일ID'], format='%Y%m%d'))
    df_temp.insert(1, '년', df_temp['날짜'].dt.year)
    df_temp.insert(2, '월', df_temp['날짜'].dt.month)

    # 주말 여부 컬럼 생성
    df_temp.insert(3, "주말", df_temp['날짜'].dt.dayofweek > 4)

    # 기준일ID컬럼 drop
    df_temp.drop(columns=['기준일ID', '시간대구분'], inplace=True)
    return df_temp

In [33]:
def combine_ages(df_temp):
    cols = [
    '남자0세부터9세생활인구수', '여자0세부터9세생활인구수', 
    '남자10세부터14세생활인구수', '남자15세부터19세생활인구수', '여자10세부터14세생활인구수', '여자15세부터19세생활인구수', 
    '남자20세부터24세생활인구수', '남자25세부터29세생활인구수', '여자20세부터24세생활인구수', '여자25세부터29세생활인구수',
    '남자30세부터34세생활인구수', '남자35세부터39세생활인구수', '여자30세부터34세생활인구수', '여자35세부터39세생활인구수', 
    '남자40세부터44세생활인구수', '남자45세부터49세생활인구수', '여자40세부터44세생활인구수', '여자45세부터49세생활인구수', 
    '남자50세부터54세생활인구수', '남자55세부터59세생활인구수', '여자50세부터54세생활인구수', '여자55세부터59세생활인구수', 
    '남자60세부터64세생활인구수', '남자65세부터69세생활인구수', '여자60세부터64세생활인구수', '여자65세부터69세생활인구수', 
    '남자70세이상생활인구수', '여자70세이상생활인구수'
    ]
    df_temp['10세 이하'] = df_temp.남자0세부터9세생활인구수 + df_temp.여자0세부터9세생활인구수
    df_temp['10대'] = df_temp.남자10세부터14세생활인구수 + df_temp.남자15세부터19세생활인구수 + df_temp.여자10세부터14세생활인구수 + df_temp.여자15세부터19세생활인구수
    df_temp['20대'] = df_temp.남자20세부터24세생활인구수 + df_temp.남자25세부터29세생활인구수 + df_temp.여자20세부터24세생활인구수 + df_temp.여자25세부터29세생활인구수
    df_temp['30대'] = df_temp.남자30세부터34세생활인구수 + df_temp.남자35세부터39세생활인구수 + df_temp.여자30세부터34세생활인구수 + df_temp.여자35세부터39세생활인구수
    df_temp['40대'] = df_temp.남자40세부터44세생활인구수 + df_temp.남자45세부터49세생활인구수 + df_temp.여자40세부터44세생활인구수 + df_temp.여자45세부터49세생활인구수
    df_temp['50대'] = df_temp.남자50세부터54세생활인구수 + df_temp.남자55세부터59세생활인구수 + df_temp.여자50세부터54세생활인구수 + df_temp.여자55세부터59세생활인구수
    df_temp['60대'] = df_temp.남자60세부터64세생활인구수 + df_temp.남자65세부터69세생활인구수 + df_temp.여자60세부터64세생활인구수 + df_temp.여자65세부터69세생활인구수
    df_temp['70세 이상'] = df_temp.남자70세이상생활인구수 + df_temp.여자70세이상생활인구수
    df_temp.drop(columns=cols, inplace=True)
    df_sum_per_day = df_temp.groupby(['날짜', '년', '월', '주말', '행정동코드', '집계구코드']).sum()
    return df_sum_per_day

In [34]:
# #define how to aggregate various fields
# agg_functions = {'년':'first', '월':'first', '주말':'first', '행정동코드': 'first', '집계구코드':'first', '10세 이하': 'sum', '10대': 'sum', '20대': 'sum', '30대': 'sum', '40대': 'sum', '50대': 'sum', '60대': 'sum', '70세 이상': 'sum', '총생활인구수': 'sum'}

# #create new DataFrame by combining rows with same id values
# df_new = df_temp.groupby(df_temp['날짜']).aggregate(agg_functions)
# df_new

In [35]:
local_people_2019_df = data_process(local_people_2019_list, "./data/집계동 단위 서울 생활인구/local_people/2019/")

  0%|          | 0/351 [00:00<?, ?it/s]

encoding문제 파일 >> LOCAL_PEOPLE_20190902.csv
encoding문제 파일 >> LOCAL_PEOPLE_20190903.csv
encoding문제 파일 >> LOCAL_PEOPLE_20191030.csv


In [None]:
def monthly_average

In [72]:
print(local_people_2019_df.info())

<class 'pandas.core.frame.DataFrame'>
MultiIndex: 6722699 entries, (Timestamp('2019-01-01 00:00:00'), 2019, 1, False, 11110515, 1101072010001) to (Timestamp('2019-12-31 00:00:00'), 2019, 12, False, 11740700, 1125071023701)
Data columns (total 9 columns):
 #   Column  Dtype  
---  ------  -----  
 0   총생활인구수  float64
 1   10세 이하  float64
 2   10대     float64
 3   20대     float64
 4   30대     float64
 5   40대     float64
 6   50대     float64
 7   60대     float64
 8   70세 이상  float64
dtypes: float64(9)
memory usage: 520.0 MB
None


In [37]:
local_people_2019_df.drop(columns=['Unnamed: 33', 'Unnamed: 34', 'Unnamed: 35', 'Unnamed: 36','Unnamed: 37'], inplace=True)

In [38]:
local_people_2019_df.info()

<class 'pandas.core.frame.DataFrame'>
MultiIndex: 6722699 entries, (Timestamp('2019-01-01 00:00:00'), 2019, 1, False, 11110515, 1101072010001) to (Timestamp('2019-12-31 00:00:00'), 2019, 12, False, 11740700, 1125071023701)
Data columns (total 9 columns):
 #   Column  Dtype  
---  ------  -----  
 0   총생활인구수  float64
 1   10세 이하  float64
 2   10대     float64
 3   20대     float64
 4   30대     float64
 5   40대     float64
 6   50대     float64
 7   60대     float64
 8   70세 이상  float64
dtypes: float64(9)
memory usage: 520.0 MB


In [39]:
local_people_2019_df.shape

(6722699, 9)

In [75]:
local_people_2019_df_month = local_people_2019_df.groupby(['년', '월', '주말', '행정동코드', '집계구코드']).mean()


In [78]:
local_people_2019_df_month

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,Unnamed: 4_level_0,총생활인구수,10세 이하,10대,20대,30대,40대,50대,60대,70세 이상
년,월,주말,행정동코드,집계구코드,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
2019,1,False,11110515,1101072010001,7263.086957,509.826087,638.956522,1075.521739,1074.826087,1282.086957,965.869565,491.130435,757.608696
2019,1,False,11110515,1101072010002,17644.826087,931.565217,1494.478261,2579.217391,2820.347826,3162.130435,2357.130435,1726.869565,2247.173913
2019,1,False,11110515,1101072010003,6829.304348,455.260870,639.434783,881.695652,974.739130,1207.304348,934.043478,552.304348,709.347826
2019,1,False,11110515,1101072010004,6611.000000,488.739130,587.652174,961.956522,929.478261,1052.217391,837.086957,554.695652,704.043478
2019,1,False,11110515,1101072010005,5836.652174,422.391304,543.739130,767.000000,814.608696,1059.086957,769.782609,322.478261,577.391304
2019,...,...,...,...,...,...,...,...,...,...,...,...,...
2019,12,True,11740700,1125071022201,13529.555556,883.777778,1273.333333,1520.111111,1973.777778,2294.222222,1936.888889,1602.222222,1576.111111
2019,12,True,11740700,1125071022202,3811.222222,207.444444,259.888889,345.111111,484.777778,573.666667,445.555556,341.222222,383.000000
2019,12,True,11740700,1125071022501,17967.555556,1148.888889,1325.777778,1712.555556,2414.111111,2802.444444,2726.333333,2643.000000,2768.888889
2019,12,True,11740700,1125071022701,4231.222222,376.000000,400.888889,316.111111,426.888889,488.333333,613.333333,471.444444,449.222222


In [83]:
local_people_2019_df_month[]

SyntaxError: invalid syntax (4099536750.py, line 1)

In [87]:
local_people_2019_df_month.loc[(2019, 1, False, 11110515)]

Unnamed: 0_level_0,총생활인구수,10세 이하,10대,20대,30대,40대,50대,60대,70세 이상
집계구코드,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1101072010001,7263.086957,509.826087,638.956522,1075.521739,1074.826087,1282.086957,965.869565,491.130435,757.608696
1101072010002,17644.826087,931.565217,1494.478261,2579.217391,2820.347826,3162.130435,2357.130435,1726.869565,2247.173913
1101072010003,6829.304348,455.26087,639.434783,881.695652,974.73913,1207.304348,934.043478,552.304348,709.347826
1101072010004,6611.0,488.73913,587.652174,961.956522,929.478261,1052.217391,837.086957,554.695652,704.043478
1101072010005,5836.652174,422.391304,543.73913,767.0,814.608696,1059.086957,769.782609,322.478261,577.391304
1101072010006,3255.086957,195.956522,168.782609,190.565217,354.391304,549.434783,271.565217,194.782609,383.73913
1101072010007,5247.304348,391.695652,442.956522,618.347826,695.391304,892.217391,614.0,425.782609,593.956522
1101072010008,10947.043478,841.043478,1097.521739,1652.608696,1721.652174,2050.043478,1459.130435,677.869565,1056.086957
1101072010009,48973.782609,2020.217391,3423.521739,8256.869565,8716.869565,9050.73913,6793.130435,4565.391304,5823.956522
1101072010010,11861.173913,912.73913,1223.913043,1787.173913,1873.391304,2211.695652,1586.0,784.347826,1134.826087


In [88]:
local_people_2019_df_month.loc[(2019, 1, True, 11110515)]

Unnamed: 0_level_0,총생활인구수,10세 이하,10대,20대,30대,40대,50대,60대,70세 이상
집계구코드,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1101072010001,6807.75,455.75,591.625,1003.875,935.0,1144.625,908.125,460.75,808.5
1101072010002,17123.75,875.25,1390.0,2828.625,2655.75,3060.25,2291.25,1626.5,2073.25
1101072010003,6124.375,364.75,455.5,852.875,794.875,1076.25,898.875,499.375,660.75
1101072010004,8370.0,588.125,756.625,1161.25,1166.625,1372.0,1044.75,732.75,1014.125
1101072010005,5853.0,388.75,469.375,803.75,804.75,1047.5,815.25,345.375,657.875
1101072010006,3160.75,187.25,178.5,189.25,365.0,600.5,267.375,205.5,345.625
1101072010007,6410.875,469.25,552.875,724.25,876.875,1211.75,744.25,592.625,797.625
1101072010008,8507.25,610.75,768.875,1227.125,1206.0,1531.125,1184.875,527.875,986.375
1101072010009,48116.125,1995.875,3460.375,8955.0,7842.25,8278.875,6380.5,4700.5,6176.375
1101072010010,9095.25,645.0,831.75,1347.0,1306.625,1631.125,1278.125,617.0,1055.5


In [9]:
# local_people_2019_df = concat_files(local_people_2019_list, "./data/집계동 단위 서울 생활인구/local_people/2019/")
# local_people_2020_df = concat_files(local_people_2020_list, "./data/집계동 단위 서울 생활인구/local_people/2020/")
# local_people_2021_df = concat_files(local_people_2021_list, "./data/집계동 단위 서울 생활인구/local_people/2021/")


# long_foreigner_df = concat_files(long_foreigner_list, "./data/집계동 단위 서울 생활인구/long_foreigner/")
# temp_foreinger_df = concat_files(temp_foreinger_list, "./data/집계동 단위 서울 생활인구/temp_foreigner/")
# print("local_people_df.shape >>", local_people_df.shape)
# print("long_foreigner_df.shape >>", long_foreigner_df.shape)
# print("temp_foreinger_df.shape >>", temp_foreinger_df.shape)

In [10]:
# # 결측값 0으로 대체
# local_people_df.fillna(0, inplace=True)
# local_people_df.info()

In [11]:
# for col in tqdm(cols):
#     if col

In [12]:
# local_people_df['10대 남성'] = local_people_df.남자10세부터14세생활인구수 + local_people_df.남자15세부터19세생활인구수
# local_people_df['20대 남성'] = 