# 서울시 30분 이용통계 (20년)

## 1. 라이브러리 및 데이터 불러오기

In [24]:
import pandas as pd
import numpy as np
import glob
import os

In [25]:
# 2020년 1월부터 12월까지의 csv파일을 하나의 파일로 합치는 작업

input_file = r'data\30분 지하철 30분단위 이용 통계\subway20' # csv파일들이 있는 디렉토리 위치
output_file = r'data\30분 지하철 30분단위 이용 통계\subway20\subway20.csv' # 병합하고 저장하려는 파일명

allFile_list = glob.glob(os.path.join(input_file, 'TBDM_TRNSIT_STAT_SUBWAY_2020*')) # glob함수로 sales_로 시작하는 파일들을 모은다
print(allFile_list)
allData = [] # 읽어 들인 csv파일 내용을 저장할 빈 리스트를 하나 만든다
for file in allFile_list:
    df = pd.read_csv(file) # for구문으로 csv파일들을 읽어 들인다
    allData.append(df) # 빈 리스트에 읽어 들인 내용을 추가한다

dataCombine = pd.concat(allData, axis=0, ignore_index=True) # concat함수를 이용해서 리스트의 내용을 병합
# axis=0은 수직으로 병합함. axis=1은 수평. ignore_index=True는 인데스 값이 기존 순서를 무시하고 순서대로 정렬되도록 한다.
dataCombine.to_csv(output_file, index=False) # to_csv함수로 저장한다. 인데스를 빼려면 False로 설정

['data\\30분 지하철 30분단위 이용 통계\\subway20\\TBDM_TRNSIT_STAT_SUBWAY_202001.csv', 'data\\30분 지하철 30분단위 이용 통계\\subway20\\TBDM_TRNSIT_STAT_SUBWAY_202002.csv', 'data\\30분 지하철 30분단위 이용 통계\\subway20\\TBDM_TRNSIT_STAT_SUBWAY_202003.csv', 'data\\30분 지하철 30분단위 이용 통계\\subway20\\TBDM_TRNSIT_STAT_SUBWAY_202004.csv', 'data\\30분 지하철 30분단위 이용 통계\\subway20\\TBDM_TRNSIT_STAT_SUBWAY_202005.csv', 'data\\30분 지하철 30분단위 이용 통계\\subway20\\TBDM_TRNSIT_STAT_SUBWAY_202006.csv', 'data\\30분 지하철 30분단위 이용 통계\\subway20\\TBDM_TRNSIT_STAT_SUBWAY_202007.csv', 'data\\30분 지하철 30분단위 이용 통계\\subway20\\TBDM_TRNSIT_STAT_SUBWAY_202008.csv', 'data\\30분 지하철 30분단위 이용 통계\\subway20\\TBDM_TRNSIT_STAT_SUBWAY_202009.csv', 'data\\30분 지하철 30분단위 이용 통계\\subway20\\TBDM_TRNSIT_STAT_SUBWAY_202010.csv', 'data\\30분 지하철 30분단위 이용 통계\\subway20\\TBDM_TRNSIT_STAT_SUBWAY_202011.csv', 'data\\30분 지하철 30분단위 이용 통계\\subway20\\TBDM_TRNSIT_STAT_SUBWAY_202012.csv']


In [26]:
subway20 = pd.read_csv('./data/30분 지하철 30분단위 이용 통계/subway20/subway20.csv')

## 2. 데이터 전처리

In [27]:
# 필요없다고 생각되는 컬럼 삭제
subway20 = subway20.drop(["`STATION_ID`"], axis = 1)

In [28]:
# 컬럼에 쓰잘데기없는 기호 `(그 키보드에 물결)이 들어가있어서
# rename 진행

subway20 = subway20.rename({'`YEAR`':'YEAR', 
                  '`MONTH`':'MONTH', 
                  '`DAY`':'DAY', 
                  '`HOUR`':'HOUR', 
                  '`HALF_HOUR`':'HALF_HOUR', 
                  '`LINE_NM`':'LINE_NM', 
                  '`STATION_NM`':'STATION_NM', 
                  '`GETON_CNT`':'GETON_CNT', 
                  '`GETOFF_CNT`':'GETOFF_CNT'}, axis='columns')
subway20.head(3)

Unnamed: 0,YEAR,MONTH,DAY,HOUR,HALF_HOUR,LINE_NM,STATION_NM,GETON_CNT,GETOFF_CNT
0,`2020`,`01`,`01`,`04`,`30`,`1호선`,`서울역`,`11`,`1`
1,`2020`,`01`,`01`,`04`,`30`,`1호선`,`시청`,`1`,`0`
2,`2020`,`01`,`01`,`04`,`30`,`1호선`,`종각`,`5`,`2`


In [29]:
# value값에 쓰잘데기없는 `기호 없애기

subway20 = subway20.apply(lambda x: x.str.strip("`"), axis = 0)
subway20.head(3)

Unnamed: 0,YEAR,MONTH,DAY,HOUR,HALF_HOUR,LINE_NM,STATION_NM,GETON_CNT,GETOFF_CNT
0,2020,1,1,4,30,1호선,서울역,11,1
1,2020,1,1,4,30,1호선,시청,1,0
2,2020,1,1,4,30,1호선,종각,5,2


In [30]:
# 데이터셋 정보 확인
subway20.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4712377 entries, 0 to 4712376
Data columns (total 9 columns):
 #   Column      Dtype 
---  ------      ----- 
 0   YEAR        object
 1   MONTH       object
 2   DAY         object
 3   HOUR        object
 4   HALF_HOUR   object
 5   LINE_NM     object
 6   STATION_NM  object
 7   GETON_CNT   object
 8   GETOFF_CNT  object
dtypes: object(9)
memory usage: 323.6+ MB


In [31]:
# 형 변환전 기술통계량 확인

subway20.describe().T

Unnamed: 0,count,unique,top,freq
YEAR,4712377,1,2020,4712377
MONTH,4712377,12,01,407567
DAY,4712377,31,27,155342
HOUR,4712377,24,18,239251
HALF_HOUR,4712377,2,00,2372583
LINE_NM,4712377,11,5호선,744529
STATION_NM,4712377,289,신설동,43775
GETON_CNT,4712377,5960,0,76975
GETOFF_CNT,4712377,6378,0,124402


In [32]:
print(np.iinfo('int16'))
print(np.iinfo('int8'))

Machine parameters for int16
---------------------------------------------------------------
min = -32768
max = 32767
---------------------------------------------------------------

Machine parameters for int8
---------------------------------------------------------------
min = -128
max = 127
---------------------------------------------------------------



In [33]:
subway20['YEAR'] = subway20['YEAR'].astype('int16')  # 2020이므로 int8 불가
subway20['MONTH'] = subway20['MONTH'].astype('int8')
subway20['DAY'] = subway20['DAY'].astype('int8')
subway20['HOUR'] = subway20['HOUR'].astype('int8')
subway20['HALF_HOUR'] = subway20['HALF_HOUR'].astype('int8')
subway20['GETON_CNT'] = subway20['GETON_CNT'].astype('int16') #int8 불가
subway20['GETOFF_CNT'] = subway20['GETOFF_CNT'].astype('int16') #int8 불가
subway20['LINE_NM'] = subway20['LINE_NM'].astype('category')
subway20['STATION_NM'] =  subway20['STATION_NM'].astype('category')

In [34]:
# 최종 용량 확인
subway20.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4712377 entries, 0 to 4712376
Data columns (total 9 columns):
 #   Column      Dtype   
---  ------      -----   
 0   YEAR        int16   
 1   MONTH       int8    
 2   DAY         int8    
 3   HOUR        int8    
 4   HALF_HOUR   int8    
 5   LINE_NM     category
 6   STATION_NM  category
 7   GETON_CNT   int16   
 8   GETOFF_CNT  int16   
dtypes: category(2), int16(3), int8(4)
memory usage: 58.4 MB


In [35]:
subway20.to_csv("subway20_df.csv", index = False)

# 서울시 30분 이용통계 (21년)

## 1. 라이브러리 및 데이터 불러오기

In [36]:
# 2021년 1월부터 12월까지의 csv파일을 하나의 파일로 합치는 작업

input_file = r'data\30분 지하철 30분단위 이용 통계\subway21' # csv파일들이 있는 디렉토리 위치
output_file = r'data\30분 지하철 30분단위 이용 통계\subway21\subway21.csv' # 병합하고 저장하려는 파일명

allFile_list = glob.glob(os.path.join(input_file, 'TBDM_TRNSIT_STAT_SUBWAY_2021*')) # glob함수로 sales_로 시작하는 파일들을 모은다
print(allFile_list)
allData = [] # 읽어 들인 csv파일 내용을 저장할 빈 리스트를 하나 만든다
for file in allFile_list:
    df = pd.read_csv(file) # for구문으로 csv파일들을 읽어 들인다
    allData.append(df) # 빈 리스트에 읽어 들인 내용을 추가한다

dataCombine = pd.concat(allData, axis=0, ignore_index=True) # concat함수를 이용해서 리스트의 내용을 병합
# axis=0은 수직으로 병합함. axis=1은 수평. ignore_index=True는 인데스 값이 기존 순서를 무시하고 순서대로 정렬되도록 한다.
dataCombine.to_csv(output_file, index=False) # to_csv함수로 저장한다. 인데스를 빼려면 False로 설정

['data\\30분 지하철 30분단위 이용 통계\\subway21\\TBDM_TRNSIT_STAT_SUBWAY_202101.csv', 'data\\30분 지하철 30분단위 이용 통계\\subway21\\TBDM_TRNSIT_STAT_SUBWAY_202102.csv', 'data\\30분 지하철 30분단위 이용 통계\\subway21\\TBDM_TRNSIT_STAT_SUBWAY_202103.csv', 'data\\30분 지하철 30분단위 이용 통계\\subway21\\TBDM_TRNSIT_STAT_SUBWAY_202104.csv', 'data\\30분 지하철 30분단위 이용 통계\\subway21\\TBDM_TRNSIT_STAT_SUBWAY_202105.csv', 'data\\30분 지하철 30분단위 이용 통계\\subway21\\TBDM_TRNSIT_STAT_SUBWAY_202106.csv', 'data\\30분 지하철 30분단위 이용 통계\\subway21\\TBDM_TRNSIT_STAT_SUBWAY_202107.csv', 'data\\30분 지하철 30분단위 이용 통계\\subway21\\TBDM_TRNSIT_STAT_SUBWAY_202108.csv', 'data\\30분 지하철 30분단위 이용 통계\\subway21\\TBDM_TRNSIT_STAT_SUBWAY_202109.csv', 'data\\30분 지하철 30분단위 이용 통계\\subway21\\TBDM_TRNSIT_STAT_SUBWAY_202110.csv', 'data\\30분 지하철 30분단위 이용 통계\\subway21\\TBDM_TRNSIT_STAT_SUBWAY_202111.csv', 'data\\30분 지하철 30분단위 이용 통계\\subway21\\TBDM_TRNSIT_STAT_SUBWAY_202112.csv']


In [37]:
subway21 = pd.read_csv('./data/30분 지하철 30분단위 이용 통계/subway21/subway21.csv')

## 2. 데이터 전처리

In [38]:
# 필요없다고 생각되는 컬럼 삭제
subway21 = subway21.drop(["`STATION_ID`"], axis = 1)

In [39]:
# 컬럼에 쓰잘데기없는 기호 `(그 키보드에 물결)이 들어가있어서
# rename 진행

subway21 = subway21.rename({'`YEAR`':'YEAR', 
                  '`MONTH`':'MONTH', 
                  '`DAY`':'DAY', 
                  '`HOUR`':'HOUR', 
                  '`HALF_HOUR`':'HALF_HOUR', 
                  '`LINE_NM`':'LINE_NM', 
                  '`STATION_NM`':'STATION_NM', 
                  '`GETON_CNT`':'GETON_CNT', 
                  '`GETOFF_CNT`':'GETOFF_CNT'}, axis='columns')
subway21.head(3)

Unnamed: 0,YEAR,MONTH,DAY,HOUR,HALF_HOUR,LINE_NM,STATION_NM,GETON_CNT,GETOFF_CNT
0,`2021`,`01`,`01`,`04`,`30`,`1호선`,`서울역`,`2`,`0`
1,`2021`,`01`,`01`,`04`,`30`,`1호선`,`종각`,`1`,`0`
2,`2021`,`01`,`01`,`04`,`30`,`1호선`,`동대문`,`2`,`0`


In [40]:
# value값에 쓰잘데기없는 `기호 없애기

subway21 = subway21.apply(lambda x: x.str.strip("`"), axis = 0)
subway21.head(3)

Unnamed: 0,YEAR,MONTH,DAY,HOUR,HALF_HOUR,LINE_NM,STATION_NM,GETON_CNT,GETOFF_CNT
0,2021,1,1,4,30,1호선,서울역,2,0
1,2021,1,1,4,30,1호선,종각,1,0
2,2021,1,1,4,30,1호선,동대문,2,0


In [41]:
# 데이터셋 정보 확인
subway21.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4708830 entries, 0 to 4708829
Data columns (total 9 columns):
 #   Column      Dtype 
---  ------      ----- 
 0   YEAR        object
 1   MONTH       object
 2   DAY         object
 3   HOUR        object
 4   HALF_HOUR   object
 5   LINE_NM     object
 6   STATION_NM  object
 7   GETON_CNT   object
 8   GETOFF_CNT  object
dtypes: object(9)
memory usage: 323.3+ MB


In [42]:
# 형 변환전 기술통계량 확인

subway21.describe().T

Unnamed: 0,count,unique,top,freq
YEAR,4708830,1,2021,4708830
MONTH,4708830,12,12,401907
DAY,4708830,31,27,154931
HOUR,4708830,24,17,241191
HALF_HOUR,4708830,2,00,2372537
LINE_NM,4708830,11,5호선,787204
STATION_NM,4708830,289,신설동,43408
GETON_CNT,4708830,5839,0,80355
GETOFF_CNT,4708830,6216,0,127727


In [43]:
subway21['YEAR'] = subway21['YEAR'].astype('int16')  # 2020이므로 int8 불가
subway21['MONTH'] = subway21['MONTH'].astype('int8')
subway21['DAY'] = subway21['DAY'].astype('int8')
subway21['HOUR'] = subway21['HOUR'].astype('int8')
subway21['HALF_HOUR'] = subway21['HALF_HOUR'].astype('int8')
subway21['GETON_CNT'] = subway21['GETON_CNT'].astype('int16') #int8 불가
subway21['GETOFF_CNT'] = subway21['GETOFF_CNT'].astype('int16') #int8 불가
subway21['LINE_NM'] = subway21['LINE_NM'].astype('category')
subway21['STATION_NM'] =  subway21['STATION_NM'].astype('category')

In [44]:
# 최종 용량 확인
subway21.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4708830 entries, 0 to 4708829
Data columns (total 9 columns):
 #   Column      Dtype   
---  ------      -----   
 0   YEAR        int16   
 1   MONTH       int8    
 2   DAY         int8    
 3   HOUR        int8    
 4   HALF_HOUR   int8    
 5   LINE_NM     category
 6   STATION_NM  category
 7   GETON_CNT   int16   
 8   GETOFF_CNT  int16   
dtypes: category(2), int16(3), int8(4)
memory usage: 58.4 MB


In [45]:
subway21.to_csv("subway21_df.csv", index= False)

# 서울시 30분 이용통계 (22년)

## 1. 라이브러리 및 데이터 불러오기

In [46]:
# 2021년 1월부터 12월까지의 csv파일을 하나의 파일로 합치는 작업

input_file = r'data\30분 지하철 30분단위 이용 통계\subway22' # csv파일들이 있는 디렉토리 위치
output_file = r'data\30분 지하철 30분단위 이용 통계\subway22\subway2.csv' # 병합하고 저장하려는 파일명

allFile_list = glob.glob(os.path.join(input_file, 'TBDM_TRNSIT_STAT_SUBWAY_2022*')) # glob함수로 sales_로 시작하는 파일들을 모은다
print(allFile_list)
allData = [] # 읽어 들인 csv파일 내용을 저장할 빈 리스트를 하나 만든다
for file in allFile_list:
    df = pd.read_csv(file) # for구문으로 csv파일들을 읽어 들인다
    allData.append(df) # 빈 리스트에 읽어 들인 내용을 추가한다

dataCombine = pd.concat(allData, axis=0, ignore_index=True) # concat함수를 이용해서 리스트의 내용을 병합
# axis=0은 수직으로 병합함. axis=1은 수평. ignore_index=True는 인데스 값이 기존 순서를 무시하고 순서대로 정렬되도록 한다.
dataCombine.to_csv(output_file, index=False) # to_csv함수로 저장한다. 인데스를 빼려면 False로 설정

['data\\30분 지하철 30분단위 이용 통계\\subway22\\TBDM_TRNSIT_STAT_SUBWAY_202201.csv', 'data\\30분 지하철 30분단위 이용 통계\\subway22\\TBDM_TRNSIT_STAT_SUBWAY_202202.csv', 'data\\30분 지하철 30분단위 이용 통계\\subway22\\TBDM_TRNSIT_STAT_SUBWAY_202203.csv', 'data\\30분 지하철 30분단위 이용 통계\\subway22\\TBDM_TRNSIT_STAT_SUBWAY_202204.csv']


In [47]:
subway22 = pd.read_csv('./data/30분 지하철 30분단위 이용 통계/subway22/subway22.csv')

## 2. 데이터 전처리

In [48]:
# 필요없다고 생각되는 컬럼 삭제
subway22 = subway22.drop(["`STATION_ID`"], axis = 1)

In [49]:
# 컬럼에 쓰잘데기없는 기호 `(그 키보드에 물결)이 들어가있어서
# rename 진행

subway22 = subway22.rename({'`YEAR`':'YEAR', 
                  '`MONTH`':'MONTH', 
                  '`DAY`':'DAY', 
                  '`HOUR`':'HOUR', 
                  '`HALF_HOUR`':'HALF_HOUR', 
                  '`LINE_NM`':'LINE_NM', 
                  '`STATION_NM`':'STATION_NM', 
                  '`GETON_CNT`':'GETON_CNT', 
                  '`GETOFF_CNT`':'GETOFF_CNT'}, axis='columns')
subway22.head(3)

Unnamed: 0,YEAR,MONTH,DAY,HOUR,HALF_HOUR,LINE_NM,STATION_NM,GETON_CNT,GETOFF_CNT
0,`2022`,`01`,`01`,`04`,`30`,`1호선`,`서울역`,`6`,`2`
1,`2022`,`01`,`01`,`04`,`30`,`1호선`,`종각`,`3`,`0`
2,`2022`,`01`,`01`,`04`,`30`,`1호선`,`종로3가`,`1`,`0`


In [50]:
# value값에 쓰잘데기없는 `기호 없애기

subway22 = subway22.apply(lambda x: x.str.strip("`"), axis = 0)
subway22.head(3)

Unnamed: 0,YEAR,MONTH,DAY,HOUR,HALF_HOUR,LINE_NM,STATION_NM,GETON_CNT,GETOFF_CNT
0,2022,1,1,4,30,1호선,서울역,6,2
1,2022,1,1,4,30,1호선,종각,3,0
2,2022,1,1,4,30,1호선,종로3가,1,0


In [51]:
# 데이터셋 정보 확인
subway22.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1514744 entries, 0 to 1514743
Data columns (total 9 columns):
 #   Column      Non-Null Count    Dtype 
---  ------      --------------    ----- 
 0   YEAR        1514744 non-null  object
 1   MONTH       1514744 non-null  object
 2   DAY         1514744 non-null  object
 3   HOUR        1514744 non-null  object
 4   HALF_HOUR   1514744 non-null  object
 5   LINE_NM     1514744 non-null  object
 6   STATION_NM  1514744 non-null  object
 7   GETON_CNT   1514744 non-null  object
 8   GETOFF_CNT  1514744 non-null  object
dtypes: object(9)
memory usage: 104.0+ MB


In [52]:
# 형 변환전 기술통계량 확인

subway22.describe().T

Unnamed: 0,count,unique,top,freq
YEAR,1514744,1,2022,1514744
MONTH,1514744,4,03,391610
DAY,1514744,31,28,50564
HOUR,1514744,23,08,77575
HALF_HOUR,1514744,2,00,763131
LINE_NM,1514744,11,5호선,261965
STATION_NM,1514744,289,신설동,14333
GETON_CNT,1514744,4634,0,25617
GETOFF_CNT,1514744,4993,0,42232


In [53]:
subway22['YEAR'] = subway22['YEAR'].astype('int16')  # 2020이므로 int8 불가
subway22['MONTH'] = subway22['MONTH'].astype('int8')
subway22['DAY'] = subway22['DAY'].astype('int8')
subway22['HOUR'] = subway22['HOUR'].astype('int8')
subway22['HALF_HOUR'] = subway22['HALF_HOUR'].astype('int8')
subway22['GETON_CNT'] = subway22['GETON_CNT'].astype('int16') #int8 불가
subway22['GETOFF_CNT'] = subway22['GETOFF_CNT'].astype('int16') #int8 불가
subway22['LINE_NM'] = subway22['LINE_NM'].astype('category')
subway22['STATION_NM'] =  subway22['STATION_NM'].astype('category')

In [54]:
# 최종 용량 확인
subway22.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1514744 entries, 0 to 1514743
Data columns (total 9 columns):
 #   Column      Non-Null Count    Dtype   
---  ------      --------------    -----   
 0   YEAR        1514744 non-null  int16   
 1   MONTH       1514744 non-null  int8    
 2   DAY         1514744 non-null  int8    
 3   HOUR        1514744 non-null  int8    
 4   HALF_HOUR   1514744 non-null  int8    
 5   LINE_NM     1514744 non-null  category
 6   STATION_NM  1514744 non-null  category
 7   GETON_CNT   1514744 non-null  int16   
 8   GETOFF_CNT  1514744 non-null  int16   
dtypes: category(2), int16(3), int8(4)
memory usage: 18.8 MB


In [55]:
subway22.to_csv("subway22_df.csv", index = False)

# 공간데이터(20년)

In [56]:
!pip install dbfread



You should consider upgrading via the 'C:\ProgramData\Anaconda3\python.exe -m pip install --upgrade pip' command.


In [57]:
from dbfread import DBF

In [58]:
# 우수중소기업 공간데이터
EXC = DBF('data/우수중소기업 공간데이터/TL_EXC_SMLPZ_2020.dbf')
EXC = pd.DataFrame(EXC)

In [59]:
EXC.head(3)

Unnamed: 0,SMLPZ_ID,DEC_SE,CMPNY_NM,RPRSNTV_NM,INDUTY,FOND_DATE,ADDRES,TM_X,TM_Y
0,1,하이브랜드서울기업,벨금속공업㈜,이희평,날붙이 제조업,1978-01-12,서초구 효령로68길 92 (서초동),201762.893208,542899.588742
1,2,하이브랜드서울기업,㈜일성,지영배,액체 펌프 제조업,2000-01-03,구로구 경인로63길 21-6,189818.338312,545438.678543
2,3,하이브랜드서울기업,이앤에이치㈜,박대전,건설업본사,1998-05-01,"성동구 성수이로 7길 27, 701 (서울숲 코오롱디지털타워2차)",204724.207199,549119.988156


In [60]:
EXC.to_csv("EXC_df.csv", index=False)

# 서울시 주요시설, 집객시설 공간데이터(20년)

In [61]:
# 서울시 주요시설, 집객시설 공간데이터
TBVIATR = DBF('data/주요시설과 집객시설/TL_TBVIATR_FCLTY_INFO_2020.dbf')
TBVIATR = pd.DataFrame(TBVIATR)
TBVIATR.head(3)

Unnamed: 0,STDR_YM,VIAT_SE_CD,VIAT_CD,VIAT_ID,LCLASDC,MLSFCDC,SCLASDC,DCLASDC,BCLASDC,VIAT_NM,ADRES_CD,ADRES_NM,TELNO,X_VALUE,Y_VALUE,ADRES_SP,BLCK_CD,REGIST_DE,ERSR_DE,REGIST_DT
0,,30102,200,AA0000000001,교육/보건,교육시설,초등교육기관,공립초등학교,,"강덕초교,고덕그라시움버스정류장쉘터",,,,214388.672913,551205.841919,,156656,,,
1,,70301,302,AA0000000002,산업,서비스산업,종합상품판매업,대형상가,일반종합상가,고덕그라시움상가,,,,214555.910095,550962.356812,,156617,,,
2,,30102,200,AA0000000003,교육/보건,교육시설,초등교육기관,공립초등학교,,서울강덕초등학교,,,,214224.118713,550979.324829,,156670,,,


In [62]:
TBVIATR.to_csv("TBVIATR_df.csv", index = False)

# 서울시 지하철 시간대별 승객수(16~19년)

In [63]:
# 서울시 지하철 시간대별 승객수 16년
SEOUL16 = DBF('data/서울시 지하철 시간대별 승객 수/TB_SEOUL_TRAIN_PASSN_2016.dbf')
SEOUL16 = pd.DataFrame(SEOUL16)
SEOUL16.head(3)

Unnamed: 0,ID,STN_IDN,TGRP_CODE,STN_NM,BB_RT,US_YY_DD,PS_00TM,AG_00TM,PS_01TM,AG_01TM,...,AG_20TM,PS_21TM,AG_21TM,PS_22TM,AG_22TM,PS_23TM,AG_23TM,PA_NM,TM_X,TM_Y
0,0,415,지하철,미아,4,201511,650,5420,0,37,...,36798,15898,32859,13068,33458,5082,20834,1180787,202293.3969,558567.7607
1,0,416,지하철,미아사거리,4,201511,2079,8760,0,0,...,75753,29959,65909,23064,63927,12477,38998,2072676,202653.112,557083.212
2,0,417,지하철,길음,4,201511,1466,8951,0,0,...,59255,23816,54402,20597,57139,11161,36791,1770010,202211.9992,555986.0728


In [64]:
# 서울시 지하철 시간대별 승객수 17년
SEOUL17 = DBF('data/서울시 지하철 시간대별 승객 수/TB_SEOUL_TRAIN_PASSN_2017.dbf')
SEOUL17 = pd.DataFrame(SEOUL17)
SEOUL17.head(3)

Unnamed: 0,ID,STN_IDN,TGRP_CODE,STN_NM,BB_RT,US_YY_DD,PS_00TM,AG_00TM,PS_01TM,AG_01TM,...,AG_20TM,PS_21TM,AG_21TM,PS_22TM,AG_22TM,PS_23TM,AG_23TM,PA_NM,TM_X,TM_Y
0,40.0,150,지하철,서울역,1호선,201710,4024,7177,1,386,...,54014,97020,48494,69613,37698,28446,21744,3111576.0,197575.5771,550575.0214
1,41.0,151,지하철,시청,1호선,201710,914,1304,0,6,...,9078,59049,7612,37544,6217,13880,3676,1448201.0,197977.7552,551692.445
2,42.0,152,지하철,종각,1호선,201710,3315,1396,2,1,...,19784,113904,12598,91451,8465,42616,5534,2369548.0,198491.5533,552296.3804


In [65]:
# 서울시 지하철 시간대별 승객수 18년
SEOUL18 = DBF('data/서울시 지하철 시간대별 승객 수/TB_SEOUL_TRAIN_PASSN_2018.dbf')
SEOUL18 = pd.DataFrame(SEOUL18)
SEOUL18.head(3)

Unnamed: 0,ID,STN_IDN,TGRP_CODE,STN_NM,BB_RT,US_YY_DD,PS_00TM,AG_00TM,PS_01TM,AG_01TM,...,AG_20TM,PS_21TM,AG_21TM,PS_22TM,AG_22TM,PS_23TM,AG_23TM,PA_NM,TM_X,TM_Y
0,1.0,150,지하철,서울역,1호선,201810,4513.0,7498.0,3.0,486.0,...,59768.0,102506.0,51965.0,76912.0,40080.0,38844.0,21288.0,3550093.0,197575.5771,550575.0214
1,2.0,1950,지하철,삼송,3호선,201810,541.0,4554.0,1.0,157.0,...,32595.0,12773.0,30330.0,13611.0,26798.0,3791.0,15829.0,1018657.0,190784.6589,561503.8304
2,3.0,151,지하철,시청,1호선,201810,1116.0,1479.0,1.0,30.0,...,9983.0,62217.0,9111.0,40168.0,7332.0,15229.0,4647.0,1660186.0,197977.7552,551692.445


In [66]:
# 서울시 지하철 시간대별 승객수 19년
SEOUL19 = DBF('data/서울시 지하철 시간대별 승객 수/TB_SEOUL_TRAIN_PASSN_2019.dbf')
SEOUL19 = pd.DataFrame(SEOUL19)
SEOUL19.head(3)

Unnamed: 0,ID,STN_IDN,TGRP_CODE,STN_NM,BB_RT,US_YY_DD,PS_00TM,AG_00TM,PS_01TM,AG_01TM,...,PS_21TM,AG_21TM,PS_22TM,AG_22TM,PS_23TM,AG_23TM,PA_NM,TM_X,TM_Y,NEWFIELD1
0,1,1868,지하철,영통,분당선,201906,1165,3061,0,0,...,16245,15177,16339,14860,6985,9015,593482,206333.144,516943.255,영통분당선
1,2,4217,지하철,영종,공항철도 1호선,201906,104,2124,0,0,...,1764,6564,1197,6480,685,5396,167924,157894.316,545889.081,영종공항철도 1호선
2,3,228,지하철,서울대입구(관악구청),2호선,201906,4793,25645,0,4911,...,58950,100087,55238,102181,30065,67864,3102245,195820.381,542430.004,서울대입구(관악구청)2호선


In [67]:
SEOUL17.to_csv("SEOUL17_df.csv", index = False)
SEOUL18.to_csv("SEOUL18_df.csv", index = False)
SEOUL19.to_csv("SEOUL19_df.csv", index = False)

## 수도권 지하철 공간데이터(19년)

In [68]:
import pandas as pd

# 수도권 지하철역 공간데이터 19년
STATN19 = DBF('./data/수도권지하철 공간데이터/TB_O_SB_STATN_2019.dbf')
STATN19 = pd.DataFrame(STATN19)
STATN19.head(3)

Unnamed: 0,ID,STN_IDN,TGRP_CODE,STN_NM,BB_RT,US_YY_DD,TM_X,TM_Y
0,103.0,416,지하철,미아사거리,4,201911,202653.112,557083.212
1,104.0,417,지하철,길음,4,201911,202211.9992,555986.0728
2,105.0,418,지하철,성신여대입구,4,201911,201448.4756,554789.2392


In [69]:
STATN19.to_csv("STATN19_df.csv", index = False)