# 서울시 공공 자전거 이용정보(월별) & 대여소 정보(2021.12기준)
## 전처리 과정

자료이용
- 서울시 공공 자전거 이용정보(월별)/(2021년 기준) : http://data.seoul.go.kr/dataList/OA-15248/F/1/datasetView.do 
- 대여소 정보(2021.12기준) : http://data.seoul.go.kr/dataList/OA-13252/F/1/datasetView.do

In [2]:
import pandas as pd
import seaborn as sns
import numpy as np
import matplotlib.pyplot as plt

import datetime

sns.set_theme(style='whitegrid')

In [3]:
# 한글폰트 설정
plt.rc("font",family="Malgun Gothic")
plt.rc("axes",unicode_minus=False)
# 선명하게 설정
from IPython.display import set_matplotlib_formats
set_matplotlib_formats("retina")

  set_matplotlib_formats("retina")


In [3]:
# 데이터 가져오기
df_1_month = pd.read_csv("data/공공자전거 대여소별 이용정보_2020.07_2021.01.csv", encoding = 'cp949') # 202101 데이터
df_02_06 = pd.read_csv("data/공공자전거 대여소별 이용정보_21.02_21.06.csv", encoding = 'cp949') # 202102 ~ 202106 데이터
df_07_12 = pd.read_csv("data/대여소별 이용정보(월별 '21.7-'21.12).csv", encoding = 'cp949') # 202107 ~ 202112 데이터

In [4]:
# 데이터 확인하기
df_1_month.head()

Unnamed: 0,대여소 그룹,대여소 명,대여 일자 / 월,대여 건수
0,강남구,2301. 현대고등학교 건너편,202007,3997
1,강남구,2302. 교보타워 버스정류장(신논현역 3번출구 후면),202007,1250
2,강남구,2303. 논현역 7번출구,202007,863
3,강남구,2304. 신영 ROYAL PALACE 앞,202007,334
4,강남구,2305. MCM 본사 직영점 앞,202007,436


In [5]:
df_1_month.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 14754 entries, 0 to 14753
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   대여소 그룹     14754 non-null  object
 1   대여소 명      14754 non-null  object
 2   대여 일자 / 월  14754 non-null  int64 
 3   대여 건수      14754 non-null  int64 
dtypes: int64(2), object(2)
memory usage: 461.2+ KB


In [6]:
# 형 변환
df_1_month = df_1_month.astype({'대여소 그룹' : 'string'})
df_1_month = df_1_month.astype({'대여소 명' : 'string'})
df_1_month = df_1_month.astype({'대여 일자 / 월' : 'string'}) # 202101만 추출하기 위해서 string으로 변환

In [7]:
# 202101만 추출하기
df_1 = df_1_month[df_1_month["대여 일자 / 월"].str.contains('202101')].copy()

In [8]:
df_1.head()

Unnamed: 0,대여소 그룹,대여소 명,대여 일자 / 월,대여 건수
12564,그룹명 없음,대여소명 없음,202101,0
12565,그룹명 없음,대여소명 없음,202101,1
12566,강남구,2301. 현대고등학교 건너편,202101,711
12567,강남구,2302. 교보타워 버스정류장(신논현역 3번출구 후면),202101,375
12568,강남구,2303. 논현역 7번출구,202101,309


In [9]:
# 그룹명 없음 삭제
index1 = df_1[df_1['대여소 그룹'] == '그룹명 없음'].index
df_1 = df_1.drop(index1)
df_1.head()

Unnamed: 0,대여소 그룹,대여소 명,대여 일자 / 월,대여 건수
12566,강남구,2301. 현대고등학교 건너편,202101,711
12567,강남구,2302. 교보타워 버스정류장(신논현역 3번출구 후면),202101,375
12568,강남구,2303. 논현역 7번출구,202101,309
12569,강남구,2304. 신영 ROYAL PALACE 앞,202101,113
12570,강남구,2305. MCM 본사 직영점 앞,202101,99


In [10]:
df_02_06.head()

Unnamed: 0,대여소 그룹,대여소 명,대여 일자 / 월,대여 건수
0,강남구,2301. 현대고등학교 건너편,202102.0,1713.0
1,강남구,2302. 교보타워 버스정류장(신논현역 3번출구 후면),202102.0,538.0
2,강남구,2303. 논현역 7번출구,202102.0,440.0
3,강남구,2304. 신영 ROYAL PALACE 앞,202102.0,156.0
4,강남구,2305. MCM 본사 직영점 앞,202102.0,197.0


In [11]:
df_07_12.head()

Unnamed: 0,대여소 그룹,대여소 명,대여 일자 / 월,대여 건수
0,강남구,2301. 현대고등학교 건너편,202107,2545
1,강남구,2302. 교보타워 버스정류장(신논현역 3번출구 후면),202107,1176
2,강남구,2303. 논현역 7번출구,202107,1467
3,강남구,2304. 신영 ROYAL PALACE 앞,202107,349
4,강남구,2305. MCM 본사 직영점 앞,202107,341


In [12]:
# 데이터 병합(합치기)
seoul_bike_df = pd.concat([df_1,df_02_06,df_07_12])
seoul_bike_df

Unnamed: 0,대여소 그룹,대여소 명,대여 일자 / 월,대여 건수
12566,강남구,2301. 현대고등학교 건너편,202101,711.0
12567,강남구,2302. 교보타워 버스정류장(신논현역 3번출구 후면),202101,375.0
12568,강남구,2303. 논현역 7번출구,202101,309.0
12569,강남구,2304. 신영 ROYAL PALACE 앞,202101,113.0
12570,강남구,2305. MCM 본사 직영점 앞,202101,99.0
...,...,...,...,...
15142,중랑구,4827. 신내SK V1센터 앞,202112,159.0
15143,중랑구,4828. 신내동 한살림 중랑지구 앞,202112,371.0
15144,중랑구,4829. 신내동 마석감자탕 앞,202112,159.0
15145,중랑구,4834. 용마복지센터 앞,202112,60.0


In [13]:
seoul_bike_df.reset_index(drop=True)

Unnamed: 0,대여소 그룹,대여소 명,대여 일자 / 월,대여 건수
0,강남구,2301. 현대고등학교 건너편,202101,711.0
1,강남구,2302. 교보타워 버스정류장(신논현역 3번출구 후면),202101,375.0
2,강남구,2303. 논현역 7번출구,202101,309.0
3,강남구,2304. 신영 ROYAL PALACE 앞,202101,113.0
4,강남구,2305. MCM 본사 직영점 앞,202101,99.0
...,...,...,...,...
32079,중랑구,4827. 신내SK V1센터 앞,202112,159.0
32080,중랑구,4828. 신내동 한살림 중랑지구 앞,202112,371.0
32081,중랑구,4829. 신내동 마석감자탕 앞,202112,159.0
32082,중랑구,4834. 용마복지센터 앞,202112,60.0


In [14]:
seoul_bike_df.tail()

Unnamed: 0,대여소 그룹,대여소 명,대여 일자 / 월,대여 건수
15142,중랑구,4827. 신내SK V1센터 앞,202112,159.0
15143,중랑구,4828. 신내동 한살림 중랑지구 앞,202112,371.0
15144,중랑구,4829. 신내동 마석감자탕 앞,202112,159.0
15145,중랑구,4834. 용마복지센터 앞,202112,60.0
15146,중랑구,4835. 망우동 본죽 앞,202112,218.0


In [15]:
seoul_bike_df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 32084 entries, 12566 to 15146
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   대여소 그룹     29111 non-null  object 
 1   대여소 명      29111 non-null  object 
 2   대여 일자 / 월  29111 non-null  object 
 3   대여 건수      29111 non-null  float64
dtypes: float64(1), object(3)
memory usage: 1.2+ MB


In [16]:
seoul_bike_df.isnull().sum()

대여소 그룹       2973
대여소 명        2973
대여 일자 / 월    2973
대여 건수        2973
dtype: int64

In [17]:
# 결측치 제거
seoul_bike_df = seoul_bike_df.dropna()

In [18]:
seoul_bike_df = seoul_bike_df.astype({'대여소 명' : 'string'})

In [19]:
# 대여소명 앞에 붙은 대여소번호 제거해주는 함수
def parse_region(data):
    parse = data.split(".")[-1] # 뒤에 있는 문자 가져오기
    parse = parse.replace(' ', '') # 공백 없애기
    return parse

In [20]:
seoul_bike_df["대여소 명"] = seoul_bike_df["대여소 명"].apply(parse_region)
seoul_bike_df.head()

Unnamed: 0,대여소 그룹,대여소 명,대여 일자 / 월,대여 건수
12566,강남구,현대고등학교건너편,202101,711.0
12567,강남구,교보타워버스정류장(신논현역3번출구후면),202101,375.0
12568,강남구,논현역7번출구,202101,309.0
12569,강남구,신영ROYALPALACE앞,202101,113.0
12570,강남구,MCM본사직영점앞,202101,99.0


In [21]:
# 대여건수 정수로 변환 -> 시각화할때 평균 등 계산하기 쉽기 위해서
seoul_bike_df = seoul_bike_df.astype({'대여 건수' : 'int'})

In [22]:
seoul_bike_df.reset_index(drop=True, inplace = True)

In [23]:
seoul_bike_df.head()

Unnamed: 0,대여소 그룹,대여소 명,대여 일자 / 월,대여 건수
0,강남구,현대고등학교건너편,202101,711
1,강남구,교보타워버스정류장(신논현역3번출구후면),202101,375
2,강남구,논현역7번출구,202101,309
3,강남구,신영ROYALPALACE앞,202101,113
4,강남구,MCM본사직영점앞,202101,99


In [24]:
seoul_bike_df['대여 일자 / 월'].unique()

array(['202101', 202102.0, 202103.0, 202104.0, 202105.0, 202106.0, 202107,
       202108, 202109, 202110, 202111, 202112], dtype=object)

In [25]:
seoul_bike_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 29111 entries, 0 to 29110
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   대여소 그룹     29111 non-null  object
 1   대여소 명      29111 non-null  object
 2   대여 일자 / 월  29111 non-null  object
 3   대여 건수      29111 non-null  int32 
dtypes: int32(1), object(3)
memory usage: 796.1+ KB


In [26]:
seoul_bike_df = seoul_bike_df.astype({'대여 일자 / 월' : 'int'})

In [27]:
# 정수로 변경하여 202105.0 -> 202105로 변경하기
# 문자열로 변경하기
seoul_bike_df = seoul_bike_df.astype({'대여 일자 / 월' : 'string'})

In [28]:
# 날짜 다시 정리
def month(date):
    parse = date.split("2021")[-1] # 뒤에 월만 빼기
    # 앞에 2021 - 붙이기
    parse = "2021-" + parse
    return parse

In [29]:
seoul_bike_df['대여 일자 / 월'] = seoul_bike_df['대여 일자 / 월'].apply(month)

In [30]:
index1 = seoul_bike_df[seoul_bike_df['대여소 그룹'] == '그룹명 없음'].index
seoul_bike_df = seoul_bike_df.drop(index1)
seoul_bike_df.head()

Unnamed: 0,대여소 그룹,대여소 명,대여 일자 / 월,대여 건수
0,강남구,현대고등학교건너편,2021-01,711
1,강남구,교보타워버스정류장(신논현역3번출구후면),2021-01,375
2,강남구,논현역7번출구,2021-01,309
3,강남구,신영ROYALPALACE앞,2021-01,113
4,강남구,MCM본사직영점앞,2021-01,99


In [31]:
# 정비센터는 지역이 아니므로 제거
index1 = seoul_bike_df[seoul_bike_df['대여소 그룹'] == '정비센터'].index
seoul_bike_df = seoul_bike_df.drop(index1)
seoul_bike_df.head()

Unnamed: 0,대여소 그룹,대여소 명,대여 일자 / 월,대여 건수
0,강남구,현대고등학교건너편,2021-01,711
1,강남구,교보타워버스정류장(신논현역3번출구후면),2021-01,375
2,강남구,논현역7번출구,2021-01,309
3,강남구,신영ROYALPALACE앞,2021-01,113
4,강남구,MCM본사직영점앞,2021-01,99


In [32]:
seoul_bike_df['대여소 그룹'].unique()

array(['강남구', '강동구', '강북구', '강서구', '관악구', '광진구', '구로구', '금천구', '노원구',
       '도봉구', '동대문구', '동작구', '마포구', '서대문구', '서초구', '성동구', '성북구', '송파구',
       '양천구', '영등포구', '용산구', '은평구', '종로구', '중구', '중랑구'], dtype=object)

In [33]:
seoul_bike_df['대여 일자 / 월'].unique()

array(['2021-01', '2021-02', '2021-03', '2021-04', '2021-05', '2021-06',
       '2021-07', '2021-08', '2021-09', '2021-10', '2021-11', '2021-12'],
      dtype=object)

In [36]:
# 태블로에 맵으로 시각화하기 위해서 시도명 추가하기
seoul_bike_df['시도명'] = "서울"
seoul_bike_df

Unnamed: 0,대여소 그룹,대여소 명,대여 일자 / 월,대여 건수,시도명
0,강남구,현대고등학교건너편,2021-01,711,서울
1,강남구,교보타워버스정류장(신논현역3번출구후면),2021-01,375,서울
2,강남구,논현역7번출구,2021-01,309,서울
3,강남구,신영ROYALPALACE앞,2021-01,113,서울
4,강남구,MCM본사직영점앞,2021-01,99,서울
...,...,...,...,...,...
29106,중랑구,신내SKV1센터앞,2021-12,159,서울
29107,중랑구,신내동한살림중랑지구앞,2021-12,371,서울
29108,중랑구,신내동마석감자탕앞,2021-12,159,서울
29109,중랑구,용마복지센터앞,2021-12,60,서울


In [37]:
# 데이터 저장
seoul_bike_df.to_csv('seoul_public_bike_2021.csv')