# 서울시 공공자전거 대여소 정보 분석

- 대여소 정보 읽기
- 대여소 정보 확인
- NA 값이 몇개인지 확인 ==> NA 값이 들어있는 데이터 삭제
- 타입 변환 (대여소ID ==> int32, 기준시작일자 ==> 날짜타입) 
>- 기준시작일에 '개통'이라는 단어를 포함하고 있는 경우 '개통' 단어 삭제
- 대여소_구의 목록, 개수 출력
- 대여소_구별 거치대 수
- 구별 거치대수의 합계, 평균, 최대, 최소 출력하고 거치대가 많은 순으로 합계별 내림차순으로 10개 출력

## 대여소 정보 데이터 읽기

In [1]:
import pandas as pd
import numpy as np

In [144]:
df = pd.read_excel('seoul_bicycle_station.xlsx', engine='openpyxl')
df.head()

Unnamed: 0,대여소_구,대여소ID,대여소명,대여소주소,위도,경도,기준시작일자,거치대수
0,마포구,101.0,101. (구)합정동 주민센터,서울특별시 마포구 동교로8길 58,37.549561,126.905754,2015-09-06 23:40:56,5
1,마포구,102.0,102. 망원역 1번출구 앞,서울특별시 마포구 월드컵로 72,37.555649,126.910629,2015-09-06 23:42:06,20
2,마포구,103.0,103. 망원역 2번출구 앞,서울특별시 마포구 월드컵로 79,37.554951,126.910835,2015-09-06 23:43:13,14
3,마포구,104.0,104. 합정역 1번출구 앞,서울특별시 마포구 양화로 59,37.550629,126.914986,2015-09-06 23:44:31,13
4,마포구,105.0,105. 합정역 5번출구 앞,서울특별시 마포구 양화로 48,37.550007,126.914825,2015-09-06 23:45:30,5


In [9]:
df.shape

(1541, 8)

## NA 값이 몇 개인지 확인

- NA값이 들어있는 데이터 삭제

In [17]:
df.isna().sum()

대여소_구     0
대여소ID     1
대여소명      0
대여소주소     1
위도        1
경도        1
기준시작일자    1
거치대수      0
dtype: int64

In [145]:
# 결측치가 포함된 레코드 확인
df[df['대여소ID'].isna()]

Unnamed: 0,대여소_구,대여소ID,대여소명,대여소주소,위도,경도,기준시작일자,거치대수
1540,합계,,1540,,,,,19545


In [149]:
# 결측치가 포함된 행 삭제
df.dropna(inplace=True)

In [39]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 1540 entries, 0 to 1539
Data columns (total 8 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   대여소_구   1540 non-null   object 
 1   대여소ID   1540 non-null   int32  
 2   대여소명    1540 non-null   object 
 3   대여소주소   1540 non-null   object 
 4   위도      1540 non-null   float64
 5   경도      1540 non-null   float64
 6   기준시작일자  1540 non-null   object 
 7   거치대수    1540 non-null   int64  
dtypes: float64(2), int32(1), int64(1), object(4)
memory usage: 134.6+ KB


## 타입 변환

- 대여소ID ==> int32
- 기준시작일자 ==> 날짜타입

In [23]:
df.head()

Unnamed: 0,대여소_구,대여소ID,대여소명,대여소주소,위도,경도,기준시작일자,거치대수
0,마포구,101.0,101. (구)합정동 주민센터,서울특별시 마포구 동교로8길 58,37.549561,126.905754,2015-09-06 23:40:56,5
1,마포구,102.0,102. 망원역 1번출구 앞,서울특별시 마포구 월드컵로 72,37.555649,126.910629,2015-09-06 23:42:06,20
2,마포구,103.0,103. 망원역 2번출구 앞,서울특별시 마포구 월드컵로 79,37.554951,126.910835,2015-09-06 23:43:13,14
3,마포구,104.0,104. 합정역 1번출구 앞,서울특별시 마포구 양화로 59,37.550629,126.914986,2015-09-06 23:44:31,13
4,마포구,105.0,105. 합정역 5번출구 앞,서울특별시 마포구 양화로 48,37.550007,126.914825,2015-09-06 23:45:30,5


In [102]:
# '개통'단어 삭제 후 날짜 타입으로 변경
df['대여소ID'] = df['대여소ID'].astype(np.int32)
df['기준시작일자'] = df['기준시작일자'].replace('개통', '', regex=True)
df['기준시작일자'] = pd.to_datetime(df['기준시작일자'])

In [146]:
# 기준시작일자 날짜 타입으로 바꾸기
df['기준시작일자'].str.contains('개통').sum()  # '개통'단어가 포함된 레코드 개수
# 컬럼이 datetime과 str이 혼재되어 있어 str모듈 사용x

5

In [103]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 1540 entries, 0 to 1539
Data columns (total 8 columns):
 #   Column  Non-Null Count  Dtype         
---  ------  --------------  -----         
 0   대여소_구   1540 non-null   object        
 1   대여소ID   1540 non-null   int32         
 2   대여소명    1540 non-null   object        
 3   대여소주소   1540 non-null   object        
 4   위도      1540 non-null   float64       
 5   경도      1540 non-null   float64       
 6   기준시작일자  1540 non-null   datetime64[ns]
 7   거치대수    1540 non-null   int64         
dtypes: datetime64[ns](1), float64(2), int32(1), int64(1), object(3)
memory usage: 134.6+ KB


## 대여소_구의 목록, 개수 출력

In [150]:
gu = df['대여소_구'].unique()
print(f'대여소 구:{gu}, 대여소 구 수:{len(gu)}')

대여소 구:['마포구' '서대문구' '영등포구' '중구' '종로구' '광진구' '성동구' '동대문구' '양천구' '용산구' '은평구' '강동구'
 '강서구' '송파구' '성북구' '중랑구' '강북구' '노원구' '도봉구' '금천구' '구로구' '동작구' '관악구' '서초구'
 '강남구'], 대여소 구 수:25


In [68]:
len(df['대여소_구'].unique())

25

## 대여소_구별 거치대 수

In [151]:
group = df.groupby('대여소_구')['거치대수'].sum().sort_values(ascending=False)
print(group)

대여소_구
송파구     1298
영등포구    1250
서초구     1227
강남구     1218
마포구     1075
강서구     1002
노원구      879
광진구      841
구로구      788
종로구      784
성동구      780
강동구      763
성북구      726
은평구      716
양천구      677
서대문구     667
동대문구     659
관악구      640
중랑구      616
금천구      560
용산구      538
동작구      501
중구       493
강북구      451
도봉구      396
Name: 거치대수, dtype: int64


## 구별 거치대수의 합계, 평균, 최대, 최소 출력하고 거치대가 많은 순으로 합계별 내림차순으로 10개 출력

In [153]:
group = df.groupby('대여소_구')['거치대수'].agg(['sum','mean','max','min'])
print(group)

        sum       mean  max  min
대여소_구                           
강남구    1218  12.303030   30    5
강동구     763  13.385965   20    7
강북구     451  11.564103   20    8
강서구    1002  11.788235   25    6
관악구     640  12.549020   25    7
광진구     841  14.254237   40    5
구로구     788  12.312500   30    5
금천구     560  12.444444   20    7
노원구     879  12.926471   20    7
도봉구     396  12.000000   20    8
동대문구    659  12.921569   20    6
동작구     501  12.219512   30    7
마포구    1075  13.607595   40    5
서대문구    667  13.078431   25    5
서초구    1227  13.786517   25    7
성동구     780  12.380952   20    6
성북구     726  12.517241   20    5
송파구    1298  13.111111   30    7
양천구     677  12.309091   30    8
영등포구   1250  14.044944   40    6
용산구     538  13.794872   40    7
은평구     716  11.365079   20    5
종로구     784  11.529412   21    5
중구      493  11.465116   35    5
중랑구     616  11.846154   20    8


In [154]:
group.sort_values('sum', ascending=False).head(10).round(2)

Unnamed: 0_level_0,sum,mean,max,min
대여소_구,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
송파구,1298,13.11,30,7
영등포구,1250,14.04,40,6
서초구,1227,13.79,25,7
강남구,1218,12.3,30,5
마포구,1075,13.61,40,5
강서구,1002,11.79,25,6
노원구,879,12.93,20,7
광진구,841,14.25,40,5
구로구,788,12.31,30,5
종로구,784,11.53,21,5


# 서울시 공공자전거 대여 정보 분석
- 대여정보 읽기
- 대여정보 확인 (결측치 컬럼 등)
- 대여일시, 반납일시를 날짜타입으로 변경
- 일자별로 대여 건수 내림차순으로 정렬하여 출력
    - Series객체.dt.날짜property
- 요일별 대여 건수 확인

## 대여 정보 데이터 읽기

In [95]:
df2 = pd.read_csv('seoul_bicycle_rent_info.csv', encoding='cp949')

## 대여정보 확인

In [96]:
df2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 678830 entries, 0 to 678829
Data columns (total 11 columns):
 #   Column    Non-Null Count   Dtype 
---  ------    --------------   ----- 
 0   자전거번호     678830 non-null  object
 1   대여일시      678830 non-null  object
 2   대여 대여소번호  678830 non-null  int64 
 3   대여 대여소명   678830 non-null  object
 4   대여거치대     678830 non-null  int64 
 5   반납일시      678830 non-null  object
 6   반납대여소번호   678830 non-null  int64 
 7   반납대여소명    678830 non-null  object
 8   반납거치대     678830 non-null  int64 
 9   이용시간      678830 non-null  int64 
 10  이용거리      678830 non-null  int64 
dtypes: int64(6), object(5)
memory usage: 57.0+ MB


In [83]:
df2.shape

(678830, 11)

In [94]:
df2.head(10)

Unnamed: 0,자전거번호,대여일시,대여 대여소번호,대여 대여소명,대여거치대,반납일시,반납대여소번호,반납대여소명,반납거치대,이용시간,이용거리
0,SPB-04392,2019-11-28 23:07:00,2377,수서역 5번출구 뒤,9,2019-11-28 23:18:00,1203,밀리아나2빌딩 앞,5,11,1980
1,SPB-23502,2019-11-28 22:43:00,2613,잠실나들목,3,2019-11-29 00:07:00,1203,밀리아나2빌딩 앞,1,82,11130
2,SPB-11498,2019-11-29 00:04:00,1256,문정현대아파트 교차로,6,2019-11-29 00:11:00,1203,밀리아나2빌딩 앞,14,6,800
3,SPB-16665,2019-11-29 00:02:00,1278,송파구청 교차로,9,2019-11-29 00:21:00,1203,밀리아나2빌딩 앞,2,18,3730
4,SPB-14688,2019-11-29 00:17:00,1230,송파중학교 정문,5,2019-11-29 00:26:00,1203,밀리아나2빌딩 앞,3,9,1370
5,SPB-21479,2019-11-29 00:06:00,1050,둔촌역 3번 출입구,15,2019-11-29 00:38:00,1203,밀리아나2빌딩 앞,20,30,4490
6,SPB-18660,2019-11-29 00:43:00,1207,마천CU우방점 앞,2,2019-11-29 01:09:00,1203,밀리아나2빌딩 앞,8,23,3370
7,SPB-17128,2019-11-29 00:58:00,1271,송파도서관,1,2019-11-29 01:09:00,1203,밀리아나2빌딩 앞,9,10,2110
8,SPB-24249,2019-11-29 01:27:00,1286,위례중앙푸르지오 1단지 앞,3,2019-11-29 02:20:00,1203,밀리아나2빌딩 앞,1,46,4830
9,SPB-06096,2019-11-29 02:07:00,1259,방이역 1번출구,12,2019-11-29 02:21:00,1203,밀리아나2빌딩 앞,10,13,2340


In [155]:
df2.isna().sum()

자전거번호       0
대여일시        0
대여 대여소번호    0
대여 대여소명     0
대여거치대       0
반납일시        0
반납대여소번호     0
반납대여소명      0
반납거치대       0
이용시간        0
이용거리        0
dtype: int64

## 대여일시, 반납일시를 날짜타입으로 변경

In [98]:
df2['대여일시'] = pd.to_datetime(df2['대여일시'])
df2['반납일시'] = pd.to_datetime(df2['반납일시'])

In [93]:
df2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 678830 entries, 0 to 678829
Data columns (total 11 columns):
 #   Column    Non-Null Count   Dtype         
---  ------    --------------   -----         
 0   자전거번호     678830 non-null  object        
 1   대여일시      678830 non-null  datetime64[ns]
 2   대여 대여소번호  678830 non-null  int64         
 3   대여 대여소명   678830 non-null  object        
 4   대여거치대     678830 non-null  int64         
 5   반납일시      678830 non-null  datetime64[ns]
 6   반납대여소번호   678830 non-null  int64         
 7   반납대여소명    678830 non-null  object        
 8   반납거치대     678830 non-null  int64         
 9   이용시간      678830 non-null  int64         
 10  이용거리      678830 non-null  int64         
dtypes: datetime64[ns](2), int64(6), object(3)
memory usage: 57.0+ MB


## 요일별 대여 건수 확인

In [156]:
df2['요일'] = df2['대여일시'].dt.dayofweek
df2.head()

Unnamed: 0,자전거번호,대여일시,대여 대여소번호,대여 대여소명,대여거치대,반납일시,반납대여소번호,반납대여소명,반납거치대,이용시간,이용거리,요일
0,SPB-04392,2019-11-28 23:07:00,2377,수서역 5번출구 뒤,9,2019-11-28 23:18:00,1203,밀리아나2빌딩 앞,5,11,1980,3
1,SPB-23502,2019-11-28 22:43:00,2613,잠실나들목,3,2019-11-29 00:07:00,1203,밀리아나2빌딩 앞,1,82,11130,3
2,SPB-11498,2019-11-29 00:04:00,1256,문정현대아파트 교차로,6,2019-11-29 00:11:00,1203,밀리아나2빌딩 앞,14,6,800,4
3,SPB-16665,2019-11-29 00:02:00,1278,송파구청 교차로,9,2019-11-29 00:21:00,1203,밀리아나2빌딩 앞,2,18,3730,4
4,SPB-14688,2019-11-29 00:17:00,1230,송파중학교 정문,5,2019-11-29 00:26:00,1203,밀리아나2빌딩 앞,3,9,1370,4


In [157]:
map_data = {0:'월', 1:'화', 2:'수', 3:'목', 4:'금', 5:'토', 6:'일'}
df2['요일'] = df2['요일'].map(map_data)
df2.head()

Unnamed: 0,자전거번호,대여일시,대여 대여소번호,대여 대여소명,대여거치대,반납일시,반납대여소번호,반납대여소명,반납거치대,이용시간,이용거리,요일
0,SPB-04392,2019-11-28 23:07:00,2377,수서역 5번출구 뒤,9,2019-11-28 23:18:00,1203,밀리아나2빌딩 앞,5,11,1980,목
1,SPB-23502,2019-11-28 22:43:00,2613,잠실나들목,3,2019-11-29 00:07:00,1203,밀리아나2빌딩 앞,1,82,11130,목
2,SPB-11498,2019-11-29 00:04:00,1256,문정현대아파트 교차로,6,2019-11-29 00:11:00,1203,밀리아나2빌딩 앞,14,6,800,금
3,SPB-16665,2019-11-29 00:02:00,1278,송파구청 교차로,9,2019-11-29 00:21:00,1203,밀리아나2빌딩 앞,2,18,3730,금
4,SPB-14688,2019-11-29 00:17:00,1230,송파중학교 정문,5,2019-11-29 00:26:00,1203,밀리아나2빌딩 앞,3,9,1370,금


In [162]:
df2.groupby(df2['요일'])['요일'].count().sort_values(ascending=False).apply(lambda x:f'{x:,}건')

요일
토    119,574건
금    113,660건
화    104,938건
월     95,045건
목     91,159건
수     88,768건
일     65,686건
Name: 요일, dtype: object

In [113]:
group1 = df2.groupby(df2['대여일시'].dt.dayofweek)[['자전거번호']].count()
group1.index = ['월','화','수','목','금','토','일']
group1.columns = ['대여건수']

In [114]:
group1

Unnamed: 0,대여건수
월,95045
화,104938
수,88768
목,91159
금,113660
토,119574
일,65686


## 일자별로 대여 건수 내림차순으로 정렬하여 출력

In [163]:
df2['일시'] = df2['대여일시'].dt.day
df2.groupby(df2['일시'])['일시'].count().sort_values(ascending=False).apply(lambda x:f'{x:,}건')

일시
4     34,711건
5     34,526건
1     33,958건
6     33,234건
2     30,848건
3     30,787건
7     30,549건
12    29,970건
8     28,918건
9     27,380건
11    25,721건
22    24,758건
23    23,920건
26    22,771건
28    20,540건
21    20,408건
27    20,299건
16    19,907건
29    19,755건
14    19,662건
25    18,576건
10    18,537건
20    18,117건
19    17,671건
30    17,519건
13    17,118건
18    16,037건
24    11,278건
15     6,271건
17     5,084건
Name: 일시, dtype: object

In [115]:
group2 = df2.groupby(df2['대여일시'].dt.day)[['자전거번호']].count()
group2.columns = ['대여건수']
group2

Unnamed: 0_level_0,대여건수
대여일시,Unnamed: 1_level_1
1,33958
2,30848
3,30787
4,34711
5,34526
6,33234
7,30549
8,28918
9,27380
10,18537


# 대여소 정보와 대여정보 Join
- 대여소 정보와 대여정보 join
- join 데이터 정보 확인
- 각 구별 이용시간과  이용거리에 대한 평균, 최대, 최소값 출력

## 대여소 ID 기준으로 두 데이터 병합

In [119]:
join_df = pd.merge(df, df2, left_on='대여소ID', right_on='대여 대여소번호')
join_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 677505 entries, 0 to 677504
Data columns (total 19 columns):
 #   Column    Non-Null Count   Dtype         
---  ------    --------------   -----         
 0   대여소_구     677505 non-null  object        
 1   대여소ID     677505 non-null  int32         
 2   대여소명      677505 non-null  object        
 3   대여소주소     677505 non-null  object        
 4   위도        677505 non-null  float64       
 5   경도        677505 non-null  float64       
 6   기준시작일자    677505 non-null  datetime64[ns]
 7   거치대수      677505 non-null  int64         
 8   자전거번호     677505 non-null  object        
 9   대여일시      677505 non-null  datetime64[ns]
 10  대여 대여소번호  677505 non-null  int64         
 11  대여 대여소명   677505 non-null  object        
 12  대여거치대     677505 non-null  int64         
 13  반납일시      677505 non-null  datetime64[ns]
 14  반납대여소번호   677505 non-null  int64         
 15  반납대여소명    677505 non-null  object        
 16  반납거치대     677505 non-null  int64      

## 구별 평균 이용시간, 평균 이용거리, 최대 이용시간, 최소 이용시간 확인 (구 이름 정렬)

In [166]:
join_df.groupby('대여소_구')[['이용시간', '이용거리']].agg(['mean','max','min']).sort_values(('이용시간','mean'), ascending=False)
# 정렬 컬럼 여러개 설정 가능

Unnamed: 0_level_0,이용시간,이용시간,이용시간,이용거리,이용거리,이용거리
Unnamed: 0_level_1,mean,max,min,mean,max,min
대여소_구,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
은평구,45.856749,218,2,8899.338843,81870,0
마포구,44.869336,249,2,8621.309039,80800,0
용산구,41.099339,777,5,6910.704033,97090,0
중구,37.877796,1066,2,6526.280761,81620,0
서대문구,31.755382,316,1,4803.547582,125410,0
영등포구,31.721189,556,1,5330.747505,116390,0
성동구,31.316633,919,1,4723.09945,126270,0
양천구,29.650766,236,1,5360.720915,81170,0
종로구,28.761135,306,1,4516.685792,79210,0
강동구,26.26065,237,1,4128.64753,71170,0


In [164]:
b = join_df.groupby('대여소_구')[['이용시간']].agg(['mean','min','max'])
b.insert(1, '평균이용거리', join_df.groupby('대여소_구')[['이용거리']].mean())
b.columns = ['평균이용시간', '평균이용거리', '최소이용시간', '최대이용시간']
b

Unnamed: 0_level_0,평균이용시간,평균이용거리,최소이용시간,최대이용시간
대여소_구,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
강남구,23.382298,3193.727233,1,740
강동구,26.26065,4128.64753,1,237
강북구,19.494643,2541.262305,1,772
강서구,17.299746,3037.660029,1,383
관악구,20.469692,2929.804723,1,666
광진구,21.522678,2884.606619,1,1000
구로구,19.570479,2691.200561,1,969
금천구,19.544569,2769.887676,1,370
노원구,20.382049,2661.159418,1,1719
도봉구,20.758714,2883.359794,1,701
