## AIVLE School [AI 미니프로젝트] '서울시 생활정보 기반 대중교통 수요 분석'<br>

### 미니프로젝트 안내
* 미션: 버스 노선 추가가 필요한 서울시 내 자치구 선정
* 방법: 1부터 4까지의 ipynb 파일 순서대로 진행하며 데이터 불러오기 및 분석(EDA)을 수행하여 서울시 내 자치구별 정보를 도출하고<br> 이를 바탕으로 5. 데이터 분석에서 버스 노선 추가가 필요한 서울시 내 자치구를 선정해봅니다.<br><br>
* 1. 구별 버스정류장 분석.ipynb<br>
-- 1.1 bus_station_boarding.csv 파일을 활용하여 <span style="color:blue">서울시 내 각 구별 정류장, 노선수, 승하차 고객수를 분석</span>합니다.<br>
  그런데 bus_station_boarding.csv 파일에는 서울시와 경기도의 버스정류장이 모두 포함되어 있기 때문에<br>
  1.2 bus_station_seoul.csv의 정보를 추가로 활용하여 서울시 정류장만 골라내어 분석 대상에 포함시킵니다.<br><br>
* 2. 구별 이동인구 분석.ipynb<br>
-- 2. seoul_moving.csv 파일을 활용하여 <span style="color:blue">서울시 내 구별 이동 시간과 이동 인구를 분석</span>합니다.<br><br>
* 3. 구별 등록인구 분석.ipynb<br>
-- 3. seoul_people.csv 파일을 활용하여 <span style="color:blue">서울시 내 구별 등록인구를 분석</span>합니다. <br><br>
* 4. 구별 업종 분석.ipynb<br>
-- 4. business_type.csv 파일을 활용하여 <span style="color:blue">서울시 내 구별 등록업종을 분석</span>합니다.<br><br>
* 5. 데이터 분석.ipynb<br>
-- 위 1~4에서 도출한 데이터 프레임을 합쳐서 <span style="color:blue">서울시 내 어느 구에 버스 노선을 추가해야 할 지</span> 가설 수립 및 검증 과정을 거쳐 분석합니다.<br> (y값은 정류장 수 또는 노선 수)

---

# 1. 버스정류장 분석
### 버스정류장 데이터를 활용하여 서울시 내 각 구별 정류장 수, 노선 수, 승하차 고객수를 분석합니다.
### 이때, 서울시가 아닌 정류장 정보가 포함되어 있다면 이 정류장들을 제거하고 분석해야 합니다.

## 데이터 안내

[기본 데이터]
* 1.1 bus_station_boarding.csv 
* 서울시 버스노선별 정류장별 승하차 인원 정보
* https://data.seoul.go.kr/dataList/OA-12912/S/1/datasetView.do


[추가 데이터]
* 1.1 bus_station_seoul.csv
* 서울시 버스정류장 위치정보
* https://data.seoul.go.kr/dataList/OA-15067/S/1/datasetView.do

---

# 1.1. 데이터 불러오기

#### [1.1.1] 데이터 로딩
* Pandas 라이브러리를 활용해서 '1.1 bus_station_boarding.csv'파일을 'bus_station' 변수에 저장하세요.
    * 데이터 파일 로딩시 참고 사항 
        * 구분자(sep)는 ',' 입니다
        * cp949 인코더를 사용해 주세요
    * 데이터를 불러올 때 오류가 발생한다면, 오류에 대해 직접 검색하여 해결해보세요.

In [1]:
import sys
import numpy as np
import pandas as pd

In [2]:
# 아래에 코드를 작성하고 결과를 확인합니다.
bus_station = pd.read_csv('./1.1 bus_station_boarding.csv', encoding='cp949')

In [61]:
# 데이터 프레임의 Shape을 확인합니다.
bus_station.shape

(1169878, 8)

---

# 1.2. 기본 정보 확인 및 클렌징

+ 데이터 클렌징 : 결측치, 이상치 등을 제거하여 데이터 분석 결과가 왜곡 되는 문제를 방지하기 위한 정제 과정

#### [1.2.1] 기본 정보 확인하기
* 'bus_station' 데이터의 정보를 확인해보세요.
* 'describe', 'info', 'head', 'tail' 등 전부 활용해 보세요.
* 데이터 중에서 컬럼명으로 봤을 때 int 이어야 할 것 같은데 object인 컬럼들이 있습니다. 왜 그런지 이 컬럼들을 더 분석해보세요.

In [62]:
# 아래에 코드를 작성하고 결과를 확인합니다.
bus_station.describe()

Unnamed: 0,사용일자,승차총승객수,하차총승객수,등록일자
count,1169878.0,1169878.0,1169878.0,1169878.0
mean,20220420.0,110.8042,108.2804,20220430.0
std,8.661492,155.4787,142.0829,26.67754
min,20220400.0,0.0,0.0,20220400.0
25%,20220410.0,18.0,21.0,20220410.0
50%,20220420.0,63.0,68.0,20220420.0
75%,20220420.0,146.0,145.0,20220430.0
max,20220430.0,3990.0,3615.0,20220500.0


In [63]:
# 아래에 코드를 작성하고 결과를 확인합니다.
bus_station.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1169878 entries, 0 to 1169877
Data columns (total 8 columns):
 #   Column      Non-Null Count    Dtype 
---  ------      --------------    ----- 
 0   사용일자        1169878 non-null  int64 
 1   노선번호        1169878 non-null  object
 2   노선명         1169878 non-null  object
 3   버스정류장ARS번호  1169878 non-null  object
 4   역명          1169878 non-null  object
 5   승차총승객수      1169878 non-null  int64 
 6   하차총승객수      1169878 non-null  int64 
 7   등록일자        1169878 non-null  int64 
dtypes: int64(4), object(4)
memory usage: 71.4+ MB


In [64]:
# 아래에 코드를 작성하고 결과를 확인합니다.
bus_station.head()

Unnamed: 0,사용일자,노선번호,노선명,버스정류장ARS번호,역명,승차총승객수,하차총승객수,등록일자
0,20220401,2112,2112번(면목동~성북동),6243,장안동삼성쉐르빌아파트,31,156,20220404
1,20220401,2112,2112번(면목동~성북동),6242,새서울병원,46,153,20220404
2,20220401,2112,2112번(면목동~성북동),6238,장안동근린공원,11,80,20220404
3,20220401,2112,2112번(면목동~성북동),6309,휘경공고휘경주공아파트,56,65,20220404
4,20220401,100,100번(하계동~용산구청),11428,한성여객종점,9,5,20220404


In [65]:
# 아래에 코드를 작성하고 결과를 확인합니다.
bus_station.tail()

Unnamed: 0,사용일자,노선번호,노선명,버스정류장ARS번호,역명,승차총승객수,하차총승객수,등록일자
1169873,20220430,7738,7738번(은평공영차고지~홍제역),12004,수색교,2,32,20220503
1169874,20220430,201,201번(구리~서울역),6278,세종대왕기념관,153,43,20220503
1169875,20220430,강서01,강서01(약수터~등촌역),16555,화곡본동시장,133,6,20220503
1169876,20220430,3321,3321번(강동차고지~강동구청),25236,굽은다리사거리,36,41,20220503
1169877,20220430,201,201번(구리~서울역),6280,영휘원사거리.(구)홍릉사거리,122,49,20220503


In [66]:
# (노선번호, ARS번호)는 정수형이지만 object이다. 하지만 아직까지는 크게 문제되지 않을 것 같다.

#### [1.2.2] 버스정류장 위치를 구 별로 구분 하기

* tip! 버스정류장ARS번호의 앞 두자리가 구를 의미합니다.

* '자치구' column을 추가하여 정류장이 위치한 구 이름을 등록해주세요.


In [3]:
# 먼저, bus_station에서 버스정류장ARS번호의 정보를 확인해보세요.
bus_station['버스정류장ARS번호'].nunique()

12494

In [4]:
bus_station['버스정류장ARS번호'].value_counts()

~        5174
01023     835
01044     819
02142     809
01013     778
         ... 
03538       1
03554       1
19994       1
20963       1
20965       1
Name: 버스정류장ARS번호, Length: 12494, dtype: int64

In [5]:
# 버스정류장 ARS 번호의 앞자리 2개를 잘라내어 새로 '자치구' 컬럼을 생성합니다
series = bus_station['버스정류장ARS번호'].str[:2]
bus_station['자치구'] = series

In [6]:
# 자치구의 값들이 어떻게 구성되어 있는 지 확인해봅니다. (ex: nunique 활용)
bus_station['자치구'].nunique()

50

In [7]:
bus_station['자치구'].value_counts()

23    62571
22    57001
13    53526
16    53122
08    50749
21    49771
14    49660
24    49394
11    49263
12    48890
19    47788
07    44689
20    42905
01    41473
17    41449
15    41174
06    39749
09    36274
02    31207
10    31042
18    30680
03    30386
25    29233
04    29158
05    23440
35    16429
38    12202
36    11623
40     8271
48     6659
57     6210
47     5175
~      5174
61     4648
56     4440
37     3870
46     3328
49     3096
60     2623
42     2519
63     2346
39     1729
45     1680
31     1015
68      870
28      630
44      420
30      237
27       60
59       30
Name: 자치구, dtype: int64

In [72]:
bus_station.head()

Unnamed: 0,사용일자,노선번호,노선명,버스정류장ARS번호,역명,승차총승객수,하차총승객수,등록일자,자치구
0,20220401,2112,2112번(면목동~성북동),6243,장안동삼성쉐르빌아파트,31,156,20220404,6
1,20220401,2112,2112번(면목동~성북동),6242,새서울병원,46,153,20220404,6
2,20220401,2112,2112번(면목동~성북동),6238,장안동근린공원,11,80,20220404,6
3,20220401,2112,2112번(면목동~성북동),6309,휘경공고휘경주공아파트,56,65,20220404,6
4,20220401,100,100번(하계동~용산구청),11428,한성여객종점,9,5,20220404,11


#### [1.2.3] 서울시 자치구에 해당하는 버스정류장만 추출하기

* 위에서 살펴본 자치구의 값은 숫자 2자리로 구성되어 있습니다. 
* 그런데 서울시 구별 코드정보는 01부터 25까지라고 합니다(도메인지식)
* 그렇다면 01부터 25의 범위를 넘어서는 데이터는 서울시 구별 정보가 아닐 것입니다. 이번 미니프로젝트에서는 서울시에 관한 정보만 분석하고자 하므로 이 데이터를 어떻게 처리하면 좋을지 생각하여 적용해보세요.
* 분석 시의 편의를 위해 숫자 2자리 구별 코드는 구 이름으로 변환해주세요.
* 서울시 구별 코드정보<br>
    '01': '종로구',
    '02': '중구',
    '03': '용산구',
    '04': '성동구',
    '05': '광진구',
    '06': '동대문구',
    '07': '중랑구',
    '08': '성북구',
    '09': '강북구',
    '10': '도봉구',
    '11': '노원구',
    '12': '은평구',
    '13': '서대문구',
    '14': '마포구',
    '15': '양천구',
    '16': '강서구',
    '17': '구로구',
    '18': '금천구',
    '19': '영등포구',
    '20': '동작구',
    '21': '관악구',
    '22': '서초구',
    '23': '강남구',
    '24': '송파구',
    '25': '강동구'

In [8]:
# 숫자 2자리 구 코드를 구 이름으로 변환합니다
bus_station['자치구'] = bus_station['자치구'].map({
    '01': '종로구', '02': '중구', '03': '용산구', '04': '성동구', '05': '광진구', '06': '동대문구', 
    '07': '중랑구', '08': '성북구', '09': '강북구', '10': '도봉구', '11': '노원구', '12': '은평구', 
    '13': '서대문구', '14': '마포구', '15': '양천구', '16': '강서구', '17': '구로구', '18': '금천구', 
    '19': '영등포구', '20': '동작구', '21': '관악구', '22': '서초구', '23': '강남구', '24': '송파구', 
    '25': '강동구'
})

In [9]:
# 숫자 2자리 구 코드를 구 이름으로 변환한 결과를 확인해봅니다.
bus_station.head()

Unnamed: 0,사용일자,노선번호,노선명,버스정류장ARS번호,역명,승차총승객수,하차총승객수,등록일자,자치구
0,20220401,2112,2112번(면목동~성북동),6243,장안동삼성쉐르빌아파트,31,156,20220404,동대문구
1,20220401,2112,2112번(면목동~성북동),6242,새서울병원,46,153,20220404,동대문구
2,20220401,2112,2112번(면목동~성북동),6238,장안동근린공원,11,80,20220404,동대문구
3,20220401,2112,2112번(면목동~성북동),6309,휘경공고휘경주공아파트,56,65,20220404,동대문구
4,20220401,100,100번(하계동~용산구청),11428,한성여객종점,9,5,20220404,노원구


In [10]:
# 자치구 컬럼의 값들을 확인해봅니다.
print(bus_station['자치구'].nunique())
print()
print(bus_station['자치구'].unique())
print()
print(bus_station['자치구'].value_counts())

25

['동대문구' '노원구' '강북구' '종로구' '마포구' '서대문구' '성동구' '서초구' nan '동작구' '관악구' '영등포구'
 '금천구' '용산구' '중구' '성북구' '구로구' '광진구' '도봉구' '은평구' '중랑구' '강서구' '양천구' '강남구'
 '강동구' '송파구']

강남구     62571
서초구     57001
서대문구    53526
강서구     53122
성북구     50749
관악구     49771
마포구     49660
송파구     49394
노원구     49263
은평구     48890
영등포구    47788
중랑구     44689
동작구     42905
종로구     41473
구로구     41449
양천구     41174
동대문구    39749
강북구     36274
중구      31207
도봉구     31042
금천구     30680
용산구     30386
강동구     29233
성동구     29158
광진구     23440
Name: 자치구, dtype: int64


#### [1.2.4] 결측치 처리

In [11]:
bus_station.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1169878 entries, 0 to 1169877
Data columns (total 9 columns):
 #   Column      Non-Null Count    Dtype 
---  ------      --------------    ----- 
 0   사용일자        1169878 non-null  int64 
 1   노선번호        1169878 non-null  object
 2   노선명         1169878 non-null  object
 3   버스정류장ARS번호  1169878 non-null  object
 4   역명          1169878 non-null  object
 5   승차총승객수      1169878 non-null  int64 
 6   하차총승객수      1169878 non-null  int64 
 7   등록일자        1169878 non-null  int64 
 8   자치구         1064594 non-null  object
dtypes: int64(4), object(5)
memory usage: 80.3+ MB


In [12]:
# NaN 값을 제거 합니다.
# 또는 위에서 처리한 방식에 따라 NaN 값이 없는 경우는 자치구 명으로 변환되지 않은 행(서울시 자치구에 해당하지 않는 정보)을 제거합니다
bus_station = bus_station.loc[bus_station['자치구'].notnull()]

In [13]:
# NaN 값을 제거한 결과를 확인해봅니다. 결측치가 제가된 만큼 컬럼 갯수가 줄어들었는 지 확인해봅니다.
print(bus_station['자치구'].nunique())
print()
print(bus_station['자치구'].unique())
print()
print(bus_station['자치구'].value_counts())

25

['동대문구' '노원구' '강북구' '종로구' '마포구' '서대문구' '성동구' '서초구' '동작구' '관악구' '영등포구'
 '금천구' '용산구' '중구' '성북구' '구로구' '광진구' '도봉구' '은평구' '중랑구' '강서구' '양천구' '강남구'
 '강동구' '송파구']

강남구     62571
서초구     57001
서대문구    53526
강서구     53122
성북구     50749
관악구     49771
마포구     49660
송파구     49394
노원구     49263
은평구     48890
영등포구    47788
중랑구     44689
동작구     42905
종로구     41473
구로구     41449
양천구     41174
동대문구    39749
강북구     36274
중구      31207
도봉구     31042
금천구     30680
용산구     30386
강동구     29233
성동구     29158
광진구     23440
Name: 자치구, dtype: int64


In [79]:
bus_station.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1064594 entries, 0 to 1169877
Data columns (total 9 columns):
 #   Column      Non-Null Count    Dtype 
---  ------      --------------    ----- 
 0   사용일자        1064594 non-null  int64 
 1   노선번호        1064594 non-null  object
 2   노선명         1064594 non-null  object
 3   버스정류장ARS번호  1064594 non-null  object
 4   역명          1064594 non-null  object
 5   승차총승객수      1064594 non-null  int64 
 6   하차총승객수      1064594 non-null  int64 
 7   등록일자        1064594 non-null  int64 
 8   자치구         1064594 non-null  object
dtypes: int64(4), object(5)
memory usage: 81.2+ MB


#### [1.2.5] 데이터 추가 분석 (버스정류장의 위치가 서울시인지 재확인)

* 위에서 버스정류장ARS번호의 앞 2자리로 서울시 자치구에 속한 버스정류장만 추출했습니다. 
* 그런데 이렇게 추출한 버스정류장도 서울시에 속하지 않는 경우가 있어, 추가 데이터를 활용하여 한번 더 서울시 정류장만 추출하려고 합니다.

In [14]:
# 자치구 별로 정류장의 개수를 확인해봅니다. (nunique로 고유값의 갯수만 확인)
print(bus_station['자치구'].nunique())
print()
print(bus_station['자치구'].unique())

25

['동대문구' '노원구' '강북구' '종로구' '마포구' '서대문구' '성동구' '서초구' '동작구' '관악구' '영등포구'
 '금천구' '용산구' '중구' '성북구' '구로구' '광진구' '도봉구' '은평구' '중랑구' '강서구' '양천구' '강남구'
 '강동구' '송파구']


In [15]:
bus_station['자치구'].value_counts()

강남구     62571
서초구     57001
서대문구    53526
강서구     53122
성북구     50749
관악구     49771
마포구     49660
송파구     49394
노원구     49263
은평구     48890
영등포구    47788
중랑구     44689
동작구     42905
종로구     41473
구로구     41449
양천구     41174
동대문구    39749
강북구     36274
중구      31207
도봉구     31042
금천구     30680
용산구     30386
강동구     29233
성동구     29158
광진구     23440
Name: 자치구, dtype: int64

In [82]:
# 강남구와 서초구에 500개가 넘는 버스정류장이 있습니다. 
# 이 중에 랜덤으로 몇 개를 골라 해당 자치구의 정류장이 맞는 지 확인해 보고자 합니다.
# 강남구의 버스정류장ARS번호 전체값을 출력해, 강남구의 버스정류장ARS번호 하나를 조사(네이버 지도에서 버스정류장 검색)해봅니다.

#### 여기서 잠깐!

* 예를 들어 강남구 정류장 중 하나인 23081 정류장을 네이버지도에서 버스정류장 검색을 해보면 강남구가 아니라 남양주에 위치해 있습니다. 
* 이것은 2015년경 버스 노선을 정리 하면서 서울에서 경기도까지 이어지는 노선들의 버스정류장 ARS번호에 서울시 코드를 부여하여 생긴 현상입니다.(도메인지식) 
* 하지만 우리는 서울시 내의 데이터가 필요하므로 적절한 조치가 필요합니다.

#### [1.2.6] 추가 csv 파일로 서울시 버스정류장만 추출하기
* 위에서 작업한 bus_station 데이터와 서울의 버스 정류장 데이터를 merge하는 방법을 활용해 봅니다.
* 서울의 버스 정류장만 포함하고 있는 csv 파일은 아래와 같이 제공됩니다.
* 파일명: 1.2 bus_station_seoul.csv
* 출처: https://data.seoul.go.kr/dataList/OA-15067/S/1/datasetView.do (서울 열린데이터 광장)

In [16]:
# 데이터 로딩 (1.2 bus_station_seoul.csv 의 데이터를 불러와서 only_seoul 변수에 저장합니다)
# 데이터 로딩 시 오류가 발생하는 경우 검색 등을 통해 encoding 값을 적용해보세요.
only_seoul = pd.read_csv('./1.2 bus_station_seoul.csv')

In [17]:
# 서울의 버스정류장 데이터의 정보 확인
only_seoul

Unnamed: 0,ARS-ID,정류소명
0,1001,종로2가사거리
1,1002,창경궁.서울대학교병원
2,1003,명륜3가.성대입구
3,1004,종로2가.삼일교
4,1005,혜화동로터리.여운형활동터
...,...,...
10930,25995,우성아파트
10931,25996,우성아파트
10932,25997,조일약국
10933,25998,성내시장


In [18]:
# 데이터 살펴보기
only_seoul.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10935 entries, 0 to 10934
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   ARS-ID  10935 non-null  int64 
 1   정류소명    10935 non-null  object
dtypes: int64(1), object(1)
memory usage: 171.0+ KB


In [19]:
# 위에서 네이버 지도로 확인했던 강남구 정류장ARS번호 23081이 이 데이터프레임에 있는지 찾아봅니다.
only_seoul.loc[only_seoul['ARS-ID'] == 23081]

Unnamed: 0,ARS-ID,정류소명


In [20]:
bus_station.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1064594 entries, 0 to 1169877
Data columns (total 9 columns):
 #   Column      Non-Null Count    Dtype 
---  ------      --------------    ----- 
 0   사용일자        1064594 non-null  int64 
 1   노선번호        1064594 non-null  object
 2   노선명         1064594 non-null  object
 3   버스정류장ARS번호  1064594 non-null  object
 4   역명          1064594 non-null  object
 5   승차총승객수      1064594 non-null  int64 
 6   하차총승객수      1064594 non-null  int64 
 7   등록일자        1064594 non-null  int64 
 8   자치구         1064594 non-null  object
dtypes: int64(4), object(5)
memory usage: 81.2+ MB


In [21]:
# bus_station과 only_seoul 데이터를 합치기 전에 버스정류장ARS번호의 type을 변경합니다. 
# 어떤 type으로 변경해야 할 지 생각해보세요.

# int는 분명히 정수형인데 int->object 데이터타입으로 바꾸는 게 맞나..? 싶어서 object->int로 변경
# 이라고 생각했는데, 버스정류장ARS번호가 어떤 수치의 의미를 갖는 것이 아니니까 object로 통일하자
# 라고..생각했는데, ARS-ID가 원래 int였던 바람에 0으로 시작하는 행정구역번호는 네자릿수이다....
# object는 01로 시작할 수 있어서 전부 다섯자리다. 때문에 objet->int로 변경....

bus_station = bus_station.astype({'버스정류장ARS번호' : 'int64'})
bus_station.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1064594 entries, 0 to 1169877
Data columns (total 9 columns):
 #   Column      Non-Null Count    Dtype 
---  ------      --------------    ----- 
 0   사용일자        1064594 non-null  int64 
 1   노선번호        1064594 non-null  object
 2   노선명         1064594 non-null  object
 3   버스정류장ARS번호  1064594 non-null  int64 
 4   역명          1064594 non-null  object
 5   승차총승객수      1064594 non-null  int64 
 6   하차총승객수      1064594 non-null  int64 
 7   등록일자        1064594 non-null  int64 
 8   자치구         1064594 non-null  object
dtypes: int64(5), object(4)
memory usage: 81.2+ MB


In [22]:
# 두 데이터를 합치기 전에 데이터의 컬럼명을 변경합니다. (버스정류장ARS번호로 맞춥니다.)
only_seoul.rename(columns={'ARS-ID' : '버스정류장ARS번호'}, inplace=True)
only_seoul.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10935 entries, 0 to 10934
Data columns (total 2 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   버스정류장ARS번호  10935 non-null  int64 
 1   정류소명        10935 non-null  object
dtypes: int64(1), object(1)
memory usage: 171.0+ KB


In [23]:
bus_station['버스정류장ARS번호'].value_counts()

1023     835
1044     819
2142     809
1013     778
1014     776
        ... 
3538       1
3554       1
19994      1
20963      1
20965      1
Name: 버스정류장ARS번호, Length: 10704, dtype: int64

In [24]:
only_seoul['버스정류장ARS번호'].value_counts()

1001     1
18217    1
18209    1
18210    1
18211    1
        ..
10798    1
10799    1
10800    1
10802    1
25999    1
Name: 버스정류장ARS번호, Length: 10935, dtype: int64

In [25]:
# bus_station과 only_seoul 데이터를 merge 해봅니다.
df = pd.merge(bus_station, only_seoul)

In [26]:
# bus_station과 only_seoul 데이터를 merge한 결과를 확인해봅니다.
df

Unnamed: 0,사용일자,노선번호,노선명,버스정류장ARS번호,역명,승차총승객수,하차총승객수,등록일자,자치구,정류소명
0,20220401,2112,2112번(면목동~성북동),6243,장안동삼성쉐르빌아파트,31,156,20220404,동대문구,장안동삼성쉐르빌아파트
1,20220401,2233,2233번(면목동~옥수동),6243,장안동삼성쉐르빌아파트,75,197,20220404,동대문구,장안동삼성쉐르빌아파트
2,20220401,2233,2233번(면목동~옥수동),6243,장안동삼성쉐르빌아파트,21,245,20220404,동대문구,장안동삼성쉐르빌아파트
3,20220401,2416,2416번(중랑공영차고지~삼성역),6243,장안동삼성쉐르빌아파트,42,268,20220404,동대문구,장안동삼성쉐르빌아파트
4,20220402,2233,2233번(면목동~옥수동),6243,장안동삼성쉐르빌아파트,12,127,20220405,동대문구,장안동삼성쉐르빌아파트
...,...,...,...,...,...,...,...,...,...,...
1060881,20220429,7019,7019번(은평공영차고지~시청(서소문)),12242,응암2동주민센터,3,161,20220502,은평구,응암2동주민센터
1060882,20220429,7734,7734번(진관공영차고지~홍대입구역),12242,응암2동주민센터,29,139,20220502,은평구,응암2동주민센터
1060883,20220430,7734,7734번(진관공영차고지~홍대입구역),12242,응암2동주민센터,15,82,20220503,은평구,응암2동주민센터
1060884,20220430,7019,7019번(은평공영차고지~시청(서소문)),12242,응암2동주민센터,2,99,20220503,은평구,응암2동주민센터


In [27]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1060886 entries, 0 to 1060885
Data columns (total 10 columns):
 #   Column      Non-Null Count    Dtype 
---  ------      --------------    ----- 
 0   사용일자        1060886 non-null  int64 
 1   노선번호        1060886 non-null  object
 2   노선명         1060886 non-null  object
 3   버스정류장ARS번호  1060886 non-null  int64 
 4   역명          1060886 non-null  object
 5   승차총승객수      1060886 non-null  int64 
 6   하차총승객수      1060886 non-null  int64 
 7   등록일자        1060886 non-null  int64 
 8   자치구         1060886 non-null  object
 9   정류소명        1060886 non-null  object
dtypes: int64(5), object(5)
memory usage: 89.0+ MB


In [28]:
# 버스정류장ARS번호 갯수를 확인해봅니다.
print(df['버스정류장ARS번호'].value_counts())
print()
print(df['버스정류장ARS번호'].nunique())

1023     835
1044     819
2142     809
1013     778
1014     776
        ... 
14986      1
14364      1
3554       1
19994      1
20965      1
Name: 버스정류장ARS번호, Length: 10615, dtype: int64

10615


#### [1.2.7] 구 별로 버스 정류장의 개수 확인

In [29]:
# 구 별로 버스 정류장의 개수를 확인해 봅니다.
# 구 별 버스정류장 개수로 구성된 데이터프레임을 seoul_bus_station_ARS에 저장합니다.
# (groupby 함수에서 as_index 옵션을 사용해보세요)
seoul_bus_station_ARS = df.groupby('자치구', as_index=False)['버스정류장ARS번호'].nunique()
print(seoul_bus_station_ARS)
print()
print(seoul_bus_station_ARS['버스정류장ARS번호'].sum())
seoul_bus_station_ARS.rename(columns={'버스정류장ARS번호' : '버스정류장개수'}, inplace=True)
print()
print(seoul_bus_station_ARS)

     자치구  버스정류장ARS번호
0    강남구         499
1    강동구         369
2    강북구         413
3    강서구         566
4    관악구         466
5    광진구         269
6    구로구         486
7    금천구         345
8    노원구         514
9    도봉구         359
10  동대문구         306
11   동작구         438
12   마포구         562
13  서대문구         456
14   서초구         600
15   성동구         435
16   성북구         602
17   송파구         415
18   양천구         319
19  영등포구         465
20   용산구         323
21   은평구         501
22   종로구         349
23    중구         178
24   중랑구         380

10615

     자치구  버스정류장개수
0    강남구      499
1    강동구      369
2    강북구      413
3    강서구      566
4    관악구      466
5    광진구      269
6    구로구      486
7    금천구      345
8    노원구      514
9    도봉구      359
10  동대문구      306
11   동작구      438
12   마포구      562
13  서대문구      456
14   서초구      600
15   성동구      435
16   성북구      602
17   송파구      415
18   양천구      319
19  영등포구      465
20   용산구      323
21   은평구      501
22   종로구      349
23    중구      

#### [1.2.8] 구 별로 버스 노선이 몇 개 지나가는 지 확인
* 구 별로 버스 노선의 개수 확인

In [30]:
# 구 별로 버스 노선 개수를 확인해 봅니다.
# 구 별 버스 노선 개수로 구성된 데이터프레임을 seoul_bus_station_line에 저장합니다.
seoul_bus_station_line = df.groupby('자치구', as_index=False)['노선번호'].nunique()
print(seoul_bus_station_line)
print()
print(seoul_bus_station_line['노선번호'].sum())
seoul_bus_station_line.rename(columns={'노선번호' : '노선개수'}, inplace=True)
print()
print(seoul_bus_station_line)

     자치구  노선번호
0    강남구    91
1    강동구    21
2    강북구    67
3    강서구    49
4    관악구    86
5    광진구    41
6    구로구    79
7    금천구    58
8    노원구    57
9    도봉구    46
10  동대문구    73
11   동작구    94
12   마포구    97
13  서대문구   107
14   서초구    93
15   성동구    58
16   성북구    99
17   송파구    55
18   양천구    56
19  영등포구   101
20   용산구    67
21   은평구    71
22   종로구   106
23    중구   103
24   중랑구    48

1823

     자치구  노선개수
0    강남구    91
1    강동구    21
2    강북구    67
3    강서구    49
4    관악구    86
5    광진구    41
6    구로구    79
7    금천구    58
8    노원구    57
9    도봉구    46
10  동대문구    73
11   동작구    94
12   마포구    97
13  서대문구   107
14   서초구    93
15   성동구    58
16   성북구    99
17   송파구    55
18   양천구    56
19  영등포구   101
20   용산구    67
21   은평구    71
22   종로구   106
23    중구   103
24   중랑구    48


#### [1.2.9] 구 별로 승차 총 승객수, 하차 총 승객수 확인

In [31]:
# 구 별 승차총승객수, 하차총승객수를 확인해봅니다.
# 구 별 승차총승객수, 하차총승객수로 구성된 데이터프레임을 seoul_bus_station_sum에 저장합니다.
seoul_bus_station_sum = df.groupby('자치구', as_index=False)[['승차총승객수', '하차총승객수']].sum()
seoul_bus_station_sum

Unnamed: 0,자치구,승차총승객수,하차총승객수
0,강남구,8030483,7569213
1,강동구,2890053,2830506
2,강북구,4825181,4671783
3,강서구,4681083,4652828
4,관악구,7655819,7792476
5,광진구,2749448,2753411
6,구로구,4942197,4730992
7,금천구,3776658,3581930
8,노원구,4353295,4292724
9,도봉구,3304305,3211421


#### [1.2.10] 구 별로 승차 평균 승객수, 하차 평균 승객수 확인

In [32]:
# 구 별 승차 승객수, 하차 승객수의 평균을 확인해봅니다.
# 구 별 승차 승객수, 하차 승객수의 평균으로 구성된 데이터프레임을 seoul_bus_station_mean에 저장합니다.
# 컬럼명은 승차평균승객수, 하차평균승객수로 바꾸세요.
seoul_bus_station_mean = df.groupby('자치구', as_index=False)[['승차총승객수', '하차총승객수']].mean()
seoul_bus_station_mean.rename(columns={
    '승차총승객수' : '승차평균승객수', '하차총승객수' : '하차평균승객수'}, inplace=True)
seoul_bus_station_mean

Unnamed: 0,자치구,승차평균승객수,하차평균승객수
0,강남구,128.767927,121.371512
1,강동구,99.161194,97.118065
2,강북구,133.020373,128.791504
3,강서구,88.11948,87.587591
4,관악구,154.753674,157.51604
5,광진구,118.352546,118.523137
6,구로구,119.235615,114.140076
7,금천구,123.09837,116.751304
8,노원구,88.476211,87.245168
9,도봉구,106.859356,103.85554


#### [1.2.11] 데이터 프레임 합치기

In [33]:
# 4개의 데이터 프레임을 합쳐서 seoul_bus_station에 저장해보세요.

# seoul_bus_station_ARS
# seoul_bus_station_line
# seoul_bus_station_sum
# seoul_bus_station_mean

seoul_bus_station1 = pd.merge(seoul_bus_station_ARS, seoul_bus_station_line)
seoul_bus_station2 = pd.merge(seoul_bus_station_sum, seoul_bus_station_mean)
seoul_bus_station = pd.merge(seoul_bus_station1, seoul_bus_station2)
seoul_bus_station

Unnamed: 0,자치구,버스정류장개수,노선개수,승차총승객수,하차총승객수,승차평균승객수,하차평균승객수
0,강남구,499,91,8030483,7569213,128.767927,121.371512
1,강동구,369,21,2890053,2830506,99.161194,97.118065
2,강북구,413,67,4825181,4671783,133.020373,128.791504
3,강서구,566,49,4681083,4652828,88.11948,87.587591
4,관악구,466,86,7655819,7792476,154.753674,157.51604
5,광진구,269,41,2749448,2753411,118.352546,118.523137
6,구로구,486,79,4942197,4730992,119.235615,114.140076
7,금천구,345,58,3776658,3581930,123.09837,116.751304
8,노원구,514,57,4353295,4292724,88.476211,87.245168
9,도봉구,359,46,3304305,3211421,106.859356,103.85554


In [34]:
# 4개의 데이터 프레임을 합쳐서 seoul_bus_station에 저장해보세요.

# seoul_bus_station_ARS
# seoul_bus_station_line
# seoul_bus_station_sum
# seoul_bus_station_meand

seoul_bus_station = pd.concat([seoul_bus_station_ARS, seoul_bus_station_line, 
                               seoul_bus_station_sum, seoul_bus_station_mean], axis=1)
seoul_bus_station

Unnamed: 0,자치구,버스정류장개수,자치구.1,노선개수,자치구.2,승차총승객수,하차총승객수,자치구.3,승차평균승객수,하차평균승객수
0,강남구,499,강남구,91,강남구,8030483,7569213,강남구,128.767927,121.371512
1,강동구,369,강동구,21,강동구,2890053,2830506,강동구,99.161194,97.118065
2,강북구,413,강북구,67,강북구,4825181,4671783,강북구,133.020373,128.791504
3,강서구,566,강서구,49,강서구,4681083,4652828,강서구,88.11948,87.587591
4,관악구,466,관악구,86,관악구,7655819,7792476,관악구,154.753674,157.51604
5,광진구,269,광진구,41,광진구,2749448,2753411,광진구,118.352546,118.523137
6,구로구,486,구로구,79,구로구,4942197,4730992,구로구,119.235615,114.140076
7,금천구,345,금천구,58,금천구,3776658,3581930,금천구,123.09837,116.751304
8,노원구,514,노원구,57,노원구,4353295,4292724,노원구,88.476211,87.245168
9,도봉구,359,도봉구,46,도봉구,3304305,3211421,도봉구,106.859356,103.85554


In [35]:
# 필요에 따라 column명을 데이터 의미에 맞게 적절히 변경하세요.


In [36]:
# 데이터 프레임을 합친 결과 확인
df_seoul_bus_station = seoul_bus_station.copy()
df_seoul_bus_station.drop('자치구', axis=1, inplace=True)
df_seoul_bus_station['자치구'] = seoul_bus_station_ARS['자치구']

In [37]:
df_seoul_bus_station

Unnamed: 0,버스정류장개수,노선개수,승차총승객수,하차총승객수,승차평균승객수,하차평균승객수,자치구
0,499,91,8030483,7569213,128.767927,121.371512,강남구
1,369,21,2890053,2830506,99.161194,97.118065,강동구
2,413,67,4825181,4671783,133.020373,128.791504,강북구
3,566,49,4681083,4652828,88.11948,87.587591,강서구
4,466,86,7655819,7792476,154.753674,157.51604,관악구
5,269,41,2749448,2753411,118.352546,118.523137,광진구
6,486,79,4942197,4730992,119.235615,114.140076,구로구
7,345,58,3776658,3581930,123.09837,116.751304,금천구
8,514,57,4353295,4292724,88.476211,87.245168,노원구
9,359,46,3304305,3211421,106.859356,103.85554,도봉구


In [38]:
# 해당 데이터프레임을 'df_seoul_bus_station.csv' 파일로 저장하세요.
seoul_bus_station.to_csv('df_seoul_bus_station.csv')

---

# 1.3.데이터 분석하기
+ 데이터의 형태를 살펴보고 다양한 분석기법을 통해 모델링에 적합하도록 정제요소를 선별하세요.
  * 데이터들의 패턴 탐색
  * 변수들간의 관계 파악

In [272]:
import seaborn as sns
import matplotlib.pyplot as plt

# 시각화 한글폰트 설정
# 맑은 고딕

plt.rc('font', family='Malgun Gothic')
sns.set(font="Malgun Gothic",#"NanumGothicCoding", 
        rc={"axes.unicode_minus":False}, # 마이너스 부호 깨짐 현상 해결
        style='darkgrid')

# scipy
import scipy.stats as spst  

#### [1.3.1] 데이터 분포 알아보기
* 다양한 변수를 기준으로 그래프를 그려보고 인사이트를 도출해보세요.

In [None]:
# 아래에 코드를 작성하고 결과를 확인합니다.


In [None]:
# 아래에 코드를 작성하고 결과를 확인합니다.


In [None]:
# 위 차트를 통해 알게된 사실을 정리해봅시다.
# 1. 
# 2.
# 3.

---