# 1차 미니프로젝트 - 서울시 생활정보 기반 대중교통 수요 분석

## 문제 : 버스 정류장/노선 추가 필요 대상 지역(구 단위) 선정

In [1]:
import numpy as np
import pandas as pd

import matplotlib.pyplot as plt
import seaborn as sns

from statsmodels.graphics.mosaicplot import mosaic
import scipy.stats as spst

# 한글 폰트 적용
plt.rc('font', family='Malgun Gothic')
sns.set(font="Malgun Gothic",#"NanumGothicCoding", 
        rc={"axes.unicode_minus":False}, # 마이너스 부호 깨짐 현상 해결
        style='darkgrid')      

### 데이터 불러오기

In [2]:
bus = pd.read_csv('df_seoul_bus_station.csv')
move = pd.read_csv('df_seoul_moving.csv')
move_default = pd.read_csv('df_seoul_moving_default.csv')
people = pd.read_csv('df_seoul_people.csv')

In [3]:
move.rename(columns={'도착':'자치구'}, inplace=True)
standard = pd.merge(bus, move, on='자치구')
standard

Unnamed: 0,자치구,정류장수,노선수,승차총승객수,하차총승객수,승차평균승객수,하차평균승객수,평균 이동 시간(분),이동인구(합),총 이동 시간,총 이동인구
0,강남구,499,91,8030483,7569213,128.767927,121.371512,23.284573,83.309306,12904380,46170267.4
1,강동구,369,21,2890053,2830506,99.161194,97.118065,26.108477,59.889404,9596980,22014206.89
2,강북구,413,67,4825181,4671783,133.020373,128.791504,24.282441,36.281421,8765160,13096395.71
3,강서구,566,49,4681083,4652828,88.11948,87.587591,25.496986,54.208682,10718780,22789004.72
4,관악구,466,86,7655819,7792476,154.753674,157.51604,23.842468,46.586809,10091730,19718658.8
5,광진구,269,41,2749448,2753411,118.352546,118.523137,22.779081,43.71243,9761770,18732568.44
6,구로구,486,79,4942197,4730992,119.235615,114.140076,23.480408,38.895596,9072360,15028480.32
7,금천구,345,58,3776658,3581930,123.09837,116.751304,24.394485,28.730583,7190250,8468310.47
8,노원구,514,57,4353295,4292724,88.476211,87.245168,24.497542,51.091182,10256190,21389936.36
9,도봉구,359,46,3304305,3211421,106.859356,103.85554,25.102882,35.099543,8053130,11260109.02


### 가설 수립
1. 지역 인구와 버스 이용자 사이에 관계성이 있다.

##### 정류장 설치
1) 정류장 수와 버스 이용자 수 사이의 관계성이 있다.
2) 정류장 수와 버스 이동 시간 사이에 관계성이 있다.
3) 정류장 수와 이동유형 사이에 관계성이 있다.
4) 정류장 수와 인구 사이에 관계성이 있다.

##### 노선 설치
1. 노선 수와 버스 이용자 수 사이에 관계성이 있다.
2. 노선 수와 버스 이동 시간 사이에 관계성이 있다.
3. 노선 수와 두 지역간의 이동인원 사이에 관계성이 있다.


### 단변량 분석

In [None]:
plt.

### 이변량 분석

* 자료의 종류에 맞게 X --> Y 에 대해서 그래프(시각화)와 가설검정(수치화)를 수행하고 결과를 평가합니다.

* 가설검정시 다음의 항목을 참조하여 수행합니다.
    * 유의수준 : 5%
    * 숫자 --> 숫자 : 상관분석
    * 범주 --> 범주 : 카이제곱검정
    * 범주 --> 숫자 : t검정, 분산분석
    * 숫자 --> 범주 : 로지스틱 회귀모형을 통해, 회귀계수의 P.value로 검정을 수행합니다.


In [None]:
target = '자치구'
use = ['승차총승객수','하차총승객수','승차평균승객수','하차평균승객수', '평균 이동 시간(분)', '이동인구(합)', '총 이동 시간', '총 이동인구']

In [None]:
# 정류장 별 승하차
for i in use:
    plt.figure(figsize=(15,10))
    plt.subplot(1,3,1)
    sns.regplot(data=standard, x='정류장수', y=i)
    plt.subplot(1,3,2)
    sns.regplot(data=standard, x='정류장수', y=i)
    plt.subplot(1,3,3)
    sns.scatterplot(data=standard, x='정류장수', y=i, hue=target, legend=False)
    plt.grid()
    plt.tight_layout()
    plt.show()
    
    result = spst.pearsonr(standard['정류장수'], standard[i])
    print(f'{i} : {result}')

##### 가설 1-1 정류장수 별 이용자 ( 상관관계 )
1. 승/하차총승객수와 관계에서는 상관계수 0.5 이상으 큰 관계가 있어 보임
2. 승/하차평균승객수와 관계에서는 상관계수 0.13, 0.09로 관계가 거의 없어 보임
3. 이동인구 평균과 총합의 관계에서 상관계사 0.3 정도의 약간의 관계가 있어 보임

In [None]:
# 노선 별 승하차
for i in use:
    plt.figure(figsize=(15,10))
    plt.subplot(1,3,1)
    sns.regplot(data=standard, x='노선수', y=i)
    plt.subplot(1,3,2)
    sns.regplot(data=standard, x='노선수', y=i)
    plt.subplot(1,3,3)
    sns.scatterplot(data=standard, x='노선수', y=i, hue=target, legend=False)
    plt.grid()
    plt.title(i)
    plt.show()
    
    result = spst.pearsonr(standard['노선수'], standard[i])
    print(f'{i} : {result}')

##### 가설 1-2 노선수 별 이용
1. 승/하차총승객수와 관계에서는 상관계수 0.6 이상으 큰 관계가 있어 보임
2. 승/하차평균승객수와 관계에서는 상관계수 0.4 정도의 약간의 관계가 있어 보임
3. 이동인구평균의 관계에서는 상관계수 0.0001로 관계가 없어 보임
4. 총이동인구의 관계에서는 상관계수 0.2 정도의 약간의 관계가 있어 보임

In [None]:
# 자치구별 하나의 정류장/노선 당 이용자
standard['승차승객/정류장수'] = standard['승차총승객수'] / standard['정류장수']
standard['하차승객/정류장수'] = standard['하차총승객수'] / standard['정류장수']
standard['이동인구(합)/정류장수'] = standard['이동인구(합)'] / standard['정류장수']
standard['총 이동인구/정류장수'] = standard['총 이동인구'] / standard['정류장수']

standard['승차승객/노선수'] = standard['승차총승객수'] / standard['노선수']
standard['하차승객/노선수'] = standard['하차총승객수'] / standard['노선수']
standard['총 이동인구/노선수'] = standard['총 이동인구'] / standard['노선수']

standard[['승차승객/정류장수' , '하차승객/정류장수', '이동인구(합)/정류장수', '총 이동인구/정류장수', '승차승객/노선수' , '하차승객/노선수', '총 이동인구/노선수']].describe()

In [None]:
# 자치구별 1 정류장 당 이용자
li = ['승차승객/정류장수' , '하차승객/정류장수', '이동인구(합)/정류장수', '총 이동인구/정류장수']
count = 1
plt.figure(figsize=(20,20))
for i in li:
    plt.subplot(2,2,count)
    sns.barplot(data=standard, x=target, y = i)
    plt.axhline(standard[i].mean(), color='r')
    plt.xticks(rotation=45)
    plt.grid()
    count += 1
plt.title(i)
plt.show()

In [None]:
# ['승차승객/정류장수' , '하차승객/정류장수', '이동인구(합)/정류장수', '총 이동인구/정류장수']
tmp1 = standard.loc[(standard['승차승객/정류장수'] > standard['승차승객/정류장수'].mean())
                        & (standard['하차승객/정류장수'] > standard['하차승객/정류장수'].mean())
                        & (standard['이동인구(합)/정류장수'] > standard['이동인구(합)/정류장수'].mean())
                        & (standard['총 이동인구/정류장수'] > standard['총 이동인구/정류장수'].mean())]
tmp1['자치구']

In [None]:
# 자치구별 1 노선 당 이용자
li = ['승차승객/노선수' , '하차승객/노선수', '총 이동인구/노선수']
count = 1
plt.figure(figsize=(20,20))
for i in li:
    plt.subplot(3,1,count)
    sns.barplot(data=standard, x=target, y = i)
    plt.axhline(standard[i].mean(), color='r')
    plt.xticks(rotation=45)
    plt.grid()
    count += 1
plt.title(i)
plt.show()

In [None]:
# ['승차승객/노선수' , '하차승객/노선수', '총 이동인구/노선수']
tmp2 = standard.loc[(standard['승차승객/노선수'] > standard['승차승객/노선수'].mean())
                        & (standard['하차승객/노선수'] > standard['하차승객/노선수'].mean())
                        & (standard['총 이동인구/노선수'] > standard['총 이동인구/노선수'].mean())]
tmp2['자치구']

In [None]:
tmp = standard.loc[(standard['승차승객/정류장수'] > standard['승차승객/정류장수'].mean())
                        & (standard['하차승객/정류장수'] > standard['하차승객/정류장수'].mean())
                        & (standard['이동인구(합)/정류장수'] > standard['이동인구(합)/정류장수'].mean())
                        & (standard['총 이동인구/정류장수'] > standard['총 이동인구/정류장수'].mean())
                        & (standard['승차승객/노선수'] > standard['승차승객/노선수'].mean())
                        & (standard['하차승객/노선수'] > standard['하차승객/노선수'].mean())
                        & (standard['총 이동인구/노선수'] > standard['총 이동인구/노선수'].mean())]

standard.loc[standard['자치구'].isin(tmp['자치구'])]

### 가설 1 : 정류장과 노선 수 대비 이용자
<p>강남구/송파구</p>
<p>정류장과 노선의 수 대비 승/하차객과 이동인구의 상관관계에서 중간 이상의 지표를 가지고</p>
<p>지역구 별 하나의 정류장/노선 당 이용자가 높은 지역을 구함</p>

In [None]:
use = ['승차총승객수','하차총승객수','승차평균승객수','하차평균승객수', '이동인구(합)', '총 이동인구']

In [None]:
# 평균 이동 시간(분) 별 승하차
for i in use:
    plt.figure(figsize=(15,10))
    plt.subplot(1,3,1)
    sns.regplot(data=standard, x='평균 이동 시간(분)', y=i)
    plt.subplot(1,3,2)
    sns.regplot(data=standard, x='평균 이동 시간(분)', y=i)
    plt.subplot(1,3,3)
    sns.scatterplot(data=standard, x='평균 이동 시간(분)', y=i, hue=target, legend=False)
    plt.grid()
    plt.title(i)
    plt.show()

    result = spst.pearsonr(standard['평균 이동 시간(분)'], standard[i])
    print(f'{i} : {result}')

##### 가설2-1 평균 이동 시간(분) 별 이용자수
1. 승/하차총승객수와 관계에서는 상관계수 0.1 로 관계가 거의 없어 보임임
2. 승/하차평균승객수와 관계에서는 상관계수 0.3 정도의 약간의 관계가 있어 보임
3. 이동인구평균의 관계에서는 상관계수 0.3 정도의 약간의 관계가 있어 보임
4. 총이동인구의 관계에서는 상관계수 0.04로 관계가 없어 보임

In [None]:
# 총 이동 시간 별 승하차
for i in use:
    plt.figure(figsize=(15,10))
    plt.subplot(1,3,1)
    sns.regplot(data=standard, x='총 이동 시간', y=i)
    plt.subplot(1,3,2)
    sns.regplot(data=standard, x='총 이동 시간', y=i)
    plt.subplot(1,3,3)
    sns.scatterplot(data=standard, x='총 이동 시간', y=i, hue=target, legend=False)
    plt.grid()
    plt.title(i)
    plt.show()

    result = spst.pearsonr(standard['총 이동 시간'], standard[i])
    print(f'{i} : {result}')

##### 가설2-2 총 이동 시간 별 이용자수
1. 승/하차총승객수와 관계에서는 상관계수 0.5 이상의 큰 관계가 있어 보임
2. 승/하차평균승객수와 관계에서는 상관계수 0.11로 관계가 거의 없어 보임
3. 이동인구 평균과 총합의 관계에서 상관계사 0.8, 0.9 이상의 큰 관계가 있어 보임

In [None]:
# 자치구별 이동 시간(분당) 이용자수
standard['승차평균승객수/평균 이동 시간(분)'] = standard['승차평균승객수'] / standard['평균 이동 시간(분)']
standard['하차평균승객수/평균 이동 시간(분)'] = standard['하차평균승객수'] / standard['평균 이동 시간(분)']
standard['이동인구(합)/평균 이동 시간(분)'] = standard['이동인구(합)'] / standard['평균 이동 시간(분)']

standard['승차승객/총 이동 시간'] = standard['승차총승객수'] / standard['총 이동 시간']
standard['하차승객/총 이동 시간'] = standard['하차총승객수'] / standard['총 이동 시간']
standard['이동인구(합)/총 이동 시간'] = standard['이동인구(합)'] / standard['총 이동 시간']
standard['총 이동인구/총 이동 시간'] = standard['총 이동인구'] / standard['총 이동 시간']

standard[['승차평균승객수/평균 이동 시간(분)' , '하차평균승객수/평균 이동 시간(분)', '이동인구(합)/평균 이동 시간(분)'
        , '승차승객/총 이동 시간', '하차승객/총 이동 시간' , '이동인구(합)/총 이동 시간', '총 이동인구/총 이동 시간']].describe()

In [None]:
# 자치구별 평균 이동 시간 분당 이용자
li = ['승차평균승객수/평균 이동 시간(분)' , '하차평균승객수/평균 이동 시간(분)', '이동인구(합)/평균 이동 시간(분)']
count = 1
plt.figure(figsize=(20,20))
for i in li:
    plt.subplot(3,1,count)
    sns.barplot(data=standard, x=target, y = i)
    plt.axhline(standard[i].mean(), color='r')
    plt.xticks(rotation=45)
    plt.grid()
    count += 1
plt.title(i)
plt.show()

In [None]:
# ['승차평균승객수/평균 이동 시간(분)' , '하차평균승객수/평균 이동 시간(분)', '이동인구(합)/평균 이동 시간(분)']
tmp3 = standard.loc[(standard['승차평균승객수/평균 이동 시간(분)'] > standard['승차평균승객수/평균 이동 시간(분)'].mean())
                        & (standard['하차평균승객수/평균 이동 시간(분)'] > standard['하차평균승객수/평균 이동 시간(분)'].mean())
                        & (standard['이동인구(합)/평균 이동 시간(분)'] > standard['이동인구(합)/평균 이동 시간(분)'].mean())
                    ]
tmp3['자치구']

In [None]:
# 자치구별 총 이동 시간 분당 이용자
li = ['승차승객/총 이동 시간', '하차승객/총 이동 시간' , '이동인구(합)/총 이동 시간', '총 이동인구/총 이동 시간']
count = 1
plt.figure(figsize=(20,20))
for i in li:
    plt.subplot(2,2,count)
    sns.barplot(data=standard, x=target, y = i)
    plt.axhline(standard[i].mean(), color='r')
    plt.xticks(rotation=45)
    plt.grid()
    count += 1
plt.title(i)
plt.show()

In [None]:
# ['승차승객/총 이동 시간', '하차승객/총 이동 시간' , '이동인구(합)/총 이동 시간', '총 이동인구/총 이동 시간']
tmp4 = standard.loc[(standard['승차승객/총 이동 시간'] > standard['승차승객/총 이동 시간'].mean())
                        & (standard['하차승객/총 이동 시간'] > standard['하차승객/총 이동 시간'].mean())
                        & (standard['이동인구(합)/총 이동 시간'] > standard['이동인구(합)/총 이동 시간'].mean())
                        & (standard['총 이동인구/총 이동 시간'] > standard['총 이동인구/총 이동 시간'].mean())
                    ]
tmp4['자치구']

In [None]:
# ['승차승객/총 이동 시간', '하차승객/총 이동 시간' , '이동인구(합)/총 이동 시간', '총 이동인구/총 이동 시간']
tmp4 = standard.loc[(standard['승차평균승객수/평균 이동 시간(분)'] > standard['승차평균승객수/평균 이동 시간(분)'].mean())
                        & (standard['하차평균승객수/평균 이동 시간(분)'] > standard['하차평균승객수/평균 이동 시간(분)'].mean())
                        & (standard['이동인구(합)/평균 이동 시간(분)'] > standard['이동인구(합)/평균 이동 시간(분)'].mean())
                        & (standard['승차승객/총 이동 시간'] > standard['승차승객/총 이동 시간'].mean())
                        & (standard['하차승객/총 이동 시간'] > standard['하차승객/총 이동 시간'].mean())
                        & (standard['이동인구(합)/총 이동 시간'] > standard['이동인구(합)/총 이동 시간'].mean())
                        & (standard['총 이동인구/총 이동 시간'] > standard['총 이동인구/총 이동 시간'].mean())
                    ]
tmp4['자치구']

### 가설 2 : 이동시간 대비 이용자
<p>강남구/서초구/영등포구</p>
<p>평균 이동시간과 총 이동시간 대비 승/하차객과 이동인구의 상관관계에서 중간 이상의 지표를 가지고</p>
<p>지역구별 분 당 이용자가 높은 지역을 구함</p>

In [None]:
o_move_m.sort_values(by='빈도', ascending=False)

In [None]:
# 지역구 간의 이동 빈도 대비 이동인구/시간
o_move_m['총이동인구/빈도'] = o_move_m['총 이동인구'] / o_move_m['빈도']
o_move_m['총이동시간/빈도'] = o_move_m['총 이동 시간'] / o_move_m['빈도']

In [None]:
o_move_m.sort_values(by=['총이동인구/빈도', '총이동시간/빈도'], ascending=False).head(30)

In [None]:
tmp = o_move_m.loc[o_move_m['출발'] != o_move_m['도착']]
tmp.sort_values(by=['총이동인구/빈도', '총이동시간/빈도'], ascending=False).head(20)

In [None]:
tmp = pd.crosstab(o_move['출발'], o_move['도착'], normalize='all')
tmp

### 가설 3 : 지역간의 이동빈도
<p>강남구/송파구/서초구</p>
<p>같은 지역구 내에서의 이동인구와 이동시간 대비 빈도 비교 ( 상위 5 지역 : 강남구 / 송파구 / 강동구 / 서초구 / 강서구)</p>
<p>다른 지역구 간의 이동인구와 이동시간 대비 빈도 비교  ( 상위 3 지역 : 서초->강남 / 강남->서초 / 송파->강남)</p>


## 문제 : 버스 노선 추가 필요 대상 지역(구 단위) 선정

3가지 가설의 공통 지역구인 강남구