# "지하철 이용승객 분석" EDA 프로젝트
## 실습 데이터 
- 지하철 승하자 이용객 데이터 : 2019.01.01 ~ 2019.06.30 
  - 서울열린데이터광장 :  http://data.seoul.go.kr/dataList/OA-12914/A/1/datasetView.do
- 지하철 노선 정보 데이터

In [None]:
# 필요한 라이브러리를 불러오기

import pandas as pd
import numpy as np

In [None]:
# 작업할 여러개의 파일 중 하나의 파일 불러오기

file = r'.\data\rawfiles\CARD_SUBWAY_MONTH_201901.csv' #r은 raw 그대로 특수문자도 그대로 다 읽어오기

pd.read_csv(file)

In [None]:
raw = pd.read_csv(file)
raw.head()

In [None]:
# info() 이용해 데이터 구조를 살펴보기

raw.info()

In [None]:
# 이번에 여러 파일을 불러오기
# 2개 파일 불러와서 합치기

raw = pd.DataFrame()
raw.head()

file1 = r'.\data\rawfiles\CARD_SUBWAY_MONTH_201901.csv'
file2 = r'.\data\rawfiles\CARD_SUBWAY_MONTH_201902.csv'

temp1 = pd.read_csv(file1)
temp2 = pd.read_csv(file2)

# pandas concat 합치때, 인덱스 번호 그래로 간다. 옵션 ignore_index=True 사용하면 인덱스 새로 생성
raw = pd.concat([temp1, temp2], axis=0) # 0 : 행방향 , 1 : 열방향, default : 0

raw

In [None]:
# 폴더/파일을 관리하는 os 라이브러리를 불러오기

import os

In [None]:
# os.listdir()을 이용해 폴더에 있는 파일 리스트를 살펴보기

os.listdir()


In [None]:
dirpath = './data/rawfiles'
os.listdir(dirpath)

In [None]:
dirpath = './data/rawfiles/'
files = os.listdir(dirpath)
files = files[0:6]
files

In [None]:
# 여러개 파일 병합

# 빈 데이터프레임을 준비
raw = pd.DataFrame()

# 반복문 -> csv 파일 읽기 -> 데이터프레임에 추가하기
for file in files:
    #print(dirpath + file)
    temp = pd.read_csv(dirpath + file)
    raw = pd.concat([raw, temp], axis=0)

raw.tail()

In [None]:

raw.info()

In [None]:
raw = raw.reset_index(drop=True)

In [None]:
raw.head(7)

In [None]:
# 사용일자 컬럼 타입 확인 : int64

raw.info()

In [None]:
# **** '사용일자' 타입 int64 --> DateTime 타입으로 변경 : pandas.to_datetime 사용 ****

raw['사용일자'] = pd.to_datetime(raw['사용일자'], format='%Y%m%d')
raw.info()

In [None]:
# 사용일자에 대해서 요일로 변환
raw['사용요일'] = raw['사용일자'].dt.dayofweek
raw.head()

In [None]:
# 요일 숫자 -> 한글로 변환
conv = {
    0 : '월',
    1 : '화',
    2 : '수',
    3 : '목',
    4 : '금',
    5 : '토',
    6 : '일'
}

raw['사용요일'] = raw['사용요일'].map(conv)

In [None]:
# 승하차총승객수 칼럼 추가하기
raw['승하차총승객수'] = raw['승차총승객수'] + raw['하차총승객수']
raw


In [None]:
# 연월, 월일 칼럼 추가하기
raw['사용연월'] = raw['사용일자'].dt.strftime('%Y-%m')
raw['사용일'] = raw['사용일자'].dt.strftime('%d')
raw

In [None]:
raw['사용주'] = raw['사용일자'].dt.weekofyear
raw

## Q.요일 중에서 목요일에 지하철 승객수가 많다?

In [None]:
# 매주 월요일 data 추출
Mon_Pnumber = raw[['사용요일','사용주','승하차총승객수']]
Mon_Pnumber = Mon_Pnumber[Mon_Pnumber['사용요일'] == '월']
Mon_Pnumber = Mon_Pnumber.groupby(['사용요일','사용주'])['승하차총승객수'].sum()
Mon_Pnumber = pd.DataFrame(Mon_Pnumber, columns=['승하차총승객수'])

Mon_Pnumber

In [None]:
# 매주 화요일 data 추출
Tue_Pnumber = raw[['사용요일','사용주','승하차총승객수']]
Tue_Pnumber = Tue_Pnumber[Tue_Pnumber['사용요일'] == '화']
Tue_Pnumber = Tue_Pnumber.groupby(['사용요일','사용주'])['승하차총승객수'].sum()
Tue_Pnumber = pd.DataFrame(Tue_Pnumber, columns=['승하차총승객수'])


Tue_Pnumber

In [None]:
# 매주 수요일 data 추출
Wed_Pnumber = raw[['사용요일','사용주','승하차총승객수']]
Wed_Pnumber = Wed_Pnumber[Wed_Pnumber['사용요일'] == '수']
Wed_Pnumber = Wed_Pnumber.groupby(['사용요일','사용주'])['승하차총승객수'].sum()
Wed_Pnumber = pd.DataFrame(Wed_Pnumber, columns=['승하차총승객수'])

Wed_Pnumber

In [None]:
# 매주 목요일 data 추출
Thur_Pnumber = raw[['사용요일','사용주','승하차총승객수']]
Thur_Pnumber = Thur_Pnumber[Thur_Pnumber['사용요일'] == '목']
Thur_Pnumber = Thur_Pnumber.groupby(['사용요일','사용주'])['승하차총승객수'].sum()
Thur_Pnumber = pd.DataFrame(Thur_Pnumber, columns=['승하차총승객수'])

Thur_Pnumber

In [None]:
# 매주 금요일 data 추출
Fri_Pnumber = raw[['사용요일','사용주','승하차총승객수']]
Fri_Pnumber = Fri_Pnumber[Fri_Pnumber['사용요일'] == '금']
Fri_Pnumber = Fri_Pnumber.groupby(['사용요일','사용주'])['승하차총승객수'].sum()
Fri_Pnumber = pd.DataFrame(Fri_Pnumber, columns=['승하차총승객수'])


Fri_Pnumber

In [None]:
# 매주 토요일 data 추출
Sat_Pnumber = raw[['사용요일','사용주','승하차총승객수']]
Sat_Pnumber = Sat_Pnumber[Sat_Pnumber['사용요일'] == '토']
Sat_Pnumber = Sat_Pnumber.groupby(['사용요일','사용주'])['승하차총승객수'].sum()
Sat_Pnumber = pd.DataFrame(Sat_Pnumber, columns=['승하차총승객수'])


Sat_Pnumber

In [None]:
# 매주 일요일 data 추출
Sun_Pnumber = raw[['사용요일','사용주','승하차총승객수']]
Sun_Pnumber = Sun_Pnumber[Sun_Pnumber['사용요일'] == '일']
Sun_Pnumber = Sun_Pnumber.groupby(['사용요일','사용주'])['승하차총승객수'].sum()
Sun_Pnumber = pd.DataFrame(Sun_Pnumber, columns=['승하차총승객수'])

Sun_Pnumber

In [None]:
# 데이터 개수가 30개가 넘지 않아, 정규성 검정 진행
from scipy.stats import shapiro


shapiro_test_0 = shapiro(Mon_Pnumber['승하차총승객수'])
shapiro_test_1 = shapiro(Tue_Pnumber['승하차총승객수'])
shapiro_test_2 = shapiro(Wed_Pnumber['승하차총승객수'])
shapiro_test_3 = shapiro(Thur_Pnumber['승하차총승객수'])
shapiro_test_4 = shapiro(Fri_Pnumber['승하차총승객수'])
shapiro_test_5 = shapiro(Sat_Pnumber['승하차총승객수'])
shapiro_test_6 = shapiro(Sun_Pnumber['승하차총승객수'])

print(shapiro_test_0) 
print(shapiro_test_1)
print(shapiro_test_2)
print(shapiro_test_3)
print(shapiro_test_4)
print(shapiro_test_5)
print(shapiro_test_6)

In [None]:
# 데이터 개수가 30개가 넘지 않아, 정규성 검정 진행
from scipy.stats import shapiro


shapiro_test_0 = shapiro(Mon_Pnumber['승하차총승객수'])
shapiro_test_1 = shapiro(Tue_Pnumber['승하차총승객수'])
shapiro_test_2 = shapiro(Wed_Pnumber['승하차총승객수'])
shapiro_test_3 = shapiro(Thur_Pnumber['승하차총승객수'])
shapiro_test_4 = shapiro(Fri_Pnumber['승하차총승객수'])
shapiro_test_5 = shapiro(Sat_Pnumber['승하차총승객수'])
shapiro_test_6 = shapiro(Sun_Pnumber['승하차총승객수'])

print(shapiro_test_0) 
print(shapiro_test_1)
print(shapiro_test_2)
print(shapiro_test_3)
print(shapiro_test_4)
print(shapiro_test_5)
print(shapiro_test_6)

# p-value_0 = 0.00000003
# p-value_1 = 0.00000003
# p-value_2 = 0.0000001
# p-value_3 = 0.0000004
# p-value_4 = 0.00002
# p-value_5 = 0.04
# p-value_6 = 0.01

In [None]:
Thur_Pnumber['승하차총승객수'].plot.hist()

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

sns.distplot(Mon_Pnumber['승하차총승객수'])
plt.show()
sns.distplot(Tue_Pnumber['승하차총승객수'])
plt.show()
sns.distplot(Wed_Pnumber['승하차총승객수'])
plt.show()
sns.distplot(Thur_Pnumber['승하차총승객수'])
plt.show()
sns.distplot(Fri_Pnumber['승하차총승객수'])
plt.show()
sns.distplot(Sat_Pnumber['승하차총승객수'])
plt.show()
sns.distplot(Sun_Pnumber['승하차총승객수'])
plt.show()

In [None]:
# 모든 요일의 데이터의 p-value가 0.05보다 작아 비모수 검정 
from scipy.stats import kruskal
kruskal(Mon_Pnumber['승하차총승객수'],Tue_Pnumber['승하차총승객수'],Wed_Pnumber['승하차총승객수'],Thur_Pnumber['승하차총승객수'],\
    Fri_Pnumber['승하차총승객수'],Sat_Pnumber['승하차총승객수'],Sun_Pnumber['승하차총승객수'])

# p-value = 0.0
# p-value < 0.05이기 때문에 요일별 승객수 차이가 있다고 볼 수 있음.

In [None]:
# 모든 요일의 데이터의 p-value가 0.05보다 작아 비모수 검정 
from scipy.stats import kruskal
kruskal(Mon_Pnumber,Tue_Pnumber,Wed_Pnumber,Thur_Pnumber,\
    Fri_Pnumber,Sat_Pnumber,Sun_Pnumber)

# p-value = 0.0
# p-value < 0.05이기 때문에 요일별 승객수 차이가 있다고 볼 수 있음.


In [None]:
Pnum = pd.concat([Mon_Pnumber, Tue_Pnumber, Wed_Pnumber, Thur_Pnumber, Fri_Pnumber, Sat_Pnumber, Sun_Pnumber])

Pnum

In [None]:
Pnum = Pnum.reset_index()
Pnum

In [None]:
from statsmodels.sandbox.stats.multicomp import MultiComparison
import scipy.stats

comp = MultiComparison(Pnum['승하차총승객수'],Pnum['사용요일'])

# Bonferroni 방법을 통해 모든 그룹간 ttest를 진행
result = comp.allpairtest(scipy.stats.ttest_ind, method='bonf')
result[0]

In [None]:
# 매 주마다 요일 데이터 추출
day_Pnumber = raw[['사용요일','사용주','승하차총승객수']]
day_Pnumber = day_Pnumber.groupby(['사용요일'])['사용주','승하차총승객수'].sum()
day_Pnumber = pd.DataFrame(day_Pnumber, columns=['승하차총승객수'])
day_Pnumber = day_Pnumber.reindex(['월','화','수','목','금','토','일'])
day_Pnumber



In [None]:
# 요일별 승객 수 시각화
import numpy as np

from matplotlib import font_manager, rc
font_path = "C:/Windows/Fonts/NGULIM.TTF"
font = font_manager.FontProperties(fname=font_path).get_name()
rc('font', family=font)

x = np.arange(7)
day = day_Pnumber.index
values = day_Pnumber['승하차총승객수']

plt.bar(x, values)
plt.xticks(x, day)

plt.show()


## Q.연월 각각에 대해 일자별 승하차총승객수 시각화

In [None]:
# 일자별 승하차총승객수 연월 각가에 대해 시각화
for i in raw['사용연월'].unique():
    print(i)
    raw[raw['사용연월']==i].groupby('사용일')['승하차총승객수'].sum().plot(marker='o')
    plt.show()