Skip to content

통계학과 겨울방학 빅데이터 분석 경진대회, 최우수상

Notifications You must be signed in to change notification settings

star77sa/Stat_Bigdata_analysis_Competition_2022_Winter

Repository files navigation

Stat_Bigdata_analysis_Competition_2022_Winter

전북대학교 통계학과 빅데이터 분석 경진대회(2022 win), 최우수상

1. 혼잡도를 예측하는 모델 구현

변수선택

  • 전체 변수 : 조사일자(평일인지 주말인지), 호선, 역 번호, 역병, 구분(상선인지 하선인지), 시간별 혼잡도

  • 선택 변수 : 조사일자, 호선, 역명 + 역 주변에 버스터미널이 있는지 여부

  • 예측 : 하루 평균 혼잡도

기계학습을 이용한 서울 지하철 승하차 인원 예측 논문에 따르면 역 주변에 버스터미널이 있는지 여부가 혼잡도에 영향을 미친다는 내용을 발견하여 이에 해당하는 변수를 만들어서 사용하였습니다.

모델

  • 선형회귀, MSE : 72.105

  • 랜덤포레스트, MSE : 68.459

  • 랜덤포레스트의 MSE가 더 낮아 랜덤포레스트 모델을 채택

image

x축 : 예측한 값 , y축 : 정답 값

시간과 데이터 수집의 한계로 부족한 모습을 보이지만 유의한 변수들이 조금 더 추가된다면 더 좋은 성능을 보일 것으로 예상

2. 혼잡도와 미세먼지 사이의 관계 분석

(1) 역 내부, 외부 미세먼지 비교

image

  • 외부에 비해 내부 미세먼지가 2배 가량 높은 것을 확인 가능

  • 미세먼지 특성상, 높은 기온에서 지표면과 멀어지기 때문에, 기온이 높아지는 아침에 수치가 낮아짐

    하지만 지하철 내부 미세먼지 그래프를 보니, 동일 시간대에 오히려 더 높아지는 것을 확인

    이는 지하철 내부의 어떤 원인으로 인해 미세먼지 수치가 올라간다는 것을 예상 가능

  • 또한 내부 미세먼지는 출퇴근 시간대에 높은 수치를 보임

image

  • 다음은 시간대 별 평균 혼잡도 그래프로, 아까 확인했던 내부 미세먼지의 그래프 개형과 비슷함을 확인할 수 있음

  • 이에 따라 미세먼지와 혼잡도와의 관계성을 예상하고 분석을 시작

그러나 여러 지하철 역들의 내부 미세먼지 변화를 일일이 관측해 본 결과 혼잡도의 그래프 특성을 지니고 있지 않은 데이터가 매우 많았다.

그래서 미세먼지의 원인이 정말 혼잡도인가에 대한 의문을 품게 되었다.

지하철 역사 미세먼지(PM10)의 확산방향과 확산속도 추정 논문에 따르면 열차 운행 빈도가 미세먼지 농도에 큰 영향을 끼친다는 사실을 알아냄

image

boxplot을 통해 나타내본 결과, 혼잡도가 아닌 운행 빈도에 의해 미세먼지의 농도가 영향을 받는 것을 볼 수 있었다.

image

정말 유의하지 않은지 t-test를 진행해본 결과, 운행빈도에 차이가 있는 두 집단에서는 p-value가 0.05보다 낮았고, 혼잡도에만 차이가 있는 집단은 p-value가 0.11로 유의하지 않은 데이터임을 확인했다.

About

통계학과 겨울방학 빅데이터 분석 경진대회, 최우수상

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published