Skip to content

thdus/Data-Mining

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

52 Commits
 
 
 
 
 
 
 
 

Repository files navigation

Seoul Senior Welfare Center Analysis Project for Increase Utilization

DataMining Team Project 4team

이용률 증진을 위한 서울시 노인복지센터 분석 프로젝트


Summary

  • 서울시에 존재하는 동마다의 인구 밀도 및 노인 밀도 등의 인구 통계학적 데이터를 기반하여 경로당의 설립장소 추천
  • 경로당이 존재하는 동에 통계학적 데이터를 기반하여 노인들의 경로당 이용률 증진을 위한 분석

Data PreProcessing

데이터 수집 및 분석

  1. 서울시 주민등록인구 (연령별/동별) 통계
    https://data.seoul.go.kr/dataList/10727/S/2/datasetView.do
  2. 서울시 독거노인 현황 (연령별/동별) 통계
    https://data.seoul.go.kr/dataList/10176/S/2/datasetView.do
  3. 서울시 장애인 현황 (연령별/동별) 통계
    https://data.seoul.go.kr/dataList/10580/S/2/datasetView.do
  4. 서울시 경로당 정보
    https://data.seoul.go.kr/dataList/OA-15052/S/1/datasetView.do
  5. 서울시 국민기초생활 수급자 동별 현황
    https://data.seoul.go.kr/dataList/OA-22227/F/1/datasetView.do

        Data Source: 서울 열린데이터광장

  1. 서울시 행정동 경위도 좌표

        Data Source: 홍시의 싱크탱크

  1. geo.json

        Data Source: vuski's github repo

데이터 전처리

  1. 결측치 제거 및 필요하지 않는 Feature 제거
  2. 데이터의 각 행의 내용 정렬 및 일치작업
  3. 전체 데이터에 필요한 Feature 확인
  4. 경로당이 존재하는 동의 Feature 생성
  5. 모든 동의 Feature 생성

시각화(EDA) - 서울시 Feature 별

노인인구 비율 기초수급자 비율

              노인인구 비율                                                                      기초수급자 비율

장애인 비율 독거노인 비율

              장애인 비율                                                                      독거노인 비율


모델링

K-means Clustering

  • 데이터를 K개의 군집으로 나누기 위한, 거리 기반 Clustering 알고리즘.
  • 같은 집단 내 데이터들은 비슷한 특징을 가지고 있고, 다른 집단의 데이터와는 데이터적으로 상반된 특징을 가지고 있다는 것을 가정한다. 즉, 동일 집단의 군집화를 고려하는 것 뿐만 아니라, 타집단과의 관계도 고려.
  • 매우 좋은 알고리즘임에도 불구하고, 가장 큰 단점이 있다면, Cluster 개수를 미리 알아야한다는 것
  • PCA 분석을 통해 데이터의 차원은 2로 지정
  • Silhouette 계수 및 Elbow method를 통해 군집도의 수는 3으로 지정

cluster

PCA
  • 데이터 집합 내에 존재하는 각 데이터의 차이를 가장 잘 나타내 주는 요소를, 데이터를 잘 표현 할 수 있는 특성을 찾아내는 방법
  • 서로 상관성이 높은 여러 변수들의 선형조합으로 만든 새로운 변수들로 요약 및 축약하는 기법.
  • 데이터의 분산(variance)를 최대한 보존하면서 직교하는 새 기저(축)을 찾아 고차원 공간의 표봄들을 선형 연관성이 없는 저차원 공간으로 변환해 준다.
PCA1 PCA2
Silhouette 계수
  • 각각의 데이터가 해당 데이터와 같은 군집 내의 데이터와는 얼마나 가깝게 군집화가 되었고, 다른 군집에 있는 데이터와는 얼마나 멀리 분포되어 있는지를 나타내는 지표
  • -1에서 1 사이의 값을 가지며 1에 가까울 수록 근처 군집과 멀리 떨어져 있음을, 0에 가까울수록 근처 군집과 가까움을 의미

Silhoutte

Elbow Method
  • inertia가 변하는 모양을 그래프로 나타내는 지표
  • Clustering을 할 때의 군집도의 수를 정하는데 도움을 주는 방법
  • 그래프의 모양이 Elbow(팔꿈치)처럼 생겼다고 하여 명칭

elbow


Conclusion

Cluster 2

  • 여러 취약 지표가 높게 나타나는 클러스터임에도 '삼각산동', '삼양동', '송천동', '을리조동', '인수동', '종로가동' 에 아직 경로당이 없으므로 추가적으로 세워야함
  • 특히 고립 위험이 높고 경제적 지원이 필요
  • 경로당에서 정기적인 모임이나 활동을 조직하여 노인들이 자주 만날 수 있도록 해야함
  • 추가적인 금융 상담 서비스나 경제적 지원 정보를 제공하는 프로그햄을 마련
  • 저렴한 가격에 식사를 제공하거나, 건강 관리 서비스를 강화

Cluster 0

  • 장애를 가진 60대 비율이 상대적으로 높은 클러스터
  • 고독사 위험이 상대적으로 높은 독거노인 비율이 높은 클러스터
  • 장애가 있는 고령자를 위한 특수 설계된 경로당을 건설
  • 이들 경로당은 장애인 접근성이 높아야 하며, 재활 프로그램이나 특별 건강 관리 서비스를 제공해야함
  • 경로당에서 정기적인 모임이나 활동을 조직하여 노인들이 자주 만날 수 있도록 해야함

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published