In [1]:
import pandas as pd
import folium

file_path = './data/datas/2016_middle_shcool_graduates_report.xlsx'
df = pd.read_excel(file_path, header=0)

In [2]:
# 열 이름 배열을 출력
print(df.columns.values) 
print(df.info()) 
print(df.head()) 
print(df.describe())

['Unnamed: 0' '지역' '학교명' '코드' '유형' '주야' '남학생수' '여학생수' '일반고' '특성화고' '과학고'
 '외고_국제고' '예고_체고' '마이스터고' '자사고' '자공고' '기타진학' '취업' '미상' '위도' '경도']
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 415 entries, 0 to 414
Data columns (total 21 columns):
Unnamed: 0    415 non-null int64
지역            415 non-null object
학교명           415 non-null object
코드            415 non-null int64
유형            415 non-null object
주야            415 non-null object
남학생수          415 non-null int64
여학생수          415 non-null int64
일반고           415 non-null float64
특성화고          415 non-null float64
과학고           415 non-null float64
외고_국제고        415 non-null float64
예고_체고         415 non-null float64
마이스터고         415 non-null float64
자사고           415 non-null float64
자공고           415 non-null float64
기타진학          415 non-null float64
취업            415 non-null int64
미상            415 non-null float64
위도            415 non-null float64
경도            415 non-null float64
dtypes: float64(12), int64(5), obje

In [3]:
# 지도에 위치 표시

mschool_map = folium.Map(location=[37.55,126.98], tiles='Stamen Terrain', zoom_start=12)

In [4]:
# 중학교 위치정보를 CircleMarker로 표시
for name, lat, lng in zip(df.학교명, df.위도, df.경도):
    folium.CircleMarker([lat, lng],
                       radius=5,              # 원의 반지름
                       color='brown',         # 원의 둘레 색상
                       fill=True,       
                       fill_color='coral',    # 원을 채우는 색
                       fill_opacity=0.7,      # 투명도
                       popup=name).add_to(mschool_map)

In [5]:
# 지도를 html 파일로 저장하기

mschool_map.save('./data/datas/seoul_mschool_location.html')

In [16]:
# sklearn 라이브러이에서 cluster 군집 모형 가져오기

from sklearn import cluster
from sklearn.preprocessing import StandardScaler

In [8]:
# 분석에 사용할 속성을 선택(과학고, 외고국제고, 자사고 진학률)

columns_list = [10,11,14] 
X = df.iloc[:, columns_list]
print(X[:5])

     과학고  외고_국제고    자사고
0  0.018   0.007  0.227
1  0.000   0.035  0.043
2  0.009   0.012  0.090
3  0.013   0.013  0.065
4  0.007   0.010  0.282


In [18]:
# 설명 변수 데이터를 정규화

X = StandardScaler().fit(X).transform(X)

dbm = cluster.DBSCAN(eps=0.2, min_samples=5)
dbm.fit(X)   
 
cluster_label = dbm.labels_   
print(cluster_label)

[-1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1  0 -1 -1 -1 -1 -1 -1  2 -1  0 -1
 -1 -1 -1 -1  0 -1 -1 -1 -1 -1  0  3 -1 -1 -1 -1 -1 -1 -1  0 -1 -1  1  0
 -1 -1 -1  0 -1 -1 -1 -1  0 -1  0  0 -1 -1  0 -1 -1 -1  0  0 -1 -1  0 -1
 -1 -1  0 -1 -1 -1  0  2  0  0  0  0  0 -1 -1 -1  0 -1  0 -1 -1  0 -1  0
 -1  0  0 -1 -1 -1 -1  1  0 -1  0  0 -1 -1 -1  0 -1 -1 -1 -1 -1  0  1 -1
 -1  0  2  0 -1 -1  1 -1 -1 -1  0  0  0 -1 -1  0 -1 -1 -1  0  0 -1 -1 -1
 -1  0 -1 -1 -1  0 -1 -1 -1  0 -1  0  0 -1 -1 -1 -1 -1  0 -1  0  0 -1 -1
 -1 -1 -1  0 -1 -1 -1  1  0  3  1 -1  0  0 -1  0 -1 -1  0  0  2 -1 -1  3
  0  0 -1 -1 -1 -1  0 -1  0  0 -1  0  0  0 -1 -1  0 -1 -1 -1 -1 -1  2  0
 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1  0 -1 -1 -1  0 -1 -1 -1 -1 -1
 -1 -1 -1 -1 -1 -1 -1 -1 -1  0 -1 -1 -1  0  0 -1 -1  0 -1  3  0  2 -1 -1
 -1 -1  0 -1 -1 -1  0 -1  0  0 -1 -1 -1 -1 -1  1 -1  0  1 -1  0  0  1 -1
  2 -1  0 -1 -1 -1 -1  0 -1 -1  1  0 -1  0 -1 -1  0  3  0 -1 -1 -1  2 -1
 -1 -1 -1  0  0  0  1 -1 -1 -1 -1 -1 -1 -1 -1  0 -1

In [19]:
# 예측 결과를 데이터 프레임에 추가

df['Cluster'] = cluster_label
print(df.head())

   Unnamed: 0   지역               학교명  코드  유형  주야  남학생수  여학생수    일반고   특성화고  \
0           0  성북구    서울대학교사범대학부설중학교   3  국립  주간   277     0  0.585  0.148   
1           1  종로구  서울대학교사범대학부설여자중학교   3  국립  주간     0   256  0.680  0.199   
2           2  강남구             개원중학교   3  공립  주간   170   152  0.817  0.047   
3           3  강남구             개포중학교   3  공립  주간    83    72  0.755  0.097   
4           4  서초구             경원중학교   3  공립  주간   199   212  0.669  0.017   

   ...  예고_체고  마이스터고    자사고    자공고   기타진학  취업     미상         위도          경도  \
0  ...  0.000  0.011  0.227  0.000  0.004   0  0.000  37.594942  127.038909   
1  ...  0.008  0.000  0.043  0.004  0.031   0  0.000  37.577473  127.003857   
2  ...  0.003  0.006  0.090  0.003  0.009   0  0.003  37.491637  127.071744   
3  ...  0.019  0.019  0.065  0.000  0.019   0  0.000  37.480439  127.062201   
4  ...  0.005  0.000  0.282  0.000  0.010   0  0.000  37.510750  127.008900   

   Cluster  
0       -1  
1       -1  
2       -1  
3   

In [21]:
# 데이터를 추가해서 cluster를 열기준으로 정렬

grouped_cols = [0,1,3] + columns_list
grouped = df.groupby('Cluster')

for key, group in grouped:
    print('* key:', key)
    print('* number:', len(group))
    print(group.iloc[:,grouped_cols].head())
    print('\n')

* key: -1
* number: 255
   Unnamed: 0   지역  코드    과학고  외고_국제고    자사고
0           0  성북구   3  0.018   0.007  0.227
1           1  종로구   3  0.000   0.035  0.043
2           2  강남구   3  0.009   0.012  0.090
3           3  강남구   3  0.013   0.013  0.065
4           4  서초구   3  0.007   0.010  0.282


* key: 0
* number: 102
    Unnamed: 0   지역  코드  과학고  외고_국제고    자사고
13          13  서초구   3  0.0   0.022  0.038
22          22  강남구   3  0.0   0.019  0.044
28          28  서초구   3  0.0   0.015  0.050
34          34  강남구   3  0.0   0.016  0.065
43          43  송파구   3  0.0   0.021  0.054


* key: 1
* number: 45
     Unnamed: 0    지역  코드  과학고  외고_국제고    자사고
46           46   강동구   3  0.0     0.0  0.044
103         103   양천구   3  0.0     0.0  0.006
118         118   구로구   3  0.0     0.0  0.012
126         126  영등포구   3  0.0     0.0  0.050
175         175   중랑구   3  0.0     0.0  0.004


* key: 2
* number: 8
     Unnamed: 0   지역  코드    과학고  외고_국제고    자사고
20           20  서초구   3  0.003   0.013  0.085


- 클러스터 0은 외고(국제고)와 자사고 합격률은 높지만 과학고 합격자가 없다
- 클러스터 1은 자사고 합격자만 존재하는 그룹이고
- 클러스터 2는 자사고 합격률이 매우 높으면서 과학고와 외구(국제고) 합격자도 일부 존재한다
- 클러스터 3은 과학고 합격자 없이 외고(국제고)와 자사고 합격자를 배출한 점

In [23]:
colors = {-1:'gray', 0:'orange', 1:'blue', 2:'green', 3:'red', 4:'purple', 
          5:'coral', 6:'brown', 7:'brick', 8:'yellow', 9:'magenta', 10:'cyan'}

cluster_map = folium.Map(location=[37.55,126.98], tiles='Stamen Terrain', 
                        zoom_start=12)

for name, lat, lng, clus in zip(df.학교명, df.위도, df.경도, df.Cluster):  
    folium.CircleMarker([lat, lng],
                        radius=5,                   # 원의 반지름
                        color=colors[clus],         # 원의 둘레 색상
                        fill=True,
                        fill_color=colors[clus],    # 원을 채우는 색
                        fill_opacity=0.7,           # 투명도    
                        popup=name
    ).add_to(cluster_map)

cluster_map.save('./data/datas/seoul_mschool_cluster.html')
