In [1]:
### 기본 라이브러리 불러오기
import pandas as pd
import folium

* Step1. 데이터 준비/기본 설정

In [6]:
# 서울 시내 중학교 진학률 데이터셋
file_path = './2016_middle_shcool_graduates_report.xlsx'

In [7]:
df = pd.read_excel(file_path, header=0, engine='openpyxl')

In [8]:
#IPython Console 디스플레이 옵션 설정하기
pd.set_option('display.width', None)            # 출력화면의 너비
pd.set_option('display.max_rows', 100)          # 출력할 행의 개수 한도
pd.set_option('display.max_columns', 10)        # 출력할 열의 개수 한도
pd.set_option('display.max_colwidth', 20)       # 출력할 열의 너비
pd.set_option('display.unicode.east_asian_width', True)     # 유니코드 사용 너비 조정

In [9]:
# 열 이름 배열 출력
print(df.columns.values)

['Unnamed: 0' '지역' '학교명' '코드' '유형' '주야' '남학생수' '여학생수' '일반고' '특성화고' '과학고'
 '외고_국제고' '예고_체고' '마이스터고' '자사고' '자공고' '기타진학' '취업' '미상' '위도' '경도']


* Step2. 데이터 탐색

In [10]:
# 데이터 살펴보기
print(df.head())
print('\n')

   Unnamed: 0    지역                               학교명  코드  유형  ...  \
0           0  성북구  서울대학교사범대학부설중학교.....       3  국립  ...   
1           1  종로구  서울대학교사범대학부설여자중학교...     3  국립  ...   
2           2  강남구           개원중학교                     3  공립  ...   
3           3  강남구           개포중학교                     3  공립  ...   
4           4  서초구           경원중학교                     3  공립  ...   

  기타진학  취업   미상       위도        경도  
0    0.004     0  0.000  37.594942  127.038909  
1    0.031     0  0.000  37.577473  127.003857  
2    0.009     0  0.003  37.491637  127.071744  
3    0.019     0  0.000  37.480439  127.062201  
4    0.010     0  0.000  37.510750  127.008900  

[5 rows x 21 columns]




In [11]:
# 데이터 자료형 확인
print(df.info())
print('\n')

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 415 entries, 0 to 414
Data columns (total 21 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Unnamed: 0  415 non-null    int64  
 1   지역          415 non-null    object 
 2   학교명         415 non-null    object 
 3   코드          415 non-null    int64  
 4   유형          415 non-null    object 
 5   주야          415 non-null    object 
 6   남학생수        415 non-null    int64  
 7   여학생수        415 non-null    int64  
 8   일반고         415 non-null    float64
 9   특성화고        415 non-null    float64
 10  과학고         415 non-null    float64
 11  외고_국제고      415 non-null    float64
 12  예고_체고       415 non-null    float64
 13  마이스터고       415 non-null    float64
 14  자사고         415 non-null    float64
 15  자공고         415 non-null    float64
 16  기타진학        415 non-null    float64
 17  취업          415 non-null    int64  
 18  미상          415 non-null    float64
 19  위도          415 non-null    f

In [12]:
# 데이터 통계 요약 정보 확인
print(df.describe())

       Unnamed: 0        코드    남학생수    여학생수      일반고  ...  \
count  415.000000  415.000000  415.000000  415.000000  415.000000  ...   
mean   207.000000    3.197590  126.532530  116.173494    0.623080  ...   
std    119.944432    0.804272   79.217906   76.833082    0.211093  ...   
min      0.000000    3.000000    0.000000    0.000000    0.000000  ...   
25%    103.500000    3.000000   80.000000   71.500000    0.566500  ...   
50%    207.000000    3.000000  129.000000  118.000000    0.681000  ...   
75%    310.500000    3.000000  177.500000  161.500000    0.758000  ...   
max    414.000000    9.000000  337.000000  422.000000    0.908000  ...   

         기타진학   취업        미상        위도        경도  
count  415.000000  415.0  415.000000  415.000000  415.000000  
mean     0.069571    0.0    0.001670   37.491969  127.032792  
std      0.235630    0.0    0.003697    0.348926    0.265245  
min      0.000000    0.0    0.000000   34.979940  126.639561  
25%      0.000000    0.0    0.000000   37.5

In [13]:
# 지도에 위치 표시
mschool_map = folium.Map(location=[37.55, 126.98], tiles='Stamen Terrain', zoom_start=12)

In [15]:
# 중학교 위치 정보를 CircleMarker로 표시
for name, lat, lng in zip(df.학교명, df.위도, df.경도):
    folium.CircleMarker([lat,lng], radius=5, color='brown',fill=True, fill_color='coral',fill_opacity=0.7, popup=name).add_to(mschool_map)

In [16]:
# 지도를 html 파일로 저장하기
mschool_map.save('./seoul_mschool_location.html')

*Step 3. 데이터 전처리

In [17]:
# 원핫 인코딩(더미변수)
from sklearn import preprocessing

label_encoder = preprocessing.LabelEncoder()              # label encoder 생성
onehot_encoder = preprocessing.OneHotEncoder()            # one hot encoder 생성

In [18]:
onehot_location = label_encoder.fit_transform(df['지역'])
onehot_code = label_encoder.fit_transform(df['코드'])
onehot_type = label_encoder.fit_transform(df['유형'])
onehot_day = label_encoder.fit_transform(df['주야'])

In [19]:
df['location'] = onehot_location
df['code'] = onehot_code
df['type'] = onehot_type
df['day'] = onehot_day

print(df.head())

   Unnamed: 0    지역                               학교명  코드  유형  ...  \
0           0  성북구  서울대학교사범대학부설중학교.....       3  국립  ...   
1           1  종로구  서울대학교사범대학부설여자중학교...     3  국립  ...   
2           2  강남구           개원중학교                     3  공립  ...   
3           3  강남구           개포중학교                     3  공립  ...   
4           4  서초구           경원중학교                     3  공립  ...   

         경도  location  code  type  day  
0  127.038909        16     0     1    0  
1  127.003857        22     0     1    0  
2  127.071744         0     0     0    0  
3  127.062201         0     0     0    0  
4  127.008900        14     0     0    0  

[5 rows x 25 columns]


* Step4. DBSCAN 군집 모형 - sklearn 사용

In [20]:
# sklearn 라이브러리에서 cluster 군집모형 가져오기
from sklearn import cluster

In [21]:
# 분석에 사용할 속성 선택(과학고, 외고국제고, 자사고 진학률)
columns_list = [9,10,13]
X = df.iloc[:, columns_list]
print(X[:5])
print('\n')

   특성화고  과학고  마이스터고
0     0.148   0.018       0.011
1     0.199   0.000       0.000
2     0.047   0.009       0.006
3     0.097   0.013       0.019
4     0.017   0.007       0.000




In [22]:
# 설명 변수 데이터 정규화
X = preprocessing.StandardScaler().fit(X).transform(X)

In [23]:
# DBSCAN 모형 객체 생성
dbm = cluster.DBSCAN(eps=0.2, min_samples = 5)

In [24]:
# 모형 학습
dbm.fit(X)

DBSCAN(eps=0.2)

In [25]:
# 예측(군집)
cluster_label = dbm.labels_
print(cluster_label)
print('\n')

[-1  0 -1 -1  1  5 -1 -1  2 -1 -1 -1  2  0 -1 -1 -1 -1 -1  2 -1 -1 -1  0
  1  2 -1  1  0  0 -1 -1 -1 -1 -1  0 -1 -1 -1 -1 -1 -1 -1  0 -1 -1 -1  3
 -1 -1 -1  3 -1  1 -1 -1  4 -1 -1  4 -1 -1  4  0 -1  5  0  6  1 -1  0  1
 -1  0  8 -1 -1 -1  4 -1  3 -1 -1  3  4 -1 -1 -1  3 -1  0  2 -1  0 -1 -1
  5  0  0 -1 -1 -1 -1 -1 -1 -1 -1  0 -1 -1 -1 -1 -1 -1  1 -1 -1 -1  0 -1
 -1 -1  5  8  0 -1 -1 -1 -1 -1  7  3  0 -1  5  0  4 -1  5 -1 -1 -1 -1 -1
 -1  6 -1 -1 -1  8  4 -1 -1  6 -1 -1 -1 -1 -1  0  6 -1 -1 -1 -1 -1 -1  6
 -1 -1  7 -1 -1  6 -1  0  0 -1  3 -1  6  8 -1  6 -1 -1 -1 -1 -1 -1  5  0
  0 -1 -1 -1 -1  0  0 -1  0 -1 -1  6  0 -1 -1 -1 -1 -1  4 -1 -1  3 -1 -1
  0 -1 -1  9 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1  0 -1 -1 -1  0 -1 -1 -1  9  0
  9 -1 -1 -1 -1  5  0 -1 -1 -1  0  0 -1  0 -1 -1 -1 -1 -1  0  4 -1 -1  0
 -1 -1  0  0 -1 -1  6  3 -1  6 -1 -1 -1  0 -1  0 10 -1  0  0  0 -1  0 -1
 -1 -1 -1  9 -1 -1 10  0 10  0  7  7  3  6 -1 -1 -1 -1  3  4 -1  0 -1  8
  4  8  6  0  7 -1 -1 -1 -1  0 -1 -1 -1 -1 -1  0 -1

In [26]:
# 예측 결과를 데이터프레임에 추가
df['Cluster'] = cluster_label
print(df.head())

   Unnamed: 0    지역                               학교명  코드  유형  ...  \
0           0  성북구  서울대학교사범대학부설중학교.....       3  국립  ...   
1           1  종로구  서울대학교사범대학부설여자중학교...     3  국립  ...   
2           2  강남구           개원중학교                     3  공립  ...   
3           3  강남구           개포중학교                     3  공립  ...   
4           4  서초구           경원중학교                     3  공립  ...   

  location  code  type  day  Cluster  
0       16     0     1    0       -1  
1       22     0     1    0        0  
2        0     0     0    0       -1  
3        0     0     0    0       -1  
4       14     0     0    0        1  

[5 rows x 26 columns]


In [27]:
# 클러스터 값으로 그룹화하고 그룹별로 내용 출력(첫 5행만 출력)
grouped_cols = [0, 1, 3] + columns_list
grouped = df.groupby('Cluster')
for key, group in grouped:
    print('* key :', key)
    print('* number :', len(group))
    print(group.iloc[:, grouped_cols].head())
    print('\n')

* key : -1
* number : 234
   Unnamed: 0    지역  코드  특성화고  과학고  마이스터고
0           0  성북구     3     0.148   0.018       0.011
2           2  강남구     3     0.047   0.009       0.006
3           3  강남구     3     0.097   0.013       0.019
6           6  강남구     3     0.015   0.015       0.000
7           7  강남구     3     0.000   0.032       0.000


* key : 0
* number : 70
    Unnamed: 0    지역  코드  특성화고  과학고  마이스터고
1            1  종로구     3     0.199     0.0         0.0
13          13  서초구     3     0.032     0.0         0.0
23          23  강남구     3     0.025     0.0         0.0
28          28  서초구     3     0.040     0.0         0.0
29          29  강남구     3     0.051     0.0         0.0


* key : 1
* number : 7
    Unnamed: 0    지역  코드  특성화고  과학고  마이스터고
4            4  서초구     3     0.017   0.007         0.0
24          24  강남구     3     0.026   0.007         0.0
27          27  강남구     3     0.006   0.006         0.0
53          53  강동구     3     0.020   0.007         0.0
68          68  

In [28]:
# 그래프로 표현 - 시각화
colors = {-1:'gray',0:'coral', 1:'blue',2:'green', 3:'red', 4:'purple', 5:'orange', 6:'brown', 7:'brick',8:'yellow',9:'magenta',10:'cyan',11:'tan'}

In [34]:
cluster_map = folium.Map(location=[37.55,126.98], tiles='Stamen Terrain', zoom_start=12)

In [35]:
for name, lat, lng, clus in zip(df.학교명, df.위도, df.경도, df.Cluster):
    folium.CircleMarker([lat,lng], radius=5, color=colors[clus],fill=True, fill_color=colors[clus], fill_opacity=0.7, popup=name).add_to(cluster_map)

In [36]:
# 지도를 html파일로 저장하기
cluster_map.save('./seoul_mschool_cluster.html')

In [37]:
# X2 데이터 셋에 대하여 위의 과정을 반복(과학고, 외고국제고, 자사고 진학률 + 유형)
columns_list2 = [9, 10, 13, 22]
X2 = df.iloc[:, columns_list2]
print(X2[:5])
print('\n')

X2 = preprocessing.StandardScaler().fit(X2).transform(X2)
dbm2 = cluster.DBSCAN(eps=0.2, min_samples=5)
dbm2.fit(X2)
df['Cluster2'] = dbm2.labels_

   특성화고  과학고  마이스터고  code
0     0.148   0.018       0.011     0
1     0.199   0.000       0.000     0
2     0.047   0.009       0.006     0
3     0.097   0.013       0.019     0
4     0.017   0.007       0.000     0




In [38]:
grouped2_cols = [0, 1, 3] + columns_list2
grouped2 = df.groupby('Cluster2')
for key, group in grouped2:
    print('* key :', key)
    print('* number :', len(group))
    print(group.iloc[:, grouped2_cols].head())
    print('\n')
    

* key : -1
* number : 238
   Unnamed: 0    지역  코드  특성화고  과학고  마이스터고  code
0           0  성북구     3     0.148   0.018       0.011     0
2           2  강남구     3     0.047   0.009       0.006     0
3           3  강남구     3     0.097   0.013       0.019     0
6           6  강남구     3     0.015   0.015       0.000     0
7           7  강남구     3     0.000   0.032       0.000     0


* key : 0
* number : 70
    Unnamed: 0    지역  코드  특성화고  과학고  마이스터고  code
1            1  종로구     3     0.199     0.0         0.0     0
13          13  서초구     3     0.032     0.0         0.0     0
23          23  강남구     3     0.025     0.0         0.0     0
28          28  서초구     3     0.040     0.0         0.0     0
29          29  강남구     3     0.051     0.0         0.0     0


* key : 1
* number : 7
    Unnamed: 0    지역  코드  특성화고  과학고  마이스터고  code
4            4  서초구     3     0.017   0.007         0.0     0
24          24  강남구     3     0.026   0.007         0.0     0
27          27  강남구     3     0.006   

In [39]:
cluster2_map = folium.Map(location=[37.55,126.98], tiles='Stamen Terrain', zoom_start=12)

In [40]:
for name, lat, lng, clus in zip(df.학교명, df.위도, df.경도, df.Cluster2):
    folium.CircleMarker([lat,lng], radius=5, color=colors[clus],fill=True, fill_color=colors[clus], fill_opacity=0.7, popup=name).add_to(cluster2_map)

In [41]:
# 지도를 html 파일로 저장하기
cluster2_map.save('./seoul_mschool_cluster2.html')

In [42]:
# X3 데이터셋에 대하여 위의 과정을 반복(과학고, 외고_국제고)
columns_list3 = [9,10]
X3 = df.iloc[:, columns_list3]
print(X3[:5])
print('\n')



   특성화고  과학고
0     0.148   0.018
1     0.199   0.000
2     0.047   0.009
3     0.097   0.013
4     0.017   0.007




In [43]:
X3 = preprocessing.StandardScaler().fit(X).transform(X)
dbm3 = cluster.DBSCAN(eps=0.2, min_samples = 5)
dbm3.fit(X)
df['Cluster3'] = dbm3.labels_

In [44]:
grouped3_cols = [0, 1, 3] + columns_list3
grouped3 = df.groupby('Cluster3')
for key, group in grouped3:
    print('* key :', key)
    print('* number :', len(group))
    print(group.iloc[:, grouped3_cols].head())
    print('\n')

* key : -1
* number : 234
   Unnamed: 0    지역  코드  특성화고  과학고
0           0  성북구     3     0.148   0.018
2           2  강남구     3     0.047   0.009
3           3  강남구     3     0.097   0.013
6           6  강남구     3     0.015   0.015
7           7  강남구     3     0.000   0.032


* key : 0
* number : 70
    Unnamed: 0    지역  코드  특성화고  과학고
1            1  종로구     3     0.199     0.0
13          13  서초구     3     0.032     0.0
23          23  강남구     3     0.025     0.0
28          28  서초구     3     0.040     0.0
29          29  강남구     3     0.051     0.0


* key : 1
* number : 7
    Unnamed: 0    지역  코드  특성화고  과학고
4            4  서초구     3     0.017   0.007
24          24  강남구     3     0.026   0.007
27          27  강남구     3     0.006   0.006
53          53  강동구     3     0.020   0.007
68          68  송파구     3     0.011   0.007


* key : 2
* number : 6
    Unnamed: 0    지역  코드  특성화고  과학고
8            8  강남구     3     0.018   0.013
12          12  강남구     3     0.000   0.013
19          

In [45]:
cluster3_map = folium.Map(location=[37.55,126.98], tiles='Stamen Terrain', zoom_start=12)

In [46]:
for name, lat, lng, clus in zip(df.학교명, df.위도, df.경도, df.Cluster3):
    folium.CircleMarker([lat,lng], radius=5, color=colors[clus],fill=True, fill_color=colors[clus], fill_opacity=0.7, popup=name).add_to(cluster3_map)

In [47]:
# 지도를 html 파일로 저장하기
cluster3_map.save('./seoul_mschool_cluster3.html')