<a href="https://colab.research.google.com/github/seohyeon1578/TensorFlow/blob/main/mlEX.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## 사이킷런을 이용해서 붓꽃 품종을 분류하는 인공지능 모델

In [None]:
import sklearn

In [None]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
import pandas as pd

In [None]:
# 데이터 로드
iris = load_iris()

iris

In [None]:
# iris.data 는 피처(feature)로 만으로 된 데이터 (ndarray 객체)
iris_data = iris.data

iris_data

In [None]:
# iris.target 는 레이블(label, 정답) 데이터 (ndarray 객체)
iris_label = iris.target

iris_label_name = iris.target_names

print(iris_label)
print(iris_label_name)

[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]
['setosa' 'versicolor' 'virginica']


In [None]:
# 데이터 세트를 데이터프레임으로 변환
iris_df = pd.DataFrame(data=iris_data, columns=iris.feature_names)
iris_df['label'] = iris_label

iris_df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),label
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0


In [None]:
# 학습용 데이터와 테스트용 데이터를 분리
X_train, X_test, y_train, y_test = train_test_split(iris_data, iris_label, test_size=0.2, random_state=11)

In [None]:
# 인공지능 모델 알고리즘 선택
df_clf = DecisionTreeClassifier(random_state=11)

# 학습 수행
df_clf.fit(X_train, y_train)

DecisionTreeClassifier(random_state=11)

In [None]:
# 학습이 완료된 모델에 대해서 평가를 수행
pred = df_clf.predict(X_test)
pred

array([2, 2, 1, 1, 2, 0, 1, 0, 0, 1, 1, 1, 1, 2, 2, 0, 2, 1, 2, 2, 1, 0,
       0, 1, 0, 0, 2, 1, 0, 1])

In [None]:
# 위 수행한 (예측한) 결과를 바탕으로 만든 모델의 성능을 평가
from sklearn.metrics import accuracy_score

print('예측 정확도 : {0:.4f}' .format(accuracy_score(y_test, pred)))

예측 정확도 : 0.9333


### 프로세스 정리 (지도학습 -분류)
* 데이터 로딩
* 데이터 탐색
* 데이터 세트 분리 : 학습데이터와 테스트데이터를 분리
* 모델 학습 : 학습데이터를 기반으로 ML알고리즘을 적용해 모델을 학습시킴
* 에측 수행 : 학습된 ML 모델을 이용하여 테스트 데이터의 분류를 예측
* 평가 : 예측 수행을 통해 예측된 결과값과 테스트데이터의 실제 값(레이블 값)을 비교해서 학습된 모델의 성능을 평가

# 데이터 전처리
## Garbage In, Garbage Out.
## 사이킷런의 ML 알고리즘에 적용하기 전에 데이터에 미리 처리해야할 기본사항
* 결손값. 즉, NaN, Null 값은 허용되지 않는다
1. Drop 
2. 대체값 선정

* 사이킷런의 ML 알고리즘들은 입력값으로 문자열을 허용하지 않는다.
1. Drop
2. 인코딩

## 데이터 인코딩 
* 레이블 인코딩(Label Encoding): 카테고리 피처를 코드형 숫자값으로 바꾸는 방식

In [None]:
from sklearn.preprocessing import LabelEncoder

items = ['TV', '냉장고', '전자레인지', '컴퓨터', '선풍기', '선풍기', '믹서', '믹서']

encoder = LabelEncoder()
encoder.fit(items)

labels = encoder.transform(items)
print('인코딩 반환값 : ', labels)

인코딩 반환값 :  [0 1 4 5 3 3 2 2]


In [None]:
print('인코딩 클래스 : ', encoder.classes_)

인코딩 클래스 :  ['TV' '냉장고' '믹서' '선풍기' '전자레인지' '컴퓨터']


In [None]:
# 원본 정보가 있으므로 디코딩 가능
print('디코딩 값 : ', encoder.inverse_transform([4, 5, 1, 1, 2, 3, 4, 0, 2, 2]))

디코딩 값 :  ['전자레인지' '컴퓨터' '냉장고' '냉장고' '믹서' '선풍기' '전자레인지' 'TV' '믹서' '믹서']


In [None]:
'''
주의 
: 레이블 인코딩은 레이블이 숫자로 증가하는 형태로 변환되는 특성이 있다. 
  그러나 특정 ML 알고리즘은 숫자 특성에 영향을 받는다.
  예를 들어 2는 1보다 더 큰값이라고 인식하도록 설계되어있는 알고리즘은 가중치가 부여되어 더 중요하다가 판단할 수 있기 때문. (선형회귀와 같은 알고리즘)
  그러므로 이런 ML 알고리즘에는 레이블 인코딩을 사용하는 것을 지양.
'''

* 원-핫 인코딩 (One-Hot Encoding)

: 고유값에 해당하는 컬럼만 1을 표시하고 나머지는 0으로 표시

: 주의

1) 모든 문자열 값이 숫자형
2) 입력값으로 2차원 데이터가 필요

In [None]:
from sklearn.preprocessing import OneHotEncoder

items = ['TV', '냉장고', '전자레인지', '컴퓨터', '선풍기', '선풍기', '믹서', '믹서']

# 먼저 숫자값으로 변경 - LabelEncoder 사용
encoder = LabelEncoder()
encoder.fit(items)

labels = encoder.transform(items)

labels = labels.reshape(-1, 1)

labels

array([[0],
       [1],
       [4],
       [5],
       [3],
       [3],
       [2],
       [2]])

In [None]:
# 원-핫 인코딩 적용
oh_encoder = OneHotEncoder()
oh_encoder.fit(labels)
oh_labels = oh_encoder.transform(labels)
print('--- 원-핫 인코딩 데이터')
print(oh_labels.toarray())
print('--- 원-핫 인코딩 데이터 차원')
print(oh_labels.shape)

--- 원-핫 인코딩 데이터
[[1. 0. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 0. 1.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0. 0.]]
--- 원-핫 인코딩 데이터 차원
(8, 6)


In [None]:
# 판다스가 제공하는 원-핫 인코딩
df = pd.DataFrame({'item': ['TV', '냉장고', '전자레인지', '컴퓨터', '선풍기', '선풍기', '믹서', '믹서']})
pd.get_dummies(df)

Unnamed: 0,item_TV,item_냉장고,item_믹서,item_선풍기,item_전자레인지,item_컴퓨터
0,1,0,0,0,0,0
1,0,1,0,0,0,0
2,0,0,0,0,1,0
3,0,0,0,0,0,1
4,0,0,0,1,0,0
5,0,0,0,1,0,0
6,0,0,1,0,0,0
7,0,0,1,0,0,0


# 피처스케일링

* 피처스케일링 : 서로 다른 변수의 값 범위를 일정한 수준으로 맞추는 작업

* 피처스케일링의 대표적 작업 : 표준화(Standardization), 정규화(Normalization)

* 표준화 : 데이터 피처 각각의 평균이 0이고 분산이 1인 가우시안 정규 분포를 가진 값으로 변환하는 것

* 정규화 : 서로 다른 피처의 크기를 통일하기 위해 크기를 변환해주는 개념

In [None]:
from sklearn.datasets import load_iris
import pandas as pd

iris = load_iris()
iris_data = iris.data
iris_df = pd.DataFrame(data= iris_data, columns= iris.feature_names)
iris_df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


In [None]:
# 평균값
iris_df.mean()

sepal length (cm)    5.843333
sepal width (cm)     3.057333
petal length (cm)    3.758000
petal width (cm)     1.199333
dtype: float64

In [None]:
# 분산값
iris_df.var()

sepal length (cm)    0.685694
sepal width (cm)     0.189979
petal length (cm)    3.116278
petal width (cm)     0.581006
dtype: float64

* StandardScalar : 표준화를 쉽게 지원하기 위한 사이킷런 클래스

In [None]:
from sklearn.preprocessing import StandardScaler

# 객체 생성
scaler = StandardScaler()

scaler.fit(iris_df)
iris_scaler = scaler.transform(iris_df)

iris_scaler_df = pd.DataFrame(data=iris_scaler, columns=iris.feature_names)

print(iris_scaler_df.mean())
print('--------------------')
print(iris_scaler_df.var())

sepal length (cm)   -1.690315e-15
sepal width (cm)    -1.842970e-15
petal length (cm)   -1.698641e-15
petal width (cm)    -1.409243e-15
dtype: float64
--------------------
sepal length (cm)    1.006711
sepal width (cm)     1.006711
petal length (cm)    1.006711
petal width (cm)     1.006711
dtype: float64


In [None]:
# svm, 선형회귀, 로지스틱 회귀 알고리즘 등은 데이터가 가우시안 분포를 가지고 있다고 가정을 하고 설계되어 있는 알고리즘.
# 사전에 표준화 작업을 하는 것은 이런 알고리즘을 통한 예측 성능 향상에 중요한 요소가 될 수 있다.

# MinMaxScaler

: 데이터를 0과 1사이의 범위 값으로 변환 (음수값이 있으면 -1을 1값으로 변환)

: 데이터의 분포가 가우시안 분포가 아닐 경우에 유용

In [None]:
from sklearn.preprocessing import MinMaxScaler

# MinMaxScaler 객체 생성
scaler = MinMaxScaler()

# 데이터셋 변환
scaler.fit(iris_df)
iris_scaler = scaler.transform(iris_df)

# 표준화 결과를 데이터 프레임 형태로 만들기
iris_scaler_df = pd.DataFrame(data=iris_scaler, columns=iris.feature_names)

# 각 피처에 대해서 평균값, 분석값 추출
print(iris_scaler_df.mean())
print('--------------------')
print(iris_scaler_df.var())

sepal length (cm)    0.428704
sepal width (cm)     0.440556
petal length (cm)    0.467458
petal width (cm)     0.458056
dtype: float64
--------------------
sepal length (cm)    0.052908
sepal width (cm)     0.032983
petal length (cm)    0.089522
petal width (cm)     0.100869
dtype: float64


# 평가 (Evaluation)
## 성능평가지표
* 정확도 (Accuracy)
* 오차행렬 (Confusion Matrix)
* 정밀도 (Precision)
* 재현율 (Recall)
* F1 스코어
* ROC AUC

# 1. Accuracy (정확도)

In [None]:
'''
# 정확도 : 실제 데이터와 예측 데이터가 얼마나 같은지를 판단하는 지표
         : 직관적으로 모델 예측 성능을 나타내는 지표
                      예측 결과와 동일한 데이터 건수
         정확도 =   ----------------------------------
                         전체 데이터 예측 건수
         : 이거 하나만으로 성능을 평가하는 것은 지양 - 데이터 왜곡이 있을 수 있음
'''

# 2. Confusion Matrix (오차 행렬)

In [None]:
'''
# 오차행렬 (혼동행렬)
  : 학습된 분류 모델이 예측을 수행하면서 얼마나 헷갈리고(confusion) 있는지도 함께 보여주는

- TP : 예측값을 positive 1, 실제값이 positive 1인 경우
- TN : 예측값을 negative 0, 실제값이 negative 0인 경우
- FP : 예측값을 positive 1, 실제값이 negative 0인 경우
- FN : 예측값을 negative 0, 실제값이 positive 1인 경우
                       (TP + TN)
정확도 = ---------------------------------------
                  (TP + TN + FP + FN)
'''

# 3. 정밀도(Precision)와 재현율(Recall)

In [None]:
'''
# 업무 특성에 따라서 특정 평가 자료가 더 중요한 경우가 있음
- 재현율이 상대적으로 더 중요한 경우
  재현율 = TP / (FN + TP)
  : 실제 양성 중 정확히 양성이라고 식별된 사례의 비율

  ex) 암 환자 판별하는 모델, 금융 사기 적발 모델

- 정밀도가 상대적으로 더 중요한 경우
  정밀도 = TP / (FP + TP)
  : 예측을 Positive로 한 대상 중에서 예측과 실제 값이 Positive로 일치한 데이터 비율
  : 실제 Positive 양성인 데이터 예측을 Negative라고 잘못 판단했을 경우 업무상 큰 영향이 발생할 경우

  ex) 스팸 메일 판별 모델

: 가장 좋은 성능은 둘 모두 높은 수치를 얻는 것.
  이 둘의 관계는 상호 보완적이므로 어느 한쪽이 너무 높고, 다른 수치는 매우 낮다면 바람직하지 않다.
'''

# 4. F1 Score

In [None]:
'''
# F1 Score : 정밀도와 재현율을 결합한 지표
           : 정밀도와 재현율이 어느 한쪽으로 치우쳐지지 않은 수치를 나타낼 때 f1 score도 상대적으로 높은 수치를 보인다.
'''

# 5. ROC Curve와 AUC

In [None]:
'''
# ROC(Receiver Operation Curve) : 수신자 판단 곡선
'''

# 피마 지역 인디언 당뇨병 예측

In [2]:
from google.colab import files
files.upload()

Saving diabetes.csv to diabetes.csv


{'diabetes.csv': b'Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome\r\n6,148,72,35,0,33.6,0.627,50,1\r\n1,85,66,29,0,26.6,0.351,31,0\r\n8,183,64,0,0,23.3,0.672,32,1\r\n1,89,66,23,94,28.1,0.167,21,0\r\n0,137,40,35,168,43.1,2.288,33,1\r\n5,116,74,0,0,25.6,0.201,30,0\r\n3,78,50,32,88,31,0.248,26,1\r\n10,115,0,0,0,35.3,0.134,29,0\r\n2,197,70,45,543,30.5,0.158,53,1\r\n8,125,96,0,0,0,0.232,54,1\r\n4,110,92,0,0,37.6,0.191,30,0\r\n10,168,74,0,0,38,0.537,34,1\r\n10,139,80,0,0,27.1,1.441,57,0\r\n1,189,60,23,846,30.1,0.398,59,1\r\n5,166,72,19,175,25.8,0.587,51,1\r\n7,100,0,0,0,30,0.484,32,1\r\n0,118,84,47,230,45.8,0.551,31,1\r\n7,107,74,0,0,29.6,0.254,31,1\r\n1,103,30,38,83,43.3,0.183,33,0\r\n1,115,70,30,96,34.6,0.529,32,1\r\n3,126,88,41,235,39.3,0.704,27,0\r\n8,99,84,0,0,35.4,0.388,50,0\r\n7,196,90,0,0,39.8,0.451,41,1\r\n9,119,80,35,0,29,0.263,29,1\r\n11,143,94,33,146,36.6,0.254,51,1\r\n10,125,70,26,115,31.1,0.205,41,1\r\n7,147,76,0,0,39.4,0.257,43

In [None]:
'''
Pregnancies,    임신 횟수
Glucose,        포도당 부하 검사 수치
BloodPressure,  혈압
SkinThickness,  팔 삼두근 뒷쪽의 피하지방 측정값
Insulin,        혈청 인슐린
BMI,            체질량 지수
DiabetesPedigreeFunction, 당뇨 내력 가중치 값
Age,            나이
Outcome,         클래스 결정 값 (0 또는 1)
'''

In [1]:
# 필요한 모듈
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, precision_score, recall_score, roc_auc_score
from sklearn.metrics import f1_score, confusion_matrix, precision_recall_curve, roc_curve
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression

In [3]:
# 데이터 로딩
diabetes_data = pd.read_csv('diabetes.csv')
diabetes_data.head()

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


In [4]:
# outcome을 label로 처리 (보통 positive : 1, negative : 0)
diabetes_data.Outcome.value_counts()

0    500
1    268
Name: Outcome, dtype: int64

In [5]:
# 데이터 탐색
diabetes_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 768 entries, 0 to 767
Data columns (total 9 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   Pregnancies               768 non-null    int64  
 1   Glucose                   768 non-null    int64  
 2   BloodPressure             768 non-null    int64  
 3   SkinThickness             768 non-null    int64  
 4   Insulin                   768 non-null    int64  
 5   BMI                       768 non-null    float64
 6   DiabetesPedigreeFunction  768 non-null    float64
 7   Age                       768 non-null    int64  
 8   Outcome                   768 non-null    int64  
dtypes: float64(2), int64(7)
memory usage: 54.1 KB


In [6]:
# 평가 함수
def get_clf_eval(y_test, pred=None, pred_proba=None):
  confusion = confusion_matrix(y_test, pred)
  accuracy = accuracy_score(y_test, pred)
  precision = precision_score(y_test, pred)
  recall = recall_score(y_test, pred)
  f1 = f1_score(y_test, pred)
  roc_auc = roc_auc_score(y_test, pred_proba)
  # 오차행렬
  print('confusion matrix')
  print(confusion)
  print('정확도 : {0:.4f}, 정밀도 : {1:.4f}, 재현율 : {2:.4f}, f1 score : {3:.4f}, auc : {4:.4f}'.format(accuracy, precision, recall, f1, roc_auc))

In [7]:
# 학습데이터, 테스트데이터 준비, 분리

features = diabetes_data.iloc[:, :-1]
label = diabetes_data.iloc[:, -1]

X_train, X_test, y_train, y_test = train_test_split(features, label, test_size=0.2, random_state=156, stratify=label)

lr_clf = LogisticRegression(max_iter=1000)
lr_clf.fit(X_train, y_train)

pred = lr_clf.predict(X_test)

pred_proba = lr_clf.predict_proba(X_test)[:, -1]

get_clf_eval(y_test, pred, pred_proba)

confusion matrix
[[90 10]
 [21 33]]
정확도 : 0.7987, 정밀도 : 0.7674, 재현율 : 0.6111, f1 score : 0.6804, auc : 0.8072


# 군집분석

In [None]:
'''
# 군집(Clusering) 분석
  : 데이터셋의 관측값이 갖고 있는 여러 속성을 분석하여 서로 비슷한 특징을 갖는 관측값끼리 같은 클러스터(집단)으로 묶는 알고리즘

  : 비지도학습 유형
  : 특정 속성을 이용하여 서로 다른 집단으로 구분 => 특이 데이터 (이상값, 중복값 등)을 찾는데 활용하기도 한다.
  ex) 신용카드 부정 사용 탐지, 구매 패턴 분석 => 소비자 행동 특성 그룹화
'''

## DBSCAN 알고리즘

In [None]:
'''
# DBSCAN (Density-Based Spatial Clustering of Applications with Noise)
  : 데이터가 위치하는 공간 밀집도를 기준으로 클러스터를 구분

> 용어
 - 코어 포인트 : 나를 중심으로 반지름 R의 공간에 최소 M개의 포인트가 존재하는 점
 - 경계 포인트 : 코어 포인트는 아니지만 반지름 R 안에 다른 코어 포인트가 있을 경우
 - Noise (outlier) : 코어포인트도 아니고 경계포인트에도 속하지 않는 점 
'''

In [9]:
import pandas as pd
import folium

In [None]:
from google.colab import files
files.upload()

In [25]:
# 데이터 로드
df_basic = pd.read_excel('2016_middle_shcool_graduates_report.xlsx', header=0)

df_basic.head()

Unnamed: 0.1,Unnamed: 0,지역,학교명,코드,유형,주야,남학생수,여학생수,일반고,특성화고,...,외고_국제고,예고_체고,마이스터고,자사고,자공고,기타진학,취업,미상,위도,경도
0,0,성북구,서울대학교사범대학부설중학교,3,국립,주간,277,0,0.585,0.148,...,0.007,0.0,0.011,0.227,0.0,0.004,0,0.0,37.594942,127.038909
1,1,종로구,서울대학교사범대학부설여자중학교,3,국립,주간,0,256,0.68,0.199,...,0.035,0.008,0.0,0.043,0.004,0.031,0,0.0,37.577473,127.003857
2,2,강남구,개원중학교,3,공립,주간,170,152,0.817,0.047,...,0.012,0.003,0.006,0.09,0.003,0.009,0,0.003,37.491637,127.071744
3,3,강남구,개포중학교,3,공립,주간,83,72,0.755,0.097,...,0.013,0.019,0.019,0.065,0.0,0.019,0,0.0,37.480439,127.062201
4,4,서초구,경원중학교,3,공립,주간,199,212,0.669,0.017,...,0.01,0.005,0.0,0.282,0.0,0.01,0,0.0,37.51075,127.0089


In [20]:
df = df_basic.drop(columns=['Unnamed: 0'])
df.head()

Unnamed: 0,지역,학교명,코드,유형,주야,남학생수,여학생수,일반고,특성화고,과학고,외고_국제고,예고_체고,마이스터고,자사고,자공고,기타진학,취업,미상,위도,경도
0,성북구,서울대학교사범대학부설중학교,3,국립,주간,277,0,0.585,0.148,0.018,0.007,0.0,0.011,0.227,0.0,0.004,0,0.0,37.594942,127.038909
1,종로구,서울대학교사범대학부설여자중학교,3,국립,주간,0,256,0.68,0.199,0.0,0.035,0.008,0.0,0.043,0.004,0.031,0,0.0,37.577473,127.003857
2,강남구,개원중학교,3,공립,주간,170,152,0.817,0.047,0.009,0.012,0.003,0.006,0.09,0.003,0.009,0,0.003,37.491637,127.071744
3,강남구,개포중학교,3,공립,주간,83,72,0.755,0.097,0.013,0.013,0.019,0.019,0.065,0.0,0.019,0,0.0,37.480439,127.062201
4,서초구,경원중학교,3,공립,주간,199,212,0.669,0.017,0.007,0.01,0.005,0.0,0.282,0.0,0.01,0,0.0,37.51075,127.0089


In [23]:
# 컬럼명 추출
df.columns.values

array(['지역', '학교명', '코드', '유형', '주야', '남학생수', '여학생수', '일반고', '특성화고',
       '과학고', '외고_국제고', '예고_체고', '마이스터고', '자사고', '자공고', '기타진학', '취업',
       '미상', '위도', '경도'], dtype=object)

In [26]:
# 기본정보 확인
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 415 entries, 0 to 414
Data columns (total 20 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   지역      415 non-null    object 
 1   학교명     415 non-null    object 
 2   코드      415 non-null    int64  
 3   유형      415 non-null    object 
 4   주야      415 non-null    object 
 5   남학생수    415 non-null    int64  
 6   여학생수    415 non-null    int64  
 7   일반고     415 non-null    float64
 8   특성화고    415 non-null    float64
 9   과학고     415 non-null    float64
 10  외고_국제고  415 non-null    float64
 11  예고_체고   415 non-null    float64
 12  마이스터고   415 non-null    float64
 13  자사고     415 non-null    float64
 14  자공고     415 non-null    float64
 15  기타진학    415 non-null    float64
 16  취업      415 non-null    int64  
 17  미상      415 non-null    float64
 18  위도      415 non-null    float64
 19  경도      415 non-null    float64
dtypes: float64(12), int64(4), object(4)
memory usage: 65.0+ KB


In [46]:
# 고등학교 진학율 데이터를 이용해서 속성이 비슷한 중학교끼리 군집화

# 지도에 위치 표시
mschool_map = folium.Map(location=[37.57, 126.98], tiles='Stamen Watercolor', zoom_start=11)

In [47]:
# 중학교 위치 정보를 표시
for name, lat, lng in zip(df.학교명, df.위도, df.경도):
  folium.CircleMarker([lat, lng], radius=5, color='blue', fill=True, fill_color='coral', fill_opacity=0.7, popup=name).add_to(mschool_map)

In [66]:
mschool_map

In [49]:
# 지도를 파일로 저장
mschool_map.save('./seoul_middle_school.html')

In [None]:
files.download('seoul_middle_school.html')

In [50]:
df.head()

Unnamed: 0,지역,학교명,코드,유형,주야,남학생수,여학생수,일반고,특성화고,과학고,외고_국제고,예고_체고,마이스터고,자사고,자공고,기타진학,취업,미상,위도,경도
0,성북구,서울대학교사범대학부설중학교,3,국립,주간,277,0,0.585,0.148,0.018,0.007,0.0,0.011,0.227,0.0,0.004,0,0.0,37.594942,127.038909
1,종로구,서울대학교사범대학부설여자중학교,3,국립,주간,0,256,0.68,0.199,0.0,0.035,0.008,0.0,0.043,0.004,0.031,0,0.0,37.577473,127.003857
2,강남구,개원중학교,3,공립,주간,170,152,0.817,0.047,0.009,0.012,0.003,0.006,0.09,0.003,0.009,0,0.003,37.491637,127.071744
3,강남구,개포중학교,3,공립,주간,83,72,0.755,0.097,0.013,0.013,0.019,0.019,0.065,0.0,0.019,0,0.0,37.480439,127.062201
4,서초구,경원중학교,3,공립,주간,199,212,0.669,0.017,0.007,0.01,0.005,0.0,0.282,0.0,0.01,0,0.0,37.51075,127.0089


In [54]:
# 데이터 전처리
from sklearn import preprocessing

label_encoder = preprocessing.LabelEncoder()
onehot_encoder = preprocessing.OneHotEncoder()

onehot_location = label_encoder.fit_transform(df['지역'])
onehot_code = label_encoder.fit_transform(df['코드'])
onehot_type = label_encoder.fit_transform(df['유형'])
onehot_day = label_encoder.fit_transform(df['주야'])

df['location'] = onehot_location
df['code'] = onehot_code
df['type'] = onehot_type
df['day'] = onehot_day

df.head()

Unnamed: 0,지역,학교명,코드,유형,주야,남학생수,여학생수,일반고,특성화고,과학고,...,자공고,기타진학,취업,미상,위도,경도,location,code,type,day
0,성북구,서울대학교사범대학부설중학교,3,국립,주간,277,0,0.585,0.148,0.018,...,0.0,0.004,0,0.0,37.594942,127.038909,16,0,1,0
1,종로구,서울대학교사범대학부설여자중학교,3,국립,주간,0,256,0.68,0.199,0.0,...,0.004,0.031,0,0.0,37.577473,127.003857,22,0,1,0
2,강남구,개원중학교,3,공립,주간,170,152,0.817,0.047,0.009,...,0.003,0.009,0,0.003,37.491637,127.071744,0,0,0,0
3,강남구,개포중학교,3,공립,주간,83,72,0.755,0.097,0.013,...,0.0,0.019,0,0.0,37.480439,127.062201,0,0,0,0
4,서초구,경원중학교,3,공립,주간,199,212,0.669,0.017,0.007,...,0.0,0.01,0,0.0,37.51075,127.0089,14,0,0,0


In [55]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 415 entries, 0 to 414
Data columns (total 24 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   지역        415 non-null    object 
 1   학교명       415 non-null    object 
 2   코드        415 non-null    int64  
 3   유형        415 non-null    object 
 4   주야        415 non-null    object 
 5   남학생수      415 non-null    int64  
 6   여학생수      415 non-null    int64  
 7   일반고       415 non-null    float64
 8   특성화고      415 non-null    float64
 9   과학고       415 non-null    float64
 10  외고_국제고    415 non-null    float64
 11  예고_체고     415 non-null    float64
 12  마이스터고     415 non-null    float64
 13  자사고       415 non-null    float64
 14  자공고       415 non-null    float64
 15  기타진학      415 non-null    float64
 16  취업        415 non-null    int64  
 17  미상        415 non-null    float64
 18  위도        415 non-null    float64
 19  경도        415 non-null    float64
 20  location  415 non-null    int64 

In [56]:
# 분석에 사용할 속성을 선택 (과학고, 외고-국제고, 자사고 진학률)
column_list = [9, 10, 13]

X = df.iloc[:, column_list]   # 독립변수 X 지정
X.head()

Unnamed: 0,과학고,외고_국제고,자사고
0,0.018,0.007,0.227
1,0.0,0.035,0.043
2,0.009,0.012,0.09
3,0.013,0.013,0.065
4,0.007,0.01,0.282


In [62]:
# 정규화
X = preprocessing.StandardScaler().fit(X).transform(X)

In [60]:
# DBSCAN 객체 생성
from sklearn.cluster import DBSCAN

dbm = DBSCAN(eps=0.2, min_samples=5)

dbm.fit(X)

DBSCAN(eps=0.2)

In [61]:
# 예측 (군집)
cluster_label = dbm.labels_
cluster_label                                   # -1은 Noise (이상값)

array([-1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1,  0, -1, -1, -1,
       -1, -1, -1,  2, -1,  0, -1, -1, -1, -1, -1,  0, -1, -1, -1, -1, -1,
        0,  3, -1, -1, -1, -1, -1, -1, -1,  0, -1, -1,  1,  0, -1, -1, -1,
        0, -1, -1, -1, -1,  0, -1,  0,  0, -1, -1,  0, -1, -1, -1,  0,  0,
       -1, -1,  0, -1, -1, -1,  0, -1, -1, -1,  0,  2,  0,  0,  0,  0,  0,
       -1, -1, -1,  0, -1,  0, -1, -1,  0, -1,  0, -1,  0,  0, -1, -1, -1,
       -1,  1,  0, -1,  0,  0, -1, -1, -1,  0, -1, -1, -1, -1, -1,  0,  1,
       -1, -1,  0,  2,  0, -1, -1,  1, -1, -1, -1,  0,  0,  0, -1, -1,  0,
       -1, -1, -1,  0,  0, -1, -1, -1, -1,  0, -1, -1, -1,  0, -1, -1, -1,
        0, -1,  0,  0, -1, -1, -1, -1, -1,  0, -1,  0,  0, -1, -1, -1, -1,
       -1,  0, -1, -1, -1,  1,  0,  3,  1, -1,  0,  0, -1,  0, -1, -1,  0,
        0,  2, -1, -1,  3,  0,  0, -1, -1, -1, -1,  0, -1,  0,  0, -1,  0,
        0,  0, -1, -1,  0, -1, -1, -1, -1, -1,  2,  0, -1, -1, -1, -1, -1,
       -1, -1, -1, -1, -1

In [64]:
# 결과를 데이터 프레임에 추가
df['Cluster'] = cluster_label
df.head()

Unnamed: 0,지역,학교명,코드,유형,주야,남학생수,여학생수,일반고,특성화고,과학고,...,기타진학,취업,미상,위도,경도,location,code,type,day,Cluster
0,성북구,서울대학교사범대학부설중학교,3,국립,주간,277,0,0.585,0.148,0.018,...,0.004,0,0.0,37.594942,127.038909,16,0,1,0,-1
1,종로구,서울대학교사범대학부설여자중학교,3,국립,주간,0,256,0.68,0.199,0.0,...,0.031,0,0.0,37.577473,127.003857,22,0,1,0,-1
2,강남구,개원중학교,3,공립,주간,170,152,0.817,0.047,0.009,...,0.009,0,0.003,37.491637,127.071744,0,0,0,0,-1
3,강남구,개포중학교,3,공립,주간,83,72,0.755,0.097,0.013,...,0.019,0,0.0,37.480439,127.062201,0,0,0,0,-1
4,서초구,경원중학교,3,공립,주간,199,212,0.669,0.017,0.007,...,0.01,0,0.0,37.51075,127.0089,14,0,0,0,-1


In [65]:
# 그룹화해서 그룹별로 내용 출력
group_cols = [0, 1, 3] + column_list
grouped = df.groupby('Cluster')
for key, group in grouped :
  print(' * key : ', key)
  print(' * number : ', len(group))
  print(group.iloc[:, group_cols].head())

 * key :  -1
 * number :  255
    지역               학교명  유형    과학고  외고_국제고    자사고
0  성북구    서울대학교사범대학부설중학교  국립  0.018   0.007  0.227
1  종로구  서울대학교사범대학부설여자중학교  국립  0.000   0.035  0.043
2  강남구             개원중학교  공립  0.009   0.012  0.090
3  강남구             개포중학교  공립  0.013   0.013  0.065
4  서초구             경원중학교  공립  0.007   0.010  0.282
 * key :  0
 * number :  102
     지역      학교명  유형  과학고  외고_국제고    자사고
13  서초구  동덕여자중학교  사립  0.0   0.022  0.038
22  강남구    수서중학교  공립  0.0   0.019  0.044
28  서초구    언남중학교  공립  0.0   0.015  0.050
34  강남구    은성중학교  사립  0.0   0.016  0.065
43  송파구    거원중학교  공립  0.0   0.021  0.054
 * key :  1
 * number :  45
       지역      학교명  유형  과학고  외고_국제고    자사고
46    강동구    동신중학교  사립  0.0     0.0  0.044
103   양천구    신원중학교  공립  0.0     0.0  0.006
118   구로구    개봉중학교  공립  0.0     0.0  0.012
126  영등포구    대림중학교  공립  0.0     0.0  0.050
175   중랑구  혜원여자중학교  사립  0.0     0.0  0.004
 * key :  2
 * number :  8
      지역    학교명  유형    과학고  외고_국제고    자사고
20   서초구  서초중학교  공립  0.003   0.013

In [69]:
# 그래프 표현 - 시각화
cluster_map = folium.Map(location=[37.57, 126.98], tiles='Stamen Terrain', zoom_start=11)

# 색깔 지정
colors = { -1 : 'gray', 0: 'coral', 1: 'blue', 2 : 'green', 3: 'red', 4: 'purple', 5 : 'orange', 6 : 'brown', 7: 'brack', 8: 'yelloe', 9: 'magenta', 10 : 'cyan'}

for name, lat, lng , clu in zip(df.학교명, df.위도, df.경도, df.Cluster):
  folium.CircleMarker([lat, lng], radius=5, color=colors[clu], fill=True, fill_color=colors[clu], fill_opacity=0.7, popup=name).add_to(cluster_map)

cluster_map