In [2]:
import pandas as pd
df = pd.read_csv("../data/전처리데이터/성동구 최종 데이터_수정.csv", encoding='cp949')

In [3]:
from sklearn.model_selection import train_test_split
from sklearn import metrics
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, roc_auc_score
X = df[['버스 수','버스 총 승차수','평균 배차 간격','지하철역 최단거리(m)','도로폭_숫자','인구']]
y = df["쉼터여부"]
X_train, X_test, y_train, y_test = train_test_split(X,y,test_size=0.25,random_state=10)

#모델링
def modeling(model,x_train,x_test,y_train,y_test):
    model.fit(x_train,y_train)
    pred = model.predict(x_test)
    metrics(y_test,pred)
#평가 지표
def metrics(y_test,pred):
    accuracy = accuracy_score(y_test,pred)
    precision = precision_score(y_test,pred)
    recall = recall_score(y_test,pred)
    f1 = f1_score(y_test,pred)
    roc_score = roc_auc_score(y_test,pred,average='macro')
    print('정확도 : {0:.2f}, 정밀도 : {1:.2f}, 재현율 : {2:.2f}'.format(accuracy,precision,recall))
    print('f1-score : {0:.2f}, auc : {1:.2f}'.format(f1,roc_score,recall))

In [4]:
from sklearn.linear_model import LogisticRegression
lr = LogisticRegression()
modeling(lr,X_train,X_test,y_train,y_test)

정확도 : 0.89, 정밀도 : 0.00, 재현율 : 0.00
f1-score : 0.00, auc : 0.49


In [6]:
from lightgbm import LGBMClassifier
lgb = LGBMClassifier(n_estimators=1000,num_leaves=64,n_jobs=-1,boost_from_average=False)
modeling(lgb,X_train,X_test,y_train,y_test)

정확도 : 0.91, 정밀도 : 0.50, 재현율 : 0.20
f1-score : 0.29, auc : 0.59


In [12]:
from sklearn.ensemble import RandomForestClassifier
rfc = RandomForestClassifier(n_estimators=10)
modeling(rfc,X_train,X_test,y_train,y_test)

정확도 : 0.90, 정밀도 : 0.33, 재현율 : 0.10
f1-score : 0.15, auc : 0.54


In [15]:
#svc 선형
import sklearn.svm as svm
svm_l = svm.SVC(kernel = 'linear')
modeling(svm_l,X_train,X_test,y_train,y_test)

정확도 : 0.88, 정밀도 : 0.00, 재현율 : 0.00
f1-score : 0.00, auc : 0.48


In [16]:
#svc 비선형
import sklearn.svm as svm
svm_r = svm.SVC(kernel = 'rbf')
modeling(svm_r,X_train,X_test,y_train,y_test)

정확도 : 0.91, 정밀도 : 0.00, 재현율 : 0.00
f1-score : 0.00, auc : 0.50


  _warn_prf(average, modifier, msg_start, len(result))


In [17]:
from sklearn.naive_bayes import GaussianNB
gnb = GaussianNB()
modeling(rfc,X_train,X_test,y_train,y_test)

정확도 : 0.92, 정밀도 : 0.67, 재현율 : 0.20
f1-score : 0.31, auc : 0.59


In [18]:
from sklearn.naive_bayes import BernoulliNB
bnb = BernoulliNB()
modeling(rfc,X_train,X_test,y_train,y_test)

정확도 : 0.89, 정밀도 : 0.25, 재현율 : 0.10
f1-score : 0.14, auc : 0.53


In [9]:
from imblearn.over_sampling import SMOTE
smote = SMOTE(random_state=0)
X_train_over,y_train_over = smote.fit_resample(X_train,y_train)
print('SMOTE 적용 전 학습용 피처/레이블 데이터 세트: ', X_train.shape, y_train.shape)
print('SMOTE 적용 후 학습용 피처/레이블 데이터 세트: ', X_train_over.shape, y_train_over.shape)
print('SMOTE 적용 후 레이블 값 분포: \n', pd.Series(y_train_over).value_counts())

SMOTE 적용 전 학습용 피처/레이블 데이터 세트:  (324, 6) (324,)
SMOTE 적용 후 학습용 피처/레이블 데이터 세트:  (578, 6) (578,)
SMOTE 적용 후 레이블 값 분포: 
 0    289
1    289
Name: 쉼터여부, dtype: int64


In [10]:
lr = LogisticRegression()
modeling(lr,X_train_over,X_test,y_train_over,y_test)

정확도 : 0.84, 정밀도 : 0.33, 재현율 : 0.70
f1-score : 0.45, auc : 0.78


In [11]:
lgb = LGBMClassifier(n_estimators=1000,num_leaves=64,n_jobs=-1,boost_from_average=False)
modeling(lgb,X_train_over,X_test,y_train_over,y_test)

정확도 : 0.89, 정밀도 : 0.38, 재현율 : 0.30
f1-score : 0.33, auc : 0.62


In [23]:
rfc = RandomForestClassifier(n_estimators=10)
modeling(rfc,X_train_over,X_test,y_train_over,y_test)

정확도 : 0.90, 정밀도 : 0.45, 재현율 : 0.50
f1-score : 0.48, auc : 0.72


In [26]:
#svc 선형
svm_l = svm.SVC(kernel = 'linear')
modeling(svm_l,X_train_over,X_test,y_train_over,y_test)

정확도 : 0.76, 정밀도 : 0.21, 재현율 : 0.60
f1-score : 0.32, auc : 0.69


In [27]:
#svc 비선형
svm_r = svm.SVC(kernel = 'rbf')
modeling(svm_r,X_train_over,X_test,y_train_over,y_test)

정확도 : 0.77, 정밀도 : 0.26, 재현율 : 0.80
f1-score : 0.39, auc : 0.78


In [28]:
from sklearn.naive_bayes import GaussianNB
gnb = GaussianNB()
modeling(gnb,X_train_over,X_test,y_train_over,y_test)

정확도 : 0.84, 정밀도 : 0.32, 재현율 : 0.60
f1-score : 0.41, auc : 0.73


In [29]:
from sklearn.naive_bayes import BernoulliNB
bnb = BernoulliNB()
modeling(bnb,X_train_over,X_test,y_train_over,y_test)

정확도 : 0.91, 정밀도 : 0.00, 재현율 : 0.00
f1-score : 0.00, auc : 0.50


  _warn_prf(average, modifier, msg_start, len(result))
