In [11]:
import time
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.feature_extraction.text import TfidfVectorizer
import numpy as np

In [12]:
# 加载数据
ytrain, xtrain = np.loadtxt('../../data/search_appointments_split_train_final.txt', dtype='str', delimiter = '\t', unpack = True)
ytest, xtest = np.loadtxt('../../data/search_appointments_split_test_final.txt', dtype='str', delimiter = '\t', unpack = True)
print xtrain.shape, xtest.shape

(196796,) (49209,)


In [13]:
# 提取特征
tfidf_vect = TfidfVectorizer()
xtrain_tfidf = tfidf_vect.fit_transform(xtrain)
xtest_tfidf = tfidf_vect.transform(xtest)
print xtrain_tfidf.shape
print xtest_tfidf.shape

(196796, 95023)
(49209, 95023)


## bayes

In [14]:
from sklearn.naive_bayes import MultinomialNB

In [15]:
# 训练分类器
t1 = time.clock()
clf_bayes = MultinomialNB().fit(xtrain_tfidf, ytrain)
train_time = time.clock() - t1
print train_time
# clf_svm = svm.SVC(kernel='linear').fit(xtrain_tfidf, ytrain)

32.625


In [16]:
# 保存模型
from sklearn.externals import joblib
joblib.dump(clf_bayes, 'app_bayes.pkl')

# 加载模型
clf_bayes = joblib.load('app_bayes.pkl')

In [17]:
# 预测并计算准确率
predicted_bayes = clf_bayes.predict(xtest_tfidf)
# np.mean(predicted_bayes == ytest)
# clf_bayes.score(xtest_tfidf, ytest)

# predicted_svm = clf_svm.predict(xtest_tfidf)
# np.mean(predicted_svm == ytest)

In [18]:
# 分类计算准确率
from sklearn import metrics
result_bayes = metrics.classification_report(ytest, predicted_bayes)

In [19]:
# 保存结果
with open("result_using_bayes.txt", 'wb') as f:
    f.write(result_bayes)
    f.close()

In [20]:
print result_bayes

                 precision    recall  f1-score   support

      中医科       0.51      0.49      0.50      1794
   乳腺外科       0.79      0.86      0.82      1375
         产科       0.72      0.77      0.74      1795
         儿科       0.48      0.63      0.55      1799
   内分泌科       0.64      0.68      0.66      1756
      口腔科       0.85      0.89      0.87      1798
   呼吸内科       0.55      0.78      0.64      1800
         妇科       0.68      0.84      0.76      1797
      康复科       1.00      0.07      0.14       242
      心理科       0.99      0.34      0.50       426
心血管内科       0.66      0.76      0.70      1535
心血管外科       0.00      0.00      0.00       142
      急诊科       0.95      0.56      0.70      1009
      性病科       0.89      0.55      0.68       805
      感染科       0.86      0.42      0.56      1141
   整形外科       1.00      0.01      0.01       173
   新生儿科       0.83      0.40      0.54       701
      普外科       0.55      0.40      0.46      1531
   普通内科       0.86      0.25      0.

## logistic

In [21]:
from sklearn.linear_model import LogisticRegression

In [22]:
# 训练分类器
solver = 'sag'
clf_logistic = LogisticRegression(solver = solver,
                                  multi_class = 'multinomial',
                                  C = 1,
                                  penalty = 'l2'
                                  )
t1 = time.clock()
clf_logistic = clf_logistic.fit(xtrain_tfidf, ytrain)
train_time = time.clock() - t1
print train_time

74.3125


In [23]:
# 保存模型
from sklearn.externals import joblib
joblib.dump(clf_logistic, 'app_logistic.pkl')

# 加载模型
clf_logistic = joblib.load('app_logistic.pkl')

In [24]:
# 预测并计算准确率
predicted_logistic = clf_logistic.predict(xtest_tfidf)
# np.mean(predicted_bayes == ytest)
# clf_bayes.score(xtest_tfidf, ytest)

# predicted_svm = clf_svm.predict(xtest_tfidf)
# np.mean(predicted_svm == ytest)

In [25]:
# 分类计算准确率
from sklearn import metrics
result_logistic = metrics.classification_report(ytest, predicted_logistic)

In [26]:
# 保存结果
with open("result_using_logistic.txt", 'wb') as f:
    f.write(result_logistic)
    f.close()

In [27]:
print result_logistic

                 precision    recall  f1-score   support

      中医科       0.55      0.54      0.55      1794
   乳腺外科       0.84      0.87      0.85      1375
         产科       0.77      0.82      0.80      1795
         儿科       0.60      0.65      0.62      1799
   内分泌科       0.76      0.70      0.73      1756
      口腔科       0.88      0.88      0.88      1798
   呼吸内科       0.70      0.73      0.72      1800
         妇科       0.78      0.81      0.79      1797
      康复科       0.81      0.67      0.73       242
      心理科       0.79      0.70      0.74       426
心血管内科       0.73      0.77      0.75      1535
心血管外科       0.71      0.27      0.40       142
      急诊科       0.87      0.79      0.83      1009
      性病科       0.80      0.72      0.76       805
      感染科       0.76      0.64      0.70      1141
   整形外科       0.73      0.35      0.47       173
   新生儿科       0.75      0.65      0.70       701
      普外科       0.58      0.52      0.55      1531
   普通内科       0.63      0.40      0.

## random forest

In [28]:
from sklearn.ensemble import RandomForestClassifier

In [29]:
# 训练分类器

clf_rf = RandomForestClassifier(n_estimators = 10)

t1 = time.clock()
clf_rf = clf_rf.fit(xtrain_tfidf, ytrain)
train_time = time.clock() - t1
print train_time

322.21875


In [30]:
# 保存模型
from sklearn.externals import joblib
joblib.dump(clf_rf, 'app_rf.pkl')

# 加载模型
clf_rf = joblib.load('app_rf.pkl')

In [31]:
# 预测并计算准确率
predicted_rf = clf_rf.predict(xtest_tfidf)
# np.mean(predicted_bayes == ytest)
# clf_bayes.score(xtest_tfidf, ytest)

# predicted_svm = clf_svm.predict(xtest_tfidf)
# np.mean(predicted_svm == ytest)

In [32]:
# 分类计算准确率
from sklearn import metrics
result_rf = metrics.classification_report(ytest, predicted_rf)

In [33]:
# 保存结果
with open("result_using_rf.txt", 'wb') as f:
    f.write(result_rf)
    f.close()

In [34]:
print result_rf

                 precision    recall  f1-score   support

      中医科       0.41      0.44      0.42      1794
   乳腺外科       0.74      0.91      0.81      1375
         产科       0.68      0.80      0.73      1795
         儿科       0.54      0.62      0.58      1799
   内分泌科       0.63      0.68      0.66      1756
      口腔科       0.80      0.88      0.83      1798
   呼吸内科       0.62      0.72      0.67      1800
         妇科       0.70      0.78      0.74      1797
      康复科       0.74      0.71      0.73       242
      心理科       0.70      0.63      0.66       426
心血管内科       0.63      0.74      0.68      1535
心血管外科       0.76      0.26      0.39       142
      急诊科       0.79      0.74      0.76      1009
      性病科       0.77      0.69      0.73       805
      感染科       0.72      0.56      0.63      1141
   整形外科       0.49      0.29      0.37       173
   新生儿科       0.73      0.63      0.67       701
      普外科       0.56      0.42      0.48      1531
   普通内科       0.56      0.37      0.