In [1]:
import time
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.feature_extraction.text import TfidfVectorizer
import numpy as np

In [2]:
# 加载数据
ytrain, xtrain = np.loadtxt('../../data/search_appointments_split_train_final.txt', dtype='str', delimiter = '\t', unpack = True)
ytest, xtest = np.loadtxt('../../data/search_appointments_split_test_final.txt', dtype='str', delimiter = '\t', unpack = True)
print xtrain.shape, xtest.shape

(196789,) (49217,)


In [3]:
# 提取特征
tfidf_vect = TfidfVectorizer()
xtrain_tfidf = tfidf_vect.fit_transform(xtrain)
xtest_tfidf = tfidf_vect.transform(xtest)
print xtrain_tfidf.shape
print xtest_tfidf.shape

(196789, 92527)
(49217, 92527)


## bayes

In [8]:
from sklearn.naive_bayes import MultinomialNB

In [9]:
# 训练分类器
t1 = time.clock()
clf_bayes = MultinomialNB().fit(xtrain_tfidf, ytrain)
train_time = time.clock() - t1
print train_time
# clf_svm = svm.SVC(kernel='linear').fit(xtrain_tfidf, ytrain)

27.944229


In [10]:
# 保存模型
from sklearn.externals import joblib
joblib.dump(clf_bayes, 'app_bayes.pkl')

# 加载模型
clf_bayes = joblib.load('app_bayes.pkl')

In [11]:
# 预测并计算准确率
predicted_bayes = clf_bayes.predict(xtest_tfidf)
# np.mean(predicted_bayes == ytest)
# clf_bayes.score(xtest_tfidf, ytest)

# predicted_svm = clf_svm.predict(xtest_tfidf)
# np.mean(predicted_svm == ytest)

In [12]:
# 分类计算准确率
from sklearn import metrics
result_bayes = metrics.classification_report(ytest, predicted_bayes)

  'precision', 'predicted', average, warn_for)


In [13]:
# 保存结果
with open("result_using_bayes.txt", 'wb') as f:
    f.write(result_bayes)
    f.close()

In [14]:
print result_bayes

                 precision    recall  f1-score   support

      中医科       0.50      0.47      0.49      1840
   乳腺外科       0.81      0.87      0.84      1380
         产科       0.72      0.78      0.75      1807
         儿科       0.49      0.63      0.55      1805
   内分泌科       0.61      0.70      0.65      1722
      口腔科       0.84      0.89      0.87      1775
   呼吸内科       0.55      0.77      0.64      1822
         妇科       0.68      0.83      0.74      1819
      康复科       0.00      0.00      0.00       239
      心理科       1.00      0.31      0.48       434
心血管内科       0.69      0.78      0.73      1527
心血管外科       0.00      0.00      0.00       141
      急诊科       0.92      0.53      0.67       978
      性病科       0.93      0.49      0.64       845
      感染科       0.87      0.42      0.57      1150
   整形外科       0.00      0.00      0.00       201
   新生儿科       0.86      0.31      0.46       722
      普外科       0.55      0.42      0.47      1521
   普通内科       0.87      0.22      0.

## logistic

In [15]:
from sklearn.linear_model import LogisticRegression

In [16]:
# 训练分类器
solver = 'sag'
clf_logistic = LogisticRegression(solver = solver,
                                  multi_class = 'multinomial',
                                  C = 1,
                                  penalty = 'l2'
                                  )
t1 = time.clock()
clf_logistic = clf_logistic.fit(xtrain_tfidf, ytrain)
train_time = time.clock() - t1
print train_time

48.395321


In [17]:
# 保存模型
from sklearn.externals import joblib
joblib.dump(clf_logistic, 'app_logistic.pkl')

# 加载模型
clf_logistic = joblib.load('app_logistic.pkl')

In [18]:
# 预测并计算准确率
predicted_logistic = clf_logistic.predict(xtest_tfidf)
# np.mean(predicted_bayes == ytest)
# clf_bayes.score(xtest_tfidf, ytest)

# predicted_svm = clf_svm.predict(xtest_tfidf)
# np.mean(predicted_svm == ytest)

In [19]:
# 分类计算准确率
from sklearn import metrics
result_logistic = metrics.classification_report(ytest, predicted_logistic)

In [20]:
# 保存结果
with open("result_using_logistic.txt", 'wb') as f:
    f.write(result_logistic)
    f.close()

In [21]:
print result_logistic

                 precision    recall  f1-score   support

      中医科       0.54      0.52      0.53      1840
   乳腺外科       0.86      0.88      0.87      1380
         产科       0.77      0.83      0.80      1807
         儿科       0.60      0.65      0.62      1805
   内分泌科       0.72      0.72      0.72      1722
      口腔科       0.87      0.89      0.88      1775
   呼吸内科       0.70      0.72      0.71      1822
         妇科       0.77      0.80      0.78      1819
      康复科       0.80      0.63      0.71       239
      心理科       0.79      0.67      0.72       434
心血管内科       0.74      0.79      0.77      1527
心血管外科       0.75      0.27      0.40       141
      急诊科       0.83      0.76      0.79       978
      性病科       0.83      0.69      0.75       845
      感染科       0.77      0.67      0.71      1150
   整形外科       0.71      0.33      0.45       201
   新生儿科       0.75      0.64      0.69       722
      普外科       0.59      0.54      0.56      1521
   普通内科       0.61      0.39      0.

## random forest

In [36]:
from sklearn.ensemble import RandomForestClassifier

In [None]:
# 训练分类器

clf_rf = RandomForestClassifier(n_estimators = 10)

t1 = time.clock()
clf_rf = clf_rf.fit(xtrain_tfidf, ytrain)
train_time = time.clock() - t1
print train_time

In [38]:
# 保存模型
from sklearn.externals import joblib
joblib.dump(clf_rf, 'app_rf.pkl')

# 加载模型
clf_rf = joblib.load('app_rf.pkl')

In [39]:
# 预测并计算准确率
predicted_rf = clf_rf.predict(xtest_tfidf)
# np.mean(predicted_bayes == ytest)
# clf_bayes.score(xtest_tfidf, ytest)

# predicted_svm = clf_svm.predict(xtest_tfidf)
# np.mean(predicted_svm == ytest)

In [40]:
# 分类计算准确率
from sklearn import metrics
result_rf = metrics.classification_report(ytest, predicted_rf)

In [41]:
# 保存结果
with open("result_using_rf.txt", 'wb') as f:
    f.write(result_rf)
    f.close()

In [42]:
print result_rf

                 precision    recall  f1-score   support

      中医科       0.44      0.44      0.44      1840
   乳腺外科       0.74      0.89      0.81      1380
         产科       0.67      0.79      0.72      1807
         儿科       0.49      0.61      0.55      1805
   内分泌科       0.62      0.64      0.63      1722
      口腔科       0.79      0.88      0.83      1775
   呼吸内科       0.61      0.70      0.65      1822
         妇科       0.69      0.76      0.73      1819
      康复科       0.72      0.70      0.71       239
      心理科       0.69      0.63      0.66       434
心血管内科       0.64      0.74      0.69      1527
心血管外科       0.58      0.24      0.34       141
      急诊科       0.75      0.72      0.74       978
      性病科       0.75      0.67      0.71       845
      感染科       0.70      0.60      0.65      1150
   整形外科       0.54      0.21      0.31       201
   新生儿科       0.70      0.60      0.64       722
      普外科       0.53      0.45      0.49      1521
   普通内科       0.54      0.33      0.