In [1]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.datasets import fetch_20newsgroups

categories = [
    'alt.atheism',
    'comp.graphics',
    'comp.os.ms-windows.misc',
    'comp.sys.ibm.pc.hardware',
    'comp.sys.mac.hardware',
    'comp.windows.x',
    'misc.forsale',
    'rec.autos',
    'rec.motorcycles',
    'rec.sport.baseball',
    'rec.sport.hockey'
    ]
remove = ('headers', 'footers', 'quotes')
# 学習データ
train_data = fetch_20newsgroups(
    subset='train', remove=remove, categories=categories)
# テストデータ
test_data = fetch_20newsgroups(
    subset='test', remove=remove, categories=categories)

In [2]:
# TfidfVectorizerをインスタンス化
tf_vec = TfidfVectorizer()
# 学習データのtf-idfを求める
X_train_tfidf = tf_vec.fit_transform(train_data.data)
# テストデータのtf-idfを求める
X_test_tfidf = tf_vec.transform(test_data.data)

In [3]:
import numpy as np
from sklearn.svm import LinearSVC

# 線形サポートベクターマシンの分類モデルを生成
model = LinearSVC(max_iter=30000, dual=True)
# 学習開始
model.fit(X_train_tfidf, train_data.target)
# 学習後のモデルでtf-idf変換後のテストデータを分類する
predicted = model.predict(X_test_tfidf)
# 正解ラベルと照合して正解率を求める
np.mean(predicted == test_data.target)

0.7536436295251528

In [4]:
from sklearn.ensemble import RandomForestClassifier

# ランダムフォレスト分類のモデルを生成
rf_model = RandomForestClassifier(n_estimators=500)
# 学習開始
rf_model.fit(X_train_tfidf, train_data.target)
# 学習後のモデルでtf-idf変換後のテストデータを分類する
predicted = rf_model.predict(X_test_tfidf)
# 正解ラベルと照合して正解率を求める
np.mean(predicted == test_data.target)

0.7139163140573578

In [5]:
from sklearn.ensemble import GradientBoostingClassifier

# 勾配ブースティング決定木のモデルを作成
# 最大深度を3、決定木を500、0.5の割合で確率的勾配降下法、学習率0.1
gb_model = GradientBoostingClassifier(
    max_depth=3, n_estimators=500, subsample=0.5, learning_rate=0.1)
# 学習開始
gb_model.fit(X_train_tfidf, train_data.target)
# 学習後のモデルでtf-idf変換後のテストデータを分類する
predicted = gb_model.predict(X_test_tfidf)
# 正解ラベルと照合して正解率を求める
np.mean(predicted == test_data.target)

0.6817113305124589