In [None]:
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.svm import SVC
from sklearn.model_selection import train_test_split
from sklearn.pipeline import Pipeline
from sklearn.metrics import classification_report
from janome.tokenizer import Tokenizer

# 形態素解析器の設定
t = Tokenizer()

# 形態素解析関数
def tokenize(text):
    tokens = t.tokenize(text)
    return [token.base_form for token in tokens if token.part_of_speech.split(',')[0] in ['名詞', '動詞']]

In [None]:
# データセットの例（ダミーデータ）
texts = [
    "昨日のコンサートは最高だった。",
    "新しいレストランで食事をした。",
    "この本は面白くない。",
    "映画を見に行く予定です。",
    "彼の話はいつも面白い。"
]
labels = [1, 1, 0, 1, 0]  # 1はポジティブ、0はネガティブ

# データを訓練用とテスト用に分割
X_train, X_test, y_train, y_test = train_test_split(texts, labels, test_size=0.2, random_state=42)

# パイプラインの作成（TF-IDFベクトル化とSVMモデル）
pipeline = Pipeline([
    ('tfidf', TfidfVectorizer(tokenizer=tokenize)),
    ('clf', SVC(kernel='linear'))
])

# モデルの訓練
pipeline.fit(X_train, y_train)

# テストデータでの評価
predictions = pipeline.predict(X_test)
print(classification_report(y_test, predictions))
