In [1]:
import pandas as pd

# CSVファイルの読み込み
df = pd.read_csv('../data/data.csv')

# データの内容を先頭5行表示して確認
print("--- データの先頭 ---")
print(df.head())

# データ件数と、ラベルの分布を確認（0と1が何件ずつあるか）
print("\n--- ラベルの分布 ---")
print(df['label'].value_counts())

# テキストデータとラベルをそれぞれ変数に格納
X_text = df['text']
y = df['label']

--- データの先頭 ---
   id                                               text  label
0   1  登坂 車線 ある 高速 自動 車 国道 大型 貨物 自動 車 必ず 登坂 車線 通行 し な...      0
1   2  前方 自転 車 追い越そう し た 左右 ふらつい おり 危険 予測 さ れ た で 危険 ...      1
2   3                       バス 運転 手 乗客 少なけれ 乗客 世間 話 し よい      0
3   4  路線 バス 運転 者 運転 中 ドア 故障 し 閉まら なく なっ た 乗客 少なかっ た ...      0
4   5  路線 バス 運転 者 客 乗り降り ため 停止 中 窓 手 出し いる 乗客 い た で 注...      1

--- ラベルの分布 ---
label
0    389
1    318
Name: count, dtype: int64


In [2]:
from sklearn.feature_extraction.text import TfidfVectorizer

# TfidfVectorizerを初期化
# analyzer='word' は単語単位で処理することを意味します（今回は既に分かち書き済なのでデフォルトでOK）
vectorizer = TfidfVectorizer()

# テキストデータ (X_text) をTF-IDFベクトルに変換
X_vec = vectorizer.fit_transform(X_text)

# 変換後のデータの形状を確認
# (文書数, ユニークな単語数) の形式になっている
print("\n--- ベクトル化後のデータ形状 ---")
print(X_vec.shape)


--- ベクトル化後のデータ形状 ---
(707, 1290)


In [3]:
from sklearn.model_selection import train_test_split

# ベクトル化したデータとラベルを、訓練データとテストデータに分割
# test_size=0.2 は、20%をテストデータに使うという意味
# stratify=y は、分割後の訓練/テストデータでラベルの比率が元データと同じになるようにするオプション
X_train, X_test, y_train, y_test = train_test_split(
    X_vec, y, test_size=0.2, random_state=42, stratify=y
)

print("\n--- 分割後のデータサイズ ---")
print(f"訓練データ: {X_train.shape[0]}件")
print(f"テストデータ: {X_test.shape[0]}件")


--- 分割後のデータサイズ ---
訓練データ: 565件
テストデータ: 142件


In [4]:
from sklearn.linear_model import LogisticRegression

# ロジスティック回帰モデルを初期化
model = LogisticRegression()

# モデルを訓練データで学習させる
model.fit(X_train, y_train)

print("\n--- モデルの学習が完了しました ---")


--- モデルの学習が完了しました ---


In [5]:
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

# テストデータを使って予測を行う
y_pred = model.predict(X_test)

# 1. 正解率 (Accuracy) の計算
accuracy = accuracy_score(y_test, y_pred)
print(f"\n正解率 (Accuracy): {accuracy:.4f}")

# 2. 適合率、再現率、F1スコアの表示
# これらは、特にラベルの分布に偏りがある場合に重要な指標
print("\n--- 分類レポート (Classification Report) ---")
print(classification_report(y_test, y_pred))

# 3. 混合行列 (Confusion Matrix) の表示
# どのような間違い方をしたかが分かる
print("\n--- 混合行列 (Confusion Matrix) ---")
print(confusion_matrix(y_test, y_pred))


正解率 (Accuracy): 0.6549

--- 分類レポート (Classification Report) ---
              precision    recall  f1-score   support

           0       0.64      0.86      0.73        78
           1       0.70      0.41      0.51        64

    accuracy                           0.65       142
   macro avg       0.67      0.63      0.62       142
weighted avg       0.67      0.65      0.63       142


--- 混合行列 (Confusion Matrix) ---
[[67 11]
 [38 26]]


In [8]:
import fugashi

sentence = "二輪車でカーブをまがる時は、遠心力に対抗するため車体を外側に傾けてまがるようにする 。"

def wakatiSentence(sentense):
    tagger = fugashi.Tagger()
    # nouns = [word.feature.lemma for word in tagger(sentense) if (word.feature.pos1 != "助詞" and word.feature.pos1 != "補助記号")]
    nouns = [word.surface for word in tagger(sentense) if (word.feature.pos1 != "助詞" and word.feature.pos1 != "補助記号")]
    # print(tagger(sentense))
    # print("--- 名詞リスト ---")
    # print(nouns)
    out = ""
    for i in range(len(nouns)):
        if (i == len(nouns) - 1):
          out = out + nouns[i]
        else:
          out = out + nouns[i] + " "
    print(out)
    return out

# 前のステップで学習済みの model と vectorizer が存在すると仮定します。
# (このコードの前に、前回の学習コードが実行されている状態です)

def predict_text(text: str):
    """
    新しいテキストを受け取り、前処理から予測までを行って結果を返す関数
    """
    # ステップ1: 新しい文章を分かち書きする
    # tagger.parse() は最後に改行が入るので .strip() する
    wakati_text = wakatiSentence(text)
    
    # ステップ2: 学習済みvectorizerでベクトル化する
    # .transform() はリストや配列を期待するため、文字列をリストに入れる
    text_vector = vectorizer.transform([wakati_text])
    
    # ステップ3: 学習済みモデルで予測する
    # .predict() はラベル（[0]や[1]）を返す
    predicted_label = model.predict(text_vector)
    
    # .predict_proba() は各ラベルに属する確率（[[0.1, 0.9]]など）を返す
    predicted_proba = model.predict_proba(text_vector)
    
    # 結果を分かりやすく辞書形式で返す
    result = {
        "text": text,
        "wakati": wakati_text,
        "predicted_label": predicted_label[0], # 配列から値を取り出す
        "probability_0": predicted_proba[0][0], # ラベル0の確率
        "probability_1": predicted_proba[0][1]  # ラベル1の確率
    }
    
    return result

predict_text(sentence)

カーブ 走行 する 時 速度 ２ 倍 なる 遠心 力 ４ 倍 なる


{'text': 'カーブを走行する時、速度が２倍になると遠心力は４倍になる 。',
 'wakati': 'カーブ 走行 する 時 速度 ２ 倍 なる 遠心 力 ４ 倍 なる',
 'predicted_label': 1,
 'probability_0': 0.43805042916687686,
 'probability_1': 0.5619495708331231}