# ロジスティック回帰分類器(Logistic Regression Classifier)
Model Definition: 確率的な2値分類および多クラス分類に適したロジスティック回帰モデル。

Training: サンプリングされたトレーニングデータのサブセットで学習。L2正則化を適用し、過学習を防止。

Prediction: 検証セットで予測確率と分類結果を計算。

Evaluation: ロジスティック回帰モデルの性能を分析するため、分類レポートと精度指標を表示。

In [None]:
from google.colab import drive
drive.mount('/content/drive')

import pandas as pd
import numpy as np
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
from sklearn.model_selection import train_test_split
import os

# Define dataset filenames
train_file = "train_1_split.csv"
val_file = "val_1_split.csv"

# Construct dynamic paths based on the current working directory
current_dir = os.getcwd()
train_path = os.path.join(current_dir, "/content/drive/MyDrive/image_analytics/data/features", train_file)
val_path = os.path.join(current_dir, "/content/drive/MyDrive/image_analytics/data/features", val_file)

# Optional check if paths exist
if not os.path.isfile(train_path):
    print(f"Warning: {train_path} が見つかりません")
if not os.path.isfile(val_path):
    print(f"Warning: {val_path} が見つかりません")

# Load the training and validation datasets
train = pd.read_csv(train_path)
val = pd.read_csv(val_path)

In [None]:
# Separate features and labels
X_train = train_data.drop(columns=["Unnamed: 0", "label"])
y_train = train_data["label"]

X_val = val_data.drop(columns=["Unnamed: 0", "label"])
y_val = val_data["label"]

# Confirm dimensions
print("Training Features Shape:", X_train.shape)
print("Training Labels Shape:", y_train.shape)
print("Validation Features Shape:", X_val.shape)
print("Validation Labels Shape:", y_val.shape)

## Logistic Regression Classifier: Training, Prediction, and Evaluation

ここでは、ロジスティック回帰分類器を実装し、検証データでその性能を評価します。

1. **必要なライブラリのインポート**

2. **ロジスティック回帰分類器の定義**:
  - `lr_clf`はL2正則化を使用し、過学習を防ぐために設定されています。
  - 再現性を維持するために`random_state=42`を指定。
  - 数値的な安定性のために`max_iter=100`を設定。

3. **モデルのトレーニング**:
  - 分類器は、特徴量とラベルの関係を学習するために、サンプリングされたトレーニングデータ（X_train_sampleとy_train_sample）で学習。

4. **予測の実行**:
  - 学習済みの分類器を使用して、検証データセット（X_val）に対し予測。これらの予測（lr_y_pred）は、検証セットの各サンプルに対する分類器の予測を提供する。

5. **モデルの性能評価**:
  - モデルの精度を計算し、これは正しい予測の割合を反映。
  - 分類レポートは、各クラスの適合率、再現率、F1スコアなどの詳細な指標を提供し、異なるクラス間でのモデルの性能を理解するのに役立ちます。


In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, classification_report

# Initialize the Logistic Regression model
lr_clf = LogisticRegression(max_iter=100, random_state=42)

# Train the model
lr_clf.fit(X_train, y_train)

# Predict on the validation set
y_val_pred = lr_clf.predict(X_val)

# Define the new path for saving the model inside the models folder
model_save_path = "/content/drive/MyDrive/image_analytics/models/lr_classifier.pkl"

# Save the trained model
joblib.dump(lr_clf, model_save_path)

print(f"Model saved to {model_save_path}.")

# Evaluate the model
print("Logistic Regression Classifier Accuracy:", accuracy_score(y_val, y_val_pred))
print("\nClassification Report:\n", classification_report(y_val, y_val_pred))

### Model Evaluation Metrics

モデルを評価するための包括的な指標のセットを計算し、表示します。

1. **精度（**ACCURACY**）**: 正しい予測の全体的な割合。
2. **適合率（**PRECISION**）（加重）**: クラスの不均衡を考慮した、全クラスの適合率の加重平均。
3. **再現率（**RECALL**）（加重）**: 全クラスの再現率の加重平均。
4. **F1スコア（**F1 SCORE**）（加重）**: 適合率と再現率のバランスを取る、全クラスのF1スコアの加重平均。

In [None]:
from sklearn.metrics import precision_score, recall_score, f1_score, accuracy_score

# Make Calculate Evaluation Metrics
# Precision, Recall, F1-Score, and Accuracy
precision = precision_score(y_val, y_val_pred, average='weighted')
recall = recall_score(y_val, y_val_pred, average='weighted')
f1 = f1_score(y_val, y_val_pred, average='weighted')
accuracy = accuracy_score(y_val, y_val_pred)

# Print the metrics
print("SVM Model Evaluation Metrics:")
print(f"Accuracy: {accuracy:.4f}")
print(f"Precision: {precision:.4f}")
print(f"Recall: {recall:.4f}")
print(f"F1 Score: {f1:.4f}")