In [None]:
#ライブラリをインポート
import pandas as pd
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from src import config
from pathlib import Path

In [None]:
# インポート元のフォルダを設定
folder_path = Path(config.DATA_PATH) # この部分を自分のフォルダに合わせて設定してください
try:
    csv_files = list(folder_path.glob('*/*.csv'))
    #print(f"read csv successfully: {csv_files}")
except:
    print("Import error!")

# CSVファイルをDataFrame形式に変換
list_of_dfs = []
labels = []

for file in csv_files:
    df = pd.read_csv(file)
    if "clean" in str(file): # clean: 正常
        label = pd.Series([0]*len(df))
    else:
        label = pd.Series([1]*len(df))
    list_of_dfs.append(df)
    labels.append(label)


X = pd.concat(list_of_dfs, ignore_index=True, axis=0)
y = pd.concat(labels, ignore_index=True, axis=0)

In [None]:
# データの確認(ここで、MLに入力できない特徴量を確認する)
# この場合だとtimeが扱えない
X.info()

In [None]:
# データの前処理
# 不要な特徴量(time)を削除
X = X.drop(columns=['time'])

# データを学習データとテストデータに分割
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 正規化
sc = StandardScaler()
X_train = sc.fit_transform(X_train)
X_test = sc.transform(X_test)

In [None]:
# モデルのインポート(教師あり学習)
clf = LogisticRegression(max_iter=100)

clf.fit(X_train, y_train)
predictions = clf.predict(X_test)

# 結果の確認
score = clf.score(X_test, y_test)
print("Model name: Logistic Regression")
print(f"    accuracy: {score}\n")