In [36]:
import warnings

import pandas as pd
import matplotlib.pyplot as plt
from sklearn.preprocessing import MinMaxScaler
import torch
import torch.nn as nn
import torch.optim as optim
import numpy as np

from src.features import build_features
from src.models import predict_model
from src.train.train import train, evaluation, prediction_to_csv
from src.data.make_dataset import DatasetLoader
from src.visualization.visual import anomaly_plot
from src.config.config import seed_everything, cfg

warnings.filterwarnings(action='ignore')
seed_everything(cfg.SEED)

scaler = MinMaxScaler()

df = pd.read_csv(r'data\raw\train_data.csv')

In [37]:
import pandas as pd
import numpy as np

def outlier_z_score_filter_df(df, threshold=3):
    """
    데이터프레임의 모든 feature에 대해 Z-score 방법을 이용하여 이상치를 제거하고, NA 값을 가진 행을 제거하는 함수
    :param df: 이상치를 제거할 데이터프레임
    :param threshold: 이상치 판단 기준값 (일반적으로 3 사용)
    :return: 이상치가 제거된 데이터프레임
    """
    # 데이터프레임의 모든 feature에 대해 Z-score 방법을 이용하여 이상치 제거
    filtered_df = df.apply(lambda x: x[np.abs((x - x.mean()) / x.std()) < threshold])

    # NA 값을 가진 행 제거
    filtered_df = filtered_df.dropna()

    # 결과 반환
    return filtered_df


In [38]:
filtered_data = outlier_z_score_filter_df(df)

# 결과 출력
print("Original data: ", df.shape)
print("Filtered data: ", filtered_data.shape)

Original data:  (2463, 8)
Filtered data:  (2405, 8)
