### 모듈 불러오기

In [1]:
import pandas as pd
from pandas import Series, DataFrame
import numpy as np
import matplotlib.pyplot as plt
from scipy import stats
from scipy.stats import boxcox
from scipy.stats import yeojohnson
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import MinMaxScaler
from sklearn.preprocessing import RobustScaler
import seaborn as sns

### 데이터 불러오기

In [2]:
df = pd.read_csv("C:/Users/gun67/전력 프로젝트/preprocessing_data/2013_preprocessing_data", encoding = "utf-8-sig")
df

Unnamed: 0,Year-Month-Date,Time,Watt,Temp('C),Humidity(%)
0,2013-01-01,[ 00:00 ],522.0,10.0,87.000
1,2013-01-01,[ 00:01 ],558.0,10.0,86.833
2,2013-01-01,[ 00:02 ],537.0,10.0,86.667
3,2013-01-01,[ 00:03 ],525.0,10.0,86.500
4,2013-01-01,[ 00:04 ],539.0,10.0,86.333
...,...,...,...,...,...
525595,2013-12-31,[ 23:55 ],401.0,8.0,81.000
525596,2013-12-31,[ 23:56 ],400.0,8.0,81.000
525597,2013-12-31,[ 23:57 ],400.0,8.0,81.000
525598,2013-12-31,[ 23:58 ],497.0,8.0,81.000


### Min-Max 스케일링  
##### 데이터의 최솟값을 0, 최댓값을 1로 변환 ; 데이터의 분포를 유지하면서 스케일을 변경

In [3]:
scaler = MinMaxScaler()
df["Watt_minmax"] = scaler.fit_transform(df[["Watt"]])
df["Temp('C)_minmax"] = scaler.fit_transform(df[["Temp('C)"]])
df["Humidity(%)_minmax"] = scaler.fit_transform(df[["Humidity(%)"]])
df_minmax = df[["Year-Month-Date", "Time", "Watt_minmax", "Temp('C)_minmax", "Humidity(%)_minmax"]]
print(df_minmax)

       Year-Month-Date       Time  Watt_minmax  Temp('C)_minmax  \
0           2013-01-01  [ 00:00 ]     0.055667         0.378378   
1           2013-01-01  [ 00:01 ]     0.060181         0.378378   
2           2013-01-01  [ 00:02 ]     0.057548         0.378378   
3           2013-01-01  [ 00:03 ]     0.056043         0.378378   
4           2013-01-01  [ 00:04 ]     0.057798         0.378378   
...                ...        ...          ...              ...   
525595      2013-12-31  [ 23:55 ]     0.040496         0.324324   
525596      2013-12-31  [ 23:56 ]     0.040371         0.324324   
525597      2013-12-31  [ 23:57 ]     0.040371         0.324324   
525598      2013-12-31  [ 23:58 ]     0.052533         0.324324   
525599      2013-12-31  [ 23:59 ]     0.052031         0.324324   

        Humidity(%)_minmax  
0                 0.813486  
1                 0.811090  
2                 0.808709  
3                 0.806313  
4                 0.803917  
...                  

### 로버스트 스케일링

##### 중앙값(median)을 0, IQR을 1로 변환 ; 이상치에 덜 민감

In [4]:
scaler = RobustScaler()
df["Watt_robust"] = scaler.fit_transform(df[["Watt"]])
df["Temp('C)_robust"] = scaler.fit_transform(df[["Temp('C)"]])
df["Humidity(%)_robust"] = scaler.fit_transform(df[["Humidity(%)"]])
df_robust = df[["Year-Month-Date", "Time", "Watt_robust", "Temp('C)_robust", "Humidity(%)_robust"]]
print(df_robust)

       Year-Month-Date       Time  Watt_robust  Temp('C)_robust  \
0           2013-01-01  [ 00:00 ]     1.213538             -0.1   
1           2013-01-01  [ 00:01 ]     1.378396             -0.1   
2           2013-01-01  [ 00:02 ]     1.282229             -0.1   
3           2013-01-01  [ 00:03 ]     1.227276             -0.1   
4           2013-01-01  [ 00:04 ]     1.291388             -0.1   
...                ...        ...          ...              ...   
525595      2013-12-31  [ 23:55 ]     0.659432             -0.3   
525596      2013-12-31  [ 23:56 ]     0.654853             -0.3   
525597      2013-12-31  [ 23:57 ]     0.654853             -0.3   
525598      2013-12-31  [ 23:58 ]     1.099053             -0.3   
525599      2013-12-31  [ 23:59 ]     1.080736             -0.3   

        Humidity(%)_robust  
0                 0.504756  
1                 0.496853  
2                 0.488998  
3                 0.481096  
4                 0.473194  
...                  

### 로그 변환

##### 데이터의 분포를 정규분포에 가깝게 만듦, 값이 0보다 클 때만 사용 가능  
##### 온도 데이터는 값이 0보다 작거나 같을 경우가 존재하므로 다른 정규화를 사용

In [5]:
df["Watt_log"] = np.log(df["Watt"] + 1)
df["Humidity(%)_log"] = np.log(df["Humidity(%)"] + 1)

# 전력값과 습도는 log 변환, 온도는 minmax 변환
df_log_minmax = df[["Year-Month-Date", "Time", "Watt_log", "Temp('C)_minmax", "Humidity(%)_log"]]
print(df_log_minmax)

# 전력값과 습도는 log 변환, 온도는 robust 변환
df_log_robust = df[["Year-Month-Date", "Time", "Watt_log", "Temp('C)_robust", "Humidity(%)_log"]]
print(df_log_robust)

       Year-Month-Date       Time  Watt_log  Temp('C)_minmax  Humidity(%)_log
0           2013-01-01  [ 00:00 ]  6.259581         0.378378         4.477337
1           2013-01-01  [ 00:01 ]  6.326149         0.378378         4.475437
2           2013-01-01  [ 00:02 ]  6.287859         0.378378         4.473546
3           2013-01-01  [ 00:03 ]  6.265301         0.378378         4.471639
4           2013-01-01  [ 00:04 ]  6.291569         0.378378         4.469728
...                ...        ...       ...              ...              ...
525595      2013-12-31  [ 23:55 ]  5.996452         0.324324         4.406719
525596      2013-12-31  [ 23:56 ]  5.993961         0.324324         4.406719
525597      2013-12-31  [ 23:57 ]  5.993961         0.324324         4.406719
525598      2013-12-31  [ 23:58 ]  6.210600         0.324324         4.406719
525599      2013-12-31  [ 23:59 ]  6.202536         0.324324         4.406719

[525600 rows x 5 columns]
       Year-Month-Date       Time  Wa

### 제곱근 변환

##### 데이터의 분포를 정규분포에 가깝게 만듦, 값이 0보다 클 때만 사용 가능  
##### 이 또한 온도 데이터는 다른 정규화를 사용

In [6]:
df["Watt_sqrt"] = np.sqrt(df["Watt"])
df["Humidity(%)_sqrt"] = np.sqrt(df["Watt"])

# 전력값과 습도는 sqrt 변환, 온도는 minmax 변환
df_sqrt_minmax = df[["Year-Month-Date", "Time", "Watt_sqrt", "Temp('C)_minmax", "Humidity(%)_sqrt"]]
print(df_sqrt_minmax)

# 전력값과 습도는 sqrt 변환, 온도는 robust 변환
df_sqrt_robust = df[["Year-Month-Date", "Time", "Watt_sqrt", "Temp('C)_robust", "Humidity(%)_sqrt"]]
print(df_sqrt_robust)

       Year-Month-Date       Time  Watt_sqrt  Temp('C)_minmax  \
0           2013-01-01  [ 00:00 ]  22.847319         0.378378   
1           2013-01-01  [ 00:01 ]  23.622024         0.378378   
2           2013-01-01  [ 00:02 ]  23.173260         0.378378   
3           2013-01-01  [ 00:03 ]  22.912878         0.378378   
4           2013-01-01  [ 00:04 ]  23.216374         0.378378   
...                ...        ...        ...              ...   
525595      2013-12-31  [ 23:55 ]  20.024984         0.324324   
525596      2013-12-31  [ 23:56 ]  20.000000         0.324324   
525597      2013-12-31  [ 23:57 ]  20.000000         0.324324   
525598      2013-12-31  [ 23:58 ]  22.293497         0.324324   
525599      2013-12-31  [ 23:59 ]  22.203603         0.324324   

        Humidity(%)_sqrt  
0              22.847319  
1              23.622024  
2              23.173260  
3              22.912878  
4              23.216374  
...                  ...  
525595         20.024984  
525

In [7]:
df_minmax.to_csv("C:/Users/gun67/전력 프로젝트/2013_normalization_data/2013_minmax_data", index = False, encoding = "utf-8-sig")

In [8]:
df_robust.to_csv("C:/Users/gun67/전력 프로젝트/2013_normalization_data/2013_robust_data", index = False, encoding = "utf-8-sig")

In [9]:
df_log_minmax.to_csv("C:/Users/gun67/전력 프로젝트/2013_normalization_data/2013_log_minmax_data", index = False, encoding = "utf-8-sig")

In [10]:
df_log_robust.to_csv("C:/Users/gun67/전력 프로젝트/2013_normalization_data/2013_log_robust_data", index = False, encoding = "utf-8-sig")

In [11]:
df_sqrt_minmax.to_csv("C:/Users/gun67/전력 프로젝트/2013_normalization_data/2013_sqrt_minmax_data", index = False, encoding = "utf-8-sig")

In [12]:
df_sqrt_robust.to_csv("C:/Users/gun67/전력 프로젝트/2013_normalization_data/2013_sqrt_robust_data", index = False, encoding = "utf-8-sig")