### 모듈 불러오기

In [1]:
import pandas as pd
from pandas import Series, DataFrame
import numpy as np
import matplotlib.pyplot as plt
from scipy import stats
from scipy.stats import boxcox
from scipy.stats import yeojohnson
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import MinMaxScaler
from sklearn.preprocessing import RobustScaler
import seaborn as sns

### 데이터 불러오기

In [2]:
df = pd.read_csv("C:/Users/gun67/전력 프로젝트/preprocessing_data/2016_preprocessing_data", encoding = "utf-8-sig")
df

Unnamed: 0,Year-Month-Date,Time,Watt,Temp('C),Humidity(%)
0,2016-01-01,[ 00:00 ],343.0,7.000,76.000
1,2016-01-01,[ 00:01 ],342.0,6.967,76.167
2,2016-01-01,[ 00:02 ],345.0,6.933,76.333
3,2016-01-01,[ 00:03 ],345.0,6.900,76.500
4,2016-01-01,[ 00:04 ],346.0,6.867,76.667
...,...,...,...,...,...
525595,2016-12-31,[ 23:55 ],456.0,8.000,88.000
525596,2016-12-31,[ 23:56 ],460.0,8.000,87.800
525597,2016-12-31,[ 23:57 ],458.0,8.000,87.600
525598,2016-12-31,[ 23:58 ],424.0,8.000,87.400


### Min-Max 스케일링  
##### 데이터의 최솟값을 0, 최댓값을 1로 변환 ; 데이터의 분포를 유지하면서 스케일을 변경

In [3]:
scaler = MinMaxScaler()
df["Watt_minmax"] = scaler.fit_transform(df[["Watt"]])
df["Temp('C)_minmax"] = scaler.fit_transform(df[["Temp('C)"]])
df["Humidity(%)_minmax"] = scaler.fit_transform(df[["Humidity(%)"]])
df_minmax = df[["Year-Month-Date", "Time", "Watt_minmax", "Temp('C)_minmax", "Humidity(%)_minmax"]]
print(df_minmax)

       Year-Month-Date       Time  Watt_minmax  Temp('C)_minmax  \
0           2016-01-01  [ 00:00 ]     0.023135         0.235294   
1           2016-01-01  [ 00:01 ]     0.023019         0.234324   
2           2016-01-01  [ 00:02 ]     0.023366         0.233324   
3           2016-01-01  [ 00:03 ]     0.023366         0.232353   
4           2016-01-01  [ 00:04 ]     0.023482         0.231382   
...                ...        ...          ...              ...   
525595      2016-12-31  [ 23:55 ]     0.036206         0.264706   
525596      2016-12-31  [ 23:56 ]     0.036669         0.264706   
525597      2016-12-31  [ 23:57 ]     0.036437         0.264706   
525598      2016-12-31  [ 23:58 ]     0.032504         0.264706   
525599      2016-12-31  [ 23:59 ]     0.031463         0.264706   

        Humidity(%)_minmax  
0                 0.655667  
1                 0.658063  
2                 0.660445  
3                 0.662841  
4                 0.665237  
...                  

### 로버스트 스케일링

##### 중앙값(median)을 0, IQR을 1로 변환 ; 이상치에 덜 민감

In [4]:
scaler = RobustScaler()
df["Watt_robust"] = scaler.fit_transform(df[["Watt"]])
df["Temp('C)_robust"] = scaler.fit_transform(df[["Temp('C)"]])
df["Humidity(%)_robust"] = scaler.fit_transform(df[["Humidity(%)"]])
df_robust = df[["Year-Month-Date", "Time", "Watt_robust", "Temp('C)_robust", "Humidity(%)_robust"]]
print(df_robust)

       Year-Month-Date       Time  Watt_robust  Temp('C)_robust  \
0           2016-01-01  [ 00:00 ]     0.254386        -0.555556   
1           2016-01-01  [ 00:01 ]     0.250000        -0.559222   
2           2016-01-01  [ 00:02 ]     0.263158        -0.563000   
3           2016-01-01  [ 00:03 ]     0.263158        -0.566667   
4           2016-01-01  [ 00:04 ]     0.267544        -0.570333   
...                ...        ...          ...              ...   
525595      2016-12-31  [ 23:55 ]     0.750000        -0.444444   
525596      2016-12-31  [ 23:56 ]     0.767544        -0.444444   
525597      2016-12-31  [ 23:57 ]     0.758772        -0.444444   
525598      2016-12-31  [ 23:58 ]     0.609649        -0.444444   
525599      2016-12-31  [ 23:59 ]     0.570175        -0.444444   

        Humidity(%)_robust  
0                 0.000000  
1                 0.008789  
2                 0.017526  
3                 0.026316  
4                 0.035105  
...                  

### 로그 변환

##### 데이터의 분포를 정규분포에 가깝게 만듦, 값이 0보다 클 때만 사용 가능  
##### 온도 데이터는 값이 0보다 작거나 같을 경우가 존재하므로 다른 정규화를 사용

In [5]:
df["Watt_log"] = np.log(df["Watt"] + 1)
df["Humidity(%)_log"] = np.log(df["Humidity(%)"] + 1)

# 전력값과 습도는 log 변환, 온도는 minmax 변환
df_log_minmax = df[["Year-Month-Date", "Time", "Watt_log", "Temp('C)_minmax", "Humidity(%)_log"]]
print(df_log_minmax)

# 전력값과 습도는 log 변환, 온도는 robust 변환
df_log_robust = df[["Year-Month-Date", "Time", "Watt_log", "Temp('C)_robust", "Humidity(%)_log"]]
print(df_log_robust)

       Year-Month-Date       Time  Watt_log  Temp('C)_minmax  Humidity(%)_log
0           2016-01-01  [ 00:00 ]  5.840642         0.235294         4.343805
1           2016-01-01  [ 00:01 ]  5.837730         0.234324         4.345972
2           2016-01-01  [ 00:02 ]  5.846439         0.233324         4.348121
3           2016-01-01  [ 00:03 ]  5.846439         0.232353         4.350278
4           2016-01-01  [ 00:04 ]  5.849325         0.231382         4.352430
...                ...        ...       ...              ...              ...
525595      2016-12-31  [ 23:55 ]  6.124683         0.264706         4.488636
525596      2016-12-31  [ 23:56 ]  6.133398         0.264706         4.486387
525597      2016-12-31  [ 23:57 ]  6.129050         0.264706         4.484132
525598      2016-12-31  [ 23:58 ]  6.052089         0.264706         4.481872
525599      2016-12-31  [ 23:59 ]  6.030685         0.264706         4.477337

[525600 rows x 5 columns]
       Year-Month-Date       Time  Wa

### 제곱근 변환

##### 데이터의 분포를 정규분포에 가깝게 만듦, 값이 0보다 클 때만 사용 가능  
##### 이 또한 온도 데이터는 다른 정규화를 사용

In [6]:
df["Watt_sqrt"] = np.sqrt(df["Watt"])
df["Humidity(%)_sqrt"] = np.sqrt(df["Watt"])

# 전력값과 습도는 sqrt 변환, 온도는 minmax 변환
df_sqrt_minmax = df[["Year-Month-Date", "Time", "Watt_sqrt", "Temp('C)_minmax", "Humidity(%)_sqrt"]]
print(df_sqrt_minmax)

# 전력값과 습도는 sqrt 변환, 온도는 robust 변환
df_sqrt_robust = df[["Year-Month-Date", "Time", "Watt_sqrt", "Temp('C)_robust", "Humidity(%)_sqrt"]]
print(df_sqrt_robust)

       Year-Month-Date       Time  Watt_sqrt  Temp('C)_minmax  \
0           2016-01-01  [ 00:00 ]  18.520259         0.235294   
1           2016-01-01  [ 00:01 ]  18.493242         0.234324   
2           2016-01-01  [ 00:02 ]  18.574176         0.233324   
3           2016-01-01  [ 00:03 ]  18.574176         0.232353   
4           2016-01-01  [ 00:04 ]  18.601075         0.231382   
...                ...        ...        ...              ...   
525595      2016-12-31  [ 23:55 ]  21.354157         0.264706   
525596      2016-12-31  [ 23:56 ]  21.447611         0.264706   
525597      2016-12-31  [ 23:57 ]  21.400935         0.264706   
525598      2016-12-31  [ 23:58 ]  20.591260         0.264706   
525599      2016-12-31  [ 23:59 ]  20.371549         0.264706   

        Humidity(%)_sqrt  
0              18.520259  
1              18.493242  
2              18.574176  
3              18.574176  
4              18.601075  
...                  ...  
525595         21.354157  
525

In [7]:
df_minmax.to_csv("C:/Users/gun67/전력 프로젝트/2016_normalization_data/2016_minmax_data", index = False, encoding = "utf-8-sig")

In [8]:
df_robust.to_csv("C:/Users/gun67/전력 프로젝트/2016_normalization_data/2016_robust_data", index = False, encoding = "utf-8-sig")

In [9]:
df_log_minmax.to_csv("C:/Users/gun67/전력 프로젝트/2016_normalization_data/2016_log_minmax_data", index = False, encoding = "utf-8-sig")

In [10]:
df_log_robust.to_csv("C:/Users/gun67/전력 프로젝트/2016_normalization_data/2016_log_robust_data", index = False, encoding = "utf-8-sig")

In [11]:
df_sqrt_minmax.to_csv("C:/Users/gun67/전력 프로젝트/2016_normalization_data/2016_sqrt_minmax_data", index = False, encoding = "utf-8-sig")

In [12]:
df_sqrt_robust.to_csv("C:/Users/gun67/전력 프로젝트/2016_normalization_data/2016_sqrt_robust_data", index = False, encoding = "utf-8-sig")