In [1]:
# Library import

import chardet # 인코딩
import pandas as pd
import numpy
import seaborn as sns
import matplotlib.pyplot as plt

In [2]:
# Feature Info
def tip():
    print(''' 
    c_num: 기상청 동네예보 격자넘버,
    e_tm: 날짜 시간포함 단위 (0~23시),
    e_hh24: 시간, 단위(1 ~ 24시),
    e_weekday: 요일을 숫자형식으로 표시 월요일(0)~일요일(6),
    e_week_name: 주중 주말을 숫자형식으로 표시 주중(0), 주말(1),
    c_stn: AWS 지점 번호,
    c_nph_ta: 기온 단위(섭씨),
    c_nph_hm: 상대습도 단위(%),
    c_nph_ws_10m: 10분 평균 분속 단위(m/s),
    c_nph_rn_60m: 1시간 누적 강수량 단위(mm),
    c_nph_ta_chi: 체감온도 단위(섭씨)
    ''')

In [3]:
tip()

 
    c_num: 기상청 동네예보 격자넘버,
    e_tm: 날짜 시간포함 단위 (0~23시),
    e_hh24: 시간, 단위(1 ~ 24시),
    e_weekday: 요일을 숫자형식으로 표시 월요일(0)~일요일(6),
    e_week_name: 주중 주말을 숫자형식으로 표시 주중(0), 주말(1),
    c_stn: AWS 지점 번호,
    c_nph_ta: 기온 단위(섭씨),
    c_nph_hm: 상대습도 단위(%),
    c_nph_ws_10m: 10분 평균 분속 단위(m/s),
    c_nph_rn_60m: 1시간 누적 강수량 단위(mm),
    c_nph_ta_chi: 체감온도 단위(섭씨)
    


In [4]:
# Set Path

# Train dataset
data_2020_01 = "/Users/ebot/github/proj_shootingstar/t_train/2020_data_01.xlsx"
data_2020_02 = "/Users/ebot/github/proj_shootingstar/t_train/2020_data_02.xlsx"

df_data_2020_01 = pd.read_excel(data_2020_01)
df_data_2020_02 = pd.read_excel(data_2020_02)

# Train data concat
row_df_train = pd.concat([df_data_2020_01, df_data_2020_02], ignore_index=True)

# Test dataset
data_2020_03 = "/Users/ebot/github/proj_shootingstar/t_train/2020_data_03.xlsx"
row_df_test = pd.read_excel(data_2020_03)







In [5]:
row_df_train.columns

Index(['Unnamed: 0', 'c_num', 'e_tm', 'e_hh24', 'e_n', 'c_stn', 'e_sum_qctr',
       'e_sum_load', 'e_n_mean_load', 'c_nph_ta', 'c_nph_hm', 'c_nph_ws_10m',
       'c_nph_rn_60m', 'c_nph_ta_chi', 'e_weekday', 'e_week_name', 'e_elec'],
      dtype='object')

In [6]:
# Check the number of columns

print(f"Shape of train:", row_df_train.shape)
print(f"Shape of test:", row_df_test.shape)

Shape of train: (58999, 17)
Shape of test: (30504, 17)


In [7]:
# 데이터 copy
df_train = row_df_train.copy()
df_test = row_df_test.copy()



In [8]:
# e_tm(날짜) datetime으로 변환

df_train["e_tm"] = pd.to_datetime(df_train['e_tm'])
df_test["e_tm"] = pd.to_datetime(df_test['e_tm'])

# tm 데이터 스플릿

df_train['year'] = df_train['e_tm'].dt.year
df_train['month'] = df_train['e_tm'].dt.month
df_train['day'] = df_train['e_tm'].dt.day
df_train['hour'] = df_train['e_tm'].dt.hour


df_test['year'] = df_test['e_tm'].dt.year
df_test['month'] = df_test['e_tm'].dt.month
df_test['day'] = df_test['e_tm'].dt.day
df_test['hour'] = df_test['e_tm'].dt.hour

df_train = df_train.drop(columns=['e_tm'])
df_test = df_test.drop(columns=['e_tm'])


In [9]:
# df_train.reset_index(inplace=True)

In [10]:
tip()

 
    c_num: 기상청 동네예보 격자넘버,
    e_tm: 날짜 시간포함 단위 (0~23시),
    e_hh24: 시간, 단위(1 ~ 24시),
    e_weekday: 요일을 숫자형식으로 표시 월요일(0)~일요일(6),
    e_week_name: 주중 주말을 숫자형식으로 표시 주중(0), 주말(1),
    c_stn: AWS 지점 번호,
    c_nph_ta: 기온 단위(섭씨),
    c_nph_hm: 상대습도 단위(%),
    c_nph_ws_10m: 10분 평균 분속 단위(m/s),
    c_nph_rn_60m: 1시간 누적 강수량 단위(mm),
    c_nph_ta_chi: 체감온도 단위(섭씨)
    


In [11]:
# train_data  c_num, c_stn 원 핫 인코딩

c_num_train = pd.get_dummies(df_train['c_num'], prefix='c_num')
c_stn_train = pd.get_dummies(df_train['c_stn'], prefix='c_stn')

# test_data  c_num, c_stn 원 핫 인코딩

c_num_test = pd.get_dummies(df_train['c_num'], prefix='c_num')
c_stn_test = pd.get_dummies(df_train['c_stn'], prefix='c_stn')




In [12]:
pd.set_option('display.max_columns', None)

columns_list = df_train.columns.tolist()
print(columns_list)

['Unnamed: 0', 'c_num', 'e_hh24', 'e_n', 'c_stn', 'e_sum_qctr', 'e_sum_load', 'e_n_mean_load', 'c_nph_ta', 'c_nph_hm', 'c_nph_ws_10m', 'c_nph_rn_60m', 'c_nph_ta_chi', 'e_weekday', 'e_week_name', 'e_elec', 'year', 'month', 'day', 'hour']


In [13]:
df_train = df_train.drop(columns=['c_num','c_stn','e_sum_qctr', 'e_n', 'e_sum_load', 'e_n_mean_load','e_hh24', 'Unnamed: 0'])
df_test = df_test.drop(columns=['c_num','c_stn','e_sum_qctr', 'e_n', 'e_sum_load', 'e_n_mean_load','e_hh24', 'Unnamed: 0'])

In [14]:
from sklearn.preprocessing import MinMaxScaler


# MinMaxScaler 선언 및 Fitting
Scaler = MinMaxScaler()

# 데이터 변환
scaled_df_1 = Scaler.fit_transform(df_train)
scaled_df_2 = Scaler.fit_transform(df_test)

# 데이터 프레임으로 저장
scaled_df_train = pd.DataFrame(scaled_df_1, columns = df_train.columns)
scaled_df_test = pd.DataFrame(scaled_df_2, columns = df_test.columns)

# 원 핫 인코딩 된 컬럼을 train에 합치기
df_train = pd.concat([scaled_df_train,c_num_train,c_stn_train], axis=1)

# 원 핫 인코딩 된 컬럼을 test에 합치기
df_test = pd.concat([scaled_df_test,c_num_test,c_stn_test], axis=1)

# 열 이름을 문자열로 변환
df_train.columns = df_train.columns.astype(str)
df_test.columns = df_test.columns.astype(str)




In [15]:
# feature와 label 나누기
df_x_train = df_train.drop(columns=['e_elec'])
df_y_train = df_train['e_elec']
df_x_test = df_test.drop(columns=['e_elec'])
df_y_test = df_test['e_elec']



In [16]:
print(df_y_train.shape)
print(df_x_train.shape)

(58999,)
(58999, 78)
