### 데이터
* data : 한국가스공사 시간별 공급량 데이터
* seoul : 서울 시간별 기상 데이터
* parse_dates = ['']

In [1]:
import pandas as pd
import numpy as np

### 2013 ~ 2018년의 모든 시간대 총 개수 구하기

In [2]:
print("2013-01-01 ~ 2018-12-31 총 길이 : {}".format(len(pd.date_range(start = "2013-01-01 00:00:00", 
                                                                    end = "2018-12-31 23:00:00", freq = "1h"))))
for i in range(2013, 2019) :
    print("{}년 길이 : {}".format(i, len(pd.date_range(start = f"{i}-01-01 00:00:00", 
                                                    end = f"{i}-12-31 23:00:00", freq = "1h"))))

2013-01-01 ~ 2018-12-31 총 길이 : 52584
2013년 길이 : 8760
2014년 길이 : 8760
2015년 길이 : 8760
2016년 길이 : 8784
2017년 길이 : 8760
2018년 길이 : 8760


### 출력 결과 모든 컬럼 확인 가능하게 옵션 변경

In [3]:
pd.set_option("display.max_columns", None)

## 가스공급량 데이터 전처리
* parse_dates = ["연월일"] -> 시간 데이터를 변경 후 추가하기 위해 사용하지 않음

In [4]:
data = pd.read_csv("../CSV/한국가스공사_시간별_공급량_20181231.csv", encoding = 'cp949')

In [5]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 368088 entries, 0 to 368087
Data columns (total 4 columns):
 #   Column  Non-Null Count   Dtype  
---  ------  --------------   -----  
 0   연월일     368088 non-null  object 
 1   시간      368088 non-null  int64  
 2   구분      368088 non-null  object 
 3   공급량     368088 non-null  float64
dtypes: float64(1), int64(1), object(2)
memory usage: 11.2+ MB


In [6]:
data.head(3)

Unnamed: 0,연월일,시간,구분,공급량
0,2013-01-01,1,A,2497.129
1,2013-01-01,2,A,2363.265
2,2013-01-01,3,A,2258.505


In [7]:
data.groupby(["연월일", "구분"]).count().head(14)

Unnamed: 0_level_0,Unnamed: 1_level_0,시간,공급량
연월일,구분,Unnamed: 2_level_1,Unnamed: 3_level_1
2013-01-01,A,24,24
2013-01-01,B,24,24
2013-01-01,C,24,24
2013-01-01,D,24,24
2013-01-01,E,24,24
2013-01-01,G,24,24
2013-01-01,H,24,24
2013-01-02,A,24,24
2013-01-02,B,24,24
2013-01-02,C,24,24


In [8]:
data.groupby(["구분"]).count()

Unnamed: 0_level_0,연월일,시간,공급량
구분,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,52584,52584,52584
B,52584,52584,52584
C,52584,52584,52584
D,52584,52584,52584
E,52584,52584,52584
G,52584,52584,52584
H,52584,52584,52584


In [9]:
data["구분"].unique()

array(['A', 'B', 'C', 'D', 'E', 'G', 'H'], dtype=object)

### 가스공급량 데이터 날짜 데이터 타입 변경

In [10]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 368088 entries, 0 to 368087
Data columns (total 4 columns):
 #   Column  Non-Null Count   Dtype  
---  ------  --------------   -----  
 0   연월일     368088 non-null  object 
 1   시간      368088 non-null  int64  
 2   구분      368088 non-null  object 
 3   공급량     368088 non-null  float64
dtypes: float64(1), int64(1), object(2)
memory usage: 11.2+ MB


In [11]:
data["일시"] = data["연월일"] + " " + (data["시간"] - 1).astype(str) + ":00:00"
data["일시"] = pd.to_datetime(data["일시"])

In [12]:
data.head(3)

Unnamed: 0,연월일,시간,구분,공급량,일시
0,2013-01-01,1,A,2497.129,2013-01-01 00:00:00
1,2013-01-01,2,A,2363.265,2013-01-01 01:00:00
2,2013-01-01,3,A,2258.505,2013-01-01 02:00:00


In [13]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 368088 entries, 0 to 368087
Data columns (total 5 columns):
 #   Column  Non-Null Count   Dtype         
---  ------  --------------   -----         
 0   연월일     368088 non-null  object        
 1   시간      368088 non-null  int64         
 2   구분      368088 non-null  object        
 3   공급량     368088 non-null  float64       
 4   일시      368088 non-null  datetime64[ns]
dtypes: datetime64[ns](1), float64(1), int64(1), object(2)
memory usage: 14.0+ MB


### 일시 컬럼을 활용해 컬럼 추가
* year, month, day 컬럼 추가

In [14]:
data["year"] = data["일시"].dt.year
data["month"] = data["일시"].dt.month
data["day"] = data["일시"].dt.day
data["hour"] = data["일시"].dt.hour
data["weekday"] = data["일시"].dt.weekday

In [15]:
data.head(3)

Unnamed: 0,연월일,시간,구분,공급량,일시,year,month,day,hour,weekday
0,2013-01-01,1,A,2497.129,2013-01-01 00:00:00,2013,1,1,0,1
1,2013-01-01,2,A,2363.265,2013-01-01 01:00:00,2013,1,1,1,1
2,2013-01-01,3,A,2258.505,2013-01-01 02:00:00,2013,1,1,2,1


In [16]:
data = data[["연월일", "시간", "일시", "year", "month", "day", "hour", "weekday", "구분", "공급량"]]

In [17]:
data.head(3)

Unnamed: 0,연월일,시간,일시,year,month,day,hour,weekday,구분,공급량
0,2013-01-01,1,2013-01-01 00:00:00,2013,1,1,0,1,A,2497.129
1,2013-01-01,2,2013-01-01 01:00:00,2013,1,1,1,1,A,2363.265
2,2013-01-01,3,2013-01-01 02:00:00,2013,1,1,2,1,A,2258.505


In [18]:
data.to_csv("../CSV/가스공급량.csv", index = False)

## test.csv 파일 전처리

### test.csv 파일 불러오기

In [19]:
test = pd.read_csv("../CSV/가스공급량 수요예측 모델개발 data/test.csv")

In [20]:
test.head(3)

Unnamed: 0,일자|시간|구분
0,2019-01-01 01 A
1,2019-01-01 02 A
2,2019-01-01 03 A


### 컬럼 생성

In [21]:
test['일자'] = test['일자|시간|구분'].str.split(' ').str[0]
test['시간'] = test['일자|시간|구분'].str.split(' ').str[1].astype(int)
test['구분'] = test['일자|시간|구분'].str.split(' ').str[2]

test["일시"] = test["일자"] + " " + (test["시간"] - 1).astype(str) + ":00:00"
test["일시"] = pd.to_datetime(test["일시"])

test['year'] = test['일시'].dt.year
test['month'] = test['일시'].dt.month
test['day'] = test['일시'].dt.day
test['hour'] = test['일시'].dt.hour
test['weekday'] = test['일시'].dt.weekday

In [22]:
test.tail(3)

Unnamed: 0,일자|시간|구분,일자,시간,구분,일시,year,month,day,hour,weekday
15117,2019-03-31 22 H,2019-03-31,22,H,2019-03-31 21:00:00,2019,3,31,21,6
15118,2019-03-31 23 H,2019-03-31,23,H,2019-03-31 22:00:00,2019,3,31,22,6
15119,2019-03-31 24 H,2019-03-31,24,H,2019-03-31 23:00:00,2019,3,31,23,6


In [23]:
test.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15120 entries, 0 to 15119
Data columns (total 10 columns):
 #   Column    Non-Null Count  Dtype         
---  ------    --------------  -----         
 0   일자|시간|구분  15120 non-null  object        
 1   일자        15120 non-null  object        
 2   시간        15120 non-null  int64         
 3   구분        15120 non-null  object        
 4   일시        15120 non-null  datetime64[ns]
 5   year      15120 non-null  int64         
 6   month     15120 non-null  int64         
 7   day       15120 non-null  int64         
 8   hour      15120 non-null  int64         
 9   weekday   15120 non-null  int64         
dtypes: datetime64[ns](1), int64(6), object(3)
memory usage: 1.2+ MB


### 컬럼명, 컬럼 순서 변경

In [None]:
# test.columns = ['일자|시간|구분', '일자', 'hour', '구분', 'year', 'month', 'day', 'weekday']
# test = test[['일자|시간|구분', '구분', '일자', 'year', 'month', 'day', 'hour', 'weekday']]
# test.head(3)

### CSV 파일로 저장

In [24]:
test.to_csv("../CSV/new_test.csv", index = False)

## 서울 기상 데이터

In [25]:
print("2013-01-01 ~ 2018-12-31 총 길이 : {}".format(len(pd.date_range(start = "2013-01-01 00:00:00", 
                                                                    end = "2018-12-31 23:00:00", freq = "1h"))))
for i in range(2013, 2019) :
    print("{}년 길이 : {}".format(i, len(pd.date_range(start = f"{i}-01-01 00:00:00", 
                                                    end = f"{i}-12-31 23:00:00", freq = "1h"))))

2013-01-01 ~ 2018-12-31 총 길이 : 52584
2013년 길이 : 8760
2014년 길이 : 8760
2015년 길이 : 8760
2016년 길이 : 8784
2017년 길이 : 8760
2018년 길이 : 8760


### 2013년도 서울 기상 데이터 불러오기