### 데이터
* data : 한국가스공사 시간별 공급량 데이터
* gn : 강릉 시간별 기상 데이터
* parse_dates=['구매일']

In [85]:
import pandas as pd
import numpy as np

In [2]:
print("2013-01-01 ~ 2018-12-31 총 길이 : {}".format(len(pd.date_range(start = "2013-01-01 00:00:00", 
                                                                    end = "2018-12-31 23:00:00", freq = "1h"))))
for i in range(2013, 2019) :
    print("{}년 길이 : {}".format(i, len(pd.date_range(start = f"{i}-01-01 00:00:00", 
                                                    end = f"{i}-12-31 23:00:00", freq = "1h"))))

2013-01-01 ~ 2018-12-31 총 길이 : 52584
2013년 길이 : 8760
2014년 길이 : 8760
2015년 길이 : 8760
2016년 길이 : 8784
2017년 길이 : 8760
2018년 길이 : 8760


In [3]:
pd.set_option("display.max_columns", None)

### 가스공급량 데이터

In [4]:
data = pd.read_csv("../CSV/한국가스공사_시간별_공급량_20181231.csv", encoding = 'cp949')

In [5]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 368088 entries, 0 to 368087
Data columns (total 4 columns):
 #   Column  Non-Null Count   Dtype  
---  ------  --------------   -----  
 0   연월일     368088 non-null  object 
 1   시간      368088 non-null  int64  
 2   구분      368088 non-null  object 
 3   공급량     368088 non-null  float64
dtypes: float64(1), int64(1), object(2)
memory usage: 11.2+ MB


In [6]:
data.head(3)

Unnamed: 0,연월일,시간,구분,공급량
0,2013-01-01,1,A,2497.129
1,2013-01-01,2,A,2363.265
2,2013-01-01,3,A,2258.505


In [7]:
data.groupby(["연월일", "구분"]).count()

Unnamed: 0_level_0,Unnamed: 1_level_0,시간,공급량
연월일,구분,Unnamed: 2_level_1,Unnamed: 3_level_1
2013-01-01,A,24,24
2013-01-01,B,24,24
2013-01-01,C,24,24
2013-01-01,D,24,24
2013-01-01,E,24,24
...,...,...,...
2018-12-31,C,24,24
2018-12-31,D,24,24
2018-12-31,E,24,24
2018-12-31,G,24,24


In [8]:
data.groupby(["구분"]).count()

Unnamed: 0_level_0,연월일,시간,공급량
구분,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,52584,52584,52584
B,52584,52584,52584
C,52584,52584,52584
D,52584,52584,52584
E,52584,52584,52584
G,52584,52584,52584
H,52584,52584,52584


In [9]:
data["구분"].unique()

array(['A', 'B', 'C', 'D', 'E', 'G', 'H'], dtype=object)

### 가스공급량 데이터 날짜 데이터 타입 변경

In [10]:
data.head(3)

Unnamed: 0,연월일,시간,구분,공급량
0,2013-01-01,1,A,2497.129
1,2013-01-01,2,A,2363.265
2,2013-01-01,3,A,2258.505


In [11]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 368088 entries, 0 to 368087
Data columns (total 4 columns):
 #   Column  Non-Null Count   Dtype  
---  ------  --------------   -----  
 0   연월일     368088 non-null  object 
 1   시간      368088 non-null  int64  
 2   구분      368088 non-null  object 
 3   공급량     368088 non-null  float64
dtypes: float64(1), int64(1), object(2)
memory usage: 11.2+ MB


In [12]:
data["일시"] = data["연월일"] + " " + (data["시간"] - 1).astype(str) + ":00:00"
# data["date"] = data["연월일"] + " " + data["시간"].astype(str) + ":00:00"

In [13]:
data.head(3)

Unnamed: 0,연월일,시간,구분,공급량,일시
0,2013-01-01,1,A,2497.129,2013-01-01 0:00:00
1,2013-01-01,2,A,2363.265,2013-01-01 1:00:00
2,2013-01-01,3,A,2258.505,2013-01-01 2:00:00


In [14]:
data["일시"] = pd.to_datetime(data["일시"])

In [15]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 368088 entries, 0 to 368087
Data columns (total 5 columns):
 #   Column  Non-Null Count   Dtype         
---  ------  --------------   -----         
 0   연월일     368088 non-null  object        
 1   시간      368088 non-null  int64         
 2   구분      368088 non-null  object        
 3   공급량     368088 non-null  float64       
 4   일시      368088 non-null  datetime64[ns]
dtypes: datetime64[ns](1), float64(1), int64(1), object(2)
memory usage: 14.0+ MB


In [16]:
data["year"] = data["일시"].dt.year
data["month"] = data["일시"].dt.month
data["day"] = data["일시"].dt.day

In [17]:
data = data[["연월일", "시간", "일시", "year", "month", "day", "구분", "공급량"]]
data.head(3)

Unnamed: 0,연월일,시간,일시,year,month,day,구분,공급량
0,2013-01-01,1,2013-01-01 00:00:00,2013,1,1,A,2497.129
1,2013-01-01,2,2013-01-01 01:00:00,2013,1,1,A,2363.265
2,2013-01-01,3,2013-01-01 02:00:00,2013,1,1,A,2258.505


In [18]:
data.to_csv("../CSV/가스공급량.csv", index = False)

### 기상 데이터

In [23]:
print("2013-01-01 ~ 2018-12-31 총 길이 : {}".format(len(pd.date_range(start = "2013-01-01 00:00:00", 
                                                                    end = "2018-12-31 23:00:00", freq = "1h"))))
for i in range(2013, 2019) :
    print("{}년 길이 : {}".format(i, len(pd.date_range(start = f"{i}-01-01 00:00:00", 
                                                    end = f"{i}-12-31 23:00:00", freq = "1h"))))

2013-01-01 ~ 2018-12-31 총 길이 : 52584
2013년 길이 : 8760
2014년 길이 : 8760
2015년 길이 : 8760
2016년 길이 : 8784
2017년 길이 : 8760
2018년 길이 : 8760


### 2013년도 서울 기상 데이터 불러오기

In [68]:
seoul = pd.read_csv("../CSV/서울 기상 데이터/2013_seoul_weather.csv", encoding = 'cp949')

In [69]:
seoul.head(3)

Unnamed: 0,지점,지점명,일시,기온(°C),기온 QC플래그,강수량(mm),강수량 QC플래그,풍속(m/s),풍속 QC플래그,풍향(16방위),풍향 QC플래그,습도(%),습도 QC플래그,증기압(hPa),이슬점온도(°C),현지기압(hPa),현지기압 QC플래그,해면기압(hPa),해면기압 QC플래그,일조(hr),일조 QC플래그,일사(MJ/m2),일사 QC플래그,적설(cm),3시간신적설(cm),전운량(10분위),중하층운량(10분위),운형(운형약어),최저운고(100m ),시정(10m),지면상태(지면상태코드),현상번호(국내식),지면온도(°C),지면온도 QC플래그,5cm 지중온도(°C),10cm 지중온도(°C),20cm 지중온도(°C),30cm 지중온도(°C)
0,108,서울,2013-01-01 00:00,-8.3,0,,,3.6,0,50,0,56.0,0,1.8,-15.5,1010.3,0,1021.5,0,,9,,9,6.4,,3.0,3.0,Sc,10.0,2000.0,,,-3.3,0,-2.9,-1.6,-0.5,0.3
1,108,서울,2013-01-01 01:00,-8.5,0,,,4.0,0,50,0,57.0,0,1.8,-15.5,1010.0,0,1021.2,0,,9,,9,6.4,,,,,,,,,-3.4,0,-2.9,-1.6,-0.5,0.3
2,108,서울,2013-01-01 02:00,-8.4,0,,,4.0,0,70,0,60.0,0,2.0,-14.7,1009.4,0,1020.6,0,,9,,9,6.4,,,,,,,,,-3.4,0,-3.0,-1.6,-0.5,0.4


In [70]:
seoul.tail(3)

Unnamed: 0,지점,지점명,일시,기온(°C),기온 QC플래그,강수량(mm),강수량 QC플래그,풍속(m/s),풍속 QC플래그,풍향(16방위),풍향 QC플래그,습도(%),습도 QC플래그,증기압(hPa),이슬점온도(°C),현지기압(hPa),현지기압 QC플래그,해면기압(hPa),해면기압 QC플래그,일조(hr),일조 QC플래그,일사(MJ/m2),일사 QC플래그,적설(cm),3시간신적설(cm),전운량(10분위),중하층운량(10분위),운형(운형약어),최저운고(100m ),시정(10m),지면상태(지면상태코드),현상번호(국내식),지면온도(°C),지면온도 QC플래그,5cm 지중온도(°C),10cm 지중온도(°C),20cm 지중온도(°C),30cm 지중온도(°C)
8757,108,서울,2013-12-31 21:00,4.9,0,,,3.9,0,270,0,64.0,0,5.6,-1.3,999.6,0,1010.1,0,,9,,9,,,6.0,6.0,Sc,10.0,600.0,1.0,40.0,0.1,0,0.2,-0.2,0.0,1.5
8758,108,서울,2013-12-31 22:00,4.2,0,,,3.6,0,270,0,62.0,0,5.1,-2.4,1000.4,0,1011.0,0,,9,,9,,,,,,,,,40.0,0.1,0,0.2,-0.2,0.0,1.5
8759,108,서울,2013-12-31 23:00,3.7,0,,,3.2,0,250,0,61.0,0,4.9,-3.1,1001.2,0,1011.8,0,,9,,9,,,,,,,,,40.0,0.1,0,0.2,-0.2,0.1,1.5


### 2013년 데이터에 2014 ~ 2018년도 서울 기상 데이터 병합

In [71]:
for i in range(2014, 2019) :
    path = "../CSV/서울 기상 데이터/" + str(i) + "_seoul_weather.csv"
#     print(path)
    temp = pd.read_csv(path, encoding = 'cp949')
    
    seoul = pd.concat([seoul, temp], ignore_index = True)
    
    print(f"{i} temp shape : {temp.shape}")

2014 temp shape : (8760, 38)
2015 temp shape : (8760, 38)
2016 temp shape : (8784, 38)
2017 temp shape : (8760, 38)
2018 temp shape : (8760, 38)


In [72]:
seoul.shape

(52584, 38)

In [73]:
seoul.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 52584 entries, 0 to 52583
Data columns (total 38 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   지점             52584 non-null  int64  
 1   지점명            52584 non-null  object 
 2   일시             52584 non-null  object 
 3   기온(°C)         52578 non-null  float64
 4   기온 QC플래그       51095 non-null  float64
 5   강수량(mm)        4944 non-null   float64
 6   강수량 QC플래그      13808 non-null  float64
 7   풍속(m/s)        52538 non-null  float64
 8   풍속 QC플래그       50893 non-null  float64
 9   풍향(16방위)       52478 non-null  float64
 10  풍향 QC플래그       50893 non-null  float64
 11  습도(%)          52537 non-null  float64
 12  습도 QC플래그       51095 non-null  float64
 13  증기압(hPa)       52572 non-null  float64
 14  이슬점온도(°C)      52554 non-null  float64
 15  현지기압(hPa)      52527 non-null  float64
 16  현지기압 QC플래그     51095 non-null  float64
 17  해면기압(hPa)      52579 non-null  float64
 18  해면기압 Q

### 기온(°C) 컬럼 결측치 확인

In [74]:
# gn.loc[gn["기온(°C)"].isnull(), "기온(°C)"]
# gn.loc[1805 : 1809, ["일시", "기온(°C)"]]
# gn.loc[8830 : 8837, ["일시", "기온(°C)"]]
seoul.loc[seoul["기온(°C)"].isnull(), "기온(°C)"]

17520   NaN
41513   NaN
41895   NaN
41896   NaN
41897   NaN
51810   NaN
Name: 기온(°C), dtype: float64

### 17520 결측치 제거
* 17519, 17521 평균으로 대체

In [75]:
seoul.loc[17518 : 17522, ["일시", "기온(°C)"]]

Unnamed: 0,일시,기온(°C)
17518,2014-12-31 22:00,-5.4
17519,2014-12-31 23:00,-6.2
17520,2015-01-01 00:00,
17521,2015-01-01 01:00,-7.4
17522,2015-01-01 02:00,-8.0


In [126]:
print("17519 : {}".format(seoul.loc[17519, "기온(°C)"]))
print("17520 : {}".format(seoul.loc[17520, "기온(°C)"]))
print("17521 : {}".format(seoul.loc[17521, "기온(°C)"]))

17519 : -6.2
17520 : nan
17521 : -7.4


In [127]:
seoul.loc[17520, ["일시", "기온(°C)"]]

일시        2015-01-01 00:00
기온(°C)                 NaN
Name: 17520, dtype: object

In [133]:
temperature = np.array([seoul.loc[17519, "기온(°C)"], seoul.loc[17521, "기온(°C)"]]).mean()
seoul.loc[17520, "기온(°C)"] = round(temperature, 1)
seoul.loc[17520, "기온(°C)"]

-6.8

In [134]:
print("17519 : {}".format(seoul.loc[17519, "기온(°C)"]))
print("17520 : {}".format(seoul.loc[17520, "기온(°C)"]))
print("17521 : {}".format(seoul.loc[17521, "기온(°C)"]))

17519 : -6.2
17520 : -6.8
17521 : -7.4


### 41513 결측치 제거
* 41512, 41514 평균으로 대체

In [76]:
seoul.loc[41511 : 41515, ["일시", "기온(°C)"]]

Unnamed: 0,일시,기온(°C)
41511,2017-09-26 15:00,31.1
41512,2017-09-26 16:00,30.4
41513,2017-09-26 17:00,
41514,2017-09-26 18:00,27.9
41515,2017-09-26 19:00,26.4


In [135]:
print("41512 : {}".format(seoul.loc[41512, "기온(°C)"]))
print("41513 : {}".format(seoul.loc[41513, "기온(°C)"]))
print("41514 : {}".format(seoul.loc[41514, "기온(°C)"]))

41512 : 30.4
41513 : nan
41514 : 27.9


In [136]:
seoul.loc[41513, ["일시", "기온(°C)"]]

일시        2017-09-26 17:00
기온(°C)                 NaN
Name: 41513, dtype: object

In [137]:
temperature = np.array([seoul.loc[41512, "기온(°C)"], seoul.loc[41514, "기온(°C)"]]).mean()
seoul.loc[41513, "기온(°C)"] = round(temperature, 1)
seoul.loc[41513, "기온(°C)"]

29.2

In [138]:
print("41512 : {}".format(seoul.loc[41512, "기온(°C)"]))
print("41513 : {}".format(seoul.loc[41513, "기온(°C)"]))
print("41514 : {}".format(seoul.loc[41514, "기온(°C)"]))

41512 : 30.4
41513 : 29.2
41514 : 27.9


### 41895, 41896, 41897 결측치 제거
* 41894와 41898 사이의 일정한 비율로 커지는 3개의 값 찾아 대체
* (41898 - 41894) / 4
* 위 값을 41894에 일정하게 더한 값으로 대체

In [77]:
seoul.loc[41893 : 41900, ["일시", "기온(°C)"]]

Unnamed: 0,일시,기온(°C)
41893,2017-10-12 13:00,13.5
41894,2017-10-12 14:00,13.7
41895,2017-10-12 15:00,
41896,2017-10-12 16:00,
41897,2017-10-12 17:00,
41898,2017-10-12 18:00,12.8
41899,2017-10-12 19:00,11.5
41900,2017-10-12 20:00,10.6


In [125]:
seoul.loc[33133 : 33140, ["일시", "기온(°C)"]]

Unnamed: 0,일시,기온(°C)
33133,2016-10-12 13:00,19.3
33134,2016-10-12 14:00,20.2
33135,2016-10-12 15:00,20.6
33136,2016-10-12 16:00,19.5
33137,2016-10-12 17:00,18.9
33138,2016-10-12 18:00,17.0
33139,2016-10-12 19:00,15.9
33140,2016-10-12 20:00,15.1


In [149]:
temp = round((seoul.loc[41894, "기온(°C)"] - seoul.loc[41898, "기온(°C)"]) / 4, 1)
temp

0.2

In [150]:
a = seoul.loc[41894, "기온(°C)"]
for i in range(3) :
    a = round(a - 0.2, 1)
    print(a)

13.5
13.3
13.1


### 51810 결측치 제거
* 51809, 51811 평균으로 대체

In [78]:
seoul.loc[51808 : 51812, ["일시", "기온(°C)"]]

Unnamed: 0,일시,기온(°C)
51808,2018-11-29 16:00,5.8
51809,2018-11-29 17:00,5.8
51810,2018-11-29 18:00,
51811,2018-11-29 19:00,5.2
51812,2018-11-29 20:00,4.1


In [79]:
seoul.loc[51808, ["일시", "기온(°C)"]]

일시        2018-11-29 16:00
기온(°C)                 5.8
Name: 51808, dtype: object

In [104]:
print("51809 : {}".format(seoul.loc[51809, "기온(°C)"]))
print("51810 : {}".format(seoul.loc[51810, "기온(°C)"]))
print("51811 : {}".format(seoul.loc[51811, "기온(°C)"]))

51809 : 5.8
51810 : nan
51811 : 5.2


In [109]:
seoul.loc[51810, "기온(°C)"] = np.array([seoul.loc[51809, "기온(°C)"], seoul.loc[51811, "기온(°C)"]]).mean()
seoul.loc[51810, "기온(°C)"]

5.5

In [112]:
# (seoul.loc[51809, "기온(°C)"] + seoul.loc[51811, "기온(°C)"]) / 2
# np.mean([[seoul.loc[51809, "기온(°C)"]], [seoul.loc[51811, "기온(°C)"]]])
# arr = np.array([seoul.loc[51809, "기온(°C)"], seoul.loc[51811, "기온(°C)"]])
# arr.mean()
# np.array([seoul.loc[51809, "기온(°C)"], seoul.loc[51811, "기온(°C)"]]).mean()

In [113]:
print("51809 : {}".format(seoul.loc[51809, "기온(°C)"]))
print("51810 : {}".format(seoul.loc[51810, "기온(°C)"]))
print("51811 : {}".format(seoul.loc[51811, "기온(°C)"]))

51809 : 5.8
51810 : 5.5
51811 : 5.2
