# Raw Data

- [***raw data***](https://github.com/pinkocto/noteda/tree/main/posts/data/raw.csv)
- [***prep_data***](https://github.com/pinkocto/noteda/tree/main/posts/data/prep_data.csv)
- [***Download Link (homepage)***](https://data.kma.go.kr/data/grnd/selectAsosRltmList.do?pgmNo=36)

|file name|description|note|
|----|----|:---:|
| ***OBS_ASOS_TIM_data0.csv*** | 2021-01-01 ~ 2021-12-31 |21년 데이터셋 (1년씩 다운 가능)|
| ***OBS_ASOS_TIM_data1.csv*** | 2022-01-01 ~ 2022-12-31 |22년 데이터셋 (1년씩 다운 가능)|
| ***<font color='red'>raw.csv</font>*** | 2021-01-01 ~ 2022-12-31|21~22년 데이터셋 (위의 두개 데이터 합친 것)|
| ***<font color='blue'>prep_data.csv</font>*** | `raw.csv` 전처리한 데이터셋|
| ***<font color='red'>test_raw.csv</font>***| 2023-01-01 ~ 2023-01-15| 2주간의 데이터셋 for test (확정x)|
| ***<font color='blue'>prep_test.csv</font>*** | `test_raw.csv` 전처리한 데이터셋 | prep_data와 전처리과정 동일|


- 2021-01-01부터 2022-12-31 약 2년간의 데이터셋

- 00시부터 23시까지 1시간 간격으로 측정한 데이터셋 (08시부터 18시까지 관측된 데이터가 대다수)

- 총 49개의 지점

In [221]:
import pandas as pd
import numpy as np
import gc

In [228]:
df0 = pd.read_csv('./data/OBS_ASOS_TIM_data0.csv', encoding='cp949') # 2021-01-01 ~ 2021-12-31
df1 = pd.read_csv('./data/OBS_ASOS_TIM_data1.csv') # 2022-01-01 ~ 2023-12-31
df2 = pd.read_csv('./data/test_raw.csv', encoding='cp949') # 2023-01-01 ~ 2023-01-15

In [229]:
# # dtype 변환 및 hour변수 생성.
# df1['일시'] = pd.to_datetime(df1['일시'])
# df1['Datetime'] = df1['일시'].dt.date
# df1['hour'] = df1['일시'].dt.hour
# df1.head()

In [262]:
# import datetime
# df1 = df1[df1['Datetime'] != datetime.date(2023, 1, 1)]
# df1 = df1.drop(['Datetime', 'hour'], axis=1)
# df1.to_csv('./data/OBS_ASOS_TIM_data1.csv', index=False)

In [267]:
df_raw = pd.concat([df0, df1])
df_raw.head()

Unnamed: 0,지점,지점명,일시,일사(MJ/m2)
0,93,북춘천,2021-01-01 08:00,0.0
1,93,북춘천,2021-01-01 09:00,0.37
2,93,북춘천,2021-01-01 10:00,0.96
3,93,북춘천,2021-01-01 11:00,1.4
4,93,북춘천,2021-01-01 12:00,1.72


In [268]:
df_raw.shape

(444720, 4)

In [270]:
# 2021-01-01 ~ 2023-01-01 dataset (2 years)
# df_raw.to_csv('./data/raw.csv', index=False)

# 전처리 내용

|기준변수명|처리내용|비고|
|:---|:---|:---|
|일시|일자 변수로부터 Datetime, hour 변수 생성|Datetime 일자 변수를 날짜형으로 변환(YYYY-MM-DD), hour(시간만)|
|지점명|제천지점에서 측정된 관측치($1$개) 제거|지점명과 지점은 동일|
|지점명|파주, 상주, 동두천 지점은 2021-10-12일 이전의 기록은 보유하고 있지 않음.|파주, 상주, 동두천 데이터 제거 (약 10개월 간의 데이터가 비어있음)|
|지점명|충주는 2021-11-18일 이전의 기록은 보유하고 있지 않음.|충주 데이터 제거 (위와 동일)|
|hour(파생)|08~18시까지 필터링|05시부터 21시까지 기록이 일부 있긴 함.|

## 데이터 탐색 (for preprocessing)

In [271]:
gc.collect()

38

### 관측지점 수 

In [272]:
# 관측지점 수
len(df0['지점'].unique()), len(df1['지점'].unique())

(48, 49)

22년도에 관측지점이 하나 더 추가된 듯하다..

In [273]:
set(df1['지점명'].unique()) - (set(df0['지점명'].unique()) & set(df1['지점명'].unique()))

{'제천'}

In [274]:
df1[df1['지점명']=='제천']  # 관측기록이 1회밖에 없다.

Unnamed: 0,지점,지점명,일시,일사(MJ/m2)
167426,221,제천,2022-10-27 07:00:00,0.0


제천에서 관측된 값이 하나밖에 없으므로 제거해주는 것이 좋을 듯 하다.

In [275]:
df0['지점명'].unique(),  df1['지점명'].unique()

(array(['북춘천', '철원', '동두천', '파주', '대관령', '춘천', '백령도', '북강릉', '강릉', '서울',
        '인천', '원주', '울릉도', '수원', '충주', '서산', '청주', '대전', '추풍령', '안동', '상주',
        '포항', '대구', '전주', '창원', '광주', '부산', '목포', '여수', '흑산도', '고창', '홍성',
        '제주', '고산', '진주', '고창군', '영광군', '김해시', '순창군', '북창원', '양산시', '보성군',
        '강진군', '의령군', '함양군', '광양시', '청송군', '경주시'], dtype=object),
 array(['북춘천', '철원', '동두천', '파주', '대관령', '춘천', '백령도', '북강릉', '강릉', '서울',
        '인천', '원주', '울릉도', '수원', '충주', '서산', '청주', '대전', '추풍령', '안동', '상주',
        '포항', '대구', '전주', '창원', '광주', '부산', '목포', '여수', '흑산도', '고창', '홍성',
        '제주', '고산', '진주', '제천', '고창군', '영광군', '김해시', '순창군', '북창원', '양산시',
        '보성군', '강진군', '의령군', '함양군', '광양시', '청송군', '경주시'], dtype=object))

### 날짜형 변환 및 Datetime, hour 변수 생성

In [276]:
# dtype 변환 및 hour변수 생성.
df_raw['일시'] = pd.to_datetime(df_raw['일시'])
df_raw['Datetime'] = df_raw['일시'].dt.date
df_raw['hour'] = df_raw['일시'].dt.hour
df_raw.head()

Unnamed: 0,지점,지점명,일시,일사(MJ/m2),Datetime,hour
0,93,북춘천,2021-01-01 08:00:00,0.0,2021-01-01,8
1,93,북춘천,2021-01-01 09:00:00,0.37,2021-01-01,9
2,93,북춘천,2021-01-01 10:00:00,0.96,2021-01-01,10
3,93,북춘천,2021-01-01 11:00:00,1.4,2021-01-01,11
4,93,북춘천,2021-01-01 12:00:00,1.72,2021-01-01,12


In [277]:
df_raw.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 444720 entries, 0 to 229676
Data columns (total 6 columns):
 #   Column     Non-Null Count   Dtype         
---  ------     --------------   -----         
 0   지점         444720 non-null  int64         
 1   지점명        444720 non-null  object        
 2   일시         444720 non-null  datetime64[ns]
 3   일사(MJ/m2)  444720 non-null  float64       
 4   Datetime   444720 non-null  object        
 5   hour       444720 non-null  int64         
dtypes: datetime64[ns](1), float64(1), int64(2), object(2)
memory usage: 23.8+ MB


In [278]:
df_raw.shape[0]/df_raw['지점명'].nunique() # 지점하나당 9000개 정도의 관측치가 있음.

9075.918367346938

### 시간대별 관측치 수 

In [279]:
df_raw['hour'].value_counts().sort_index()

0       114
1       114
2       114
3       114
4       114
5       186
6     12896
7     23300
8     33764
9     33779
10    33780
11    33763
12    33768
13    33773
14    33773
15    33772
16    33783
17    33759
18    33737
19    22851
20    13032
21      206
22      114
23      114
Name: hour, dtype: int64

00시부터 23시까지 필터링해서 홈페이지에서 다운받아왔지만 대다수 데이터가 08시~18시까지 관측되어있음.

### 지점별 관측치 수 (2021-01-01 ~ 2023-01-01)

In [280]:
pd.DataFrame(df_raw['지점명'].value_counts())

Unnamed: 0,지점명
백령도,9673
울릉도,9608
창원,9595
의령군,9594
북강릉,9592
강진군,9591
제주,9591
대구,9591
목포,9587
북창원,9586


In [281]:
365*2*11 # 11시간관측을 기준으로 했을 때 지점당 관측치 개수..

8030

대다수 지점에서 2년간 약 9500건 관측되었지만, 파주, 상주, 동두천, 충주, 제천(1)은 다른지점에 비해 관측치가 적음.

### 파주, 상주, 동두천

In [282]:
df_raw.head() ## 북춘천

Unnamed: 0,지점,지점명,일시,일사(MJ/m2),Datetime,hour
0,93,북춘천,2021-01-01 08:00:00,0.0,2021-01-01,8
1,93,북춘천,2021-01-01 09:00:00,0.37,2021-01-01,9
2,93,북춘천,2021-01-01 10:00:00,0.96,2021-01-01,10
3,93,북춘천,2021-01-01 11:00:00,1.4,2021-01-01,11
4,93,북춘천,2021-01-01 12:00:00,1.72,2021-01-01,12


In [283]:
df_raw[df_raw['지점명']=='파주'].iloc[[0]] 

Unnamed: 0,지점,지점명,일시,일사(MJ/m2),Datetime,hour
10961,99,파주,2021-10-12,0.0,2021-10-12,0


In [284]:
df_raw[df_raw['지점명']=='상주'].iloc[[0]]

Unnamed: 0,지점,지점명,일시,일사(MJ/m2),Datetime,hour
84525,137,상주,2021-10-12,0.0,2021-10-12,0


In [285]:
df_raw[df_raw['지점명']=='동두천'].iloc[[0]]

Unnamed: 0,지점,지점명,일시,일사(MJ/m2),Datetime,hour
9583,98,동두천,2021-10-12,0.0,2021-10-12,0


### 충주

In [286]:
df_raw[df_raw['지점명']=='충주'].iloc[[0]]

Unnamed: 0,지점,지점명,일시,일사(MJ/m2),Datetime,hour
60308,127,충주,2021-11-18 18:00:00,0.0,2021-11-18,18


### 제천

In [287]:
df_raw[df_raw['지점명']=='제천']

Unnamed: 0,지점,지점명,일시,일사(MJ/m2),Datetime,hour
167426,221,제천,2022-10-27 07:00:00,0.0,2022-10-27,7


> 보유기간 1904년 4월 ~ 현재 (지점별 상이함) 

- 파주, 상주, 동두천 지점은 2021-10-12일 이전의 기록은 보유하고 있지 않음.
- 충주는 2021-11-18일 이전의 기록은 보유하고 있지 않음.
- 제천은 2022-10-27일 단 하루만의 기록만 있음.

- ref: https://minwon.kma.go.kr/main/obvStn.do
- ref: https://data.kma.go.kr/data/grnd/selectAsosRltmList.do?pgmNo=36

---

## 데이터 처리 및 csv파일로 내보내기

### 제천, 파주, 상주, 동두천 제거

In [288]:
df_prep1 = df_raw[~df_raw['지점명'].str.contains('제천|파주|상주|동두천|충주')]

### 관측시간 08시 ~ 18시

In [289]:
df_prep1[(df_prep1['hour']>=8) & (df_prep1['hour'] <= 18)]

Unnamed: 0,지점,지점명,일시,일사(MJ/m2),Datetime,hour
0,93,북춘천,2021-01-01 08:00:00,0.00,2021-01-01,8
1,93,북춘천,2021-01-01 09:00:00,0.37,2021-01-01,9
2,93,북춘천,2021-01-01 10:00:00,0.96,2021-01-01,10
3,93,북춘천,2021-01-01 11:00:00,1.40,2021-01-01,11
4,93,북춘천,2021-01-01 12:00:00,1.72,2021-01-01,12
...,...,...,...,...,...,...
229672,283,경주시,2022-12-31 14:00:00,1.82,2022-12-31,14
229673,283,경주시,2022-12-31 15:00:00,1.52,2022-12-31,15
229674,283,경주시,2022-12-31 16:00:00,0.96,2022-12-31,16
229675,283,경주시,2022-12-31 17:00:00,0.35,2022-12-31,17


In [290]:
df_prep1[(df_prep1['hour']>=8) & (df_prep1['hour'] <= 18)]['hour'].value_counts().sort_index()

8     32025
9     32038
10    32036
11    32020
12    32025
13    32028
14    32029
15    32028
16    32039
17    32017
18    31994
Name: hour, dtype: int64

In [291]:
df_prep2 = df_prep1[(df_prep1['hour']>=8) & (df_prep1['hour'] <= 18)]
df_prep2.head()

Unnamed: 0,지점,지점명,일시,일사(MJ/m2),Datetime,hour
0,93,북춘천,2021-01-01 08:00:00,0.0,2021-01-01,8
1,93,북춘천,2021-01-01 09:00:00,0.37,2021-01-01,9
2,93,북춘천,2021-01-01 10:00:00,0.96,2021-01-01,10
3,93,북춘천,2021-01-01 11:00:00,1.4,2021-01-01,11
4,93,북춘천,2021-01-01 12:00:00,1.72,2021-01-01,12


In [292]:
df_prep2['지점명'].nunique()

44

In [293]:
df_prep2['지점명'].value_counts()

북춘천    8030
북강릉    8030
철원     8030
강진군    8030
백령도    8029
의령군    8029
홍성     8029
목포     8028
창원     8028
춘천     8027
제주     8026
원주     8026
대구     8026
서울     8025
북창원    8023
여수     8023
함양군    8023
대관령    8022
포항     8021
보성군    8021
인천     8019
청송군    8019
서산     8019
김해시    8018
고산     8018
경주시    8018
수원     8014
광양시    8012
안동     8012
순창군    8012
고창군    8011
청주     8009
추풍령    8007
전주     8006
영광군    8001
진주     7999
부산     7989
양산시    7987
고창     7981
울릉도    7974
광주     7925
강릉     7920
흑산도    7896
대전     7887
Name: 지점명, dtype: int64

In [294]:
df_prep2.to_csv('./data/prep_data.csv', index=False)

## 테스트용 데이터 전처리

In [300]:
# df2 = pd.read_csv('./data/test_raw.csv', encoding='cp949')
gc.collect()

1258

In [301]:
# dtype 변환 및 hour변수 생성.
df2['일시'] = pd.to_datetime(df2['일시'])
df2['Datetime'] = df2['일시'].dt.date
df2['hour'] = df2['일시'].dt.hour
df2.head()

Unnamed: 0,지점,지점명,일시,일사(MJ/m2),Datetime,hour
0,93,북춘천,2023-01-01 08:00:00,0.0,2023-01-01,8
1,93,북춘천,2023-01-01 09:00:00,0.32,2023-01-01,9
2,93,북춘천,2023-01-01 10:00:00,0.9,2023-01-01,10
3,93,북춘천,2023-01-01 11:00:00,1.73,2023-01-01,11
4,93,북춘천,2023-01-01 12:00:00,1.86,2023-01-01,12


In [303]:
df2 = df2[~df2['지점명'].str.contains('제천|파주|상주|동두천|충주')]

In [304]:
df2 = df2[(df2['hour']>=8) & (df2['hour'] <= 18)]
df2.head()

Unnamed: 0,지점,지점명,일시,일사(MJ/m2),Datetime,hour
0,93,북춘천,2023-01-01 08:00:00,0.0,2023-01-01,8
1,93,북춘천,2023-01-01 09:00:00,0.32,2023-01-01,9
2,93,북춘천,2023-01-01 10:00:00,0.9,2023-01-01,10
3,93,북춘천,2023-01-01 11:00:00,1.73,2023-01-01,11
4,93,북춘천,2023-01-01 12:00:00,1.86,2023-01-01,12


In [307]:
df2['hour'].value_counts()

9     660
10    660
11    660
13    660
14    660
15    660
12    659
16    659
17    659
18    659
8     653
Name: hour, dtype: int64

In [309]:
# df2.to_csv('./data/prep_test.csv',index=False)