# NCEI
- 월평균 활용
- https://apihub.kma.go.kr/
    - 세계기상 > NCEI 관측.통계 > 3. 전세계 지상관측(월통계) : 1763년~2022년
    - ※ NCEI(National Centers for Environmental Information, 국립환경정보센터)는 미국 NOAA의 소속된 기관으로 전세계 기상기후데이터를 수집·제공합니다.
    - ※ 모든 자료가 2022년 12월 까지 존재합니다.
## 참고 자료
- document 파일
    - 자료 소개서
        - GSOM_readme.txt
    - 자료 설명서
        - GSOM_documentation.pdf
    - 연/월 통합 상세 설명서
        - GSOM_GSOY_Description_Document_v1.0.2_20200219.pdf
- 지점정보
    - 링크 내용은 동일함
    - https://www.ncei.noaa.gov/pub/data/noaa/isd-history.txt(내용확인)
    - https://www.ncei.noaa.gov/pub/data/noaa/isd-history.csv(파일다운로드)
- 국가 코드
    - Country list
        - 국가명과 국가 2글자 표현 짝 정리된 것
        - 후에 요청인자 중 stn 구성요소인 지점코드값의 국가 부분을 해석하는데에 사용
- 파일 리스트
    - File list
        - 파일목록
        - 파일명과 파일 크기가 나열됨
        - 후술될 요청인자 중 stn의 구성요소인 지점코드 값으로 활용할 수 있음
            - 국가 2글자, 망구분 1글자, 지점번호 9글자를 가져올 소스
## 참고 사이트
- 바이너리 변환: https://m.blog.naver.com/errorsoft666/222132918275
- 

## 활용 library

In [1]:
import pandas as pd
import numpy as np
import io
import requests
import urllib.request
from urllib.request import urlopen
import json

In [2]:
# 개인 고유 인증키
# 각자 버전 활용해야 함
AUTH = "qMxND5LRQKCMTQ-S0dCgNw"

In [3]:
# 파일 저장하는 함수
def download_file(file_url, save_path):
    with open(save_path, 'wb') as f: # 저장할 파일을 바이너리 쓰기 모드로 열기
        response = requests.get(file_url) # 파일 URL에 GET 요청 보내기
        f.write(response.content) # 응답의 내용을 파일에 쓰기

## Country list
- country-list.txt 파일을 불러와 DF로 정리
- csv로 저장하기

In [4]:
dfCountry = pd.read_table("rawdata_climate/country-list.txt", sep = '    ', encoding = 'euc-kr', engine = 'python')
dfCountry

Unnamed: 0,FIPS ID,COUNTRY NAME
AA,,ARUBA
AC,,ANTIGUA AND BARBUDA
AF,,AFGHANISTAN
AG,,ALGERIA
AI,,ASCENSION ISLAND
...,...,...
YY,,"ST. MARTEEN, ST. EUSTATIUS, AND SABA"
ZA,,ZAMBIA
ZI,,ZIMBABWE
ZM,,SAMOA


In [5]:
dfCountry.reset_index(inplace = True)
dfCountry['FIPS ID'] = dfCountry['index']
dfCountry.drop('index', inplace = True, axis = 1)

In [6]:
dfCountry

Unnamed: 0,FIPS ID,COUNTRY NAME
0,AA,ARUBA
1,AC,ANTIGUA AND BARBUDA
2,AF,AFGHANISTAN
3,AG,ALGERIA
4,AI,ASCENSION ISLAND
...,...,...
288,YY,"ST. MARTEEN, ST. EUSTATIUS, AND SABA"
289,ZA,ZAMBIA
290,ZI,ZIMBABWE
291,ZM,SAMOA


In [7]:
dfCountry.to_csv('data_climate/country_list.csv', index = False)

## 전세계 지상관측(월통계) : 1763년~2022년
- filelist 내용
--------------------------------------------------------------------------------------------------
미국 NCEI 전세계 지상관측 월통계의 연도별 파일목록  
예) http://api.kma.go.kr/url/ncei_gsom_list.php
--------------------------------------------------------------------------------------------------
1. FILE : file name (지점코드.csv)
2. SIZE : file size (bytes)
--------------------------------------------------------------------------------------------------
FILE,SIZE

In [9]:
# URL과 저장 경로 변수를 지정합니다.
url = "https://apihub.kma.go.kr/api/typ01/url/ncei_gsom_list.php?authKey=" + AUTH
save_file_path = 'rawdata_climate/filelist.txt'

# 파일 다운로드 함수를 호출합니다.
download_file(url, save_file_path)

In [10]:
dfFileList = pd.read_table("rawdata_climate/filelist.txt", sep = ',', header = 7,
                           encoding = 'euc-kr', engine = 'python', )
dfFileList

Unnamed: 0,# FILE,SIZE
0,gsom_ACW00011604.csv,4036
1,gsom_ACW00011647.csv,34313
2,gsom_AE000041196.csv,130742
3,gsom_AEM00041194.csv,100242
4,gsom_AEM00041217.csv,85259
...,...,...
122231,gsom_ZI000067965.csv,114617
122232,gsom_ZI000067969.csv,116596
122233,gsom_ZI000067975.csv,200883
122234,gsom_ZI000067977.csv,84153


In [11]:
dfFileList.columns = ["FILE", "SIZE"]
dfFileList

Unnamed: 0,FILE,SIZE
0,gsom_ACW00011604.csv,4036
1,gsom_ACW00011647.csv,34313
2,gsom_AE000041196.csv,130742
3,gsom_AEM00041194.csv,100242
4,gsom_AEM00041217.csv,85259
...,...,...
122231,gsom_ZI000067965.csv,114617
122232,gsom_ZI000067969.csv,116596
122233,gsom_ZI000067975.csv,200883
122234,gsom_ZI000067977.csv,84153


In [12]:
len('ACW00011604')

11

In [13]:
dfFileList.to_csv('data_climate/file_list.csv', index = False)

## 전세계 지상관측(월통계) 호출 방법
- 호출URL정보 예시
    - 여러 지점
        - https://apihub.kma.go.kr/api/typ01/url/ncei_gsom_data.php?tm=202208&stns=KSM00047108,KSM00047159&authKey=AUTH
    - 시간 구간
        - https://apihub.kma.go.kr/api/typ01/url/ncei_gsom_data.php?tm1=202201&tm2=202208&stns=KSM00047108,KSM00047159&authKey=AUTH
    - 임의 영역내
        - https://apihub.kma.go.kr/api/typ01/url/ncei_gsom_data.php?tm=202208&lon1=125&lon2=130&lat1=32&lat2=38&authKey=AUTH
    - 1개 지점의 전체 자료
        - https://apihub.kma.go.kr/api/typ01/url/ncei_gsom_file.php?stn=KSM00047108&authKey=AUTH
### 요청 인자
- tm
    - 년월일시분(UTC)
    - 특정시간대만 추출할 때
- tm1
    - 년월일시분(UTC)
    - tm1~tm2 기간의 자료를 추출
- tm2
    - 년월일시분(UTC)
    - tm1~tm2 기간의 자료를 추출
- stns
    - 지점들
    - 여러지점코드를 ,로 구분하면 같이 처리함
    - *) 지점코드 : 국가(2글자)+망구분(1글자)+지점번호(9글자)
- lon1
    - 영역
    - 경도 [lon1~lon2] 내 자료들만 추출 (앞에 stns가 정의되어 있으면, stns을 우선함)
- lon2
    - 영역
    - 경도 [lon1~lon2] 내 자료들만 추출 (앞에 stns가 정의되어 있으면, stns을 우선함)
- lat1
    - 영역
    - 위도 [lat1~lat2] 내 자료들만 추출 (앞에 stns가 정의되어 있으면, stns을 우선함)
- lat2
    - 영역
    - 위도 [lat1~lat2] 내 자료들만 추출 (앞에 stns가 정의되어 있으면, stns을 우선함)
- authKey
    - 인증키
    - 발급된 API 인증키

- 모든 나라의 데이터 기간을 통일하기 위해 임의로 200001부터 202212까지로 정해서 불러와본다.
- stn 코드값은 위의 filelist의 FILE 컬럼 내부 값을 조정하여 활용한다.

In [15]:
stnList = []
for idx, row in dfFileList.iterrows():
    tmp = row[0][5:-4]
    stnList.append(tmp)
print(len(stnList))
print(stnList[:5])

122236
['ACW00011604', 'ACW00011647', 'AE000041196', 'AEM00041194', 'AEM00041217']


In [None]:
# # 여러 지점
# domain = https://apihub.kma.go.kr/api/typ01/url/ncei_gsom_data.php?tm=202208&stns=KSM00047108,KSM00047159&authKey=AUTH

# # 시간 구간
# https://apihub.kma.go.kr/api/typ01/url/ncei_gsom_data.php?tm1=202201&tm2=202208&stns=KSM00047108,KSM00047159&authKey=AUTH
# # 임의 영역내
# https://apihub.kma.go.kr/api/typ01/url/ncei_gsom_data.php?tm=202208&lon1=125&lon2=130&lat1=32&lat2=38&authKey=AUTH

# # 1개 지점의 전체 자료
# https://apihub.kma.go.kr/api/typ01/url/ncei_gsom_file.php?stn=KSM00047108&authKey=AUTH

In [40]:
# 시간 구간을 정하는 버전
domain = "https://apihub.kma.go.kr/api/typ01/url/ncei_gsom_data.php?"
tm1 = "tm1=202201"
tm2 = "&tm2=202212"
stns = "&stns=" + 'KSM00047108'
authKey = "&authKey=" + AUTH

url = domain + tm1 + tm2 + stns + authKey

# URL과 저장 경로 변수를 지정합니다.
# url = "https://apihub.kma.go.kr/api/typ01/url/ncei_gsom_list.php?authKey=" + AUTH
save_file_path = 'test.txt'

# 파일 다운로드 함수를 호출합니다.
download_file(url, save_file_path)

In [44]:
dfTest = pd.read_table('test.txt', sep = ',', header = 6,
                       encoding = 'euc-kr', engine = 'python')
dfTest

Unnamed: 0,STATION,DATE,LATITUDE,LONGITUDE,ELEVATION,NAME,CDSD,CDSD_ATTRIBUTES,CLDD,CLDD_ATTRIBUTES,...,WSF1,WSF1_ATTRIBUTES,WSF2,WSF2_ATTRIBUTES,WSF5,WSF5_ATTRIBUTES,WSFG,WSFG_ATTRIBUTES,WSFM,WSFM_ATTRIBUTES
0,KSM00047108,2022-05,37.567,126.967,87.0,SEOUL CITY! KS,,,,,...,,,,,,,,,,
1,KSM00047108,2022-06,37.567,126.967,87.0,SEOUL CITY! KS,,,,,...,,,,,,,,,,
2,KSM00047108,2022-08,37.567,126.967,87.0,SEOUL CITY! KS,,,,,...,,,,,,,,,,


In [17]:
# URL과 저장 경로 변수를 지정합니다.
domain = "https://apihub.kma.go.kr/api/typ01/url/ncei_gsom_file.php?"

stns = "stn=" + stnList[0]
authKey = "&authKey=" + AUTH

url = domain + stns + authKey

save_file_path = 'sample_ALL_' + str(stnList[0]) + '.txt'

# 파일 다운로드 함수를 호출합니다.
download_file(url, save_file_path)

In [18]:
dfSample = pd.read_table('sample_ALL_' + str(stnList[0]) + '.txt', sep = ',',
                           encoding = 'euc-kr', engine = 'python', )
dfSample

Unnamed: 0,STATION,DATE,LATITUDE,LONGITUDE,ELEVATION,NAME,CDSD,CDSD_ATTRIBUTES,CLDD,CLDD_ATTRIBUTES,...,PRCP,PRCP_ATTRIBUTES,SNOW,SNOW_ATTRIBUTES,TAVG,TAVG_ATTRIBUTES,TMAX,TMAX_ATTRIBUTES,TMIN,TMIN_ATTRIBUTES
0,ACW00011604,1949-01,17.11667,-61.78333,10.1,"ST JOHNS COOLIDGE FIELD, AC",182.6,,182.6,",X",...,46.2,",,,X",0,",,,X",24.22,",X",27.46,",,,X",20.98,",,,X"
1,ACW00011604,1949-02,17.11667,-61.78333,10.1,"ST JOHNS COOLIDGE FIELD, AC",348.0,,165.4,",X",...,51.5,",,,X",0,",,,X",24.24,",X",27.11,",,,X",21.37,",,,X"
2,ACW00011604,1949-03,17.11667,-61.78333,10.1,"ST JOHNS COOLIDGE FIELD, AC",544.7,,196.7,",X",...,129.6,"1,,,X",0,",,,X",24.68,",X",27.79,",,,X",21.56,",,,X"
3,ACW00011604,1949-04,17.11667,-61.78333,10.1,"ST JOHNS COOLIDGE FIELD, AC",764.5,,219.8,",X",...,59.5,",,,X",0,",,,X",25.66,",X",28.72,",,,X",22.6,",,,X"
4,ACW00011604,1949-05,17.11667,-61.78333,10.1,"ST JOHNS COOLIDGE FIELD, AC",1020.6,,256.1,",X",...,47.9,",,,X",0,",,,X",26.6,",X",29.14,",,,X",24.05,",,,X"
5,ACW00011604,1949-06,17.11667,-61.78333,10.1,"ST JOHNS COOLIDGE FIELD, AC",1275.0,,254.4,",X",...,68.1,",,,X",0,",,,X",26.81,",X",29.48,",,,X",24.14,",,,X"
6,ACW00011604,1949-07,17.11667,-61.78333,10.1,"ST JOHNS COOLIDGE FIELD, AC",1552.6,,277.6,",X",...,24.2,",,,X",0,",,,X",27.29,",X",29.87,",,,X",24.7,",,,X"


In [24]:
dfSample.tail(10)

Unnamed: 0,STATION,DATE,LATITUDE,LONGITUDE,ELEVATION,NAME,CDSD,CDSD_ATTRIBUTES,CLDD,CLDD_ATTRIBUTES,...,PRCP,PRCP_ATTRIBUTES,SNOW,SNOW_ATTRIBUTES,TAVG,TAVG_ATTRIBUTES,TMAX,TMAX_ATTRIBUTES,TMIN,TMIN_ATTRIBUTES
0,ACW00011604,1949-01,17.11667,-61.78333,10.1,"ST JOHNS COOLIDGE FIELD, AC",182.6,,182.6,",X",...,46.2,",,,X",0,",,,X",24.22,",X",27.46,",,,X",20.98,",,,X"
1,ACW00011604,1949-02,17.11667,-61.78333,10.1,"ST JOHNS COOLIDGE FIELD, AC",348.0,,165.4,",X",...,51.5,",,,X",0,",,,X",24.24,",X",27.11,",,,X",21.37,",,,X"
2,ACW00011604,1949-03,17.11667,-61.78333,10.1,"ST JOHNS COOLIDGE FIELD, AC",544.7,,196.7,",X",...,129.6,"1,,,X",0,",,,X",24.68,",X",27.79,",,,X",21.56,",,,X"
3,ACW00011604,1949-04,17.11667,-61.78333,10.1,"ST JOHNS COOLIDGE FIELD, AC",764.5,,219.8,",X",...,59.5,",,,X",0,",,,X",25.66,",X",28.72,",,,X",22.6,",,,X"
4,ACW00011604,1949-05,17.11667,-61.78333,10.1,"ST JOHNS COOLIDGE FIELD, AC",1020.6,,256.1,",X",...,47.9,",,,X",0,",,,X",26.6,",X",29.14,",,,X",24.05,",,,X"
5,ACW00011604,1949-06,17.11667,-61.78333,10.1,"ST JOHNS COOLIDGE FIELD, AC",1275.0,,254.4,",X",...,68.1,",,,X",0,",,,X",26.81,",X",29.48,",,,X",24.14,",,,X"
6,ACW00011604,1949-07,17.11667,-61.78333,10.1,"ST JOHNS COOLIDGE FIELD, AC",1552.6,,277.6,",X",...,24.2,",,,X",0,",,,X",27.29,",X",29.87,",,,X",24.7,",,,X"


In [68]:
itemList = []
for item in stnList[:5]:
    globals()['{}'.format(item)] = item +' lalala'
    tmpVariable = '{}'.format(item)
    itemList.append(tmpVariable)

# 변수명 리스트
print(itemList)

# 변수명 리스트에서 str 값을 변수로 활용하는 방법
print(globals()[itemList[0]])

['ACW00011604', 'ACW00011647', 'AE000041196', 'AEM00041194', 'AEM00041217']
ACW00011604 lalala
