# Import Library

In [1]:
from google.colab import drive
drive.mount('/gdrive')

Mounted at /gdrive


In [2]:
import datetime as dt
import pandas as pd
import os
import xml.etree.ElementTree as ET

In [3]:
%cd /gdrive/MyDrive/Colab_Weather_API/lib
import new_weather as nw
import weather_dict as wd
from importlib import reload

/gdrive/MyDrive/Colab_Weather_API/lib


In [4]:
reload(nw)

<module 'new_weather' from '/gdrive/MyDrive/Colab_Weather_API/lib/new_weather.py'>

In [100]:
reload(wd)

<module 'weather_dict' from '/gdrive/MyDrive/Colab_Weather_API/lib/weather_dict.py'>

# LOG

In [6]:
tz = dt.timezone(dt.timedelta(hours=9))
dt_now = dt.datetime.now(tz=tz)
str_now = dt.datetime.strftime(dt_now, '%Y-%m-%d %H:%M:%S')
# print(f"# 작성시간:\t{str_now}")
# print("# 작성자:\t\tjongphago")
# print("# 주제:\t\t함수'change_args' Error")

In [7]:
# 작성시간: 2021-06-28 17:14:19
# 작성자:   jongphago
# 주제:     함수'change_args' Error
"""
문제점:
    - arg_dict를 생성할때 YYYYmmdd 형식으로 저장하여 시간 정보를 무시한다.
    - 함수 change_args를 호출할때 변경해야 하는 시간 값은 정확히 999hrs후 
    값인데, 시간정보가 없어서 특정 시간만큼 추가되는 현상이 발생한다.
    
해결책:
    Alt1:
        - makre_arg_dict 함수를 작성할때 날짜관련 key값이 '년-월-일-시-분' 
        데이터를 모두 갖도록 작성한다
        - 장점: 정확한 시간(ex:999시간 후) 단위로 컨트롤이 가능
        - 단점: 많은 함수를 수정해야 한다. 미리 고생.
    Alt2:
        - 일단위로 K시간을 입력하면 %24 만큼의 시간만 입력 되도록 한다.
        - 장점: 수정할 함수가 적음
        - 단점: 정확한 컨트롤이 어려움. 앞으로 고생.
""" 
pass

# serviceKey 생성

In [8]:
lib_path = os.getcwd()
service_key = nw.get_service_key(lib_path)

# Info Dictionary

In [9]:
call_info = pd.DataFrame(wd.call_dict).transpose()
call_info

Unnamed: 0,항목명,항목크기,항목구분,샘플데이터,항목설명
serviceKey,인증키,100,1,인증키,공공데이터포털에서 발급받은 인증키(URL_Encode)
numOfRows,한_페이지_결과_수,4,0,10,한 페이지 결과 수(Default: 10)
pageNo,페이지_번호,4,0,1,페이지 번호(Default: 1)
dataType,응답자료형식,4,0,XML,요청자료형식(XML/JSON)(Default: XML)
dataCd,자료_코드,4,1,ASOS,자료 분류 코드
dateCd,날짜_코드,3,1,HR,날짜 분류 코드
startDt,시작일,8,1,20100101,조회 기간 시작일
startHh,시작시,2,1,1,조회 기간 시작시
endDt,종료일,8,1,20100601,조회 기간 종료일((전일(D-1) 까지 제공))
endHh,종료시,2,1,1,조회 기간 종료시


##Error dict

In [10]:
error_info = pd.DataFrame(wd.error_dict).transpose()
error_info

Unnamed: 0,msg,discription
0,NORMAL_SERVICE,정상
1,APPLICATION_ERROR,어플리케이션 에러
2,DB_ERROR,데이터베이스 에러
3,NODATA_ERROR,데이터없음 에러
4,HTTP_ERROR,HTTP 에러
5,SERVICETIME_OUT,서비스 연결실패 에러
10,INVALID_REQUEST_PARAMETER_ERROR,잘못된 요청 파라메터 에러
11,NO_MANDATORY_REQUEST_PARAMETERS_ERROR,필수요청 파라메터가 없음
12,NO_OPENAPI_SERVICE_ERROR,해당 오픈API서비스가 없거나 폐기됨
20,SERVICE_ACCESS_DENIED_ERROR,서비스 접근거부


##컬럼명 해석기

In [11]:
asos_columns_info = pd.DataFrame(wd.asos_dict).transpose()
asos_columns_info.head()

Unnamed: 0,항목명,항목크기,샘플데이터,설명
numOfRows,한 페이지 결과 수,4,1,한 페이지당 표출 데이터 수
pageNo,페이지 번호,4,1,페이지 수
totalCount,데이터 총 개수,10,1,데이터 총 개수
resultCode,응답메시지 코드,2,0,응답 메시지코드
resultMsg,응답메시지 내용,100,NORMAL SERVICE,응답 메시지 설명


In [86]:
asos_columns_info[['항목명', '샘플데이터']].transpose()

Unnamed: 0,numOfRows,pageNo,totalCount,resultCode,resultMsg,dataType,tm,rnum,stnId,stnNm,ta,taQcflg,rn,rnQcflg,ws,wsQcflg,wd,wdQcflg,hm,hmQcflg,pv,td,pa,paQcflg,ps,psQcflg,ss,ssQcflg,icsr,dsnw,hr3Fhsc,dc10Tca,dc10LmcsCa,clfmAbbrCd,lcsCh,vs,gndSttCd,dmstMtphNo,ts,tsQcflg,m005Te,m01Te,m02Te,m03Te
항목명,한 페이지 결과 수,페이지 번호,데이터 총 개수,응답메시지 코드,응답메시지 내용,데이터 타입,시간,목록 순서,지점 번호,서울,기온,기온 품질검사,강수량,강수량 품질검사,풍속,풍속 품질검사,풍향,풍향 품질검사,습도,습도 품질검사,증기압,이슬점온도,현지기압,현지기압 품질검사,해면기압,해면기압 품질검사,일조,일조 품질검사,일사,적설,3시간신적설,전운량,중하층운량,운형,최저운고,시정,지면상태,현상번호,지면온도,지면온도 품질검사,5cm 지중온도,10cm 지중온도,20cm 지중온도,30cm 지중온도
샘플데이터,1,1,1,0,NORMAL SERVICE,XML,2010-01-01 10,1,108,서울,23.8,0,10.5,0,1,0,110,0,36,0,1.1,-21.4,1012.4,0,1023.6,0,1,0,0.73,2.2,0.2,0,0,scas,8,2300,17,1904,-3.4,0,-4.9,-2.4,-1,0.4


In [13]:
wd.translate(wd.asos_dict, 'ts')

'지면온도'

## 관측소 정보

In [14]:
station_info = pd.DataFrame(wd.station_dict).transpose()
station_info

Unnamed: 0,stnId,manager
속초,90,강원지방기상청
북춘천,93,춘천기상대
철원,95,강원지방기상청
동두천,98,수도권기상청
파주,99,수도권기상청
...,...,...
합천,285,울산기상대
밀양,288,울산기상대
산청,289,창원기상대
거제,294,부산지방기상청


In [15]:
station_info.index

Index(['속초', '북춘천', '철원', '동두천', '파주', '대관령', '춘천', '백령도', '북강릉', '강릉', '동해',
       '서울', '인천', '원주', '울릉도', '수원', '영월', '충주', '서산', '울진', '청주', '대전',
       '추풍령', '안동', '상주', '포항', '군산', '대구', '전주', '울산', '창원', '광주', '부산', '통영',
       '목포', '여수', '흑산도', '완도', '고창', '순천', '홍성', '제주', '고산', '성산', '서귀포',
       '진주', '강화', '양평', '이천', '인제', '홍천', '태백', '정선군', '제천', '보은', '천안', '보령',
       '부여', '금산', '세종', '부안', '임실', '정읍', '남원', '장수', '고창군', '영광군', '김해시',
       '순창군', '북창원', '양산시', '보성군', '강진군', '장흥', '해남', '고흥', '의령군', '함양군',
       '광양시', '진도군', '봉화', '영주', '문경', '청송군', '영덕', '의성', '구미', '영천', '경주시',
       '거창', '합천', '밀양', '산청', '거제', '남해'],
      dtype='object')

In [16]:
station_info.loc['인천']['stnId']

112

# weather_args 생성

In [17]:
arg_dict = nw.make_arg_dict(112, '20210101', '20210601')
arg_dict['_numOfRows']

3648

# Call API

In [18]:
master_df = nw.call(service_key, arg_dict)

In [19]:
# master_df.shape
master_df.head()

Unnamed: 0,tm,rnum,stnId,stnNm,ta,taQcflg,rn,rnQcflg,ws,wsQcflg,wd,wdQcflg,hm,hmQcflg,pv,td,pa,paQcflg,ps,psQcflg,ss,ssQcflg,icsr,dsnw,hr3Fhsc,dc10Tca,dc10LmcsCa,clfmAbbrCd,lcsCh,vs,gndSttCd,dmstMtphNo,ts,tsQcflg,m005Te,m01Te,m02Te,m03Te
0,2021-01-01 00:00,1,112,인천,-7.5,,,9.0,2.0,,20,,62,,2.2,-13.5,1018.4,,1027.4,,,9,,,,0,0,,,1657,,,-8.7,,-1.2,0.2,1.3,2.3
1,2021-01-01 01:00,2,112,인천,-7.8,,,,1.9,,50,,63,,2.1,-13.6,1018.3,,1027.4,,,9,,,,0,0,,,1852,,,-8.7,,-1.2,0.2,1.3,2.4
2,2021-01-01 02:00,3,112,인천,-7.8,,,,1.0,,20,,61,,2.1,-14.0,1018.3,,1027.4,,,9,,,,2,0,,,1745,,,-9.0,,-1.3,0.1,1.3,2.2
3,2021-01-01 03:00,4,112,인천,-8.0,,,,1.9,,50,,60,,2.0,-14.4,1018.6,,1027.7,,,9,,,,0,0,,,1950,,,-9.0,,-1.4,0.1,1.2,2.2
4,2021-01-01 04:00,5,112,인천,-7.9,,,,1.9,,70,,58,,2.0,-14.7,1017.8,,1026.9,,,9,,,,0,0,,,1937,,,-9.0,,-1.5,0.0,1.2,2.2


## Flag 보유 컬럼

In [20]:
flag_columns_list = []
for column in master_df.columns:
    if column.endswith('Qcflg'):
        flag_columns_list.append(column)

In [21]:
flag_list =[columns[:2] for columns in flag_columns_list]

In [22]:
# master_df[flag_list]

# 운형

In [91]:
wd.cloud_dict

{'Ac': {'label': 3, '명칭': '고적운', '영문명': 'Altocumulus', '층': '중층'},
 'As': {'label': 4, '명칭': '고층운', '영문명': 'Altostratus', '층': '중층'},
 'Cb': {'label': 9, '명칭': '적란운', '영문명': 'Cumulonimbus', '층': '하층'},
 'Cc': {'label': 1, '명칭': '권적운', '영문명': 'Cirrocumulus', '층': '상층'},
 'Ci': {'label': 0, '명칭': '권운', '영문명': 'Cirrus', '층': '상층'},
 'Cs': {'label': 2, '명칭': '권층운', '영문명': 'Cirrostratus', '층': '상층'},
 'Cu': {'label': 8, '명칭': '적운', '영문명': 'Cumulus', '층': '하층'},
 'Ns': {'label': 5, '명칭': '난층운', '영문명': 'Nimbostratus', '층': '중층'},
 'Sc': {'label': 6, '명칭': '층적운', '영문명': 'Stratocumulus', '층': '하층'},
 'St': {'label': 7, '명칭': '층운', '영문명': 'Stratus', '층': '하층'}}

In [102]:
cloud_name(3)

'Ac'

In [101]:
cloud_label('Ac')

3

# 결측치 처리

##결측치 확인

In [25]:
pd.DataFrame(master_df.isnull().sum()/master_df.shape[0], columns=['null_ratio'])

Unnamed: 0,null_ratio
tm,0.0
rnum,0.0
stnId,0.0
stnNm,0.0
ta,0.0
taQcflg,1.0
rn,0.904057
rnQcflg,0.795504
ws,0.0
wsQcflg,1.0


In [29]:
wd.error_dict[02]

{'discription': '정상', 'msg': 'NORMAL_SERVICE'}

In [33]:
wd.flag_dict

{1: '오류', 9: '결측', 'null': '정상'}

In [80]:
master_df.columns

Index(['tm', 'rnum', 'stnId', 'stnNm', 'ta', 'taQcflg', 'rn', 'rnQcflg', 'ws',
       'wsQcflg', 'wd', 'wdQcflg', 'hm', 'hmQcflg', 'pv', 'td', 'pa',
       'paQcflg', 'ps', 'psQcflg', 'ss', 'ssQcflg', 'icsr', 'dsnw', 'hr3Fhsc',
       'dc10Tca', 'dc10LmcsCa', 'clfmAbbrCd', 'lcsCh', 'vs', 'gndSttCd',
       'dmstMtphNo', 'ts', 'tsQcflg', 'm005Te', 'm01Te', 'm02Te', 'm03Te'],
      dtype='object')

In [None]:
display(master_df['rn'].iloc[:60] == '0.0')

In [66]:
# pd.options.display.max_rows

In [76]:
# '결측'
master_df['rnQcflg'].value_counts()

9    746
Name: rnQcflg, dtype: int64

In [78]:
# '정상'
master_df['rnQcflg'].isna().sum()

2902