In [None]:
time_drop = ['기온 QC플래그', '강수량 QC플래그', '풍속 QC플래그', '풍향 QC플래그'
            '습도 QC플래그', '현지기압 QC플래그', '해면기압 QC플래그',
            '일조(hr)', '일조 QC플래그', '일사(MJ/m2)', '일사 QC플래그', '3시간신적설(cm)'
            '전운량(10분위)', '중하층운량(10분위)', '최저운고(100m )']

In [None]:
'''

Time Data

전처리 방향(v1) : 의미상 유의미해 보이고, 결측치가 적은 컬럼은 최대한 살려보기

'기온(°C)' : 
    - 결측값이 0.05비율로 있고 기온은 이전 값과 크게 다르지 않다고 판단하여 결측치는 이전 값으로 채움
'기온 QC플래그' : 기온측정의 품질검사 데이터
    - 9(Nan)로 측정된 4000개의 데이터와 약 40% 결측치가 있지만, 
    - 시계열 데이터 특성상 일자를 40%나 제거하면 유의미한 추세나 예측이 어렵다고 판단
    - 전부 0으로 (정상 데이터로) 판단하고 진행
    
'강수량(mm)' : 
    - 결측치가 약 91%이지만, 비가 안온 날 것이라 판단하고 0으로 채우고 진행
'강수량 QC플래그' : 강수량 품질검사 데이터
    - 9(Nan)으로 측정된 데이터개 약 150만개에 결측치가 77% 이지만, 
    - 강수량 데이터와 마찬가지로 비가 안온 날 이라 가정하고 진행
    
'풍속(m/s)' : 
    - 결측치가 적어서 사용 가능해 보임
    - 특정 시기에 튀는 부분이 보이기 때문에, 단순히 근처 값을 활용하기 보다
    - 해당 시기 3일전의 평균값으로 채워서 진행
'풍속 QC플래그' : 풍속 품질검사 데이터
    - 결측치가 약 40%이고, 9(Nan)값이 약 5000개 이지만,
    - 50% 이상 정상 데이터라 풍속 데이터도 활용하는 것으로 진행
    - 2019년 부터 0(정상)값이 없는데, 
    - 앞 7년간 패턴으로 봤을 때 결측치들이 0의 값일 수 있다는 판단
    
'풍향(16방위)' : 풍향은 국제적으로 동서남북 4방위를 2번 더 나눈 16방위로 측정
    - 결측치 비율이 0.23% 로 적기 때문에 가장 값이 많은 0으로 채우고 진행
'풍향 QC플래그' : 풍향 품질검사 데이터
    - 풍속 QC플래그와 마찬가지로 19년도 데이터부터 0(정상)값이 측정이 안됐지만,
    - 이전 7년의 패턴과 비슷한 비율로 생각하고 정상데이터라 판단하여 진행
    
'습도(%)' : 
    - 결측치가 적고, 특정 패턴이 없는 것으로 판단되어 평균값으로 채우고 진행
'습도 QC플래그' : 습도 품질검사 데이터
    - 19년 하반기부터 0(정상)값이 측정되지 않았지만, 앞과 비슷한 패턴이라 판단하고 
    - 습도 값도 활용하는 것으로 진행

    '증기압(hPa)' : 대기의 전체 압력 중에서 그 대기에 함유되어 있는 수증기가 갖고 있는 분압
        - 특정한 패턴이 보이지 않고, 결측치가 0.09%로 적기 때문에
        - 평균값으로 결측치를 채우고 진행
        
    '이슬점온도(°C)' : 이슬이 형성되는 온도
        - 특정한 패턴이 보이지 않고, 결측치가 0.11%로 적기 때문에
        - 평균값으로 결측치를 채우고 진행
        
'현지기압(hPa)' : 해당 지역의 기압
    - 결측치가 적고, 패턴이 보이는 듯 하지만 정확하지 않기 때문에
    - 평균 값으로 채우고 진행
'현지기압 QC플래그' : 현지기압 품질검사 데이터
    - 앞선 QC플래그 처럼 결측치 비율이 약 40%대 이지만, 
    - 19년도 말 부터 1(비정상), 9(Nan)값은 측정됐지만 0(정상)값이 측정되지 않았으므로
    - 결측치를 정상 값으로 판단하고 현지기압 데이터도 활용
    
'해면기압(hPa)' : 정해진 장소의 평균 해수면 높이에서의 기압
    - 결측치가 적기 때문에, 평균값으로 채워서 진행
'해면기압 QC플래그' : 해면기압 품질검사 데이터
    - 앞선 현지기압 QC플래그와 마찬가지의 비율을 갖고 있기 때문에
    - 해면기압도 활용

'일조(hr)' : 태양의 직사광이 지표면에 비친 시간
    - 0과 1의 데이터가 가장 많고 이상치 처럼 보이는 데이터가 있음
    - 결측치가 45%로 꽤 많은 편이지만 
    - 0과 1 사이 평균값에서 크게 벗어나지 않을 것이라 가정하고 진행
    - 12년도 중순 ~ 13년도 초에만 관측되는 1 이상의 데이터는 이상치로 가정하고
    - 1로 변형하여 진행
'일조 QC플래그' : 일조 품질검사 데이터
    - 결측치가 22%이지만 9(Nan) 값이 0(정상) 값 보다 많은 것으로 보아
    - 데이터의 정보를 확신할 수 없음
    - 일조 데이터는 제거하는 것이 좋아보임

'일사(MJ/m2)' : 태양으로부터 지구를 향해 방사되는 에너지, 태양 복사 에너지
    - 결측치가 76%로 많은 편이고 14년 하반기 및 가끔 결측치로 판단되는 값이 보임
    - 결측치가 많아 평균값으로 채우는 것이 의미가 있어보이지 않음
'일사 QC플래그' : 일사 품질검사 데이터
    - QC플래그 값 역시 9(Nan)으로 측정된 데이터가 70%이상이며, 19년 하반기 이후
    - 0(정상)값이 측정되지는 않았지만 일사 데이터를 적극적으로 활용하기는 어려워 보임

    '적설(cm)' : 
        - 절설 데이터는 활용해보면 좋을 것 같아, 결측치는 눈이 오지 않은 것으로 판단하고
        - 0으로 처리하여 사용
    '3시간신적설(cm)' : 3시간 동안 새로 쌓인 눈
        - 결측치가 너무 많아 활용하기 어려움
    '전운량(10분위)' : 전층에 있는 구름의 분포량
        - 운량의 경우 목측으로 진행하기 때문에, 사람마다 판단하는 기준이 다를 것이라 생각되므로
        - 활용하지 않는 것이 좋아 보임
    '중하층운량(10분위)' : 중층과 하층에 있는 구름의 분포량
        - 중하층운량도 마찬가지로 목측으로 진행하기 때문에
        - 객관적인 판단이 어려울 듯 하여 활용하지 않는 것이 좋아보임
    '운형(운형약어)' : 구름의 모양
        - 154가지의 카테고리 데이터로써 활용하기 어려워 보임
    '최저운고(100m )' : 구름의 최저 고도
        - 결측치가 70%로 많은 편이며, 16년도 중순 시점을 전후로 값의 전반적인 차이가 보임
        - 16년도 전후로 평균치가 달라졌는지는 아직 확인할 수 없으며
        - 운고에 대한 지식이 없어 바로 활용하기는 어려워 보임
    '시정(10m)' : 가시 거리
        - 가시거리 10m로 측정된 데이터 인데, 데이터들의 의미를 정확히 파악할 수 없어
        - 현재는 사용하지 않는 것이 좋아 보임
    '지면상태(지면상태코드)' : 
        - 결측치가 97%이고, 지면 상태에 대한 코드는 활용하지 않는것이 좋아 보임
    '현상번호(국내식)' : 
        - 결측치가 91%이고, 국내 현상 번호는 463개의 카테고리 데이터로 판단되어
        - 활용하지 않는것이 좋아 보임
    
'지면온도(°C)' : 
    - 결측치가 0.11%로 적은 편
    - 평균치로 결측치 처리 후 활용
'지면온도 QC플래그' : 지면온도 품질검사 데이터
    - 결측치가 39% 이지만, 측정된 값 중 0(정상) 데이터가 많은 비율을 차지하므로
    - 지면온도 데이터는 활용 해볼 수 있다고 판단됨

    '5cm 지중온도(°C)' : 땅 속 5cm 온도
        - 결측치가 약 70%로 많은 편이지만, 
        - 온도 데이터 이기 때문에 급변하지는 않을 것이라 판단됨
        - 이전 값들의 평균으로 결측치 처리 후 활용해 볼만 함
    '10cm 지중온도(°C)' : 땅 속 10cm 온도
        - 5cm 지중온도 처럼 결측치가 꽤 있지만
        - 그래프 상 이상치로 보이는 값들은 따로 처리한 다음,
        - 특정 시점 이전 값들의 평균으로 결측치 처리 후 활용
    '20cm 지중온도(°C)' : 땅 속 20cm 온도
        - 마찬가지로 결측치가 꽤 있지만
        - 그래프 상 이상치로 보이는 이상치들을 처리한 다음,
        - 특정 시점 이전 값들의 평균으로 결측치 처리 후 활용
    '30cm 지중온도(°C)' : 땅 속 30cm 온도
        - 30cm 지중온도 데이터 또한 마찬가지로 결측치가 꽤 있지만
        - 그래프 상 이상치로 보이는 이상치들을 10,20cm 데이터보다는 적어 보임,
        - 특정 시점 이전 값들의 평균으로 결측치 처리 후 활용

'''

In [None]:
'''
각 컬럼별 설명 및 전처리 방법


'기준일시' : 
'일 평균 풍속 (m/s)' : 
'일 풍정 (m)' : 
'최대풍향' : 
'최대풍속 (m/s)' : 
'최대순간풍향' : 
'최대순간풍속 (m/s)' : 
'일 평균기온 (C)' : 
'최고기온 (C)' : 
'최저기온 (C)' : 
'일 평균 이슬점온도 (C)' : 
'일 평균 지면온도 (C)' : 
'일 최저 초상온도 (C)' : 
'일 평균 상대습도 (%)' : 
'최저습도 (%)' : 
'일 평균 수증기압 (hPa)' : 
'소형 증발량 (mm)' : 
'대형 증발량 (mm)' : 
'안개계속시간 (hr)' : 
'일 평균 현지기압 (hPa)' : 
'일 평균 해면기압 (hPa)' : 
'최고 해면기압 (hPa)' : 
'최고 해면기압 시각 (시분)' : 
'최저 해면기압 (hPa)' : 
'일 평균 전운량 (1/10)' : 
'일조합 (hr)' : 
'가조시간 (hr)' : 
'캄벨 일조 (hr)' : 
'일사합 (MJ/m2)' : 
'최대 1시간일사 (MJ/m2)' : 
'최대 1시간일사 시각 (시분)' : 
'일 강수량 (mm)' : 
'9-9 강수량 (mm)' : 
'강수계속시간 (hr)' : 
'1시간 최다강수량 (mm)' : 
'1시간 최다강수량 시각 (시분)' : 
'10분간 최다강수량 (mm)' : 
'10분간 최다강수량 시각 (시분)' : 
'최대 강우강도 (mm/h)' : 
'최대 강우강도 시각 (시분)' : 
'최심 신적설 (cm)' : 
'최심 신적설 시각 (시분)' : 
'최심 적설 (cm)' : 
'최심 적설 시각 (시분)' : 
'0.5m 지중온도 (C) ' : 
'1.0m 지중온도 (C)' : 
'1.5m 지중온도 (C)' : 
'3.0m 지중온도 (C)' : 
'5.0m 지중온도 (C)' : 


'''