In [None]:
# weather_data.csv 데이터를 읽어서 날짜 리스트와 기온 리스트를 각각 numpy.array로 저장
# - csv 모듈 사용해서 행 단위로 데이터 읽기 / dataframe으로 읽어서 numpy.array로 구성

# 최저기온 기준 제일 추웠던 날의 기온 (그 날짜의 데이터) 찾기
# 최고기온 기준 제일 더웠던 날의 기온 찾기
# 일교차가 가장 큰 날 찾기
# 평균기온의 평균, 최저기온, 최고기온의 평균

In [45]:
import pandas as pd

In [46]:
weather_data = pd.read_csv('data-files/weather_data.csv')

In [47]:
weather_data.columns

Index(['지점번호', '지점명', '일시', '평균기온(℃)', '최고기온(℃)', '최고기온시각', '최저기온(℃)',
       '최저기온시각', '일교차'],
      dtype='object')

In [129]:
date_array = weather_data[['일시']].values
temperature_array = weather_data[['평균기온(℃)', '최고기온(℃)', '최저기온(℃)', '일교차']].values

In [130]:
print( date_array.shape, date_array.ndim )
print( temperature_array.shape, temperature_array.ndim )
print( type(date_array), type(temperature_array) )
print( date_array.dtype, temperature_array.dtype )

(42016, 1) 2
(42016, 4) 2
<class 'numpy.ndarray'> <class 'numpy.ndarray'>
object float64


In [131]:
temperature_array[:, 2].min() # 최저기온
temperature_array[:, 1].max() # 최고기온
temperature_array[:, 0].max() # 평균기온

np.float64(nan)

In [74]:
import numpy as np

In [132]:
# 가장 낮은 최저 기온
np.isnan(temperature_array[:, 2]).sum() # nan 값의 갯수
~np.isnan(temperature_array[:, 2]) # nan인 데이터 목록

valid_idx = ~np.isnan(temperature_array[:, 2]) #nan이 아닌 데이터 위치
min_value = temperature_array[:, 2][valid_idx].min()
mean_value = temperature_array[:, 2][valid_idx].mean()
min_value, mean_value

(np.float64(-23.1), np.float64(7.510114647211384))

In [133]:
temperature_array[:, 2] == min_value

array([False, False, False, ..., False, False, False])

In [134]:
# 최저 기온이 가장 낮을 때 날짜
temperature_array[:, 2][temperature_array[:, 2] == min_value]
date_array[:, 0][temperature_array[:, 2] == min_value]

array(['1927-12-31'], dtype=object)

In [135]:
# 가장 높은 최고 기온
valid_idx = ~np.isnan(temperature_array[:, 1]) #nan이 아닌 데이터 위치
max_value = temperature_array[:, 1][valid_idx].max()
mean_value = temperature_array[:, 1][valid_idx].mean()
max_value, mean_value

(np.float64(39.6), np.float64(16.800116343893155))

In [136]:
# 최고 기온이 가장 높을 때 날짜
date_array[:, 0][temperature_array[:, 1] == max_value]

array(['2018-08-01'], dtype=object)

In [137]:
# 가장 높은 평균 기온
valid_idx = ~np.isnan(temperature_array[:, 0]) #nan이 아닌 데이터 위치
max_value = temperature_array[:, 0][valid_idx].max()
mean_value = temperature_array[:, 0][valid_idx].mean()
max_value, mean_value

(np.float64(33.7), np.float64(11.798744546776538))

In [138]:
# 평균 기온이 가장 높을 때 날짜
date_array[:, 0][temperature_array[:, 0] == max_value]

array(['2018-08-02'], dtype=object)

In [139]:
# 일교차가 가장 큰 날
valid_idx = ~np.isnan(temperature_array[:, 3]) #nan이 아닌 데이터 위치
max_value = temperature_array[:, 3][valid_idx].max()
mean_value = temperature_array[:, 3][valid_idx].mean()
max_value, mean_value

(np.float64(21.8), np.float64(9.289751793678494))

In [97]:
# 일교차가 가장 큰 날짜
date_array[:, 0][temperature_array[:, 3] == max_value]

array(['1942-04-19'], dtype=object)

In [140]:
def select_temperature_data(col='평균기온', vtype='max'):
    cols = {'평균기온':0, '최고기온':1, '최저기온':2, '일교차':3}
    col_idx = cols[col]

    valid_filter = ~np.isnan(temperature_array[:, col_idx]) #nan이 아닌 데이터 위치
    
    max_value = temperature_array[:, col_idx][valid_filter].max()
    min_value = temperature_array[:, col_idx][valid_filter].min()
    mean_value = temperature_array[:, col_idx][valid_filter].mean()

    temperature_key, target_value = ('최고기온', max_value) if vtype == 'max' else ('최저기온', min_value)

    dates = date_array[:, 0][temperature_array[:, col_idx] == target_value ]

    return { temperature_key : target_value.item(), "평균기온" : mean_value.item(), "날짜": dates.item() }


In [144]:
select_temperature_data('일교차', 'max')

{'최고기온': 21.8, '평균기온': 9.289751793678494, '날짜': '1942-04-19'}