In [1]:
import numpy as np

### Exec 1

In [3]:
# load data
data = np.loadtxt('./data/ratings.dat' , delimiter = "::", dtype=np.int64)

In [6]:
# check function ( type, shape, dimension ..etc)
def aryInfo(arr) :
    print('type : {}'.format(type(arr)))
    print('shape : {}, dimension : {}, dtype : {}'.format(arr.shape, arr.ndim, arr.dtype))
    print("Array's Data : \n", arr)

In [7]:
# check first 5 lines
data[:5, :]

array([[        1,      1193,         5, 978300760],
       [        1,       661,         3, 978302109],
       [        1,       914,         3, 978301968],
       [        1,      3408,         4, 978300275],
       [        1,      2355,         5, 978824291]], dtype=int64)

In [8]:
# check data informations by using aryInfo function
aryInfo(data)

type : <class 'numpy.ndarray'>
shape : (1000209, 4), dimension : 2, dtype : int64
Array's Data : 
 [[        1      1193         5 978300760]
 [        1       661         3 978302109]
 [        1       914         3 978301968]
 ...
 [     6040       562         5 956704746]
 [     6040      1096         4 956715648]
 [     6040      1097         4 956715569]]


In [9]:
# mean
data[:,2].mean()

3.581564453029317

In [11]:
# unique(x) : 배열 내 중복된 원소 제거 후 유일한 원소를 정렬하여 반환
user_ids = np.unique(data[:,0])
print(user_ids)

[   1    2    3 ... 6038 6039 6040]


In [16]:
data_list = []

for user_id in user_ids :
    user = data[data[:,0] == user_id, : ]
    user_avg = user[:, 2].mean() # 2번째 인덱스(평점)에 해당하는 값의 평균값
    data_list.append([user_id, user_avg]) # 사용자 아이디와 평균값을 배열에 추가

In [17]:
# list transform to Numpy Array.
user_avg = np.array(data_list)
aryInfo(user_avg)

type : <class 'numpy.ndarray'>
shape : (6040, 2), dimension : 2, dtype : float64
Array's Data : 
 [[1.00000000e+00 4.18867925e+00]
 [2.00000000e+00 3.71317829e+00]
 [3.00000000e+00 3.90196078e+00]
 ...
 [6.03800000e+03 3.80000000e+00]
 [6.03900000e+03 3.87804878e+00]
 [6.04000000e+03 3.57771261e+00]]


In [18]:
# 평점 4점이상인 유저만 출력
high_avg = user_avg[user_avg[:, 1] >= 4]
aryInfo(high_avg)

type : <class 'numpy.ndarray'>
shape : (1544, 2), dimension : 2, dtype : float64
Array's Data : 
 [[1.00000000e+00 4.18867925e+00]
 [4.00000000e+00 4.19047619e+00]
 [7.00000000e+00 4.32258065e+00]
 ...
 [6.02700000e+03 4.25000000e+00]
 [6.03200000e+03 4.13461538e+00]
 [6.03400000e+03 4.09523810e+00]]


In [19]:
np.savetxt('user_avg.csv', user_avg, fmt='%.1f', delimiter=',')

### Exec 2

1. 기상 관측 이래, 서울의 최고 기온이 가장 높았던 날은 언제였고, 몇도인가요?

In [20]:
# load data
seoul_data = np.loadtxt('./data/seoul.csv',delimiter=',',dtype=np.object,skiprows=1)
daegu_data = np.loadtxt('./data/daegu.csv',delimiter=',',dtype=np.object,skiprows=1)

In [52]:
# 서울 기온이 가장 높은 날
seoul_temp = seoul_data[:, 4]
seoul_high_temp = seoul_temp[seoul_temp != ''].astype(np.float64)
seoul_max = seoul_high_temp.max()
aryInfo(seoul_temp)

type : <class 'numpy.ndarray'>
shape : (40819,), dimension : 1, dtype : object
Array's Data : 
 ['20.7' '22' '21.3' ... '27.5' '27.3' '24.4']


In [42]:
# 서울 기온이 가장 높은 날의 날짜
seoul_date = seoul_data[:,0]
seoul_high_date = seoul_date[seoul_temp==str(seoul_high_temp.max())]
seoul_max_date = seoul_high_date


In [43]:
print('기온이 가장 높았던 날 {} 이고, 그 날의 기온은 {} 입니다.'.format(seoul_max_date, seoul_max))

기온이 가장 높았던 날 ['2018-08-01'] 이고, 그 날의 기온은 39.6 입니다.


2. 역사적으로 일교차가 가장 큰 날짜는 몇년 몇월 몇일 인가요?

In [58]:
seoul_temp2 = seoul_data[:, -2]
seoul_low_temp = seoul_temp2[seoul_temp2 != ''].astype(np.float64)
aryInfo(seoul_low_temp)

type : <class 'numpy.ndarray'>
shape : (40819,), dimension : 1, dtype : float64
Array's Data : 
 [ 7.9  7.9 13.1 ... 19.9 19.2 19.5]


In [59]:
# null value count & fill null count
nullValue = 0

for i in range(seoul_data.shape[0]) :
    for j in range(seoul_data.shape[1]) :
        if seoul_data[i][j] == '':
            seoul_data[i][j] = -9999
            nullValue += 1
print(nullValue)

0


In [61]:
# 40xxx --> 40819 로 맞춰짐. 결측치를 -9999로 채웠기때문에
aryInfo(seoul_low_temp)

type : <class 'numpy.ndarray'>
shape : (40819,), dimension : 1, dtype : float64
Array's Data : 
 [ 7.9  7.9 13.1 ... 19.9 19.2 19.5]


In [66]:
seoul_temp = seoul_data[:,2:].astype(np.float64)
seoul_temp

array([[13.5,  7.9, 20.7],
       [16.2,  7.9, 22. ],
       [16.2, 13.1, 21.3],
       ...,
       [23.3, 19.9, 27.5],
       [23.3, 19.2, 27.3],
       [21.7, 19.5, 24.4]])

In [69]:
temp = np.hstack([seoul_data, seoul_temp])
aryInfo(temp)

type : <class 'numpy.ndarray'>
shape : (40819, 8), dimension : 2, dtype : object
Array's Data : 
 [['1907-10-01' '108' '13.5' ... 13.5 7.9 20.7]
 ['1907-10-02' '108' '16.2' ... 16.2 7.9 22.0]
 ['1907-10-03' '108' '16.2' ... 16.2 13.1 21.3]
 ...
 ['2020-09-04' '108' '23.3' ... 23.3 19.9 27.5]
 ['2020-09-05' '108' '23.3' ... 23.3 19.2 27.3]
 ['2020-09-06' '108' '21.7' ... 21.7 19.5 24.4]]


3. 1년 중 평균적으로 일교차가 가장 큰 날짜는 몇월 몇일 인가요?

In [70]:
diff_temp = seoul_data[(temp[:,-1] - temp[:,-2,]).argmax()]
print(diff_temp[0])

1942-04-19


4. 가장 덥다고 알려진 대구보다 서울이 더 더운날이 가장 많은 연도는 언제인가요?