# Xarray 패키지
- 이름이 붙은 array(배열)를 다루는 패키지
- http://xarray.pydata.org/en/stable/index.html
- Metpy를 설치하면서 이미 같이 설치되었을 겁니다

In [2]:
# 배열: 행렬과 유사한 것이지만 차원이 더 많을 수 있음
import numpy as np
a = np.array([[1,2,3],[4,5,6],[7,8,9]])
print(a)
print(a.shape) # a 배열의 형태와 각 차원의 크기

[[1 2 3]
 [4 5 6]
 [7 8 9]]
(3, 3)


# Dataset
- 격자 형태의 자료는 보통 변수별로 (시간, 고도(등압면), 위도, 경도)의 형태로 되어 있음
- 이러한 자료를 다룰 때 각 변수와 차원의 정보도 포함되어야 함
- http://xarray.pydata.org/en/stable/data-structures.html#dataset 참조

In [5]:
# 실제 예시
import xarray as xr
dt = xr.open_dataset('era5_pres_2020100600.nc')
dt


In [16]:
# coordinates는 시간, 고도(등압면), 위도, 경도에 대한 정보를 담고 있음
print(dt.coords)
print('\n')
print(dt.coords['longitude']) # print(dt.longitude)
print(dt.coords['level']) 

# latitude는 90에서 -90까지로 순서가 반대임에 유의

Coordinates:
  * longitude  (longitude) float32 0.0 1.0 2.0 3.0 ... 356.0 357.0 358.0 359.0
  * latitude   (latitude) float32 90.0 89.0 88.0 87.0 ... -88.0 -89.0 -90.0
  * level      (level) int32 200 300 500 700 850 925 1000
  * time       (time) datetime64[ns] 2020-10-06


<xarray.DataArray 'longitude' (longitude: 360)>
array([  0.,   1.,   2., ..., 357., 358., 359.], dtype=float32)
Coordinates:
  * longitude  (longitude) float32 0.0 1.0 2.0 3.0 ... 356.0 357.0 358.0 359.0
Attributes:
    units:      degrees_east
    long_name:  longitude
<xarray.DataArray 'level' (level: 7)>
array([ 200,  300,  500,  700,  850,  925, 1000])
Coordinates:
  * level    (level) int32 200 300 500 700 850 925 1000
Attributes:
    units:      millibars
    long_name:  pressure_level
<xarray.DataArray 'longitude' (longitude: 360)>
array([  0.,   1.,   2., ..., 357., 358., 359.], dtype=float32)
Coordinates:
  * longitude  (longitude) float32 0.0 1.0 2.0 3.0 ... 356.0 357.0 358.0 359.0
Attributes:
    units: 

In [22]:
# data variables는 해당 dataset에 포함된 변수들의 정보와 격자별 값을 포함
print(dt.variables) # longitude, latitude, level, time, temperature, geopotential, u_wind, v_wind
print(print(dt['t'])) # print(dt.t); dt.variables['t']

Frozen({'longitude': <xarray.IndexVariable 'longitude' (longitude: 360)>
array([  0.,   1.,   2., ..., 357., 358., 359.], dtype=float32)
Attributes:
    units:      degrees_east
    long_name:  longitude, 'latitude': <xarray.IndexVariable 'latitude' (latitude: 181)>
array([ 90.,  89.,  88.,  87.,  86.,  85.,  84.,  83.,  82.,  81.,  80.,  79.,
        78.,  77.,  76.,  75.,  74.,  73.,  72.,  71.,  70.,  69.,  68.,  67.,
        66.,  65.,  64.,  63.,  62.,  61.,  60.,  59.,  58.,  57.,  56.,  55.,
        54.,  53.,  52.,  51.,  50.,  49.,  48.,  47.,  46.,  45.,  44.,  43.,
        42.,  41.,  40.,  39.,  38.,  37.,  36.,  35.,  34.,  33.,  32.,  31.,
        30.,  29.,  28.,  27.,  26.,  25.,  24.,  23.,  22.,  21.,  20.,  19.,
        18.,  17.,  16.,  15.,  14.,  13.,  12.,  11.,  10.,   9.,   8.,   7.,
         6.,   5.,   4.,   3.,   2.,   1.,   0.,  -1.,  -2.,  -3.,  -4.,  -5.,
        -6.,  -7.,  -8.,  -9., -10., -11., -12., -13., -14., -15., -16., -17.,
       -18., -19., -20

# 인덱싱
- 배열의 일부를 사용하려고 할 때
- 기본적인 배열의 인덱싱 방법 (numpy)
- pandas 형태
- xarray에서만 가능한 방법
- 예시에서 300 hPa. 동아시아 (20-60N, 100-160E) 지역만 뽑아보자

In [27]:
# 기본적인 인덱싱
t = dt.t
print(t.shape) # (1,7,181,360)

t_new = t[0,1,30:71,100:161]
t_new

(1, 7, 181, 360)


In [33]:
# pandas 형태
t_new = t.loc['2020-10-06',300,slice(60,20),slice(100,160)]
t_new

In [35]:
# xarray에서만 가능한 방법

# 기본과 동일
t_new = t.isel(level=1, longitude=slice(100,161), latitude=slice(30,71))
print(t_new)
print('\n')

# pandas와 동일
t_new = t.sel(level=300, longitude=slice(100,160), latitude=slice(60,20))
print(t_new)

<xarray.DataArray 't' (time: 1, latitude: 41, longitude: 61)>
array([[[218.66638, 218.81772, ..., 224.2054 , 224.30692],
        [218.16618, 218.19019, ..., 224.57639, 224.73697],
        ...,
        [244.94214, 245.00119, ..., 240.9406 , 241.03104],
        [244.6708 , 244.62466, ..., 240.82246, 240.84647]]], dtype=float32)
Coordinates:
  * longitude  (longitude) float32 100.0 101.0 102.0 103.0 ... 158.0 159.0 160.0
  * latitude   (latitude) float32 60.0 59.0 58.0 57.0 ... 23.0 22.0 21.0 20.0
    level      int32 300
  * time       (time) datetime64[ns] 2020-10-06
Attributes:
    units:          K
    long_name:      Temperature
    standard_name:  air_temperature


<xarray.DataArray 't' (time: 1, latitude: 41, longitude: 61)>
array([[[218.66638, 218.81772, ..., 224.2054 , 224.30692],
        [218.16618, 218.19019, ..., 224.57639, 224.73697],
        ...,
        [244.94214, 245.00119, ..., 240.9406 , 241.03104],
        [244.6708 , 244.62466, ..., 240.82246, 240.84647]]], dtype=floa