## ndarray 배열 파일에 저장 및 불러오기
#### 바이너리 파일로 저장/불러오기

##### 한개 파일에 한개 배열 저장

-   **np.save("파일경로", 배열)**
    -   배열을 raw 바이너리 형식으로 저장한다.
    -   파일명에 확장자로 npy를 붙인다.

##### 한개 파일에 여러개 배열 저장

-   **np.savez("파일경로", 이름=배열, 이름=배열, ...)**
    -   여러개의 배열을 한개 파일에 저장
    -   파일명에 확장자로 npz가 붙는다.
    -   내부적으로 압축해서 저장한다.

##### 불러오기

-   **np.load("파일경로")**
    -   파일에 저장된 배열을 불러온다.
    -   npz의 경우 저장된 배열들이 묶어서 반환 된다. 저장 할 때 배열에 지정한 이름을 이용해 조회

#### 텍스트 파일로 저장하고 불러오기

-   **np.savetxt("파일경로", 배열 [, delimiter='공백'])**
    -   텍스트로(csv) 저장.
    -   **2차원 배열을 저장하면** 각 원소는 공백을 기준으로 나뉘며 delimiter 속성으로 구분자를 지정할 수 있다. 한줄에 한행씩 저장한다.
    -   **1차원 배열을 저장하면** 한 줄에 한개의 원소씩 저장한다. delimiter는 설정은 2차원 배열에만 사용한다.
    -   **1차원과 2차원 배열만 저장 가능하다.** (3차원 이상은 저장이 안된다.)
-   **np.loadtxt("파일경로" [,dtype=float, delimiter=공백)**
    -   불러오기. (저장할 때 delimiter와 동일한 delimiter를 설정해야 제대로 읽을 온다.)


In [1]:
import numpy as np

a = np.random.normal(size=(3,4,5))
print(a)

[[[-5.89116922e-01  1.68543054e+00  1.34078312e+00 -3.66332089e-01
    5.26507855e-02]
  [ 4.10269218e-01 -1.24003917e-01  2.34555314e-01  1.03454370e-01
   -2.64067502e-01]
  [-8.30191869e-01  1.67491818e-03 -5.36096943e-01 -7.87602317e-01
   -6.72396148e-01]
  [ 1.46926849e+00 -2.56211341e-01 -1.15197098e+00 -4.25084411e-02
    5.22753480e-01]]

 [[ 2.48759226e-02  9.21007433e-01 -2.24502737e-01  1.12726149e+00
   -2.49352743e-01]
  [-1.43784886e-01 -9.43838318e-01 -8.61191080e-02 -1.30771508e+00
    9.02183116e-01]
  [ 5.64089497e-01 -1.72270642e+00  1.03633929e+00 -2.23647923e+00
   -4.49865617e-01]
  [ 5.64621290e-01 -1.59622964e+00 -8.80016163e-02  1.31074039e-02
   -2.05560546e-01]]

 [[-1.38850922e+00 -5.42762049e-01  1.06515404e+00  1.44599230e+00
    4.15129329e-01]
  [-3.61849838e-01 -5.10910382e-01 -5.03896611e-02  2.11385475e-02
    5.73240687e-01]
  [ 8.15950955e-01  1.68872966e+00 -1.33885216e-01  1.78434748e+00
   -1.11685460e+00]
  [-8.92978390e-01  3.29026367e+00 -4.6

In [2]:
# 한개 파일에 한개 배열 저장.
np.save("arr",a)

In [3]:
# 불러오기
load_a = np.load("arr.npy")
print(load_a.shape)
load_a

(3, 4, 5)


array([[[-5.89116922e-01,  1.68543054e+00,  1.34078312e+00,
         -3.66332089e-01,  5.26507855e-02],
        [ 4.10269218e-01, -1.24003917e-01,  2.34555314e-01,
          1.03454370e-01, -2.64067502e-01],
        [-8.30191869e-01,  1.67491818e-03, -5.36096943e-01,
         -7.87602317e-01, -6.72396148e-01],
        [ 1.46926849e+00, -2.56211341e-01, -1.15197098e+00,
         -4.25084411e-02,  5.22753480e-01]],

       [[ 2.48759226e-02,  9.21007433e-01, -2.24502737e-01,
          1.12726149e+00, -2.49352743e-01],
        [-1.43784886e-01, -9.43838318e-01, -8.61191080e-02,
         -1.30771508e+00,  9.02183116e-01],
        [ 5.64089497e-01, -1.72270642e+00,  1.03633929e+00,
         -2.23647923e+00, -4.49865617e-01],
        [ 5.64621290e-01, -1.59622964e+00, -8.80016163e-02,
          1.31074039e-02, -2.05560546e-01]],

       [[-1.38850922e+00, -5.42762049e-01,  1.06515404e+00,
          1.44599230e+00,  4.15129329e-01],
        [-3.61849838e-01, -5.10910382e-01, -5.03896611e-02,


In [4]:
b = np.arange(1,100)
c = np.ones(shape=(3,2))
a.shape, b.shape, c.shape

((3, 4, 5), (99,), (3, 2))

In [5]:
# 한개의 파일에 여러개 배열 저장.
np.savez("arr_list", one=a, two=b, three=c)

In [None]:
# 불러오기
load_arr_list = np.load("arr_list.npz")
# 저장할 때 지정한 배열의 이름들 조회
load_arr_list.files

['one', 'two', 'three']

In [None]:
#indexing
load_a2 = load_arr_list['one']
load_b = load_arr_list['two']
load_c = load_arr_list['three']

In [8]:
load_a2.shape, load_b.shape, load_c.shape

((3, 4, 5), (99,), (3, 2))

In [None]:
load_b
load_c

array([[1., 1.],
       [1., 1.],
       [1., 1.]])

In [13]:
# csv 저장. -> 2차원까지만 가능.
np.savetxt("c.csv", load_c, delimiter=",") 
# delimiter를 지정하지 않으면 공백으로 값을 구분

In [14]:
load_c2 = np.loadtxt("c.csv", delimiter=",")
load_c2

array([[1., 1.],
       [1., 1.],
       [1., 1.]])

### 인덱싱과 슬라이싱을 이용한 배열의 원소 조회 및 변경

#### 배열 인덱싱(Indexing)
- ##### index
    - 배열내의 원소의 식별번호
    - 0부터 시작
- ##### indexing 
    – index를 이용해 원소 조회
    - [] 표기법 사용
- ##### 구문 
    - ndarray[index]
    - 양수는 지정한 index의 값을 조회한다. 
    - 음수는 뒤부터 조회한다. 
        - 마지막 index가 -1
    - 2차원배열의 경우 
        - arr[행index, 열index]
        - 파이썬 리스트와 차이점 (list[행][열])
    - N차원 배열의 경우
        - arr[0축 index, 1축 index, ..., n축 index]
- ##### 팬시(fancy) 인덱싱
    - **여러개의 원소를 한번에 조회**할 경우 리스트에 담아 전달한다.
    - 다차원 배열의 경우 각 축별로 list로 지정
    - `arr[[1,2,3,4,5]]`
        - 1차원 배열(vector): 1,2,3,4,5 번 index의 원소들 한번에 조회
    - `arr[[0,3],[ 1,4]]`
        - [0,3] - 1번축 index list, [1,4] - 2번축 index list
        - 2차원 배열(matrix): [0,1], [3,4] 의 원소들 조회


In [15]:
import numpy as np
# 30개 (30, ) ->(5, 6)
np.arange(30).reshape(5,6) 
#reshape 하기전 size와 reshape이후의 size만 같으면 됨. = 개수만 변하지 않으면 됨.

array([[ 0,  1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11],
       [12, 13, 14, 15, 16, 17],
       [18, 19, 20, 21, 22, 23],
       [24, 25, 26, 27, 28, 29]])

In [16]:
import numpy as np
a = np.arange(30).reshape(5, 6) 
 # 1차원배열 -> 5 X 6의 2차원 배열로 shape을 변경
a

array([[ 0,  1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11],
       [12, 13, 14, 15, 16, 17],
       [18, 19, 20, 21, 22, 23],
       [24, 25, 26, 27, 28, 29]])

In [17]:
a.shape

(5, 6)

In [19]:
a[0]


array([0, 1, 2, 3, 4, 5])

In [20]:
a[0,2]

np.int64(2)

In [None]:
a[[3,2], [4,5]] -> # [3,4], [2,5]

array([22, 17])

In [22]:
a[[1,3,4], [1,3,4]] #a[ 0축 index , 1축 index, 2축 index ]
# [1,1] [3,3], [4,4]

array([ 7, 21, 28])

In [None]:
# 3차원 fancy indexing
aa[[1, 2, 3, 4], [5,6,7,8], [1,2,3,4]]

IndexError: too many indices for array: array is 2-dimensional, but 3 were indexed

In [25]:
a[[1,3], 2]
#0축 : fancy indexing , 1:indexing
#[1,2],[3,2]

array([ 8, 20])

In [26]:
a[1, 2]

np.int64(8)

In [27]:
a[[1,3,-1]]#0축 :[1,3,-1], 1축 :다

array([[ 6,  7,  8,  9, 10, 11],
       [18, 19, 20, 21, 22, 23],
       [24, 25, 26, 27, 28, 29]])

In [29]:
a[0]


array([0, 1, 2, 3, 4, 5])

In [30]:
a[-1]

array([24, 25, 26, 27, 28, 29])

#### 슬라이싱
- 배열의 원소들을 범위로 조회한다.
- ndarry[start : stop : step ]
    - start : 시작 인덱스. 기본값 0
    - stop : 끝 index. stop은 포함하지 않는다. 기본값 마지막 index
    - step : 증감 간격. 기본값 1

#### 다차원 배열 슬라이싱
- 각 축에 slicing 문법 적용
- 2차원의 경우
    - arr [행 slicing, 열 slicing]
        - `arr[:3, :]`
    - `,` 로 행과 열을 구분한 다중 슬라이싱 사용
- 다차원의 경우
    - arr[0축 slicing, 1축 slicing, ..., n축 slicing]
- slicing과 indexing 문법은 같이 쓸 수 있다.
- 모든 축에 index를 지정할 필요는 없다.

In [31]:
a

array([[ 0,  1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11],
       [12, 13, 14, 15, 16, 17],
       [18, 19, 20, 21, 22, 23],
       [24, 25, 26, 27, 28, 29]])

In [34]:
a[:3] #0축

array([[ 0,  1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11],
       [12, 13, 14, 15, 16, 17]])

In [35]:
a[0, :3]#0축: index , 1축 : slicing

array([0, 1, 2])

In [36]:
a[1:4,  1:5] #0축, 1축: slicing

array([[ 7,  8,  9, 10],
       [13, 14, 15, 16],
       [19, 20, 21, 22]])

In [37]:
#값 변경
a[0, 3] = 300
a

array([[  0,   1,   2, 300,   4,   5],
       [  6,   7,   8,   9,  10,  11],
       [ 12,  13,  14,  15,  16,  17],
       [ 18,  19,  20,  21,  22,  23],
       [ 24,  25,  26,  27,  28,  29]])

In [38]:
b = a[1:4,  1:5].copy() # copy(): deep copy #copy를 해야 원본을 안바꿈.
b

array([[ 7,  8,  9, 10],
       [13, 14, 15, 16],
       [19, 20, 21, 22]])

In [39]:
b[0,0] = 1000
b #copy를 하지 않고 하면 원본이 바껴버림.

array([[1000,    8,    9,   10],
       [  13,   14,   15,   16],
       [  19,   20,   21,   22]])

#### 슬라이싱은 원본에 대한 View 
- slicing한 결과는 새로운 배열을 생성하는 것이 아니라 기존 배열을 참조한다.
- slicing한 배열의 원소를 변경하면 원본 배열의 것도 바뀐다.
- 배열.copy()
    - 배열을 복사한 새로운 배열 생성
    - 복사후 처리하면 원본이 바뀌지 않는다.

 #### boolean indexing
- Index 연산자에 같은 형태(shape)의 Boolean 배열을 넣으면 True인 index의 값만 조회 (False가 있는 index는 조회하지 않는다.)
- ndarray내의 원소 중에서 원하는 조건의 값들만 조회할 때 사용
- boolean indexing을 masking이라고도 한다.   

#### 넘파이 논리연산자
- 파이썬의 and, or, not은 사용할 수 없다.
- `&`: and연산
- `|`: or 연산
- `~`: not 연산
- 피연산자는 `( )`로 묶어야 한다.

In [40]:
import numpy as np

x = np.array([1, 2, 3, 4, 5])
b_idx = [True, True, False, True, False]
x[b_idx]

array([1, 2, 4])

In [41]:
# element-wise(원소별) 연산 == 벡터화(Vectorization)
x + 10
x > 3

array([False, False, False,  True,  True])

In [42]:
x[x > 3]

array([4, 5])

In [43]:
 # 0 ~ 100-1 사이의 정수 15개로 구성된 2차원배열
arr = np.random.randint(100, size=(3, 15)) 
arr

array([[54, 20, 57, 97, 69, 76, 97, 50, 26, 65, 13, 80, 67, 70, 14],
       [10, 27, 93, 42, 60, 13,  2,  1, 53, 94,  8, 90, 54, 93, 95],
       [79, 96,  9, 69, 44, 66, 73, 93, 17, 59, 65, 20, 94, 52, 23]],
      dtype=int32)

In [44]:
arr[arr >= 50] 
#data frame과 차이점: 데이터프레임은 형태를 유지해줬지만 이것은 true인 값만 return

array([54, 57, 97, 69, 76, 97, 50, 65, 80, 67, 70, 93, 60, 53, 94, 90, 54,
       93, 95, 79, 96, 69, 66, 73, 93, 59, 65, 94, 52], dtype=int32)

In [None]:
arr[(arr>=10) & (arr<=30)]

array([54, 20, 57, 69, 76, 50, 26, 65, 13, 80, 67, 70, 14, 10, 27, 42, 60,
       13, 53, 90, 54, 79, 69, 44, 66, 73, 17, 59, 65, 20, 52, 23],
      dtype=int32)

In [46]:
arr[(arr < 10) | (arr > 90)]

array([97, 97, 93,  2,  1, 94,  8, 93, 95, 96,  9, 93, 94], dtype=int32)

In [48]:
arr[~((arr < 10) | (arr > 90))]

array([54, 20, 57, 69, 76, 50, 26, 65, 13, 80, 67, 70, 14, 10, 27, 42, 60,
       13, 53, 90, 54, 79, 69, 44, 66, 73, 17, 59, 65, 20, 52, 23],
      dtype=int32)

#### np.where()
- **True의 index 조회**
    - np.where(boolean 배열) - True인 index를 반환
        - 반환타입: Tuple . True인 index들을 담은 ndarray를 축별로 Tuple에 묶어서 반환한다.
    - boolean연산과 같이사용하여 배열내에 **특정 조건을 만족하는 값들을 index(위치)를 조회할 때** 사용한다. 
- **True와 False를 다른 값으로 변환**
    - np.where(boolean 배열, True를 대체할 값, False를 대체할 값)
        - 배열내의 True를 True를 대체할 값으로 False를 False를 대체할 값 으로 변환한다.

In [47]:
a = np.where([True, True, False])  # True의 위치(index) 를 반환 => 튜플
a

(array([0, 1]),)

In [49]:
arr.shape
arr

array([[54, 20, 57, 97, 69, 76, 97, 50, 26, 65, 13, 80, 67, 70, 14],
       [10, 27, 93, 42, 60, 13,  2,  1, 53, 94,  8, 90, 54, 93, 95],
       [79, 96,  9, 69, 44, 66, 73, 93, 17, 59, 65, 20, 94, 52, 23]],
      dtype=int32)

In [50]:
# 3 X 15
# arr배열에서 70이상인 값들의 index?
r = np.where(arr >= 70)
r

(array([0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2]),
 array([ 3,  5,  6, 11, 13,  2,  9, 11, 13, 14,  0,  1,  6,  7, 12]))

In [51]:
for idx0, idx1 in zip(r[0], r[1]):
    print(idx0, idx1, arr[idx0, idx1], sep=", ")

0, 3, 97
0, 5, 76
0, 6, 97
0, 11, 80
0, 13, 70
1, 2, 93
1, 9, 94
1, 11, 90
1, 13, 93
1, 14, 95
2, 0, 79
2, 1, 96
2, 6, 73
2, 7, 93
2, 12, 94


In [52]:
np.where(arr>=70, "70이상", "70미만")  
# 조건이 True인 값은 "70이상", False인 값은 "70미만" 으로 변경

array([['70미만', '70미만', '70미만', '70이상', '70미만', '70이상', '70이상', '70미만',
        '70미만', '70미만', '70미만', '70이상', '70미만', '70이상', '70미만'],
       ['70미만', '70미만', '70이상', '70미만', '70미만', '70미만', '70미만', '70미만',
        '70미만', '70이상', '70미만', '70이상', '70미만', '70이상', '70이상'],
       ['70이상', '70이상', '70미만', '70미만', '70미만', '70미만', '70이상', '70이상',
        '70미만', '70미만', '70미만', '70미만', '70이상', '70미만', '70미만']],
      dtype='<U4')

#### 기타
- np.any(boolean 배열)
    - 배열에 True가 하나라도 있으면 True 반환
    - 배열내에 특정조건을 만족하는 값이 하나 이상 있는지 확인할 때 사용
- np.all(boolean 배열)
    - 배열의 모든 원소가 True이면 True 반환
    - 배열내의 모든 원소가 특정 조건을 만족하는지 확인 할 때 사용

In [61]:
# np.any([True, False, False])
# np.any([False, False, False])
np.any(arr > 90)  # arr배열에 원소중에 90보다 큰값이 하나라도 있나?

np.True_

In [65]:
# np.all([True, False, True])
# np.all([True, True, True])
# np.all(arr>90) # arr배열의 모든 원소들이 90 보다 큰값인가?
np.all(arr>0)

np.True_

In [66]:
arr

array([[54, 20, 57, 97, 69, 76, 97, 50, 26, 65, 13, 80, 67, 70, 14],
       [10, 27, 93, 42, 60, 13,  2,  1, 53, 94,  8, 90, 54, 93, 95],
       [79, 96,  9, 69, 44, 66, 73, 93, 17, 59, 65, 20, 94, 52, 23]],
      dtype=int32)

#### 배열의 형태(shape) 변경

- 배열의 형태(shape)을 변경 할 때 원소의 개수가 달라지는 형태로 변경은 할 수 없다.

#### reshape()을 이용한 차원 변경
- `numpy.reshape(a, newshape)` 또는 `ndarray.reshape(newshape)`
    - a: 형태를 변경할 배열
    - newshape : 변경할 형태 설정. 
        - 원소의 개수를 유지하는 shape으로만 변환 가능하다.
        - 각 axis(축)의 size를 지정할 때 **하나의 축의 size를 -1**로 줄 수있다. 그러면 알아서 축 size를 설정해 준다. (전체 size / 지정한 axis들 size의 곱)

    - 둘다 원본을 바꾸지 않고 reshape한 새로운 배열을 만들어 반환한다.

In [3]:
import numpy as np
x = np.arange(20)
print(x.shape)
x

(20,)


array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19])

In [68]:
r1 = np.reshape(x, (4, 5)) #다양한 자료구조에 적용.
print(r1.shape)
r1

(4, 5)


array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19]])

In [4]:
r2 = x.reshape(2, 2, 5)
print(r2.shape)
r2

(2, 2, 5)


array([[[ 0,  1,  2,  3,  4],
        [ 5,  6,  7,  8,  9]],

       [[10, 11, 12, 13, 14],
        [15, 16, 17, 18, 19]]])

In [5]:
r100 = x.reshape(5, 2, 2)
r100.shape, r100

((5, 2, 2),
 array([[[ 0,  1],
         [ 2,  3]],
 
        [[ 4,  5],
         [ 6,  7]],
 
        [[ 8,  9],
         [10, 11]],
 
        [[12, 13],
         [14, 15]],
 
        [[16, 17],
         [18, 19]]]))

In [70]:
x.size, r1.size, r2.size

(20, 20, 20)

In [71]:
# size가 1인 axis ==> dummy axis
r3 = x.reshape(1, 1, 1, 1, 1, 20) 
print(r3.shape, r3.ndim) # ndim : 배열의 차원수, 축수.

(1, 1, 1, 1, 1, 20) 6


In [72]:
r4 = x.reshape(2, 2, -1)  # -1: size를 계산해서 넣어줘. -1은 한번밖에 못옴.
print(r4.shape)
r4

(2, 2, 5)


array([[[ 0,  1,  2,  3,  4],
        [ 5,  6,  7,  8,  9]],

       [[10, 11, 12, 13, 14],
        [15, 16, 17, 18, 19]]])

In [75]:
r4.reshape(20)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19])

In [77]:
r4.reshape(-1)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19])

In [78]:
r4.reshape(4,5)

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19]])

In [79]:
# 다차원을 1차원으로 변경
r4.flatten()

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19])

In [None]:
r4.reshape(4, 6)    # 개수가 맞지 않아서 오류남.

ValueError: cannot reshape array of size 20 into shape (4,6)

#### 차원 늘리기(확장)
- dummy axis(축)을 늘린다.
    - dummy axis: size가 1인 axis 를 말한다.

- **reshape() 을 이용해 늘릴 수 있다.**
- **indexer와 np.newaxis 변수를 이용해 늘린다.**
    - ndarray\[..., np.newaxis\] 또는 ndarray\[np.newaxis, ...\]
        - 맨앞 또는 맨 마지막에 dummy axis(축)을 늘릴때 사용한다.
        - 축을 늘리려는 위치에 np.newaxis를 지정하고 `...` 으로 원본 배열의 shape을 유지함을 알려준다.
        
- **np.expand_dims(대상배열, axis=늘릴축)**
    - dummy axis를 원하는 axis에 추가한다.  

In [81]:
import numpy as np
x.shape

(20,)

In [83]:
r1 = x[np.newaxis, ...] 
r1.shape

(1, 20)

In [85]:
r2 = x[np.newaxis, np.newaxis, np.newaxis, ...]
r2.shape, r2

((1, 1, 1, 20),
 array([[[[ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14,
           15, 16, 17, 18, 19]]]]))

In [86]:
r3 = x[..., np.newaxis] 
r3.shape

(20, 1)

In [87]:
r4 = x[np.newaxis, ..., np.newaxis]  
r4.shape  #차원을 늘려야하는데 shape을 바꾸지 않고 차원을 늘리는것.

(1, 20, 1)

In [88]:
x2 = x.reshape(4,5)
r5 = x2[np.newaxis, ...]
r5.shape

(1, 4, 5)

In [89]:
# dummy 축을 중간에 추가 -> ... 대신에 다른 형식
r6 = x2[:, np.newaxis ,:]
r6.shape

(4, 1, 5)

In [91]:
# dummy axis를 삽입하는 개념.
np.expand_dims(x, axis=0).shape   

(1, 20)

In [92]:
np.expand_dims(x, axis=-1).shape

(20, 1)

In [93]:
np.expand_dims(x2, axis=1).shape

(4, 1, 5)

#### 차원 줄이기(축소)

##### numpy.squeeze(배열, axis=None), 배열객체.squeeze(axis=None)
- 배열에서 지정한 축(axis)을 제거하여 차원(rank)를 줄인다.
- 제거하려는 축의 size는 1이어야 한다.
- 축을 지정하지 않으면 size가 1인 모든 축을 제거한다.
    - (3,1,1,2) => (3,2)

In [103]:
r2 = np.arange(20).reshape(1, 4, 5, 1, 1, 1)
r10 = r2.squeeze()
 # axis=[0, -1] 은 안됨.
r10.shape   # 1인 것들을 없애줌.

(4, 5)

In [104]:
r2.squeeze(axis = -1).shape

(1, 4, 5, 1, 1)

In [105]:
r2.shape, r2.squeeze(axis=0).shape
# r2. squeeze(axis=[0,-1]).shape  axis를 한번에 여러개 지정할 수 없다.

((1, 4, 5, 1, 1, 1), (4, 5, 1, 1, 1))

#### 전치(Transpose) 연산
- 축의 위치를 바꾸는 연산을 말한다. 주로 2차원 배열(행렬) 에서 행과 열의 위치를 바꿀때 사용한다.
- $X^T$ 로 표시
- 구문
    - `배열.T`

In [127]:
y = x.reshape(4, 5)
y.shape

(4, 5)

In [128]:
y

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19]])

In [129]:
y2 = y.T
y2.shape

(5, 4)

In [130]:
y2


array([[ 0,  5, 10, 15],
       [ 1,  6, 11, 16],
       [ 2,  7, 12, 17],
       [ 3,  8, 13, 18],
       [ 4,  9, 14, 19]])

In [131]:
y3 = np.arange(2*3*4).reshape(2, 3, 4)
y3.shape

(2, 3, 4)

In [132]:
y3.T.shape

(4, 3, 2)

In [134]:
r= np.transpose(y3, axes=(0, 2, 1)) 
# 값: 원래 axis(위치), tuple index: 이동할 axis
r.shape
# y3 >>> 0->0, 2->1, 1->2


(2, 4, 3)

### 배열 연산

##### 벡터화 - 벡터 연산
- 같은 형태(shape)의 배열(벡터, 행렬)간의 연산은 같은 index의 원소끼리 연산을 한다. 
    - **Element-wise(원소별) 연산** 이라고도 한다.
    - 배열간의 연산시 배열의 형태가 같아야 한다.
    - 배열의 형태가 다른 경우 Broadcast 조건을 만족하면 연산이 가능하다.

### 벡터/행렬과 스칼라간 연산

$$
\begin{align}
x=
\begin{bmatrix}
1 \\
2 \\
3 \\
\end{bmatrix}
\end{align}
$$

$$
\begin{align}
10 - x = 10 -
\begin{bmatrix}
1 \\
2 \\
3 \\
\end{bmatrix}
=
\begin{bmatrix}
10 - 1 \\
10 - 2 \\
10 - 3 \\
\end{bmatrix}
=
\begin{bmatrix}
9 \\
8 \\
7 \\
\end{bmatrix}
\end{align}
$$

$$
\begin{align}
10 \times
\begin{bmatrix}
1 & 2 \\
3 & 4
\end{bmatrix}
=
\begin{bmatrix}
10\times1 & 10\times2 \\
10\times3 & 10\times4 \\
\end{bmatrix}
=
\begin{bmatrix}
10 & 20 \\
30 & 40
\end{bmatrix}
\end{align}
$$

### 벡터/행렬 간의 연산
$$
\begin{align}
\begin{bmatrix}
1 \\
2 \\
3 \\
\end{bmatrix}
+
\begin{bmatrix}
10 \\
20 \\
30 \\
\end{bmatrix}
=
\begin{bmatrix}
1 + 10 \\
2 + 20 \\
3 + 30 \\
\end{bmatrix}
=
\begin{bmatrix}
11 \\
22 \\
33 \\
\end{bmatrix}
\end{align}
$$

$$
\begin{align}
\begin{bmatrix}
1 \\
2 \\
3 \\
\end{bmatrix}
-
\begin{bmatrix}
10 \\
20 \\
30 \\
\end{bmatrix}
=
\begin{bmatrix}
1 - 10 \\
2 - 20 \\
3 - 30 \\
\end{bmatrix}
=
\begin{bmatrix}
-9 \\
-18 \\
-27 \\
\end{bmatrix}
\end{align}
$$

$$
\begin{align}
\begin{bmatrix}
1 & 2 \\
3 & 4
\end{bmatrix}
+
\begin{bmatrix}
10 & 20 \\
30 & 40 \\
\end{bmatrix}
=
\begin{bmatrix}
1+10 & 2+20 \\
3+30 & 4+40
\end{bmatrix}
=
\begin{bmatrix}
11 & 22 \\
33 & 44
\end{bmatrix}
\end{align}
$$

In [135]:
import numpy as np

x = np.arange(10).reshape(2,5)
y = np.arange(10,20).reshape(2,5)
z = np.arange(8).reshape(2, 4)

In [136]:
print(x)
print(y)

[[0 1 2 3 4]
 [5 6 7 8 9]]
[[10 11 12 13 14]
 [15 16 17 18 19]]


In [22]:
x + y

array([[10, 12, 14, 16, 18],
       [20, 22, 24, 26, 28]])

In [137]:
x > z # shape이 다르면 계산이 기본적으로는 안됨. (Error 잘 확인하기.)

ValueError: operands could not be broadcast together with shapes (2,5) (2,4) 

#### 내적 (Dot product) 연산

- `@` 연산자 또는 `numpy.dot(벡터/행렬, 벡터/행렬)`  함수 사용
- 같은 index의 원소끼리 곱한뒤 결과를 모두 더한다.
- 벡터간의 내적의 결과는 스칼라가 된다.
- $ x \cdot y $ 또는 $x^T y$로 표현
- 조건
    - 두 벡터의 차원(원소의개수)가 같아야 한다.
    - 앞의 벡터는 행벡터 뒤의 벡터는 열벡터 이어야 한다.
        - numpy 에서는 vector 끼리 연산시 앞의 벡터는 행벡터로 뒤의 벡터는 열벡터로 인식해 처리한다.

            
$$
\begin{align}
x =
\begin{bmatrix}
1 \\ 2 \\ 3 \\
\end{bmatrix}
,\;\;\;
y = 
\begin{bmatrix}
4 \\ 5 \\ 6 \\
\end{bmatrix} 
\end{align}
$$

$$
\begin{align}
x^T y = 
\begin{bmatrix}
1 & 2 & 3
\end{bmatrix}
\begin{bmatrix}
4 \\ 5 \\ 6 \\
\end{bmatrix} 
= 1 \times 4 + 2 \times 5 + 3 \times 6 = 32
\end{align}
$$            

#### 행렬 곱
- 같은 index의 앞 행렬의 행과 뒤 행렬의 열간에 내적을 한다.
- 행렬과 행렬을 내적하면 그 결과는 행렬이 된다.
- 앞 행렬의 열수와 뒤 행렬의 행수가 같아야 한다.
- 내적의 결과의 형태(shape)는 앞행렬의 행수와 뒤 행렬의 열의 형태를 가진다.
    - (3 x 2)와 (2 x 5) = (3 x 5)
    - (1 x 5)와 (5 x 1) = (1 x 1)  

$$
\begin{align}
A = \begin{bmatrix} 1 & 2 & 3 \\ 4 & 5 & 6 \end{bmatrix}
\end{align}
$$

$$
\begin{align}
B = \begin{bmatrix} 1 & 2 \\ 3 & 4 \\ 5 & 6 \end{bmatrix}
\end{align}
$$

$$
\begin{align}
A\cdot B = \begin{bmatrix} 1\times 1 + 2\times 3 + 3 \times 5 & 1\times 2 + 2\times 4 + 3 \times 6  \\ 4\times 1 + 5\times 3 + 6 \times 5  & 4\times 2 + 5\times 4 + 6 \times 6  \end{bmatrix} = 
\begin{bmatrix} 22 & 28 \\ 49 & 64 \end{bmatrix}
\end{align}
$$    

In [138]:
a = np.arange(5)
b = np.arange(5)
print(a, b)
a @ b

[0 1 2 3 4] [0 1 2 3 4]


np.int64(30)

In [142]:
np.dot(a, b), np.sum(a * b) # = a@b =np.dot(a,b)


(np.int64(30), np.int64(30))

In [143]:
# a + b
# np.add(a, b)

In [144]:
x = np.arange(20).reshape(4,5)
y = np.arange(20).reshape(4,5)
z = np.arange(20).reshape(5,4)

In [145]:
x @ y #(4,5)@(4,5)

ValueError: matmul: Input operand 1 has a mismatch in its core dimension 0, with gufunc signature (n?,k),(k,m?)->(n?,m?) (size 4 is different from 5)

In [151]:
r = x @ z #(4,5) @ (5,4)
r.shape, r

((4, 4),
 array([[120, 130, 140, 150],
        [320, 355, 390, 425],
        [520, 580, 640, 700],
        [720, 805, 890, 975]]))

In [150]:
r2 = np.dot(x, z)
r2

array([[120, 130, 140, 150],
       [320, 355, 390, 425],
       [520, 580, 640, 700],
       [720, 805, 890, 975]])

#### 내적의 예
##### 가중합 
가격: 사과 2000, 귤 1000, 수박 10000    
개수: 사과 10, 귤 20, 수박 2    
총가격?    
2000*10 + 1000 * 20 + 10000 * 2

In [152]:
p = np.array([2000, 1000, 10000])
c = np.array([10, 20, 2])
p @ c

np.int64(60000)

In [157]:
p[..., np.newaxis] 
# (3, )->(3, 1) / 더미축 추가해서
# 원래 갖고 있는 값 -> 곱하는 값은 그만큼 중요하니깐 값을 뻥튀기를 하는것.(영향을 주는 값.)

array([[ 2000],
       [ 1000],
       [10000]])

In [156]:
c = np.array([[10, 20, 2], 
             [5, 2, 10],
             [7, 30, 10],
             [10, 20, 30]])
c @ p[..., np.newaxis]  # 4 X 3  @ 3 X 1 

array([[ 60000],
       [112000],
       [144000],
       [340000]])

#### 기술통계함수

- 통계 결과를 계산해 주는 함수들
- 구문
    1. `np.전용함수(배열)`
        - np.sum(x)
    2. 일부는 `배열.전용함수()` 구문 지원
        - x.sum()
    - 공통 매개변수
        - axis=None: 다차원 배열일 때 통계값을 계산할 axis(축)을 지정한다. None(기본값)은 flatten후 계산한다.
        
- 배열의 원소 중 누락된 값(NaN - Not a Number) 있을 경우 연산의 결과는 NaN으로 나온다.        
- 안전모드 함수
    - 배열내 누락된 값(NaN)을 무시하고 계산
        
- https://docs.scipy.org/doc/numpy-1.15.1/reference/routines.statistics.html

In [158]:
np.sum([1,2,3])

np.int64(6)

In [None]:
np.random.seed(0)
arr = np.random.choice(100, size=10)
arr = arr.astype('float32')
arr.shape

(10,)

In [160]:
arr

array([44., 47., 64., 67., 67.,  9., 83., 21., 36., 87.], dtype=float32)

In [161]:
arr.sum(), np.sum(arr)

(np.float32(525.0), np.float32(525.0))

In [162]:
arr.max(), arr.min()

(np.float32(87.0), np.float32(9.0))

In [164]:
arr.argmax(), arr.argmin()

(np.int64(9), np.int64(5))

In [165]:
arr.mean()

np.float32(52.5)

In [163]:
np.average(a=[80, 90, 100], weights=[3, 3, 1]) #가중 평균

np.float64(87.14285714285714)

In [166]:
x = np.array([80, 90, 100])
w = np.array([3, 3, 1])
(x @ w) / np.sum(w) 

np.float64(87.14285714285714)

In [167]:
arr

array([44., 47., 64., 67., 67.,  9., 83., 21., 36., 87.], dtype=float32)

In [168]:
arr[2] = np.nan  #결측치
arr

array([44., 47., nan, 67., 67.,  9., 83., 21., 36., 87.], dtype=float32)

In [169]:
print(np.sum(arr), np.nansum(arr))
print(np.mean(arr), np.nanmean(arr))
print(np.std(arr), np.nanstd(arr))
print(np.argmax(arr), np.nanargmax(arr)) 
print(np.max(arr), np.nanmax(arr))

nan 461.0
nan 51.22222
nan 25.354279
2 9
nan 87.0


In [170]:
arr2 = np.arange(1, 13).reshape(4, 3)
arr2

array([[ 1,  2,  3],
       [ 4,  5,  6],
       [ 7,  8,  9],
       [10, 11, 12]])

In [171]:
np.max(arr2) 
arr2.sum()

np.int64(78)

In [172]:
np.max(arr2, axis=0) 

array([10, 11, 12])

In [173]:
np.max(arr2, axis=1)

array([ 3,  6,  9, 12])

In [175]:
arr2.sum(), arr2.sum(axis=0), arr2.sum(axis=1)

(np.int64(78), array([22, 26, 30]), array([ 6, 15, 24, 33]))

#### 브로드캐스팅
- 사전적의미 : 퍼트린다. 전파한다. 
- 형태(shape)가 다른 배열 연산시 배열의 형태를 맞춰 연산이 가능하도록 한다.
    - 모든 형태를 다 맞추는 것은 아니고 조건이 맞아야 한다.
- 조건
    1. 두 배열의 축의 개수가 다르면 작은 축의개수를 가진 배열의 형태(shape)의 앞쪽을 1로 채운다.
        - (2, 3)  + (3, ) => (2, 3) + (1, 3)
    2. 두 배열의 차원 수가 같지만 각 차원의 크기가 다른 경우 어느 한 쪽에 1이 있으면 그 1이 다른 배열의 크기와 일치하도록 늘어난다.
         - 1 이외의 나머지 축의 크기는 같아야 한다.
         - 늘리면서 원소는 복사한다.
         - (2, 3) + (1, 3) => (2, 3)+(2, 3)

In [176]:
x = np.array([1, 2, 3])  
y = np.array([1, 5])    
x + y   # 크기가 같지 않으니 error

ValueError: operands could not be broadcast together with shapes (3,) (2,) 

In [178]:
a = np.ones((3, 2))
b = np.ones((2,)) 
a.shape, b.shape, a + b

((3, 2),
 (2,),
 array([[2., 2.],
        [2., 2.],
        [2., 2.]]))