# **Numpy (Quickstart Tutorial)**

* 공부한 포스팅: https://laboputer.github.io/machine-learning/2020/04/25/numpy-quickstart/#item3

## 1. 기초 개념

In [1]:
import numpy as np

### 1) example

In [4]:
# (3, 5) 크기의 2D 배열
a= np.arange(15).reshape(3,5)
a

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

* ndarray.shape : 배열의 각 축(axis)의 크기
* ndarray.ndim : 축의 개수(Dimension)
* ndarray.dtype : 각 요소(Element)의 타입
* ndarray.itemsize : 각 요소(Element)의 타입의 bytes 크기
* ndarray.size : 전체 요소(Element)의 개수

![image.png](attachment:image.png)

In [7]:
a.ndim

2

In [5]:
a.shape

(3, 5)

In [8]:
a.dtype

dtype('int32')

In [9]:
a.itemsize

4

In [10]:
a.size

15

In [11]:
type(a)

numpy.ndarray

### 2) 배열 생성하기

![image.png](attachment:image.png)

* np.array()를 이용하여 튜플이나 리스트 입력으로 numpy.ndarray를 만들 수 있습니다

In [12]:
a = np.array([2,3,4])
a

array([2, 3, 4])

In [18]:
a.dtype

dtype('int32')

In [19]:
b= np.array([1.2,3.5,5.1])
b

array([1.2, 3.5, 5.1])

In [20]:
b.dtype

dtype('float64')

* 주의할점 연속된 데이터(시퀀스형)으로 입력하여 numpy를 만들어야한다.

![image.png](attachment:image.png)

In [15]:
# 오류 발생하는 경우 example
a= np.array(1,2,3,4)
a

TypeError: array() takes from 1 to 2 positional arguments but 4 were given

In [17]:
# 수정하기
a= np.array([1,2,3,4])
a

array([1, 2, 3, 4])

* 2D 배열이나 3D배열등도 마찬가지로 ok

In [22]:
b= np.array([(1,2,3),(4,5,6)])
b

array([[1, 2, 3],
       [4, 5, 6]])

* 복소수값도 생성 가능하다
`dtype = complex`

In [24]:
c= np.array([[1,2],[3,4]], dtype=complex)
c

array([[1.+0.j, 2.+0.j],
       [3.+0.j, 4.+0.j]])

* `np.zeros(shape)` : 0으로 구성된 N차원 배열 생성
* `np.ones(shape)` : 1로 구성된 N차원 배열 생성
* `np.empty(shape)` : 초기화되지 않은 N차원 배열 생성

In [26]:
np.zeros((3,4))

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [28]:
np.ones((2,3,4), dtype=np.int16)

array([[[1, 1, 1, 1],
        [1, 1, 1, 1],
        [1, 1, 1, 1]],

       [[1, 1, 1, 1],
        [1, 1, 1, 1],
        [1, 1, 1, 1]]], dtype=int16)

In [29]:
np.empty((2,3))

array([[1.5, 2. , 3. ],
       [4. , 5. , 6. ]])

* `np.arange()`: N 만큼 차이나는 숫자 생성
* `np.linspace()`: N 등분한 숫자 생성

In [31]:
np.arange(10,30,5) #10이상 30미만까지 5씩 차이

array([10, 15, 20, 25])

In [32]:
np.arange(0,2,0.3)

array([0. , 0.3, 0.6, 0.9, 1.2, 1.5, 1.8])

In [34]:
np.linspace(0,99,100) #0부터 99까지 100등분

array([ 0.,  1.,  2.,  3.,  4.,  5.,  6.,  7.,  8.,  9., 10., 11., 12.,
       13., 14., 15., 16., 17., 18., 19., 20., 21., 22., 23., 24., 25.,
       26., 27., 28., 29., 30., 31., 32., 33., 34., 35., 36., 37., 38.,
       39., 40., 41., 42., 43., 44., 45., 46., 47., 48., 49., 50., 51.,
       52., 53., 54., 55., 56., 57., 58., 59., 60., 61., 62., 63., 64.,
       65., 66., 67., 68., 69., 70., 71., 72., 73., 74., 75., 76., 77.,
       78., 79., 80., 81., 82., 83., 84., 85., 86., 87., 88., 89., 90.,
       91., 92., 93., 94., 95., 96., 97., 98., 99.])

### 3) 배열 출력하기

In [35]:
a= np.arange(6)
a

array([0, 1, 2, 3, 4, 5])

In [36]:
b= np.arange(12).reshape(4,3)
b

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11]])

In [38]:
c= np.arange(24).reshape(2,3,4)
c

array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]],

       [[12, 13, 14, 15],
        [16, 17, 18, 19],
        [20, 21, 22, 23]]])

* 데이터는 그대로 유지한 채 차원을 쉽게 변경해줍니다. `np.ndarray.reshape()`

In [40]:
np.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [41]:
np.arange(10).reshape(2,5)

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

### 4) 기본연산 (Basic Operations)

* 수치연산은 각 요소들끼리 연산이 적용된다.

In [43]:
a= np.array([20,30,40,50])
b= np.arange(4)
print(a)
print(b)

[20 30 40 50]
[0 1 2 3]


In [44]:
c= a-b
c

array([20, 29, 38, 47])

In [45]:
b**2 

array([0, 1, 4, 9], dtype=int32)

In [46]:
10*np.sin(a)

array([ 9.12945251, -9.88031624,  7.4511316 , -2.62374854])

In [47]:
a<35

array([ True,  True, False, False])

* `*` : 각각의 원소끼리 곱셈 (Elementwise product, Hadamard product)
* `@` : 행렬 곱셈 (Matrix product)
* `.dot()` : 행렬 내적 (dot product)

In [48]:
a= np.array([[1,1],[0,1]])
b= np.array([[2,0],[3,4]])
print(a)
print(b)

[[1 1]
 [0 1]]
[[2 0]
 [3 4]]


In [49]:
a*b

array([[2, 0],
       [0, 4]])

In [50]:
a@b

array([[5, 4],
       [3, 4]])

In [51]:
a.dot(b)

array([[5, 4],
       [3, 4]])

* .dtype이 다르면 타입이 큰쪽(int < float < complex)으로 자동으로 변경된다.

In [52]:
a= np.ones(3,dtype=np.int32)
b= np.linspace(0, np.pi, 3) #0부터 파이까지 3등분
print(a)
print(b)

[1 1 1]
[0.         1.57079633 3.14159265]


In [53]:
a+b

array([1.        , 2.57079633, 4.14159265])

In [57]:
(a+b).dtype

dtype('float64')

In [58]:
c= np.exp((a+b)*1j)
c

array([ 0.54030231+0.84147098j, -0.84147098+0.54030231j,
       -0.54030231-0.84147098j])

In [59]:
c.dtype

dtype('complex128')

* `.sum()`: 모든 요소의 합
* `.min()`: 모든 요소 중 최소값
* `.max()`: 모든 요소 중 최대값
* `.argmin()`: 모든 요소 중 최소값의 인덱스
* `.argmax()`: 모든 요소 중 최대값의 인덱스
* `.cumsum()`: 모든 요소의 누적합

![image.png](attachment:image.png)

In [60]:
a= np.arange(8).reshape(2,4)**2
a

array([[ 0,  1,  4,  9],
       [16, 25, 36, 49]], dtype=int32)

In [61]:
a.sum()

140

In [62]:
a.min()

0

In [63]:
a.max()

49

In [65]:
a.argmin()

0

In [64]:
a.argmax()

7

In [66]:
a.cumsum()

array([  0,   1,   5,  14,  30,  55,  91, 140], dtype=int32)

* axis를 입력하여 계산이 가능하다!
* axis=0은 열 기준 / axis=1은 행 기준

In [67]:
b= np.arange(12).reshape(3,4)
b

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [68]:
b.sum(axis=0)

array([12, 15, 18, 21])

In [69]:
b.sum(axis=1)

array([ 6, 22, 38])

In [70]:
b.max(axis=0)

array([ 8,  9, 10, 11])

In [71]:
b.max(axis=1)

array([ 3,  7, 11])

In [76]:
b.argmax(axis=0)

array([2, 2, 2, 2], dtype=int64)

In [75]:
b.argmax(axis=1)

array([3, 3, 3], dtype=int64)

### 5) 범용 함수 (Universal Functions)

* Math operations: https://numpy.org/doc/1.18/reference/ufuncs.html#available-ufuncs

In [84]:
a= np.arange(9).reshape(3,3)
a

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [86]:
b= np.arange(10,19).reshape(3,3)
b

array([[10, 11, 12],
       [13, 14, 15],
       [16, 17, 18]])

In [92]:
np.add(a,b)

(array([[0, 1, 2],
        [3, 4, 5],
        [6, 7, 8]]),
 array([[10, 11, 12],
        [13, 14, 15],
        [16, 17, 18]]))

In [94]:
np.subtract(a,b)

array([[-10, -10, -10],
       [-10, -10, -10],
       [-10, -10, -10]])

In [95]:
np.sqrt(a) #제곱근

array([[0.        , 1.        , 1.41421356],
       [1.73205081, 2.        , 2.23606798],
       [2.44948974, 2.64575131, 2.82842712]])

In [99]:
np.positive(a) #제곱

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

### 6) 인덱싱, 슬라이싱, 반복

In [111]:
np.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [102]:
#예제 생성
a= np.arange(10)**3
a

array([  0,   1,   8,  27,  64, 125, 216, 343, 512, 729], dtype=int32)

In [101]:
a[2]

8

In [103]:
a[2:5]

array([ 8, 27, 64], dtype=int32)

In [104]:
a[:6:2]

array([ 0,  8, 64], dtype=int32)

In [106]:
#0,2,4인덱스 값을 1000으로 변경
a[:6:2]=1000
a

array([1000,    1, 1000,   27, 1000,  125,  216,  343,  512,  729],
      dtype=int32)

In [113]:
for i in a:
    print(i**(1/3.))

9.999999999999998
1.0
9.999999999999998
3.0
9.999999999999998
5.0
5.999999999999999
6.999999999999999
7.999999999999999
8.999999999999998


* `np.fromfunction()`인덱스 번호를 가지고 함수 정의하여 생성하기 

In [114]:
def f(x,y):
    return 10*x +y

b= np.fromfunction(f, (5,4), dtype=int)

In [116]:
b # x좌표는 십의 자리 / y좌표는 일의 자리

array([[ 0,  1,  2,  3],
       [10, 11, 12, 13],
       [20, 21, 22, 23],
       [30, 31, 32, 33],
       [40, 41, 42, 43]])

* `...`은 차원이 너무 많을 때 실수를 줄여줄 수 있습니다. 만약 x가 5차원이라고 할 때 아래 처럼 표현할 수 있습니다.

In [117]:
c = np.array( [[[  0,  1,  2],        
                [ 10, 12, 13]],
               [[100,101,102],
                [110,112,113]]])

In [118]:
c.shape

(2, 2, 3)

In [119]:
c[1, ...]

array([[100, 101, 102],
       [110, 112, 113]])

* 반복문은 axis=0 기준으로 적용

In [121]:
b

array([[ 0,  1,  2,  3],
       [10, 11, 12, 13],
       [20, 21, 22, 23],
       [30, 31, 32, 33],
       [40, 41, 42, 43]])

In [120]:
for i in b:
    print(i)

[0 1 2 3]
[10 11 12 13]
[20 21 22 23]
[30 31 32 33]
[40 41 42 43]


In [122]:
for i in b.flat:
    print(i)

0
1
2
3
10
11
12
13
20
21
22
23
30
31
32
33
40
41
42
43


## 2. Shape 변경

### 1) shape 변경

* `np.ndarray`의 shape를 다양한 방법으로 변경할 수 있습니다.
* `.ravel()`은 1차원으로, `.reshape()`는 지정한 차원으로, `.T`는 전치(Transpose) 변환을 할 수 있습니다. 
* 하지만 데이터 원본은 변경시키지 않고 복사하여 연산한 결과가 return 됩니다.

![image.png](attachment:image.png)

In [135]:
rg= np.random.default_rng(1) #난수생성

In [136]:
a= np.floor(10 * rg.random((3,4)))
a

array([[5., 9., 1., 9.],
       [3., 4., 8., 4.],
       [5., 0., 7., 5.]])

In [137]:
a.shape

(3, 4)

In [139]:
a.ravel() #1차원으로 바꾸기

array([5., 9., 1., 9., 3., 4., 8., 4., 5., 0., 7., 5.])

In [140]:
a.reshape(2,6)

array([[5., 9., 1., 9., 3., 4.],
       [8., 4., 5., 0., 7., 5.]])

In [141]:
a.T

array([[5., 3., 5.],
       [9., 4., 0.],
       [1., 8., 7.],
       [9., 4., 5.]])

* `.resize()`는 위의 .reshape()와 동일한 기능이지만 원본 데이터 자체를 변경시킵니다. 
* `.reshape()`를 할 때 차원값에 -1를 입력하면 -1 부분은 자동으로 차원을 채워줍니다. 당연히 여러 차원에서 -1는 하나만 사용할 수 있고 나머지가 지정된 결과를 바탕으로 자동으로 계산해줍니다

In [142]:
a

array([[5., 9., 1., 9.],
       [3., 4., 8., 4.],
       [5., 0., 7., 5.]])

In [144]:
a.resize((2,6)) #reshape와 다르게 원본을 변경함
a

array([[5., 9., 1., 9., 3., 4.],
       [8., 4., 5., 0., 7., 5.]])

In [145]:
a.reshape(3,-1) #-1라고 써도 저절로 4라고 채워줌

array([[5., 9., 1., 9.],
       [3., 4., 8., 4.],
       [5., 0., 7., 5.]])

### 2) 데이터 쌓기

* `np.vstack()`: 데이터 합치기, axis=0 (행)기준으로 쌓음
* `np.hstack()`: 데이터 합치기, axis=1 (열)기준으로 쌓음

In [146]:
#난수 a 생성
a= np.floor(10*rg.random((2,2)))
a

array([[3., 7.],
       [3., 4.]])

In [147]:
#난수 b 생성
b= np.floor(10*rg.random((2,2)))
b

array([[1., 4.],
       [2., 2.]])

In [148]:
np.vstack((a,b))

array([[3., 7.],
       [3., 4.],
       [1., 4.],
       [2., 2.]])

In [149]:
np.hstack((a,b))

array([[3., 7., 1., 4.],
       [3., 4., 2., 2.]])

### 3) 데이터 쪼개기

* `np.vsplit(행열,x)`: axis=0 기준으로 x등분
* `np.hsplit(행열, x)`:axis=1 기준으로 x등분

In [160]:
#난수 생성
npr= np.random.default_rng(1)

In [174]:
a= np.floor(10*npr.random((6,4)))
a

array([[8., 1., 3., 3.],
       [6., 1., 3., 0.],
       [2., 4., 1., 6.],
       [3., 7., 6., 4.],
       [8., 6., 8., 3.],
       [5., 1., 9., 2.]])

In [179]:
np.vsplit(a,3)

[array([[8., 1., 3., 3.],
        [6., 1., 3., 0.]]),
 array([[2., 4., 1., 6.],
        [3., 7., 6., 4.]]),
 array([[8., 6., 8., 3.],
        [5., 1., 9., 2.]])]

In [178]:
np.hsplit(a,2)

[array([[8., 1.],
        [6., 1.],
        [2., 4.],
        [3., 7.],
        [8., 6.],
        [5., 1.]]),
 array([[3., 3.],
        [3., 0.],
        [1., 6.],
        [6., 4.],
        [8., 3.],
        [9., 2.]])]

## 3. 데이터 복사

### 1) 복사되지 않는 경우

In [184]:
a = np.array([[ 0,  1,  2,  3],
              [ 4,  5,  6,  7],
              [ 8,  9, 10, 11]])

In [185]:
b=a
b is a

True

In [186]:
print(id(a))
print(id(b))

2391510046832
2391510046832


### 2) 얕은 복사(View or Shallow Copy)

* `view()`를 통해 Shallow Copy를 할 수 있습니다.

In [188]:
a

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [193]:
c= a.view()
c

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [190]:
c is a

False

In [192]:
print(id(c))
print(id(a))

2391507697072
2391510046832


### 3) 깊은 복사 - Deep Copy

* `.copy()`를 이용하면 Deep Copy를 할 수 있습니다

In [194]:
d = a.copy()
d

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [195]:
d is a

False

In [196]:
print(id(d))
print(id(a))

2391430845808
2391510046832


## 브로드캐스팅 (Broadcasting rules)

![image.png](attachment:image.png)

In [197]:
np.array([1,2,3,4,5])*2

array([ 2,  4,  6,  8, 10])

In [198]:
np.arange(4)

array([0, 1, 2, 3])

In [199]:
np.arange(4)* 2

array([0, 2, 4, 6])

In [200]:
np.ones((3,4)) * np.arange(4)

array([[0., 1., 2., 3.],
       [0., 1., 2., 3.],
       [0., 1., 2., 3.]])

In [201]:
np.arange(3).reshape((3,1))*np.arange(3)

array([[0, 0, 0],
       [0, 1, 2],
       [0, 2, 4]])

## 5. 인덱싱 심화편

### 1) 인덱스 배열로 인덱싱하기

![image.png](attachment:image.png)

In [203]:
#예제1
a= np.arange(12)**2
a

array([  0,   1,   4,   9,  16,  25,  36,  49,  64,  81, 100, 121],
      dtype=int32)

In [204]:
i = np.array([1,1,3,8,5])
a[i]

array([ 1,  1,  9, 64, 25], dtype=int32)

In [205]:
# 예제2
j = np.array([[3,4],[9,7]])
j

array([[3, 4],
       [9, 7]])

In [206]:
a[j]

array([[ 9, 16],
       [81, 49]], dtype=int32)

In [207]:
# 예제3
a=np.arange(5)
a

array([0, 1, 2, 3, 4])

In [208]:
a[[1,3,4]]=0
a

array([0, 0, 2, 0, 0])

In [213]:
# 예제4
b= np.arange(5)
b

array([0, 1, 2, 3, 4])

In [214]:
b[[0,1,2]]+=1
b

array([1, 2, 3, 3, 4])

### 2) Bool로 인덱싱

![image.png](attachment:image.png)

In [216]:
a= np.arange(12).reshape(3,4)
b= a>4

In [217]:
print(a)
print(b)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
[[False False False False]
 [False  True  True  True]
 [ True  True  True  True]]


In [218]:
a[b]

array([ 5,  6,  7,  8,  9, 10, 11])

In [219]:
a[b]=0
a

array([[0, 1, 2, 3],
       [4, 0, 0, 0],
       [0, 0, 0, 0]])

### 3) .ix_( ) 함수

* 서로 다른 Shape를 가진 배열들을 묶어서 처리할 수 있습니다.

In [220]:
a = np.array([2,3,4,5])
b = np.array([8,5,4])
c = np.array([5,4,6,8,3])

In [221]:
ax,bx,cx = np.ix_(a,b,c)

In [222]:
ax

array([[[2]],

       [[3]],

       [[4]],

       [[5]]])

In [223]:
bx

array([[[8],
        [5],
        [4]]])

In [224]:
cx

array([[[5, 4, 6, 8, 3]]])

In [225]:
print(ax.shape, bx.shape, cx.shape)

(4, 1, 1) (1, 3, 1) (1, 1, 5)


In [226]:
result = ax + bx * cx
result

array([[[42, 34, 50, 66, 26],
        [27, 22, 32, 42, 17],
        [22, 18, 26, 34, 14]],

       [[43, 35, 51, 67, 27],
        [28, 23, 33, 43, 18],
        [23, 19, 27, 35, 15]],

       [[44, 36, 52, 68, 28],
        [29, 24, 34, 44, 19],
        [24, 20, 28, 36, 16]],

       [[45, 37, 53, 69, 29],
        [30, 25, 35, 45, 20],
        [25, 21, 29, 37, 17]]])

In [227]:
result[3,2,4]

17

In [229]:
#따로따로 계산했을때랑 값 비교해보자
a[3]+b[2]*c[4]

17

## 6. 선형대수(Linear Algebra)

In [231]:
a= np.array([[1.0,2.0],[3.0,4.0]])
a

array([[1., 2.],
       [3., 4.]])

In [232]:
a.transpose()

array([[1., 3.],
       [2., 4.]])

In [233]:
np.linalg.inv(a)

array([[-2. ,  1. ],
       [ 1.5, -0.5]])

In [235]:
u = np.eye(2)
u

array([[1., 0.],
       [0., 1.]])

In [236]:
j = np.array([[1.0,-1.0],[1.0,0.0]])
j

array([[ 1., -1.],
       [ 1.,  0.]])

In [237]:
j@j

array([[ 0., -1.],
       [ 1., -1.]])

In [238]:
np.trace(u)

2.0

In [239]:
y= np.array([[5.],[7.]])
np.linalg.solve(a,y)

array([[-3.],
       [ 4.]])

In [241]:
np.linalg.eig(j)

(array([0.5+0.8660254j, 0.5-0.8660254j]),
 array([[0.70710678+0.j        , 0.70710678-0.j        ],
        [0.35355339-0.61237244j, 0.35355339+0.61237244j]]))