## numpy를 쓰는이유 

1. NumPY를 사용하면 다차원배열을 효율적으로 다룰 수 있고 C로 구현되어 있는 NumPY보다 Python의 list가 느리다. 
2. 코어부분이 C로 구현되어 동일한 연산을 하더라도 Python에 비해 속도가 빠르다.
3. 라이브러리에 구현되어있는 함수들을 활용해 짧고 간결한 코드 작성이 가능하다

In [24]:
import numpy as np

In [7]:
array1 = np.array([1,2,3])
array2 = np.array([[1,2,3]])

print(array1)
print(array2)

[1 2 3]
[[1 2 3]]


In [9]:
type(array1)


numpy.ndarray

In [11]:
print(array1.shape)     #1차원 array로 3개의 데이터를 가지고 있다.
print(array2.shape)     #2차원 array로 2개의 row, 3개의 column

(3,)
(1, 3)


## ndarray의 데이터 타입 

연산의 특성상 같은 데이터 타입만 가능 

In [13]:
list1 =['test',True,1]
print(type(list1))


<class 'list'>


In [20]:
array1 = np.array(list1)
print(type(array1))
print(array1,array1.dtype) #모두 문자형 값으로 변환되어 출력 >>디폴트 data type이 섞여 있을 경우 큰 data type으로 바뀐다.
                           #astype()통해 원하는 데이터로 변경가능 

<class 'numpy.ndarray'>
['test' 'True' '1'] <U4


## ndarray 생성


In [25]:
a1 = np.arange(10) #arange([start,] stop[, step,], dtype=None)  (for문과 동일) 
print(a1)
print(a1.shape)

[0 1 2 3 4 5 6 7 8 9]
(10,)


In [26]:
zero_array = np.zeros((3,3),dtype='int32')    #zeros(shape, dtype=float, order='C')
print(zero_array)

[[0 0 0]
 [0 0 0]
 [0 0 0]]


In [27]:
one_array = np.ones((3,3))  #zeros(shape, dtype=float, order='C')
print(one_array)

[[1. 1. 1.]
 [1. 1. 1.]
 [1. 1. 1.]]


In [28]:
np.empty((2,2))

array([[-2.68156159e+154,  1.73060098e-077],
       [ 9.88131292e-324,  2.82472054e-309]])

In [29]:
np.full((2,2),7)

array([[7, 7],
       [7, 7]])

In [30]:
np.eye(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [31]:
np.linspace(1,10,3)  #3등분

array([ 1. ,  5.5, 10. ])

### reshape 함수 활용

In [126]:
x = np.arange(1,16)
print(x)
print(x.shape)

[ 1  2  3  4  5  6  7  8  9 10 11 12 13 14 15]
(15,)


In [127]:
x1=x.reshape(5,3)
x1

array([[ 1,  2,  3],
       [ 4,  5,  6],
       [ 7,  8,  9],
       [10, 11, 12],
       [13, 14, 15]])

In [128]:
x2 = x.reshape(5,-1)  #-1 알아서 결정 
x2

array([[ 1,  2,  3],
       [ 4,  5,  6],
       [ 7,  8,  9],
       [10, 11, 12],
       [13, 14, 15]])

In [37]:
x1.shape

(5, 3)

order='C'(디폴트) :왼쪽에서 오른쪽 순으로 원소를 넣는다. 
order='F'는 위에서 아래 순으로 원소를 넣는다

In [41]:
y = np.arange(12).reshape((2,3,2),order='C')
y

array([[[ 0,  1],
        [ 2,  3],
        [ 4,  5]],

       [[ 6,  7],
        [ 8,  9],
        [10, 11]]])

In [42]:
z = np.arange(12).reshape((2,3,2),order = 'F')
z

array([[[ 0,  6],
        [ 2,  8],
        [ 4, 10]],

       [[ 1,  7],
        [ 3,  9],
        [ 5, 11]]])

![3D array](https://media.vlpt.us/images/mingki/post/e0cdf6b1-cfd0-4a64-82d1-0c489237f1c2/array_shape.png)

#### ravel, np.ravel
  - 다차원배열을 1차원으로 변경
  - 'order' 파라미터
    - 'C' - row 우선 변경
    - 'F - column 우선 변경

In [114]:
x = np.arange(15).reshape(3,5)
print(x)

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]]


In [123]:
np.ravel(x,order='C')

array([100,   1,   2,   3,   4,   5,   6,   7,   8,   9,  10,  11,  12,
        13,  14])

In [116]:
temp = x.ravel()
print(temp)

[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14]


In [118]:
temp[0]=100
print(temp,"\n")
print(x)

[100   1   2   3   4   5   6   7   8   9  10  11  12  13  14] 

[[100   1   2   3   4]
 [  5   6   7   8   9]
 [ 10  11  12  13  14]]


#### flatten
 - 다차원 배열을 1차원으로 변경
 - ravel과의 차이점: copy를 생성하여 변경함(즉 원본 데이터가 아닌 복사본을 반환)
 - 'order' 파라미터
   - 'C' - row 우선 변경
   - 'F - column 우선 변경

In [120]:
y = np.arange(15).reshape(3,5)
print(y)

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]]


In [124]:
y2 = y.flatten(order='F')
y2

array([ 0,  5, 10,  1,  6, 11,  2,  7, 12,  3,  8, 13,  4,  9, 14])

In [125]:
y2[0] =100
print(y)
print(y2)

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]]
[100   5  10   1   6  11   2   7  12   3   8  13   4   9  14]


#### axis 이해하기
 - 몇몇 함수에는 axis keyword 파라미터가 존재
 - axis값이 없는 경우에는 전체 데이터에 대해 적용
 - axis값이 있는 경우에는, 해당 axis를 **따라서** 연산 적용

* axis를 파라미터로 갖는 함수를 이용하기
 - 거의 대부분의 연산 함수들이 axis 파라미터를 사용
 - 이 경우, 해당 값이 주어졌을 때, 해당 axis를 **따라서** 연산이 적용
   - 따라서 결과는 해당 axis가 제외된 나머지 차원의 데이터만 남게 됨
 - 예) np.sum, np.mean, np.any 등등

In [130]:
x = np.arange(15)
print(x)

[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14]


In [133]:
#1차원 데이터에 적용 
np.sum(x,axis=0)

105

In [132]:
np.sum(x,axis=1)

AxisError: axis 1 is out of bounds for array of dimension 1

In [135]:
#행렬에 적용 
y = x.reshape(3,5)
print(y)
np.sum(y,axis=0)

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]]


array([15, 18, 21, 24, 27])

In [136]:
y = x.reshape(3, 5)
print(y)

np.sum(y, axis=1)

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]]


array([10, 35, 60])

In [137]:
#3차원 텐서에 적용
z = np.arange(36).reshape(3, 4, 3)
print(z)

np.sum(z, axis=0)


[[[ 0  1  2]
  [ 3  4  5]
  [ 6  7  8]
  [ 9 10 11]]

 [[12 13 14]
  [15 16 17]
  [18 19 20]
  [21 22 23]]

 [[24 25 26]
  [27 28 29]
  [30 31 32]
  [33 34 35]]]


array([[36, 39, 42],
       [45, 48, 51],
       [54, 57, 60],
       [63, 66, 69]])

In [138]:
np.sum(z, axis=1)

array([[ 18,  22,  26],
       [ 66,  70,  74],
       [114, 118, 122]])

In [139]:
np.sum(z, axis=2)

array([[  3,  12,  21,  30],
       [ 39,  48,  57,  66],
       [ 75,  84,  93, 102]])

In [140]:
np.sum(z, axis=-3)

array([[36, 39, 42],
       [45, 48, 51],
       [54, 57, 60],
       [63, 66, 69]])

* axis의 값이 튜플일 경우
 - 해당 튜플에 명시된 모든 axis에 대해서 연산

In [141]:
print(z)

[[[ 0  1  2]
  [ 3  4  5]
  [ 6  7  8]
  [ 9 10 11]]

 [[12 13 14]
  [15 16 17]
  [18 19 20]
  [21 22 23]]

 [[24 25 26]
  [27 28 29]
  [30 31 32]
  [33 34 35]]]


In [142]:
np.sum(z,axis=(0,2))

array([117, 144, 171, 198])

## Indexing

- 파이썬 리스트와 동일한 개념으로 사용
- ,를 사용하여 각 차원의 인덱스에 접근 가능

In [48]:
# 1차원 벡터 인덱싱
x = np.arange(10)
print(x)

x[3]=100
print(x)

[0 1 2 3 4 5 6 7 8 9]
[  0   1   2 100   4   5   6   7   8   9]


In [51]:
#2차원 행렬 인덱싱 
x = np.arange(10).reshape(2,5)
print(x)

x[1,1] = 100
print(x)

x[0,-1]=100
print(x)

[[0 1 2 3 4]
 [5 6 7 8 9]]
[[  0   1   2   3   4]
 [  5 100   7   8   9]]
[[  0   1   2   3 100]
 [  5 100   7   8   9]]


In [55]:
#3차원 텐서 인덱싱 
#Tensor : 데이터의 배열 
x = np.arange(36).reshape(3,4,3)
print(x)

x[1]

[[[ 0  1  2]
  [ 3  4  5]
  [ 6  7  8]
  [ 9 10 11]]

 [[12 13 14]
  [15 16 17]
  [18 19 20]
  [21 22 23]]

 [[24 25 26]
  [27 28 29]
  [30 31 32]
  [33 34 35]]]


array([[12, 13, 14],
       [15, 16, 17],
       [18, 19, 20],
       [21, 22, 23]])

\https://rekt77.tistory.com/102

#### 슬라이싱
 - 리스트, 문자열 slicing과 동일한 개념으로 사용
 - ,를 사용하여 각 차원 별로 슬라이싱 가능

In [57]:
#1차원 벡터 슬라이싱 
x = np.arange(10)
print(x)

x[1:]

[0 1 2 3 4 5 6 7 8 9]


array([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [69]:
#2차원 행렬 슬라이싱 
x = np.arange(10).reshape(2,5)
print(x,"\n")
print(x[0:2],"\n")
print(x[1:2],"\n")
print(x[:1,:2])


[[0 1 2 3 4]
 [5 6 7 8 9]] 

[[0 1 2 3 4]
 [5 6 7 8 9]] 

[[5 6 7 8 9]] 

[[0 1]]


In [70]:
#3차원 텐서 슬라이싱 
x = np.arange(54).reshape(2,9,3)
print(x)

[[[ 0  1  2]
  [ 3  4  5]
  [ 6  7  8]
  [ 9 10 11]
  [12 13 14]
  [15 16 17]
  [18 19 20]
  [21 22 23]
  [24 25 26]]

 [[27 28 29]
  [30 31 32]
  [33 34 35]
  [36 37 38]
  [39 40 41]
  [42 43 44]
  [45 46 47]
  [48 49 50]
  [51 52 53]]]


In [71]:
x[:1, :2, :]

array([[[0, 1, 2],
        [3, 4, 5]]])

In [73]:
x[0, :2, :2]

array([[0, 1],
       [3, 4]])

#### Boolean indexing
  - ndarry 인덱싱 시, bool 리스트를 전달하여 True인 경우만 필터링

In [83]:
x = np.random.randint(1,100,size=10)
print(x)

[ 6 27 56 66 99  2 50 85 24 74]


In [84]:
even_mask = x%2 ==0
print(even_mask)

[ True False  True  True False  True  True False  True  True]


####  다중조건 사용하기
 - 파이썬 논리 연산지인 and, or, not 키워드 사용 불가
 - & - AND 
 - | - OR 

In [85]:
x1= x[(x % 2 == 0) & (x < 30)]
x1

array([ 6,  2, 24])

In [87]:
x[(x < 10) | (x > 50)]

array([ 6, 56, 66, 99,  2, 85, 74])

#### 행렬의 정렬

In [88]:
org_array = np.array([5,7,2,4])
print("원본행렬 : {}".format(org_array))

원본행렬 : [5 7 2 4]


In [91]:
#sort 정렬   원본행렬은 변하지 않음 > 복사본 출력 
sort_array = np.sort(org_array)
print("변환된 행렬: {}".format(sort_array))
print("원본행렬 : {}".format(org_array))     

변환된 행렬: [2 4 5 7]
원본행렬 : [5 7 2 4]


In [92]:
#argsort 정렬   원본행렬이 변한다.
argsort_array = np.argsort(org_array)
print("변환된 행렬: {}".format(argsort_array))
print("원본행렬 : {}".format(argsort_array))


변환된 행렬: [2 3 0 1]
원본행렬 : [2 3 0 1]


#### 행렬 계산

In [93]:
a = np.array([[1,2,3],[4,5,6]])
b = np.array([[7,8],[9,10],[10,11]])

dot_product = np.dot(a,b)
dot_product


array([[ 55,  61],
       [133, 148]])

## numpy 서브 모듈

#### random 서브모듈

#### rand 함수
 - 0, 1사이의 분포로 랜덤한 ndarray 생성

In [95]:
np.random.rand(3,3,3)

array([[[0.08228854, 0.74233759, 0.16198888],
        [0.89614177, 0.54692949, 0.85843338],
        [0.32131042, 0.70861191, 0.82262817]],

       [[0.9196967 , 0.3284172 , 0.299888  ],
        [0.88592929, 0.18402801, 0.07513456],
        [0.24925456, 0.9567481 , 0.08673018]],

       [[0.10108266, 0.18280492, 0.24807538],
        [0.05777955, 0.03400153, 0.94751093],
        [0.82394716, 0.06550342, 0.99371865]]])

#### randn함수
 - n: normal distribution(정규분포)
 - 정규분포로 샘플링된 랜덤 ndarray 생성

In [96]:
np.random.randn(5)

array([-1.26063571,  0.60715216, -0.8141511 , -0.45055153,  0.97634789])

In [97]:
np.random.randn(3, 4, 2)

array([[[ 0.5956616 , -1.89540982],
        [ 1.63404495, -0.97353381],
        [-0.54512834, -0.09859509],
        [ 0.34976401, -0.36062712]],

       [[ 1.00008917, -0.09259677],
        [ 0.86033712,  0.26055709],
        [-1.35248959,  0.3873729 ],
        [ 1.0662075 ,  0.20402423]],

       [[-0.14124417, -0.39052796],
        [-1.44066328,  3.02151482],
        [-1.01804162, -1.79193589],
        [ 0.03414322,  0.09309077]]])

In [101]:
np.random.uniform(1.0, 3.0, size=(4, 5))  #연속확률분포

array([[1.35350481, 2.04127164, 2.10373613, 1.88257107, 1.97606253],
       [1.04859912, 2.22155622, 2.61221608, 2.87352395, 2.49309407],
       [1.51358784, 1.73427082, 1.85133898, 2.72451651, 1.39207639],
       [2.68686699, 2.47831107, 2.26066864, 2.62194179, 2.34643665]])

In [104]:
np.random.normal(size=(3, 4))  # 정규분푸 randn과 동일 

array([[-1.31856164, -0.25906928, -1.80572984,  1.68600342],
       [ 0.21511103,  1.04416924, -0.52845962,  1.06310701],
       [ 0.31028095, -0.3296915 ,  1.44755444,  0.03791518]])

In [105]:
np.random.randn(3, 4)

array([[-1.02849559, -0.96328463,  0.29775914, -1.45236819],
       [-0.27763272,  0.16153091,  0.77603483,  2.05686564],
       [ 1.15499214,  0.5306278 ,  1.12445284, -1.77132752]])

#### np.linalg.inv
 - 역행렬을 구할 때 사용
 - 모든 차원의 값이 같아야 함

In [106]:
x = np.random.rand(3,3,3)
print(x)

[[[0.19398524 0.66929822 0.65716178]
  [0.73012417 0.71023095 0.89344025]
  [0.6134039  0.06357874 0.35000236]]

 [[0.42505529 0.98999439 0.3503815 ]
  [0.54506911 0.73817086 0.46659395]
  [0.59640256 0.07768837 0.93675291]]

 [[0.28438123 0.3012788  0.23906698]
  [0.41392196 0.74239642 0.67172852]
  [0.83411295 0.42106014 0.47429297]]]


In [107]:
np.matmul(x,np.linalg.inv(x)) #행렬의 곱셈 dot 과의 차이 ?

x @ np.linalg.inv(x)  # @ 행렬의 곱 기호 

array([[[ 1.00000000e+00,  2.92674161e-16,  9.18663201e-16],
        [-1.06473808e-15,  1.00000000e+00,  1.99311078e-15],
        [-3.48327664e-16,  3.76695726e-15,  1.00000000e+00]],

       [[ 1.00000000e+00, -6.35369972e-16, -7.31088347e-17],
        [ 9.60216649e-16,  1.00000000e+00, -2.20259218e-16],
        [ 5.30045300e-17,  3.85152123e-16,  1.00000000e+00]],

       [[ 1.00000000e+00, -1.79537063e-16,  1.38301723e-18],
        [ 2.09325733e-16,  1.00000000e+00,  5.61316811e-17],
        [ 1.79517520e-16, -1.93608626e-18,  1.00000000e+00]]])

\https://blog.naver.com/PostView.nhn?blogId=cjh226&logNo=221356884894&parentCategoryNo=&categoryNo=17&viewDate=&isShowPopularPosts=false&from=postView

#### np.linalg.solve
 - Ax = B 형태의 선형대수식 솔루션을 제공
 - 예제) 호랑이와 홍합의 합 : 25 호랑이 다리와 홍합 다리의 합은 64
   - x + y = 25
   - 2x + 4y = 64
   
 $$\begin{pmatrix} 1 & 1 \\ 2 & 4 \end{pmatrix}\begin{pmatrix} x \\ y \end{pmatrix}= \begin{pmatrix} 25 \\ 64 \end{pmatrix}$$


In [110]:
A = np.array([[1,1],[2,4]])
B = np.array([25,64])

In [111]:
x = np.linalg.solve(A,B)
print(x)

[18.  7.]


In [113]:
np.allclose(A@x,B)

True