## numpy를 쓰는이유 

1. NumPY를 사용하면 다차원배열을 효율적으로 다룰 수 있고 C로 구현되어 있는 NumPY보다 Python의 list가 느리다. 
2. 코어부분이 C로 구현되어 동일한 연산을 하더라도 Python에 비해 속도가 빠르다.
3. 라이브러리에 구현되어있는 함수들을 활용해 짧고 간결한 코드 작성이 가능하다

In [1]:
import numpy as np

In [2]:
array1 = np.array([1,2,3])
array2 = np.array([[1,2,3]])

print(array1)
print(array2)

[1 2 3]
[[1 2 3]]


In [3]:
type(array1)


numpy.ndarray

In [4]:
print(array1.shape)     #1차원 array로 3개의 데이터를 가지고 있다.
print(array2.shape)     #2차원 array로 2개의 row, 3개의 column

(3,)
(1, 3)


## ndarray의 데이터 타입 

연산의 특성상 같은 데이터 타입만 가능 

In [5]:
list1 =['test',True,1]
print(type(list1))


<class 'list'>


In [6]:
array1 = np.array(list1)
print(type(array1))
print(array1,array1.dtype) #모두 문자형 값으로 변환되어 출력 >>디폴트 data type이 섞여 있을 경우 큰 data type으로 바뀐다.
                           #astype()통해 원하는 데이터로 변경가능 

<class 'numpy.ndarray'>
['test' 'True' '1'] <U4


## ndarray 생성


In [7]:
a1 = np.arange(10) #arange([start,] stop[, step,], dtype=None)  (for문과 동일) 
print(a1)
print(a1.shape)

[0 1 2 3 4 5 6 7 8 9]
(10,)


In [8]:
zero_array = np.zeros((3,3),dtype='int32')    #zeros(shape, dtype=float, order='C')
print(zero_array)

[[0 0 0]
 [0 0 0]
 [0 0 0]]


In [9]:
one_array = np.ones((3,3))  #zeros(shape, dtype=float, order='C')
print(one_array)

[[1. 1. 1.]
 [1. 1. 1.]
 [1. 1. 1.]]


In [10]:
np.empty((2,2))

array([[-2.68156159e+154, -2.68156159e+154],
       [ 1.48219694e-323,  0.00000000e+000]])

In [11]:
np.full((2,2),7)

array([[7, 7],
       [7, 7]])

In [12]:
np.eye(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [13]:
np.linspace(1,10,3)  #3등분

array([ 1. ,  5.5, 10. ])

### reshape 함수 활용

In [14]:
x = np.arange(1,16)
print(x)
print(x.shape)

[ 1  2  3  4  5  6  7  8  9 10 11 12 13 14 15]
(15,)


In [15]:
x1=x.reshape(5,3)
x1

array([[ 1,  2,  3],
       [ 4,  5,  6],
       [ 7,  8,  9],
       [10, 11, 12],
       [13, 14, 15]])

In [16]:
x2 = x.reshape(5,-1)  #-1 알아서 결정 
x2

array([[ 1,  2,  3],
       [ 4,  5,  6],
       [ 7,  8,  9],
       [10, 11, 12],
       [13, 14, 15]])

In [17]:
x1.shape

(5, 3)

order='C'(디폴트) :왼쪽에서 오른쪽 순으로 원소를 넣는다. 
order='F'는 위에서 아래 순으로 원소를 넣는다

In [18]:
y = np.arange(12).reshape((2,3,2),order='C')
y

array([[[ 0,  1],
        [ 2,  3],
        [ 4,  5]],

       [[ 6,  7],
        [ 8,  9],
        [10, 11]]])

In [19]:
z = np.arange(12).reshape((2,3,2),order = 'F')
z

array([[[ 0,  6],
        [ 2,  8],
        [ 4, 10]],

       [[ 1,  7],
        [ 3,  9],
        [ 5, 11]]])

![3D array](https://media.vlpt.us/images/mingki/post/e0cdf6b1-cfd0-4a64-82d1-0c489237f1c2/array_shape.png)

#### ravel, np.ravel
  - 다차원배열을 1차원으로 변경
  - 'order' 파라미터
    - 'C' - row 우선 변경
    - 'F - column 우선 변경

In [20]:
x = np.arange(15).reshape(3,5)
print(x)

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]]


In [21]:
np.ravel(x,order='C')

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

In [22]:
temp = x.ravel()
print(temp)

[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14]


In [23]:
temp[0]=100
print(temp,"\n")
print(x)

[100   1   2   3   4   5   6   7   8   9  10  11  12  13  14] 

[[100   1   2   3   4]
 [  5   6   7   8   9]
 [ 10  11  12  13  14]]


#### flatten
 - 다차원 배열을 1차원으로 변경
 - ravel과의 차이점: copy를 생성하여 변경함(즉 원본 데이터가 아닌 복사본을 반환)
 - 'order' 파라미터
   - 'C' - row 우선 변경
   - 'F - column 우선 변경

In [24]:
y = np.arange(15).reshape(3,5)
print(y)

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]]


In [25]:
y2 = y.flatten(order='F')
y2

array([ 0,  5, 10,  1,  6, 11,  2,  7, 12,  3,  8, 13,  4,  9, 14])

In [26]:
y2[0] =100
print(y)
print(y2)

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]]
[100   5  10   1   6  11   2   7  12   3   8  13   4   9  14]


#### axis 이해하기
 - 몇몇 함수에는 axis keyword 파라미터가 존재
 - axis값이 없는 경우에는 전체 데이터에 대해 적용
 - axis값이 있는 경우에는, 해당 axis를 **따라서** 연산 적용

* axis를 파라미터로 갖는 함수를 이용하기
 - 거의 대부분의 연산 함수들이 axis 파라미터를 사용
 - 이 경우, 해당 값이 주어졌을 때, 해당 axis를 **따라서** 연산이 적용
   - 따라서 결과는 해당 axis가 제외된 나머지 차원의 데이터만 남게 됨
 - 예) np.sum, np.mean, np.any 등등

In [33]:
x = np.arange(15)
print(x)

[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14]


In [34]:
#1차원 데이터에 적용 
np.sum(x,axis=0)

105

In [35]:
#행렬에 적용 
y = x.reshape(3,5)
print(y)
k =np.sum(y,axis=0)
print(k)
np.sum(k)

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]]
[15 18 21 24 27]


105

In [36]:
y = x.reshape(3, 5)
print(y)

np.sum(y, axis=1)

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]]


array([10, 35, 60])

In [37]:
#3차원 텐서에 적용
z = np.arange(36).reshape(3, 4, 3)
print(z)

np.sum(z, axis=0)


[[[ 0  1  2]
  [ 3  4  5]
  [ 6  7  8]
  [ 9 10 11]]

 [[12 13 14]
  [15 16 17]
  [18 19 20]
  [21 22 23]]

 [[24 25 26]
  [27 28 29]
  [30 31 32]
  [33 34 35]]]


array([[36, 39, 42],
       [45, 48, 51],
       [54, 57, 60],
       [63, 66, 69]])

In [38]:
np.sum(z, axis=1)

array([[ 18,  22,  26],
       [ 66,  70,  74],
       [114, 118, 122]])

In [39]:
np.sum(z, axis=2)

array([[  3,  12,  21,  30],
       [ 39,  48,  57,  66],
       [ 75,  84,  93, 102]])

In [40]:
np.sum(z, axis=-3)

array([[36, 39, 42],
       [45, 48, 51],
       [54, 57, 60],
       [63, 66, 69]])

* axis의 값이 튜플일 경우
 - 해당 튜플에 명시된 모든 axis에 대해서 연산

In [41]:
print(z)

[[[ 0  1  2]
  [ 3  4  5]
  [ 6  7  8]
  [ 9 10 11]]

 [[12 13 14]
  [15 16 17]
  [18 19 20]
  [21 22 23]]

 [[24 25 26]
  [27 28 29]
  [30 31 32]
  [33 34 35]]]


In [42]:
np.sum(z,axis=(0,2))

array([117, 144, 171, 198])

## Indexing

- 파이썬 리스트와 동일한 개념으로 사용
- ,를 사용하여 각 차원의 인덱스에 접근 가능

In [43]:
# 1차원 벡터 인덱싱
x = np.arange(10)
print(x)

x[3]=100
print(x)

[0 1 2 3 4 5 6 7 8 9]
[  0   1   2 100   4   5   6   7   8   9]


In [44]:
#2차원 행렬 인덱싱 
x = np.arange(10).reshape(2,5)
print(x)

x[1,1] = 100
print(x)

x[0,-1]=100
print(x)

[[0 1 2 3 4]
 [5 6 7 8 9]]
[[  0   1   2   3   4]
 [  5 100   7   8   9]]
[[  0   1   2   3 100]
 [  5 100   7   8   9]]


In [45]:
#3차원 텐서 인덱싱 
#Tensor : 데이터의 배열 
x = np.arange(36).reshape(3,4,3)
print(x)

x[1]

[[[ 0  1  2]
  [ 3  4  5]
  [ 6  7  8]
  [ 9 10 11]]

 [[12 13 14]
  [15 16 17]
  [18 19 20]
  [21 22 23]]

 [[24 25 26]
  [27 28 29]
  [30 31 32]
  [33 34 35]]]


array([[12, 13, 14],
       [15, 16, 17],
       [18, 19, 20],
       [21, 22, 23]])

\https://rekt77.tistory.com/102

#### 슬라이싱
 - 리스트, 문자열 slicing과 동일한 개념으로 사용
 - ,를 사용하여 각 차원 별로 슬라이싱 가능

In [46]:
#1차원 벡터 슬라이싱 
x = np.arange(10)
print(x)

x[1:]

[0 1 2 3 4 5 6 7 8 9]


array([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [47]:
#2차원 행렬 슬라이싱 
x = np.arange(10).reshape(2,5)
print(x,"\n")
print(x[0:2],"\n")
print(x[1:2],"\n")
print(x[:1,:2])


[[0 1 2 3 4]
 [5 6 7 8 9]] 

[[0 1 2 3 4]
 [5 6 7 8 9]] 

[[5 6 7 8 9]] 

[[0 1]]


In [48]:
#3차원 텐서 슬라이싱 
x = np.arange(54).reshape(2,9,3)
print(x)

[[[ 0  1  2]
  [ 3  4  5]
  [ 6  7  8]
  [ 9 10 11]
  [12 13 14]
  [15 16 17]
  [18 19 20]
  [21 22 23]
  [24 25 26]]

 [[27 28 29]
  [30 31 32]
  [33 34 35]
  [36 37 38]
  [39 40 41]
  [42 43 44]
  [45 46 47]
  [48 49 50]
  [51 52 53]]]


In [49]:
x[:1, :2, :]

array([[[0, 1, 2],
        [3, 4, 5]]])

In [50]:
x[0, :2, :2]

array([[0, 1],
       [3, 4]])

#### Boolean indexing
  - ndarry 인덱싱 시, bool 리스트를 전달하여 True인 경우만 필터링

In [51]:
x = np.random.randint(1,100,size=10)
print(x)

[78 39 21  1 80 38 31 97 48 90]


In [52]:
even_mask = x%2 ==0
print(even_mask)

[ True False False False  True  True False False  True  True]


####  다중조건 사용하기
 - 파이썬 논리 연산지인 and, or, not 키워드 사용 불가
 - & - AND 
 - | - OR 

In [53]:
x1= x[(x % 2 == 0) & (x < 30)]
x1

array([], dtype=int64)

In [54]:
x[(x < 10) | (x > 50)]

array([78,  1, 80, 97, 90])

#### 행렬의 정렬

In [55]:
org_array = np.array([5,7,2,4])
print("원본행렬 : {}".format(org_array))

원본행렬 : [5 7 2 4]


In [56]:
#sort 정렬   원본행렬은 변하지 않음 > 복사본 출력 
sort_array = np.sort(org_array)
print("변환된 행렬: {}".format(sort_array))
print("원본행렬 : {}".format(org_array))     

변환된 행렬: [2 4 5 7]
원본행렬 : [5 7 2 4]


In [57]:
#argsort 정렬   원본행렬이 변한다.
argsort_array = np.argsort(org_array)
print("변환된 행렬: {}".format(argsort_array))
print("원본행렬 : {}".format(argsort_array))


변환된 행렬: [2 3 0 1]
원본행렬 : [2 3 0 1]


#### 행렬 계산

In [58]:
a = np.array([[1,2,3],[4,5,6]])
b = np.array([[7,8],[9,10],[10,11]])

dot_product = np.dot(a,b)
dot_product


array([[ 55,  61],
       [133, 148]])

## numpy 서브 모듈

#### random 서브모듈

#### rand 함수
 - 0, 1사이의 분포로 랜덤한 ndarray 생성

In [59]:
np.random.rand(3,3,3)

array([[[0.55316395, 0.5747878 , 0.7719059 ],
        [0.687734  , 0.36058206, 0.72298402],
        [0.14823197, 0.50549025, 0.68289468]],

       [[0.33828394, 0.77220447, 0.08435825],
        [0.98879625, 0.3521114 , 0.56734396],
        [0.55167384, 0.48878665, 0.12139939]],

       [[0.79655255, 0.16583467, 0.14407403],
        [0.76408385, 0.11859329, 0.9252519 ],
        [0.05556143, 0.24561475, 0.34311197]]])

#### randn함수
 - n: normal distribution(정규분포)
 - 정규분포로 샘플링된 랜덤 ndarray 생성

In [60]:
np.random.randn(5)

array([ 0.78174455,  0.0047286 , -0.72474072,  1.3277635 , -0.13408912])

In [61]:
np.random.randn(3, 4, 2)

array([[[-1.50401008, -0.03529658],
        [ 0.08374319, -0.54798779],
        [ 0.99763399,  1.19634078],
        [ 0.60479502,  1.41183374]],

       [[ 0.54474505, -1.71121964],
        [-0.85598635,  0.98469244],
        [ 0.61258781,  2.15186329],
        [ 1.73041063,  1.60774671]],

       [[-0.85179733, -1.2958141 ],
        [ 1.05499613,  0.14748784],
        [ 0.15574005, -1.04658233],
        [ 0.78724785, -1.58784483]]])

In [62]:
np.random.uniform(1.0, 3.0, size=(4, 5))  #연속확률분포

array([[2.87872962, 2.23804239, 1.83371412, 2.33321849, 2.58407834],
       [1.2302158 , 2.54453166, 1.76638741, 2.21427165, 2.75173315],
       [2.94648418, 1.10695445, 1.5395611 , 1.88615349, 1.03175519],
       [1.94707542, 2.99781391, 1.57442886, 2.39462222, 1.21692334]])

In [63]:
np.random.normal(size=(3, 4))  # 정규분푸 randn과 동일 

array([[ 0.35079273, -0.1911959 , -2.10822494, -0.23597162],
       [-0.91206017, -0.60643744,  0.67879718, -0.5817519 ],
       [-1.49993663,  0.55311738, -1.24389614, -0.21149303]])

In [64]:
np.random.randn(3, 4)

array([[ 0.24455529, -0.39919567, -0.95750886,  0.72513456],
       [-0.94603835, -0.68951937, -0.13317361, -0.1670201 ],
       [ 0.53247482,  0.5447829 , -0.24747501,  1.44626726]])

#### np.linalg.inv
 - 역행렬을 구할 때 사용
 - 모든 차원의 값이 같아야 함

In [65]:
x = np.random.rand(3,3,3)
print(x)

[[[0.2627924  0.54326953 0.70128131]
  [0.41810982 0.78390168 0.35026197]
  [0.32079646 0.17827023 0.93917044]]

 [[0.75911998 0.05592866 0.84647629]
  [0.25189714 0.13894572 0.71712463]
  [0.19948262 0.15307426 0.90412765]]

 [[0.71429926 0.21712436 0.69824611]
  [0.45793254 0.95016564 0.07011357]
  [0.08623713 0.77833816 0.02962631]]]


In [66]:
np.matmul(x,np.linalg.inv(x)) #행렬의 곱셈 dot 과의 차이 ?

x @ np.linalg.inv(x)  # @ 행렬의 곱 기호 

array([[[ 1.00000000e+00,  9.91210210e-17,  1.35454063e-16],
        [ 5.40919355e-17,  1.00000000e+00,  4.72838926e-17],
        [-3.29895078e-16,  8.72432429e-17,  1.00000000e+00]],

       [[ 1.00000000e+00, -3.97848919e-16,  4.12167679e-16],
        [ 3.66663906e-17,  1.00000000e+00,  2.09522987e-16],
        [ 1.80520876e-16, -5.03316803e-16,  1.00000000e+00]],

       [[ 1.00000000e+00,  8.64023478e-17, -1.80720779e-16],
        [-3.18544042e-17,  1.00000000e+00, -3.67627839e-16],
        [-1.63877463e-18,  5.62428165e-17,  1.00000000e+00]]])

\https://blog.naver.com/PostView.nhn?blogId=cjh226&logNo=221356884894&parentCategoryNo=&categoryNo=17&viewDate=&isShowPopularPosts=false&from=postView

#### np.linalg.solve
 - Ax = B 형태의 선형대수식 솔루션을 제공
 - 예제) 호랑이와 홍합의 합 : 25 호랑이 다리와 홍합 다리의 합은 64
   - x + y = 25
   - 2x + 4y = 64
   
 $$\begin{pmatrix} 1 & 1 \\ 2 & 4 \end{pmatrix}\begin{pmatrix} x \\ y \end{pmatrix}= \begin{pmatrix} 25 \\ 64 \end{pmatrix}$$


In [67]:
A = np.array([[1,1],[2,4]])
B = np.array([25,64])

In [68]:
x = np.linalg.solve(A,B)
print(x)

[18.  7.]


In [69]:
np.allclose(A@x,B)

True