# Numpy
* **Num**erical **Py**thon의 약자
* 파이썬으로 머신러닝을 한다면 필수적인 라이브러리
* 수치데이터를 다루는데 효율적이고 높은 성능을 제공함
* 스칼라 연산과 비슷한 속도로 연산을 수행함
* 배열을 요소별로 조작하지 않아도 요소별 연산(Element-wise operation)이 가능 - 브로드캐스팅(Broadcasting)
* ndarray type (n - dimensional array object, 다차원 배열 객체)
* 모든 요소가 동일한 datatype

## 1. Numpy 임포트 array 만들기

In [1]:
import numpy as np
np.__version__

'1.17.3'

In [2]:
ar = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
print(type(ar))
ar = np.array(ar)
print(type(ar))

<class 'list'>
<class 'numpy.ndarray'>


In [3]:
# ndarray는 python list가 하지 못하는 많은 일을 할 수 있다.
print("dim :", ar.ndim)
print("shape :", ar.shape)
print("size :",  ar.size)
print("dtype :", ar.dtype)

dim : 1
shape : (10,)
size : 10
dtype : int64


## 2. Numpy의 다양한 Random 기능

In [4]:
# Python의 range와 동일
# 단, Type은 ndarray

# ar = np.arange(10)
# ar = np.arange(5, 10)
# ar = np.arange(0, 10, 2)
ar = np.arange(10, 0, -1)

print(ar, "\n")
print("dim :", ar.ndim)
print("shape :", ar.shape)
print("size :",  ar.size)
print("dtype :", ar.dtype)

[10  9  8  7  6  5  4  3  2  1] 

dim : 1
shape : (10,)
size : 10
dtype : int64


In [5]:
# ar = np.random.random(10) # 0 ~ 1 사이의 실수를 가져옴
# ar = np.random.random((3, 3)) # 2차원으로도 값 생성 가능
ar = np.random.randint(0, 10, size=(3, 3)) # 임의의 값으로 채워진 배열 생성

print(ar, "\n")
print("dim :", ar.ndim)
print("shape :", ar.shape)
print("size :",  ar.size)
print("dtype :", ar.dtype)

[[1 1 9]
 [2 6 8]
 [3 4 6]] 

dim : 2
shape : (3, 3)
size : 9
dtype : int64


In [6]:
# ar = np.random.randn(10)
# ar = np.random.randn(3, 4)
ar = np.random.randn(3, 4, 5)

print(ar, "\n")
print("dim :", ar.ndim)
print("shape :", ar.shape)
print("size :",  ar.size)
print("dtype :", ar.dtype)

[[[ 0.88594121  0.3874168  -0.31290483  0.75722802  0.03846106]
  [-0.17404329 -2.14358954 -0.44474824 -0.25373372 -1.33132109]
  [-0.01567786  0.24678396 -0.27508033 -0.3428848   0.77883556]
  [-1.83065082 -0.4025892   0.24515356 -1.8679044   0.78356316]]

 [[ 0.42248797  1.3502016  -2.51069549  1.76230274  2.60489623]
  [-0.68956708  0.69657845 -0.5367728   0.17530713 -0.19246444]
  [ 0.20516304 -0.06418813  1.46849697  1.612538    0.26224609]
  [-0.66898516 -0.72607246 -2.34802648 -0.47027466 -0.13860887]]

 [[-0.25021784 -1.79338972  1.3121783  -0.54535857 -0.99171413]
  [ 0.99520565  0.64708111  0.19876588 -0.8641335  -0.02876969]
  [ 0.49515631 -2.07557176 -0.89045804  1.26532455 -0.96746618]
  [ 0.10275746  0.73623004  0.36343545 -0.41776001 -1.4468067 ]]] 

dim : 3
shape : (3, 4, 5)
size : 60
dtype : float64


In [7]:
# ar = np.random.randint(10, size = 6)
# ar = np.random.randint(10, size=(3, 4))
ar = np.random.randint(10, size=(3, 4, 5))

print(ar, "\n")
print("dim :", ar.ndim)
print("shape :", ar.shape)
print("size :",  ar.size)
print("dtype :", ar.dtype)

[[[5 3 7 8 6]
  [6 7 3 8 1]
  [5 5 6 5 2]
  [1 1 7 3 0]]

 [[7 3 1 7 3]
  [9 7 2 8 5]
  [0 5 6 4 9]
  [1 2 6 0 0]]

 [[0 0 9 9 4]
  [3 4 1 9 1]
  [4 7 8 5 6]
  [2 9 0 1 6]]] 

dim : 3
shape : (3, 4, 5)
size : 60
dtype : int64


- Numpy 배열은 고정타입
- 파이썬 리스트와는 달리 Numpy 배열은 고정 타입을 가진다.
- 따라서 아래의 값은 소수점 이하의 값들이 잘릴 것이다.

In [8]:
ar = np.random.randint(10, size = 6)
ar[0] = 3.14159
ar

array([3, 1, 8, 0, 7, 6])

In [9]:
# 다음과 같이 데이터 타입을 바꿀 수 있다.
ar = ar.astype(np.float)
ar[0] = 3.14159
ar

array([3.14159, 1.     , 8.     , 0.     , 7.     , 6.     ])

## 3. Dim과 Shape
 - array의 shape을 바꿔주는 메소드

In [10]:
ar = np.arange(1, 10)
ar = ar.reshape(3, 3)

print(ar, "\n")
print("dim :", ar.ndim)
print("shape :", ar.shape)
print("size :",  ar.size)
print("dtype :", ar.dtype)

[[1 2 3]
 [4 5 6]
 [7 8 9]] 

dim : 2
shape : (3, 3)
size : 9
dtype : int64


In [11]:
ar = np.array([1, 2, 3])
print(ar)
print("dim :", ar.ndim, "\n")

print(ar.reshape(1,3)) # reshape을 이용한 행 벡터
print("dim :", ar.reshape(1,3).ndim, "\n")

print(ar.reshape(3,1)) # reshape을 이용한 열 벡터
print("dim :", ar.reshape(3,1).ndim, "\n")

print(ar.reshape(3,1).T) # Transepose를 이용한 행벡터
print("dim :", ar.reshape(3,1).T.ndim, "\n")

ar = np.array([1, 2, 3])

[1 2 3]
dim : 1 

[[1 2 3]]
dim : 2 

[[1]
 [2]
 [3]]
dim : 2 

[[1 2 3]]
dim : 2 



- 전치(Transpose)

In [12]:
ar = np.arange(12).reshape(3, 4)

print(ar, "\n")
print("dim :", ar.ndim)
print("shape :", ar.shape)
print("size :",  ar.size)
print("dtype :", ar.dtype)
print("")

ar = ar.T

print(ar, "\n")
print("dim :", ar.ndim)
print("shape :", ar.shape)
print("size :",  ar.size)
print("dtype :", ar.dtype)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]] 

dim : 2
shape : (3, 4)
size : 12
dtype : int64

[[ 0  4  8]
 [ 1  5  9]
 [ 2  6 10]
 [ 3  7 11]] 

dim : 2
shape : (4, 3)
size : 12
dtype : int64


## 4. Slicing
* 특정 영역을 지정하거나 잘래냄
* Numpy배열은 다차원인 경우가 많으므로 각 차원별로 어떻게 슬라이싱 할 지 명확히 해야함

<img src="./img/slicing.png" width="700" height="500" align="left"/>

In [13]:
ar = np.array(np.arange(9)).reshape(3, 3)
print(ar)
print("")

print(ar[:2, 1:])
print("")

print(ar[2])
print(ar[2, :])
print(ar[2:, :]) # 이것은 차원이 다르다.
print("")

print(ar[:, :2])
print("")

print(ar[1, :2])
print(ar[1:2, :2])

[[0 1 2]
 [3 4 5]
 [6 7 8]]

[[1 2]
 [4 5]]

[6 7 8]
[6 7 8]
[[6 7 8]]

[[0 1]
 [3 4]
 [6 7]]

[3 4]
[[3 4]]


- 추가적인 문제를 해결해보자

<img src="./img/slicing2.png" width="500" height="500" align="left"/>

In [14]:
ar = np.arange(60).reshape(6, 10)
ar = ar[:, 0:6]

In [15]:
print(ar)
print("")

# Orange ...
print(ar[0, 1:3])
print("")

# Red ...
print(ar[:, 3])
print("")

# Blue ...
print(ar[4:, 4:])
print("")

# Green ...
print(ar[2::2, ::2])

[[ 0  1  2  3  4  5]
 [10 11 12 13 14 15]
 [20 21 22 23 24 25]
 [30 31 32 33 34 35]
 [40 41 42 43 44 45]
 [50 51 52 53 54 55]]

[1 2]

[ 3 13 23 33 43 53]

[[44 45]
 [54 55]]

[[20 22 24]
 [40 42 44]]


- 행과 열 가져오기

In [16]:
print(ar)
print("")

print("Shape :", ar.shape)
print("DIms :", ar.ndim)

[[ 0  1  2  3  4  5]
 [10 11 12 13 14 15]
 [20 21 22 23 24 25]
 [30 31 32 33 34 35]
 [40 41 42 43 44 45]
 [50 51 52 53 54 55]]

Shape : (6, 6)
DIms : 2


In [17]:
print(ar[1, :])
print("Shape :", ar[1, :].shape)
print("DIms :", ar[1, :].ndim)

[10 11 12 13 14 15]
Shape : (6,)
DIms : 1


In [18]:
print(ar[[1], :])
print("Shape :", ar[[1], :].shape)
print("DIms :", ar[[1], :].ndim)

[[10 11 12 13 14 15]]
Shape : (1, 6)
DIms : 2


In [19]:
# Column slicing도 마찬가지
print(ar[:, 1])
print('shape :', ar[:, 1].shape)
print('dim :', ar[:, 1].ndim)

[ 1 11 21 31 41 51]
shape : (6,)
dim : 1


In [20]:
# Column slicing도 마찬가지
print(ar[:, [1]])
print('shape :', ar[:, [1]].shape)
print('dim :', ar[:, [1]].ndim)

[[ 1]
 [11]
 [21]
 [31]
 [41]
 [51]]
shape : (6, 1)
dim : 2


## 5. 배열 인덱싱

In [21]:
ar = np.arange(42).reshape(6, 7)
print(ar, "\n")
print(ar[3, 3])
print(ar[3][3])

[[ 0  1  2  3  4  5  6]
 [ 7  8  9 10 11 12 13]
 [14 15 16 17 18 19 20]
 [21 22 23 24 25 26 27]
 [28 29 30 31 32 33 34]
 [35 36 37 38 39 40 41]] 

24
24


In [22]:
ar[2, 3] = 999999
ar

array([[     0,      1,      2,      3,      4,      5,      6],
       [     7,      8,      9,     10,     11,     12,     13],
       [    14,     15,     16, 999999,     18,     19,     20],
       [    21,     22,     23,     24,     25,     26,     27],
       [    28,     29,     30,     31,     32,     33,     34],
       [    35,     36,     37,     38,     39,     40,     41]])

- list를 이용한 Indexing

In [23]:
row = np.array([0, 1, 2, 0])
col = np.array([0, 1, 0, 2])

ar[row, col] = 999999

print(ar, "\n")
print(ar[0, 0], ar[1, 1], ar[2, 0], ar[0, 2])

[[999999      1 999999      3      4      5      6]
 [     7 999999      9     10     11     12     13]
 [999999     15     16 999999     18     19     20]
 [    21     22     23     24     25     26     27]
 [    28     29     30     31     32     33     34]
 [    35     36     37     38     39     40     41]] 

999999 999999 999999 999999


- 단순 연산자는 Call by reference 이다.
- Slicing 접근은 Call by reference 이다.
- 원본이 바뀌어 버린다.

In [24]:
ar_v = ar

ar_v[0, 0] = 444444
print(ar)

[[444444      1 999999      3      4      5      6]
 [     7 999999      9     10     11     12     13]
 [999999     15     16 999999     18     19     20]
 [    21     22     23     24     25     26     27]
 [    28     29     30     31     32     33     34]
 [    35     36     37     38     39     40     41]]


In [25]:
# Slicingd으로의 직접 접근은 Call by reference
# 인덱싱 & 슬라이싱된 배열을 수정하면 원본 배열 역시 수정됨
ar[0:3, 0:4] = 888888
print(ar)

[[888888 888888 888888 888888      4      5      6]
 [888888 888888 888888 888888     11     12     13]
 [888888 888888 888888 888888     18     19     20]
 [    21     22     23     24     25     26     27]
 [    28     29     30     31     32     33     34]
 [    35     36     37     38     39     40     41]]


- Slicing한 배열을 연산자에 담으면 Call by value 이다.
- 동일한 배열을 만들고 싶으면 Copy를 써야 한다.

In [26]:
ar_cp = ar.copy()
ar_cp[0, 0] = 777777
print(ar)

[[888888 888888 888888 888888      4      5      6]
 [888888 888888 888888 888888     11     12     13]
 [888888 888888 888888 888888     18     19     20]
 [    21     22     23     24     25     26     27]
 [    28     29     30     31     32     33     34]
 [    35     36     37     38     39     40     41]]


In [27]:
# Slicing한 배열을 연산자에 담으면 Call by value 이다.
# 원본이 안 바뀐다.
ar_v = ar[2:3, 3:4]
ar_v = 777777
ar

array([[888888, 888888, 888888, 888888,      4,      5,      6],
       [888888, 888888, 888888, 888888,     11,     12,     13],
       [888888, 888888, 888888, 888888,     18,     19,     20],
       [    21,     22,     23,     24,     25,     26,     27],
       [    28,     29,     30,     31,     32,     33,     34],
       [    35,     36,     37,     38,     39,     40,     41]])

## 6. Boolean Indexing (Masking)

- 다음 ar에서 9인 원소의 값을 999로 바꾸도록 하여라.

In [28]:
np.random.seed(0)
ar = np.random.randint(1, 10, size=(5, 8))
print(ar)

[[6 1 4 4 8 4 6 3]
 [5 8 7 9 9 2 7 8]
 [8 9 2 6 9 5 4 1]
 [4 6 1 3 4 9 2 4]
 [4 4 8 1 2 1 5 8]]


In [29]:
row = ar.shape[0]
col = ar.shape[1]

# Python의 기본적인 문법을 이용한 방법
for i in range(row) :
    for j in range(col) :
        if ar[i][j] == 9 :
            ar[i][j] = 999
            
print(ar)            

[[  6   1   4   4   8   4   6   3]
 [  5   8   7 999 999   2   7   8]
 [  8 999   2   6 999   5   4   1]
 [  4   6   1   3   4 999   2   4]
 [  4   4   8   1   2   1   5   8]]


In [30]:
np.random.seed(0)
ar = np.random.randint(1, 10, size=(5, 8))
print(ar)

[[6 1 4 4 8 4 6 3]
 [5 8 7 9 9 2 7 8]
 [8 9 2 6 9 5 4 1]
 [4 6 1 3 4 9 2 4]
 [4 4 8 1 2 1 5 8]]


In [31]:
ar == 9

array([[False, False, False, False, False, False, False, False],
       [False, False, False,  True,  True, False, False, False],
       [False,  True, False, False,  True, False, False, False],
       [False, False, False, False, False,  True, False, False],
       [False, False, False, False, False, False, False, False]])

In [32]:
ar[ar == 9] = 999
print(ar)

[[  6   1   4   4   8   4   6   3]
 [  5   8   7 999 999   2   7   8]
 [  8 999   2   6 999   5   4   1]
 [  4   6   1   3   4 999   2   4]
 [  4   4   8   1   2   1   5   8]]


- 요소별로 논리 연산이 가능
- 논리 연산결과에 따라 요소별로 True, False 결과를 반환

In [33]:
print(ar, "\n")
print(ar % 2 == 0, "\n")
print(ar[ ar % 2 == 0 ])

[[  6   1   4   4   8   4   6   3]
 [  5   8   7 999 999   2   7   8]
 [  8 999   2   6 999   5   4   1]
 [  4   6   1   3   4 999   2   4]
 [  4   4   8   1   2   1   5   8]] 

[[ True False  True  True  True  True  True False]
 [False  True False False False  True False  True]
 [ True False  True  True False False  True False]
 [ True  True False False  True False  True  True]
 [ True  True  True False  True False False  True]] 

[6 4 4 8 4 6 8 2 8 8 2 6 4 4 6 4 2 4 4 4 8 2 8]


In [34]:
# 두 Matrix를 비교해서 큰 원소만을 반환
a = np.array([[1, 2], [4, 5]])
b = np.array([[2, 1], [3, 7]])
print(a, "\n")
print(b, "\n")
print(np.maximum(a, b))

[[1 2]
 [4 5]] 

[[2 1]
 [3 7]] 

[[2 2]
 [4 7]]


## 7. Numpy 연산
* 벡터 및 행렬연산
* 기본적인 연산은 배열의 각 요소별로 동작하거나 Numpy내장 함수를 통해 동작함
* 브로드캐스팅(Broadcasting)

In [35]:
ar = np.random.randint(1, 10, size=9)
print(ar)

[4 3 8 3 1 1 5 6 6]


In [36]:
# Python의 기본 기능으로 역수를 구해보자.
reciprocals = []

for num in ar :
    reciprocals.append(1.0 / num)
    
print(reciprocals)

[0.25, 0.3333333333333333, 0.125, 0.3333333333333333, 1.0, 1.0, 0.2, 0.16666666666666666, 0.16666666666666666]


In [37]:
# Numpy로는 아래와 같이 간단하게 처리가 가능하다.
reciprocals = 1.0 / ar
print(reciprocals)

[0.25       0.33333333 0.125      0.33333333 1.         1.
 0.2        0.16666667 0.16666667]


In [38]:
a = np.random.randint(1, 10, size=(3, 4))
b = np.random.randint(1, 10, size=(3, 4))

print(a+b, "\n")
print(a-b, "\n")
print(a*b, "\n")
print(a/b, "\n")
print(a**b)

[[10 10  9  8]
 [10 14  9  7]
 [13  8 12 13]] 

[[ 4  8  1 -4]
 [ 0  4 -5 -3]
 [ 3  0  2  3]] 

[[21  9 20 12]
 [25 45 14 10]
 [40 16 35 40]] 

[[2.33333333 9.         1.25       0.33333333]
 [1.         1.8        0.28571429 0.4       ]
 [1.6        1.         1.4        1.6       ]] 

[[  343     9   625    64]
 [ 3125 59049   128    32]
 [32768   256 16807 32768]]


- 수학적 기법 (eg, 삼각함수, 지수,  로그 등등)

In [39]:
ar = np.linspace(0, np.pi, 10)

print(ar, "\n")
print(np.sin(ar), "\n")
print(np.cos(ar), "\n")
print(np.tan(ar), "\n")

[0.         0.34906585 0.6981317  1.04719755 1.3962634  1.74532925
 2.0943951  2.44346095 2.7925268  3.14159265] 

[0.00000000e+00 3.42020143e-01 6.42787610e-01 8.66025404e-01
 9.84807753e-01 9.84807753e-01 8.66025404e-01 6.42787610e-01
 3.42020143e-01 1.22464680e-16] 

[ 1.          0.93969262  0.76604444  0.5         0.17364818 -0.17364818
 -0.5        -0.76604444 -0.93969262 -1.        ] 

[ 0.00000000e+00  3.63970234e-01  8.39099631e-01  1.73205081e+00
  5.67128182e+00 -5.67128182e+00 -1.73205081e+00 -8.39099631e-01
 -3.63970234e-01 -1.22464680e-16] 



In [40]:
ar = [1, 2, 3]
print(ar)
print(np.exp(ar))
print(np.exp2(ar))
print(np.power(3, ar))

[1, 2, 3]
[ 2.71828183  7.3890561  20.08553692]
[2. 4. 8.]
[ 3  9 27]


<img src="img/log.jpg" align="Left">

In [41]:
ar = np.array([1, 2, 3, 4])
print(ar)
print(np.log(ar)) # 자연로그
print(np.log2(ar)) # 공비 = 2
print(np.log10(ar)) # 공비 = 10

[1 2 3 4]
[0.         0.69314718 1.09861229 1.38629436]
[0.        1.        1.5849625 2.       ]
[0.         0.30103    0.47712125 0.60205999]


In [42]:
ar = np.random.random(10)
print(ar, "\n")
print(np.sum(ar))
print(np.min(ar))
print(np.max(ar))

[0.2532916  0.46631077 0.24442559 0.15896958 0.11037514 0.65632959
 0.13818295 0.19658236 0.36872517 0.82099323] 

3.4141859952103557
0.11037514116430513
0.8209932298479351


In [43]:
print(ar, "\n")
print(np.add.reduce(ar))
print(np.multiply.reduce(ar))

[0.2532916  0.46631077 0.24442559 0.15896958 0.11037514 0.65632959
 0.13818295 0.19658236 0.36872517 0.82099323] 

3.4141859952103557
2.733956389795487e-06


In [44]:
ar = np.random.random((3, 4))

# Axis 0 = 3 , Axis 1 = 4
print(ar)
print(ar.shape)
print("")

# Axis는 사라지는 축이다. 따라서 3이 없어짐 ...
print("sum :", ar.sum(axis=0))
print("min :", ar.min(axis=0))
print("max :", ar.max(axis=0))
print("")

# Axis는 사라지는 축이다. 따라서 4가 없어짐 ...
print("sum :", ar.sum(axis=1))
print("min :", ar.min(axis=1))
print("max :", ar.max(axis=1))

[[0.09710128 0.83794491 0.09609841 0.97645947]
 [0.4686512  0.97676109 0.60484552 0.73926358]
 [0.03918779 0.28280696 0.12019656 0.2961402 ]]
(3, 4)

sum : [0.60494027 2.09751296 0.82114049 2.01186324]
min : [0.03918779 0.28280696 0.09609841 0.2961402 ]
max : [0.4686512  0.97676109 0.60484552 0.97645947]

sum : [2.00760406 2.78952139 0.73833151]
min : [0.09609841 0.4686512  0.03918779]
max : [0.97645947 0.97676109 0.2961402 ]


In [45]:
import pandas as pd
data = pd.read_csv('data/president_heights.csv')
heights = np.array(data["height(cm)"])

In [46]:
print(heights.mean())
print(heights.std())
print(heights.min())
print(heights.max())

179.73809523809524
6.931843442745892
163
193


## 8. **벡터의 내적 및 행렬 곱**
 - 주로 벡터의 내적은 **np.dot()** 혹은 **ndarray.dot()**
 - 행렬의 곱은 **np.matmul()** 혹은 **@** 사용 (np.dot()써도 상관없음)

<img src="img\dot.jpg" align="Left">

In [47]:
a = np.array([[1, -3, 2], [4, 0, -5]])
b = np.array([3, 1, 2])

#np.dot(a, b)
a.dot(b)

array([4, 2])

In [48]:
# 행렬의 곱은 np.matmul() 혹은 np.dot(), python3에서는 @로 대체 가능
a = np.array([[1, 2], [3, 4]])
b = np.array([[5, 6], [7, 8]])

print(np.matmul(a, b), "\n")
print(np.dot(a, b))

[[19 22]
 [43 50]] 

[[19 22]
 [43 50]]


## 9. Broadcasting
* Numpy에서 shape이 다른 배열 간에도 산술 연산을 가능하게 하는 메커니즘
* Numpy의 모든 오소별 연산은 브로드캐스팅을 지원한다.

<img src="./img/slicing3.png">

In [49]:
a = np.arange(0, 100).reshape(10, 10)[0:4, 0:3]
b = np.array([0, 1, 2]).reshape(1, 3)
a+b

array([[ 0,  2,  4],
       [10, 12, 14],
       [20, 22, 24],
       [30, 32, 34]])

In [50]:
a = np.arange(0, 100).reshape(10, 10)[0:4, 0:3]
b = np.array([0, 1, 2, 3]).reshape(4, 1)
a+b

array([[ 0,  1,  2],
       [11, 12, 13],
       [22, 23, 24],
       [33, 34, 35]])

In [51]:
a = np.array([0, 10, 20, 30]).reshape(4, 1)
b = np.array([0, 1, 2]).reshape(1, 3)
a+b

array([[ 0,  1,  2],
       [10, 11, 12],
       [20, 21, 22],
       [30, 31, 32]])