## 1. Numpy
#### 1.1 파이썬 과학 처리 패키지
- Numerical Python
- 파이썬의 고성능 과학 계산용 패키지
- Matrix와 Vector와 같은 Array 연산의 사실상의 표준

#### 1.2 특징
- 일반 List에 비해 빠르고, 메모리를 효율적으로 사용
- 반복문 없이 데이터 배열에 대한 처리를 지원함
- 선형대수와 관련된 다양한 기능을 제공함
- C, C++ 등의 언어와 통합 가능

#### 1.3 References
- https://docs.scipy.org/doc/numpy/user/quickstart.html
- 데이터 사이언스 스쿨 (데이터 과학을 위한 파이썬 기초)
- https://datascienceschool.net/view-notebook/39569f0132044097a15943bd8f440ca5
- Numpy 강좌 https://www.youtube.com/playlist?list=PLBHVuYlKEkULZLnKLzRq1CnNBOBlBTkqp

## 2. ndarray(Numpy Dimensional Array)
#### 2.1 import

In [1]:
import numpy as np

#### 2.2 Array 생성

In [2]:
test_array = np.array([1, 4, 5, 8], float)
print(test_array)
type(test_array[3])
print(test_array.dtype)
print(test_array.shape)

[1. 4. 5. 8.]
float64
(4,)


- numpy는 np.array 함수를 활용하여 배열을 생성함 -> ndarray
- numpy는 하나의 데이터 타입만 배열에 넣을 수 있음
- List와 가장 큰 차이점, Dynamic typing(예, [1, 2, “5”, 4.2]) not supported
- C의 Array를 사용하여 배열을 생성함

## 3. Array Shape
#### 3.1 Vector(1차원)

In [3]:
test_array = np.array([1, 4, 5, 8], float)
print(test_array.shape)
# shape은 (4, ) : 1차원에 4개의 element가 있는 벡터

(4,)


#### 3.2 Matrix(2차원)

In [4]:
matrix = [[1,2,5,8], [2,3,4,9], [4,5,6,7]]
np.array(matrix, int).shape
# shape은 (3, 4) : 행이 3개, 열이 4개인 매트릭스

(3, 4)

#### 3.3 Tensor(3차원)

In [5]:
tensor = [[[1,2,5,8], [2,3,4,9], [4,5,6,7]],
 [[1,2,5,8], [2,3,4,9], [4,5,6,7]],
 [[1,2,5,8], [2,3,4,9], [4,5,6,7]],
 [[1,2,5,8], [2,3,4,9], [4,5,6,7]]]
np.array(tensor, int).shape
# shape은 (4, 3, 4) : 평면이 4개, 행이 3개, 열이 4개인 텐서

(4, 3, 4)

#### 3.4 ndim & size

In [6]:
print(np.array(tensor, int).ndim)
print(np.array(tensor, int).size)

3
48


#### 3.5 dtype

In [7]:
np.array([[1, 2, 3], [4.5, '5', '6']], dtype=np.float32)

array([[1. , 2. , 3. ],
       [4.5, 5. , 6. ]], dtype=float32)

- Single element가 가지는 데이터 타입
- C의 데이터 타입과 호환
- nbytes – ndarray object의 메모리 크기를 바이트 단위로 반환함

In [8]:
np.array([[1, 2, 3], [4.5, '5', '6']], dtype=np.float32).nbytes

24

#### 3.6 reshape
- Array의 shape을 변경함 (element의 개수는 동일)

In [9]:
test_matrix = [[1,2,3,4], [5,6,7,8]]
np.array(test_matrix).shape

(2, 4)

In [10]:
np.array(test_matrix).reshape(8, )

array([1, 2, 3, 4, 5, 6, 7, 8])

In [11]:
np.array(test_matrix).reshape(8, ).shape

(8,)

- Array의 shape을 변경함 (element의 개수는 동일)
- Array의 size만 같다면 다차원으로 자유로이 변형가능

In [12]:
np.array(test_matrix).reshape(2, 4).shape

(2, 4)

In [13]:
np.array(test_matrix).reshape(-1, 2).shape

(4, 2)

In [14]:
np.array(test_matrix).reshape(2, 2, 2).shape

(2, 2, 2)

#### 3.7 flatten

In [15]:
test_matrix = [[[1,2,3,4], [5,6,7,8]], [[2,3,4,5], [6,7,8,9]]]
np.array(test_matrix).flatten()

array([1, 2, 3, 4, 5, 6, 7, 8, 2, 3, 4, 5, 6, 7, 8, 9])

In [16]:
np.array(test_matrix).flatten().shape

(16,)

- 다차원 array를 1차원 array로 변환

## 4. Indexing & Slicing
#### 4.1 Indexing

In [17]:
a = np.array([[1,2,3], [4,5,6]], int)
print(a)
print(a[0,0]) # 2차원 배열 표기법 1
print(a[0][0]) # 2차원 배열 표기법 2
a[0, 0] = 1

[[1 2 3]
 [4 5 6]]
1
1


- List와 달리 이차원 배열에서 [0, 0]과 같은 표기법을 제공함
- Matrix일 경우 앞은 행(row) 뒤는 열(column)을 의미함

#### 4.2 Slicing

In [18]:
a = np.array([[1,2,3,4,5], [6,7,8,9,10]], int)
print(a)

[[ 1  2  3  4  5]
 [ 6  7  8  9 10]]


In [19]:
print(a[:, 2:])    # 전체 row의 2열 이상
print(a[1, 1:3])   # row 1의 1~2열

[[ 3  4  5]
 [ 8  9 10]]
[7 8]


In [20]:
print(a[1:3])       # 1 row ~ 2 row 전체, column은 무시
print(a[:, ::2])    # step 가능

[[ 6  7  8  9 10]]
[[ 1  3  5]
 [ 6  8 10]]


- List와 달리 행과 열 부분을 나눠서 slicing이 가능함
- Matrix의 부분 집합을 추출할 때 유용함

## 5. Create Function
#### 5.1 arange

In [21]:
np.arange(10)    # arange – List의 range와 같은 효과

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [22]:
np.arange(0, 5, 0.5)    # floating point도 표시가능

array([0. , 0.5, 1. , 1.5, 2. , 2.5, 3. , 3.5, 4. , 4.5])

In [23]:
np.arange(0, 5, 0.5).tolist()    # List로 만들 수 있음

[0.0, 0.5, 1.0, 1.5, 2.0, 2.5, 3.0, 3.5, 4.0, 4.5]

In [24]:
np.arange(30).reshape(5, 6)    # size가 같으면 가능

array([[ 0,  1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11],
       [12, 13, 14, 15, 16, 17],
       [18, 19, 20, 21, 22, 23],
       [24, 25, 26, 27, 28, 29]])

#### 5.2 ones, zeros and empty

In [25]:
np.zeros(shape=(10,), dtype=np.int8)    # 원소가 10개인 벡터 생성

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0], dtype=int8)

In [26]:
np.zeros(shape=(10,), dtype=np.int8).nbytes

10

In [27]:
np.ones((2, 5)) # 2 x 5 – 값이 1인 matrix 생성

array([[1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.]])

In [28]:
np.ones((2, 5)).nbytes

80

In [29]:
np.empty((3, 5)) # 메모리가 초기화되어 있지 않음

array([[2.263e-321, 0.000e+000, 0.000e+000, 0.000e+000, 0.000e+000],
       [0.000e+000, 0.000e+000, 0.000e+000, 0.000e+000, 0.000e+000],
       [0.000e+000, 0.000e+000, 0.000e+000, 0.000e+000, 0.000e+000]])

#### 5.3 Something like
- 기존 ndarray의 shape 크기 만큼 1, 0 또는 empty array를 반환

In [30]:
test_matrix = np.arange(30).reshape(5,6)
np.ones_like(test_matrix)

array([[1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1]])

In [31]:
np.zeros_like(test_matrix)

array([[0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0]])

#### 5.4 identity (단위 행렬 생성)

In [32]:
np.identity(n=3, dtype=np.int8)    # n = number of rows

array([[1, 0, 0],
       [0, 1, 0],
       [0, 0, 1]], dtype=int8)

In [33]:
np.identity(5)

array([[1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

#### 5.5 eye (대각선이 1인 행렬)

In [34]:
np.eye(N=3, M=5, dtype=np.int8)

array([[1, 0, 0, 0, 0],
       [0, 1, 0, 0, 0],
       [0, 0, 1, 0, 0]], dtype=int8)

In [35]:
np.eye(5)

array([[1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

In [36]:
np.eye(3, 5, k=2)    # k = start index

array([[0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

#### 5.6  diag (대각 행렬의 값을 추출)

In [37]:
matrix = np.arange(9).reshape(3,3)
np.diag(matrix)

array([0, 4, 8])

In [38]:
np.diag(matrix, k=1)    # # k \ start index

array([1, 5])

#### 5.7  Random sampling(데이터 분포에 따른 sampling으로 array를 생성)

In [39]:
np.random.seed(seed=1000)    # 시드로 난수 생성 초기값 지정
np.random.uniform(0, 1, 10).reshape(2,5)    # 균등 분포

array([[0.65358959, 0.11500694, 0.95028286, 0.4821914 , 0.87247454],
       [0.21233268, 0.04070962, 0.39719446, 0.2331322 , 0.84174072]])

In [40]:
np.random.normal(0, 1, 10).reshape(2,5)    # 정규 분포

array([[ 0.66728131, -0.80611561, -1.19606983, -0.40596016, -0.18237734],
       [ 0.10319289, -0.13842199,  0.70569237,  1.27179528, -0.98674733]])

In [41]:
# np.random.binomial(n, p, size)     # 이항 분포
# np.random.poisson(lam. size)       # 포아송 분포
# np.random.standard_t(df, size)     # t-분포
# np.random.f(dfnum, dfden, size)    # F-분포

## 6. Operation function

#### 6.1 sum

In [42]:
test_array = np.arange(1,11)
test_array.sum(dtype=np.float) 

55.0

#### 6.2 Axis
- 모든 operation function을 실행할 때, 기준이 되는 dimension 축

In [43]:
test_array = np.arange(1,13).reshape(3,4)
print(test_array)

[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]


In [44]:
test_array.sum(axis=1)

array([10, 26, 42])

In [45]:
test_array.sum(axis=0)

array([15, 18, 21, 24])

#### 6.3 평균 및 표준편차

In [46]:
test_array.mean()    # 평균(Mean)

6.5

In [47]:
test_array.mean(axis=1)

array([ 2.5,  6.5, 10.5])

In [48]:
test_array.std()    # 표준 편차(Standard Deviation)

3.452052529534663

In [49]:
test_array.std(axis=0)

array([3.26598632, 3.26598632, 3.26598632, 3.26598632])

#### 6.4 수학 함수
- 지수 함수: exp, expml, exp2, log, log10, loglp, log2, power, sqrt
- 삼각 함수: sin, cos, tan, arcsin, arccos, arctan
- Hyperbolic: sinh, cosh, tanh, arcsinh, arccosh, arctanh

In [50]:
np.exp(test_array)
np.sqrt(test_array)

array([[1.        , 1.41421356, 1.73205081, 2.        ],
       [2.23606798, 2.44948974, 2.64575131, 2.82842712],
       [3.        , 3.16227766, 3.31662479, 3.46410162]])

In [51]:
a = list(range(1, 10))
import math
b = list(map(math.sqrt, a))
b

[1.0,
 1.4142135623730951,
 1.7320508075688772,
 2.0,
 2.23606797749979,
 2.449489742783178,
 2.6457513110645907,
 2.8284271247461903,
 3.0]

In [52]:
# a = np.arrange(1, 10)
# b = np.sqrt(a)

#### 6.5 Concatenate (Numpy array를 합치는 함수)

In [53]:
a = np.array([[1, 2], [3, 4]])
b = np.array([[5, 6]])
np.vstack((a,b))

array([[1, 2],
       [3, 4],
       [5, 6]])

In [54]:
np.concatenate((a,b), axis=0)    # 위의 결과와 동일

array([[1, 2],
       [3, 4],
       [5, 6]])

In [55]:
a = np.array([[1], [2], [3]])
b = np.array([[2], [3], [4]])
np.hstack((a,b))

array([[1, 2],
       [2, 3],
       [3, 4]])

In [56]:
a = np.array([[1, 2], [3, 4]])
b = np.array([[5, 6]])
np.concatenate((a,b.T), axis=1)    # T - Transpose

array([[1, 2, 5],
       [3, 4, 6]])

## 7. Array operation
#### 7.1  Operations btw arrays (기본적인 사칙 연산 지원)

In [57]:
test_a = np.array([[1,2,3], [4,5,6]], float)
test_a + test_a

array([[ 2.,  4.,  6.],
       [ 8., 10., 12.]])

In [58]:
test_a - test_a

array([[0., 0., 0.],
       [0., 0., 0.]])

In [59]:
test_a * test_a

array([[ 1.,  4.,  9.],
       [16., 25., 36.]])

#### 7.2 Dot product
- Matrix 곱셈
- (l,m) x (m,n) -> (l,n)

In [60]:
test_a = np.arange(1,7).reshape(2,3)    # Matrix 곱셈
print(test_a)

[[1 2 3]
 [4 5 6]]


In [61]:
test_b = np.arange(7,13).reshape(3,2)
print(test_b)

[[ 7  8]
 [ 9 10]
 [11 12]]


In [62]:
test_a.dot(test_b)

array([[ 58,  64],
       [139, 154]])

#### 7.3 Transpose

In [63]:
test_a = np.arange(1,7).reshape(2,3)
test_a.transpose()
test_a.T

array([[1, 4],
       [2, 5],
       [3, 6]])

#### 7.4 Broadcasting (Shape이 다른 배열간 연산 지원)

In [64]:
test_matrix = np.array([[1,2,3], [4,5,6]], float)
scalar = 3
test_matrix + scalar    # Matrix – Scalar 덧셈

array([[4., 5., 6.],
       [7., 8., 9.]])

In [65]:
test_matrix - scalar
test_matrix * scalar
test_matrix / scalar    # 나누기
test_matrix // scalar   # 몫
test_matrix ** 2        # 제곱

array([[ 1.,  4.,  9.],
       [16., 25., 36.]])

 -  Matrix와 Vector간의 연산도 가능

In [66]:
test_matrix = np.arange(1,13).reshape(4,3)
print(test_matrix)

[[ 1  2  3]
 [ 4  5  6]
 [ 7  8  9]
 [10 11 12]]


In [67]:
test_vector = np.arange(10,40,10)
print(test_vector)

[10 20 30]


In [68]:
test_matrix + test_vector

array([[11, 22, 33],
       [14, 25, 36],
       [17, 28, 39],
       [20, 31, 42]])

## 8. Comparison
#### 8.1 All & Any

In [69]:
a = np.arange(10)
print(a)

[0 1 2 3 4 5 6 7 8 9]


In [70]:
np.any(a>5)

True

In [71]:
np.any(a<0)

False

In [72]:
np.all(a>5)

False

In [73]:
np.all(a<10)

True

In [74]:
a > 5

array([False, False, False, False, False, False,  True,  True,  True,
        True])

In [75]:
test_a = np.array([1, 3, 0], float)
test_b = np.array([5, 2, 1], float)
test_a > test_b    # 배열의 크기가 동일할 때 원소간 비교 가능

array([False,  True, False])

In [76]:
test_a == test_b

array([False, False, False])

In [77]:
(test_a > test_b).any()

True

#### 8.2 Logical operation

In [78]:
a = np.array([1, 3, 0], float)
b = np.logical_and(a>0, a<3)    # and 조건
print(b)

[ True False False]


In [79]:
c = np.logical_not(b)
print(c)

[False  True  True]


In [80]:
np.logical_or(b,c)

array([ True,  True,  True])

In [81]:
np.where(a>0, 3, 2)    # where(condition, True, False)

array([3, 3, 2])

In [82]:
a = np.arange(10, 20)
np.where(a>15)    # index 값 반환

(array([6, 7, 8, 9], dtype=int64),)

In [83]:
a = np.array([1, np.NaN, np.Inf], float)
print(a)

[ 1. nan inf]


In [84]:
np.isnan(a)    # is Not a Number?

array([False,  True, False])

In [85]:
np.isfinite(a)    # is finite number?

array([ True, False, False])

#### 8.3 argmax & argmin (array내 최대값 또는 최소값의 index를 리턴)

In [86]:
a = np.array([1,2,4,5,8,78,23,3])
np.argmax(a), np.argmin(a)

(5, 0)

In [87]:
a = np.array([[1,2,4,7],[9,88,6,45],[8,78,23,3]])
np.argmax(a, axis=1)

array([3, 1, 1], dtype=int64)

In [88]:
np.argmax(a, axis=0)

array([1, 1, 2, 1], dtype=int64)

In [89]:
np.argmin(a, axis=1)

array([0, 2, 3], dtype=int64)

In [90]:
np.argmin(a, axis=0)

array([0, 0, 0, 2], dtype=int64)

## 9. Boolean & fancy index
#### 9.1 Boolean index

In [91]:
test_array = np.array([1,4,0,2,3,8,9,7], float)
test_array > 3

array([False,  True, False, False, False,  True,  True,  True])

In [92]:
test_array[test_array > 3]    # 조건이 True인 index의 element만 추출

array([4., 8., 9., 7.])

In [93]:
condition = test_array < 3
test_array[condition]

array([1., 0., 2.])

#### 9.2 Fancy index

In [94]:
a = np.array([2, 4, 6, 8], float)
b = np.array([0, 0, 1, 3, 2, 1], int)    # 반드시 integer로 선언
a[b]    # b 배열의 값을 인덱스로 하여 a의 값들을 추출함

array([2., 2., 4., 8., 6., 4.])

In [95]:
a.take(b)    # take 함수: bracket index와 같은 효과

array([2., 2., 4., 8., 6., 4.])

In [96]:
a = np.array([[1,4], [9,16]], float)
b = np.array([0,0,1,1,1], int)
c = np.array([0,1,1,1,0], int)
a[b,c]    # b를 row index, c를 column index로 변환하여 표시

array([ 1.,  4., 16., 16.,  9.])

## 10. Numpy data I/O
#### 10.1 loadtxt & savetxt (Text type의 데이터를 읽고 저장하는 기능)

In [97]:
a = np.loadtxt('number.txt')

In [98]:
a

array([ 1.2 ,  2.3 ,  3.4 ,  4.5 ,  5.6 ,  6.7 ,  7.8 ,  8.9 ,  9.1 ,
       10.11])

In [99]:
a[:10]

array([ 1.2 ,  2.3 ,  3.4 ,  4.5 ,  5.6 ,  6.7 ,  7.8 ,  8.9 ,  9.1 ,
       10.11])

In [100]:
a_int = a.astype(int)
a_int[:3]

array([1, 2, 3])

In [102]:
# np.savetxt('number.csv', a_int,delimiter=‘,’)    # csv 파일로 저장

#### 10.2 numpy object – npy
- Numpy object(pickle) 형태로 데이터를 저장하고 불러옴
- Binary 파일 형태

np.save(‘npy_test’, arr=a_int)

npy_array = np.load(file=‘npy_test.npy’)