# Numpy


## Q
#### - 다양한 Matrix 게산을 어떻게 만들 것인가?
#### - 굉장히 큰 Matrix에 대한 표현을 어떻게 할 것인가?
#### - 파이썬의 속도 문제를 어떻게 해결할 것인가?

## A
#### - C언어 기반으로 제작했기 때문에 데이터 타입의 구분 존재
#### - 반복문 없이 데이터 배열에 대한 처리 지원
#### - 일반 List에 비해 빠르고 메모리를 효율적으로 사용
#### - 선형대수와 관련된 다양한 기능을 제공
#### - 당연하게도 C, C++, 포트란과 호환

## Array creation

#### np.array 함수를 사용하여 배열 생성 -> ndarray
#### numpy는 하나의 통일된 데이터 타입만 배열에 넣을 수 있다.
#### C의 Array를 사용하여 배열을 생성한다 -> 속도 보완

## numpy호출

In [3]:
import numpy as np

## array 생성하는 방법들

# np.array

In [69]:
test_array = np.array([1,4,5,8], float)

In [70]:
test_array

array([1., 4., 5., 8.])

In [71]:
type(test_array[3])

numpy.float64

In [72]:
test_array = np.array([1,4,5,8], np.str)#형식 지정 가능

In [73]:
type(test_array[3])

numpy.str_

## arange

In [74]:
np.arange(30)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29])

In [77]:
np.arange(0, 5, 0.5) #(시작,끝,step)

array([0. , 0.5, 1. , 1.5, 2. , 2.5, 3. , 3.5, 4. , 4.5])

In [78]:
np.arange(30).reshape(5,6)

array([[ 0,  1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11],
       [12, 13, 14, 15, 16, 17],
       [18, 19, 20, 21, 22, 23],
       [24, 25, 26, 27, 28, 29]])

In [86]:
np.arange(30).reshape(5,6).tolist() #tolist 함수는 값을 list형태로 돌려줌

[[0, 1, 2, 3, 4, 5],
 [6, 7, 8, 9, 10, 11],
 [12, 13, 14, 15, 16, 17],
 [18, 19, 20, 21, 22, 23],
 [24, 25, 26, 27, 28, 29]]

## zeros
#### 영행렬

In [87]:
np.zeros((10,), int) #(shape,dtype)

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

In [88]:
np.zeros((2,5),float)

array([[0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.]])

## ones
#### 1만 찬 행렬

In [89]:
np.ones((8,),int)

array([1, 1, 1, 1, 1, 1, 1, 1])

In [90]:
np.ones((4,2),str)

array([['1', '1'],
       ['1', '1'],
       ['1', '1'],
       ['1', '1']], dtype='<U1')

## like
#### 이미 선언된 array의 shape에 맞게 값만 바꿔줌

In [91]:
test = np.arange(30).reshape(5,6)

In [92]:
test

array([[ 0,  1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11],
       [12, 13, 14, 15, 16, 17],
       [18, 19, 20, 21, 22, 23],
       [24, 25, 26, 27, 28, 29]])

In [95]:
np.ones_like(test)

array([[1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1]])

## identity
#### 단위행렬 생성

In [98]:
np.identity(3, int) #(number of row, dtype)

array([[1, 0, 0],
       [0, 1, 0],
       [0, 0, 1]])

In [99]:
np.identity(5)

array([[1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

## eye
#### 대각선이 1인 행렬 생성

In [111]:
np.eye(3, 5, dtype = int) #(row, column, dtype) 

array([[1, 0, 0, 0, 0],
       [0, 1, 0, 0, 0],
       [0, 0, 1, 0, 0]])

In [105]:
np.eye(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [112]:
np.eye(3, 5, k=2) #k는 start index 
#그냥 (3,5,2) 라고 쓰면 dtype인지 k인지 모르니까 키워드 명시

array([[0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

## diag
#### 대각선 값 추출

In [115]:
matrix = np.arange(9).reshape(3,3)
matrix

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [116]:
np.diag(matrix)

array([0, 4, 8])

In [117]:
np.diag(matrix, k=1) #역시 k는 start index

array([1, 5])

## random 값 배열 생성

In [121]:
np.random.uniform(0,1,10).reshape(2,5) #균등분포 (최저값, 최고값, 데이터개수)

array([[0.98424803, 0.42070386, 0.70038192, 0.68376755, 0.11506393],
       [0.27075625, 0.96415692, 0.6912347 , 0.48513474, 0.9945292 ]])

In [120]:
np.random.normal(0,1,10).reshape(2,5) #정규분포 (평균값, std, 데이터개수)

array([[ 1.34069852,  0.37685954,  1.02177829, -0.63625584,  0.44417385],
       [ 0.65281566, -1.26542732,  1.03480129,  1.00249904, -1.50911733]])

# array shape

## shape
#### numpy array의 dimension 구성을 반환

In [10]:
vector = [1,2,3,4]
np.array(vector, int).shape

(4,)

In [11]:
matrix = [[1,2,3,4],[1,2,3,4],[1,2,3,4]]
np.array(matrix, int).shape

(3, 4)

In [13]:
tensor = [[[1,2,3,4],[1,2,3,4,],[1,2,3,4]],
          [[1,2,3,4],[1,2,3,4,],[1,2,3,4]],
          [[1,2,3,4],[1,2,3,4,],[1,2,3,4]],
          [[1,2,3,4],[1,2,3,4,],[1,2,3,4]]
         ]
np.array(tensor,int).shape

(4, 3, 4)

In [16]:
a = np.array(vector,int)
b = np.array(matrix,int)
c = np.array(tensor,int)

print(a.shape)
print(b.shape)
print(c.shape)

(4,)
(3, 4)
(4, 3, 4)


## dtype
#### array 생성시 각각의 element에 대하여 데이터타입 지정 가능.
#### 데이터 타입 반환

In [24]:
a.dtype

dtype('int32')

In [25]:
b. dtype

dtype('int32')

In [26]:
c. dtype

dtype('int32')

## ndim
#### number of dimension

In [18]:
a.ndim

1

In [19]:
b.ndim

2

In [20]:
c.ndim

3

## size
#### data 개수

In [21]:
a.size

4

In [22]:
b.size

12

In [23]:
c.size

48

# Shape 다루기

## reshape
#### array의 shape 를 변경한다. 단, element 개수는 동일.
#### size만 동일하다면 reshape 가능

In [32]:
test_matrix = [[1,2,3,4],[5,6,7,8]]
a = np.array(test_matrix)
a.shape

(2, 4)

In [33]:
a.reshape(8,)

array([1, 2, 3, 4, 5, 6, 7, 8])

In [35]:
a.reshape(8,).shape

(8,)

In [37]:
a.reshape(2,4)

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

In [39]:
a.reshape(-1,2) #-1은 '뭐든 상관없다'는 의미. 따라서 row는 알아서 맞추고 column만 2로.

array([[1, 2],
       [3, 4],
       [5, 6],
       [7, 8]])

In [40]:
a.reshape(2,2,2)

array([[[1, 2],
        [3, 4]],

       [[5, 6],
        [7, 8]]])

In [41]:
a.reshape(-1,4)

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

In [43]:
a.reshape(-1,7) # -> 형태가 깨지는 케이스

ValueError: cannot reshape array of size 8 into shape (7)

## flatten
#### 다차원의 array를 1차원으로

In [44]:
test_matrix = [[[1,2,3,4],[5,6,7,8]],[[9,10,11,12],[13,14,15,16]]]
a = np.array(test_matrix)

In [45]:
a

array([[[ 1,  2,  3,  4],
        [ 5,  6,  7,  8]],

       [[ 9, 10, 11, 12],
        [13, 14, 15, 16]]])

In [47]:
a.flatten()

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16])

# Indexind & Slicing

## indexing
### numpy에서는 [n,m]으로 인덱스에 접근한다.

In [51]:
test = np.array([[1,2,3,],[4.5,5,6]],int) # 4.5여도 int지정하면 4로 됨
test

array([[1, 2, 3],
       [4, 5, 6]])

In [52]:
test[0]

array([1, 2, 3])

In [53]:
test[0][2]

3

In [54]:
test[0,2]

3

## slicing
#### list와 달리 행과 열에 따로 slicing 가능.
#### matrix에서 부분집합 출력시 유용

In [55]:
a = np.array([[1,2,3,4,5],[6,7,8,9,10]],int)

In [57]:
a

array([[ 1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10]])

In [58]:
a[:,2:] #column index 2부터

array([[ 3,  4,  5],
       [ 8,  9, 10]])

In [59]:
a[1,1:3] #row가 1이고 column은 1에서 2까지

array([7, 8])

In [61]:
a[1:3] #row가 1에서 2까지인데 2가 없으니 1만 출력

array([[ 6,  7,  8,  9, 10]])

In [62]:
b = np.array([[0,1,2,3,4],
              [5,6,7,8,9],
              [10,11,12,13,14]
             ])

In [64]:
b

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [65]:
b[:,::2] #row는 전체, column은 두칸마다 출력

array([[ 0,  2,  4],
       [ 5,  7,  9],
       [10, 12, 14]])

In [66]:
b[::2,::3] #row는 2칸마다, column은 3칸마다 출력

array([[ 0,  3],
       [10, 13]])

# numpy operation

## sum
#### element의 합을 구한다.

In [136]:
test = np.arange(1,11)
test

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

In [137]:
test.sum(dtype=float)

55.0

## axis 개념 중요!

In [140]:
test = np.arange(1,13).reshape(3,4)

In [141]:
test

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [142]:
test.sum(axis=0)

array([15, 18, 21, 24])

In [143]:
test.sum(axis=1)

array([10, 26, 42])

In [144]:
test = np.array([test, test, test])
test

array([[[ 1,  2,  3,  4],
        [ 5,  6,  7,  8],
        [ 9, 10, 11, 12]],

       [[ 1,  2,  3,  4],
        [ 5,  6,  7,  8],
        [ 9, 10, 11, 12]],

       [[ 1,  2,  3,  4],
        [ 5,  6,  7,  8],
        [ 9, 10, 11, 12]]])

In [145]:
test.sum(axis=0)

array([[ 3,  6,  9, 12],
       [15, 18, 21, 24],
       [27, 30, 33, 36]])

In [146]:
test.sum(axis=1)

array([[15, 18, 21, 24],
       [15, 18, 21, 24],
       [15, 18, 21, 24]])

In [149]:
test.sum(axis=2)

array([[10, 26, 42],
       [10, 26, 42],
       [10, 26, 42]])

# mean & std

## mean
#### array의 element간 평균

In [150]:
test = np.arange(1,13).reshape(3,4)
test

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [152]:
test.mean() #전체 element 평균

6.5

In [156]:
test.mean(axis=0)

array([5., 6., 7., 8.])

In [157]:
test.mean(axis=1, dtype=int)

array([ 2,  6, 10])

In [158]:
test.std() #전체값의 표준편차

3.452052529534663

In [159]:
test.std(axis=0)

array([3.26598632, 3.26598632, 3.26598632, 3.26598632])

## strides
#### element간, dimension간 간격이 얼마인가?

In [164]:
vector = np.arange(1,5)
matrix = np.arange(1,9).reshape(2,4)
tensor = np.arange(1,37).reshape(3,3,4)

In [167]:
vector

array([1, 2, 3, 4])

In [172]:
vector.dtype # int형 32비트 -> 하나에 4바이트.

dtype('int32')

In [166]:
vector.strides # 다음 column으로 가는데 4bytes 필요.

(4,)

In [175]:
matrix

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

In [173]:
matrix.dtype

dtype('int32')

In [180]:
matrix.strides
#matrix 내부의 vector간 16바이트 필요, vector 내부의 의 column간 4바이트 필요.

(16, 4)

In [177]:
tensor

array([[[ 1,  2,  3,  4],
        [ 5,  6,  7,  8],
        [ 9, 10, 11, 12]],

       [[13, 14, 15, 16],
        [17, 18, 19, 20],
        [21, 22, 23, 24]],

       [[25, 26, 27, 28],
        [29, 30, 31, 32],
        [33, 34, 35, 36]]])

In [178]:
tensor.dtype

dtype('int32')

In [181]:
tensor.strides
#tensor 내부의 matrix간 48바이트 필요
#matrix 내부의 vector간 16바이트 필요
#vector 내부의 column간 4바이트 필요

(48, 16, 4)

# concatename

## vstack
#### 세로로 붙인다.

In [186]:
a = np.array([1,2,3])
b = np.array([4,5,6])

In [187]:
np.vstack((a,b))

array([[1, 2, 3],
       [4, 5, 6]])

## hstack
#### 가로로 붙인다.

In [188]:
a = np.array([[1],[2],[3]])
b = np.array([[4],[5],[6]])

In [189]:
a

array([[1],
       [2],
       [3]])

In [190]:
b

array([[4],
       [5],
       [6]])

In [191]:
np.hstack((a,b))

array([[1, 4],
       [2, 5],
       [3, 6]])

## concatenate
#### axis 활용

In [194]:
a = np.array([[1,2,3]])
b = np.array([[4,5,6]])
np.concatenate( (a,b), axis=0) #vstack과 동일

array([[1, 2, 3],
       [4, 5, 6]])

In [222]:
a = np.array([[1,2],[3,4]])
b = np.array([[5,6]])

In [228]:
b

array([[5, 6]])

In [224]:
np.concatenate( (a,b.T), axis=1)

array([[1, 2, 5],
       [3, 4, 6]])

In [229]:
b = np.array([5,6])

In [231]:
np.concatenate((a,b.T),axis=1)
#b를 vector로 선언하면 matrix가 아니라서 Transpose가 안된다.

ValueError: all the input arrays must have same number of dimensions

## 사칙연산

In [232]:
test = np.array([[1,2,3],[4,5,6]],float)

In [233]:
test + test

array([[ 2.,  4.,  6.],
       [ 8., 10., 12.]])

In [234]:
test - test

array([[0., 0., 0.],
       [0., 0., 0.]])

In [236]:
test * test #그냥 *는 같은 위치끼리의 곱. 행렬의 곱이 아님.

array([[ 1.,  4.,  9.],
       [16., 25., 36.]])

In [238]:
a = np.arange(1,7).reshape(2,3)
b = np.arange(7,13).reshape(3,2)

In [243]:
print(a)
print()
print(b)

[[1 2 3]
 [4 5 6]]

[[ 7  8]
 [ 9 10]
 [11 12]]


In [240]:
a.dot(b) #행렬의 곱은 .dot

array([[ 58,  64],
       [139, 154]])

In [244]:
a.dot(a.T) #같은 모양의 행렬끼리 곱하려면 transpose 필요.

array([[14, 32],
       [32, 77]])

In [245]:
a

array([[1, 2, 3],
       [4, 5, 6]])

In [246]:
a.T

array([[1, 4],
       [2, 5],
       [3, 6]])

## broadcasting
#### shape이 다른 배열간의 연산을 지원

In [248]:
matrix = np.array([[1,2,3],[4,5,6]],float)
scalar = 3

In [250]:
matrix + scalar #모든 element에 3 더함.

array([[4., 5., 6.],
       [7., 8., 9.]])

In [251]:
matrix - scalar

array([[-2., -1.,  0.],
       [ 1.,  2.,  3.]])

In [252]:
matrix * scalar

array([[ 3.,  6.,  9.],
       [12., 15., 18.]])

In [253]:
matrix / scalar

array([[0.33333333, 0.66666667, 1.        ],
       [1.33333333, 1.66666667, 2.        ]])

In [254]:
matrix ** scalar

array([[  1.,   8.,  27.],
       [ 64., 125., 216.]])

#### scalar-vector 뿐만 아니라 vector-matrix간 broadcasting 연산도 지원.

In [257]:
vector = np.arange(10,40,10)
matrix = np.arange(1,13).reshape(4,3)

In [258]:
vector

array([10, 20, 30])

In [259]:
matrix

array([[ 1,  2,  3],
       [ 4,  5,  6],
       [ 7,  8,  9],
       [10, 11, 12]])

In [260]:
vector + matrix

array([[11, 22, 33],
       [14, 25, 36],
       [17, 28, 39],
       [20, 31, 42]])

## Numpy performance

In [None]:
def test(scalar,vector):
    result = []
    for value in vector:
        result.append(scalar * value)
    return result

vector = list(range(100000000))
scalar = 2

In [None]:
%timeit test(scalar, vector)

In [None]:
%timeit np.arange(100000000) * scalar

# Comparison

## All & Any

In [6]:
a = np.arange(10)
a

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [7]:
a < 0

array([False, False, False, False, False, False, False, False, False,
       False])

In [9]:
np.any(a>5), np.any(a<0)

(True, False)

In [10]:
np.all(a>5), np.any(a<10)

(False, True)

## array간 비교
#### 크기가 같을 때, element간 비교

In [17]:
a = np.array([1,3,0])
b = np.array([5,2,1])
a>b

array([False,  True, False])

In [18]:
a == b

array([False, False, False])

In [19]:
(a>b).any() #하나라도 true라면 true

True

## argmax & argmin
#### #값이 아닌 인덱스로 반환한다.

In [20]:
a = np.array([1,2,4,5,8,78,23,3])
np.argmax(a) , np.argmin(a)

(5, 0)

In [24]:
a = np.array([[1,2,4,7],[9,88,6,45],[9,76,3,4]])
np.argmax(a, axis=1), np.argmin(a, axis=0)

(array([3, 1, 1], dtype=int64), array([0, 0, 2, 2], dtype=int64))

## boolean index
#### numpy는 조건에 따른 값을 배열 형태로 추출 가능

In [26]:
test = np.array([1,4,0,2,3,8,9,7])
test > 3

array([False,  True, False, False, False,  True,  True,  True])

In [27]:
test[test>3] #조건에 성립하는 index의 ememnt만 리스트로 반환

array([4, 8, 9, 7])

In [29]:
condition = test < 3
test[condition]

array([1, 0, 2])

## Fancy index
#### numpy는 array를 index value로 사용해서 값을 추출

In [40]:
a = np.array([2,4,6,8])
b = np.array([0,0,1,3,2,1])

In [32]:
a[b]

array([2, 2, 4, 8, 6, 4])

In [38]:
a.take(b) #같은 방법.

array([2, 2, 4, 8, 6, 4])

In [39]:
a = np.array([2,4,6,8])
b = np.array([0,0,1,3,2,1,5])
a[b] #5가 없기 때문에 a에서 index에러 발생.

IndexError: index 5 is out of bounds for axis 0 with size 4

In [43]:
a = np.array([[1,4],[9,16]])
b = np.array([0,0,1,1,0])
c = np.array([0,1,1,1,1])

In [45]:
a[b,c] #b가 row index, c가 column index

array([ 1,  4, 16, 16,  4])