# Numpy

- 일반 리스트에 비해 빠르다
- 반복문 없이 데이터 배열에 대한 처리를 지원함
- 선형대수와 관련된 다양한 기능을 제공함
- C,C++,포트란 등의 언어와 통합가능

In [2]:
import numpy as np

# Array creation

- numpy는 np.array 함수를 활용하여 배열을 생성함 -> ndarray
- numpy는 하나의 데이터 type만 배열에 넣을 수 있음
- list와의 가장 큰 차이는 Dynamic typing not supported
- c의 array를 사용하여 배열을 생성함

In [6]:
test_array = np.array(['1', '2', 3, 6], float) #String Type의 데이터를 입력해도
print(test_array)  
type(test_array[3]) #자동 형변환을 실시

[1. 2. 3. 6.]


numpy.float64

# Array shape (vector)

- Array(vector, matrix, tensor)의 크기, 형태 등에 대한 정보

In [8]:
test_array.shape

(4,)

In [10]:
matrix = [[1,3,5,6],[1,2,3,4],[1,2,3,4]]
np.array(matrix, int).shape

(3, 4)

In [12]:
tensor = [[[1,2,3,4],[1,2,3,4],[1,2,3,4]],
          [[1,2,3,4],[1,2,3,4],[1,2,3,4]],
          [[1,2,3,4],[1,2,3,4],[1,2,3,4]]]
np.array(tensor, int).shape

(3, 3, 4)

# Array shape - ndim & size 

- ndim - number of dimension 
- size - data의 개수

In [13]:
np.array(tensor, int).ndim

3

In [14]:
np.array(tensor, int).size 

36

# reshape

- Array의 shape의 크기를 변경함 (element의 갯수는 동일)
- Array의 size만 같다면 다차원으로 자유로이 변형가능

In [16]:
test_matrix = [[1,2,3,4],[1,2,5,8]]
np.array(test_matrix).reshape(2,4).shape

(2, 4)

In [18]:
np.array(test_matrix).reshape(-1,2).shape #-1: size를 기반으로 row개수 선정

(4, 2)

# flatten 

- 다차원 array를 1차원 array로 변환

In [19]:
np.array(test_matrix).flatten()

array([1, 2, 3, 4, 1, 2, 5, 8])

# indexing 

- list와 달리 이차원 배열에서 [0,0]과 같은 표기법을 제공함
- matrix 일경우 앞은 row 뒤는 column을 의미함 


In [20]:
a = np.array([[1,2,3],[1.5,5,6]], int)
print(a)
print(a[0,0]) #Two dinmensional array representation #1
print(a[0][0]) #Two dinmensional array representation #2

[[1 2 3]
 [1 5 6]]
1
1


# slicing

- list와 달리 행과 열 부분을 나눠서 slicing이 가능함
- matrix의 부분 집합을 추출할 때 유용함

In [21]:
a = np.array([[1,2,3,4,5],[6,7,8,9,10]], int)
print(a[:,2:])
print(a[1,1:3])
print(a[1:3])

[[ 3  4  5]
 [ 8  9 10]]
[7 8]
[[ 6  7  8  9 10]]


# arange

- array의 범위를 지정하여, 값의 list를 생성하는 명령어

In [22]:
np.arange(30) # range: list의 range와 같은 효과, integer로 0부터 20까지 배열추출

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29])

In [24]:
np.arange(0, 5, 0.5) # floating pornt도 표시 가능함

array([0. , 0.5, 1. , 1.5, 2. , 2.5, 3. , 3.5, 4. , 4.5])

# ones, zeros and empty

- zeros - 0으로 가득찬 ndarray생성
- ones - 1로 가득찬 ndarray생성
- empty - shape만 주어지고 비어있는 ndarray 생성 (memory initialization이 되지않음)

In [27]:
np.zeros(shape=(10,3), dtype=np.int8) # 10 - zero vector 생성

array([[0, 0, 0],
       [0, 0, 0],
       [0, 0, 0],
       [0, 0, 0],
       [0, 0, 0],
       [0, 0, 0],
       [0, 0, 0],
       [0, 0, 0],
       [0, 0, 0],
       [0, 0, 0]], dtype=int8)

In [26]:
np.zeros((2,5)) # 2 by 5 - zero matrix 생성

array([[0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.]])

In [28]:
np.ones((2,5))

array([[1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.]])

In [30]:
np.empty((3,3))

array([[0.5, 1. , 1.5],
       [2. , 2.5, 3. ],
       [3.5, 4. , 4.5]])

# something_like

- 기존 ndarray의 shape 크기 만큼 1,0 또는 empty array를 반환

In [31]:
test_matrix = np.arange(30).reshape(5,6)
np.ones_like(test_matrix)

array([[1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1]])

# identity

- 단위 행렬(i 행렬)을 생성함

In [32]:
np.identity(n=3, dtype=np.int8)

array([[1, 0, 0],
       [0, 1, 0],
       [0, 0, 1]], dtype=int8)

# eye

- 대각선이 1인 행렬, k값의 시작 index의 변경이 가능

In [33]:
np.eye(3,5,k=2)

array([[0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

# diag

- 대각 행렬의 값을 추출함

In [35]:
matrix = np.arange(9).reshape(3,3)
print(np.diag(matrix))
print(np.diag(matrix, k=1))

[0 4 8]
[1 5]


# random sampling

- 데이터 분포에 따른 sampling으로 array를 생성

In [38]:
np.random.uniform(0,1,10).reshape(2,5) # 균등분포

array([[0.16213584, 0.70781086, 0.58023854, 0.84148019, 0.36042996],
       [0.44556061, 0.98519358, 0.94565424, 0.51546957, 0.11353227]])

In [39]:
np.random.normal(0,1,10).reshape(2,5) # 정규분포

array([[-8.87611909e-01,  1.60332970e+00,  5.72847452e-01,
         1.94988419e-03,  1.25553319e+00],
       [-4.18895125e-01,  8.43283132e-02, -5.17735029e-01,
        -3.82073924e-01, -9.75846913e-04]])

# sum


- ndarray의 element들 간의 합을 구함, list의 sum 기능과 동일

In [44]:
test_array = np.arange(1, 13)
test_array.sum()

78

# axis 

- 모든 operation function을 실행할 때, 기준이 되는 dimension 축

In [49]:
test_array = test_array.reshape(3,4)
test_array

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [48]:
print(test_array.sum(axis=0)) # 새로운 shape이 axis=0이 된다
print(test_array.sum(axis=1))

[15 18 21 24]
[10 26 42]


# mean & std

- ndarray의 element들 간의 평균 또는 표준 편차를 반환

In [51]:
test_array.mean()

6.5

In [52]:
test_array.std(axis=0)

array([3.26598632, 3.26598632, 3.26598632, 3.26598632])

# concatenate

- numpy array를 합치는 함수

In [54]:
a = np.array([1,2,3]) #vector
b = np.array([4,5,6])
np.vstack((a,b))

array([[1, 2, 3],
       [4, 5, 6]])

In [56]:
a = np.array([[1],[2],[3]])
b = np.array([[4],[5],[6]])
np.hstack((a,b))

array([[1, 4],
       [2, 5],
       [3, 6]])

In [58]:
a = np.array([[1,2,3]]) #matrix
b = np.array([[4,5,6]])

np.concatenate((a,b), axis=0)

array([[1, 2, 3],
       [4, 5, 6]])

In [60]:
a = np.array([[1,2],[3,4]])
b = np.array([[5,6]])

np.concatenate((a,b.T), axis=1)

array([[1, 2, 5],
       [3, 4, 6]])

# Operations b/t arrays

- numpy는 array간의 기본적인 사칙 연산을 지원함

# Element-wise operation

- Array 간 shape이 같을 때 일어나는 연산

In [62]:
test_a = np.array([[1,2,3],[4,5,6]], float)
test_a + test_a # matrix + matrix

array([[ 2.,  4.,  6.],
       [ 8., 10., 12.]])

In [63]:
test_a - test_a

array([[0., 0., 0.],
       [0., 0., 0.]])

In [64]:
test_a * test_a

array([[ 1.,  4.,  9.],
       [16., 25., 36.]])

 # Dot product

- matrix의 기본연산
- dot 함수 사용

In [3]:
test_a = np.arange(1,7).reshape(2,3)
test_b = np.arange(7,13).reshape(3,2)

In [4]:
test_a.dot(test_b)

array([[ 58,  64],
       [139, 154]])

# transpose

- transpose 또는 T attribute 사용

In [6]:
print(test_a.transpose())
print(test_a.T)

[[1 4]
 [2 5]
 [3 6]]
[[1 4]
 [2 5]
 [3 6]]


# broadcasting

- shpae이 다른 배열 간 연산을 지원하는 기능
- scalar-vector 외에도 vector-matrix 간의 연산도 지원

In [7]:
test_matrix = np.array([[1,2,3],[4,5,6]], float)
scalar = 3

In [8]:
test_matrix + scalar

array([[4., 5., 6.],
       [7., 8., 9.]])

# Numpy performance

- 일반적으로 속도는 for loop < list comprehension < numpy
- 100,000,000 번의 loop가 돌 때 약 4배의 이상의 성능 차이를 보임
- Numpy는 C로 구현되어 있어, 성능을 확보하는 대신 dynamic typing 포기
- concatenate 처럼 계산이 아닌 할당에서는 연산 속도의 이점이 없음

# all & any

- array의 데이터 전부(and) 또는 일부(or)가 조건에 만족 여부 반환

In [9]:
a = np.arange(10)
a

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [13]:
a>6 #broadcasting

array([False, False, False, False, False, False, False,  True,  True,
        True])

In [11]:
print(np.any(a>5))
print(np.all(a>6))

False

# np.where

- 조건을 만족하는 index 값을 반환

In [14]:
np.where(a > 0, 3, 2) #where(condition, TRUE, FALSE)

array([2, 3, 3, 3, 3, 3, 3, 3, 3, 3])

In [15]:
np.where(a>5) #index 값 반환

(array([6, 7, 8, 9], dtype=int64),)

# argmax & argmin

- array 내 최대값 또는 최소값의 index를 반환함
- axis 기반의 반환

In [16]:
np.argmax(a)

9

In [17]:
np.argmin(a)

0

In [20]:
a = np.array([[1,2,4,7],[9,88,6,45],[9,76,3,4]])
print(np.argmax(a, axis=1))
print(np.argmin(a, axis=0))

[3 1 1]
[0 0 2 2]


# boolean index

- numpy의 배열은 특정 조건에 따른 값을 배열 형태로 추출 할 수 있음
- comparison operation 함수들도 모두 사용가능

In [22]:
test_array = np.array([1,4,0,2,3,8,9,7], float)
test_array > 3

array([False,  True, False, False, False,  True,  True,  True])

In [24]:
test_array[test_array>3]

array([4., 8., 9., 7.])

# fancy index

- numpy는 array를 index value로 사용해서 값을 추출하는 방법
- matrix 형태의 데이터도 가능

In [27]:
a = np.array([2,4,6,8], float)
b = np.array([0, 0, 1, 3, 2, 1], int) #반드시 integer로 선언
a[b] #bracket index, b 배열의 값을 index로 하여 a의 값을 추출함

array([2., 2., 4., 8., 6., 4.])

In [28]:
a.take(b) #take 함수: bracket index와 같은 효과

array([2., 2., 4., 8., 6., 4.])

In [30]:
a = np.array([[1,4],[9,16]], float)
b = np.array([0,0,1,1,0], int)
c = np.array([0,1,1,1,1], int)
a[b,c] #b를 row index, c를 column index로 변환하여 표시함

array([ 1.,  4., 16., 16.,  4.])

# Comparison operation

- Numpy는 배열의 크기가 동일 할 때 element간 비교의 결과를 Boolean type으로 반환하여 돌려줌

# loadtxt & savetxt

- Text type의 데이터를 읽고, 저장하는 기능

In [32]:
a = np.loadtxt('./populations.txt') #파일 호출
a[:10]

array([2.300e+01, 4.000e+00, 5.000e+00, 1.230e+02, 2.321e+03, 2.321e+03,
       2.000e+00, 3.200e+01, 2.300e+01, 2.321e+03])

In [33]:
a_int = a.astype(int) #int type 변환
a_int[:10]

array([  23,    4,    5,  123, 2321, 2321,    2,   32,   23, 2321])

In [34]:
np.savetxt('int_data.csv', a_int, delimiter=",")