# Numpy
일반 list에 비해 빠르고 메모리를 효율적으로 사용
> 메모리 사용 방식 비교  
>  
> numpy array : 데이터가 연달아 붙어있는 형태  
> 일반 list : 특정 값의 주소값을 가리키고 있는 형태  

반복문 없이 데이터 배열에 대한 처리 지원

## array의 정보 확인하기

In [1]:
import numpy as np
import pandas as pd

In [2]:
test_arr = np.array([1, 2, 3, 4], int)
# array 내에서는 하나의 데이터 타입으로 통일
test_arr.dtype

dtype('int64')

In [3]:
# array의 크기, 형태 등에 대한 정보를 튜플 형태로 반환
test_arr.shape

(4,)

In [4]:
# array의 메모리 확인하기
# 64bits = 8bytes, 8bytes * 4 = 32bytes
test_arr.nbytes

32

## Handling shape

In [5]:
# size(데이터의 총 크기)만 같다면 reshape 가능
test_arr.reshape(2, 2)
test_arr.flatten()

array([1, 2, 3, 4])

## Indexing & Slicing

In [6]:
test_arr = np.array([[1, 2, 3, 4], 
                    [10, 20, 30, 40],
                    [100, 200, 300, 400]])

test_arr[:2, 1:]

array([[ 2,  3,  4],
       [20, 30, 40]])

In [7]:
# slicing step (건너뛰기)
test_arr[::2, ::3]

array([[  1,   4],
       [100, 400]])

## Creation functions

In [8]:
test_arr = np.arange(0, 100, 5)
test_arr

array([ 0,  5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80,
       85, 90, 95])

In [9]:
test_arr.reshape(-1, 4)

array([[ 0,  5, 10, 15],
       [20, 25, 30, 35],
       [40, 45, 50, 55],
       [60, 65, 70, 75],
       [80, 85, 90, 95]])

In [10]:
np.ones(shape=(3, 4), dtype=np.int8)

array([[1, 1, 1, 1],
       [1, 1, 1, 1],
       [1, 1, 1, 1]], dtype=int8)

In [11]:
np.zeros(shape=(4,2), dtype=np.int8)

array([[0, 0],
       [0, 0],
       [0, 0],
       [0, 0]], dtype=int8)

In [12]:
# 단위행렬 생성
np.identity(n=3, dtype=np.int8)

array([[1, 0, 0],
       [0, 1, 0],
       [0, 0, 1]], dtype=int8)

In [13]:
# 단위행렬을 포함하는 행렬, k : start index
np.eye(3, 5, k=2)

array([[0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

In [14]:
# 대각행렬 추출
matrix = np.arange(9).reshape(3, 3)
np.diag(matrix)

array([0, 4, 8])

In [15]:
# k : start index
np.diag(matrix, k=1)

array([1, 5])

## Operation functions

In [16]:
test_arr = np.arange(1, 11).reshape(2, -1)
test_arr

array([[ 1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10]])

In [17]:
test_arr.sum(dtype=np.float16)

55.0

### axis  
모든 operation function을 실행할 때 기준이 되는 dimension 축  
array shape이 (3, 3, 4)이면 앞에서 차례로  
> axis = 0 --> 3  
> axis = 1 --> 3  
> axis = 2 --> 4  

In [18]:
test_arr.sum(axis=0)

array([ 7,  9, 11, 13, 15])

In [19]:
test_arr.mean()

5.5

In [20]:
test_arr.std(axis=0)

array([2.5, 2.5, 2.5, 2.5, 2.5])

In [21]:
np.exp(test_arr)

array([[2.71828183e+00, 7.38905610e+00, 2.00855369e+01, 5.45981500e+01,
        1.48413159e+02],
       [4.03428793e+02, 1.09663316e+03, 2.98095799e+03, 8.10308393e+03,
        2.20264658e+04]])

In [22]:
# concatenate
a = np.array([1, 2, 3])
b = np.array([3, 4 ,5])
np.vstack((a, b))

array([[1, 2, 3],
       [3, 4, 5]])

In [23]:
a = np.array([[1], [2], [3]])
b = np.array([[3], [4], [5]])
np.hstack((a, b))

array([[1, 3],
       [2, 4],
       [3, 5]])

## Operations between arrays

### Element-wise Operation
Array간의 shape이 같을 때 일어나는 연산

In [24]:
matrix_a = np.arange(1, 13).reshape(3, 4)

In [25]:
matrix_a * matrix_a

array([[  1,   4,   9,  16],
       [ 25,  36,  49,  64],
       [ 81, 100, 121, 144]])

In [26]:
matrix_i = np.identity(4)

In [27]:
# 내적 계산
matrix_a.dot(matrix_i)

array([[ 1.,  2.,  3.,  4.],
       [ 5.,  6.,  7.,  8.],
       [ 9., 10., 11., 12.]])

In [28]:
matrix_b = np.arange(3, 15).reshape(4, -1)
matrix_b

array([[ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11],
       [12, 13, 14]])

In [29]:
matrix_a.dot(matrix_b)

array([[ 90, 100, 110],
       [210, 236, 262],
       [330, 372, 414]])

In [30]:
# transpose
matrix_b.dot(matrix_b.T)

array([[ 50,  86, 122, 158],
       [ 86, 149, 212, 275],
       [122, 212, 302, 392],
       [158, 275, 392, 509]])

### broadcasting
shpae이 다른 배열 간 연산을 지원하는 기능

In [31]:
test_matrix = np.arange(3, 12).reshape(3, 3)
scalar = 6
test_matrix

array([[ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11]])

In [32]:
test_matrix - scalar

array([[-3, -2, -1],
       [ 0,  1,  2],
       [ 3,  4,  5]])

In [33]:
test_matrix // scalar

array([[0, 0, 0],
       [1, 1, 1],
       [1, 1, 1]])

In [34]:
test_matrix ** 2

array([[  9,  16,  25],
       [ 36,  49,  64],
       [ 81, 100, 121]])

Scaler & vector 연산 외에도 vector & matrix 간의 연산 지원

In [35]:
test_matrix

array([[ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11]])

In [36]:
vector = np.array([1, 2, 3])

In [37]:
test_matrix + vector

array([[ 4,  6,  8],
       [ 7,  9, 11],
       [10, 12, 14]])

In [38]:
vector = vector.reshape(3, 1)
vector

array([[1],
       [2],
       [3]])

In [39]:
test_matrix + vector

array([[ 4,  5,  6],
       [ 8,  9, 10],
       [12, 13, 14]])

## Comparisons
### All & Any

In [40]:
a = np.arange(10)
a

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [41]:
a > 5

array([False, False, False, False, False, False,  True,  True,  True,
        True])

In [42]:
np.any(a>5), np.any(a>10)

(True, False)

In [43]:
np.all(a>0), np.all(a<10)

(False, True)

### Comparison operation #1
배열의 크기가 동일할 때 element 간 비교의 결과를 boolean type으로 반환

In [44]:
test_a = np.array([2, 4, 5], float)
test_b = np.array([3, 5, 3], float)
test_a > test_b

array([False, False,  True])

### Comparison operation #2
logical_and, not, or

In [45]:
np.logical_and(a>0, a<3)

array([False,  True,  True, False, False, False, False, False, False,
       False])

In [46]:
b = np.array([True, False, False])
np.logical_not(b)

array([False,  True,  True])

### np.where
where(condition, true, false)  
Index 값을 반환

In [47]:
a = np.arange(10)
np.where(a > 5)

(array([6, 7, 8, 9]),)

In [48]:
a = np.array([7, 2, 5])
# true, false 가 아닌 다른 값을 지정하여 출력하도록 할 수도 있음
np.where(a > 3, 1, 0)

array([1, 0, 1])

In [49]:
np.isnan(a)

array([False, False, False])

### argmax & argmin
array 내의 최대값 또는 최소값의 Index 반환

In [50]:
a = np.array([4, 24, 65, 6, 34])
np.argmin(a)

0

In [51]:
a = np.array([[3, 26, 5], [34, 23, 74]])
np.argmax(a, axis=0)

array([1, 0, 1])

## Boolean & Fancy
### boolean index
조건문 인덱싱 가능

In [52]:
test_arr = np.array([1, 4, 8, 5, 3, 4])
test_arr > 3

array([False,  True,  True,  True, False,  True])

In [53]:
# 위 boolean array를 인덱스로 사용 -> true에 해당하는 값만 출력
test_arr[test_arr > 3]

array([4, 8, 5, 4])

### fancy index
array를 index value로 사용해서 값을 추출

In [54]:
# 방법 1.
a = np.array([2, 3, 16, 4])
b = np.array([0, 0, 2, 1, 2, 0], int) # 반드시 int type으로 선언
a[b]

array([ 2,  2, 16,  3, 16,  2])

In [55]:
# 방법 2. (권장)
a.take(b)

array([ 2,  2, 16,  3, 16,  2])

Matrix 형태의 데이터도 가능

In [56]:
a = np.array([[1, 3, 7], [6, 3, 5], [8, 4, 2]])
fan_1 = np.array([0, 1, 1, 2], int) # row index
fan_2 = np.array([2, 2, 1, 0], int) # col index
a[fan_1, fan_2]


array([7, 5, 3, 8])

## data i/o
### loadtxt & savetxt

In [57]:
# a = np.loadtxt(" 불러올 txt 파일 ")
# a_int = a.astype(int)

In [58]:
# np.savetxt('원하는 파일명.csv', a_int, fmt='%d', delimiter=",")

### numpy object - npy
pickle 형태로 데이터를 저장하고 불러옴  
binary 파일 형태로 저장  
중간 결과물을 남기거나 다른 프로그램과 결과물을 공유할 때 활용

In [59]:
# 자동으로 파일이 생성됨(확장자는 .npy)
np.save("npy_test", arr=a)

In [60]:
npy_arr = np.load(file="npy_test.npy")
npy_arr

array([[1, 3, 7],
       [6, 3, 5],
       [8, 4, 2]])