# **numpy**
- Numerical Python
- 파이썬의 고성능 과학 계산형 패키지
- Matrix와 Vector와 같은 Array 연산의 사실상의 표준

<특징>
- 일반 List에 배해 빠르고 메모리 효율적
- 반복문 없이 데이터 배열에 대한 처리를 지원함
- 선형대수와 관련된 다양한 기능을 제공함
- C, C++, 포트란 등의 언어와 통합 가능

## **ndarray**
- numpy는 np.array 함수를 활용 배열을 생성함 -> ndarray
- numpy는 하나의 데이터 type만 배열에 넣을 수 있음

In [1]:
# numpy 모듈의 호출
import numpy as np

In [2]:
# array의 생성
test_array = np.array([1, 4, 5, 6], float)
print(test_array)

[1. 4. 5. 6.]


In [3]:
test_array = np.array(["1", "4", 5.0, 8], float)
test_array

array([1., 4., 5., 8.])

In [4]:
type(test_array)

numpy.ndarray

In [5]:
a = [1, 2, 3, 4, 5]
b = [5, 4, 3, 2, 1]
a[0] is b[-1]

True

In [6]:
a = np.array(a)
b = np.array(b)
a[0] is b[-1]

False

In [7]:
# String Type의 데이터를 입력해도
# Float Type으로 자동 형변환을 실시
test_array = np.array([1, 3, 4, "5"], float)
test_array

array([1., 3., 4., 5.])

In [8]:
print(type(test_array[3]))

<class 'numpy.float64'>


In [9]:
# Array 전체의 데이터 Type을 반환함
test_array.dtype

dtype('float64')

In [10]:
# Array의 shape을 반환함
test_array.shape

(4,)

In [11]:
matrix = [[[1, 2, 3, 4], [5, 6, 7, 8]],
          [[9, 10, 11, 12], [13, 14, 15, 16]]]
np.array(matrix, int).shape

(2, 2, 4)

In [12]:
np.array(matrix, int).ndim # 배열의 차원

3

In [13]:
np.array(matrix, int).size # 배열 안에 있는 item의 총 개수

16

### **Array nbytes**
- nbytes : ndarray object의 메모리 크기를 반환함

In [14]:
np.array([[1, 2, 3,], [4.5, "5", "6"]], dtype=np.float32).nbytes
# 32 bits = 4 bytes => 6 * 4 bytes

24

In [15]:
np.array([[1, 2, 3,], [4.5, "5", "6"]], dtype=np.int8).nbytes
# 8 bits = 1 bytes => 6 * 1 bytes

6

In [16]:
np.array([[1, 2, 3,], [4.5, "5", "6"]], dtype=np.float64).nbytes
# 64 bits = 8 bytes => 6 * 8 bytes

48

## **handling shape**

**reshape** : Array의 shape의 크기를 변경함. element의 개수는 동일


In [17]:
test = [[1, 2, 3, 4], [1, 2, 4, 6]]
np.array(test).shape

(2, 4)

In [18]:
np.array(test).reshape(8, )

array([1, 2, 3, 4, 1, 2, 4, 6])

In [19]:
np.array(test).reshape(8, ).shape

(8,)

In [20]:
np.array(test).reshape(2, 4).shape

(2, 4)

In [21]:
# -1 : size를 기반으로 row 개수 선정
np.array(test).reshape(-1, 4).shape

(2, 4)

**flatten** : 다차원 array를 1차원 array로 변환

In [22]:
test = [[[1, 2, 3, 4], [1, 2, 5, 8]], [[1, 2, 3, 4], [1, 2, 5, 8]]]
test = np.array(test)
test

array([[[1, 2, 3, 4],
        [1, 2, 5, 8]],

       [[1, 2, 3, 4],
        [1, 2, 5, 8]]])

In [23]:
test.shape

(2, 2, 4)

In [24]:
test.flatten()

array([1, 2, 3, 4, 1, 2, 5, 8, 1, 2, 3, 4, 1, 2, 5, 8])

In [25]:
test.flatten().shape

(16,)

## **Indexing & Sclicing**

**Indexing**

In [26]:
test = np.array([[1, 2, 3], [4, 5, 6]], int)
test

array([[1, 2, 3],
       [4, 5, 6]])

In [27]:
test[0, 2]

3

In [28]:
test[0, 2] = 11
test

array([[ 1,  2, 11],
       [ 4,  5,  6]])

**Sclicing**

In [29]:
test = np.array([[1, 2, 3, 4, 5], [6, 7, 8, 9, 10], [11, 12, 13, 14, 15]], int)
test[:2:] # 전체 row의 2열 이상

array([[ 1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10]])

In [30]:
test[1, 1:3] # 1row의 1열~2열

array([7, 8])

In [31]:
test[1:3] # 1row ~ 2row의 전체

array([[ 6,  7,  8,  9, 10],
       [11, 12, 13, 14, 15]])

In [32]:
test[:, ::2]

array([[ 1,  3,  5],
       [ 6,  8, 10],
       [11, 13, 15]])

## **Creation Function**

**arange** : array의 범위를 지정하여 값의 list를 생성하는 명령어

In [33]:
np.arange(30) # integer로 0부터 29까지 배열 추출

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29])

In [34]:
# np.arange(시작, 끝, step)
np.arange(0, 5, 0.5) # floating point도 표시가능함

array([0. , 0.5, 1. , 1.5, 2. , 2.5, 3. , 3.5, 4. , 4.5])

In [35]:
np.arange(30).reshape(5, 6)

array([[ 0,  1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11],
       [12, 13, 14, 15, 16, 17],
       [18, 19, 20, 21, 22, 23],
       [24, 25, 26, 27, 28, 29]])

**zeros** : 0으로 가득찬 ndarray 생성

In [36]:
np.zeros(shape=(10,), dtype=np.int8)

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0], dtype=int8)

In [37]:
np.zeros((2, 5))

array([[0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.]])

**ones** : 1로 가득찬 ndarray 생성

In [38]:
np.ones(shape=(10,), dtype=np.int8)

array([1, 1, 1, 1, 1, 1, 1, 1, 1, 1], dtype=int8)

In [39]:
np.ones((2, 5))

array([[1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.]])

**empty** : shape만 주어지고 비어있는 ndarray 생성

In [40]:
np.empty(shape=(10, ), dtype=np.int8)

array([1, 1, 1, 1, 1, 1, 1, 1, 1, 1], dtype=int8)

In [41]:
np.empty((2, 5))

array([[1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.]])

**somthing_like** : 기존 ndarray의 shape 크기 만큼 1, 0 또는 empty array를 반환

In [42]:
test = np.arange(30).reshape(5, 6)
np.ones_like(test)

array([[1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1]])

**identity** : 단위 행렬을 생성함

In [43]:
np.identity(n=3, dtype=np.int8)

array([[1, 0, 0],
       [0, 1, 0],
       [0, 0, 1]], dtype=int8)

In [44]:
np.identity(5)

array([[1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

**eye** : 대각선인 1인 행렬, k 값의 시작 index의 변경이 가능

In [45]:
np.eye(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [46]:
np.eye(N=3, M=5, dtype=np.int8)

array([[1, 0, 0, 0, 0],
       [0, 1, 0, 0, 0],
       [0, 0, 1, 0, 0]], dtype=int8)

In [47]:
np.eye(3, 5, k=2)

array([[0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

**diag** : 대각 행렬의 값을 추출함

In [48]:
matrix = np.arange(9).reshape(3, 3)
matrix

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [49]:
np.diag(matrix)

array([0, 4, 8])

In [50]:
np.diag(matrix, k=1)

array([1, 5])

**random sampling** : 데이터 분포에 따른 sampling으로 array를 생성

In [51]:
# 균등분포
np.random.uniform(0, 1, 10).reshape(2, 5)

array([[0.96443239, 0.53066554, 0.90610607, 0.86577008, 0.39376514],
       [0.24449994, 0.85263918, 0.45603268, 0.30143804, 0.12430709]])

In [52]:
# 정규분포
np.random.normal(0, 1, 10).reshape(2, 5)

array([[-0.40033236, -0.79638212,  1.6169865 ,  0.16222242,  0.65803491],
       [ 1.71604685,  1.79880185, -0.78056647,  0.35895545, -1.35332668]])

In [53]:
np.random.exponential(scale=2, size=100)

array([ 6.14724984,  3.54444089,  0.69367122,  0.68644801,  0.05462727,
        1.25084269,  1.82727409,  1.28491574,  3.60865554,  0.90172994,
        1.86223734,  0.89724156,  4.68010205,  0.62401369,  1.18024499,
        0.74970493, 10.38161192,  0.18220515,  5.16224467,  3.03490429,
        1.13754247,  2.67273648,  0.56523631,  0.10629446,  0.62455054,
        2.50947087,  3.99875934,  0.52219981,  1.72102547,  0.70769213,
        4.32521657,  0.41050422,  0.21436429,  1.80339268,  1.28318463,
        0.07268585,  1.51356222,  3.46475456,  2.21520138,  3.67189331,
        1.02332857,  0.81583755,  0.41911886,  2.47671718,  0.21472756,
        1.17515988,  0.41510097,  2.30913463,  3.26598315,  2.25829087,
        1.7388958 ,  4.77894977,  1.94815996,  0.39054543,  2.70066297,
        0.26311371,  0.21812248,  1.58992469,  1.8885578 ,  0.06430553,
        4.18039699,  0.07282392,  5.49476198,  3.36678925,  0.19968725,
        4.30073317,  2.87344496,  2.52144276,  0.9121396 ,  0.39

**sum** : ndarray의 element들 간의 합을 구함

In [54]:
test = np.arange(1, 11)
test.sum(dtype=np.float)

Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  test.sum(dtype=np.float)


55.0

**aixs** : 모든 operation function을 실행할 때 기준이 되는 dimension 축

In [55]:
test = np.arange(1, 13).reshape(3, 4)
test

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [56]:
test.sum(axis=1), test.sum(axis=0)

(array([10, 26, 42]), array([15, 18, 21, 24]))

**concatenate** : numpy array를 합치는 함수

In [57]:
a = np.array([1, 2, 3])
b = np.array([2, 3, 4])
np.vstack((a, b))

array([[1, 2, 3],
       [2, 3, 4]])

In [58]:
np.hstack((a, b))

array([1, 2, 3, 2, 3, 4])

## **Array Operations**

**element-wise operations** : Array간 shape이 같을 때 일어나는 연산

In [59]:
a = np.arange(1, 11).reshape(2, 5)
a

array([[ 1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10]])

In [60]:
a + a

array([[ 2,  4,  6,  8, 10],
       [12, 14, 16, 18, 20]])

In [61]:
a - a

array([[0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0]])

In [62]:
a * a # 요소들 간의 같은 위치에 있는 값들끼리 연산

array([[  1,   4,   9,  16,  25],
       [ 36,  49,  64,  81, 100]])

**dot product**

In [63]:
test_a = np.arange(1, 7).reshape(2, 3)
test_b = np.arange(7, 13).reshape(3, 2)
test_a.dot(test_b)

array([[ 58,  64],
       [139, 154]])

**transpose**

In [64]:
test_a

array([[1, 2, 3],
       [4, 5, 6]])

In [65]:
test_a.transpose()

array([[1, 4],
       [2, 5],
       [3, 6]])

In [66]:
test_a.T

array([[1, 4],
       [2, 5],
       [3, 6]])

**broadcasting** : shape이 다른 배열 간 연산을 지원하는 기능

In [67]:
scalar=3
test_a

array([[1, 2, 3],
       [4, 5, 6]])

In [68]:
test_a + scalar

array([[4, 5, 6],
       [7, 8, 9]])

In [69]:
test_a - scalar

array([[-2, -1,  0],
       [ 1,  2,  3]])

In [70]:
test_a * scalar

array([[ 3,  6,  9],
       [12, 15, 18]])

In [71]:
test_a / scalar

array([[0.33333333, 0.66666667, 1.        ],
       [1.33333333, 1.66666667, 2.        ]])

## **Comparisons**

**All & Any** : array의 데이터 전부(and) 또는 일부(or)가 조건에 만족 여부 반환

In [72]:
a = np.arange(10)
a

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [73]:
# any : 하나라도 조건에 만족한다면 true
np.any(a>5), np.any(a<0) 

(True, False)

In [74]:
# all : 모두가 조건에 만족한다면 true
np.all(a>5), np.all(a<0)

(False, False)

In [75]:
test_a = np.array([1, 3, 0], float)
test_b = np.array([5, 2, 1], float)

test_a > test_b

array([False,  True, False])

In [76]:
(test_a > test_b).any()

True

In [77]:
# and 조건의 condition
np.logical_and(test_a>0, test_a<3)

array([ True, False, False])

In [78]:
# not 조건의 condition
a = np.logical_and(test_a>0, test_a<3)
np.logical_not(a)

array([False,  True,  True])

In [79]:
# or 조건의 condition
c = np.array([False, True, False], bool)
np.logical_or(a, c)

array([ True,  True, False])

**np.where**

In [80]:
np.where(test_a>0, 3, 2) # where(condition, True, False)
# True이면 3, False이면 2가 출력

array([3, 3, 2])

In [81]:
a = np.arange(10)
np.where(a>5) # Index 값 반환

(array([6, 7, 8, 9], dtype=int64),)

In [82]:
a = np.array([1, np.NaN, np.Inf], float)
np.isnan(a)

array([False,  True, False])

In [83]:
np.isfinite(a)

array([ True, False, False])

**argmax & argmin** : array 내 최댓값 또는 최솟값의 index를 반환함

In [84]:
a = np.arange(10, dtype=np.int8)
np.argmax(a), np.argmin(a)

(9, 0)

In [85]:
# axis 기반의 반환
a = np.array([[1, 2, 3, 7], [9, 88, 6, 45], [9, 10, 5, 9]])
np.argmax(a, axis=1), np.argmin(a, axis=0)

(array([3, 1, 1], dtype=int64), array([0, 0, 0, 0], dtype=int64))

## **Boolean & Fancy Index**

**boolean index** : 특정 조건에 따른 값을 배열 형태로 추출

In [86]:
test_array = np.array([1, 4, 0, 2, 3, 8, 9, 7], float)
test_array > 3

array([False,  True, False, False, False,  True,  True,  True])

In [87]:
# 조건이 True인 index의 element만 추출
test_array[test_array>3]

array([4., 8., 9., 7.])

In [88]:
condition = test_array<3
test_array[condition]

array([1., 0., 2.])

**fancy index** : numpy는 array를 index value로 사용해서 값 추출

In [89]:
a = np.array([2, 4, 6, 8], float)
b = np.array([0, 0, 1, 3, 2, 1], int)
a[b] # bracket index, b 배열의 값을 index로 하여 a의 값들을 추출함

array([2., 2., 4., 8., 6., 4.])

In [90]:
# take() : bracket index와 같은 효과
a.take(b)

array([2., 2., 4., 8., 6., 4.])

## **Numpy data I/O**

**loadtxt & savetxt** : text type의 데이터를 읽고, 저장하는 기능

- 파일 호출 : np.loadtxt("파일 이름")
- Int type 변환 : a.astype(int)
- .csv로 저장 : np.savetxt("파일이름", 저장_array, delimiter=",")