# Numpy

***
- Numerical Python


- 파이썬의 고성능 과학 계산용 패키지


- Matrix와 Vector와 같은 Array 연산의 사실상의 표준
***

## Numpy 특징


***
- 일반 List에 비해 빠르고, 메모리 효율적


- 반복문 없이 데이터 배열에 대한 처리를 지원함.


- 선형대수와 관련된 다양한 기능을 제공함


- C ,C++ , 포트란 등의 언어와 통합 가능
***

## Numpy 모듈 호출

In [1]:
import numpy as np

## Array 생성

In [2]:
test_array = np.array(["1","2",3,4],float) # list와 달리 string, integer 타입이어도 float로 지정할 시 float 선언 

print(test_array)

[1. 2. 3. 4.]


***

- numpy는 np.array 함수를 활용하여 배열을 생성함 - **ndarray(다차원 행렬구조)**


- numpy는 하나의 데이터 type만 배열에 넣을 수 있다.


- LIst와 가장 큰 차이점, Dynamic typing not supported


- C의 Array를 사용하여 배열을 생성함
***

In [3]:
type(test_array[3])

numpy.float64

In [4]:
a = [1,2,3,4,5]

In [5]:
b = a

In [6]:
b[2] = 5

In [7]:
a  # a 와 b가 가르키는 공간이 같기 때문에 변함.

[1, 2, 5, 4, 5]

Python list는 값 대신 메모리 주소가 들어감.

copy를 하더라도 메모리 주소가 들어가므로 한 단계 바뀐다 하더라도 그 주소가 들어가게됨.

In [8]:
test_array

array([1., 2., 3., 4.])

**shape** : Array(vector, matrix, tensor)의 크기, 형태 등에 대한 정보

In [9]:
test_array.shape

(4,)

In [10]:
test_matrix = [[1,2,3,4],[3,4,5,6]]
np.array(test_matrix)

array([[1, 2, 3, 4],
       [3, 4, 5, 6]])

In [11]:
np.array(test_matrix).shape

(2, 4)

#### Handling Shape

**reshape** : Array의 shape의 크기를 변경함 - array의 size만 같다면 다차원으로 자유롭게 변경 가능

In [12]:
np.array(test_matrix).reshape(2,2,2)

array([[[1, 2],
        [3, 4]],

       [[3, 4],
        [5, 6]]])

row 개수를 정확하게 모르더라도 column을 2개로 만들 수 있다.


**-1 : size를 기반으로 row 개수 선정**

In [13]:
np.array(test_matrix).reshape(-1,2).shape

(4, 2)

In [14]:
test = np.array(test_matrix).reshape(8,)
test

array([1, 2, 3, 4, 3, 4, 5, 6])

In [15]:
test.reshape(-1,2)

array([[1, 2],
       [3, 4],
       [3, 4],
       [5, 6]])

**flatten** : 다차원 array를 1차원 array로 변환

In [16]:
test_matrix = [[1,2,3,4],[1,2,3,5],[2,3,4,5],[1,3,4,6]]
np.array(test_matrix).flatten()

array([1, 2, 3, 4, 1, 2, 3, 5, 2, 3, 4, 5, 1, 3, 4, 6])

# Indexing

In [17]:
a = np.array([[1,2,3],[5.1,5,6]],int)
a

array([[1, 2, 3],
       [5, 5, 6]])

In [18]:
print(a[0,0])

1


In [19]:
print(a[0][0])

1


matrix 일 경우 앞은 row 뒤는 column에 해당한다.

In [20]:
# matrix 0,0에 12 할당

a[0,0] = 12
print(a)

[[12  2  3]
 [ 5  5  6]]


# Slicing

***

- List와 달리 행과 열 부분을 나눠서 Slicing이 가능함


- Matrix의 부분 집합을 추출할 때 유용함


***

In [21]:
test_matrix = np.array([[1,2,3,4],[2,3,4,5],[3,5,4,1],[3,2,4,5]])
test_matrix

array([[1, 2, 3, 4],
       [2, 3, 4, 5],
       [3, 5, 4, 1],
       [3, 2, 4, 5]])

In [22]:
test_matrix[:2,:]

array([[1, 2, 3, 4],
       [2, 3, 4, 5]])

**row - 0 ~ 1까지 <br>column - 전체**

In [23]:
# 열은 전체를 가져오고, 행은 2,3행만 추출

test_matrix[:,1:3]

array([[2, 3],
       [3, 4],
       [5, 4],
       [2, 4]])

In [24]:
test_matrix[1,:2]

array([2, 3])

# arange

- array의 범위를 지정하여, 값의 list를 생성하는 명령어

In [25]:
np.arange(20) # arange : list의 range와 같은 효과, integer로 0부터 19까지 범위 지정

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19])

In [26]:
np.arange(20).reshape(-1,5)

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19]])

In [27]:
np.arange(0,5,0.5)

array([0. , 0.5, 1. , 1.5, 2. , 2.5, 3. , 3.5, 4. , 4.5])

np.arange(**시작,끝,step**)

In [28]:
# floating point도 표현 가능

np.arange(0,5,0.5).tolist()

[0.0, 0.5, 1.0, 1.5, 2.0, 2.5, 3.0, 3.5, 4.0, 4.5]

# zeros

0으로 가득찬 ndarray 생성

In [29]:
np.zeros(shape=(10,),dtype = np.int8)

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0], dtype=int8)

In [30]:
# 2 by 5 - zero matrix 생성
np.zeros((2,5))

array([[0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.]])

# empty

- empty - shape만 주어지고 비어있는 ndarray 생성

In [31]:
np.empty(shape=(10,),dtype = np.int8)

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0], dtype=int8)

# eye

- 대각선이 1인 행렬, k값의 시작 index 변경이 가능

In [32]:
np.eye(N = 3,M = 5,dtype = np.int8)

array([[1, 0, 0, 0, 0],
       [0, 1, 0, 0, 0],
       [0, 0, 1, 0, 0]], dtype=int8)

# random sampling

- 데이터 분포에 따른 sampling으로 array를 생성

#### 균등 분포

In [33]:
np.random.uniform(0,1,10).reshape(2,5)

array([[0.21480288, 0.2216091 , 0.93836119, 0.49945258, 0.24491266],
       [0.43852367, 0.30834841, 0.70285936, 0.7173036 , 0.55002367]])

#### 정규 분포

In [34]:
np.random.normal(0,1,10).reshape(2,5)

array([[-0.65983059, -0.62069029,  1.60434813,  1.10286893, -0.30406786],
       [ 0.08330234,  0.25776045, -2.37661998, -1.02724818, -0.49441563]])

# Axis

- 모든 operation function을 실행할 때, 기준이 되는 dimension 축

In [35]:
test_array = np.arange(1,13).reshape(3,4)
test_array

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

**sum(axis = 1)** 을 할시 column을 기준으로 더함

In [36]:
test_array.sum(axis = 1)

array([10, 26, 42])

**sum(axis = 0)** 을 할시 row를 기준으로 더함

In [37]:
test_array.sum(axis = 0)

array([15, 18, 21, 24])

In [38]:
new_test_array = np.array([test_array,test_array,test_array])
new_test_array

array([[[ 1,  2,  3,  4],
        [ 5,  6,  7,  8],
        [ 9, 10, 11, 12]],

       [[ 1,  2,  3,  4],
        [ 5,  6,  7,  8],
        [ 9, 10, 11, 12]],

       [[ 1,  2,  3,  4],
        [ 5,  6,  7,  8],
        [ 9, 10, 11, 12]]])

In [39]:
new_test_array.sum(axis = 2)

array([[10, 26, 42],
       [10, 26, 42],
       [10, 26, 42]])

# Concatenate

- Numpy array를 합치는 함수

In [40]:
a = np.array([1,2,3])
b = np.array([1,2,3])

np.vstack((a,b))

array([[1, 2, 3],
       [1, 2, 3]])

In [41]:
a = np.array([[1],[2],[3]])
b = np.array([[1],[2],[3]])

np.hstack((a,b))

array([[1, 1],
       [2, 2],
       [3, 3]])

# Operations b/t arrays

- numpy는 array간의 기본적인 사칙 연산을 지원함

In [42]:
test_a = np.array([[1,2,3],[4,5,6]],float)

In [43]:
test_a + test_a

array([[ 2.,  4.,  6.],
       [ 8., 10., 12.]])

In [44]:
test_a - test_a

array([[0., 0., 0.],
       [0., 0., 0.]])

In [45]:
test_a * test_a

array([[ 1.,  4.,  9.],
       [16., 25., 36.]])

# Dot product

- Matrix 기본 연산

- dot 함수

In [46]:
test_a = np.arange(1,7).reshape(2,3)
test_a

array([[1, 2, 3],
       [4, 5, 6]])

In [47]:
test_b = np.arange(7,13).reshape(3,2)
test_b

array([[ 7,  8],
       [ 9, 10],
       [11, 12]])

#### 배열이 달라도 곱셈이 가능하다.

In [48]:
test_a.dot(test_b)

array([[ 58,  64],
       [139, 154]])

# Broadcasting

- shape이 다른 배열 간 연산을 지원하는 기능

In [49]:
test_array = np.array([[1,2,3],[4,5,6]],float)
scalar = 3

In [50]:
test_array + scalar

array([[4., 5., 6.],
       [7., 8., 9.]])

#### 모든 위치에 scalar 값을 다 더해줌 - 이것을 Broadcasting 기법이라 함!

In [51]:
test_array * 5

array([[ 5., 10., 15.],
       [20., 25., 30.]])

# All & Any

In [52]:
a = np.arange(10)
a

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [53]:
# 리스트 형태로 반환
a > 5

array([False, False, False, False, False, False,  True,  True,  True,
        True])

In [54]:
# 하나라도 만족하지 못하면 false
np.any(a>5),np.any(a<0)

(True, False)

In [55]:
# 모두 만족해야 true
np.all(a>5),np.all(a<0)

(False, False)

# np.where

- 인덱스 값을 반환할 때 사용

In [56]:
np.where(a>0)

(array([1, 2, 3, 4, 5, 6, 7, 8, 9], dtype=int64),)

In [57]:
a = np.arange(10)
np.where(a > 4)

(array([5, 6, 7, 8, 9], dtype=int64),)

# Argmax & Argmin


- array 내 최대값 또는 최소값의 index를 반환함

In [58]:
a = np.array([1,2,3,4,5,23,3,14])
print(a)
np.argmax(a),np.argmin(a)

[ 1  2  3  4  5 23  3 14]


(5, 0)

In [59]:
a = np.array([[1,2,3],[4,5,23],[3,14,230]])
np.argmax(a,axis = 1),np.argmin(a,axis = 0)

(array([2, 2, 2], dtype=int64), array([0, 0, 0], dtype=int64))