### Numpy

넘파이(Numpy)는 수치 데이터를 다루는 파이썬 패키지입니다. Numpy의 핵심이라고 불리는 다차원 행렬 자료구조인 ndarray를 통해 벡터 및 행렬을 사용하는 선형 대수 계산에서 주로 사용됩니다. Numpy는 편의성뿐만 아니라, 속도면에서도 순수 파이썬에 비해 압도적으로 빠르다는 장점이 있습니다.

Numpy의 주요 모듈은 아래와 같습니다.
1. np.array() # 리스트, 튜플, 배열로 부터 ndarray를 생성
2. np.asarray() # 기존의 array로 부터 ndarray를 생성
3. np.arange() # range와 비슷
4. np.linspace(start, end, num) # [start, end] 균일한 간격으로 num개 생성
5. np.logspace(start, end, num) # [start, end] log scale 간격으로 num개 생성

In [6]:
import numpy as np

In [8]:
np.__version__

'1.20.2'

#### ndarray 생성

앞서 Numpy의 핵심은 ndarray라고 언급한 바 있습니다. np.array()는 리스트, 튜플, 배열로 부터 ndarray를 생성합니다. 또한 인덱스가 항상 0으로 시작한다는 특징을 갖고 있습니다.

In [11]:
arr = np.array([1, 2, 3, 4], dtype=int)

In [13]:
type(arr)

numpy.ndarray

In [14]:
arr.shape

(4,)

In [17]:
# 1차원 리스트
myList = [1, 2, 3, 4]    # python List
arr = np.array(myList, dtype=float)    

In [18]:
arr

array([1., 2., 3., 4.])

In [20]:
myList = [1.3, 2.3, 3.3, 4.3]
arr = np.array(myList, dtype=int)  # 강제 casting이 일어남

In [21]:
arr

array([1, 2, 3, 4])

In [31]:
# 2차원리스트
myList2 = [[1.3, 2, 3, 4],
          [5, 6, 7, 8]]

In [26]:
myList2

[[1, 2, 3, 4], [5, 6, 7, 8]]

In [28]:
myList2.shape   # shape는 numpy의 내장함수임

AttributeError: 'list' object has no attribute 'shape'

In [32]:
arr = np.array(myList2)

In [33]:
arr

array([[1.3, 2. , 3. , 4. ],
       [5. , 6. , 7. , 8. ]])

In [34]:
arr.shape

(2, 4)

In [35]:
myList3 = [1, 3.14, 'hello', '1234']

In [37]:
myList3

[1, 3.14, 'hello', '1234']

In [38]:
arr = np.array(myList3)

In [39]:
arr

array(['1', '3.14', 'hello', '1234'], dtype='<U32')

In [40]:
arr[0]+arr[1]

'13.14'

In [41]:
float(arr[0])+float(arr[1])

4.140000000000001

#### 슬라이싱(Slicing)
배열을 부분선택

1차원 배열의 부분선택

In [46]:
arr = np.array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
arr.shape

(10,)

In [48]:
arr[2]

2

In [49]:
arr[10]

IndexError: index 10 is out of bounds for axis 0 with size 10

In [50]:
arr[-1]

9

In [51]:
arr[-10]

0

In [52]:
arr[-11]

IndexError: index -11 is out of bounds for axis 0 with size 10

2차원 배열의 부분선택

In [57]:
arr2d = np.array([[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 2]])

In [58]:
arr2d

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11,  2]])

In [60]:
# np.arange(12) : 시작값은 0이고, 종료조건이 12미만
arr1d = np.array(np.arange(12))

In [61]:
arr1d

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [62]:
arr1d.reshape(3, 4)

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [66]:
#np.arange(1, 13) : 시작값이 1이고, 종료조건이 13미만
arr2d = np.array(np.arange(1, 13)).reshape(3, 4)

In [67]:
arr2d

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [68]:
arr2d[0, 2]

3

In [70]:
arr2d[2, 2]

11

In [71]:
arr1d = np.array(np.arange(1, 13))

In [72]:
arr1d

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12])

In [75]:
# 3~8
# 시작값(이상) : 종료값(index미만)
arr1d[2:8]

array([3, 4, 5, 6, 7, 8])

In [76]:
# 2~12
# 시작값 : 종료값(생략시 끝까지)
arr1d[1:]

array([ 2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12])

In [78]:
arr1d[:-1]

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [80]:
arr2d = np.array(np.arange(1, 13)).reshape(3, 4)

In [81]:
arr2d

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [82]:
# 한 행을 지정한 뒤 모두 가져오기
# 행.열 (: 모든 열)
arr2d[1, :]

array([5, 6, 7, 8])

In [85]:
arr2d[1, :].shape

(4,)

In [86]:
arr2d[: ,2]

array([ 3,  7, 11])

In [87]:
arr2d[:2, 1:3]

array([[2, 3],
       [6, 7]])

In [104]:
# 5x5 배열, 1부터 1씩 증가하는 배열(1~25)

my2dArr = np.array(np.arange(1, 26), dtype=int).reshape(5, 5)

In [105]:
my2dArr

array([[ 1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10],
       [11, 12, 13, 14, 15],
       [16, 17, 18, 19, 20],
       [21, 22, 23, 24, 25]])

In [107]:
my2dArr[2:, 1:4]

array([[12, 13, 14],
       [17, 18, 19],
       [22, 23, 24]])

#### Fancy Indexing
범위가 아닌 특정 index값을 선택해서 추출하고 싶을 때

1차원 Fancy Indexing

In [108]:
arr1d = np.array(np.arange(1, 10))

In [110]:
arr1d

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [111]:
index = [0, 2, 4]

In [112]:
arr1d[index]

array([1, 3, 5])

2차원 Fancy Indexing

In [115]:
arr2d = np.array(np.arange(1, 13)).reshape(3, 4)

In [116]:
arr2d

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [123]:
index = [0,2,3]

In [124]:
arr2d[:2, index]

array([[1, 3, 4],
       [5, 7, 8]])

#### Boolean Indexing
조건 필터링을 통해서 Boolean 값을 이용한 색인

In [149]:
arr = np.array(np.arange(1, 8))

In [129]:
arr

array([1, 2, 3, 4, 5, 6, 7])

In [130]:
arr2d = np.array(np.arange(1, 13)).reshape(3, 4)

In [131]:
arr2d

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [136]:
myTrueFalse = [True, False, True, False, False, False, False]

In [137]:
arr[myTrueFalse]

array([1, 3])

In [140]:
myTrueFalse = [[True, False, True, False], [True, False, True, False], [True, False, True, False]]

In [141]:
np.array(myTrueFalse)

array([[ True, False,  True, False],
       [ True, False,  True, False],
       [ True, False,  True, False]])

arr2d[np.array(myTrueFalse)]

In [146]:
# 조건 필터
TrueFalse = arr2d > 2

In [147]:
arr2d[TrueFalse]

array([ 3,  4,  5,  6,  7,  8,  9, 10, 11, 12])

In [148]:
arr2d[arr2d > 3]

array([ 4,  5,  6,  7,  8,  9, 10, 11, 12])

#### arange

array + range = arange

In [153]:
# start(이상), strop(미만)
arr = np.arange(1, 11)
arr

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

In [154]:
# 키워드를 사용해서 순서 없이
arr = np.arange(stop=11, start=1)
arr

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

In [155]:
# 홀수만 생성
arr = np.arange(start=1, stop=11, step=2)
arr

array([1, 3, 5, 7, 9])

#### range (numpy와는 상관없는 python 문법)

In [156]:
# range는 조건을 말할 뿐, 아직 숫자가 생성된 것은 아니다
test = range(1, 11)
print(test)

range(1, 11)


In [158]:
for i in range(1, 11, 2):
    print(i)

1
3
5
7
9


#### 1차원 정렬

In [161]:
arr = np.array([1, 10, 5, 8, 2, 4, 3, 6, 7, 9])

In [162]:
arr

array([ 1, 10,  5,  8,  2,  4,  3,  6,  7,  9])

In [170]:
np.sort(arr)   # 출력만 정렬해서 보여줄뿐, update 된 것은 아님

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

In [176]:
arr

array([ 1, 10,  5,  8,  2,  4,  3,  6,  7,  9])

In [168]:
mysort = np.sort(arr)   # update

In [169]:
mysort

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

In [173]:
np.sort(arr)[::-1]   # desc

array([10,  9,  8,  7,  6,  5,  4,  3,  2,  1])

In [177]:
np.sort(arr[::])   # asc

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

#### 2차원 정렬

In [181]:
arr2d = np.array([[5, 6, 7, 8],
                [4, 3, 2, 1],
                [10, 9, 12, 11]])

In [182]:
arr2d

array([[ 5,  6,  7,  8],
       [ 4,  3,  2,  1],
       [10,  9, 12, 11]])

In [185]:
# axis는 축이 행인지, 열인지를 가리킨다.
# axis=1 하면 같은 행안에서 정렬이 된다 (default : asc)
np.sort(arr2d, axis=1)

array([[ 5,  6,  7,  8],
       [ 1,  2,  3,  4],
       [ 9, 10, 11, 12]])

In [186]:
# axis=0 하면 같은 열끼리 비교하고 정렬된다.
np.sort(arr2d, axis=0)

array([[ 4,  3,  2,  1],
       [ 5,  6,  7,  8],
       [10,  9, 12, 11]])

#### Index를 반환하는 argsort

In [189]:
arr2d = np.array([[5, 6, 7, 8],
                [4, 3, 2, 1],
                [10, 9, 12, 11]])

In [190]:
arr2d

array([[ 5,  6,  7,  8],
       [ 4,  3,  2,  1],
       [10,  9, 12, 11]])

In [191]:
# 열 정렬(왼쪽에서 오른쪽으로)
# argsort를 통해 출력되는 배열의 데이터는 index값을 의미한다
np.argsort(arr2d, axis=1)

array([[0, 1, 2, 3],
       [3, 2, 1, 0],
       [1, 0, 3, 2]], dtype=int64)

#### numpy를 이용한 행렬 연산

In [198]:
# 행렬의 덧셈
a = np.array([[1,2,3], 
              [2,3,4]])
b = np.array([[1,2],
             [3,4],
             [5,6]])

In [201]:
a + b

ValueError: operands could not be broadcast together with shapes (2,3) (3,2) 

In [202]:
# np.sum
a = np.array(np.arange(1, 26)).reshape(5, 5)
a

array([[ 1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10],
       [11, 12, 13, 14, 15],
       [16, 17, 18, 19, 20],
       [21, 22, 23, 24, 25]])

In [204]:
# 같은 열끼리 더함
np.sum(a, axis=0)

array([55, 60, 65, 70, 75])

In [205]:
# 같은 행끼리 더함
np.sum(a, axis=1)

array([ 15,  40,  65,  90, 115])

In [210]:
# 행렬의 곱셈
a = np.array([[1,2,3], 
              [2,3,4]])
b = np.array([[3,4,5],
             [1,2,3]])

In [211]:
a.shape, b.shape

((2, 3), (2, 3))

In [213]:
# 아다마르 곱 : 배열의 사이즈가 같아야 한다
a*b

array([[ 3,  8, 15],
       [ 2,  6, 12]])

In [215]:
a = np.array(np.arange(1, 10)).reshape(3, 3)
b = np.array(np.arange(1, 7)).reshape(3, 2)

In [216]:
a, b

(array([[1, 2, 3],
        [4, 5, 6],
        [7, 8, 9]]),
 array([[1, 2],
        [3, 4],
        [5, 6]]))

In [217]:
a.shape, b.shape

((3, 3), (3, 2))

In [218]:
np.dot(a, b)

array([[ 22,  28],
       [ 49,  64],
       [ 76, 100]])

In [220]:
a.dot(b)

array([[ 22,  28],
       [ 49,  64],
       [ 76, 100]])

#### BroadCasting

In [221]:
a = np.array([[1,2,3], 
              [2,3,4]])
b = np.array([[3,3,3],
             [3,3,3]])

In [222]:
a + b

array([[4, 5, 6],
       [5, 6, 7]])

In [223]:
# broadcasting 연산
a + 3

array([[4, 5, 6],
       [5, 6, 7]])

In [225]:
# 아다마르 곱
a * 3

array([[ 3,  6,  9],
       [ 6,  9, 12]])

In [231]:
a = np.array([[1,2,3], 
              [2,3,4]])
b = np.array([[1],
             [2]])

In [229]:
a.shape, b.shape

((2, 3), (2, 1))

In [232]:
# 행단위로 broadcasting 연산
a * b

array([[1, 2, 3],
       [4, 6, 8]])

In [235]:
a = np.array([[1,2,3], 
              [2,3,4]])
b = np.array([1,2,3])

In [236]:
# 열단위로 broadcasting 연산
a * b

array([[ 1,  4,  9],
       [ 2,  6, 12]])