In [1]:
import numpy as np

* numpy는 C언어로 구현 - 빠른 속도
* 수치 연산 관련 라이브러리 많음 (with scipy)
* 일반 파이썬보다 수치 연산 훨씬 빠름
* 특히 배열 병렬 연산에 특화

# 1. ndarray

In [3]:
# ndarray 만들기
# 1. python의 list를 ndarray로 변환

py_list = [1, 2, 3]
arrl = np.array(py_list)
arrl

array([1, 2, 3])

In [4]:
type(arrl)

numpy.ndarray

In [5]:
arrl[0], arrl[2]

(1, 3)

## 배열의 종류

1. 스칼라 (scalar)
    * 0차원 데이터
    * 측정한 하나의 값
      - ```python
        height = 180.1
        age = 34
        weight = 80.5
        ```

2. 벡터 (vector)
    * 1차원 배열
    * **스칼라가 연속적으로 모여있는 것**
    * 3명의 키를 하나의 배열로 모을 수 있음
      - ```python
        person_heights = [180.1, 173.5, 177.8] # 3차원 벡터
        ```
    * 벡터 내 데이터 개수 = 벡터 차수 (수학적 표현)

3. 행렬 (matrix)
    * 2차원 배열
    * 벡터(1차원 배열) 여러개 모여있는 것
      - ```python
        person_info = [[180.1, 33, 80.5],
                      [175.1, 32, 77.3]] 
        ```

4. 텐서 (tensor)
    * 3차원 이상의 배열
    * 3차원 배열 : 2차원 배열 집합 , 4차원 배열 : 3차원 배열 집합
    * N차원 배열을 텐서라고 함 (N이 꼭 3부터는 아님)
    * 모든 배열의 모양을 지칭할 수 있음
      - `0 Rank Tensor` - 스칼라
      - `1 Rank Tensor` - 벡터
      - `2 Rank Tensor` - 행렬
      - `3 Rank Tensor` - 3 Rank
    
    * Tensorflow
      - 구글에서 제공하는 딥러닝 프레임워크
      - 미리 준비된 네트워크에 Tensor를 흘린다(flow)

### 번외
프레임워크, 라이브러리, 모듈의 차이점
* 모듈 == 라이브러리
    - 모듈 : 프로그램의 작은 한 조각을 사용할 수 있게 해주는 것
    - 라이브러리 : 부품의 기능들을 모아 놓은 것
* 프레임워크
    - 경기장 같은 느낌 (공터를 축구장으로 만들 필요없이 주어진 축구장에서 축구하기)
    - Tensorflow : 딥러닝을 손쉽게 구현하기 위한 환경

# numpy

## np.arange
- 파이썬의 `range` 와 흡사

In [6]:
arr = np.arange(10) # 0부터 9까지 정수배열
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [7]:
np.arange(1, 10, 2)

array([1, 3, 5, 7, 9])

#### 리스트와 배열의 차이
* list : 파이썬에 존재하는 모든 걸 담을 수 있음
    - list -> `['hello', 10, 10.3, True, 함수]`
* 배열 : 숫자 데이터만

### 다차원 배열 만들기
다차원 배열 : 2차원 이상의 배열
- `np.arange` : 1차원 정수 배열
- `np.zeros` : 0으로 채워진 0-벡터
- `np.ones` : 1로 채워진 1-벡터

In [8]:
np.zeros(5) # 0으로 채워진 5차원 벡터(1차원 배열)

array([0., 0., 0., 0., 0.])

In [9]:
# zeros, ones의 매개변수는 텐서의 모양(shape) 지정
np.zeros((2, 3)) # 2차원 배열, 1차원 배열 2개, 각 1차원 배열마다 0차원 스칼라 3개

array([[0., 0., 0.],
       [0., 0., 0.]])

In [10]:
np.zeros((3,4,5)) # 3차원, 2차원 3개 , 1차원 4개 , 0차원 5개

array([[[0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.]],

       [[0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.]],

       [[0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.]]])

In [11]:
np.ones(5)

array([1., 1., 1., 1., 1.])

In [12]:
np.ones((2,3))

array([[1., 1., 1.],
       [1., 1., 1.]])

In [15]:
# 5로 채워진 배열

np.ones(3) * 5

array([5., 5., 5.])

In [16]:
# np.full : 지정한 숫자로 채워진 N차원 배열

np.full((2,3), 7) # ((배열), 숫자)

array([[7, 7, 7],
       [7, 7, 7]])

## 단위 행렬
- np.eye
- 단위행렬 : 대각선 방향 원소가 1, 나머지는 0

In [17]:
np.eye(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [18]:
# 1이 아닌 단위 행렬 : 대각행렬

np.eye(3) * 3.5

array([[3.5, 0. , 0. ],
       [0. , 3.5, 0. ],
       [0. , 0. , 3.5]])

In [19]:
np.eye(3,4)

array([[1., 0., 0., 0.],
       [0., 1., 0., 0.],
       [0., 0., 1., 0.]])

## 점구간 (사잇값)
- np.linspace

In [20]:
np.linspace(1, 10, 3)
# 1~10 중 3개의 숫자를 균등한 구간으로 만들기 -> 2개의 구간

array([ 1. ,  5.5, 10. ])

In [21]:
np.linspace(1, 10, 4)

array([ 1.,  4.,  7., 10.])

In [22]:
np.linspace(1, 10, 5)

array([ 1.  ,  3.25,  5.5 ,  7.75, 10.  ])

## Random 사용하기 위한 numpy
- 랜덤 배열은 딥러닝에서 매개변수(`가중치`, `편향`) 초기화 위해 사용

### np.random.rand
- 완전 랜덤 만들기 (정규분포, 균등분포 아닌 완전 랜덤)

In [23]:
np.random.rand(2, 3)

array([[0.45553026, 0.60592249, 0.93877614],
       [0.31356655, 0.66121466, 0.8854788 ]])

In [24]:
np.random.rand(2,3,4)

array([[[0.2452686 , 0.24180685, 0.41893545, 0.84009131],
        [0.29464586, 0.54585771, 0.09788252, 0.50203073],
        [0.65345292, 0.70689596, 0.88193996, 0.76101071]],

       [[0.3581788 , 0.99774763, 0.28045315, 0.41878298],
        [0.52048455, 0.63677431, 0.68066962, 0.61318508],
        [0.21610711, 0.62283832, 0.0367503 , 0.88663491]]])

## np.random.randn
- 정규분포 랜덤값

In [25]:
np.random.randn(16)

array([-1.58491251, -0.51850808, -0.58916744, -0.29856858, -1.28358646,
       -0.7457234 , -0.1792934 , -0.08935463, -1.88006327, -1.49240727,
        0.42234568, -0.15908215, -0.06065673, -1.18730184, -1.40561067,
       -0.39026142])

보통 정규 분포 랜덤을 이용해 딥러닝 초깃값으로 사용

## np.random.uniform
- 균등분포 랜덤값

In [26]:
np.random.uniform(1.0, 3.0, size=(4,5))

array([[2.79882635, 2.17690774, 1.64347367, 1.13289793, 1.17817609],
       [2.82586615, 2.92737403, 1.33479045, 1.79365409, 1.72763832],
       [1.21033159, 2.59608744, 1.41544934, 2.10394512, 1.83227277],
       [2.47813932, 1.34905837, 1.52600922, 1.27510356, 1.46850855]])

## 정수 랜덤 샘플링
- `np.random.choice`
- 샘플링 : 전체에서 표본 추출
- 랜덤 샘플링 : 일정 범위 내에서 필요한 정수 랜덤으로 추출
- 딥러닝에서는 `mini-batch` 만들때 사용

In [27]:
np.random.choice(10, size=(2,3))
# 0~9 사이 정수 랜덤, (2,3) 배열로 추출

array([[7, 1, 2],
       [0, 7, 4]])

In [29]:
# 배열 내에서 랜덤 추출도 가능
arr = np.arange(1, 6)

np.random.choice(arr, size=(2,2))

array([[2, 5],
       [5, 1]])

In [30]:
# 중복 숫자 배제
np.random.choice(arr, size=(2,2), replace=False)

array([[3, 5],
       [1, 2]])

## 랜덤 정수 배열
- `np.random.randint`

In [31]:
arr1 = np.random.randint(1, 100 ,size=(5, ))
arr1

array([39,  6, 30, 84, 76])

In [32]:
arr2 = np.random.randint(1, 100, size=(5, 1))
arr2

array([[61],
       [74],
       [25],
       [39],
       [31]])

arr1과 arr2는 같은 배열? `NO`
  - arr1 : 1차원 , arr2 : 2차원

arr1과 arr2는 같은 **벡터** ? `YES`
  - 둘다 열벡터

대부분의 머신러닝 라이브러리는 기본적인 데이터 취급을 열벡터로 하기 때문에 2차원 배열 이상부터 취급 가능

## axis 이해
axis : 축. 데이터가 추가되는 방향의 **인덱스**

3차원 배열 (3, 4, 5)
  - 3차원 배열에 추가되는건 2차원 배열 -> `axis : 0`
  - 2차원 배열에 추가되는건 1차원 배열 -> `axis : 1`
  - 1차원 배열에 추가되는건 0차원 스칼라 -> `axis : 2`

In [33]:
arr = np.arange(1, 37).reshape(3,4,3)
arr

array([[[ 1,  2,  3],
        [ 4,  5,  6],
        [ 7,  8,  9],
        [10, 11, 12]],

       [[13, 14, 15],
        [16, 17, 18],
        [19, 20, 21],
        [22, 23, 24]],

       [[25, 26, 27],
        [28, 29, 30],
        [31, 32, 33],
        [34, 35, 36]]])

In [34]:
# 축별 최댓값 뽑아내기 (max)
np.max(arr, axis=0)

array([[25, 26, 27],
       [28, 29, 30],
       [31, 32, 33],
       [34, 35, 36]])

In [35]:
np.max(arr, axis=1)

array([[10, 11, 12],
       [22, 23, 24],
       [34, 35, 36]])

In [36]:
np.max(arr, axis=2)

array([[ 3,  6,  9, 12],
       [15, 18, 21, 24],
       [27, 30, 33, 36]])

In [37]:
arr = np.random.randint(1, 37, size=(3,4,3))
arr

array([[[18, 19, 28],
        [20, 31,  8],
        [20, 35, 18],
        [11, 17, 12]],

       [[ 5, 13, 29],
        [36, 25, 23],
        [36,  6,  8],
        [25, 30,  3]],

       [[19,  4, 14],
        [ 7, 10, 36],
        [12, 21, 24],
        [27,  3, 24]]])

In [38]:
np.max(arr, axis=0)

array([[19, 19, 29],
       [36, 31, 36],
       [36, 35, 24],
       [27, 30, 24]])

## 인덱스와 슬라이싱

In [39]:
arr = np.arange(1, 11).reshape(2, 5)
arr

array([[ 1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10]])

In [40]:
arr[0]

array([1, 2, 3, 4, 5])

In [41]:
arr[0][3]

4

In [42]:
arr[0, 3]

4

특정 차원의 배열을 전체 선택하기 위해서 쓰는 연산자 `:`

In [43]:
arr

array([[ 1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10]])

In [44]:
arr[:]

array([[ 1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10]])

In [46]:
arr[:, 2]

array([3, 8])

In [47]:
arr = np.arange(1, 37).reshape(3, 4, 3)
arr

array([[[ 1,  2,  3],
        [ 4,  5,  6],
        [ 7,  8,  9],
        [10, 11, 12]],

       [[13, 14, 15],
        [16, 17, 18],
        [19, 20, 21],
        [22, 23, 24]],

       [[25, 26, 27],
        [28, 29, 30],
        [31, 32, 33],
        [34, 35, 36]]])

In [48]:
arr[1, 1:3]

array([[16, 17, 18],
       [19, 20, 21]])

In [49]:
arr[:, 1:3, :2]

array([[[ 4,  5],
        [ 7,  8]],

       [[16, 17],
        [19, 20]],

       [[28, 29],
        [31, 32]]])

In [51]:
arr = np.arange(36).reshape(2, 3, 3, 2)
arr

array([[[[ 0,  1],
         [ 2,  3],
         [ 4,  5]],

        [[ 6,  7],
         [ 8,  9],
         [10, 11]],

        [[12, 13],
         [14, 15],
         [16, 17]]],


       [[[18, 19],
         [20, 21],
         [22, 23]],

        [[24, 25],
         [26, 27],
         [28, 29]],

        [[30, 31],
         [32, 33],
         [34, 35]]]])

In [52]:
arr[0, :, :, 0]

array([[ 0,  2,  4],
       [ 6,  8, 10],
       [12, 14, 16]])

In [53]:
# 3차원, 0차원 제외하고 1,2차원 데이터 전체 가져오기
# 스프레드 연산자 ( ... )
arr[0, ..., 0] # 3차원과 0차원 사이 모든 데이터 선택

array([[ 0,  2,  4],
       [ 6,  8, 10],
       [12, 14, 16]])

보통 이미지 데이터를 딥러닝에서 사용할 때: `(N, H, W, C)`
- `N` : 이미지 개수
- `H` : 세로 픽셀 개수
- `W` : 가로 픽셀 개수
- `C` : 채널 수 (컬러 RGB : 3, 흑백 GRAYSCALE : 1)

In [54]:
# 예를 들어 가지고 온 이미지 데이터의 모양이 (60000. 28, 28, 1)
#  이미지가 60,000장이 있다.
#  이미지의 세로 크기는 28px
#  이미지의 가로 크기는 28px
#  이미지의 채널은 1채널(grayscale)

# 한장의 흑백 이미지를 그릴 때 필요한 정보는 단순하게 세로, 가로 픽셀의 정보만 있으면 된다.
# images[0, ..., 0] -> ( 28, 28 )

## 배열의 차원과 형상
- 형상 (shape)
- 차원수 (ndim)

In [55]:
arr = np.arange(12).reshape(3, 4)
arr

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [56]:
arr.ndim

2

In [57]:
arr.shape

(3, 4)

## 차원 수 확장
- 딥러닝에서 이미지 분석하기 위해 `CNN` 알고리즘 활용
- `CNN` 에 필요한 데이터 shape이 따로 존재
- `(N, H, W, C)` 형식 유지
    * `N` : 이미지의 개수(`BATCH_SIZE`)
    * `H` : 이미지의 세로 픽셀
    * `W` : 이미지의 가로 픽셀
    * `C` : 이미지의 채널 수 (컬러 : 3, 흑백 : 1)

--------------
예) 흑백 이미지 shape이 (28,28) -> (1, 28, 28, 1)로 만들어줘야 함
- numpy의 `np.newaxis`
- tensorflow의 `tf.newaxis`

In [58]:
arr = np.random.rand(28, 28)
arr.shape

(28, 28)

`(28, 28)` 형식의 배열은 `(H, W)`정보만 존재하고 있는 형태 -> `(1, 28, 28, 1)`형태로 만들어 줘야 CNN 레이어에 입력이 가능하다.

In [59]:
temp_arr = arr[np.newaxis, :, :, np.newaxis]
temp_arr.shape

(1, 28, 28, 1)

In [60]:
temp_arr = arr[np.newaxis, ..., np.newaxis]
temp_arr.shape

(1, 28, 28, 1)

## 차원 쥐어 짜기
- `np.squeeze`
- 개수가 1인 차원의 내용을 없애기

In [61]:
temp_squeeze = np.squeeze(temp_arr)
temp_squeeze.shape

(28, 28)

## 배열 shape 바꾸기
- `np.newaxis` 를 활용해 축 하나 추가 (차원 수 늘리기)
- `np.squeeze` 를 활용해 개수 1인 차원 데이터 삭제 (차원 수 줄이기)

⭐️평탄화 : 2차원 이상의 배열을 1차원 배열로 평평하게 펴주기⭐️
- `ravel` : 원본 배열을 평탄화 시킨 **참조** 배열 만들기 (View / Reference)
- `flatten` : 원본 배열을 평탄화 시킨 **복사된** 배열 만들기
ravel은 원본 배열에 수정이 가해질 가능성 있고, flatten은 원본 배열에 영향 주지 않음

In [62]:
x = np.random.randint(15, size=(3, 5))
x.shape

(3, 5)

In [63]:
x

array([[14, 10,  0,  2,  6],
       [11, 10,  5, 14,  1],
       [ 6,  2,  8,  7, 13]])

### ravel

In [64]:
temp = np.ravel(x)
temp.shape

(15,)

In [65]:
temp

array([14, 10,  0,  2,  6, 11, 10,  5, 14,  1,  6,  2,  8,  7, 13])

In [66]:
temp[0] = 100
temp

array([100,  10,   0,   2,   6,  11,  10,   5,  14,   1,   6,   2,   8,
         7,  13])

In [67]:
x

array([[100,  10,   0,   2,   6],
       [ 11,  10,   5,  14,   1],
       [  6,   2,   8,   7,  13]])

In [68]:
x[1][3] = 50000
temp

array([  100,    10,     0,     2,     6,    11,    10,     5, 50000,
           1,     6,     2,     8,     7,    13])

### flatten

In [69]:
x = np.random.randint(15, size=(3, 5))
x.shape

(3, 5)

In [70]:
temp_flatten = x.flatten()
temp_flatten.shape

(15,)

In [71]:
temp_flatten

array([12, 13,  3,  4,  5,  1, 14, 11,  3,  3,  5,  8, 13,  8,  7])

In [72]:
# flatten은 x를 '복사'해서 새롭게 평탄화된 배열 만들기 때문에 원본 바뀌지 않음
temp_flatten[0] = 100
x

array([[12, 13,  3,  4,  5],
       [ 1, 14, 11,  3,  3],
       [ 5,  8, 13,  8,  7]])

데이터를 안전하게 관리하기 위해 ravel보다 flatten을 많이 사용함

## reshape
배열 형상 재구성
- reshape 팁 : reshape 함수 내 모든 숫자 곱했을때 = 스칼라 원소 개수

In [73]:
x = np.arange(20)
x

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19])

In [74]:
x.reshape(2, 5, 2)

array([[[ 0,  1],
        [ 2,  3],
        [ 4,  5],
        [ 6,  7],
        [ 8,  9]],

       [[10, 11],
        [12, 13],
        [14, 15],
        [16, 17],
        [18, 19]]])

In [75]:
x.reshape(3, 5, 1)

ValueError: cannot reshape array of size 20 into shape (3,5,1)

-1 을 사용하면 남은 숫자를 자동으로 계산

In [82]:
x.reshape(2, -1, 2)
x.reshape(2, 2, -1)
# x.reshape(2, 3, -1)  # 안됨
# x.reshape(2, -1, -1)  # 두개 쓰면 안됨
x.size # 배열 스칼라 개수 구할 떄는 size 활용

20

## 브로드캐스팅
- 차원 수가 다른 배열끼리 연산
- 차원이 달라도 0차원 스칼라 개수 똑같으면 연산 가능
- 저차원 배열을 고차원으로 **확장**
- 수학적으로, 고차원 배열의 shape과 똑같은 1벡터(ones)를 만들어 저차원 배열과 곱한 배열을 만들어서 계산

In [83]:
x = np.arange(20).reshape(4, 5)
y = np.arange(20, 40).reshape(4, 5)

x.shape, y.shape

((4, 5), (4, 5))

In [84]:
x + y

array([[20, 22, 24, 26, 28],
       [30, 32, 34, 36, 38],
       [40, 42, 44, 46, 48],
       [50, 52, 54, 56, 58]])

In [85]:
x * y

array([[  0,  21,  44,  69,  96],
       [125, 156, 189, 224, 261],
       [300, 341, 384, 429, 476],
       [525, 576, 629, 684, 741]])

In [86]:
# shape 다를 떄
a = np.arange(12).reshape(4, 3)
b = np.arange(100, 103)
c = np.arange(1000, 1004)
d = b.reshape(1, 3)
e = np.arange(0, 4).reshape(4, 1)

In [87]:
a + b

array([[100, 102, 104],
       [103, 105, 107],
       [106, 108, 110],
       [109, 111, 113]])

In [88]:
a + c

ValueError: operands could not be broadcast together with shapes (4,3) (4,) 

In [89]:
a + d  # b = d

array([[100, 102, 104],
       [103, 105, 107],
       [106, 108, 110],
       [109, 111, 113]])

In [90]:
a + e

array([[ 0,  1,  2],
       [ 4,  5,  6],
       [ 8,  9, 10],
       [12, 13, 14]])

## 전치행렬 만들기
- 행렬 $A$의 행과 열의 인덱스를 바꾼 것
- $A_{(i, j)}$ -> $A_{(j, i)}$ 
- Transpose

In [91]:
A = np.arange(6).reshape(2, 3)
A

array([[0, 1, 2],
       [3, 4, 5]])

In [92]:
# .T : 전치행렬 만드는 코드
A.T

array([[0, 3],
       [1, 4],
       [2, 5]])

In [93]:
# 벡터의 전치
A = np.arange(6)
A

array([0, 1, 2, 3, 4, 5])

In [94]:
A.T # 1차원 배열은 전치 안됨

array([0, 1, 2, 3, 4, 5])

In [95]:
# 열 벡터 전치
A = A.reshape(6, 1)
A

array([[0],
       [1],
       [2],
       [3],
       [4],
       [5]])

In [96]:
A.T

array([[0, 1, 2, 3, 4, 5]])

In [97]:
import numpy as np
np.random.seed(42)
arr = np.random.randint(1, 100, (3, 4, 3))

In [98]:
# 빨간 칸
print('빨간 칸 : \n{}'.format(arr[::2, :2, :2]))
print()
print('파란 칸 : \n{}'.format(arr[:, ::2, :2]))

빨간 칸 : 
[[[52 93]
  [72 61]]

 [[76 58]
  [89 49]]]

파란 칸 : 
[[[52 93]
  [83 87]]

 [[ 3 22]
  [38  2]]

 [[76 58]
  [59 42]]]


In [99]:
# 파란 칸
arr[:, ::2, :2]

array([[[52, 93],
        [83, 87]],

       [[ 3, 22],
        [38,  2]],

       [[76, 58],
        [59, 42]]])