# Numpy

- 파이썬 기반의 수치 연산 라이브러리
- 행렬(배열_array)에 대한 병렬 연산에 특화되어 있다.

## 배열의 종류

#### 1. 스칼라(scalar)
  - 0차원 데이터
  - 측정한 하나의 값

In [6]:
height = 179.1
age = 21
weight = 68.1

#### 2. 벡터(vector)
- 1차원 배열
- 스칼라가 연속적으로 모여있는 것
- 수학적 표현으로 벡터 내에 데이터가 N개가 있으면 N차원 벡터라고 한다.

In [14]:
# 3차원 벡터
person_heights = [180.1, 173.5, 177.8]

#### 3. 행렬(matrix)
- 2차원 배열
- 1차원 배열인 벡터가 여러 개 모여있는 것

In [13]:
# 3차원 벡터 2개로 2차원 배열인 행렬 생성(2x3)
person_info = [[180.1, 33, 80.5],
               [175.1, 32, 77.3]]

#### 4. 텐서(tensor)
- 3차원 이상의 다차원 배열
  - 3차원 배열은 2차원 배열이 모여있는 것
  - 4차원 배열은 3차원 배열이 모여있는 것
- N차원 배열을 텐서라고 한다. 즉, 모든 배열을 텐서로 표현 가능하다.
  - 0 Rank Tensor : 스칼라
  - 1 Rank Tensor : 벡터
  - 2 Rank Tensor : 행렬
  - 3 Rank Tensor : 텐서
- Tensorflow
  - 구글에서 제공하는 딥러닝 프레임워크
  - 미리 준비된 네트워크에 Tensor를 흘림(flow)

## Numpy 다차원 배열 만들기
- `ndarray` : `numpy`로 만든 배열
- 넘파이의 `array()`를 통해 `ndarray`를 만들 수 있다.

In [9]:
import numpy as np

In [25]:
# 파이썬 리스트를 이용해 1차원 배열로 만들기
list_1 = [1, 2, 3] # 1차원 배열
list_2 = [4, 5, 6] # 1차원 배열
list_3 = [7, 8, 9] # 1차원 배열
list_4 = [10, 11, 12] # 1차원 배열

arr1 = np.array(list_1) # 넘파이의 ndarray
arr1, type(arr1)

(array([1, 2, 3]), numpy.ndarray)

In [24]:
# 2차원 배열 생성
array_2d = np.array([[1, 2, 3],
                     [4, 5, 6]])

arr2 = np.array([list_1, list_2]) # ndarray

array_2d, arr2

(array([[1, 2, 3],
        [4, 5, 6]]),
 array([[1, 2, 3],
        [4, 5, 6]]))

In [26]:
type(array_2d), type(arr2)

(numpy.ndarray, numpy.ndarray)

In [31]:
# 3차원 배열 생성
array_3d = np.array([[[1, 2, 3],
                    [4, 5, 6]],

                    [[7, 8, 9],
                    [10, 11, 12]]])

arr3 = np.array([[list_1, list_2], [list_3, list_4]])

array_3d, arr3

(array([[[ 1,  2,  3],
         [ 4,  5,  6]],
 
        [[ 7,  8,  9],
         [10, 11, 12]]]),
 array([[[ 1,  2,  3],
         [ 4,  5,  6]],
 
        [[ 7,  8,  9],
         [10, 11, 12]]]))

In [32]:
type(array_3d), type(arr3)

(numpy.ndarray, numpy.ndarray)

## 특수 배열 만들기

### 1. `np.zeros`
- 0으로 채워진 배열을 만들 때 사용
- 즉, 0 텐서로 만들 때 사용

In [34]:
# 0으로 채워진 1차원 배열 생성
np.zeros(5)

array([0., 0., 0., 0., 0.])

In [35]:
# 0으로 채워진 2차원 배열 생성
np.zeros(shape=(2, 3))

array([[0., 0., 0.],
       [0., 0., 0.]])

In [36]:
# 0으로 채워진 3차원 배열 생성
np.zeros(shape=(2, 3, 4))

array([[[0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.]],

       [[0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.]]])

### 2. `np.ones`
- 1로 채워진 배열을 만들 때 사용
- 즉, 1 텐서로 만들 때 사

In [39]:
# 1으로 채워진 1차원 배열 생성
np.ones(3)

array([1., 1., 1.])

In [40]:
#1으로 채워진 2차원 배열 생성
np.ones(shape=(2, 3))

array([[1., 1., 1.],
       [1., 1., 1.]])

In [41]:
# 1으로 채워진 3차원 배열 생성
np.ones(shape=(2, 3, 4))

array([[[1., 1., 1., 1.],
        [1., 1., 1., 1.],
        [1., 1., 1., 1.]],

       [[1., 1., 1., 1.],
        [1., 1., 1., 1.],
        [1., 1., 1., 1.]]])

## 점 구간 만들기(사잇값)
- 넘파이의 `linespace`를 이용

```python
np.linspace(시작값, 끝값, 구간 개수 숫자)
```

- 시작값 부터 끝깞 까지 구간 개수에 맞게 균등한 구간으로 만든다.

In [42]:
np.linspace(1, 10, 3) # 1부터 10 까지 3개의 숫자를 균등한 구간으로 만든다. 구간은 2개

array([ 1. ,  5.5, 10. ])

In [43]:
np.linspace(1, 10, 4)

array([ 1.,  4.,  7., 10.])

## 랜덤값 생성
- `np.random`을 이용해 랜덤값을 생성할 수 있다.

### 1. 완전 랜덤 만들기 - `np.random.rand`

In [45]:
# 2차원 랜덤 배열 생성
np.random.rand(2, 3)

array([[0.25836789, 0.73872498, 0.40951383],
       [0.96293468, 0.55981639, 0.0673408 ]])

In [46]:
# 3차원 랜덤 배열 생성
np.random.rand(3,4,3)

array([[[0.44525612, 0.92121013, 0.65917516],
        [0.80464918, 0.99790695, 0.97258429],
        [0.99651121, 0.6485702 , 0.14021378],
        [0.54794262, 0.04149194, 0.34026651]],

       [[0.79778036, 0.09449749, 0.13577421],
        [0.18638117, 0.97064878, 0.16737376],
        [0.11973422, 0.90397536, 0.60916022],
        [0.25197154, 0.8743575 , 0.4069242 ]],

       [[0.87696766, 0.3367747 , 0.91303955],
        [0.86995731, 0.11579882, 0.91426278],
        [0.8742774 , 0.22880979, 0.65711414],
        [0.98600495, 0.25215336, 0.59327585]]])

### 2. 정규 분포 랜덤값 만들기 - `np.random.randn`

In [48]:
# 정규분포 랜덤값을 가지는 1차원 배열 생성
np.random.randn(20)

array([-1.25850926,  0.76980698,  0.40293651,  1.08344589, -0.78820843,
        0.70032169, -0.36018135,  1.98819436, -0.04306671, -0.42260619,
        0.62320542, -0.26629822, -0.70734437, -0.68559315, -1.59188344,
       -1.62858613,  0.82636215,  0.13772146, -0.56066972, -0.29844086])

In [49]:
# 정규분포 랜덤값을 가지는 2차원 배열 생성
np.random.randn(2, 3)

array([[-1.17993195,  0.75007873, -0.83373114],
       [-0.46356598,  1.04980305, -0.31686887]])

### 3. 균등 분포 랜덤값 만들기  - `np.random.uniform`

In [51]:
# 1.0에서 3.0 사이의 값을 균등하게 뽑아 2차원 배열 생성
np.random.uniform(1.0, 3.0, size=(4, 5)) # (최소값, 최대값, 데이터 개수)

array([[2.55632043, 2.16373294, 2.43970646, 2.9125204 , 1.60825176],
       [2.76023671, 1.04093775, 2.66918339, 2.70003553, 2.26840007],
       [2.48726599, 2.25720689, 1.51048617, 2.39938191, 1.74292431],
       [2.72259007, 1.08592154, 2.88915604, 2.63601556, 2.76815957]])

### 4. 지정된 범위 내의 랜점 정수값 만들기 - `np.random.radient`
```python
numpy.random.randint(low, high=None, size=None, dtype=int)
```
- `low` : 범위의 시작값(정수)
- `high` : 범위의 끝 값(정수)
- `size` : 생성될 정수의 개수 지정
- `dtype` : 생성될 값의 데이터 유형. 기본값은 32비트 정수

### 5. 랜덤값 고정 - `np.random.seed`

In [100]:
# seed 고정시 같은 랜덤값으로 나오게 된다.
np.random.seed(42)
x = np.random.randint(15, size=(2, 3, 2))

np.random.seed(42)
y = np.random.randint(15, size=(2, 3, 2))
x, y

(array([[[ 6,  3],
         [12, 14],
         [10,  7]],
 
        [[12,  4],
         [ 6,  9],
         [ 2,  6]]]),
 array([[[ 6,  3],
         [12, 14],
         [10,  7]],
 
        [[12,  4],
         [ 6,  9],
         [ 2,  6]]]))

In [101]:
# seed를 다르게 하면 다른 랜덤값으로 나오게 된다.
np.random.seed(42)
x = np.random.randint(15, size=(2, 3, 2))

np.random.seed(1)
y = np.random.randint(15, size=(2, 3, 2))
x, y

(array([[[ 6,  3],
         [12, 14],
         [10,  7]],
 
        [[12,  4],
         [ 6,  9],
         [ 2,  6]]]),
 array([[[ 5, 11],
         [12,  8],
         [ 9, 11]],
 
        [[ 5,  0],
         [ 0,  1],
         [12,  7]]]))

## axis 이해하기
- `axis` : 축. 배열의 고정된 방향을 의미
- 데이터가 추가되는 방향, 즉 차원의 인덱스를 의미

### 행렬(2차원 배열)의 axis
- `axis=0` : 행렬(2차원 배열)에서 행을 기준으로 하는 축
- `axis=1` : 행렬(2차원 배열)에서 열을 기준으로 하는 축

In [53]:
array_2d = np.array([[1, 2, 3],
                     [4, 5, 6]])

array_2d.shape

(2, 3)

In [58]:
np.max(array_2d, axis=0) # 2차원 인덱스, 행 기준

array([4, 5, 6])

In [59]:
np.max(array_2d, axis=1) # 1차원 인덱스, 열 기준

array([3, 6])

In [57]:
array_3d = np.array([[[1, 2, 3],
                    [4, 5, 6]],

                    [[7, 8, 9],
                    [10, 11, 12]]])

array_3d.shape

(2, 2, 3)

In [65]:
np.max(array_3d, axis=0) #  가장 높은 차원, 즉 3차원 기준 max인 2차원 배열(행렬) 추출

array([[ 7,  8,  9],
       [10, 11, 12]])

In [66]:
np.max(array_3d, axis=1) # 2차원 배열(행렬) 기준 max인 1차원 배열(벡터) 각각 추출

array([[ 4,  5,  6],
       [10, 11, 12]])

In [67]:
np.max(array_3d, axis=2) # 1차원 배열(벡터) 기준 max인 0차원 배열(스칼라) 추출

array([[ 3,  6],
       [ 9, 12]])

## reshape
- 배열의 형상(shape)을 변환할 수 있다.
- `shape` : 배열의 형상(모양)을 확인할 수 있다.

In [117]:
# 넘파이의 arange()는 파이썬의 range()와 같게 범위 내의 값으로 리스트 형태의 1차원 배열 생성
arr = np.arange(1, 11)
arr

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

In [118]:
arr.shape

(10,)

In [120]:
arr_2d = np.arange(1, 11).reshape(2, 5)
arr_2d

array([[ 1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10]])

In [121]:
arr_2d.shape

(2, 5)

In [122]:
arr_3d = np.arange(1, 19).reshape(3, 3, 2)
arr_3d

array([[[ 1,  2],
        [ 3,  4],
        [ 5,  6]],

       [[ 7,  8],
        [ 9, 10],
        [11, 12]],

       [[13, 14],
        [15, 16],
        [17, 18]]])

In [123]:
arr_3d.shape

(3, 3, 2)

- `reshape` 함수 내의 모든 숫자를 곱했을 때 원소의 개수가 되면 변형이 가능
  - 개수가 맞지 않으면 에러가 발생한다.

In [125]:
# 배열의 요소의 개수는 총 10개, 2x4 != 10이므로 에러 발생
arr_2d = np.arange(1, 11).reshape(2, 4)
arr_2d

ValueError: cannot reshape array of size 10 into shape (2,4)

- -1을 사용하면 남은 숫자를 자동으로 계산한다.
- -1은 전체 차원에서 무조건 한 개만 사용할 수 있다.

In [127]:
arr.reshape(2, -1)

array([[ 1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10]])

In [128]:
# 2x4로 배열을 정할 때 적절한 정수로 3차원 배열로 만들 수 없기 때문에 에러 발생
arr.reshape(2, 4, -1) # Error

ValueError: cannot reshape array of size 10 into shape (2,4,newaxis)

In [129]:
arr.reshape(-1, -1, 3) # Error. -1은 무조건 한 개만 사용이 가능

ValueError: can only specify one unknown dimension

## 인덱스와 슬라이싱

In [77]:
arr = np.arange(1, 11).reshape(2, 5)
arr

array([[ 1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10]])

In [78]:
arr[0]

array([1, 2, 3, 4, 5])

In [79]:
arr[0][0]

1

In [81]:
# 대괄호 내에 쉼표를 이용해 인덱스를 차원 별로 구분
arr[0, 0]

1

### 팬시 인덱싱(Fancy Indexing)
- 리스트 내에 필요한 인덱스를 미리 넣어 놓고, 이 리스트를 이용해 특정 차원의 배열의 값을 추출할 수 있다.

In [82]:
selected_index = [0, 3]
arr[0, selected_index]

array([1, 4])

### 슬라이싱
- 특정 차원의 배열을 전체 선택하기 위해서 쓰는 연산

In [90]:
# 2차원 배열 arr에서 1차원 배열은 전체 선택
arr[:]

array([[ 1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10]])

In [89]:
# 1차원 배열을 전체 선택 후 1차원 배열의 index 1만 선택
arr[:][1]

array([ 6,  7,  8,  9, 10])

In [91]:
# 2차원 배열 arr에서 1차원 배열은 전체 선택 하고, 0차원 데이터는 index 2만 선택
arr[:, 2]

array([3, 8])

In [92]:
arr = np.arange(1, 37).reshape(3, 4, 3)
arr

array([[[ 1,  2,  3],
        [ 4,  5,  6],
        [ 7,  8,  9],
        [10, 11, 12]],

       [[13, 14, 15],
        [16, 17, 18],
        [19, 20, 21],
        [22, 23, 24]],

       [[25, 26, 27],
        [28, 29, 30],
        [31, 32, 33],
        [34, 35, 36]]])

In [93]:
# 3차원 배열의 index1만 선택 후, 해당 2차원 배열의 index 1부터 2까지 1차원 배열을 선택 후 0차원 데이터 전체 선택
arr[1, 1:3, :]

array([[16, 17, 18],
       [19, 20, 21]])

In [95]:
# 3차원 배열의 2차원 배열을 전체 선택 후, 해당 2차원 배열의 index 1부터 2까지 1차원 배열을 선택 후, 해당 1차원 배열의 0차원 데이터 index 0부터 1까지 선택
arr[:, 1:3, 0:2]

array([[[ 4,  5],
        [ 7,  8]],

       [[16, 17],
        [19, 20]],

       [[28, 29],
        [31, 32]]])

## 평탄화
- 2차원 이상의 다차원 배열을 1차원 배열로 펴주는

### 1. `ravel`
- 원본 배열을 평탄화시킨 **참조배열**을 만들어 낸다.
- View를 통해서 평탄화된 배열을 **보여주기만 한다.**
- 즉, `ravel`로 평탄화한 배열은 원본 배열에 영향을 줄 수 있다.
- `ravel`은 데이터를 평탄화된 상태로 가지고만 올 때 사용한다.

In [102]:
# seed : 랜덤값 고정
np.random.seed(42)

# 15 이상의 정수 형태의 값을 가진 2x3x2 형태의 3차원 배열 생성
x = np.random.randint(15, size=(2, 3, 2))
x

array([[[ 6,  3],
        [12, 14],
        [10,  7]],

       [[12,  4],
        [ 6,  9],
        [ 2,  6]]])

In [103]:
# 원본 배열을 평탄화 시킨 참조배열 생성
temp_ravel = np.ravel(x)
temp_ravel

array([ 6,  3, 12, 14, 10,  7, 12,  4,  6,  9,  2,  6])

In [104]:
## 메모리 주소값 확인
# 원본 x, temp_ravel, temp_ravel.base

hex(id(x)), hex(id(temp_ravel)), hex(id(temp_ravel.base))

('0x7f434890d110', '0x7f434890d2f0', '0x7f434890d110')

In [106]:
# 평탄화한 배열의 값을 변경하면, 원본 배열의 해당 값도 변경된다.
temp_ravel[0] = 100
x

array([[[100,   3],
        [ 12,  14],
        [ 10,   7]],

       [[ 12,   4],
        [  6,   9],
        [  2,   6]]])

### 2. `flatten`
- 원본 배열을 평탄화시킨 **복사된 배열**을 만들어 낸다.
- 즉, `flatten`으로 평탄화된 배열은 원본 배열에 영향을 끼칠 수 없다.
- 연산이 필요한 평탄화 배열은 `flatten`으로 만들고, 보여주기 위해서만 사용할 평탄화 배열은 `ravel`로 만든다.

In [112]:
np.random.seed(42)

x = np.random.randint(15, size=(2, 3, 2))

print(x)
print(f'배열의 형태 : {x.shape}')

[[[ 6  3]
  [12 14]
  [10  7]]

 [[12  4]
  [ 6  9]
  [ 2  6]]]
배열의 형태 : (2, 3, 2)


In [113]:
# flatten으로 3차원 배열을 1차원 배열로 평탄화
temp_flatten = x.flatten()
temp_flatten

array([ 6,  3, 12, 14, 10,  7, 12,  4,  6,  9,  2,  6])

In [114]:
## 메모리 주소값 확인
# 원본 x, temp_flatten, temp_flatten.base

hex(id(x)), hex(id(temp_flatten)), hex(id(temp_flatten.base))

('0x7f434890ff90', '0x7f434890fdb0', '0x58046961c3e0')

- `flatten`으로 평탄화된 배열은 원본 배열과 다른 id를 가진 배열인 것을 확인

In [115]:
# 평탄화한 배열의 값을 변경해도, 원본 배열의 해당 값이 변경되지 않는다.
temp_flatten[0] = 100
temp_flatten, x

(array([100,   3,  12,  14,  10,   7,  12,   4,   6,   9,   2,   6]),
 array([[[ 6,  3],
         [12, 14],
         [10,  7]],
 
        [[12,  4],
         [ 6,  9],
         [ 2,  6]]]))