In [1]:
import numpy as np

# `np.ndarray` 클래스의 속성(property)

In [3]:
arr = np.ones(shape=(2,3)) # 모든 우너소가 1인 (2, 3) 모양의 배열을 만들어준다.
print(arr)

[[1. 1. 1.]
 [1. 1. 1.]]


In [4]:
arr.dtype

dtype('float64')

In [5]:
arr.shape # 배열의 모양 : 배열의 각 축(axis)를 따라서 있는 원소의 개수.

(2, 3)

In [6]:
arr.size # 배열의 크기 : 배열의 전체 원소 개수.

6

In [8]:
arr.ndim # 배열의 차원(dimension) : 배열의 축(axis)이 개수.

2

In [12]:
arr = np.arange(10) # range를 이용해서 배열을 만드는 함수. [0, 10) 범위의 1씩 증가하는 정수들로 만들어진 1차원 배열
print(arr)
print('dtype: ', arr.dtype)
print('shape: ', arr.shape)
print('ndim: ', arr.ndim)
print('size: ', arr.size)

[0 1 2 3 4 5 6 7 8 9]
dtype:  int64
shape:  (10,)
ndim:  1
size:  10


# indexing

* Python list:
    *  `list[i], list[i][j], list[i][j][k], ... `
* numpy ndarray:
    * `array[i], array[i][j], array[i][j][k], ...`
    * `array[i], array[i, j], array[i, j, k], ...`

In [16]:
arr = np.arange(1, 13).reshape((3, 4))
print(arr)

[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]


In [17]:
arr[0]

array([1, 2, 3, 4])

In [18]:
arr[0, 1] # arr[0][1]과 동일.

2

# slicing

## 1차원 배열 slicing

In [20]:
np.random.seed(1)
arr = np.random.randint(100, size=10)
print(arr)

[37 12 72  9 75  5 79 64 16  1]


In [23]:
arr[2:6]

array([72,  9, 75,  5])

In [24]:
arr[:3] # arr[0:3]과 동일

array([37, 12, 72])

In [25]:
arr[-3:] # arr[7:]과 동일.

array([64, 16,  1])

## 2차원 배열 slicing

In [26]:
np.random.seed(10)
arr = np.random.randint(100, size=(4, 5))
print(arr)

[[ 9 15 64 28 89]
 [93 29  8 73  0]
 [40 36 16 11 54]
 [88 62 33 72 78]]


In [27]:
# 첫 2개의 row를 선택, 컬러므이 모든 원소 선택.
arr[:2, :]

array([[ 9, 15, 64, 28, 89],
       [93, 29,  8, 73,  0]])

In [28]:
arr[:2]

array([[ 9, 15, 64, 28, 89],
       [93, 29,  8, 73,  0]])

In [29]:
arr[:2, :3]

array([[ 9, 15, 64],
       [93, 29,  8]])

# Shape 변경

## `np.nadarray.reshape(shape)`

배열의 모양을 변경한 새로운 배열을 리턴.

In [30]:
arr_1d = np.arange(12)
print(arr_1d)

[ 0  1  2  3  4  5  6  7  8  9 10 11]


In [31]:
arr_2d = arr_1d.reshape((3, 4))
print(arr_2d)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]


In [33]:
print(arr_1d)

[ 0  1  2  3  4  5  6  7  8  9 10 11]


In [34]:
# reshape을 할 때 자동으로 계산될 수 있는 차원의 값은 -1로 설정할 수 있다.
arr_2d = arr_1d.reshape((2, -1))
print(arr_2d)

[[ 0  1  2  3  4  5]
 [ 6  7  8  9 10 11]]


In [35]:
arr_2d = arr_1d.reshape((-1, 3))  # (4, 3) 음수의 사용이 중요하다.
print(arr_2d)

[[ 0  1  2]
 [ 3  4  5]
 [ 6  7  8]
 [ 9 10 11]]


## `np.ndarray,ravel()`

1차원으로 변환된 배열의 **view**를 리턴.

새로운 배열이 리턴되는 것이 아님.

단지 모양만 다르게 보여준다.

In [37]:
print(arr_2d) # (4, 3) shape의 2차원 배열

[[ 0  1  2]
 [ 3  4  5]
 [ 6  7  8]
 [ 9 10 11]]


In [38]:
raveled = arr_2d.ravel() # 펼쳐주는 것
print(raveled) # arr_2d와 raveled는 같은 배열이다. 단지 모양만 다르게 보여주고 있는거 뿐이다.

[ 0  1  2  3  4  5  6  7  8  9 10 11]


In [41]:
raveled[0] = 100
print(raveled)

[100   1   2   3   4   5   6   7   8   9  10  11]


In [42]:
print(arr_2d) # raveled의 값을 바꿔도 arr_2d에 값도 바뀐다. => 같은 값이다.

[[100   1   2]
 [  3   4   5]
 [  6   7   8]
 [  9  10  11]]


## `np.ndarray.flatten()`

1차원으로 변환된 배열의 **복사본**을 리턴.

원본 배열과는 별개의 새로운 배열을 리턴.

In [43]:
print(arr_2d)

[[100   1   2]
 [  3   4   5]
 [  6   7   8]
 [  9  10  11]]


In [44]:
flattened = arr_2d.flatten()
print(flattened)

[100   1   2   3   4   5   6   7   8   9  10  11]


In [45]:
flattened[0] = 0
print(flattened)

[ 0  1  2  3  4  5  6  7  8  9 10 11]


In [47]:
print(arr_2d) # flattened는 원본 배열과는 상관없는 새로운 배열이다.

[[100   1   2]
 [  3   4   5]
 [  6   7   8]
 [  9  10  11]]


## `np.newaxis` 속성을 사용한 차원 늘리

In [49]:
arr = np.arange(5) # [0, 5) 범위의 정수 5개를 갖는 (5, ) shape의 1차원 배열.
print(arr)

[0 1 2 3 4]


In [50]:
# 배열 arr을 (1, 5) shape의 2차원 배열로 변환
arr_2d = arr.reshape((1, -1)) # (1, 5)
print(arr_2d)

[[0 1 2 3 4]]


In [51]:
result = arr[np.newaxis, :]
print(result)

[[0 1 2 3 4]]


In [52]:
# 배열 arr을 (5, 1) shape의 2차원 배열로 변환
arr_2d = arr.reshape((-1, 1))
print(arr_2d)

[[0]
 [1]
 [2]
 [3]
 [4]]


In [53]:
result = arr[:, np.newaxis]
print(result)

[[0]
 [1]
 [2]
 [3]
 [4]]


## `np.concatenate([array1, array2, ...], axis=0)`

특정 축(axis) 방향으로 이어 붙이기를 해주는 기능이다.

In [54]:
arr1 = np.arange(6).reshape((2, 3))
print(arr1)

[[0 1 2]
 [3 4 5]]


In [55]:
arr2 = np.array([[10, 20, 30]]) # (1, 3)
print(arr2)

[[10 20 30]]


In [56]:
arr3 = np.array([[100], [200]])
print(arr3)

[[100]
 [200]]


In [58]:
result = np.concatenate([arr1, arr3], axis=1)
print(result)

[[  0   1   2 100]
 [  3   4   5 200]]


## `np.r_[array1, array2]`, `np.c_[array1, array2]`

* `np.r_`: 행(row) 이어붙이기. concatenate(axis=0)
* `np.c_`: 열(column) 이어붙이기. concatenate(axis=1)

In [59]:
np.r_[arr1, arr2]

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [10, 20, 30]])

In [60]:
np.c_[arr1, arr3]

array([[  0,   1,   2, 100],
       [  3,   4,   5, 200]])

# Broadcasting(브로드캐스팅)

* `np.ndarray`의 산술 연산(+, -, *, /, ...)은 같은 위치(인덱스)에 있는 원소들 끼리 (element-wise) 연산을 수행한다.
    * 산술 연산을 하기 위해서는 2개의 배열을 가지고서 연산을 할려면 2개의 배열의 모양이 같아야 한다.
* broadcast: 서로 다른 모양의 배열들끼리 산술 연산이 가능한 경우.

## ndarray와 scalar의 연산

(scalar는 숫자 1개라고 생각하면 편하다.)

In [61]:
arr1 = np.arange(1, 4)
print(arr1)

[1 2 3]


In [62]:
arr1 + 10 # 모양을 맞추기 위해 그 방향으로 원소를 복사를 한다. => [10, 10, 10] (축을 따라서 전파를 한다.)

array([11, 12, 13])

In [63]:
arr2 = np.array([
    [1],
    [2],
    [3]
]) # (3, 1) shape
print(arr2)

[[1]
 [2]
 [3]]


In [65]:
arr2 + 10

array([[11],
       [12],
       [13]])

## 2차원 배열과 1차원 배열에서 broadcast

In [66]:
arr1 = np.arange(6).reshape((2, -1)) # (2, 3) shape의 2차원 배열
print(arr1)

[[0 1 2]
 [3 4 5]]


In [67]:
arr2 = np.array([10, 20, 30]) # (3, ) shape의 1차원 배열.
print(arr2)

[10 20 30]


In [68]:
arr1 + arr2

array([[10, 21, 32],
       [13, 24, 35]])

In [69]:
arr3 = np.array([10, 20]) # (2, ) shape의 1차원 배열
print(arr3)

[10 20]


In [70]:
# arr1 + arr3
#> (2, 3) shape과 (2, ) shape의 배열은 broadcast 할 수 없다.

ValueError: ignored

In [72]:
arr3 = arr3.reshape((-1, 1)) # (2, 1) shape
print(arr3)

[[10]
 [20]]


In [73]:
arr1 + arr3

array([[10, 11, 12],
       [23, 24, 25]])

## broadcast 연습

표준화(standardization): 배열의 원소들을 평균이 0이 되고, 표준편차가 1이 되도록, 변수들의 스케일을 변환하는 것을 표준화 라고 한다.

$$
x_{scaled} = \frac{x- \mu}{\sigma}
$$

* $ \mu $: 평균
* $ \sigma $: 표준편차

In [74]:
x = np.arange(1, 6)
print(x)

[1 2 3 4 5]


In [77]:
mu = np.mean(x)
print(mu)

3.0


In [78]:
sigma = np.std(x) # 표준편차
print(sigma)

1.4142135623730951


In [80]:
x_scaled = (x - mu) / sigma
print(x_scaled)

[-1.41421356 -0.70710678  0.          0.70710678  1.41421356]


In [81]:
print(np.mean(x_scaled))
print(np.std(x_scaled))

0.0
0.9999999999999999


정규화(normalization): min-max scaling. 배열의 원소들을 최솟값이 0이 되도록,
최댓값이 1이 되도록 변환을 하는 것.

$$
X_{normalized} = \frac{(X - min(X))}{(max(X) - min(X))}
$$

In [82]:
print(x)

[1 2 3 4 5]


In [83]:
xmin = np.min(x)

In [85]:
xmax = np.max(x)

In [86]:
x_normalized = (x - xmin) / (xmax - xmin)
print(x_normalized)

[0.   0.25 0.5  0.75 1.  ]


# 2차원 배열에서 표준화, 정규화

In [87]:
X = np.arange(1, 7).reshape((3, -1)) # (3, 2)
print(X)

[[1 2]
 [3 4]
 [5 6]]


axis=0 축 방향으로 표준화

In [88]:
mu = np.mean(X, axis=0)
mu

array([3., 4.])

In [89]:
X_scaled = (X - mu) / sigma
print(X_scaled)

[[-1.41421356 -1.41421356]
 [ 0.          0.        ]
 [ 1.41421356  1.41421356]]


In [90]:
xmax = np.max(X, axis=0)
xmax

array([5, 6])

In [91]:
X_normalied = (X - xmin) / (xmax - xmin)
print(X_normalied)

[[0.  0.2]
 [0.5 0.6]
 [1.  1. ]]
