<a href="https://colab.research.google.com/github/unit9090/machine_learning/blob/main/ml01_numpy.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
import numpy as np

# `np.ndarray` 클래스의 속성(property)

In [5]:
# int를 넘기거나 int 배열을 넘김
arr = np.ones(shape = (2, 3))   # 모든 원소가 1인 (2, 3) 모양의 배열을 만들어 줌.

In [3]:
print(arr)  # 1. == 1.0(실수 타입)

[[1. 1. 1.]
 [1. 1. 1.]]


In [7]:
# numpy 배열은 여러 데이터 타입을 저장할 수 없다.
# 즉, 한가지 타입의 배열만 저장 가능.
arr.dtype   # 배열 원소의 데이터 타입

dtype('float64')

In [8]:
arr.shape       # 배열의 모양: 배열의 각 축(axis)를 따라서 있는 원소의 개수. (행의 개수, 열의 개수)

(2, 3)

In [9]:
arr.ndim        # 배열의 차원(dimension): 배열의 축(axis)의 개수.

2

In [10]:
arr.size        # 배열의 크기: 배열의 전체 원소 개수

6

In [12]:
arr = np.arange(10)     # [0, 10) 범위의 1씩 증가하는 정수들로 만들어진 1차원 배열
print(arr)
print('dtype :', arr.dtype)
print('shape :', arr.shape)
print('ndim :', arr.ndim)   # 괄호() = 튜플, (10, ) = 1차원 10개 원소를 가지는 배열
print('size :', arr.size)

[0 1 2 3 4 5 6 7 8 9]
dtype : int64
shape : (10,)
ndim : 1
size : 10


# indexing

* Python list:
    * `list[i], list[i][j], list[i][j][k], ...`
* numpy ndarray:
    * `array[i], array[i][j], array[i][j][k], ...`
    * `array[i], array[i, j], array[i, j, k], ...`

In [13]:
# arange: 1차원 배열만 만들 수 있음
# reshape: 모양을 다시 만듦.
arr = np.arange(1, 13).reshape((3, 4))
print(arr)

[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]


In [14]:
arr[0]

array([1, 2, 3, 4])

In [15]:
arr[0, 1]       # arr[0][1]과 동일.

2

# slicing

## 1차원 배열 slicing

In [16]:
np.random.seed(1)
arr = np.random.randint(100, size = 10)     # [0, 100) 범위의 정수 난수 10개를 갖는 1차원 배열
print(arr)

[37 12 72  9 75  5 79 64 16  1]


In [17]:
arr[2:6]

array([72,  9, 75,  5])

In [18]:
arr[:3]     # arr[0:3]과 동일

array([37, 12, 72])

In [19]:
# 음수 인덱스를 쓸 땐, 끝나는 인덱스를 생략할 순 있지만
# 마지막 인덱스까지 쓰고 싶을 경우 끝나는 인덱스를 명시할 수 없다.
arr[-3:]    # arr[7:]

array([64, 16,  1])

In [20]:
arr[7:]     # arr[7:10]

array([64, 16,  1])

## 2차원 배열 slicing

In [21]:
np.random.seed(10)
arr = np.random.randint(100, size = (4, 5))
print(arr)

[[ 9 15 64 28 89]
 [93 29  8 73  0]
 [40 36 16 11 54]
 [88 62 33 72 78]]


In [26]:
# 첫 2개의 row를 선택. 컬럼의 모든 원소 선택.
# :2 => 0부터 1까지
# :  => 전체 선택
arr[:2, :]

array([[ 9, 15, 64, 28, 89],
       [93, 29,  8, 73,  0]])

In [27]:
arr[:2]

array([[ 9, 15, 64, 28, 89],
       [93, 29,  8, 73,  0]])

In [28]:
# 첫 2개의 row에서 첫 3개의 column 원소들
arr[:2, :3]

array([[ 9, 15, 64],
       [93, 29,  8]])

In [29]:
arr[2:, 3:]

array([[11, 54],
       [72, 78]])

# Shape 변경

## `np.ndarray.reshape(shape)`

배열의 모양을 변경한 새로운 배열을 리턴.

In [30]:
arr_1d = np.arange(12)
print(arr_1d)

[ 0  1  2  3  4  5  6  7  8  9 10 11]


In [31]:
# reshape은 return 값이 있기 때문에 저장한 변수가 필요.
arr_2d = arr_1d.reshape((3, 4))
print(arr_2d)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]


In [32]:
print(arr_1d)

[ 0  1  2  3  4  5  6  7  8  9 10 11]


In [33]:
# reshape을 할 때 자동으로 계산될 수 있는 차원의 값은 -1로 설정할 수 있음.
# row의 개수가 정해지면 column의 개수가 저절로 정해지니 -1로 설정할 수 있음.
arr_2d = arr_1d.reshape((2, -1))    # (2, 6)
print(arr_2d)

[[ 0  1  2  3  4  5]
 [ 6  7  8  9 10 11]]


In [34]:
# row의 개수에 -1을 사용할 수도 있음.
arr_2d = arr_1d.reshape((-1, 3))    # (4, 3)
print(arr_2d)

[[ 0  1  2]
 [ 3  4  5]
 [ 6  7  8]
 [ 9 10 11]]


## `np.ndarray.ravel()`

1차원으로 변환된 배열의 **view**를 리턴. 새로운 배열이 리턴되는 것이 아님.

In [35]:
print(arr_2d)   # (4, 3) shape의 2차원 배열

[[ 0  1  2]
 [ 3  4  5]
 [ 6  7  8]
 [ 9 10 11]]


In [36]:
raveled = arr_2d.ravel()
print(raveled)

[ 0  1  2  3  4  5  6  7  8  9 10 11]


In [38]:
raveled[0] = 100        # 모양이 변경된 1차원 배열의 원소 값을 변경
print(raveled)

[100   1   2   3   4   5   6   7   8   9  10  11]


In [39]:
print(arr_2d)           # ravel() 결과 배열에 값을 변경하면 원본 2차원 배열의 원소도 변경

[[100   1   2]
 [  3   4   5]
 [  6   7   8]
 [  9  10  11]]


## `np.ndarray.flatten()`

1차원으로 변환된 배열의 **복사본**을 리턴. 원본 배열과는 별개의 **새로운 배열**을 리턴.

In [40]:
print(arr_2d)

[[100   1   2]
 [  3   4   5]
 [  6   7   8]
 [  9  10  11]]


In [41]:
flattened = arr_2d.flatten()
print(flattened)

[100   1   2   3   4   5   6   7   8   9  10  11]


In [44]:
flattened[0] = 0
print(flattened)

[ 0  1  2  3  4  5  6  7  8  9 10 11]


In [43]:
print(arr_2d)       # flatten() 결과에서 값을 변경한 것은, 원본 2차원 배열에 아무 영향을 주지 않음.

[[100   1   2]
 [  3   4   5]
 [  6   7   8]
 [  9  10  11]]


## `np.newaxis` 속성을 사용한 차원 늘리기

In [46]:
arr = np.arange(5)  # [0, 5) 범위의 정수 5개를 갖는 (5,) shape의 1차원 배열
print(arr)
print(arr.shape)
print(arr.ndim)

[0 1 2 3 4]
(5,)
1


In [47]:
# 배열 arr을 (1, 5) shape의 2차원 배열로 변환
arr_2d = arr.reshape((1, -1))   # (1, 5)
print(arr_2d)

[[0 1 2 3 4]]


In [48]:
result = arr[np.newaxis, :]
print(result)

[[0 1 2 3 4]]


In [49]:
# 배열 arr을 (5, 1) shape의 2차원 배열로 변환
arr_2d = arr.reshape((5, -1))   # (-1, 1), (5, 1)
print(arr_2d)

[[0]
 [1]
 [2]
 [3]
 [4]]


In [50]:
result = arr[:, np.newaxis]
print(result)

[[0]
 [1]
 [2]
 [3]
 [4]]


# 배열 합치기(concatenate)

## `np.concatenate([array, array2, ...], axis = 0)`

특정 축(axis) 방향으로 이어 붙이기.

In [51]:
arr1 = np.arange(6).reshape((2, 3))
print(arr1)

[[0 1 2]
 [3 4 5]]


In [52]:
arr2 = np.array([[10, 20, 30]])     # (1, 3)
print(arr2)

[[10 20 30]]


In [54]:
result = np.concatenate([arr1, arr2])   # axis 기본값 0.
print(result)

[[ 0  1  2]
 [ 3  4  5]
 [10 20 30]]


In [55]:
arr3 = np.array([[100], [200]])
print(arr3)

[[100]
 [200]]


In [56]:
result = np.concatenate([arr1, arr3], axis = 1) # (1, 2) shape의 2차원 배열
print(result)

[[  0   1   2 100]
 [  3   4   5 200]]


## `np.r_[array1, array2]`, `np.c_[array1, array2]`

* 2차원 배열에서만 사용 가능하다.
* `np.r_`: 행(row) 이어붙이기. concatenate(axis = 0)
* `np.c_`: 열(column) 이어붙이기. concatenate(axis = 1)

In [57]:
np.r_[arr1, arr2]

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [10, 20, 30]])

In [58]:
np.c_[arr1, arr3]

array([[  0,   1,   2, 100],
       [  3,   4,   5, 200]])

# Broadcasting(브로드캐스팅)

* `np.ndarray`의 산술 연산(+, -, *, /, ...)은 같은 위치(인덱스)에 있는 원소들끼리(element-wise) 연산을 수행함.
    * 같은 모양의 배열들끼리 산술 연산이 가능.
* broadcast: 서로 다른 모양의 배열들끼리 산술 연산이 가능한 경우.

## ndarray와 scalar의 연산

* scalar: 숫자 한 개.
* ndarray: 숫자 여러 개.

In [59]:
arr1 = np.arange(1, 4)
print(arr1)

[1 2 3]


In [60]:
# 전체에 10이 더해진 값이 저장됨.
# broadcast: 왼쪽에 있는 값과 오른쪽의 있는 값의 모양을 맞춰줌.
arr1 + 10

array([11, 12, 13])

In [61]:
arr2 = np.array([
    [1],
    [2],
    [3]
])  # (3, 1) shape
print(arr2)

[[1]
 [2]
 [3]]


In [62]:
arr2 + 10

array([[11],
       [12],
       [13]])

## 2차원 배열과 1차원 배열에서 broadcast

In [63]:
arr1 = np.arange(6).reshape((2, -1))    # (2, 3) shape의 2차원 배열
print(arr1)

[[0 1 2]
 [3 4 5]]


In [64]:
arr2 = np.array([10, 20, 30])   # (3, ) shape의 1차원 배열
print(arr2)

[10 20 30]


In [65]:
# 1차원 배열을 2차원 배열에 맞춰 복사한 후,
# 각 원소마다 더해줌.
arr1 + arr2

array([[10, 21, 32],
       [13, 24, 35]])

In [71]:
arr3 = np.array([10, 20])   # (2, ) shape의 1차원 배열
print(arr3)

[10 20]


In [68]:
# arr1 + arr3
# 에러.
# 낮은 차원에 있는 배열을 높은 차원에 있는 배열에 맞게 늘려줘야 하는데,
# 복사를 할 때 모양을 맞출 수 없으면 에러가 발생한다.

# > (2, 3) shape과 (2, ) shape의 배열은 broadcast할 수 없음.

In [72]:
# arr3 = np.array([
#     [10],
#     [20]
# ])

arr3 = arr3.reshape((-1, 1))        #(2, 1) shape
print(arr3)

[[10]
 [20]]


In [73]:
arr1 + arr3

array([[10, 11, 12],
       [23, 24, 25]])

## broadcast 연습

표준화(standardizatioin): 배열의 원소들을 평균이 0이 되고 표준편차가 1이 되도록 변수들의 스케일을 변환하는 것.

$$
X_{scaled} = \frac{X- \mu}{\sigma}
$$

* $ \mu $: 평균
* $ \sigma $: 표준편차

In [74]:
x = np.arange(1, 6)
print(x)

[1 2 3 4 5]


In [76]:
mu = np.mean(x) # 평균
print(mu)

3.0


In [78]:
sigma = np.std(x)   # 표준편차
print(sigma)

1.4142135623730951


In [79]:
x_scaled = (x - mu) / sigma
print(x_scaled)

[-1.41421356 -0.70710678  0.          0.70710678  1.41421356]


In [81]:
print(np.mean(x_scaled))
print(np.std(x_scaled))

0.0
0.9999999999999999


정규화(normalization): min-max scaling. 배열의 원소들을 최솟이 0이 되도록, 최댓값이 1이 되도록 변환을 하는 것.

$$
X_{normalized} = \frac{X - min(X)}{max(X) - min(X)}
$$

In [82]:
print(x)

[1 2 3 4 5]


In [83]:
xmin = np.min(x)
print(xmin)

1


In [84]:
xmax = np.max(x)
print(xmax)

5


In [85]:
x_normalized = (x - xmin) / (xmax - xmin)
print(x_normalized)

[0.   0.25 0.5  0.75 1.  ]


## 2차원 배열에서 표준화, 정규화

In [86]:
# 1차원: 소문자
# 2차원: 대문자
X = np.arange(1, 7).reshape((3, -1))    # (3, 2) shape의 2차원 배열
print(X)

[[1 2]
 [3 4]
 [5 6]]


axis = 0 축 방향으로 표준화

In [89]:
mu = np.mean(X, axis = 0)
mu

array([3., 4.])

In [88]:
sigma = np.std(X, axis = 0)
sigma

array([1.63299316, 1.63299316])

In [90]:
X_scaled = (X - mu) / sigma
print(X_scaled)

[[-1.22474487 -1.22474487]
 [ 0.          0.        ]
 [ 1.22474487  1.22474487]]


In [91]:
print(np.mean(X_scaled, axis = 0))
print(np.std(X_scaled, axis = 0))

[0. 0.]
[1. 1.]


axis = 0 축 방향으로 정규화

In [92]:
xmax = np.max(X, axis = 0)
xmax

array([5, 6])

In [93]:
xmin = np.min(X, axis = 0)
xmin

array([1, 2])

In [94]:
X_normalized = (X - xmin) / (xmax - xmin)
print(X_normalized)

[[0.  0. ]
 [0.5 0.5]
 [1.  1. ]]
