<a href="https://colab.research.google.com/github/kim-dahun/python-study/blob/main/ml01_numpy.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
import numpy as np

# `np.ndarray` 클래스의 속성(property)

In [2]:
arr = np.ones(shape=(2,3)) # 모든 원소가 1인 (2, 3) 모양의 배열

In [3]:
arr

array([[1., 1., 1.],
       [1., 1., 1.]])

In [7]:
arr.dtype # 배열 원소의 데이터 타입

dtype('float64')

In [8]:
arr.shape # 배열의 모양 : 배열의 각 축(axis)를 따라서 있는 원소의 갯수

(2, 3)

In [9]:
arr.ndim # 배열의 차원(dimension) : 배열의 축(axis) 의 갯수

2

In [10]:
arr.size # 배열의 크기 : 배열의 전체 원소 갯수

6

In [11]:
arr = np.arange(10) # [0,10) 범위의 1씩 증가하는 정수들로 만들어진 1차원 배열

In [13]:
arr.dtype

dtype('int64')

In [14]:
arr.shape

(10,)

In [15]:
arr.size

10

In [16]:
arr.ndim

1

# indexing

* Python list:
  * `list[i], list[i][j], list[i][j][k] ...`

* numpy ndarray:
  * `arr[i],arr[i][j],arr[i][j][k]`
  * `arr[i],arr[i,j],arr[i,j,k]`

In [17]:
arr = np.arange(1,13).reshape((3,4))
print(arr)

[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]


# slicing



## 1차원 배열의 slicing



In [18]:
np.random.seed(1)

In [29]:
arr = np.random.randint(100, size=10) # [0,100) 범위의 정수 난수 10개를 갖는 1차원 배열

In [30]:
arr

array([88, 13, 47, 72, 30, 71,  3, 70, 21, 49])

In [31]:
arr[:3] # arr[0:3] 과 동일

array([88, 13, 47])

In [32]:
arr[-3:]

array([70, 21, 49])

In [33]:
arr[7:] # arr[7:10]

array([70, 21, 49])

In [34]:
np.random.seed(10)
arr = np.random.randint(100, size=(4,5))

In [35]:
arr

array([[ 9, 15, 64, 28, 89],
       [93, 29,  8, 73,  0],
       [40, 36, 16, 11, 54],
       [88, 62, 33, 72, 78]])

In [37]:
# 첫 두 개의 Row 선택. 컬럼의 모든 원소 선택

arr[0:2, :]

array([[ 9, 15, 64, 28, 89],
       [93, 29,  8, 73,  0]])

In [38]:
# 첫 두개의 Row에서 3개 행까지 원소 선택

arr[0:2, :3]

array([[ 9, 15, 64],
       [93, 29,  8]])

In [39]:
arr_1d = np.arange(12)
print(arr_1d)

[ 0  1  2  3  4  5  6  7  8  9 10 11]


In [41]:
arr_2d = arr_1d.reshape((3,4))
print(arr_2d)
print(arr_1d)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
[ 0  1  2  3  4  5  6  7  8  9 10 11]


In [42]:
# reshape을 할 때 자동으로 계산될 수 있는 차원의 값은 -1로 설정할 수 있음.
arr_2d = arr_1d.reshape((2,-1)) # (2, 6)
print(arr_2d)

[[ 0  1  2  3  4  5]
 [ 6  7  8  9 10 11]]


In [44]:
arr_2d = arr_1d.reshape((-1,3)) # (4,3)
print(arr_2d)

[[ 0  1  2]
 [ 3  4  5]
 [ 6  7  8]
 [ 9 10 11]]


## `np.ndarray.ravel()`

1차원으로 변환된 배열의 **view**를 리턴. 새로운 배열이 리턴되는 것이 아님. 단지 모양만 다르게 보여줌.

In [45]:
raveled = arr_2d.ravel()
print(raveled)

[ 0  1  2  3  4  5  6  7  8  9 10 11]


In [46]:
print(arr_2d)

[[ 0  1  2]
 [ 3  4  5]
 [ 6  7  8]
 [ 9 10 11]]


## `np.ndarray.flatten()`

1차원으로 변환된 배열의 **복사본** 을 리턴. 원본 배열과는 별개의 *새로운 배열*을 리턴.

In [50]:
flattened = arr_2d.flatten()

In [51]:
flattened # flatten() 결과에서 값을 변경한 것은 원본 2차원 배열에 영향을 주지 않음.

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [52]:
arr = np.arange(5) # [0,5) 범위의 정수 5개를 갖는 (5, ) 모양의 1차원 배열
print(arr)

[0 1 2 3 4]


In [53]:
arr.shape

(5,)

In [56]:
arr.ndim

1

In [57]:
result = arr.reshape(1,-1)

In [58]:
result

array([[0, 1, 2, 3, 4]])

In [59]:
result = arr[np.newaxis, : ]

In [60]:
result

array([[0, 1, 2, 3, 4]])

In [61]:
# 배열 arr 을 (5,1) shape의 2차원 배열로 모양 변경

result = arr.reshape(5,1)

In [62]:
result

array([[0],
       [1],
       [2],
       [3],
       [4]])

In [66]:
result = arr[:,np.newaxis ]

In [67]:
result

array([[0],
       [1],
       [2],
       [3],
       [4]])

## `np.concatenate([array1, array2, ...], axis=0)

특정 축(axis) 방향으로 이어 붙이기.

In [69]:
arr1 = np.arange(6).reshape(2,3)

In [70]:
arr1

array([[0, 1, 2],
       [3, 4, 5]])

In [71]:
arr2 = np.array([[10,20,30]])

In [72]:
print(arr2)

[[10 20 30]]


In [73]:
result = np.concatenate([arr1, arr2]) # axis 기본값 0.

result

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [10, 20, 30]])

In [74]:
arr3 = np.array([[100],[200]]) # (1,2) shape의 2차원 배열
print(arr3)

[[100]
 [200]]


In [75]:
result = np.concatenate([arr1,arr3], axis=1)

In [76]:
result

array([[  0,   1,   2, 100],
       [  3,   4,   5, 200]])

## `np.r_[array1, array2]`, `np.c_[array1,array2]`

* `np.r_` : 행 이어붙이기.concatenate(axis=0)
* `np.c_` : 열 이어붙이기.concatenate(axis=1)

In [77]:
np.r_[arr1, arr2]

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [10, 20, 30]])

In [78]:
np.c_[arr1,arr3]

array([[  0,   1,   2, 100],
       [  3,   4,   5, 200]])

# BroadCasting

* np.ndarray의 산술연산은 같은 위치(인덱스) 에 있는 원소들끼리(element-wise) 연산을 수행함.
  * 같은 모양의 배열들끼리 산술 연산이 가능.

* broadcast : 서로 다른 모양의 배열들끼리 산술 연산이 가능한 경우.

## ndarray와 scalar의 연산

In [79]:
arr1 = np.arange(1,4)
print(arr1)

[1 2 3]


In [80]:
arr1+10

array([11, 12, 13])

In [81]:
arr2 = np.array([
    [1],[2],[3]


])

In [82]:
print(arr2)

[[1]
 [2]
 [3]]


In [84]:
arr2+10

array([[11],
       [12],
       [13]])

## 2차원 배열과 1차원 배열에서 broadcast

In [88]:
arr2 = np.array([10,20,30]) # (3,)
arr1 = np.arange(6).reshape(2,3)

In [89]:
arr1 + arr2

array([[10, 21, 32],
       [13, 24, 35]])

In [90]:
arr3 = np.array([10,20]) # (2,) shape 1차원 배열

In [92]:
# arr1 + arr3

# > (2,3) shape와 (2,) 의 배열은 broadcast 할 수 없음.

In [93]:
arr3 = np.array([[10],[20]])
print(arr3)

[[10]
 [20]]


In [94]:
arr1 + arr3

array([[10, 11, 12],
       [23, 24, 25]])

In [95]:
arr3 = arr3.reshape((-1,1))
print(arr3)

[[10]
 [20]]


In [96]:
arr3 + arr1

array([[10, 11, 12],
       [23, 24, 25]])

## broadcast 연습

표준화(standardization) : 배열의 원소들을 평균이 0이 되고, 표준편차가 1이 되도록 변수들의 스케일을 변환하는 것.

$$
X_{scaled} = \frac{x- \mu}{\sigma}
$$

* $\mu$ : 평균
* $\sigma$ : 표준편차

In [97]:
x = np.arange(1, 6)
print(x)

[1 2 3 4 5]


In [98]:
mu = np.mean(x)

In [99]:
print(mu)

3.0


In [100]:
sigma = np.std(x)

In [101]:
sigma

1.4142135623730951

In [102]:
x_scaled = (x-mu) / sigma
print(x_scaled)

[-1.41421356 -0.70710678  0.          0.70710678  1.41421356]


In [103]:
np.mean(x_scaled)

0.0

In [104]:
np.std(x_scaled)

0.9999999999999999

정규화(Normalization) : min-max scaling. 배열의 원소들을 최솟값이 0이 되도록, 최댓값이 1이 되도록 변환을 하는 것.