<a href="https://colab.research.google.com/github/sejinseo/Python/blob/main/ml01_numpy.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

필요한 라이브러리 모듈 임포트

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# np.ndarray 클래스 속성들(properties)

In [2]:
# 모든 원소가 1.0으로 이루어진 (3, 4) 모양의 2차원 배열 생성
array = np.ones((3, 4))

In [3]:
print(array)

[[1. 1. 1. 1.]
 [1. 1. 1. 1.]
 [1. 1. 1. 1.]]


In [4]:
type(array)

numpy.ndarray

In [5]:
array.dtype # 배열의 원소의 데이터 타입

dtype('float64')

In [7]:
array.shape # 배열의 각 축(axis)을 따라서 있는 원소들의 개수로 만들어진 tuple

(3, 4)

In [9]:
array.size # 배열의 모든 원소들의 개수

12

In [11]:
array.ndim # 배열의 차원의 개수(number of dimension). 배열의 축(axis)의 개수.

2

In [12]:
# [1, 6) 범위의 정수들로 이루어진 1차원 배열
array = np.arange(1, 6)
print(array)

[1 2 3 4 5]


In [13]:
print('dtype:', array.dtype)
print('shape:', array.shape)
print('size:', array.size)
print('ndim:', array.ndim)

dtype: int64
shape: (5,)
size: 5
ndim: 1


In [14]:
# [1, 25) 범위의 정수들로 이루어진 (2, 3, 4) shape의 3차원 배열
array = np.arange(1, 25).reshape((2, 3, 4))
print(array)

[[[ 1  2  3  4]
  [ 5  6  7  8]
  [ 9 10 11 12]]

 [[13 14 15 16]
  [17 18 19 20]
  [21 22 23 24]]]


In [15]:
print('dtype:', array.dtype)
print('shape:', array.shape)
print('size:', array.size)
print('ndim:', array.ndim)

dtype: int64
shape: (2, 3, 4)
size: 24
ndim: 3


np.ndarray의 indexing

* Python list 인덱스 사용 방법: `list[i][j][k]...`
* numpy ndarray 인덱스 사용 방법:
    * `array[i][j][k]...`
    * `array[i, j, k]...`


In [17]:
print(array)

[[[ 1  2  3  4]
  [ 5  6  7  8]
  [ 9 10 11 12]]

 [[13 14 15 16]
  [17 18 19 20]
  [21 22 23 24]]]


In [19]:
print(array[0])

[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]


In [20]:
print(array[0][1])

[5 6 7 8]


In [21]:
print(array[0, 1])

[5 6 7 8]


In [23]:
print(array[0][1][2])

7


In [24]:
print(array[0, 1, 2])

7


# np.nadarray slicing

## 1차원 배열 slicing

In [26]:
np.random.seed(1) 
array = np.random.rand(10)

In [27]:
array

array([4.17022005e-01, 7.20324493e-01, 1.14374817e-04, 3.02332573e-01,
       1.46755891e-01, 9.23385948e-02, 1.86260211e-01, 3.45560727e-01,
       3.96767474e-01, 5.38816734e-01])

In [30]:
# [1:5) 범위의 원소들로 이루어진 ndarray
print(array[1:5])

[7.20324493e-01 1.14374817e-04 3.02332573e-01 1.46755891e-01]


In [32]:
# 배열에서 첫 3개의 원소로 이루어진 ndarray
print(array[:3]) # array[0:3] - 시작 인덱스 0은 생략 가능

[4.17022005e-01 7.20324493e-01 1.14374817e-04]


In [33]:
# 배열에서 마지막 3개의 원소로 이루어진 ndarray
print(array[-3:]) # slicing에서 end index를 생략하면 끝까지 선택

[0.34556073 0.39676747 0.53881673]


In [34]:
print(array[:]) # slicing에서 start와 end index 모두를 생략하면 처음부터 끝까지 선택

[4.17022005e-01 7.20324493e-01 1.14374817e-04 3.02332573e-01
 1.46755891e-01 9.23385948e-02 1.86260211e-01 3.45560727e-01
 3.96767474e-01 5.38816734e-01]


## 2차원 배열 slicing

In [35]:
array = np.arange(1, 21).reshape(4, 5)
print(array)

[[ 1  2  3  4  5]
 [ 6  7  8  9 10]
 [11 12 13 14 15]
 [16 17 18 19 20]]


In [38]:
# 행은 [1, 3), 열은 [1, 4) 범위로 slicing
print(array[1:3, 1:4])

[[ 7  8  9]
 [12 13 14]]


array([[11, 12, 13, 14, 15]])

In [41]:
# 첫 2개 열을 선택. 행은 모두 선택, 열은 [0, 2) 범위로 slicing
print(array[:, :2])

[[ 1  2]
 [ 6  7]
 [11 12]
 [16 17]]


In [43]:
# 첫 2개 행을 선택. 행은 [0, 2) 범위로, slicing, 열은 모두 선택.
print(array[:2, :])

[[ 1  2  3  4  5]
 [ 6  7  8  9 10]]


## 3차원 배열 slicing

In [44]:
array = np.arange(1, 61).reshape(3, 4, 5)
print(array)

[[[ 1  2  3  4  5]
  [ 6  7  8  9 10]
  [11 12 13 14 15]
  [16 17 18 19 20]]

 [[21 22 23 24 25]
  [26 27 28 29 30]
  [31 32 33 34 35]
  [36 37 38 39 40]]

 [[41 42 43 44 45]
  [46 47 48 49 50]
  [51 52 53 54 55]
  [56 57 58 59 60]]]


In [45]:
print(array[:2, :, :])

[[[ 1  2  3  4  5]
  [ 6  7  8  9 10]
  [11 12 13 14 15]
  [16 17 18 19 20]]

 [[21 22 23 24 25]
  [26 27 28 29 30]
  [31 32 33 34 35]
  [36 37 38 39 40]]]


slicing(차원 유지) vs indexing(차원 줄어듬)

In [47]:
print(array[:1, :, :]) #> slicing의 결과: 3-d 배열

[[[ 1  2  3  4  5]
  [ 6  7  8  9 10]
  [11 12 13 14 15]
  [16 17 18 19 20]]]


In [48]:
print(array[0]) #> indexing의 결과: 2-d 배열

[[ 1  2  3  4  5]
 [ 6  7  8  9 10]
 [11 12 13 14 15]
 [16 17 18 19 20]]


In [49]:
print(array[:, :, :2]) #>(3, 4, 2) shape의 3-d 배열

[[[ 1  2]
  [ 6  7]
  [11 12]
  [16 17]]

 [[21 22]
  [26 27]
  [31 32]
  [36 37]]

 [[41 42]
  [46 47]
  [51 52]
  [56 57]]]


# np.ndarray 모양(shape) 변형

## `np.ndarray.reshape(shape)`

In [50]:
arr_1d = np.arange(1, 13)
print(arr_1d) #> 1-d 배열

[ 1  2  3  4  5  6  7  8  9 10 11 12]


In [56]:
# 1차원 배열을 (3, 4) shape을 갖는 2-d 배열로 변형
arr_2d = arr_1d.reshape(3, 4)
print(arr_2d)

[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]


In [64]:
# 1-d 배열을 2-d 배열로 변환할 때 행의 개수만 결정되면 열의 개수는 자동으로 결정됨.
print(arr_1d.reshape((3, -1))) # 자동으로 계산이 되는 1개 차원의 원소 개수는 -1로 대체할 수 있음

[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]


In [65]:
# 1-d 배열을 2-d 배열로 변환할 때 열의 개수만 결정되면 행의 개수는 자동으로 결정됨.
print(arr_1d.reshape((-1, 4)))

[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]


In [66]:
# 2-d ndarray -> 1-d ndarray
result = arr_2d.reshape((3*4,)) # shape을 정수 1개인 tuple로 전달
print(result)

[ 1  2  3  4  5  6  7  8  9 10 11 12]


In [69]:
result = arr_2d.reshape(3*4) # shape을 정수로 전달
print(result)

[ 1  2  3  4  5  6  7  8  9 10 11 12]


In [72]:
result = arr_2d.reshape(-1) # (n, m) shape의 2d 배열은 n*m개 원소를 갖는 1차원 배열이 될 수 밖에 없음.
print(result)

[ 1  2  3  4  5  6  7  8  9 10 11 12]


## 2차원 이상의 배열을 1차원 배열로 변환

* `np.ndarray.ravel()`: 1차원 배열로 변환된 __view__를 리턴.
* `np.ndarray.flatten()`: 1차원 배열로 변환된 __새로운__ 배열을 리턴.

In [74]:
print(arr_2d)

[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]


In [75]:
raveled = arr_2d.ravel()
print(raveled)

[ 1  2  3  4  5  6  7  8  9 10 11 12]


In [76]:
flattened = arr_2d.flatten()
print(flattened)

[ 1  2  3  4  5  6  7  8  9 10 11 12]


In [80]:
# flatten() 메서드의 리턴 값은 원본 배열과 별개의 1차원 배열!
flattened[0] = 100 # 1차원 배열의 인덱스 0번 위치의 값을 변경.
print(flattened)
print(arr_2d)

[100   2   3   4   5   6   7   8   9  10  11  12]
[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]


In [82]:
# ravel() 메서드의 리턴값은 원본 배열의 모양(shape)을 변경한 view일 뿐!
raveled[0] = 100 #> view의 원소 값을 변경
print(raveled) 
print(arr_2d) #> 원본 배열의 원소 값이 변경.

[100   2   3   4   5   6   7   8   9  10  11  12]
[[100   2   3   4]
 [  5   6   7   8]
 [  9  10  11  12]]


## np.newaxis 속성을 사용한 차원 늘리기

In [83]:
array = np.arange(1, 6)
print(array) # (5, ) shape의 1차원 배열

[1 2 3 4 5]


In [84]:
result = array.reshape((5, 1))
print(result) #> (5, 1) shape의 2차원 배열

[[1]
 [2]
 [3]
 [4]
 [5]]


In [85]:
result = array[:, np.newaxis]
print(result)

[[1]
 [2]
 [3]
 [4]
 [5]]


In [86]:
result = array.reshape((1, 5))
print(result) #> (1, 5) shape의 2차원 배열

[[1 2 3 4 5]]


In [88]:
result = array[np.newaxis, :]
print(result)

[[1 2 3 4 5]]


# concatenate

* `np.concatenate([array1, array2, ....], axis=0)`: 행(axis=0) 또는 열(axis=1) 방향으로 배열 이어 붙이기
* `np.r_[array1, array2]`: 행(row) 이어 붙이기
* `np.c_[array1, array2]`: 열(column) 이어 붙이기

In [90]:
a1 = np.arange(1, 7).reshape((2, 3))
print(a1)

[[1 2 3]
 [4 5 6]]


In [91]:
a2 = np.array([[7, 8, 9]])
print(a2) #> (1, 3) shape의 2차원 배열

[[7 8 9]]


In [92]:
np.concatenate([a1, a2]) # axis=0은 생략 가능. default argument.

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [93]:
np.r_[a1, a2]

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [95]:
a3 = np.array([[10], [11]])
print(a3)

[[10]
 [11]]


In [97]:
np.concatenate([a1, a3], axis=1)

array([[ 1,  2,  3, 10],
       [ 4,  5,  6, 11]])

In [98]:
np.c_[a1, a3]

array([[ 1,  2,  3, 10],
       [ 4,  5,  6, 11]])

# Broadcasting

np.ndarray 객체의 산술 연산(`+, -, *, /, %, //, 수학 함수들...)`은 같은 위치(인덱스)의 원소들끼리(element-wise) 계산됨.

**broadcast**란 서로 모양(shape)이 다른 배열들 사이에서 산술연산이 가능하도록 shape을 맞춰서 연산을 하는 방법임.

In [100]:
a = np.array([1, 2, 3]) # (3,) shape의 1차원 배열
b = np.array([4, 5, 6, 7]) #(4,) shape의 1차원 배열
# a + b #> ValueError 발생 - 배열 a와 b는 같은 shape으로 맞춰서 + 연산을 수행할 수 없기 때문에.

## ndarray와 scalar(숫자 한 개)의 broadcast

In [101]:
a

array([1, 2, 3])

In [102]:
a + 10

array([11, 12, 13])

In [103]:
a2 = np.array([[1, 2, 3],
               [4, 5, 6]])
print(a2)

[[1 2 3]
 [4 5 6]]


In [105]:
a2 / 2

array([[0.5, 1. , 1.5],
       [2. , 2.5, 3. ]])

## 2차원 배열과 1차원 배열 또는 2차원 배열과 2차원 배열에서의 broadcast

In [106]:
a = np.arange(1, 7).reshape((2, 3))
print(a) #> (2, 3) shape의 2D array

[[1 2 3]
 [4 5 6]]


In [107]:
b = np.arange(10, 40, 10)
print(b) #> (3, ) shape의 1D array

[10 20 30]


In [108]:
# 배열 b를 (3,) 1D array --> (1, 3) 2D array 변형 --> (2, 3) 2D array로 broadcast
print(a + b)

array([[11, 22, 33],
       [14, 25, 36]])

In [110]:
c = np.array([10, 20])
print(c) #> (2,) 1D array

[10 20]


In [112]:
# print(a + c) #> ValueError 발생 - broadcast를 해서 모양을 같게 맞출 수 없음.

In [113]:
d = c[:, np.newaxis] # (2,) 1D --> (2, 1) 2D array 모양 변형
print(d)

[[10]
 [20]]


In [114]:
print(a + d)

[[11 12 13]
 [24 25 26]]
