<a href="https://colab.research.google.com/github/younhuiji/cucumbermarket/blob/main/ml01_numpy.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# `np.ndarray` 속성들

In [2]:
arr = np.ones(shape=(2, 3)) # 모든 원소가 1.0인 (2,3) 모양의 배열을 생성.

In [3]:
print(arr)

[[1. 1. 1.]
 [1. 1. 1.]]


In [4]:
arr.dtype # 배열 원소의 데이터 타입

dtype('float64')

In [5]:
arr.shape # 배열의 모양: 배열의 각 축(axis)을 따라서 있는 원소의 개수

(2, 3)

In [10]:
arr.ndim # 배열의 차원(dimension): 배열에서 축의 개수

2

In [13]:
arr.size # 크기: 배열 원소 전체 개수

6

In [17]:
arr = np.arange(10)
print(arr)
print('dtype:', arr.dtype)
print('shape:', arr.shape)
print('ndim:', arr.ndim)
print('size:', arr.size)

[0 1 2 3 4 5 6 7 8 9]
dtype: int64
shape: (10,)
ndim: 1
size: 10


# indexing

* Python list: `list[i], list[i][j], list[i][j][k], ...`
* numpy ndarray
    * `array[i], array[i][j], array[i][j][k], ...`
    * `array[i], array[i, j], array[i, j, k], ...`

In [19]:
arr = np.arange(1, 13).reshape((3, 4))
print(arr)

[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]


In [20]:
arr[0]

array([1, 2, 3, 4])

In [21]:
arr[0,0]

1

In [22]:
arr[0][0]

1

# slicing


## 1차원 배열 slicing

In [23]:
np.random.seed(1)
arr = np.random.randint(100, size=10)
print(arr)

[37 12 72  9 75  5 79 64 16  1]


In [25]:
arr[2:6] # [2,6) 범위의 원소들로 이루어진 부분집합(ndarray)

array([72,  9, 75,  5])

In [29]:
arr[:3] # 첫 3개 원소 자르기

array([37, 12, 72])

In [28]:
arr[-3:] # 마지막 3개 원소 자르기

array([64, 16,  1])

## 2차원 배열에서의 slicing

In [30]:
arr = np.random.randint(100, size=(4, 5))
print(arr)

[[76 71  6 25 50]
 [20 18 84 11 28]
 [29 14 50 68 87]
 [87 94 96 86 13]]


In [37]:
# 첫 2개의 row를 선택, 모든 column을 선택
arr[:2][:]
arr[:-2, :]

array([[76, 71,  6, 25, 50],
       [20, 18, 84, 11, 28]])

In [33]:
arr[:2]

array([[76, 71,  6, 25, 50],
       [20, 18, 84, 11, 28]])

In [36]:
# 첫 2개의 row을 선택, 첫 3개 컬럼 column 선택
arr[:2, :3]

array([[76, 71,  6],
       [20, 18, 84]])

In [39]:
arr[:1, :1] # 2차원 배열을 slicing 하면 2차원 배열. vs indexing은 차원이 줄어듦.

array([[76]])

# shape 변경

* `np.ndarray.reshape(shape)`
* `np.ndarray.ravel()`
* `np.ndarray.flatten()`
* `np.newaxis` 속성 이용

## reshape

In [41]:
arr_1d = np.arange(12)
print(arr_1d)

[ 0  1  2  3  4  5  6  7  8  9 10 11]


In [43]:
# arr_1d 배열을 (4, 3) 이런 shape에 2차원 배열로 변환 -> 모양이 변환된 배열이 리턴.
arr_2d = arr_1d.reshape((4,3))
print(arr_2d)

[[ 0  1  2]
 [ 3  4  5]
 [ 6  7  8]
 [ 9 10 11]]


In [45]:
np.__version__

'1.21.6'

In [47]:
np.reshape(arr_1d, (4, 3))

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11]])

In [48]:
# reshape을 할 때 자동으로 계산될 수 있는 차원 값에는 -1을 사용할 수 있음.
arr_2d = arr_1d.reshape((3, -1))
print(arr_2d)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]


In [49]:
arr_2d = arr_1d.reshape((-1, 4))
print(arr_2d)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]


In [50]:
arr_2d.reshape(12)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [51]:
arr_2d.reshape(3*4)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [53]:
arr_2d.reshape((3*4,)) 

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [54]:
arr_2d.reshape((-1,))

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])


## `ravel` vs `flatten`

* `ravel` : 1차원으로 변환된 배열의 **View**를 리턴. 배열은 1개이고, 단지 모양만 다르게 보여주는 것.
* `flatten` : 1차원으로 변환된 배열의 **복사본**을 리턴. 원본 배열과는 별개의 새로운 배열이 생성됨.

In [55]:
print(arr_2d)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]


In [56]:
flattened = arr_2d.flatten()

In [58]:
print(flattened)

[ 0  1  2  3  4  5  6  7  8  9 10 11]


In [59]:
print(arr_2d)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]


In [64]:
flattened[0] = 100
print(flattened) # flatten 복사본만 변경
print(arr_2d) # 1차원으로 변환된 배열의 원소를 변경하는 것이 2차원 배열에 영향을 미치지 않음.

[100   1   2   3   4   5   6   7   8   9  10  11]
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]


In [65]:
raveled = arr_2d.ravel()
print(raveled)
print(arr_2d)

[ 0  1  2  3  4  5  6  7  8  9 10 11]
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]


In [66]:
raveled[0] = 100
print(raveled)
print(arr_2d) # 1차원으로 변환된 배열의 원소를 변경하는 것이 2차원 배열에 영향을 미침.

[100   1   2   3   4   5   6   7   8   9  10  11]
[[100   1   2   3]
 [  4   5   6   7]
 [  8   9  10  11]]


## `np.newaxis`속성을 사용한 차원 늘리기

In [68]:
arr = np.arange(5) # (5, )shape의 1차원 배열
print(arr)
print(arr.ndim)
print(arr.shape)

[0 1 2 3 4]
1
(5,)


In [71]:
# 배열 arr 을 (1, 5) shape의 2차원 배열로 변환. ver1
result = arr.reshape((1, -1)) # (1, 5)
print(result)

[[0 1 2 3 4]]


In [72]:
# 배열 arr 을 (1, 5) shape의 2차원 배열로 변환. ver2
result = arr[np.newaxis, :]
print(result)

[[0 1 2 3 4]]


In [74]:
# 배열 arr 을 (5, 1) shape의 2차원 배열 변환.ver1
result = arr.reshape((-1, 1))
print(result)

[[0]
 [1]
 [2]
 [3]
 [4]]


In [75]:
# 배열 arr 을 (5, 1) shape의 2차원 배열 변환. ver2
result = arr[:, np.newaxis]
print(result)

[[0]
 [1]
 [2]
 [3]
 [4]]


# concatnate

* `np.concatnate([array1, array2, ...]), axis=0)` : 특정 축(axis) 방향으로 이어 붙이기.
* `np.r_[array1, array2]` : 행(row) 이어 붙이기.
* `np.c_{array2, array2]` : 열(column) 이어 붙이기.

In [76]:
a1 = np.arange(6).reshape((2, 3)) # (2, 3) shape
print(a1)

[[0 1 2]
 [3 4 5]]


In [78]:
a2 = np.array([[10, 20, 30]]) # (1, 3) shape 
print(a2)

[[10 20 30]]


In [88]:
result = np.concatenate([a1, a2]) # axis = 0(기본값)
print(result)

[[ 0  1  2]
 [ 3  4  5]
 [10 20 30]]


In [90]:
a3 = np.array([[100], [200]]) # (2, 1) shape
print(a3)

[[100]
 [200]]


In [92]:
result = np.concatenate([a1, a3],axis=1 )
print(result)

[[  0   1   2 100]
 [  3   4   5 200]]


In [96]:
np.r_[a1, a2] # 행 이어 붙이기

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [10, 20, 30]])

In [97]:
np.c_[a1, a3] # 열 이어 붙이기

array([[  0,   1,   2, 100],
       [  3,   4,   5, 200]])

# Broadcasting(브로드캐스팅)

* `np.ndarray`의 산술 연산(`+, -, *, /, ...`)은 같은 위치(인덱스)의 원소들끼리(element-wise) 연산이 수행됨.
* 서로 다른 shape을 갖는 배열들끼리 산술 연산을 가능한 경우가 있음.
    * broadcast

In [99]:
a1 = np.array([1, 2]) # (2,) shape의 1차원 배열
a2 = np.array([3, 4, 5]) # (3, ) shape의 1차원 배열

# a1 + a2 - 배열이 다르므로 산술 연산 안됨. could not be broadcast

## ndarray와 scalar의 연산

In [100]:
a1 + 10

array([11, 12])

In [102]:
a1 = np.array([[1], [2], [3]])
print(a1)

[[1]
 [2]
 [3]]


In [104]:
a1 + 10

array([[11],
       [12],
       [13]])

## 2차원 배열과 1차원 배열 또는 2차원 배열에서의 broadcast

In [110]:
a1 = np.arange(6).reshape((2, -1)) # (2, 3) 2d array
print(a1)

[[0 1 2]
 [3 4 5]]


In [111]:
a2 = np.arange(10, 40, 10) # (3,) 1d array
print(a2)

[10 20 30]


In [113]:
a1 + a2
# (3, ) 1d array --> (1, 3) 2d array --> (2, 3) 2d array broadcast

array([[10, 21, 32],
       [13, 24, 35]])

In [None]:
a3 = np.array([10, 20]) 
# a1 + a3 - shape이 다름.
print(a3)

In [117]:
a3 = np.array([[10], [20]]) # (2, 1) 2d array
print(a3)
a1 + a3

[[10]
 [20]]


array([[10, 11, 12],
       [23, 24, 25]])

## broadcast 활용

* 표준화(standardization) : 평균이 0이 되고, 표준편차가 1이 되도록 변수들의 스케일을 변환하는 것.
* 정규화(normalization) : 최솟값이 0이 되고, 최댓값이 1이 되도록 변수들의 스케일을 변환하는 것. min - max scaling.

### 표준화

In [118]:
x = np.arange(1, 6)
print(x)

[1 2 3 4 5]


In [119]:
mu = np.mean(x)  # 1d-array 평균
print(mu)

3.0


In [120]:
sigma = np.std(x) # 1d-array 표준편차
print(sigma)

1.4142135623730951


In [121]:
x_scaled = (x - mu) / sigma # 표준화
print(x_scaled)

[-1.41421356 -0.70710678  0.          0.70710678  1.41421356]


In [122]:
np.mean(x_scaled)

0.0

In [123]:
np.std(x_scaled)

0.9999999999999999

### 정규화

In [124]:
xmin = np.min(x)
xmax = np.max(x)
print(xmin, xmax)

1 5


In [126]:
x_normalized = (x - xmin) / (xmax - xmin) # 정규화
print(x_normalized)

[0.   0.25 0.5  0.75 1.  ]


### 2차원 배열의 표준화, 정규화

In [128]:
x = np.arange(1, 7).reshape((3, -1)) # (2, 3) 2-d array
print(x)

[[1 2]
 [3 4]
 [5 6]]


2차원 배열 x를 axis=0 방향으로 표준화, 정규화

In [143]:
mean1 = x[:, 1].mean()
mean2 = x[:, 0].mean()
print('mean1 :' ,mean1, ', mean2 :', mean2)

mean1 : 4.0 , mean2 : 3.0


In [144]:
max1 = x[:, 1].max()
max2 = x[:, 0].max()
print('max1 :', max1, ', max2 :', max2)

max1 : 6 , max2 : 5


In [145]:
min1 = x[:, 1].min()
min2 = x[:, 0].min()
print('min1 :', min1, ', min2 :', min2)

min1 : 2 , min2 : 1


In [147]:
x1_normalized = (x[:, 1] - min1) / (max1 - min1)
print(x1_normalized)

[0.  0.5 1. ]


In [148]:
x2_normalized = (x[:, 0] - min2) / (max2 - min2)
print(x2_normalized)

[0.  0.5 1. ]


다른 version

In [149]:
mu = np.mean(x, axis=0)
print(mu)
sigma = np.std(x, axis=0)
print(sigma)

[3. 4.]
[1.63299316 1.63299316]


In [150]:
x_scaled = (x-mu) / sigma
print(x_scaled)

[[-1.22474487 -1.22474487]
 [ 0.          0.        ]
 [ 1.22474487  1.22474487]]


In [151]:
xmax = np.max(x, axis=0)
print(xmax)

[5 6]


In [153]:
xmin = np.min(x, axis=0)
print(xmin)

[1 2]


In [154]:
x_normalized = (x-xmin)/ (xmax - xmin)
print(x_normalized)

[[0.  0. ]
 [0.5 0.5]
 [1.  1. ]]


배열 x를 axis=1 방향으로 표준화, 정규화

In [166]:
mu = np.mean(x, axis=1).reshape(3, -1)
# mu = np.mean(x, axis=1, keepdims=True)
print(mu)
sigma = np.std(x, axis=1).reshape(3, -1)
print(sigma)

[[1.5]
 [3.5]
 [5.5]]
[[0.5]
 [0.5]
 [0.5]]


In [167]:
x_scaled = (x-mu) / sigma
print(x_scaled)

[[-1.  1.]
 [-1.  1.]
 [-1.  1.]]


In [170]:
xmax = np.max(x, axis=1).reshape(3,-1)
print(xmax)

[[2]
 [4]
 [6]]


In [171]:
xmin = np.min(x, axis=1).reshape(3,-1)
print(xmin)

[[1]
 [3]
 [5]]


In [172]:
x_normalized = (x-xmin)/ (xmax - xmin)
print(x_normalized)

[[0. 1.]
 [0. 1.]
 [0. 1.]]
