In [62]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as seaborn

# `np.ndarray` 속성들

In [63]:
arr = np.ones(shape=(2,3))   # 모든 원소가 1.0인 (2,3) 모양의 배열을 생성

In [64]:
print(arr)

[[1. 1. 1.]
 [1. 1. 1.]]


In [65]:
arr.dtype   # 배열 원소의 데이터 타입

dtype('float64')

In [66]:
arr.shape    # 배열의 모양: 배열의 각 축(axis)을 따라서 있는 원소의 개수

(2, 3)

In [67]:
arr.ndim   # 배열의 차원(dimension): 배열에서 축의 개수

2

In [68]:
arr.size   # 크기: 배열의 원소 전체 개수

6

In [69]:
arr = np.arange(10)
print(arr)
print('dtype: ', arr.dtype)
print('shape: ', arr.shape)
print('ndim: ', arr.ndim)
print('size: ', arr.size)

[0 1 2 3 4 5 6 7 8 9]
dtype:  int64
shape:  (10,)
ndim:  1
size:  10


# indexing

* python list: `list[i], list[i][j], list[i][j][k], ...`
* numpy ndarray
    * `array[i], array[i][j], array[i][j][k], ...`
    * `array[i], array[i, j], array[i, j, k], ...`

In [70]:
arr = np.arange(1,13).reshape((3,4))
print(arr)

[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]


In [71]:
arr[0]

array([1, 2, 3, 4])

In [72]:
arr[0, 0]

1

In [73]:
arr[0][0]

1

# slicing

## 1차원 배열 slicing

In [74]:
np.random.seed(1)
arr = np.random.randint(100, size=10)   # 100미만의 랜덤 정수 10개
print(arr)

[37 12 72  9 75  5 79 64 16  1]


In [75]:
arr[2:6]    # [2,6) 범위의 원소들로 이루어진 부분집합(ndarray)

array([72,  9, 75,  5])

In [76]:
arr[:3]    # 첫 3개 원소 자르기

array([37, 12, 72])

In [77]:
arr[-3:]   # 마지막 3개 원소 자르기

array([64, 16,  1])

## 2차원 배열 slicing

In [78]:
arr = np.random.randint(100, size=(4,5))
print(arr)

[[76 71  6 25 50]
 [20 18 84 11 28]
 [29 14 50 68 87]
 [87 94 96 86 13]]


In [79]:
# 첫 2개 row 선택, 모든 column 선택
arr[:2, :]

array([[76, 71,  6, 25, 50],
       [20, 18, 84, 11, 28]])

In [80]:
arr[:2]

array([[76, 71,  6, 25, 50],
       [20, 18, 84, 11, 28]])

In [81]:
# 첫 2개 row 선택, 첫 3개 column 선택
arr[:2, :3]

array([[76, 71,  6],
       [20, 18, 84]])

In [82]:
arr[:1, :1]

array([[76]])

indexing -> 차원 줄어듦
slicing -> 차원 그대로 유지

# Shape 변경

* `np.ndarray.reshape(shape)`
* `np.ndarray.ravel()`
* `np.ndarray.flatten()`
* `np.newaixs` 속성 이용

## reshape

In [83]:
arr_1d = np.arange(12)
print(arr_1d)

[ 0  1  2  3  4  5  6  7  8  9 10 11]


In [84]:
# arr_1d 배열을 (4,3) shape의 2차원 배열로 변환  ->  모양이 변환된 새로운 배열 리턴(원본은 변경 X)
arr_2d = arr_1d.reshape((4,3))
print(arr_2d)

[[ 0  1  2]
 [ 3  4  5]
 [ 6  7  8]
 [ 9 10 11]]


In [85]:
arr_1d

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [86]:
np.reshape(arr_1d, (4,3))

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11]])

In [87]:
# reshape을 할 때 자동으로 계산될 수 있는 차원 값에는 -1을 사용할 수 있음
arr_2d = arr_1d.reshape((3, -1))
print(arr_2d)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]


In [88]:
arr_2d = arr_1d.reshape((-1,4))
print(arr_2d)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]


In [89]:
arr_2d.reshape(12)
arr_2d.reshape(3*4)
arr_2d.reshape((3*4, ))

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [90]:
arr_2d.reshape((-1,))   # 1차원 배열로 만들 때 가장 편한 방법

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

## `ravel` vs `flatten`

* `ravel`: 1차원으로 변환된 배열의 **view**를 리턴.  배열은 1개고, 단지 모양만 다르게 보여 주는 것
* `flatten`: 1차원으로 변환된 배열의 **복사본**을 리턴. 원본 배열과는 별개의 새로운 배열 생성됨

In [91]:
print(arr_2d)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]


In [92]:
flattened = arr_2d.flatten()

In [93]:
print(flattened)

[ 0  1  2  3  4  5  6  7  8  9 10 11]


In [94]:
print(arr_2d)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]


In [95]:
flattened[0] = 100
print(flattened)
print(arr_2d)    # 1차원으로 변환된 배열의 원소를 변경하는 것이 원본 2차원 배열에 영향을 미치지 않음

[100   1   2   3   4   5   6   7   8   9  10  11]
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]


In [96]:
raveled = arr_2d.ravel()
print(raveled)
print(arr_2d)

[ 0  1  2  3  4  5  6  7  8  9 10 11]
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]


In [97]:
raveled[0] = 100
print(raveled)
print(arr_2d)   # 1차원 배열의 수정 내용이 원본 2차원 배열에도 적용됨

[100   1   2   3   4   5   6   7   8   9  10  11]
[[100   1   2   3]
 [  4   5   6   7]
 [  8   9  10  11]]


## `np.newaxis` 속성을 사용한 차원 늘리기

In [98]:
arr = np.arange(5)   # (5, ) shape의 1차원 배열
print(arr)
print(arr.ndim)
print(arr.shape)

[0 1 2 3 4]
1
(5,)


In [99]:
# 배열 arr을 (1, 5) shape의 2차원 배열로 변환
result = arr.reshape((1,-1))   # (1,5)
print(result)

[[0 1 2 3 4]]


In [100]:
result = arr[np.newaxis, :]
print(result)

[[0 1 2 3 4]]


In [101]:
# 배열 arr을 (5,1) shape의 2차원 배열로 변환
result = arr.reshape((-1,1))  # (5,1)
print(result)

[[0]
 [1]
 [2]
 [3]
 [4]]


In [102]:
result = arr[:, np.newaxis]
print(result)

[[0]
 [1]
 [2]
 [3]
 [4]]


# concatenate

* `np.concatenate([array1, array2, ...], axis=0)`: 특정 축(axis) 방향으로 이어 붙이기
* `np.r_[array1, arry2]`: 행(row) 이어 붙이기
* `np.c_[array1, arry2]`: 열(column) 이어 붙이기

In [103]:
a1 = np.arange(6).reshape((2,3))
print(a1)

[[0 1 2]
 [3 4 5]]


In [133]:
a2 = np.array([[10, 20, 30]])   # (1,3) shape
print(a2)

[[10 20 30]]


In [134]:
result = np.concatenate([a1,a2])  # axis=0 (기본값)
print(result)

[[ 0  1  2]
 [ 3  4  5]
 [10 20 30]]


In [135]:
a3 = np.array([[100], [200]])  # (2,1) shape
print(a3)

[[100]
 [200]]


In [136]:
result = np.concatenate([a1,a3], axis=1)
print(result)

[[  0   1   2 100]
 [  3   4   5 200]]


In [137]:
np.r_[a1,a2]

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [10, 20, 30]])

In [139]:
np.c_[a1,a3]

array([[  0,   1,   2, 100],
       [  3,   4,   5, 200]])

# Broadcasting(브로드캐스팅)

* `np.ndarray`의 산술 연산(`+, -, *, /, ...`)은 같은 위치(인덱스)의 원소들끼리(element-wise) 연산이 수행됨
* 서로 다른 shape을 갖는 배열들기리 산술 연산 가능한 경우가 있음
    * broadcast

In [141]:
a1 = np.array([1,2])   # (2, ) shape의 1차원 배열
a2 = np.array([3,4,5])   # (3, ) shape의 1차원 배열
# a1 + a2    #> ValueError 발생

## ndarray와 scalar의 연산

In [142]:
a1 + 10

array([11, 12])

In [143]:
a1 = np.array([[1],[2],[3]])
print(a1)

[[1]
 [2]
 [3]]


In [144]:
a1 +10

array([[11],
       [12],
       [13]])

## 2차원 배열과 1차원 배열 또는 2차원 배열에서의 broadcast

In [145]:
a1 = np.arange(6).reshape((2,-1))   # (2,3)  2d array
print(a1)

[[0 1 2]
 [3 4 5]]


In [146]:
a2 = np.arange(10,40,10)  # (3, )  1d array
print(a2)

[10 20 30]


In [147]:
a1 + a2
# (3, ) 1d array --> (1,3) 2d array --> (2,3) 2d array broadcast

array([[10, 21, 32],
       [13, 24, 35]])

In [148]:
a3 = np.array([[10],[20]])   # (2,1)  2d array
a1 + a3

array([[10, 11, 12],
       [23, 24, 25]])

## broadcast 활용

* 표준화(standardization): 평균이 0이 되고, 표준편차가 1이 되도록 변수들의 스케일을 변환하는 것
* 정규화(normalization): 최소값이 0이 되고, 최대값이 1이 되도록 변수들의 스케일을 변환하는 것. min-max scaling

### 표준화

In [152]:
x = np.arange(1,6)
print(x)

[1 2 3 4 5]


In [153]:
mu = np.mean(x)   # 1d-array 평균
print(mu)

3.0


In [154]:
sigma = np.std(x)   # 1d-array 표준편차
print(sigma)

1.4142135623730951


In [155]:
x_scaled = (x - mu) / sigma   # 표준화
print(x_scaled)

[-1.41421356 -0.70710678  0.          0.70710678  1.41421356]


In [127]:
np.mean(x_scaled)

0.0

In [128]:
np.std(x_scaled)

0.9999999999999999

### 정규화

In [156]:
xmin = np.min(x)
xmax = np.max(x)
print(xmin, xmax)

1 5


In [130]:
x_normalized = (x - xmin) / (xmax - xmin)   # 정규화
print(x_normalized)

[0.   0.25 0.5  0.75 1.  ]


### 2차원 배열의 표준화, 정규화

In [158]:
x = np.arange(1,7).reshape((3,-1))   #(3,2) 2-d array
print(x)

[[1 2]
 [3 4]
 [5 6]]


2차원 배열 x를 axis = 0 방향으로 표준화, 정규화

In [160]:
mu = np.mean(x, axis=0)
print(mu)
sigma = np.std(x, axis=0)
print(sigma)

[3. 4.]
[1.63299316 1.63299316]


In [161]:
x_scaled = (x - mu) / sigma
print(x_scaled)

[[-1.22474487 -1.22474487]
 [ 0.          0.        ]
 [ 1.22474487  1.22474487]]


In [163]:
xmax = np.max(x, axis=0)
print(xmax)
xmin = np.min(x, axis=0)
print(xmin)

[5 6]
[1 2]


In [164]:
x_normalized = (x - xmin) / (xmax - xmin)
print(x_normalized)

[[0.  0. ]
 [0.5 0.5]
 [1.  1. ]]


배열 x를 axis=1 방향으로 표준화, 정규화

In [170]:
mu = np.mean(x, axis=1, keepdims = True)
sigma = np.std(x, axis=1, keepdims = True)
print(mu)
print(sigma)

[[1.5]
 [3.5]
 [5.5]]
[[0.5]
 [0.5]
 [0.5]]


In [171]:
x_scaled = (x - mu) / sigma
print(x_scaled)

[[-1.  1.]
 [-1.  1.]
 [-1.  1.]]
