#import

In [None]:
import numpy as np 
import pandas as pd 
import matplotlib.pyplot as plt 
import seaborn as sns

# `np.ndarray`의 속성들

In [None]:
arr = np.ones(shape=[2,3]) # 2차월 배열 생성
# shape : int or int의 sequence(배열, 튜플 등)
# ones = 모든 원소가 실수 1(1.0)로만 이루어진 배열(shape로 넘긴 값에 일치하는 모양)을 만듬
print(arr)
print('dtype :' , arr.dtype)
print('shape :' , arr.shape)
print('ndim :' , arr.ndim)
print('size :' , arr.size)


[[1. 1. 1.]
 [1. 1. 1.]]
dtype : float64
shape : (2, 3)
ndim : 2
size : 6


In [None]:
arr.dtype # 배열원소의 데이터 타입

dtype('float64')

In [None]:
arr.shape # 배열의 모양 : 각 축을 따라서 있는 원소의 개수

# 1차원 배열은 (원소의 개수,) 로 나타남
# 2차원 배열 부터는 (축, 원소의 개수)로 나타남

(2, 3)

In [None]:
arr.ndim # 배열의 차원(dimension)의 개수 == 배열이 가지고 있는 축의 개수

2

In [None]:
arr.size # 배열의 크기 : 배열원소의 전체 개수 (축 * 축마다 갖고 있는 원소의 개수)

6

In [None]:
arr = np.arange(10) # 1차원 배열 생성

print(arr)

print('dtype :' , arr.dtype)
print('shape :' , arr.shape)
print('ndim :' , arr.ndim)
print('size :' , arr.size)

[0 1 2 3 4 5 6 7 8 9]
dtype : int64
shape : (10,)
ndim : 1
size : 10


# indexing 

* 배열에서 원하는 값을 찾아내는 방법
* python list : `list[i]` : 1차원인 경우, `list[i][j]` : 2차원인 경우, `list[i][j][k]` : 3차원인 경우,
* NumPy ndarray : `list[i]` : 1차원인 경우, `list[i][j]` & `list[i,j]` : 2차원인 경우, `list[i][j][k]` & `list[i,j,k]` : 3차원인 경우,

In [None]:
arr = np.arange(1,13).reshape((3,4)) # reshape = 기존의 배열을 다른 차원(축==차원, 원소의 개수)로 변형
arr

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [None]:
arr[0] # 2차원 배열에서 0번 인덱스 = 0번에 위치한 1차원 배열(배열o, 원소들x)

array([1, 2, 3, 4])

In [None]:
arr[0,1]

2

# slicing

## 1차원 배열 slicing

In [None]:
np.random.seed(1)

arr = np.random.randint(100, size = 10) # 100 미만의 무작위 숫자들 10개의 배열을 만듬
# ndarray에서는 size = shape의 개념. sequence를 입력하면 2차원배열 이상이 생성.
print(arr)

[37 12 72  9 75  5 79 64 16  1]


In [None]:
arr[2:6] # [2:6) == (3,4,5,6) 번 범위의 원소들로 이루어진 부분집합(ndarray)

array([72,  9, 75,  5])

In [None]:
arr[:3] # 첫 3개 원소를 자르기 (0은 생략 가능)

array([37, 12, 72])

In [None]:
arr[-3:] # 마지막 3개 원소 자르기 (0 이상의 수를 : 뒤에 쓰면 원하는 결과를 얻을 수 없음)

array([64, 16,  1])

## 2차원 배열 slicing

* indexing : 원소를 갖기 때문에 차원이 줄어듬
* slicing : 차원에 변화가 없음

In [None]:
arr =  np.random.randint(100, size = (4,5)) # (ndarray에서 size = shape의 개념. sequence를 입력하면 2차원배열 이상이 생성.)

print(arr)

[[76 71  6 25 50]
 [20 18 84 11 28]
 [29 14 50 68 87]
 [87 94 96 86 13]]


In [None]:
# 첫 2개의 row를 선택, 모든 column을 선택

arr[:2 , : ] # ( row , column )

array([[76, 71,  6, 25, 50],
       [20, 18, 84, 11, 28]])

In [None]:
# 첫 2개의 row, 첫 3개의 column

arr[ :2, :3 ] # ( row , column )

array([[76, 71,  6],
       [20, 18, 84]])

In [None]:
arr [ :1, :1 ] # [1개의 원소를 갖는 1차원 배열] [1개를 원소로 갖는] 2차원 배열

array([[76]])

# Shape 변경

* `np.ndarray.reshape(정수 or 정수 2개를 원소로 갖는 튜플)`
    * 이 과정에서는 정수 2개를 원소로 갖는 튜플이 아니라, 정수 2개를 ',' 로 나열해도 됨
    * reshape는 원본 배열을 바꾸지 않음 = 모양이 변환된 새로운 배열을 return
* `np.reshape(ndarray, 정수, 정수 2개를 원소로 갖는 튜플)`
    * 이 과정에서는 정수 2개를 ','로 나열하면 안되고, 반드시 튜플을 사용해야 함
* `np.ndarray.ravel()`
* `np.ndarray.faltten()`
* `np.newaxis` 속성 이용

## np.ndarray.reshape()

In [None]:
arr_1d = np.arange(12)

print(arr_1d)

[ 0  1  2  3  4  5  6  7  8  9 10 11]


In [None]:
# arr_1d 배열을 (4,3) shape의 2차원 배열로 변환
arr_2d = arr_1d.reshape((4,3))
print(arr_2d)

[[ 0  1  2]
 [ 3  4  5]
 [ 6  7  8]
 [ 9 10 11]]


In [None]:
# np.reshape() 사용
np.reshape(arr_1d, (4,3))

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11]])

In [None]:
# reshape 할 때, 자동으로 계산될 수 있는 차원 값에는 -1을 사용할 수 있음.
arr_2d = arr_1d.reshape((3,-1)) # row의 개수가 3개로 정해졌기 때문에, column은 자동으로 정해진 값만 사용 가능

print(arr_2d)

arr_2d = arr_1d.reshape((-1,3)) # column의 개수가 3개로 정해졌기 때문에, row은 자동으로 정해진 값만 사용 가능

print(arr_2d)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
[[ 0  1  2]
 [ 3  4  5]
 [ 6  7  8]
 [ 9 10 11]]


In [None]:
arr_2d.reshape(12) # 2차원 배열을 원소 12개짜리로 변경 

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [None]:
arr_2d.reshape(arr_2d.size, ) # 2차원배열 > 1차원 배열로 변경

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [None]:
arr_2d.reshape(-1) # 모양은 상관 없이 1차원 배열로 변경 

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

## `np.ndarray.ravel()` vs `np.ndarray.flatten()` 

* 공통적인 기능 : 1차원으로 변환시킴

* `np.ndarray.ravel()` : : 1차원으로 변환된 배열의 **View**를 return
    * 2차원 배열을 1차원 배열로 바꾸어서 보여줌 (실제는 2차원. 보여주는 것만 1차원. 같은 메모리를 참조하고 있음)
    * 변경된 1차원 배열의 값을 변경하면, 원본의 2차원 배열의 값도 변경. 
* `np.ndarray.flatten()` : : 1차원으로 변환된 배열의 **복사본**을 return
    * 원본 배열과는 별개의 새로운 배열을 생성. (다른 메모리를 참조)
    * 변경된 1차원 배열의 값을 변경하더라도, 원본의 값은 변경되지 않음.

In [None]:
print(arr_2d)

[[ 0  1  2]
 [ 3  4  5]
 [ 6  7  8]
 [ 9 10 11]]


In [None]:
#flatten
flattened = arr_2d.flatten()

print(flattened)

print(arr_2d) # 원본은 2차원 배열 모습 그래도 있음

[ 0  1  2  3  4  5  6  7  8  9 10 11]
[[ 0  1  2]
 [ 3  4  5]
 [ 6  7  8]
 [ 9 10 11]]


In [None]:
flattened[0] = 100

print(flattened) # index 0 번의 값이 100으로 바뀜

print(arr_2d) # 1차원 배열의 원소를 변경해도 2차원 배열의 원본은 그대로 유지됨 

[100   1   2   3   4   5   6   7   8   9  10  11]
[[ 0  1  2]
 [ 3  4  5]
 [ 6  7  8]
 [ 9 10 11]]


In [None]:
raveled = arr_2d.ravel()

print(raveled)

print(arr_2d) # 원본은 2차원 배열 모습 그래도 있음

[ 0  1  2  3  4  5  6  7  8  9 10 11]
[[ 0  1  2]
 [ 3  4  5]
 [ 6  7  8]
 [ 9 10 11]]


In [None]:
raveled[0] = 100

print(raveled) # index 0 번의 값이 100으로 바뀜

print(arr_2d) # 1차원 배열의 원소를 변경하면 2차원 배열의 원본도 같은 값으로 변경됨

[100   1   2   3   4   5   6   7   8   9  10  11]
[[100   1   2]
 [  3   4   5]
 [  6   7   8]
 [  9  10  11]]


## `np.newaixs()` 

* 차원을 늘리기 위해서 사용

In [None]:
arr= np.arange(5) # (5,0) shape의 1차원 배열 
print(arr)
print('dimentsion = ', arr.ndim)
print('shape = ', arr.shape)

[0 1 2 3 4]
dimentsion =  1
shape =  (5,)


In [None]:
# 배열 arr을 (1,5) shape의 2차원 배열로 변환

result1 = arr.reshape(1,-1) # (1,5)와 동일
print(result1)

[[0 1 2 3 4]]


In [None]:
result2 = arr[np.newaxis, :]
print(result2)

[[0 1 2 3 4]]


In [None]:
# 배열 arr을 (5,1) shape의 2차원 배열로 변환

result3 = arr.reshape(-1,1) # (5,-1), (5,1)와 동일
print(result3)

[[0]
 [1]
 [2]
 [3]
 [4]]


In [None]:
result4= arr[: ,np.newaxis]
print(result4)

[[0]
 [1]
 [2]
 [3]
 [4]]


# concatenate (배열 이어붙이기)

* 같은 차원끼리 붙이기 가능.
* `np.concatenate([[배열1], [배열2], [배열3] .....], axis=0` : 특정 축(axis) 방향으로 이어 붙이기.
* `np.r_[[배열1], [배열2] .....]` : row 이어붙이기.
* `np.c_[[배열1], [배열2] .....]` : column 이어붙이기.

In [None]:
a1 = np.arange(6).reshape(2,3) # 이차원 배열

print(a1) 

[[0 1 2]
 [3 4 5]]


In [None]:
a2 = np.array([10,20,30]) # (3,) 1차원 배열.
a2 = np.array([[10,20,30]]) # (1,3) 2차원 배열.

print(a2)

[[10 20 30]]


In [None]:
result = np.concatenate([a1,a2]) # (axis는 default로 0이기 때문에 생략 가능)
# == np.r_[a1,a2]

result

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [10, 20, 30]])

In [None]:
a3 = np.array([[100], [200]]) # (2,1) 2차원 배열

a3

array([[100],
       [200]])

In [None]:
result = np.concatenate([a1,a3], axis =1 )
# == np.c_[a1,a3]

result

array([[  0,   1,   2, 100],
       [  3,   4,   5, 200]])

# Broadcasting 

* `np.ndarray`의 산술연산(`+, - , *, / , ...`)은 기본적으로 같은 위치(인덱스)의 원소들끼리 연산이 수행(element-wise)
* but, 서로 다른 shape를 갖는 배열들끼리의 산술연산이 가능한 경우가 있음.
    * `broadcast`

In [None]:
a1 = np.array([1,2]) # (2,) 모양의 1차원 배열

a2= np.array([4,5,6]) # (3,) 모양의 1차원 배열

# a1 + a2 = could not broadcast erroe (ValueError)

## ndarray와 scalar의 연산

In [None]:
a1+10 # == ([1,2]) + ([10,10]) == [(1 + 10),(2 + 10)]

# 정수 10을 배열의 모양을 만들어 전파함.
# 모양을 맞출 수 있으면, 원소를 전파해서 같은 모양의 배열로 만들어 더함

array([11, 12])

In [None]:
a1 = np.array([[1], [2], [3]])

a1 + 10 # == ([[1], [2], [3]]) + ([[10], [10], [10]]) == ([[1 + 10], [2 + 10], [3+ 10]])

array([[11],
       [12],
       [13]])

## 2차원배열과 1차원 배열 or 2차원배열에서의 broadcast

In [None]:
a1 = np.arange(6).reshape(2,-1) # = (2,3)

a1

array([[0, 1, 2],
       [3, 4, 5]])

In [None]:
a2 = np.arange(10,40,10) # (3,) , (10 부터, 40까지, 10씩)

a2

array([10, 20, 30])

In [None]:
a1 + a2 
# (3,)의 1차원 배열 --> (1,3)의 2차원 배열로 변경 -> (2,3)으로 broadcast
# [10, 20, 30] -> [[10,20,30]] -> [[10,20,30],[10,20,30]]
# [[0,1,2], [3,4,5]] + [[10,20,30], [10,20,30]] 

array([[10, 21, 32],
       [13, 24, 35]])

In [None]:
a3 = np.array([10,20])

# a1 + a3 = a3을 a1의 배열의 모양과 같게 만들 수 없으므로 에러 발생

In [None]:
a3 = np.array([[10],[20]])
# [[10],[20]] => [[10,10,10],[20,20,20]]
# [[0,1,2], [3,4,5]] + [[10,10,10], [20,20,20]] 

a1 + a3

array([[10, 11, 12],
       [23, 24, 25]])

## broadcast 활용

* 표준화(standardization) : 평균이 0이 되고, 표준편차가 1이 되도록 변수들의 스케일을 변환하는 것.
* 정규화(normalization) : 최솟값이 0이 되고, 최댓값이 1이 되도록 변수들의 스케일을 변환하는 것. (mix-max scaling)

## 표준화

In [None]:
 x = np.arange(1,6)
 x

array([1, 2, 3, 4, 5])

In [None]:
mu = np.mean(x) # 1차원 배열의 평균

mu

3.0

In [None]:
sigma = np.std(x) # 1차원 배열의 표준편차

sigma

1.4142135623730951

In [None]:
x_scaled = (x-mu) / sigma

x_scaled

array([-1.41421356, -0.70710678,  0.        ,  0.70710678,  1.41421356])

## 정규화

In [None]:
xmin = np.min(x)
xmax = np.max(x)

print(xmin, xmax)

1 5


In [None]:
x_normalized = (x-xmin) / (xmax-xmin)

print(x_normalized)

[0.   0.25 0.5  0.75 1.  ]


### 2차원 배열의 표준화, 정규화

#### 표준화

In [None]:
x = np.arange(1,7).reshape(3,-1)

x

array([[1, 2],
       [3, 4],
       [5, 6]])

In [None]:
mu = np.mean(x, 0)

print(mu)

[3. 4.]


In [None]:
sigma = np.std(x,0)

print(sigma)

[1.63299316 1.63299316]


In [None]:
x_scaled = (x-mu) / sigma

x_scaled

array([[-1.22474487, -1.22474487],
       [ 0.        ,  0.        ],
       [ 1.22474487,  1.22474487]])

#### 정규화

In [None]:
xmin = np.min(x, 0)
xmax = np.max(x, 0)

print(xmin, xmax)

[1 2] [5 6]


In [None]:
x_normalized = (x-xmin) / (xmax-xmin)

print(x_normalized)

[[0.  0. ]
 [0.5 0.5]
 [1.  1. ]]


### 배열 x를 axis =1 방향으로 표준화, 정규화

#### 표준화


In [338]:
mu = np.mean(x, 1, keepdims=True)

print(mu)

[[1.5]
 [3.5]
 [5.5]]


In [339]:
sigma = np.std(x,1, keepdims=True)

print(sigma)

[[0.5]
 [0.5]
 [0.5]]


In [340]:
x_scaled = (x-mu) / sigma

x_scaled

array([[-1.,  1.],
       [-1.,  1.],
       [-1.,  1.]])

#### 표준화

In [None]:
xmin = np.min([x], axis=1)
xmax = np.max([x], axis=1)

print(xmin, xmax)

[[1 2]] [[5 6]]


In [None]:
x_normalized = (x-xmin) / (xmax-xmin)

print(x_normalized)

[[0.  0. ]
 [0.5 0.5]
 [1.  1. ]]
