# 2-2. numpy 심화

In [1]:
import numpy as np

#### numpy 배열의 연산은 아주 빠르거나 느리게 수행될 수 있음.
#### 연산을 빠르게 수행시키는 방법 중 하나는 벡터화(vectorized) 연산을 사용한 것
#### 이러한 목적으로 제공하는 것이 유니버셜 함수(universal function)

### 단항 유니버셜 함수
#### 배열 산술 연산 = 파이썬의 기본 산술 연산자를 그대로 사용하는 것(흔히 사용되는 연산) - 덧셈, 뺄셈, 곱셈, 나눗셈 모두 사용 가능

In [4]:
#배열 산술 연산

x = np.arange(4)
print("x = ", x)
print("x + 10 =", x + 10)
print("x - 10 =", x - 10)
print("x * 10 =", x * 10)
print("x / 10 =", x / 10)
print("x // 10 =", x // 10)

x =  [0 1 2 3]
x + 10 = [10 11 12 13]
x - 10 = [-10  -9  -8  -7]
x * 10 = [ 0 10 20 30]
x / 10 = [0.  0.1 0.2 0.3]
x // 10 = [0 0 0 0]


In [5]:
# 음수, 지수, 나머지 연산

x = np.arange(4)
print("x = ", x)
print("-x = ", -x)
print("x ** 2 = ", x ** 2)
print("x % 2 =", x % 2)

x =  [0 1 2 3]
-x =  [ 0 -1 -2 -3]
x ** 2 =  [0 1 4 9]
x % 2 = [0 1 0 1]


#### 래퍼함수 = 기존 함수를 한 번 감싸서 원래 동작에 약간의 처리를 추가하는 함수

In [6]:
# 절대값 함수
x = np.array([-2, -1, 0, 1, 2])
np.absolute(x)

array([2, 1, 0, 1, 2])

In [7]:
x = np.array([-2, -1, 0, 1, 2])
np.abs(x)

array([2, 1, 0, 1, 2])

In [8]:
# 복소수 데이터에도 적용 가능 -> 절대값으로 복소수의 크기 반환
x = np.array([3 - 4j, 4 - 3j, 2 + 0j, 0 + 1j])
np.absolute(x)

array([5., 5., 2., 1.])

In [9]:
# 삼각함수
theta = np.linspace(0, np.pi, 3)
print("theta = ", theta)
print("sin(theta) = ", np.sin(theta))
print("cos(theta) = ", np.cos(theta))
print("tan(theta) = ", np.tan(theta))

theta =  [0.         1.57079633 3.14159265]
sin(theta) =  [0.0000000e+00 1.0000000e+00 1.2246468e-16]
cos(theta) =  [ 1.000000e+00  6.123234e-17 -1.000000e+00]
tan(theta) =  [ 0.00000000e+00  1.63312394e+16 -1.22464680e-16]


In [10]:
# 역삼각 함수
x = [-1, 0, 1]
print("x = ", x)
print("arcsin(x) = ", np.arcsin(x))
print("arccos(x) = ", np.arccos(x))
print("arctan(x) = ", np.arctan(x))

x =  [-1, 0, 1]
arcsin(x) =  [-1.57079633  0.          1.57079633]
arccos(x) =  [3.14159265 1.57079633 0.        ]
arctan(x) =  [-0.78539816  0.          0.78539816]


In [12]:
# 지수함수 = a를 1이 아닌 양의 상수, x를 모든 실숫값을 가지는 변수라고 할 때, f(X) = a^x로 주어지는 함수
x = [1, 2, 3]
print("x = ", x)
print("e^x = " , np.exp(x))
print("2^x = " , np.exp2(x))
print("3^x = " , np.power(3, x))

x =  [1, 2, 3]
e^x =  [ 2.71828183  7.3890561  20.08553692]
2^x =  [2. 4. 8.]
3^x =  [ 3  9 27]


In [13]:
# 로그 함수 = 지수 함수 a의 역함수로 log x로 표기
x = [1, 2, 4, 10]
print("x = ", x)
print("ln(x) = " , np.log(x))
print("log2(x) = " , np.log2(x))
print("log10(x) = " , np.log10(x))

x =  [1, 2, 4, 10]
ln(x) =  [0.         0.69314718 1.38629436 2.30258509]
log2(x) =  [0.         1.         2.         3.32192809]
log10(x) =  [0.         0.30103    0.60205999 1.        ]


###  유니버설 함수

In [15]:
# out 인자 = 지정한 배열에 직접 연산 결과 표기 가능
x = np.arange(5)
y = np.empty(5)
np.multiply(x, 10, out = y)
print(y)

[ 0. 10. 20. 30. 40.]


In [16]:
# out 인자 - 배열 슬라이싱 사용
x = np.arange(5)
y = np.zeros(10)
np.multiply(2, x, out = y[::2])
print(y)

[0. 0. 2. 0. 4. 0. 6. 0. 8. 0.]


In [17]:
# 소규모 연산 - 특정 주제에 대한 모델이 많음
# 대규모 연산 - 메모리 절약 가능, 시간 절약 가능

In [18]:
### reduce 함수 - 결과 하나만 남을 때까지 해당 연산을 배열요소에 반복하여 적용
x = np.arange(1, 5)
np.add.reduce(x)

10

In [19]:
### sum 함수 - 배열 내의 모든 값들의 합계를 구하는 것
s = np.random.random(1000)
np.sum(s)

508.4354389817764

In [20]:
# min, max 함수
s = np.random.random(1000)
np.min(s), np.max(s)

(0.0016056475739099074, 0.9996723809935196)

#### axis 인자 값 = 0 - 열을 기준으로 집계 연산
#### axis 인자 값 = 1 - 행을 기준으로 집계 연산
#### axis 인자 값 = 지정x- 배열 내 모든 요소를 대상으로 집계 연산

In [21]:
# 집게 함수 = 이름을 살펴보면 의미를 알 수 있음

### 브로딩캐스팅 연산
* 서로 다른 크기의 배열에 이항 유니버설 함수를 적용할 수 있는 기능을 제공함.
* 서로 다른 크기의 리스트끼리도 연산 수행이 가능

##### 기능 : 배열을 더 높은 차원으로 확장 가능
##### 기능 : 2개 배열의 차원이 서로 설사 다르더라도 배열을 확장해주는 기능

In [22]:
# 크기가 같은 경우
x = np.array([0, 1, 2])
y = np.array([3, 3, 3])
x + y

array([3, 4, 5])

In [23]:
# 스칼라 값을 더해야 할 때
x = np.array([0, 1, 2])
x + 10

array([10, 11, 12])

### 배열 확장의 3가지 규칙
#### 1. 두 배열의 차원의 수가 서로 다를 경우, 더 작은 차원을 가진 배열의 앞(왼쪽)을 1로 채워줌
#### 2. 두 배열의 형상이 어떤 차원에서도 일치하지 않으면, 해당 차원의 형상이 1인 배열이 늘어남.
#### 3.  임의의 차원에서 크기가 일치하지 않고 1도 아니라면, 오류가 발생함.

In [25]:
# 1차원 배열 + 2차원 배열
x = np.array([0, 1, 2])
M = np.ones((3, 3))
x + M

array([[1., 2., 3.],
       [1., 2., 3.],
       [1., 2., 3.]])

In [26]:
# 두 배열 브로드캐스팅
a = np.arange(3).reshape((3, 1))
b= np.arange(3)
a + b
# 두 배열을 모두 3*3 행렬로 일치시킨 상태에서 덧셈 연산 수행.

array([[0, 1, 2],
       [1, 2, 3],
       [2, 3, 4]])

In [27]:
# 행렬 데이터의 조건에 따른 결과 산출
# any함수 - 하나라도 만족하면 true 산출
x = np.arange(10)
np.all(x>5), np.all(x<10)

(False, True)

In [28]:
# 무작위 값을 갖는 2차원 배열 생성
a = np.random.randint(10, size = (3, 4))
a

array([[6, 5, 7, 8],
       [0, 1, 0, 3],
       [0, 1, 9, 4]])

In [29]:
# 비교 연산 적용
a<5

array([[False, False, False, False],
       [ True,  True,  True,  True],
       [ True,  True, False,  True]])

### 팬시 인덱싱
* 인덱스 배열을 전달하고, 인덱스 배열의 값을 인덱스로 사용
* 복잡한 배열의 하위 집합에 매우 빠르게 접근
* 인덱스 배열의 값을 인덱스로 사용하여 배열의 요솟값에 접근하는 방법

In [30]:
a = np.arange(10)
b = np.array([3, 6, 9])
a[b]

array([3, 6, 9])

In [31]:
# 다차원에서도 가능
x = np.arange(12).reshape((3, 4))
x

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [32]:
row = np.array([0, 1, 2])
col = np.array([2, 1, 3])
x[row, col]

array([ 2,  5, 11])

### 정렬

In [33]:
# sort 함수 = 원래 배열 데이터는 그대로 유지한 채 정렬된 배열이 복사본으로 반환
x = np.array([4, 1, 5, 2, 3])
print(x, np.sort(x))

[4 1 5 2 3] [1 2 3 4 5]


In [34]:
# x.sort 함수 = 원래 배열 자체를 정렬
x = np.array([4, 1, 5, 2, 3])
x.sort()
print(x)

[1 2 3 4 5]


In [35]:
# np.argsort 함수 = 정렬된 요소의 인덱스를 반환
x = np.array([4, 1, 5, 2, 3])
i = np.argsort(x)
print(i)

[1 3 4 0 2]


In [36]:
# x_reverse = 내림차순 정렬
x = np.array([4, 1, 5, 2, 3])
x_reverse = np.sort(x)[::-1]
print(x_reverse)

[5 4 3 2 1]


In [37]:
# axis 인자로 정렬
# axis = 0이면 열을 기준으로 정렬
x = np.array([[2, 0, 6], [7, 3, 4], [1, 5, 3]])
np.sort(x, axis = 0)

array([[1, 0, 3],
       [2, 3, 4],
       [7, 5, 6]])

In [38]:
# axis = 1이면 행을 기준으로 정렬
x = np.array([[2, 0, 6], [7, 3, 4], [1, 5, 3]])
np.sort(x, axis = 1)

array([[0, 2, 6],
       [3, 4, 7],
       [1, 3, 5]])