# 파이썬 라이브러리 활용
> Numpy

## Numpy 배열
* ndarray, array
* <b><i>numpy.array와 python.array는 다르다</i></b>
    * numpy array는 numpy array끼리 연산이 가능<br>
        > [10, 5, 3, 7, 1, 5] + [10, 5, 3, 7, 1, 5] = [20, 10, 6, 14, 2, 10]
    
    * python은 덧셈만 가능하다<br>
        > [10, 5, 3, 7, 1, 5] + [10, 5, 3, 7, 1, 5] = [10, 5, 3, 7, 1, 5, 10, 5, 3, 7, 1, 5]
    * numpy array는 array 전체에 연산이 가능<br>
        > [10, 5, 3, 7, 1, 5] + 5 = [15, 10, 8, 12, 6, 10]

    * python은 곱셈(요소 반복)만 가능<br>
        > [10, 5, 3, 7, 1, 5] * 2 = [10, 5, 3, 7, 1, 5, 10, 5, 3, 7, 1, 5]

* numpy는 모든 배열의 값이 기본적을 <b>같은 타입</b>
* 각 차원(dimension)을 축(axis)이라고 표현
    * 1차원: axis 0
    * 2차원: axis 1
    * 3차원: axis 2

## 대표 속성값
### ndarray.shape
배열의 각 축axis의 크기

### ndarray.ndim
축의 개수 = dimension

### ndarray.dtype
각 요소element의 타입

### ndarray.itemsize
각 요소element 타입의 bytes 크기

### ndarray.size
전체 요소element의 개수


In [2]:
import numpy as np

In [3]:
# a라는 변수에 (3, 4) 크기의 2D 배열을 생성해보자. 
## arange: 반복
## reshape(3, 4) 3*4 2차원 배열로 변경
a = np.arange(12).reshape(3, 4)
print(a)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]


In [5]:
# ndarray.shape : 배열의 각 축(axis)의 크기
print(a.shape)

(3, 4)


In [6]:
# ndarray.dtype : 각 요소(Element)의 타입
print(a.dtype)

int64


In [7]:
# ndarray.itemsize : 각 요소(Element)의 타입의 bytes 크기
print(a.itemsize)

8


In [8]:
# ndarray.size : 전체 요소(Element)의 개수
print(a.size)

12


## Numpy 배열 생성
### np.zeros(shape)
0으로 구성된 N차원 배열 생성

### np.ones(shape)
1로 구성된 N차원 배열 생성

### np.empty(shape)
초기화되지 않은(무의미한 값이 담긴) N차원 배열 생성

In [11]:
# a 배열 생성 & 타입 확인
a = np.array((2,3,4))
print(a)
print("축의 크기:", a.shape)
print("요소의 타입:", a.dtype)

[2 3 4]
축의 크기: (3,)
요소의 타입: int64


In [None]:
# b 배열 생성 & 타입 확인
b = np.array([1.2, 3.5, 5.1])
print(b)
print("축의 크기:", b.shape)
print("요소의 타입:", b.dtype)

In [18]:
# (3,4) 크기의 배열을 생성하여 0으로 채움
c = np.zeros((3,4))
print(c)
## 타입을 명시 안 하면 float
print(c.dtype)

[[0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]]
float64


In [19]:
# (2,3,4) 크기의 배열을 생성하여 1로 채움
## 타입 명시를 안 하면 float 
np.ones((2,3,4), dtype=np.int64)

array([[[1, 1, 1, 1],
        [1, 1, 1, 1],
        [1, 1, 1, 1]],

       [[1, 1, 1, 1],
        [1, 1, 1, 1],
        [1, 1, 1, 1]]])

In [25]:
# 초기화 되지 않은 (2,3) 크기의 배열을 생성
np.empty((2,3))

[[0. 0. 0.]
 [0. 0. 0.]]


## Numpy arange와 linspace
연속적인 데이터 생성을 위해 사용

* np.arange<br>
    * n만큼 차이 나는 연속적인 숫자 생성

* np.linspace<br>
    * n등분한 연속적인 숫자 생성

* 둘의 차이점
    * np.arange([start], stop, [step])
        * start, step 생략 가능. 끝값을 포함하지 않음
        * 장점: step
    * np.linspace(start, stop, num)
        * 처음과 끝값 포함. 몇 개로 만들지 num으로 조절
        * 장점: 개수를 강조

In [6]:
# 10이상 30미만 까지 5씩 차이나게 생성
print(np.arange(10, 30, 5))

# 0이상 2미만 까지 0.3씩 차이나게 생성
print(np.arange(0, 2, 0.3))

[10 15 20 25]
[0.  0.3 0.6 0.9 1.2 1.5 1.8]


In [7]:
# 0~99까지 100등분
np.linspace(0, 99, 100)

array([ 0.,  1.,  2.,  3.,  4.,  5.,  6.,  7.,  8.,  9., 10., 11., 12.,
       13., 14., 15., 16., 17., 18., 19., 20., 21., 22., 23., 24., 25.,
       26., 27., 28., 29., 30., 31., 32., 33., 34., 35., 36., 37., 38.,
       39., 40., 41., 42., 43., 44., 45., 46., 47., 48., 49., 50., 51.,
       52., 53., 54., 55., 56., 57., 58., 59., 60., 61., 62., 63., 64.,
       65., 66., 67., 68., 69., 70., 71., 72., 73., 74., 75., 76., 77.,
       78., 79., 80., 81., 82., 83., 84., 85., 86., 87., 88., 89., 90.,
       91., 92., 93., 94., 95., 96., 97., 98., 99.])

In [10]:
# 0부터 1.25 미만까지(끝 값 포함 안하니까 1까지 출력) 0.25씩 차이나게 생성 
np.arange(0, 1+0.25, 0.25)

array([0.  , 0.25, 0.5 , 0.75, 1.  ])

In [13]:
# 위와 동일한 결과를 linspace 함수를 이용하여 코딩
# 0부터 1까지(끝 값 포함) 5등분
np.linspace(0, 1, 5)

array([0.  , 0.25, 0.5 , 0.75, 1.  ])

## 배열 출력

In [14]:
# 3차원 배열 출력
# (3, 4)크기의 2차원 배열이 2개 출력되는 형식 
c = np.arange(24).reshape(2,3,4)
print(c)

[[[ 0  1  2  3]
  [ 4  5  6  7]
  [ 8  9 10 11]]

 [[12 13 14 15]
  [16 17 18 19]
  [20 21 22 23]]]


## 기본 연산
### 1. element wise 연산
차원(축)을 기준으로 행렬 내 같은 위치에 있는 원소끼리 연산을 함

### 2. 곱셈
* \* <br>
각각의 원소끼리 곱셈 (elementwise product, hadamard product)

* @ <br>
행렬 곱셈 (matrix product)

In [15]:
# a와 b 배열 생성하여 출력
a = np.array([20,30,40,50])
b = np.arange(4)
print(a)
print(b)

[20 30 40 50]
[0 1 2 3]


In [24]:
# a에서 b에 각각의 원소를 - 연산
a - b

array([20, 29, 38, 47])

In [29]:
# b 각각의 원소에 제곱 연산
# pow(b, 2)
b ** 2

array([0, 1, 4, 9])

In [26]:
# a 각각의 원소에 *10 연산
a * 10

array([200, 300, 400, 500])

In [27]:
# a 각각의 원소가 35보다 작은지 Boolean 결과
a < 35

array([ True,  True, False, False])

In [21]:
# A와 B 배열 생성하여 출력
A = np.array( [[1,1],
               [0,1]] )
B = np.array( [[2,0],
               [3,4]] )
print(A)
print(B)

[[1 1]
 [0 1]]
[[2 0]
 [3 4]]


In [22]:
# 각각의 원소끼리 곱셈
A * B 

array([[2, 0],
       [0, 4]])

In [23]:
# 행렬 곱셈 사용
A @ B

array([[5, 4],
       [3, 4]])

### 3. 형변환
연산을 진행할 때 각각의 dtype이 다르면 타입이 큰 쪽(int < float < complex)으로 자동 형변환

In [33]:
# a와 b 배열 생성 & 타입 확인
a = np.ones(3, dtype=np.int32)
b = np.linspace(0, np.pi, 3)

print(a)
print(b)
print(a.dtype)
print(b.dtype)

[1 1 1]
[0.         1.57079633 3.14159265]
int32
float64


In [31]:
# int와 float 연산 -> float으로 upcasting
c = a + b
print(c)
print(c.dtype)

[1.         2.57079633 4.14159265]
float64


In [34]:
# 복소수와 연산 -> complex(복소수)로 upcasting
# np.exp(): 지수 함수 
d = np.exp(c*1j)
print(d)
print(d.dtype)

[ 0.54030231+0.84147098j -0.84147098+0.54030231j -0.54030231-0.84147098j]
complex128


### 4. 집계함수

- .sum( ) : 모든 요소의 합
- .min( ) : 모든 요소 중 최소값
- .max( ) : 모든 요소 중 최대값
- .argmax( ) : 모든 요소 중 최대값의 인덱스
- .cumsum( ) : 모든 요소의 누적합


매개변수로 axis를 입력하면 축을 기준으로 연산할 수 있음

In [35]:
# 0부터 8미만까지 출력하고 (2,4) 크기로 재가공하고 제곱하여 출력 
a = np.arange(8).reshape(2, 4)**2
print(a)

[[ 0  1  4  9]
 [16 25 36 49]]


In [44]:
# 모든 요소의 합
print(a.sum())

# 모든 요소 중 최소값
print(a.min())

# 모든 요소 중 최대값
print(a.max())

# 모든 요소 중 최대값의 인덱스
## 49의 idx
print(a.argmax())

# 모든 요소의 누적합 
# 0, 0 + 1, 0 + 1 + 4, ..., 0 + 1 + 4 + 9 + 16 + 25 + 36 + 49
print(a.cumsum())

140
0
49
7
[  0   1   5  14  30  55  91 140]


In [45]:
b = np.arange(12).reshape(3, 4)
print(b)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]


In [46]:
# axis = 0은 열 기준으로 연산
b.sum(axis=0)

array([12, 15, 18, 21])

In [47]:
# axis = 1은 행 기준으로 연산
b.sum(axis=1)

array([ 6, 22, 38])

### [범용 함수](https://numpy.org/doc/1.18/reference/ufuncs.html#available-ufuncs)

## 인덱싱과 슬라이싱


In [56]:
a = np.arange(10)**2
print(a)

[ 0  1  4  9 16 25 36 49 64 81]


In [49]:
# a 배열의 2번째 인덱스 출력
a[2]

1

In [52]:
# a 배열의 2~4번 인덱스 출력
a[2:5]

array([ 4,  9, 16])

In [54]:
# reverse : 배열의 요소 거꾸로 출력
a[: :-1]

array([81, 64, 49, 36, 25, 16,  9,  4,  1,  0])

In [59]:
# 0~5번에서 2 step씩
print(a[0:6:2])
print(a[:6:2])

print(a)

# 인덱스 0, 2, 4 해당하는 값에 1000 삽입
a[:6:2] = 1000
print(a)

[ 0  4 16]
[ 0  4 16]
[ 0  1  4  9 16 25 36 49 64 81]
[1000    1 1000    9 1000   25   36   49   64   81]


In [60]:
a = np.arange(8)**2
print(a)

[ 0  1  4  9 16 25 36 49]


In [63]:
# i 1차원 배열 생성
i = np.array([1, 1, 3, 5])
# a 배열의 index로 i를 삽입하여 출력
print(a[i])

[ 1  1  9 25]


In [65]:
# j 2차원 배열 생성 
j = np.array([[3,4], [2,5]])
# a 배열의 index로 j를 삽입하여 출력
print(a[j])

[[ 9 16]
 [ 4 25]]


### boolean 인덱싱


In [73]:
a = np.arange(12).reshape(3,4)
print(a)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]


In [74]:
# b는 a > 4 조건이 적용된 Boolean 값이 든 배열
b = a > 4
b

array([[False, False, False, False],
       [False,  True,  True,  True],
       [ True,  True,  True,  True]])

In [75]:
# Boolean 값이 든 b 배열을 a 배열의 index로 삽입
# True인 값들만 출력
print(a[b])
print(a.shape)

[ 5  6  7  8  9 10 11]
(3, 4)


In [76]:
# a[b]에 해당하는 애들만 0 삽입하여 a 출력
a[b] = 0
a

array([[0, 1, 2, 3],
       [4, 0, 0, 0],
       [0, 0, 0, 0]])

## 배열 크기 변경
- .ravel() : 1차원으로 변경
- .reshape(shape) : 지정한 차원으로 변경
- .T : 전치(Transpose) 변환 -> 행과 열을 바꿔줌!


.ravel() == .reshape(-1)

In [84]:
a = np.arange(12).reshape(3,4)
print(a)
print(a.shape)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
(3, 4)


In [82]:
# .ravel(shape): 모든 원소를 1차원으로 변경
print(a.ravel())

## == .reshape(-1)
print(a.reshape(-1))


[ 0  1  2  3  4  5  6  7  8  9 10 11]
[ 0  1  2  3  4  5  6  7  8  9 10 11]


In [83]:
# .reshape(shape) : 지정한 차원으로 변경
# [3,4] => [2,6]로 변경
a.reshape([2,6])

array([[ 0,  1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11]])

In [86]:
# .T() : [3,4] -->[4,3] - 행과 열을 바꿈
a.T

array([[ 0,  4,  8],
       [ 1,  5,  9],
       [ 2,  6, 10],
       [ 3,  7, 11]])

In [89]:
# 만약 전치 형태로 a 배열에 저장하고 싶다면! 
print("전치 전:\n", a)
a = a.T
print("전치 후:\n", a)

전치 전:
 [[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
전치 후:
 [[ 0  4  8]
 [ 1  5  9]
 [ 2  6 10]
 [ 3  7 11]]


## 데이터 합치기
### np.vstack((arr1, arr2))
axis=0(열) 기준으로 합치기


### np.hstack((arr1, arr2))
axis=1(행) 기준으로 합치기

In [91]:
arr1 = np.array([1, 2, 3, 4]).reshape(2, 2)
arr2 = np.array([5, 6, 7, 8]).reshape(2, 2)

print(arr1)
print(arr2)

[[1 2]
 [3 4]]
[[5 6]
 [7 8]]


In [93]:
# [2,2] => [4,2]
# np.vstack((arr1, arr2)): axis=0(열) 기준으로 쌓음
np.vstack((arr1, arr2))

array([[1, 2],
       [3, 4],
       [5, 6],
       [7, 8]])

In [94]:
# [2,2] => [2,4]
# np.hstack((arr1, arr2)): axis=1(행) 기준으로 쌓음
np.hstack((arr1, arr2))

array([[1, 2, 5, 6],
       [3, 4, 7, 8]])

## 데이터 쪼개기
### np.hsplit(arr, n)
배열을 n등분

### np.hsplit(arr, [x, y])
두 번째 매개변수로 숫자 리스트가 들어가면<br>
axis=1(행) 기준 인덱스로 데이터 분할<br>
--> x 번째 열 이상 ~ y 번째 열 미만을 기준으로 분할

In [95]:
a = np.arange(12).reshape(2, 6)
print(a)

[[ 0  1  2  3  4  5]
 [ 6  7  8  9 10 11]]


In [97]:
# [2,6] => [2,2] 데이터 3개로 등분
np.hsplit(a, 3)

[array([[0, 1],
        [6, 7]]),
 array([[2, 3],
        [8, 9]]),
 array([[ 4,  5],
        [10, 11]])]

In [100]:
# [2,6] => [:, :3], [:, 3:4], [:, 4:]로 분할
# a를 3번째 열 ~ 4번째 열 미만 기준으로 분할하여 3개의 array를 반환
print(a)
b = np.hsplit(a, [3, 4])
print(b)

[[ 0  1  2  3  4  5]
 [ 6  7  8  9 10 11]]
[array([[0, 1, 2],
       [6, 7, 8]]), array([[3],
       [9]]), array([[ 4,  5],
       [10, 11]])]
