# Numpy

## Numpy 특징
- Numerical Python의 약자
- 고성능 과학 계산용 Package로 강력한 N차원 배열 객체
- 범용적 데이터 처리에 사용 가능한 다차원 컨테이너
- 정교한 브로드캐스팅 기능
- 파이썬의 자료형 list와 비슷하지만, 더 빠르고 메모리를 효율적으로 관리
- 반복문 없이 데이터 배열에 대한 처리를 지원하여 빠르고 편리
- 데이터 과학 도구에 대한 생태계 핵심을 이루고 있음

In [1]:
import numpy as np

## 배열 생성

### List로 배열 만들기
1차원, 2차원, 3차원 배열 생성

In [2]:
a1 = np.array([1, 2, 3])
print(a1)
print(type(a1))
print(a1.shape)
print(a1[0], a1[2])
a1[2] = 4
a1

[1 2 3]
<class 'numpy.ndarray'>
(3,)
1 3


array([1, 2, 4])

In [3]:
a2 = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
print(a2)
print(type(a2))
print(a2.shape)
print(a2[2][1])
a2[0][1] = 10
a2

[[1 2 3]
 [4 5 6]
 [7 8 9]]
<class 'numpy.ndarray'>
(3, 3)
8


array([[ 1, 10,  3],
       [ 4,  5,  6],
       [ 7,  8,  9]])

In [4]:
a3 = np.array([[[1, 2, 3], [4, 5, 6], [7, 8, 9]], [[10, 11, 12], [13, 14, 15], [16, 17, 18]], [[19, 20, 21], [22, 23, 24], [25, 26, 27]]])
print(a3)
print(type(a3))
print(a3.shape)
print(a3[0][1][2])

[[[ 1  2  3]
  [ 4  5  6]
  [ 7  8  9]]

 [[10 11 12]
  [13 14 15]
  [16 17 18]]

 [[19 20 21]
  [22 23 24]
  [25 26 27]]]
<class 'numpy.ndarray'>
(3, 3, 3)
6


### 배열 생성 및 초기화

In [5]:
# zeros() : 모든 요소를 0으로 초기화
np.zeros(10)

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [6]:
np.zeros((3, 4))

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [7]:
# ones() : 모든 요소를 1로 초기화
np.ones((3, 3))

array([[1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.]])

In [8]:
# full() : 모든 요소를 지정한 값으로 초기화
np.full((3, 4), 2.4)

array([[2.4, 2.4, 2.4, 2.4],
       [2.4, 2.4, 2.4, 2.4],
       [2.4, 2.4, 2.4, 2.4]])

In [9]:
# eye() : 단위행렬(identity matrix) 생성
#     주 대각선의 원소가 모두 1이고 나머지 원소는 모두 0인 정사각 행렬이다.
np.eye(4)

array([[1., 0., 0., 0.],
       [0., 1., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 0., 1.]])

In [10]:
# tri() : 삼각행렬 생성
np.tri(3)

array([[1., 0., 0.],
       [1., 1., 0.],
       [1., 1., 1.]])

In [11]:
# empty() : 초기화되지 않은 배열 생성
#     초기화가 없어서 배열 생성비용 저렴하고 빠름
#     초기화되지 않아서 기존 메모리 위치에 존재하는 값이 있음
np.empty(10) # 어떤 값이 array에 들어갈지 모르는 생성방법임

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [12]:
# _like() : 지정된 배열과 shape가 같은 행렬 생성
#     np.zeros_like()
#     np.ones_like()
#     np.full_like()
#     np.eye_like()

print(a1)
np.zeros_like(a1)

[1 2 4]


array([0, 0, 0])

In [13]:
print(a2)
np.ones_like(a2)

[[ 1 10  3]
 [ 4  5  6]
 [ 7  8  9]]


array([[1, 1, 1],
       [1, 1, 1],
       [1, 1, 1]])

In [14]:
print(a3)
np.full_like(a3, 14)

[[[ 1  2  3]
  [ 4  5  6]
  [ 7  8  9]]

 [[10 11 12]
  [13 14 15]
  [16 17 18]]

 [[19 20 21]
  [22 23 24]
  [25 26 27]]]


array([[[14, 14, 14],
        [14, 14, 14],
        [14, 14, 14]],

       [[14, 14, 14],
        [14, 14, 14],
        [14, 14, 14]],

       [[14, 14, 14],
        [14, 14, 14],
        [14, 14, 14]]])

### 생성한 값으로 배열 생성

In [15]:
# arange() : 정수 범위로 배열 생성
np.arange(0, 30, 2)

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28])

In [16]:
# linspace() : 범위 내에서 균등 간격의 배열 생성
np.linspace(0, 1, 5)

array([0.  , 0.25, 0.5 , 0.75, 1.  ])

In [17]:
# logspace() : 범위 내에서 균등 간격으로 log sacale로 배열 생성
np.logspace(0.1, 1, 5)

array([ 1.25892541,  2.11348904,  3.54813389,  5.95662144, 10.        ])

### 랜덤값으로 배열 생성
|함수|설명|
|-----|-----|
|seed|난수 발생을 위한 seed 생성|
|permutation|순서를 임의로 바꾸거나 임의의 순열 반환|
|shuffle|list나 배열의 순서를 뒤섞음|
|random|랜덤한 수의 배열 생성|
|rand|균등분포에서 표본 추출|
|randint|주어진 최소/최대 범위의 난수 추출|
|randn|표준편차가 1, 평균값 0인 정규분포의 표본 추출|
|binomial|이항분포에서 표본 추출|
|normal|정규분포(gaussian)에서 표본 추출|
|beta|beta분포에서 표본 추출|
|chisquare|chi-제곱 분포에서 표본 추출|
|gamma|감마분포에서 표본 추출|
|uniform|균등분포에서 표본 추출|

In [18]:
# random.random() : 랜덤한 수의 배열 생성
np.random.random((3, 3))

array([[0.90832149, 0.30838752, 0.97631481],
       [0.74495791, 0.0892042 , 0.41920692],
       [0.90135063, 0.61736174, 0.62179294]])

In [19]:
# random.randint() : 일정 구간에서 랜덤 정수의 배열 새엇ㅇ
np.random.randint(0, 20, (3, 5))

array([[ 7,  4, 13,  8,  7],
       [13,  5,  3, 12,  0],
       [ 9, 11, 11,  1, 13]])

In [21]:
# random.normal() : 정규분포를 고려한 랜덤한 수의 배열 생성
# 평균, 표준편차, 사이즈에 대한 내용을 입력해 주어야 한다.
np.random.normal(0, 1, (3, 3))

array([[ 1.01089434,  0.60373191, -1.16458055],
       [-1.39340652,  0.23904925,  0.24281057],
       [-0.71137986,  0.13514465, -0.73414698]])

In [24]:
# random.rand() : 균등분포(uniform distribution)를 고려한 랜덤한 수의 배열 생성
np.random.rand(3, 3)

array([[0.83807218, 0.36133925, 0.92219358],
       [0.60112287, 0.11768045, 0.07969298],
       [0.46646868, 0.08425604, 0.5903485 ]])

In [26]:
# random.randn() : 정규분포(gaussian distribution)를 고려한 랜덤한 수의 새엇ㅇ
np.random.randn(3,3)

array([[-1.8115609 ,  2.26256277, -1.43158127],
       [ 1.94649397,  0.03366177,  0.36429101],
       [ 0.28698947, -0.35786095, -1.4150988 ]])

### 표준 데이터 타입
|데이터 타입(dtype)|설명|
|-----|-----|
|bool_|byte로 저장된 boolean으로 true, false 값을 지닌다.|
|int_|기본 정수(integer) type|
|intc|C언어에서 사용되는 int와 동일(일반적으로 int32, int64)|
|intp|indexing에서 사용되는 정수(C언어에서 ssize_t와 동일; 일반적으로 int32 또는 int64)|
|int8|byte(-128 ~ 127)|
|int16|정수 (-32768 ~ 32767)|
|int32|정수 (-2147483648 ~ 2147483647)|
|int64|정수 (-9223372036854775808 ~ 9223372036854775807)|
|uint8|부호없는 정수(0 ~ 2^8)|
|uint16|부호없는 정수(0 ~ 2^16)|
|uint32|부호없는 정수(0 ~ 2^32)|
|uint64|부호없는 정수(0 ~ 2^64)|
|float16|반정밀 부동 소수점(Half Precision float) : 부호 비트, 5비트 지수, 10비트 가수|
|float32|단정밀 부동 소수점(Half Precision float) : 부호 비트, 8비트 지수, 23비트 가수|
|float64|배정밀 부동 소수점(Half Precision float) : 부호 비트, 11비트 지수, 52비트 가수|
|float_|float64를 줄여서 표현|
|complex64|복소수(Complex number), 두개의 32비트 부동 소수점으로 표현|
|complex128|복소수, 두개의 64비트 부동 소수점으로 표현|
|complex_|complex128을 줄여서 표현|

In [27]:
np.zeros(20, dtype = int)

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

In [28]:
np.ones((3, 3), dtype = bool)

array([[ True,  True,  True],
       [ True,  True,  True],
       [ True,  True,  True]])

In [31]:
print(np.full((3, 3), 1.0, dtype = int))
print(np.full((3, 3), 1, dtype = float))

[[1 1 1]
 [1 1 1]
 [1 1 1]]
[[1. 1. 1.]
 [1. 1. 1.]
 [1. 1. 1.]]


### 날짜/시간 배열 생성

In [32]:
date = np.array('2020-01-01', dtype = np.datetime64)
date

array('2020-01-01', dtype='datetime64[D]')

In [34]:
date + np.arange(12)

array(['2020-01-01', '2020-01-02', '2020-01-03', '2020-01-04',
       '2020-01-05', '2020-01-06', '2020-01-07', '2020-01-08',
       '2020-01-09', '2020-01-10', '2020-01-11', '2020-01-12'],
      dtype='datetime64[D]')

In [36]:
datetime = np.datetime64('2020-01-01 12:00')
datetime

numpy.datetime64('2020-01-01T12:00')

In [38]:
datetime = np.datetime64('2020-06-01 12:00:12.34', 'ns')
datetime

numpy.datetime64('2020-06-01T12:00:12.340000000')

In [39]:
datetime = np.datetime64('2020-06-01 12:00:12.34', 'ms')
datetime

numpy.datetime64('2020-06-01T12:00:12.340')

## 배열 조회

### 배열 속성 정보

In [52]:
def array_info(in_array):
    print(in_array)
    print(type(in_array))
    print("shape : ", in_array.shape)
    print("ndim : ", in_array.ndim)
    print("itemsize : ", in_array.itemsize)
    print("nbytes : ", in_array.nbytes)
    print("strides : ", in_array.strides)

In [53]:
array_info(a1)

[1 2 4]
<class 'numpy.ndarray'>
shape :  (3,)
ndim :  1
itemsize :  4
nbytes :  12
strides :  (4,)


In [54]:
array_info(a2)

[[ 1 10  3]
 [ 4  5  6]
 [ 7  8  9]]
<class 'numpy.ndarray'>
shape :  (3, 3)
ndim :  2
itemsize :  4
nbytes :  36
strides :  (12, 4)


In [55]:
array_info(a3)

[[[ 1  2  3]
  [ 4  5  6]
  [ 7  8  9]]

 [[10 11 12]
  [13 14 15]
  [16 17 18]]

 [[19 20 21]
  [22 23 24]
  [25 26 27]]]
<class 'numpy.ndarray'>
shape :  (3, 3, 3)
ndim :  3
itemsize :  4
nbytes :  108
strides :  (36, 12, 4)


### Indexing

In [58]:
print(a1)
print(a1[0])
print(a1[-2])

[1 2 4]
1
2


In [59]:
print(a2)
print(a2[0][1])
print(a2[-2][2])

[[ 1 10  3]
 [ 4  5  6]
 [ 7  8  9]]
10
6


In [61]:
print(a3)
print(a3[0][1][2])
print(a3[-2][-1][1])

[[[ 1  2  3]
  [ 4  5  6]
  [ 7  8  9]]

 [[10 11 12]
  [13 14 15]
  [16 17 18]]

 [[19 20 21]
  [22 23 24]
  [25 26 27]]]
6
17


### Slicing
- Slicing 구문 : a[start:stop:step]
- 기본값 : start = =, stop = ndim, step = 1

In [62]:
a1[0:2]

array([1, 2])

In [63]:
a1[0:]

array([1, 2, 4])

In [64]:
a1[::2]

array([1, 4])

In [65]:
a1[::-1]

array([4, 2, 1])

In [68]:
print(a2)
print(a2[1, :])
print(a2[1, :2])
print(a2[::-1, ::-1])
print("Transpose Matrix of a2 is as below.")
print(a2.T)

[[ 1 10  3]
 [ 4  5  6]
 [ 7  8  9]]
[4 5 6]
[4 5]
[[ 9  8  7]
 [ 6  5  4]
 [ 3 10  1]]
Transpose Matrix of a2 is as below.
[[ 1  4  7]
 [10  5  8]
 [ 3  6  9]]


### Boolean Indexing
- 배열 각 요소의 선택 여부를 Boolean(True, False)로 지정
- True 값인 index의 값만 조회

In [71]:
print(a1)
bi = [False, True, True]
print(a1[bi])
bi = [True, False, True]
print(a1[bi])

[1 2 4]
[2 4]
[1 4]


In [76]:
bi1 = np.random.randint(0, 2, (3,3), dtype = bool)
print(a2)
print(a2[bi1])

[[ 1 10  3]
 [ 4  5  6]
 [ 7  8  9]]
[1 5 8 9]


### Fancy Indexing

In [77]:
print(a1)
print([a1[0], a1[2]])
indx = [0, 2]
a1[indx]

[1 2 4]
[1, 4]


array([1, 4])

In [80]:
idx = np.array([[0, 1], [1, 1]])
a1[idx]

array([[1, 2],
       [2, 2]])

## 배열 값 삽입/수정/삭제/복사

### 배열 값 삽입
- insert() : 배열의 특정 위치에 값 삽입
- axis를 지정하지 않으면 1차원 배열로 반환
- 추가할 방향을 axis로 지정
- 원본 배열 변경없이 새로운 배열 반환

In [83]:
print(a1)
b1 = np.insert(a1, 0, 10)
print("B1", b1)
print("original", a1)

c1 = np.insert(a1, 1, 10)
print("C1", c1)

[1 2 4]
B1 [10  1  2  4]
original [1 2 4]
C1 [ 1 10  2  4]


In [84]:
print(a2)
b2 = np.insert(a2, 1, 10)
c2 = np.insert(a2, 1, 10, axis = 0)
d2 = np.insert(a2, 1, 10, axis = 1)
print(b2)
print(c2)
print(d2)

[[ 1 10  3]
 [ 4  5  6]
 [ 7  8  9]]
[ 1 10 10  3  4  5  6  7  8  9]
[[ 1 10  3]
 [10 10 10]
 [ 4  5  6]
 [ 7  8  9]]
[[ 1 10 10  3]
 [ 4 10  5  6]
 [ 7 10  8  9]]


### 배열 값 수정
- 배열의 인덱싱으로 접근하여 값 수정

In [85]:
print(a1)
a1[0] = 111
print(a1)

[1 2 4]
[111   2   4]


In [86]:
print(a1)
a1[:2] = 22
print(a1)

[111   2   4]
[22 22  4]


### 배열 값 삭제
- delete() : 배열의 특정 위치의 값 삭제
- axis 를 지정하지 않으면 1차원 배열로 반환
- 삭제할 방향을 axis로 지정
- 원본 배열 변경없이 새로운 배열 반환

In [88]:
np.delete(a1, 2)

array([22, 22])

In [90]:
print(a2)
b2 = np.delete(a2, 2)
c2 = np.delete(a2, 2, axis = 0)
d2 = np.delete(a2, 2, axis = 1)
print(b2)
print(c2)
print(d2)

[[ 1 10  3]
 [ 4  5  6]
 [ 7  8  9]]
[ 1 10  4  5  6  7  8  9]
[[ 1 10  3]
 [ 4  5  6]]
[[ 1 10]
 [ 4  5]
 [ 7  8]]


### 배열 복사
- list 자료형과 달리 배열 슬라이스는 복사본이 아니다
- copy() : 배열이나 하위 배열 내의 값을 명시적으로 복사

In [92]:
# 배열 slicing으로 기존 배열의 일부를 받아왔는데, a2_sub의 배열 값을 변경했는데, a2까지 바뀌어 있음
print(a2)
print(a2[:2, :2])
a2_sub = a2[:2, :2]
print(a2_sub)
a2_sub[:, 1] = 0
print(a2_sub)
print(a2)

[[ 1 10  3]
 [ 4  5  6]
 [ 7  8  9]]
[[ 1 10]
 [ 4  5]]
[[ 1 10]
 [ 4  5]]
[[1 0]
 [4 0]]
[[1 0 3]
 [4 0 6]
 [7 8 9]]


In [93]:
print(a2)
a2_sub = a2[:2, :2].copy()
print(a2_sub)
a2_sub[:, 1] = 2
print(a2_sub)
print(a2)

[[1 0 3]
 [4 0 6]
 [7 8 9]]
[[1 0]
 [4 0]]
[[1 2]
 [4 2]]
[[1 0 3]
 [4 0 6]
 [7 8 9]]


## 배열 변환

### 배열 전치 및 축 변경

In [94]:
print(a2)
print(a2.T)

[[1 0 3]
 [4 0 6]
 [7 8 9]]
[[1 4 7]
 [0 0 8]
 [3 6 9]]


In [95]:
print(a3)
print(a3.T)

[[[ 1  2  3]
  [ 4  5  6]
  [ 7  8  9]]

 [[10 11 12]
  [13 14 15]
  [16 17 18]]

 [[19 20 21]
  [22 23 24]
  [25 26 27]]]
[[[ 1 10 19]
  [ 4 13 22]
  [ 7 16 25]]

 [[ 2 11 20]
  [ 5 14 23]
  [ 8 17 26]]

 [[ 3 12 21]
  [ 6 15 24]
  [ 9 18 27]]]


In [96]:
print(a2)
print(a2.swapaxes(1, 0))

[[1 0 3]
 [4 0 6]
 [7 8 9]]
[[1 4 7]
 [0 0 8]
 [3 6 9]]


In [97]:
print(a3)
print(a3.swapaxes(0, 1))
print(a3.swapaxes(1, 2))
print(a3.swapaxes(0, 2))

[[[ 1  2  3]
  [ 4  5  6]
  [ 7  8  9]]

 [[10 11 12]
  [13 14 15]
  [16 17 18]]

 [[19 20 21]
  [22 23 24]
  [25 26 27]]]
[[[ 1  2  3]
  [10 11 12]
  [19 20 21]]

 [[ 4  5  6]
  [13 14 15]
  [22 23 24]]

 [[ 7  8  9]
  [16 17 18]
  [25 26 27]]]
[[[ 1  4  7]
  [ 2  5  8]
  [ 3  6  9]]

 [[10 13 16]
  [11 14 17]
  [12 15 18]]

 [[19 22 25]
  [20 23 26]
  [21 24 27]]]
[[[ 1 10 19]
  [ 4 13 22]
  [ 7 16 25]]

 [[ 2 11 20]
  [ 5 14 23]
  [ 8 17 26]]

 [[ 3 12 21]
  [ 6 15 24]
  [ 9 18 27]]]


### 배열 재구조화
- reshape() : 배열의 형상을 변경
- newaxis() : 새로운 축 추가

In [106]:
n1 = np.arange(0, 10)
n1

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [107]:
n1.reshape(2, 5)

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

In [109]:
print(n1)
print(n1[np.newaxis, :5])
print(n1[:5, np.newaxis])

[0 1 2 3 4 5 6 7 8 9]
[[0 1 2 3 4]]
[[0]
 [1]
 [2]
 [3]
 [4]]


### 배열 크기 변경

In [110]:
# 배열 모양만 변경
n2 = np.random.randint(0, 10, (2, 5))
print(n2)
n2.resize((5, 2))
print(n2)

[[8 3 8 5 4]
 [4 7 6 9 7]]
[[8 3]
 [8 5]
 [4 4]
 [7 6]
 [9 7]]


In [112]:
# 배열 크기 증가
# 남은 공간은 0으로 채워짐
n2.resize((5, 5))
n2

array([[8, 3, 8, 5, 4],
       [4, 7, 6, 9, 7],
       [0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0]])

In [119]:
# 배열 크기 감소
# 포함되지 않은 값 삭제
n2.resize((2, 3), refcheck = False)
print(n2)

[[8 3 8]
 [5 4 4]]


### 배열 추가
- append() : 배열의 끝에 값 추가
- axis 지정이 없으면 1차원 배열 형태로 변형되어 결합
- axis를 0으로 지정
- shape[0]을 제외한 나머지 shape은 같아야 함
- axis를 1로 지정
- shape[1]을 제외한 나머지 shape은 같아야 함

In [121]:
a2 = np.arange(1, 10).reshape(3, 3)
b2 = np.arange(11, 20).reshape(3, 3)
print(a2)
print(b2)

[[1 2 3]
 [4 5 6]
 [7 8 9]]
[[11 12 13]
 [14 15 16]
 [17 18 19]]


In [122]:
c2 = np.append(a2, b2)
print(c2)

[ 1  2  3  4  5  6  7  8  9 11 12 13 14 15 16 17 18 19]


In [123]:
d2 = np.append(a2, b2, axis = 0)
print(d2)
e2 = np.append(a2, b2, axis = 1)
print(e2)

[[ 1  2  3]
 [ 4  5  6]
 [ 7  8  9]
 [11 12 13]
 [14 15 16]
 [17 18 19]]
[[ 1  2  3 11 12 13]
 [ 4  5  6 14 15 16]
 [ 7  8  9 17 18 19]]


### 배열 연결
- concatenate() : 튜플이나 배열의 리스트를 인수로 사용해 배열 연결
- vstack() : 수직 스택(Vertical Stack), 1차원으로 연결
- hstack() : 수평 스택(Horizontal Stack), 2차원으로 연결
- dstack() : 깊이 스택(Depth Stack), 3차원으로 연결
- stack() : 새로운 차원으로 연결

In [125]:
a1 = np.arange(1, 6, 2)
a2 = np.arange(2, 7, 2)

b1 = np.concatenate([a1, a2])
b2 = np.vstack([a1, a2])
b3 = np.hstack([a1, a2])

print(b1)
print(b2)
print(b3)

[1 3 5 2 4 6]
[[1 3 5]
 [2 4 6]]
[1 3 5 2 4 6]


In [126]:
np.concatenate([a1, a1])

array([1, 3, 5, 1, 3, 5])

In [128]:
np.concatenate([b2, b2], axis = 1)

array([[1, 3, 5, 1, 3, 5],
       [2, 4, 6, 2, 4, 6]])

In [129]:
np.concatenate([b2, b2], axis = 0)

array([[1, 3, 5],
       [2, 4, 6],
       [1, 3, 5],
       [2, 4, 6]])

### 배열 분할
- split() : 배열 분할
- vsplit() : 수직 분할, 1차원으로 분할
- hsplit() : 수평 분할, 2차원으로 분할
- dsplit() : 깊이 분할, 3차원으로 분할

In [133]:
a1 = np.arange(0, 10)
print(a1)
b1, b2, b3 = np.split(a1, [2, 5])
print(b1)
print(b2)
print(b3)

[0 1 2 3 4 5 6 7 8 9]
[0 1]
[2 3 4]
[5 6 7 8 9]


In [137]:
a1 = np.arange(0, 10).reshape(5, 2)
print(a1)
c1, c2 = np.vsplit(a1, [3])
print(c1)
print(c2)

[[0 1]
 [2 3]
 [4 5]
 [6 7]
 [8 9]]
[[0 1]
 [2 3]
 [4 5]]
[[6 7]
 [8 9]]


In [140]:
a1 = np.array(np.random.randint(1, 10, 20)).reshape(2, 10)
print(a1)
d1, d2, d3 = np.hsplit(a1, [3, 6])
print(d1)
print(d2)
print(d3)

[[9 3 3 5 2 7 1 4 7 3]
 [3 7 3 6 9 4 3 3 9 7]]
[[9 3 3]
 [3 7 3]]
[[5 2 7]
 [6 9 4]]
[[1 4 7 3]
 [3 3 9 7]]


## 배열 연산
- Numpy의 배열 연산은 벡터화(Vectorized) 연산을 사용한다.
- 일반적으로 Numpy의 범용 함수(universal functions)를 통해 구현한다.
- 배열 요소에 대한 반복적인 계산을 효율적으로 수행한다.

### Broadcasting

In [141]:
a1 = np.array([1, 2, 3])
print(a1)
print(a1 + 5)

[1 2 3]
[6 7 8]


In [142]:
a2 = np.arange(1, 10).reshape(3, 3)
print(a2)
print(a1)
print(a1 + a2)

[[1 2 3]
 [4 5 6]
 [7 8 9]]
[1 2 3]
[[ 2  4  6]
 [ 5  7  9]
 [ 8 10 12]]


In [144]:
a3 = np.arange(1, 4).reshape(3, 1)
print(a1)
print(a3)
print(a1 + a3)

[1 2 3]
[[1]
 [2]
 [3]]
[[2 3 4]
 [3 4 5]
 [4 5 6]]


### 산술연산(Arithmetic Operators)
|연산자|명령어|설명|
|-----|-----|-----|
|+|np.add|덧셈|
|-|np.sub|뺄셈|
|-|np.negative|단항음수|
|* |np.multiply|곱셈|
|/|np.divide|나눗셈|
|//|np.floor_divide|나눗셈 내림|
|**|np.power| 지수 연산|
|%|np.mod|나머지 연산|

In [145]:
print(a1)
print(a1 + 1)
print(np.add(a1, 1))

[1 2 3]
[2 3 4]
[2 3 4]


In [148]:
print(a1)
print(a1 - 10)
print(np.subtract(a1, 10))

[1 2 3]
[-9 -8 -7]
[-9 -8 -7]


In [149]:
print(-a1)
print(np.negative(a1))

[-1 -2 -3]
[-1 -2 -3]


In [150]:
# 절대값 함수(Absolute Function)
#     absolute(), abs() : 내장된 절대값 함수

a1 = np.random.randint(-10, 10, 20).reshape(4, 5)
print(a1)
print(np.abs(a1))

[[-8 -6  5  9 -5]
 [-6  7  5 -4  6]
 [-5 -8 -6  2  0]
 [ 7  7 -4  9  6]]
[[8 6 5 9 5]
 [6 7 5 4 6]
 [5 8 6 2 0]
 [7 7 4 9 6]]


In [151]:
# 제곱/제곱근 함수
#     square(), sqrt() : 내장된 제곱, 제곱근 함수

b2 = np.abs(a1)
print(b2)
print(np.sqrt(b2))

[[8 6 5 9 5]
 [6 7 5 4 6]
 [5 8 6 2 0]
 [7 7 4 9 6]]
[[2.82842712 2.44948974 2.23606798 3.         2.23606798]
 [2.44948974 2.64575131 2.23606798 2.         2.44948974]
 [2.23606798 2.82842712 2.44948974 1.41421356 0.        ]
 [2.64575131 2.64575131 2.         3.         2.44948974]]


In [153]:
# 지수와 로그함수(Exponential and Log Function)

print(b2)
print(np.exp(b2))
print(np.exp2(b2))
print(np.log(b2))
print(np.log10(b2))

[[8 6 5 9 5]
 [6 7 5 4 6]
 [5 8 6 2 0]
 [7 7 4 9 6]]
[[2.98095799e+03 4.03428793e+02 1.48413159e+02 8.10308393e+03
  1.48413159e+02]
 [4.03428793e+02 1.09663316e+03 1.48413159e+02 5.45981500e+01
  4.03428793e+02]
 [1.48413159e+02 2.98095799e+03 4.03428793e+02 7.38905610e+00
  1.00000000e+00]
 [1.09663316e+03 1.09663316e+03 5.45981500e+01 8.10308393e+03
  4.03428793e+02]]
[[256.  64.  32. 512.  32.]
 [ 64. 128.  32.  16.  64.]
 [ 32. 256.  64.   4.   1.]
 [128. 128.  16. 512.  64.]]
[[2.07944154 1.79175947 1.60943791 2.19722458 1.60943791]
 [1.79175947 1.94591015 1.60943791 1.38629436 1.79175947]
 [1.60943791 2.07944154 1.79175947 0.69314718       -inf]
 [1.94591015 1.94591015 1.38629436 2.19722458 1.79175947]]
[[0.90308999 0.77815125 0.69897    0.95424251 0.69897   ]
 [0.77815125 0.84509804 0.69897    0.60205999 0.77815125]
 [0.69897    0.90308999 0.77815125 0.30103          -inf]
 [0.84509804 0.84509804 0.60205999 0.95424251 0.77815125]]


  print(np.log(b2))
  print(np.log10(b2))


In [154]:
# 삼각 함수(Trigonometric Function)

In [155]:
t = np.linspace(0, np.pi, 3)
print(t)
print(np.sin(t))
print(np.cos(t))
print(np.tan(t))

[0.         1.57079633 3.14159265]
[0.0000000e+00 1.0000000e+00 1.2246468e-16]
[ 1.000000e+00  6.123234e-17 -1.000000e+00]
[ 0.00000000e+00  1.63312394e+16 -1.22464680e-16]


In [156]:
x = [-1, 0, 1]
print(x)
print(np.arcsin(x))
print(np.arccos(x))
print(np.arctan(x))

[-1, 0, 1]
[-1.57079633  0.          1.57079633]
[3.14159265 1.57079633 0.        ]
[-0.78539816  0.          0.78539816]


## 집계 함수(Aggregate Functions)
|함수|NaN 안전 모드|설명|
|-----|-----|-----|
|np.sum|np.nansum|요소의 합 계산|
|np.cumsum|np.nancumsum|요소의 누적 합|
|np.diff||요소의 차분|
|np.prod|np.nanprod|요소의 곱 계산|
|np.cumprod|np.nancumprod|요소의 누적 곱|
|np.dot||점 곱(dot product)|
|np.matmul||행렬 곱|
|np.tensordot||tensor 곱|
|np.cross||벡터곱(cross product)|
|np.inner||내적(inner product)|
|np.outer||외적(outer product)|
|np.mean|np.nanmean|요소의 평균 계산|
|np.std|np.nanstd|표준 편차 계산|
|np.var|np.nanvar|분산 계산|
|np.min|np.nanmin|최소값|
|np.max|np.nanmax|최대값|
|np.argmin|np.nanargmin|최소값 인덱스|
|np.argmax|np.nanargmax|최대값 인덱스|
|np.median|np.nanmedian|중앙값|
|np.percentile|np.nanpercentile|요소의 순위 기반 백분위 수 계산|
|np.any||요소 중 참이 있는지 평가|
|np.all||모든 요소가 참인지 평가|

In [162]:
# sum
a1 = np.random.randint(0, 10, 15).reshape(5, 3)
print(a1)
print(np.sum(a1))
print(np.sum(a1, axis = 0))
print(np.sum(a1, axis = 1))

[[8 0 9]
 [9 4 0]
 [4 3 0]
 [7 7 4]
 [7 4 6]]
72
[35 18 19]
[17 13  7 18 17]


In [163]:
# cumsum
print(a1)
print(np.cumsum(a1))
print(np.cumsum(a1, axis = 0))
print(np.cumsum(a1, axis = 1))

[[8 0 9]
 [9 4 0]
 [4 3 0]
 [7 7 4]
 [7 4 6]]
[ 8  8 17 26 30 30 34 37 37 44 51 55 62 66 72]
[[ 8  0  9]
 [17  4  9]
 [21  7  9]
 [28 14 13]
 [35 18 19]]
[[ 8  8 17]
 [ 9 13 13]
 [ 4  7  7]
 [ 7 14 18]
 [ 7 11 17]]


In [164]:
# diff
print(a1)
print(np.diff(a1))
print(np.diff(a1, axis = 0))
print(np.diff(a1, axis = 1))

[[8 0 9]
 [9 4 0]
 [4 3 0]
 [7 7 4]
 [7 4 6]]
[[-8  9]
 [-5 -4]
 [-1 -3]
 [ 0 -3]
 [-3  2]]
[[ 1  4 -9]
 [-5 -1  0]
 [ 3  4  4]
 [ 0 -3  2]]
[[-8  9]
 [-5 -4]
 [-1 -3]
 [ 0 -3]
 [-3  2]]


In [165]:
# prod
print(a1)
print(np.prod(a1))
print(np.prod(a1, axis = 0))
print(np.prod(a1, axis = 1))

[[8 0 9]
 [9 4 0]
 [4 3 0]
 [7 7 4]
 [7 4 6]]
0
[14112     0     0]
[  0   0   0 196 168]


In [166]:
# cumpord
print(a1)
print(np.cumprod(a1))
print(np.cumprod(a1, axis = 0))
print(np.cumprod(a1, axis = 1))

[[8 0 9]
 [9 4 0]
 [4 3 0]
 [7 7 4]
 [7 4 6]]
[8 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
[[    8     0     9]
 [   72     0     0]
 [  288     0     0]
 [ 2016     0     0]
 [14112     0     0]]
[[  8   0   0]
 [  9  36   0]
 [  4  12   0]
 [  7  49 196]
 [  7  28 168]]


In [172]:
# dot()/matmul()
a1 = np.arange(1, 10).reshape(3, 3)
a2 = np.random.randint(1, 10, 12).reshape(3, 4)

print("a1\n", a1)
print("a2\n", a2)
print(np.dot(a1, a2))
print(np.matmul(a1, a2))

a1
 [[1 2 3]
 [4 5 6]
 [7 8 9]]
a2
 [[3 6 1 4]
 [3 7 8 2]
 [8 2 6 1]]
[[ 33  26  35  11]
 [ 75  71  80  32]
 [117 116 125  53]]
[[ 33  26  35  11]
 [ 75  71  80  32]
 [117 116 125  53]]


In [186]:
# tensordot() : tensor 곱 계산
a1 = np.arange(1, 10).reshape(3, 3)
a2 = np.arange(12, 21).reshape(3, 3)

print(a1)
print(a2)

print(np.tensordot(a1, a2))

[[1 2 3]
 [4 5 6]
 [7 8 9]]
[[12 13 14]
 [15 16 17]
 [18 19 20]]
780


In [187]:
# cross
x = [1, 2, 3]
y = [3, 5, 6]
print(np.cross(x, y))

[-3  3 -1]


## 비교연산(Comparison Operators)
|연산자|비교 범용 함수|
|-----|-----|
|==|np.eqaul|
|!=|np.not_equal|
|<|np.less|
|<=|np.less_equal|
|>|np.greater|
|>=|np.greater_equal|

In [200]:
a1 = np.arange(1, 10)
print(a1)

[1 2 3 4 5 6 7 8 9]


In [202]:
print(a1 == 4)
print(a1 > 4)
print(a1 < 7)
print(np.sum(a1 > 5))    # the number of a1 > 5 contents
print(np.sum(a1[a1>5]))  # sum of a1 > 5 contents
print(np.any(a2 > 5))


[False False False  True False False False False False]
[False False False False  True  True  True  True  True]
[ True  True  True  True  True  True False False False]
4
30
True


In [194]:
a1[a1 > 4]

array([5, 6, 7, 8, 9])

|비교 범용 함수|설명|
|-----|-----|
|np.isclose|배열 두개가 (z*100)% 내외로 가까우면 True, 아니면 False|
|np.isinf|배열이 inf이면 True, 아니면 False|
|np.isfinite|배열이 inf, nan이면 false, 아니면(finite이며,  True|
|np.isnan|배열이 nan이면 True, 아니면 False|

In [203]:
a1 = np.array([1, 2, 3, 4, 5])
print(a1)
b1 = np.array([1, 2, 3, 3, 4])
# np.isclose
print(b1)
print(np.isclose(a1, b1))

[1 2 3 4 5]
[1 2 3 3 4]
[ True  True  True False False]


In [205]:
a1 = np.array([np.nan, 2, np.inf, 4, np.NINF])
print(a1)
print("isnan", np.isnan(a1))
print("isfinite", np.isfinite(a1))
print("isinf", np.isinf(a1))

[ nan   2.  inf   4. -inf]
isnan [ True False False False False]
isfinite [False  True False  True False]
isinf [False False  True False  True]


### Boolean Operators
|연산자|비교 범용 함수|
|-----|-----|
|&|np.bitwise_and|
|\||np.bitwise_or|
|^|np.bitwise_xor|
|~|np.bitwise_not|

In [213]:
a2 = np.arange(1, 10).reshape(3, 3)

print(a2)
print((a2 > 5) & (a2 < 8))
print(a2[(a2 > 5) & (a2 < 8)])

print((a2 > 5) | (a2 < 8))
print(a2[(a2 > 5) | (a2 < 8)])

print((a2 > 5) ^ (a2 < 8))
print(a2[(a2 > 5) ^ (a2 < 8)])

print(~(a2 > 5) | (a2 < 8))
print(a2[~(a2 > 5) | (a2 < 8)])

[[1 2 3]
 [4 5 6]
 [7 8 9]]
[[False False False]
 [False False  True]
 [ True False False]]
[6 7]
[[ True  True  True]
 [ True  True  True]
 [ True  True  True]]
[1 2 3 4 5 6 7 8 9]
[[ True  True  True]
 [ True  True False]
 [False  True  True]]
[1 2 3 4 5 8 9]
[[ True  True  True]
 [ True  True  True]
 [ True False False]]
[1 2 3 4 5 6 7]


## 배열 정렬

In [214]:
a1 = np.random.randint(1, 10, size = 10)

print(a1)
print(np.sort(a1))
print(a1)    # np.sort(a1) -> Original array a1의 순서를 변경시키지 않았음 확인
print(np.argsort(a1))    # np.argsort -> a1의 index가 어떻게 위치해야 sort가 되는지를 보여줌
print(a1)

[6 1 7 7 4 1 6 8 4 2]
[1 1 2 4 4 6 6 7 7 8]
[6 1 7 7 4 1 6 8 4 2]
[1 5 9 4 8 0 6 2 3 7]
[6 1 7 7 4 1 6 8 4 2]


In [217]:
a1 = np.random.randint(1, 10, size = (3, 3))

print(a1)
print(np.sort(a1))
print(np.sort(a1, axis = 0))
print(np.sort(a1, axis = 1))

[[1 7 1]
 [2 5 4]
 [9 6 1]]
[[1 1 7]
 [2 4 5]
 [1 6 9]]
[[1 5 1]
 [2 6 1]
 [9 7 4]]
[[1 1 7]
 [2 4 5]
 [1 6 9]]


### 부분정렬
- partition() : 배열에서 k개의 작은 값을 반환

In [218]:
a1 = np.random.randint(1, 10, size = 10)
print(a1)
print(np.partition(a1, 3))

[2 9 6 1 2 5 6 6 8 9]
[1 2 2 5 6 6 6 9 8 9]


## 배열 입출력
|함수|설명|파일 종류|
|-----|-----|-----|
|np.save()|Numpy 배열 객체 1개를 파일에 저장|바이너리|
|np.savez()|Numpy 배열 객체 여러개를 파일에 저장|바이너리|
|np.load()|Numpy 배열 저장 파일로부터 객체 로딩|바이너리|
|np.loadtxt()|Text file로부터 array 로딩|text|
|np.savetext()|Text file에 Nupy 배열 객체 저장|텍스트|

In [221]:
a1 = np.arange(1, 82).reshape(9, 9)
print(a1)
np.save("a1", a1)

[[ 1  2  3  4  5  6  7  8  9]
 [10 11 12 13 14 15 16 17 18]
 [19 20 21 22 23 24 25 26 27]
 [28 29 30 31 32 33 34 35 36]
 [37 38 39 40 41 42 43 44 45]
 [46 47 48 49 50 51 52 53 54]
 [55 56 57 58 59 60 61 62 63]
 [64 65 66 67 68 69 70 71 72]
 [73 74 75 76 77 78 79 80 81]]


In [222]:
ls

 C 드라이브의 볼륨에는 이름이 없습니다.
 볼륨 일련 번호: 1CCB-9DB3

 C:\Users\user\Desktop\이수안컴퓨터연구소Lectures\Numpy 디렉터리

2022-01-18  오후 09:04    <DIR>          .
2022-01-18  오후 09:04    <DIR>          ..
2022-01-18  오후 03:35    <DIR>          .ipynb_checkpoints
2022-01-18  오후 09:04               452 a1.npy
2022-01-18  오후 09:03            70,684 Numpy_prac.ipynb
               2개 파일              71,136 바이트
               3개 디렉터리  410,486,611,968 바이트 남음


In [224]:
b1 = np.random.randint(1, 10, (3, 3))
print(b1)
np.savez("b1", a1, b2)

[[6 2 1]
 [2 4 9]
 [7 2 1]]


In [225]:
ls

 C 드라이브의 볼륨에는 이름이 없습니다.
 볼륨 일련 번호: 1CCB-9DB3

 C:\Users\user\Desktop\이수안컴퓨터연구소Lectures\Numpy 디렉터리

2022-01-18  오후 09:05    <DIR>          .
2022-01-18  오후 09:05    <DIR>          ..
2022-01-18  오후 03:35    <DIR>          .ipynb_checkpoints
2022-01-18  오후 09:04               452 a1.npy
2022-01-18  오후 09:05               866 b1.npz
2022-01-18  오후 09:05            70,685 Numpy_prac.ipynb
               3개 파일              72,003 바이트
               3개 디렉터리  410,489,561,088 바이트 남음


In [227]:
npy = np.load('a1.npy')
print(npy)

[[ 1  2  3  4  5  6  7  8  9]
 [10 11 12 13 14 15 16 17 18]
 [19 20 21 22 23 24 25 26 27]
 [28 29 30 31 32 33 34 35 36]
 [37 38 39 40 41 42 43 44 45]
 [46 47 48 49 50 51 52 53 54]
 [55 56 57 58 59 60 61 62 63]
 [64 65 66 67 68 69 70 71 72]
 [73 74 75 76 77 78 79 80 81]]


In [232]:
npz = np.load('b1.npz')
print(npz.files)
print(npz['arr_0'])
print(npz['arr_1'])

['arr_0', 'arr_1']
[[ 1  2  3  4  5  6  7  8  9]
 [10 11 12 13 14 15 16 17 18]
 [19 20 21 22 23 24 25 26 27]
 [28 29 30 31 32 33 34 35 36]
 [37 38 39 40 41 42 43 44 45]
 [46 47 48 49 50 51 52 53 54]
 [55 56 57 58 59 60 61 62 63]
 [64 65 66 67 68 69 70 71 72]
 [73 74 75 76 77 78 79 80 81]]
[[8 8 1]
 [4 7 7]
 [7 1 2]]


In [233]:
print(a2)
np.savetxt("a.txt", a2)

[[1 2 3]
 [4 5 6]
 [7 8 9]]


In [234]:
ls

 C 드라이브의 볼륨에는 이름이 없습니다.
 볼륨 일련 번호: 1CCB-9DB3

 C:\Users\user\Desktop\이수안컴퓨터연구소Lectures\Numpy 디렉터리

2022-01-18  오후 09:07    <DIR>          .
2022-01-18  오후 09:07    <DIR>          ..
2022-01-18  오후 03:35    <DIR>          .ipynb_checkpoints
2022-01-18  오후 09:07               228 a.txt
2022-01-18  오후 09:04               452 a1.npy
2022-01-18  오후 09:05               866 b1.npz
2022-01-18  오후 09:05            72,223 Numpy_prac.ipynb
               4개 파일              73,769 바이트
               3개 디렉터리  410,489,585,664 바이트 남음


In [235]:
np.savetxt("a.csv", a2)

In [239]:
csv = np.loadtxt("a.csv", delimiter = ' ')
txt = np.loadtxt("a.txt")

In [240]:
csv

array([[1., 2., 3.],
       [4., 5., 6.],
       [7., 8., 9.]])

In [241]:
txt

array([[1., 2., 3.],
       [4., 5., 6.],
       [7., 8., 9.]])

In [None]:
# save array into txt file with desirable foramt -> by user decision

print(b2)
