# Numpy

In [1]:
import numpy as np

In [2]:
a1 = np.array([1,2,3,4,5])
print(a1)
print(type(a1))
print(a1.shape)
print(a1[0], a1[1], a1[2], a1[3], a1[4])
a1[0] = 4
a1[1] = 5
a1[2] = 6
print(a1)

[1 2 3 4 5]
<class 'numpy.ndarray'>
(5,)
1 2 3 4 5
[4 5 6 4 5]


In [3]:
a2 = np.array([[1,2,3], [4,5,6], [7,8,9]])
print(a2)
print(type(a2))
print(a2.shape)
print(a2[0,0], a2[1,1], a2[2,2])

[[1 2 3]
 [4 5 6]
 [7 8 9]]
<class 'numpy.ndarray'>
(3, 3)
1 5 9


In [4]:
a3 = np.array([[[1,2,3], [4,5,6], [7,8,9]],[[1,2,3], [4,5,6], [7,8,9]],[[1,2,3], [4,5,6], [7,8,9]]])
a3

array([[[1, 2, 3],
        [4, 5, 6],
        [7, 8, 9]],

       [[1, 2, 3],
        [4, 5, 6],
        [7, 8, 9]],

       [[1, 2, 3],
        [4, 5, 6],
        [7, 8, 9]]])

### 배열 생성 및 초기화
- zeros() : 모든 요소를 0으로 초기화
- ones() : 모든 요소를 1로 초기화
- full() : 모든 요소를 지정한 값으로 초기화
- eye() : 단위행렬(identity matrix) 생성
- tri() : 삼각행렬 생성
- empty() : 초기화되지 않은 배열 생성
- _like() : 지정된 배열과 shape이 같은 행렬 생성
    - np.zeros_like() : ones, full etc 

### 생성한 값으로 배열 생성
- arange() : 정수 범위로 배열 생성
- linspace() : 범위 내에서 균등간격으로 배열 생성
- logspace() : 범위 내에서 균등간격으로 로그 스케일로 배열 생성

### 랜덤값으로 배열 생성
- seed : 난수 발생을 위한 시드 지정
- permutation : 순서를 임의로 바꾸거나 임의의 순열 반환
- shuffle : 리스트나 배열의 순서를 뒤섞음
- random : 랜덤한 수의 배열 생성
- rand : 균등분포에서 표본 추출
- randint : 주어진 최소/최대 범위의 난수 추출
- randn : 표준편차가 1, 평균값 0인 정규분포의 표본 추출
- binomial : 이항분포에서 표본 추출
- normal : 정규분포(가우시안)에서 표본 추출
- beta : 베타분포에서 표본 추출
- chisquare : 카이제곱분포에서 표본 추출
- gamma : 감마분포에서 표본 추출
- uniform : 균등(0,1)분포에서 표본 추출

In [5]:
np.random.random((3,3))

array([[0.50901394, 0.80417321, 0.58011084],
       [0.53248719, 0.07728548, 0.52489592],
       [0.97107632, 0.95219516, 0.73363459]])

In [6]:
np.random.randint(1, 10, (3, 3))

array([[7, 5, 8],
       [4, 1, 1],
       [4, 7, 2]])

In [7]:
np.random.normal(0, 1, (3,3))

array([[-0.07067251,  1.5645146 , -0.2913688 ],
       [-0.04219846,  0.00218551, -0.13679445],
       [ 1.77250058, -1.24706813, -1.46956492]])

In [8]:
np.random.rand(3,3)

array([[0.63957628, 0.18968146, 0.17620663],
       [0.77586782, 0.27332196, 0.58827768],
       [0.75580469, 0.87135849, 0.50471918]])

In [9]:
np.random.randn(3,3)

array([[ 0.89625441,  0.2502044 ,  2.12857703],
       [ 0.02764137,  1.20851147, -0.17747565],
       [-1.08682631, -1.19916872, -0.32325459]])

### 표준 데이터 타입
- bool_
- int_
- intc
- intp
- int8
- int16
- int32
- int64
- uint16 : uint는 부호 없는 정수
- uint32
- uint64
- float16
- float32
- float64
- float_
- complex64
- complex128
- complex_

In [10]:
np.zeros(20, dtype=int)

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

In [11]:
np.ones((3,3), dtype=bool)

array([[ True,  True,  True],
       [ True,  True,  True],
       [ True,  True,  True]])

### 날짜, 시간 배열 생성
- Y : 연
- M : 월
- W : 주
- D : 일
- h : 시
- m : 분
- s : 초
- ms : 밀리초
- us : 마이크로초
- ns : 나노초
- ps : 피코초
- fs : 펨토초
- as : 아토초

In [12]:
date = np.array('2020-01-01', dtype=np.datetime64)
date

array('2020-01-01', dtype='datetime64[D]')

In [13]:
date + np.arange(12)

array(['2020-01-01', '2020-01-02', '2020-01-03', '2020-01-04',
       '2020-01-05', '2020-01-06', '2020-01-07', '2020-01-08',
       '2020-01-09', '2020-01-10', '2020-01-11', '2020-01-12'],
      dtype='datetime64[D]')

In [14]:
datetime = np.datetime64('2020-06-01 12:00')
datetime

numpy.datetime64('2020-06-01T12:00')

In [15]:
datetime = np.datetime64('2020-06-01 12:00:12.34', 'ns')
datetime

numpy.datetime64('2020-06-01T12:00:12.340000000')

### 배열 조회
- 배열 속성 정보

In [16]:
def array_info(array):
    print(array)
    print("ndim:", array.ndim)
    print("shape:", array.shape)
    print("dtype:", array.dtype)
    print("size:", array.size)
    print("itemsize:", array.itemsize)
    print("nbytes:", array.nbytes)
    print("strides:", array.strides)

In [17]:
array_info(a1)

[4 5 6 4 5]
ndim: 1
shape: (5,)
dtype: int32
size: 5
itemsize: 4
nbytes: 20
strides: (4,)


In [18]:
array_info(a2)

[[1 2 3]
 [4 5 6]
 [7 8 9]]
ndim: 2
shape: (3, 3)
dtype: int32
size: 9
itemsize: 4
nbytes: 36
strides: (12, 4)


### 인덱싱(Indexing)

In [19]:
array_info(a3)

[[[1 2 3]
  [4 5 6]
  [7 8 9]]

 [[1 2 3]
  [4 5 6]
  [7 8 9]]

 [[1 2 3]
  [4 5 6]
  [7 8 9]]]
ndim: 3
shape: (3, 3, 3)
dtype: int32
size: 27
itemsize: 4
nbytes: 108
strides: (36, 12, 4)


In [20]:
print(a1)
print(a1[2])
print(a1[-1])

[4 5 6 4 5]
6
5


In [21]:
print(a2)
print(a2[0,0])
print(a2[2, -1])

[[1 2 3]
 [4 5 6]
 [7 8 9]]
1
9


### 슬라이싱(Slicing)
- a[start:stop:step]
- 기본값: start=0, stop=ndim, step=1

In [22]:
print(a1[::2])
print(a1[0:2])

[4 6 5]
[4 5]


In [23]:
print(a2)
print(a2[1])
print(a2[1, :])
print(a2[1:, ::-1])
print(a2[::-1, ::-1])

[[1 2 3]
 [4 5 6]
 [7 8 9]]
[4 5 6]
[4 5 6]
[[6 5 4]
 [9 8 7]]
[[9 8 7]
 [6 5 4]
 [3 2 1]]


### 불리언 인덱싱
- 배열 각 요소의 선택 여부를 True or False로 지정
- True 값인 인덱스의 값만 조회

In [24]:
print(a1)
bi = [False, True, True, False, True]
print(a1[bi])

[4 5 6 4 5]
[5 6 5]


In [25]:
print(a2)
bi = np.random.randint(0, 2, (3, 3), dtype=bool)
print(bi)
print(a2[bi])

[[1 2 3]
 [4 5 6]
 [7 8 9]]
[[ True  True False]
 [False  True False]
 [ True  True False]]
[1 2 5 7 8]


### 팬시 인덱싱

In [26]:
print(a1)
print([a1[0], a1[2]])
ind = [0,2]
print(a1[ind])
ind = np.array([[0, 1], # 인덱스를 2차원으로 만들면 결과도 2차원
                [2, 0]])
print(a1[ind])

[4 5 6 4 5]
[4, 6]
[4 6]
[[4 5]
 [6 4]]


In [27]:
print(a2)
row = np.array([0,2])
col = np.array([1,2])
print(a2[row, col])
print(a2[row, 1])
print('a2[row, :]: ', a2[row, :])
print(a2[1:, col])
print(a2[2, col])

[[1 2 3]
 [4 5 6]
 [7 8 9]]
[2 9]
[2 8]
a2[row, :]:  [[1 2 3]
 [7 8 9]]
[[5 6]
 [8 9]]
[8 9]


### 배열 값 삽입/수정/삭제/복사

#### 배열 값 삽입
- insert() 배열의 특정 위치에 값 삽입
- axis를 지정하지 않으면 1차원 배열로 반환
- 추가할 방향을 axis로 지정
- 원본 배열 변경없이 새로운 배열 반환

In [28]:
print(a1)
b1 = np.insert(a1, 0, 10) # a1 배열의 인덱스 [0]에 10이라는 값을 삽입해라
print(b1)

[4 5 6 4 5]
[10  4  5  6  4  5]


In [29]:
print(a2)
b2 = np.insert(a2, 1, 10, axis=0)
print(b2)
c2 = np.insert(a2, 1, 10, axis=0)
print(c2)

[[1 2 3]
 [4 5 6]
 [7 8 9]]
[[ 1  2  3]
 [10 10 10]
 [ 4  5  6]
 [ 7  8  9]]
[[ 1  2  3]
 [10 10 10]
 [ 4  5  6]
 [ 7  8  9]]


### 배열 값 수정
- 배열의 인덱싱으로 접근하여 값 수정

In [30]:
print(a1)
a1[0] = 1
a1[:1] = 9
print(a1)
i = np.array([1, 3, 4])
a1[i] = 0
print(a1)
a1[i] += 4
print(a1)

[4 5 6 4 5]
[9 5 6 4 5]
[9 0 6 0 0]
[9 4 6 4 4]


In [31]:
print(a2)
a2[0,0] = 1
a2[0] = 1
print(a2)

a2[1:, 2] = 0
print(a2)

[[1 2 3]
 [4 5 6]
 [7 8 9]]
[[1 1 1]
 [4 5 6]
 [7 8 9]]
[[1 1 1]
 [4 5 0]
 [7 8 0]]


### 배열 값 삭제
- delete() : 배열의 특정 위치에 값 삭제
- 삭제할 방향을 axis로 지정
- 원본 배열 변경없이 새로운 배열 반환

In [32]:
print(a1)
b1 = np.delete(a1, 1)
print(b1)

[9 4 6 4 4]
[9 6 4 4]


# 배열 복사
- 리스트 자료형과 달리 배열의 슬라이스는 복사본이 아님

In [33]:
print(a2)
print(a2[:2, :2])
a2_sub = a2[:2, :2]
print(a2_sub)
a2_sub[:, 1] = 0
print(a2_sub) # a2_sub를 수정했는데 a2도 변경
print(a2)

[[1 1 1]
 [4 5 0]
 [7 8 0]]
[[1 1]
 [4 5]]
[[1 1]
 [4 5]]
[[1 0]
 [4 0]]
[[1 0 1]
 [4 0 0]
 [7 8 0]]


- copy() : 배열이나 하위 배열 내의 값을 명시적으로 복사

In [34]:
print(a2)
a2_sub_copy = a2[:2, :2].copy()
print(a2_sub_copy)
a2_sub_copy[:, 1] = 1
print(a2_sub_copy)
print(a2)

[[1 0 1]
 [4 0 0]
 [7 8 0]]
[[1 0]
 [4 0]]
[[1 1]
 [4 1]]
[[1 0 1]
 [4 0 0]
 [7 8 0]]


### 배열 변환 : .T, .swapaxes

#### 배열 전치 및 축 변경

In [35]:
print(a2)
print(a2.T)

[[1 0 1]
 [4 0 0]
 [7 8 0]]
[[1 4 7]
 [0 0 8]
 [1 0 0]]


In [36]:
print(a2)
print(a2.swapaxes(1, 0))

[[1 0 1]
 [4 0 0]
 [7 8 0]]
[[1 4 7]
 [0 0 8]
 [1 0 0]]


In [37]:
print(a3)
print(a3.swapaxes(0, 1))

[[[1 2 3]
  [4 5 6]
  [7 8 9]]

 [[1 2 3]
  [4 5 6]
  [7 8 9]]

 [[1 2 3]
  [4 5 6]
  [7 8 9]]]
[[[1 2 3]
  [1 2 3]
  [1 2 3]]

 [[4 5 6]
  [4 5 6]
  [4 5 6]]

 [[7 8 9]
  [7 8 9]
  [7 8 9]]]


### 배열 재구조화
- reshape() : 배열의 형상을 변경
- newaxis() : 새로운 축 추가

In [38]:
n1 = np.arange(1, 10)
print(n1)
print(n1.reshape(3,3)) # 기존 엘리먼트로 지정한 배열을 만들 수 없는 경우 에러

[1 2 3 4 5 6 7 8 9]
[[1 2 3]
 [4 5 6]
 [7 8 9]]


In [39]:
print(n1)
print(n1[np.newaxis, :5])
print(n1[:5, np.newaxis])
print(n1[:, np.newaxis])
print(n1[:2, np.newaxis])
print(n1[np.newaxis, :])

[1 2 3 4 5 6 7 8 9]
[[1 2 3 4 5]]
[[1]
 [2]
 [3]
 [4]
 [5]]
[[1]
 [2]
 [3]
 [4]
 [5]
 [6]
 [7]
 [8]
 [9]]
[[1]
 [2]]
[[1 2 3 4 5 6 7 8 9]]


### 배열 크기 변경 : resize()
- 배열 모양만 변경

In [40]:
n2 = np.random.randint(0, 10, (2, 5))
print(n2)
n2.resize((5, 2))
print(n2)

[[5 9 8 4 8]
 [8 6 4 8 7]]
[[5 9]
 [8 4]
 [8 8]
 [6 4]
 [8 7]]


- 배열 크기 증가
- 남은 공간은 0으로 채워짐

In [41]:
n2.resize((5, 5))
print(n2.size)
print(n2)
n2.resize((6, 5))
print(n2.size)

25
[[5 9 8 4 8]
 [8 6 4 8 7]
 [0 0 0 0 0]
 [0 0 0 0 0]
 [0 0 0 0 0]]
30


- 배열 크기 감소
- 포함되지 않은 값은 삭제됨

In [42]:
n2.resize((3,3))
print(n2) # 삭제가 행이나 열 기준이 아니라 엘리먼트 개별 기준으로 뒤에서부터 자름

[[5 9 8]
 [4 8 8]
 [6 4 8]]


### 배열 추가 append() : 배열 끝에 값 추가

In [43]:
a2 = np.arange(1, 10).reshape(3,3)
print(a2)
b2 = np.arange(10, 19).reshape(3,3)
print(b2)

[[1 2 3]
 [4 5 6]
 [7 8 9]]
[[10 11 12]
 [13 14 15]
 [16 17 18]]


- axis 지정이 없으면 1차원 배열 형태로 변형되어 결합

In [44]:
c2 = np.append(a2, b2)
print(c2)

[ 1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18]


- axis를 0으로 지정
- shape[0]을 제외한 나머지 shape은 같아야 함

In [45]:
c2 = np.append(a2, b2, axis=0) # 종으로 연결
print(c2)

[[ 1  2  3]
 [ 4  5  6]
 [ 7  8  9]
 [10 11 12]
 [13 14 15]
 [16 17 18]]


- axis를 1으로 지정
- shape[1]을 제외한 나머지 shape은 같아야 함

In [46]:
c2 = np.append(a2, b2, axis=1) # 횡으로 연결
print(c2)

[[ 1  2  3 10 11 12]
 [ 4  5  6 13 14 15]
 [ 7  8  9 16 17 18]]


### 배열 연결
- concatenate(): 튜플이나 배열의 리스트를 인수로 사용해 배열 연결
- vstack(): 수직 스택, 1차원으로 연결
- hstack(): 수평 스택, 2차원으로 연결
- dstack(): 깊이 스택(depth) 3차원으로 연결
- stack(): 새로운 차원으로 연결

In [47]:
a1 = np.array([1,3,5])
b1 = np.array([2,4,6])
np.concatenate([a1, b1])

array([1, 3, 5, 2, 4, 6])

### 배열 분할
- split() : 배열 분할
- vsplit() : 수직 분할, 1차원으로 분할
- hsplit() : 수평 분할, 2차원으로 분할
- dsplit() : 깊이 분할, 3차원으로 분 할