In [318]:
import warnings

warnings.filterwarnings('ignore')
import numpy as np


def pprint(array):
    print(f'type: {type(array)}')
    print(f'shape: {array.shape}, dimension: {array.ndim}, dtype: {array.dtype}')
    print('※ numpy 배열의 데이터\n', array, sep='')
    print('-' * 80)

# 인덱싱
- 배열의 각 요소는 axis 인덱스 배열로 참조할 수 있다.
- 1차원 배열은 1개, 2차원 배열은 2개, n차원 배열은 n개의 인덱스로 요소를 참조할 수 있다.
- 인덱싱 작업시 [행][열] 또는 [행, 열]과 같이 인덱스를 지정할 수 있다.

In [319]:
a = np.arange(24)  # 1차원 배열
pprint(a)
b = np.arange(24).reshape(4, 6)  # 2차원 배열
pprint(b)
c = np.arange(24).reshape(2, 4, 3)  # 3차원 배열
pprint(c)

type: <class 'numpy.ndarray'>
shape: (24,), dimension: 1, dtype: int64
※ numpy 배열의 데이터
[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23]
--------------------------------------------------------------------------------
type: <class 'numpy.ndarray'>
shape: (4, 6), dimension: 2, dtype: int64
※ numpy 배열의 데이터
[[ 0  1  2  3  4  5]
 [ 6  7  8  9 10 11]
 [12 13 14 15 16 17]
 [18 19 20 21 22 23]]
--------------------------------------------------------------------------------
type: <class 'numpy.ndarray'>
shape: (2, 4, 3), dimension: 3, dtype: int64
※ numpy 배열의 데이터
[[[ 0  1  2]
  [ 3  4  5]
  [ 6  7  8]
  [ 9 10 11]]

 [[12 13 14]
  [15 16 17]
  [18 19 20]
  [21 22 23]]]
--------------------------------------------------------------------------------


In [320]:
# 1차원 배열 요소 참조 및 변경
print(a[5])
a[5] = 100000
print(a)

5
[     0      1      2      3      4 100000      6      7      8      9
     10     11     12     13     14     15     16     17     18     19
     20     21     22     23]


In [321]:
# 2차원 배열 요소 참조 및 변경
print(b[0][1])
b[0][1] = 100000
print(b)
print(b[1, 3])
b[1, 3] = 200000
print(b)

1
[[     0 100000      2      3      4      5]
 [     6      7      8      9     10     11]
 [    12     13     14     15     16     17]
 [    18     19     20     21     22     23]]
9
[[     0 100000      2      3      4      5]
 [     6      7      8 200000     10     11]
 [    12     13     14     15     16     17]
 [    18     19     20     21     22     23]]


In [322]:
# 3차원 배열 요소 참조 및 변경
print(c[1][0][1])
c[1][0][1] = 999999
print(c)
print(c[0, 2, 1])

13
[[[     0      1      2]
  [     3      4      5]
  [     6      7      8]
  [     9     10     11]]

 [[    12 999999     14]
  [    15     16     17]
  [    18     19     20]
  [    21     22     23]]]
7


# 슬라이싱

In [323]:
print(a)

print(a)

[     0      1      2      3      4 100000      6      7      8      9
     10     11     12     13     14     15     16     17     18     19
     20     21     22     23]
[     0      1      2      3      4 100000      6      7      8      9
     10     11     12     13     14     15     16     17     18     19
     20     21     22     23]


<img src="./numpyImage/numpyImage06.jpg" width="1200"/>

In [324]:
print(b)
print('=' * 80)
print(b[1:3])  # 열을 생략하면 행 단위로 슬라이싱을 할 수 있다. b[1:3. :]와 같은 표현이다.
print('=' * 80)
print(b[:, 1:5])  # 열 단위로 슬라이싱 하려면 행 위치에 ':'을 적어야 한다.
print('=' * 80)
print(b[1:3, 1:5])

[[     0 100000      2      3      4      5]
 [     6      7      8 200000     10     11]
 [    12     13     14     15     16     17]
 [    18     19     20     21     22     23]]
[[     6      7      8 200000     10     11]
 [    12     13     14     15     16     17]]
[[100000      2      3      4]
 [     7      8 200000     10]
 [    13     14     15     16]
 [    19     20     21     22]]
[[     7      8 200000     10]
 [    13     14     15     16]]


In [325]:
# 음수 인덱싱을 이용한 범위 설정
# 음수 인덱스는 지정한 axis의 마지막 요소부터 반대 방향의 인덱스이고 -1은 마지막 요소의 인덱스를 의미한다.
print(b[1:-1, 1:-1])

[[     7      8 200000     10]
 [    13     14     15     16]]


In [326]:
print(b[1:3][1:5])  # b[1:3, :][1:5, :]와 같은 표현이다.

[[12 13 14 15 16 17]]


In [327]:
# 슬라이싱을 이용한 데이터 수정
print(b)
print('=' * 80)
# 슬라이싱을 이용한 배열 생성
slide_arr = b[1:3, 1:5]
print(slide_arr)
print('=' * 80)
print(slide_arr[:, 1:3])
slide_arr[:, 1:3] = 999999
print(slide_arr)
print('=' * 80)
print(b)

[[     0 100000      2      3      4      5]
 [     6      7      8 200000     10     11]
 [    12     13     14     15     16     17]
 [    18     19     20     21     22     23]]
[[     7      8 200000     10]
 [    13     14     15     16]]
[[     8 200000]
 [    14     15]]
[[     7 999999 999999     10]
 [    13 999999 999999     16]]
[[     0 100000      2      3      4      5]
 [     6      7 999999 999999     10     11]
 [    12     13 999999 999999     16     17]
 [    18     19     20     21     22     23]]


# 불린 인덱싱
- numpy의 불린 인덱싱은 배열의 각 요소 선택 여부를 True, False로 지정하는 방식이다.

In [328]:
a = np.arange(24).reshape(4, 6)
print(a)

[[ 0  1  2  3  4  5]
 [ 6  7  8  9 10 11]
 [12 13 14 15 16 17]
 [18 19 20 21 22 23]]


In [329]:
# a 배열에서 요소의 값이 짝수인 요소의 총 합계
# numpy의 브로드캐스팅(다대일 연산) 기능을 이용해서 배열의 요소 중에서 짝수인 요소를 확인한다.
even_arr1 = a % 2
print(even_arr1)

print('=' * 80)

even_arr2 = a % 2 == 0
print(even_arr2)

[[0 1 0 1 0 1]
 [0 1 0 1 0 1]
 [0 1 0 1 0 1]
 [0 1 0 1 0 1]]
[[ True False  True False  True False]
 [ True False  True False  True False]
 [ True False  True False  True False]
 [ True False  True False  True False]]


In [330]:
# 불린 인덱싱은 브로드캐스팅 결과가 True인 요소들만 추출한다.
print(a[even_arr2])
print(a[a % 2 == 0])

[ 0  2  4  6  8 10 12 14 16 18 20 22]
[ 0  2  4  6  8 10 12 14 16 18 20 22]


In [331]:
print(np.sum(a))
print(np.sum(a[a % 2 == 0]))
print(a[a % 2 == 1].sum())

276
132
144


# 불린 인덱싱 응용
- 데이터 파일: 2014년 시애틀 강수량 데이터 → ./data/Seattle2014.csv
- 2014년 시애틀 1월 평균 강수량 구하기

In [332]:
import pandas as pd

In [333]:
# pandas의 read_csv() 메서드로 csv 파일을 읽어들인다.
rain_in_seattle = pd.read_csv('./data/Seattle2014.csv', delimiter=',')
print(type(rain_in_seattle))
rain_in_seattle

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,STATION,STATION_NAME,DATE,PRCP,SNWD,SNOW,TMAX,TMIN,AWND,WDF2,WDF5,WSF2,WSF5,WT01,WT05,WT02,WT03
0,GHCND:USW00024233,SEATTLE TACOMA INTERNATIONAL AIRPORT WA US,20140101,0,0,0,72,33,12,340,310,36,40,-9999,-9999,-9999,-9999
1,GHCND:USW00024233,SEATTLE TACOMA INTERNATIONAL AIRPORT WA US,20140102,41,0,0,106,61,32,190,200,94,116,-9999,-9999,-9999,-9999
2,GHCND:USW00024233,SEATTLE TACOMA INTERNATIONAL AIRPORT WA US,20140103,15,0,0,89,28,26,30,50,63,72,1,-9999,-9999,-9999
3,GHCND:USW00024233,SEATTLE TACOMA INTERNATIONAL AIRPORT WA US,20140104,0,0,0,78,6,27,40,40,45,58,1,-9999,-9999,-9999
4,GHCND:USW00024233,SEATTLE TACOMA INTERNATIONAL AIRPORT WA US,20140105,0,0,0,83,-5,37,10,10,67,76,-9999,-9999,-9999,-9999
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
360,GHCND:USW00024233,SEATTLE TACOMA INTERNATIONAL AIRPORT WA US,20141227,33,0,0,94,44,49,210,210,112,161,1,-9999,-9999,-9999
361,GHCND:USW00024233,SEATTLE TACOMA INTERNATIONAL AIRPORT WA US,20141228,41,0,0,67,28,18,50,30,58,72,1,-9999,-9999,-9999
362,GHCND:USW00024233,SEATTLE TACOMA INTERNATIONAL AIRPORT WA US,20141229,0,0,0,61,6,43,350,350,76,103,1,-9999,-9999,-9999
363,GHCND:USW00024233,SEATTLE TACOMA INTERNATIONAL AIRPORT WA US,20141230,0,0,0,33,-21,36,90,70,63,76,-9999,-9999,-9999,-9999


In [334]:
# 2014년 시애틀 강수량 데이터의 강수량 열(PRCP)의 데이터만 추출한다.
# → 데이터프레임_이름['열_이름'], 데이터프레임_이름.get('열_이름'), 데이터프레임_이름.열_이름
# → 인덱스도 같이 추출된다.

# rain_arr = rain_in_seattle['PRCP']
# rain_arr = rain_in_seattle.get('PRCP')
# rain_arr = rain_in_seattle.PRCP
# print(type(rain_arr))   # <class 'pandas.core.series.Series'> → 데이터프레임을 구성하는 열 1개

# 데이터만 추출시 values 속성을, 인덱스만 추출시 index 속성을 사용한다.
# values 속성을 이용해서 Series의 데이터만 얻어오면 numpy 배열 형태로 얻어온다.
rain_arr = rain_in_seattle['PRCP'].values
print(type(rain_arr))  # <class 'numpy.ndarray'>
print(rain_arr)

print('Data size:', len(rain_arr))

<class 'numpy.ndarray'>
[  0  41  15   0   0   3 122  97  58  43 213  15   0   0   0   0   0   0
   0   0   0   5   0   0   0   0   0  89 216   0  23  20   0   0   0   0
   0   0  51   5 183 170  46  18  94 117 264 145 152  10  30  28  25  61
 130   3   0   0   0   5 191 107 165 467  30   0 323  43 188   0   0   5
  69  81 277   3   0   5   0   0   0   0   0  41  36   3 221 140   0   0
   0   0  25   0  46   0   0  46   0   0   0   0   0   0   5 109 185   0
 137   0  51 142  89 124   0  33  69   0   0   0   0   0 333 160  51   0
   0 137  20   5   0   0   0   0   0   0   0   0   0   0   0   0  38   0
  56   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0
  18  64   0   5  36  13   0   8   3   0   0   0   0   0   0  18  23   0
   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0
   0   0   0   0   3 193   0   0   0   0   0   0   0   0   0   5   0   0
   0   0   0   0   0   0   5 127 216   0  10   0   0   0   0   0   0   0
   0   0   0   0   0   0   

In [335]:
days_arr = np.arange(0, 365)  # 날짜 배열
print(days_arr[:40])
condition_jan = days_arr < 31  # 1월의 날 수 만큼 불린 인덱스를 생성한다.
print(condition_jan[:40])

[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39]
[ True  True  True  True  True  True  True  True  True  True  True  True
  True  True  True  True  True  True  True  True  True  True  True  True
  True  True  True  True  True  True  True False False False False False
 False False False False]


In [336]:
# 불린 인덱싱을 이용해서 1월의 강수량만 추출한다.
rain_jan = rain_arr[condition_jan]
print(rain_jan)
print(len(rain_jan))

[  0  41  15   0   0   3 122  97  58  43 213  15   0   0   0   0   0   0
   0   0   0   5   0   0   0   0   0  89 216   0  23]
31


In [337]:
print('1월 강수량 합계:', np.sum(rain_jan))
print('1월 강수량 평균:', np.mean(rain_jan))

1월 강수량 합계: 940
1월 강수량 평균: 30.322580645161292


# 팬시 인덱싱
- 배열에 인덱스 배열을 전달해 요소를 참조하는 방법이다.

In [338]:
a = np.arange(1, 25).reshape(4, 6)
print(a)

[[ 1  2  3  4  5  6]
 [ 7  8  9 10 11 12]
 [13 14 15 16 17 18]
 [19 20 21 22 23 24]]


In [339]:
print(a[0, 0], a[1, 1], a[2, 2], a[3, 3])
arr = a[0, 0], a[1, 1], a[2, 2], a[3, 3]
print(arr)
print(type(arr))
arr = [a[0, 0], a[1, 1], a[2, 2], a[3, 3]]
print(arr)
print(type(arr))
print('=' * 80)
print(a[[0, 1, 2, 3], [0, 1, 2, 3]])

1 8 15 22
(1, 8, 15, 22)
<class 'tuple'>
[1, 8, 15, 22]
<class 'list'>
[ 1  8 15 22]


# 배열 변환
- 배열을 변환하는 방법은 전치, 배열 형태 변경, 배열 요소 추가, 배열 결합, 배열 분리 등이 있다.
- 전치는 행렬의 인덱스가 바뀌는 변환이다.
<br/>
<img src="./numpyImage/numpyImage08.jpg" width="600"/>

In [340]:
# numpy에서 행렬을 전치하기 위해 배열.T 속성을 사용한다.
a = np.random.randint(1, 10, (2, 3))
print(a)
print(a.T)

[[8 9 9]
 [4 8 9]]
[[8 4]
 [9 8]
 [9 9]]


# 배열 형태 변경
- numpy는 배열의 형태를 변경하는 reshape()와 ravel() 메서드를 제공한다.
- reshape() 메서드는 데이터 변경 없이 지정된 shape으로 배열의 형태를 변환한다.
- ravel() 메서드는 배열의 shape을 1차원으로 변환한다.

In [341]:
a = np.random.randint(1, 10, (2, 3))
print(a)
print(a.ravel())  # 원본 데이터 유지
print(a)
print(type(a))  # <class 'numpy.ndarray'> n-dimensional Array, n차원 배열 객체

[[6 7 4]
 [2 4 9]]
[6 7 4 2 4 9]
[[6 7 4]
 [2 4 9]]
<class 'numpy.ndarray'>


In [342]:
b = a.ravel()
print(b)
b[0] = 999  # 원본 데이터 훼손
print(b)
# ravel() 메서드는 원본 배열의 view를 반환한다.
# ravel() 메서드가 반환한 배열을 수정하면 원본 배열의 내용도 같이 수정된다.
print(a)

[6 7 4 2 4 9]
[999   7   4   2   4   9]
[[999   7   4]
 [  2   4   9]]


In [343]:
a = np.random.randint(1, 10, (2, 3))
print(a)
print('=' * 80)
b = a.reshape(3, 2, 1)
print(b)
print('=' * 80)
b[0][0][0] = 999  # 원본 데이터 훼손
print(b)
print('=' * 80)
# reshape() 메서드도 원본 배열의 view를 반환한다.
# reshape() 메서드가 반환한 배열을 수정하면 원본 배열의 내용도 같이 수정된다.
print(a)

[[5 3 8]
 [6 4 6]]
[[[5]
  [3]]

 [[8]
  [6]]

 [[4]
  [6]]]
[[[999]
  [  3]]

 [[  8]
  [  6]]

 [[  4]
  [  6]]]
[[999   3   8]
 [  6   4   6]]


- resize() 메서드로 배열의 shape과 크기를 변경한다.
- np.resize(배열, new_shape)
- resize()와 reshape() 메서드는 shape을 변경한다는 점에서 유사하지만, reshape()은 요소 개수 변경이 불가능하고, resize()는 요소 개수 변경이 가능하다.

In [344]:
a = np.random.randint(1, 10, (2, 6))
print(a)
print('=' * 80)
np.resize(a, (6, 2))
print(a)
print('=' * 80)
# resize() 메서드는 배열을 지정한 shape으로 변경한 새 배열을 리턴한다.
print('=' * 80)
b = np.resize(a, (6, 2))  # np.resize() 메서드는 반드시 실행결과를 새 배열에 저장해서 사용한다.
print(b)

[[2 3 5 3 1 5]
 [6 1 8 1 8 3]]
[[2 3 5 3 1 5]
 [6 1 8 1 8 3]]
[[2 3]
 [5 3]
 [1 5]
 [6 1]
 [8 1]
 [8 3]]


In [345]:
a = np.random.randint(1, 10, (2, 6))
print(a)
print('=' * 80)
a.resize(6, 2)  # 원본 변경
print(a)

[[1 2 6 2 8 9]
 [9 5 7 2 6 7]]
[[1 2]
 [6 2]
 [8 9]
 [9 5]
 [7 2]
 [6 7]]


In [346]:
# 요소 개수(크기)가 변경되는 resize() 메서드
a = np.random.randint(1, 10, (2, 6))
print(a)
print('=' * 80)
# a.reshape(2, 10)    # reshape() 메서드는 원본과 요소의 개수가 다르면 에러가 발생한다.
a.resize(2, 10)  # 크기 증가시 늘어난 요소에는 0이 채워진다.
print(a)
print('=' * 80)
a.resize(2, 4)  # 크기 감소시 초과된 데이터는 분실된다.
print(a)

[[3 3 3 4 4 3]
 [2 8 6 5 7 9]]
[[3 3 3 4 4 3 2 8 6 5]
 [7 9 0 0 0 0 0 0 0 0]]
[[3 3 3 4]
 [4 3 2 8]]


In [347]:
a = np.random.randint(1, 10, (2, 6))
print(a)
print('=' * 80)
a = np.resize(a, (2, 10))  # 늘어난 요소에는 원본 배열 데이터가 반복되어 채워진다.
print(a)
print('=' * 80)
a = np.resize(a, (2, 4))  # 줄어든 요소의 데이터는 분실된다.
print(a)

[[1 5 2 6 4 2]
 [8 8 1 7 1 4]]
[[1 5 2 6 4 2 8 8 1 7]
 [1 4 1 5 2 6 4 2 8 8]]
[[1 5 2 6]
 [4 2 8 8]]


# 배열 요소 추가
append() 메서드는 배열의 끝에 데이터(배열)를 추가한다. axis 속성으로 데이터가 추가되는 방향을 지정할 수 있다.
- np.append(배열, 추가할 데이터, axis)

In [348]:
a = np.random.randint(1, 10, (3, 3))
pprint(a)
b = np.random.randint(10, 19, (3, 3))
pprint(b)

type: <class 'numpy.ndarray'>
shape: (3, 3), dimension: 2, dtype: int64
※ numpy 배열의 데이터
[[6 9 6]
 [5 9 5]
 [8 1 6]]
--------------------------------------------------------------------------------
type: <class 'numpy.ndarray'>
shape: (3, 3), dimension: 2, dtype: int64
※ numpy 배열의 데이터
[[11 14 10]
 [17 13 13]
 [13 11 11]]
--------------------------------------------------------------------------------


In [349]:
# axis를 지정하지 않았을 경우: 1차원 배열로 변환되어 결합된다.
result = np.append(a, b)
pprint(result)
result = np.append(a, b, axis=None)
pprint(result)

type: <class 'numpy.ndarray'>
shape: (18,), dimension: 1, dtype: int64
※ numpy 배열의 데이터
[ 6  9  6  5  9  5  8  1  6 11 14 10 17 13 13 13 11 11]
--------------------------------------------------------------------------------
type: <class 'numpy.ndarray'>
shape: (18,), dimension: 1, dtype: int64
※ numpy 배열의 데이터
[ 6  9  6  5  9  5  8  1  6 11 14 10 17 13 13 13 11 11]
--------------------------------------------------------------------------------


In [350]:
# axis=0으로 지정한 경우
result = np.append(a, b, axis=0)  # a 배열 아래쪽에 b 배열이 추가된다.
pprint(result)

type: <class 'numpy.ndarray'>
shape: (6, 3), dimension: 2, dtype: int64
※ numpy 배열의 데이터
[[ 6  9  6]
 [ 5  9  5]
 [ 8  1  6]
 [11 14 10]
 [17 13 13]
 [13 11 11]]
--------------------------------------------------------------------------------


In [351]:
# axis=0으로 지정하여 아래쪽에 데이터를 추가할 경우 행의 개수는 달라도 상관없으나, 열의 개수는 반드시 동일해야 한다!
diff_shape = np.random.randint(10, 19, (4, 3))  # a 배열과 행의 개수가 다른 배열
pprint(diff_shape)
result = np.append(a, diff_shape, axis=0)
pprint(result)

# diff_shape = np.random.randint(10, 19, (3, 4))  # a 배열과 열의 개수가 다른 배열
# pprint(diff_shape)
# result = np.append(a, diff_shape, axis=0)     # 추가할 데이터가 a 배열과 열의 개수가 다르기 때문에 에러가 발생한다.
# pprint(result)

type: <class 'numpy.ndarray'>
shape: (4, 3), dimension: 2, dtype: int64
※ numpy 배열의 데이터
[[11 16 18]
 [16 10 18]
 [18 10 14]
 [18 15 11]]
--------------------------------------------------------------------------------
type: <class 'numpy.ndarray'>
shape: (7, 3), dimension: 2, dtype: int64
※ numpy 배열의 데이터
[[ 6  9  6]
 [ 5  9  5]
 [ 8  1  6]
 [11 16 18]
 [16 10 18]
 [18 10 14]
 [18 15 11]]
--------------------------------------------------------------------------------


In [352]:
# axis=1으로 지정한 경우
result = np.append(a, b, axis=1)  # a 배열 오른쪽에 b 배열이 추가된다.
pprint(result)

type: <class 'numpy.ndarray'>
shape: (3, 6), dimension: 2, dtype: int64
※ numpy 배열의 데이터
[[ 6  9  6 11 14 10]
 [ 5  9  5 17 13 13]
 [ 8  1  6 13 11 11]]
--------------------------------------------------------------------------------


In [353]:
# axis=1으로 지정하여 오른쪽에 데이터를 추가할 경우 열의 개수는 달라도 상관없으나, 행의 개수는 반드시 동일해야 한다!
diff_shape = np.random.randint(10, 19, (3, 4))  # a 배열과 열의 개수가 다른 배열
pprint(diff_shape)
result = np.append(a, diff_shape, axis=1)
pprint(result)

# diff_shape = np.random.randint(10, 19, (4, 3))  # a 배열과 행의 개수가 다른 배열
# pprint(diff_shape)
# result = np.append(a, diff_shape, axis=1)   # 추가할 데이터가 a 배열과 행의 개수가 다르기 때문에 에러가 발생한다.
# pprint(result)

type: <class 'numpy.ndarray'>
shape: (3, 4), dimension: 2, dtype: int64
※ numpy 배열의 데이터
[[11 12 10 17]
 [16 18 17 12]
 [10 14 16 16]]
--------------------------------------------------------------------------------
type: <class 'numpy.ndarray'>
shape: (3, 7), dimension: 2, dtype: int64
※ numpy 배열의 데이터
[[ 6  9  6 11 12 10 17]
 [ 5  9  5 16 18 17 12]
 [ 8  1  6 10 14 16 16]]
--------------------------------------------------------------------------------


insert() 메서드는 지정한 index에 데이터를 삽입한다. axis 속성으로 데이터가 삽입되는 방향을 지정할 수 있다.
- np.insert(배열, index, 삽입할 데이터, axis)

In [354]:
a = np.random.randint(1, 10, (3, 3))
pprint(a)

type: <class 'numpy.ndarray'>
shape: (3, 3), dimension: 2, dtype: int64
※ numpy 배열의 데이터
[[6 4 7]
 [5 9 6]
 [3 4 9]]
--------------------------------------------------------------------------------


In [355]:
# axis를 지정하지 않으면 None이 기본값이고 배열을 1차원으로 변환한 후 지정된 index에 데이터를 삽입한다.
pprint(np.insert(a, 1, 999999))
pprint(np.insert(a, 1, 999999, axis=None))

type: <class 'numpy.ndarray'>
shape: (10,), dimension: 1, dtype: int64
※ numpy 배열의 데이터
[     6 999999      4      7      5      9      6      3      4      9]
--------------------------------------------------------------------------------
type: <class 'numpy.ndarray'>
shape: (10,), dimension: 1, dtype: int64
※ numpy 배열의 데이터
[     6 999999      4      7      5      9      6      3      4      9]
--------------------------------------------------------------------------------


In [356]:
# axis=0으로 지정하면 index가 1인 행에 데이터를 삽입한다.
pprint(np.insert(a, 1, 999999, axis=0))

type: <class 'numpy.ndarray'>
shape: (4, 3), dimension: 2, dtype: int64
※ numpy 배열의 데이터
[[     6      4      7]
 [999999 999999 999999]
 [     5      9      6]
 [     3      4      9]]
--------------------------------------------------------------------------------


np.delete() 메서드로 지정된 index의 배열을 삭제한다. axis 속성으로 데이터가 삭제되는 방향을 지정할 수 있다.
- np.delete(배열, index, axis)

In [357]:
a = np.random.randint(1, 10, (3, 3))
pprint(a)

type: <class 'numpy.ndarray'>
shape: (3, 3), dimension: 2, dtype: int64
※ numpy 배열의 데이터
[[1 4 3]
 [8 4 3]
 [5 3 1]]
--------------------------------------------------------------------------------


In [358]:
# axis를 지정하지 않으면 None이 기본값이고 배열을 1차원으로 변환한 후 지정된 index의 데이터를 삭제한다.
pprint(np.delete(a, 1))
pprint(np.delete(a, 1, None))

type: <class 'numpy.ndarray'>
shape: (8,), dimension: 1, dtype: int64
※ numpy 배열의 데이터
[1 3 8 4 3 5 3 1]
--------------------------------------------------------------------------------
type: <class 'numpy.ndarray'>
shape: (8,), dimension: 1, dtype: int64
※ numpy 배열의 데이터
[1 3 8 4 3 5 3 1]
--------------------------------------------------------------------------------


In [359]:
# axis=0으로 지정하면 index가 1인 행의 데이터를 삭제한다.
pprint(np.delete(a, 1, axis=0))

type: <class 'numpy.ndarray'>
shape: (2, 3), dimension: 2, dtype: int64
※ numpy 배열의 데이터
[[1 4 3]
 [5 3 1]]
--------------------------------------------------------------------------------


In [360]:
# axis=1으로 지정하면 index가 1인 열의 데이터를 삭제한다.
pprint(np.delete(a, 1, axis=1))

type: <class 'numpy.ndarray'>
shape: (3, 2), dimension: 2, dtype: int64
※ numpy 배열의 데이터
[[1 3]
 [8 3]
 [5 1]]
--------------------------------------------------------------------------------


# 배열 결합
- 배열과 배열을 결합하는 np.concatenate(), np.vstack(), np.hstack() 메서드를 제공한다.

np.concatenate() 메서드는 axis로 결합할 방향을 지정하여 배열을 결합한다.
np.concatenate((배열1, 배열2, ...), axis)

In [361]:
a = np.random.randint(1, 10, (2, 3))
pprint(a)
b = np.random.randint(10, 19, (2, 3))
# b = np.random.randint(10, 19, (2, 4)) # ValueError
pprint(b)

type: <class 'numpy.ndarray'>
shape: (2, 3), dimension: 2, dtype: int64
※ numpy 배열의 데이터
[[4 7 5]
 [5 9 4]]
--------------------------------------------------------------------------------
type: <class 'numpy.ndarray'>
shape: (2, 3), dimension: 2, dtype: int64
※ numpy 배열의 데이터
[[18 11 16]
 [11 10 14]]
--------------------------------------------------------------------------------


In [362]:
# axis를 지정하지 않으면 0이 기본값이고 아래쪽으로 배열을 결합한다. 결합할 배열들의 열의 개수가 다르면 에러가 발생한다.
result = np.concatenate((a, b))
pprint(result)
result = np.concatenate((a, b), axis=0)
pprint(result)

type: <class 'numpy.ndarray'>
shape: (4, 3), dimension: 2, dtype: int64
※ numpy 배열의 데이터
[[ 4  7  5]
 [ 5  9  4]
 [18 11 16]
 [11 10 14]]
--------------------------------------------------------------------------------
type: <class 'numpy.ndarray'>
shape: (4, 3), dimension: 2, dtype: int64
※ numpy 배열의 데이터
[[ 4  7  5]
 [ 5  9  4]
 [18 11 16]
 [11 10 14]]
--------------------------------------------------------------------------------


In [363]:
# axis=1으로 지정하면 오른쪽으로 배열을 결합한다. 결합할 배열들의 행의 개수가 다르면 에러가 발생한다.
result = np.concatenate((a, b), axis=1)
pprint(result)

type: <class 'numpy.ndarray'>
shape: (2, 6), dimension: 2, dtype: int64
※ numpy 배열의 데이터
[[ 4  7  5 18 11 16]
 [ 5  9  4 11 10 14]]
--------------------------------------------------------------------------------


np.vstack() 메서드는 인수로 지정된 튜플 타입의 배열을 수직 방향(axis=0)으로 결합한다.
- np.concatenate((배열1, 배열2, ...), axis=0)와 동일한 기능이 실행된다.
- np.vstack((배열1, 배열2, ...))

In [364]:
a = np.random.randint(1, 10, (2, 3))
pprint(a)
b = np.random.randint(10, 19, (2, 3))
pprint(b)

type: <class 'numpy.ndarray'>
shape: (2, 3), dimension: 2, dtype: int64
※ numpy 배열의 데이터
[[9 5 2]
 [5 7 6]]
--------------------------------------------------------------------------------
type: <class 'numpy.ndarray'>
shape: (2, 3), dimension: 2, dtype: int64
※ numpy 배열의 데이터
[[11 15 18]
 [17 18 11]]
--------------------------------------------------------------------------------


In [365]:
pprint(np.vstack((a, b)))

type: <class 'numpy.ndarray'>
shape: (4, 3), dimension: 2, dtype: int64
※ numpy 배열의 데이터
[[ 9  5  2]
 [ 5  7  6]
 [11 15 18]
 [17 18 11]]
--------------------------------------------------------------------------------


np.hstack() 메서드는 인수로 지정된 튜플 타입의 배열을 수평 방향(axis=1)으로 결합한다.
- np.concatenate((배열1, 배열2, ...), axis=1)와 동일한 기능이 실행된다.
- np.hstack((배열1, 배열2, ...))

In [366]:
pprint(np.hstack((a, b)))

type: <class 'numpy.ndarray'>
shape: (2, 6), dimension: 2, dtype: int64
※ numpy 배열의 데이터
[[ 9  5  2 11 15 18]
 [ 5  7  6 17 18 11]]
--------------------------------------------------------------------------------


# 배열 분리
- numpy는 배열을 수직(열) 방향으로 분할하는 np.vsplit()과 수평(행) 방향으로 분할하는 np.hsplit() 메서드를 제공한다.

In [367]:
a = np.arange(1, 25).reshape(4, 6)
pprint(a)

type: <class 'numpy.ndarray'>
shape: (4, 6), dimension: 2, dtype: int64
※ numpy 배열의 데이터
[[ 1  2  3  4  5  6]
 [ 7  8  9 10 11 12]
 [13 14 15 16 17 18]
 [19 20 21 22 23 24]]
--------------------------------------------------------------------------------


np.hsplit() 메서드로 배열을 수평 방향으로 분할한다.
- np.hsplit(배열, 분할 개수)

In [368]:
result = np.hsplit(a, 2)  # hsplit() 메서드의 실행결과 리턴값은 numpy 배열을 저장하고 있는 파이썬 list 형태로 리턴된다.
print(type(result))  # <class 'list'>
print(result)
print(type(result[0]))  # <class 'numpy.ndarray'>
print(type(result[1]))

<class 'list'>
[array([[ 1,  2,  3],
       [ 7,  8,  9],
       [13, 14, 15],
       [19, 20, 21]]), array([[ 4,  5,  6],
       [10, 11, 12],
       [16, 17, 18],
       [22, 23, 24]])]
<class 'numpy.ndarray'>
<class 'numpy.ndarray'>


<img src="./numpyImage/numpyImage09.jpg" width="1500"/>

In [369]:
result = np.hsplit(a, 3)
print(result)

[array([[ 1,  2],
       [ 7,  8],
       [13, 14],
       [19, 20]]), array([[ 3,  4],
       [ 9, 10],
       [15, 16],
       [21, 22]]), array([[ 5,  6],
       [11, 12],
       [17, 18],
       [23, 24]])]


<img src="./numpyImage/numpyImage10.jpg" width="1500"/>

In [370]:
result = np.hsplit(a, [1, 3, 5])
print(result)

[array([[ 1],
       [ 7],
       [13],
       [19]]), array([[ 2,  3],
       [ 8,  9],
       [14, 15],
       [20, 21]]), array([[ 4,  5],
       [10, 11],
       [16, 17],
       [22, 23]]), array([[ 6],
       [12],
       [18],
       [24]])]


<img src="./numpyImage/numpyImage11.jpg" width="1500"/>

np.vsplit() 메서드로 배열을 수직 방향으로 분할한다.
- np.vsplit(배열, 분할 개수)

In [371]:
result = np.vsplit(a, 2)
print(result)

[array([[ 1,  2,  3,  4,  5,  6],
       [ 7,  8,  9, 10, 11, 12]]), array([[13, 14, 15, 16, 17, 18],
       [19, 20, 21, 22, 23, 24]])]


<img src="./numpyImage/numpyImage12.jpg" width="1500"/>

In [372]:
result = np.vsplit(a, 4)
print(result)

[array([[1, 2, 3, 4, 5, 6]]), array([[ 7,  8,  9, 10, 11, 12]]), array([[13, 14, 15, 16, 17, 18]]), array([[19, 20, 21, 22, 23, 24]])]


<img src="./numpyImage/numpyImage13.jpg" width="1500"/>

In [373]:
result = np.vsplit(a, [1, 3])
print(result)

[array([[1, 2, 3, 4, 5, 6]]), array([[ 7,  8,  9, 10, 11, 12],
       [13, 14, 15, 16, 17, 18]]), array([[19, 20, 21, 22, 23, 24]])]


<img src="./numpyImage/numpyImage14.jpg" width="1500"/>