In [1]:
import warnings
warnings.filterwarnings('ignore')
import numpy as np

def pprint(arr):
    print('type: {}'.format(type(arr)))
    print('shape: {}, dimension: {}, dtype: {}'.format(arr.shape, arr.ndim, arr.dtype))
    print('numpy 배열의 데이터\n', arr, sep='')

인덱싱  
배열의 각 요소는 axis 인덱스 배열로 참조할 수 있다.  
1차원 배열은 1개의 인덱스, 2차원 배열은 2개의 인덱스, 3차원 배열은 3개의 인덱스로 요소를 참조할 수 있다.  
인덱싱 작업시 [행][열]과 같이 인덱스를 지정하거나 [행, 열]과 같이 인덱스를 지정할 수 있다.

In [2]:
a = np.arange(24) # 1차원 배열
pprint(a)
b = np.arange(24).reshape(4, 6) # 2차원 배열
pprint(b)
c = np.arange(24).reshape(2, 4, 3) # 3차원 배열
pprint(c)

type: <class 'numpy.ndarray'>
shape: (24,), dimension: 1, dtype: int32
numpy 배열의 데이터
[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23]
type: <class 'numpy.ndarray'>
shape: (4, 6), dimension: 2, dtype: int32
numpy 배열의 데이터
[[ 0  1  2  3  4  5]
 [ 6  7  8  9 10 11]
 [12 13 14 15 16 17]
 [18 19 20 21 22 23]]
type: <class 'numpy.ndarray'>
shape: (2, 4, 3), dimension: 3, dtype: int32
numpy 배열의 데이터
[[[ 0  1  2]
  [ 3  4  5]
  [ 6  7  8]
  [ 9 10 11]]

 [[12 13 14]
  [15 16 17]
  [18 19 20]
  [21 22 23]]]


In [3]:
# 1차원 배열 요소 참조 및 변경
print(a[5])
a[5] = 1000000
pprint(a)

5
type: <class 'numpy.ndarray'>
shape: (24,), dimension: 1, dtype: int32
numpy 배열의 데이터
[      0       1       2       3       4 1000000       6       7       8
       9      10      11      12      13      14      15      16      17
      18      19      20      21      22      23]


In [6]:
# 2차원 배열 요소 참조 및 변경
print(b[0][1])
b[0][1] = 100000
pprint(b)
print(b[1, 3])
b[1, 3] = 200000
pprint(b)

100000
type: <class 'numpy.ndarray'>
shape: (4, 6), dimension: 2, dtype: int32
numpy 배열의 데이터
[[     0 100000      2      3      4      5]
 [     6      7      8 200000     10     11]
 [    12     13     14     15     16     17]
 [    18     19     20     21     22     23]]
200000
type: <class 'numpy.ndarray'>
shape: (4, 6), dimension: 2, dtype: int32
numpy 배열의 데이터
[[     0 100000      2      3      4      5]
 [     6      7      8 200000     10     11]
 [    12     13     14     15     16     17]
 [    18     19     20     21     22     23]]


In [8]:
# 3차원 배열 요소 참조 및 변경
print(c[1][0][1])
c[1][0][1] = 999999
pprint(c)
print(c[0, 2, 1])
c[0, 2, 1] = 777777
pprint(c)

999999
type: <class 'numpy.ndarray'>
shape: (2, 4, 3), dimension: 3, dtype: int32
numpy 배열의 데이터
[[[     0      1      2]
  [     3      4      5]
  [     6 777777      8]
  [     9     10     11]]

 [[    12 999999     14]
  [    15     16     17]
  [    18     19     20]
  [    21     22     23]]]
777777
type: <class 'numpy.ndarray'>
shape: (2, 4, 3), dimension: 3, dtype: int32
numpy 배열의 데이터
[[[     0      1      2]
  [     3      4      5]
  [     6 777777      8]
  [     9     10     11]]

 [[    12 999999     14]
  [    15     16     17]
  [    18     19     20]
  [    21     22     23]]]


슬라이싱

In [None]:
print(a)
print(a[2:6])

<img src="./numpyImage/numpyImage06.jpg" width="900" align="left"/>

In [12]:
pprint(b)
print('=' * 80)
pprint(b[1:3]) # 열을 생략하면 행 단위로 슬라이싱을 할 수 있다. b[1:3, :]와 같은 표현이다.
print('=' * 80)
pprint(b[:, 1:5]) # 열 단위로 슬라이싱하려면 행 위치에 ':'을 적어야 한다. 행 위치에 ':'을 찍으면 전체 행을 의미한다.
print('=' * 80)
pprint(b[1:3, 1:5])

type: <class 'numpy.ndarray'>
shape: (4, 6), dimension: 2, dtype: int32
numpy 배열의 데이터
[[     0 100000      2      3      4      5]
 [     6      7      8 200000     10     11]
 [    12     13     14     15     16     17]
 [    18     19     20     21     22     23]]
type: <class 'numpy.ndarray'>
shape: (2, 6), dimension: 2, dtype: int32
numpy 배열의 데이터
[[     6      7      8 200000     10     11]
 [    12     13     14     15     16     17]]
type: <class 'numpy.ndarray'>
shape: (4, 4), dimension: 2, dtype: int32
numpy 배열의 데이터
[[100000      2      3      4]
 [     7      8 200000     10]
 [    13     14     15     16]
 [    19     20     21     22]]
type: <class 'numpy.ndarray'>
shape: (2, 4), dimension: 2, dtype: int32
numpy 배열의 데이터
[[     7      8 200000     10]
 [    13     14     15     16]]


<img src="./numpyImage/numpyImage07.jpg" width="900" align="left"/>

In [13]:
# 음수 인덱싱을 이용한 범위 설정
# 음수 인덱스는 지정한 axis의 마지막 요소부터 반대 방향의 인덱스이고 -1은 마지막 요소의 인덱스를 의미한다.
pprint(b[1:-1, 1:-1])

type: <class 'numpy.ndarray'>
shape: (2, 4), dimension: 2, dtype: int32
numpy 배열의 데이터
[[     7      8 200000     10]
 [    13     14     15     16]]


In [16]:
# 슬라이싱 작업시 아래의 경우에 주의를 필요로 한다.
pprint(b[1:3][1:5]) # b[1:3, :][1:5, :]와 같은 표현이다.
print('=' * 80)
dd = b[1:3, :]
pprint(dd)
print('=' * 80)
ee = dd[1:5, :]
pprint(ee)

type: <class 'numpy.ndarray'>
shape: (1, 6), dimension: 2, dtype: int32
numpy 배열의 데이터
[[12 13 14 15 16 17]]
type: <class 'numpy.ndarray'>
shape: (2, 6), dimension: 2, dtype: int32
numpy 배열의 데이터
[[     6      7      8 200000     10     11]
 [    12     13     14     15     16     17]]
type: <class 'numpy.ndarray'>
shape: (1, 6), dimension: 2, dtype: int32
numpy 배열의 데이터
[[12 13 14 15 16 17]]


In [21]:
# 슬라이싱을 이용한 데이터 수정
pprint(b)
print('=' * 80)
# 슬라이싱을 이용한 배열 생성
slide_arr = b[1:3, 1:5]
pprint(slide_arr)
print('=' * 80)
pprint(slide_arr[:, 1:3])
print('=' * 80)
slide_arr[:, 1:3] = 999999
pprint(slide_arr)
print('=' * 80)
pprint(b)

type: <class 'numpy.ndarray'>
shape: (4, 6), dimension: 2, dtype: int32
numpy 배열의 데이터
[[     0 100000      2      3      4      5]
 [     6      7 999999 999999     10     11]
 [    12     13 999999 999999     16     17]
 [    18     19     20     21     22     23]]
type: <class 'numpy.ndarray'>
shape: (2, 4), dimension: 2, dtype: int32
numpy 배열의 데이터
[[     7 999999 999999     10]
 [    13 999999 999999     16]]
type: <class 'numpy.ndarray'>
shape: (2, 2), dimension: 2, dtype: int32
numpy 배열의 데이터
[[999999 999999]
 [999999 999999]]
type: <class 'numpy.ndarray'>
shape: (2, 4), dimension: 2, dtype: int32
numpy 배열의 데이터
[[     7 999999 999999     10]
 [    13 999999 999999     16]]
type: <class 'numpy.ndarray'>
shape: (4, 6), dimension: 2, dtype: int32
numpy 배열의 데이터
[[     0 100000      2      3      4      5]
 [     6      7 999999 999999     10     11]
 [    12     13 999999 999999     16     17]
 [    18     19     20     21     22     23]]


불린 인덱싱  
numpy의 불린 인덱싱은 배열의 각 요소 선택 여부를 True, False로 지정하는 방식이다.

In [22]:
a = np.arange(24).reshape(4, 6)
pprint(a)

type: <class 'numpy.ndarray'>
shape: (4, 6), dimension: 2, dtype: int32
numpy 배열의 데이터
[[ 0  1  2  3  4  5]
 [ 6  7  8  9 10 11]
 [12 13 14 15 16 17]
 [18 19 20 21 22 23]]


In [24]:
# a 배열에서 요소의 값이 짝수인 요소의 총 합계
# numpy의 브로드캐스팅 기능을 이용해서 배열의 요소 중에서 짝수인 요소를 확인한다.
even_arr1 = a % 2
pprint(even_arr1)
print('=' * 80)
even_arr2 = a % 2 == 0
pprint(even_arr2)

type: <class 'numpy.ndarray'>
shape: (4, 6), dimension: 2, dtype: int32
numpy 배열의 데이터
[[0 1 0 1 0 1]
 [0 1 0 1 0 1]
 [0 1 0 1 0 1]
 [0 1 0 1 0 1]]
type: <class 'numpy.ndarray'>
shape: (4, 6), dimension: 2, dtype: bool
numpy 배열의 데이터
[[ True False  True False  True False]
 [ True False  True False  True False]
 [ True False  True False  True False]
 [ True False  True False  True False]]


In [25]:
# 불린 인덱싱은 브로드캐스팅 결과가 True인 요소들만 추출한다.
pprint(a[even_arr2])
pprint(a[a % 2 == 0])

type: <class 'numpy.ndarray'>
shape: (12,), dimension: 1, dtype: int32
numpy 배열의 데이터
[ 0  2  4  6  8 10 12 14 16 18 20 22]
type: <class 'numpy.ndarray'>
shape: (12,), dimension: 1, dtype: int32
numpy 배열의 데이터
[ 0  2  4  6  8 10 12 14 16 18 20 22]


In [30]:
pprint(np.sum(a))
pprint(a[a % 2 == 0].sum())
pprint(np.sum(a[a % 2 == 0]))
pprint(a[a % 2 == 1].sum())
pprint(np.sum(a[a % 2 == 1]))

type: <class 'numpy.int32'>
shape: (), dimension: 0, dtype: int32
numpy 배열의 데이터
276
type: <class 'numpy.int32'>
shape: (), dimension: 0, dtype: int32
numpy 배열의 데이터
132
type: <class 'numpy.int32'>
shape: (), dimension: 0, dtype: int32
numpy 배열의 데이터
132
type: <class 'numpy.int32'>
shape: (), dimension: 0, dtype: int32
numpy 배열의 데이터
144
type: <class 'numpy.int32'>
shape: (), dimension: 0, dtype: int32
numpy 배열의 데이터
144


불린 인덱싱 응용  
데이터 파일 => 2014년 시애틀 강수량 데이터 => ./data/Seattle2014.csv  
2014년 시애틀 1월 평균 강수량?

In [None]:
import pandas as pd

In [None]:
# 판다스의 read_csv() 함수로 csv 파일을 데이터프레임으로 읽어들인다.
rain_in_seattle = pd.read_csv('./data/Seattle2014.csv')
print(type(rain_in_seattle))
rain_in_seattle

In [None]:
# 2014년 시애틀 강수량 데이터의 강수량 열(PRCP)의 데이터만 추출한다.
# 데이터프레임의 특정 열 1개 추출하기
#     => 데이터프레임이름['열이름'], 데이터프레임이름.get('열이름'), 데이터프레임이름.열이름 => 인덱스도 같이 추출된다.
# rain_arr = rain_in_seattle['PRCP']
# rain_arr = rain_in_seattle.get('PRCP')
# rain_arr = rain_in_seattle.PRCP
# print(type(rain_arr)) # <class 'pandas.core.series.Series'> => 데이터프레임을 구성하는 열 1개

# 데이터만 얻어오기 위해서는 values 속성을 사용하고 인덱스만 얻어오려면 index 속성을 사용한다.
# values 속성을 이용해서 Series의 데이터만 얻어오면 넘파이 배열 형태로 얻어온다.
# rain_arr = rain_in_seattle['PRCP'].values
# rain_arr = rain_in_seattle.get('PRCP').values
rain_arr = rain_in_seattle.PRCP.values
# print(type(rain_arr)) # <class 'numpy.ndarray'>
print(rain_arr)
print('Data Size:', len(rain_arr))

In [None]:
days_arr = np.arange(0, 365) # 날짜 배열
print(days_arr[:40])
condition_jan = days_arr < 31 # 1월의 날 수 만큼 불린 인덱스를 생성한다.
print(condition_jan[:40])

In [None]:
# 불린 인덱싱을 이용해서 1월의 강수량만 추출한다.
rain_jan = rain_arr[condition_jan]
print(rain_jan)
print(len(rain_jan))

In [None]:
print('1월 강수량 합계: {}'.format(np.sum(rain_jan)))
print('1월 강수량 평균: {}'.format(np.mean(rain_jan)))

팬시 인덱싱  
배열에 인덱스 배열을 전달해 요소를 참조하는 방법이다.

In [None]:
a = np.arange(1, 25).reshape(4, 6)
print(a)

In [None]:
print(a[0, 0], a[1, 1] ,a[2, 2], a[3, 3])
arr = a[0, 0], a[1, 1] ,a[2, 2], a[3, 3]
print(arr)
print(type(arr))
arr = [a[0, 0], a[1, 1] ,a[2, 2], a[3, 3]]
print(arr)
print(type(arr))
print('=' * 80)
print(a[[0, 1, 2, 3], (0, 1, 2, 3)]) # 팬시 인덱싱

배열 변환  
배열을 변환하는 방법은 전치, 배열의 shape, 배열 요소 추가, 배열 결합, 배열 분리 등이 있다.

전치는 행렬의 인덱스가 바뀌는 변환이다.

<img src="./numpyImage/numpyImage08.jpg" width="250" align="left"/>

In [None]:
# numpy에서 행렬을 전치하기 위해 배열.T 속성을 사용한다.
a = np.random.randint(1, 10, (2, 3))
print(a)
print(a.T)

배열 형태 변경  
numpy는 배열의 형태를 변경하는 reshape() 함수와 ravel() 함수를 제공한다.  
reshape() 함수는 데이터 변경없이 지정된 shape으로 배열의 형태를 변환한다.  
ravel() 함수는 배열의 shape를 1차원으로 변환한다.

In [None]:
a = np.random.randint(1, 10, (2, 3))
print(a)
print(a.ravel())
print(a)

In [None]:
b = a.ravel()
print(b)
b[4] = 999
print(b)
print('=' * 80)
# ravel() 함수는 원본 배열의 view를 반환한다.
# ravel() 함수가 반환한 배열을 수정하면 원본 배열의 내용이 같이 수정된다.
print(a)

In [None]:
a = np.random.randint(1, 10, (2, 3))
print(a)
print('=' * 80)
b = a.reshape(3, 2, 1)
print(b)
print('=' * 80)
b[0][0][0] = 999
print(b)
print('=' * 80)
# reshape() 함수도 원본 배열의 view를 반환한다.
# reshape() 함수가 반환한 배열을 수정하면 원본 배열의 내용이 같이 수정된다.
print(a)

resize() 함수로 배열의 shape과 크기를 변경한다.  
배열.resize(new_shape), np.resize(배열, new_shape)  
resize() 함수와 reshape() 함수는 shape을 변경한다는 부분에서 유사하지만 reshape() 함수는 요소의 개수를 변경하지 못하는 반면에 resize() 함수는 shape을 변경하는 과정에서 요소의 개수를 줄이거나 늘릴 수 있다.

In [None]:
a = np.random.randint(1, 10, (2, 6))
print(a)
print('=' * 80)
np.resize(a, (6, 2))
print(a)
print('=' * 80)
# print(np.resize(a, (6, 2))) # resize() 함수는 배열을 지정한 shape으로 변경한 새 배열을 리턴한다.
print('=' * 80)
b = np.resize(a, (6, 2)) # np.resize() 함수는 반드시 실행 결과를 새 배열에 저장시켜 사용한다.
print(b)

In [None]:
a = np.random.randint(1, 10, (2, 6))
print(a)
print('=' * 80)
a.resize(6, 2) # 배열.resize() 함수를 실행하면 원본 배열의 shape이 변경된다.
print(a)

In [None]:
# 요소의 개수(크기)가 변경되는 resize() 함수
a = np.random.randint(1, 10, (2, 6))
print(a)
print('=' * 80)
# a.reshape(2, 10) # reshape() 함수는 원본과 요소의 개수가 다르면 에러가 발생된다.
a.resize(2, 10) # 배열의 요소 개수가 12개에서 20개로 늘어나고 늘어난 요소에는 0이 채워진다.
print(a)
print('=' * 80)
a.resize(2, 4) # 배열의 요소 개수가 20개에서 8개로 줄어들고 줄어든 요소의 데이터는 분실된다.
print(a)

In [32]:
a = np.random.randint(1, 10, (2, 6))
print(a)
print('=' * 80)
a = np.resize(a, (2, 10)) # 배열의 요소 개수가 12개에서 20개로 늘어나고 늘어난 요소에는 원본 배열 데이터가 반복되서 채워진다.
print(a)
print('=' * 80)
a = np.resize(a, (2, 4)) # 배열의 요소 개수가 20개에서 8개로 줄어들고 줄어든 요소의 데이터는 분실된다.
print(a)

[[6 5 1 3 6 2]
 [3 5 4 3 3 1]]
[[6 5 1 3 6 2 3 5 4 3]
 [3 1 6 5 1 3 6 2 3 5]]
[[6 5 1 3]
 [6 2 3 5]]


append() 함수는 배열의 끝에 데이터(배열)을 추가한다. axis로 데이터가 추가되는 방향을 지정할 수 있다.  
np.append(배열 이름, 추가할 데이터, axis)

In [33]:
a = np.random.randint(1, 10, (3, 3))
pprint(a)
b = np.random.randint(10, 19, (3, 3))
pprint(b)

type: <class 'numpy.ndarray'>
shape: (3, 3), dimension: 2, dtype: int32
numpy 배열의 데이터
[[6 1 7]
 [2 1 9]
 [2 1 1]]
type: <class 'numpy.ndarray'>
shape: (3, 3), dimension: 2, dtype: int32
numpy 배열의 데이터
[[16 18 12]
 [15 15 17]
 [18 17 17]]


In [35]:
# axis를 지정하지 않았을 경우
# axis를 지정하지 않으면 배열은 1차원 배열로 변환되서 결합된다.
result = np.append(a, b)
pprint(result)
result = np.append(a, b, axis=None)
pprint(result)

type: <class 'numpy.ndarray'>
shape: (18,), dimension: 1, dtype: int32
numpy 배열의 데이터
[ 6  1  7  2  1  9  2  1  1 16 18 12 15 15 17 18 17 17]
type: <class 'numpy.ndarray'>
shape: (18,), dimension: 1, dtype: int32
numpy 배열의 데이터
[ 6  1  7  2  1  9  2  1  1 16 18 12 15 15 17 18 17 17]


In [36]:
# axis=0으로 지정한 경우
result = np.append(a, b, axis=0) # a 배열 아래쪽에 b 배열이 추가된다.
pprint(result)

type: <class 'numpy.ndarray'>
shape: (6, 3), dimension: 2, dtype: int32
numpy 배열의 데이터
[[ 6  1  7]
 [ 2  1  9]
 [ 2  1  1]
 [16 18 12]
 [15 15 17]
 [18 17 17]]


In [43]:
# axis=0으로 지정해서 아래쪽에 데이터를 추가할 경우 행의 개수는 달라도 상관없지만 열의 개수는 반드시 같아야 한다.
diff_shape = np.random.randint(10, 19, (4, 3)) # a 배열과 행의 개수가 다른 배열
pprint(diff_shape)
result = np.append(a, diff_shape, axis=0)
pprint(result)
print('=' * 80)
# diff_shape = np.random.randint(10, 19, (3, 4)) # a 배열과 열의 개수가 다른 배열
# pprint(diff_shape)
# result = np.append(a, diff_shape, axis=0) # 추가할 데이터가 a 배열과 열의 개수가 다르기 때문에 에러가 발생된다.
# pprint(result)

type: <class 'numpy.ndarray'>
shape: (4, 3), dimension: 2, dtype: int32
numpy 배열의 데이터
[[17 10 15]
 [12 16 13]
 [18 18 18]
 [12 11 12]]
type: <class 'numpy.ndarray'>
shape: (7, 3), dimension: 2, dtype: int32
numpy 배열의 데이터
[[ 6  1  7]
 [ 2  1  9]
 [ 2  1  1]
 [17 10 15]
 [12 16 13]
 [18 18 18]
 [12 11 12]]


In [44]:
# axis=1으로 지정한 경우
result = np.append(a, b, axis=1) # a 배열 오른쪽에 b 배열이 추가된다.
pprint(result)

type: <class 'numpy.ndarray'>
shape: (3, 6), dimension: 2, dtype: int32
numpy 배열의 데이터
[[ 6  1  7 16 18 12]
 [ 2  1  9 15 15 17]
 [ 2  1  1 18 17 17]]


In [47]:
# axis=1로 지정해서 오른쪽에 데이터를 추가할 경우 열의 개수는 달라도 상관없지만 행의 개수는 반드시 같아야 한다.
diff_shape = np.random.randint(10, 19, (3, 4)) # a 배열과 열의 개수가 다른 배열
pprint(diff_shape)
result = np.append(a, diff_shape, axis=1)
pprint(result)
print('=' * 80)
# diff_shape = np.random.randint(10, 19, (4, 3)) # a 배열과 행의 개수가 다른 배열
# pprint(diff_shape)
# result = np.append(a, diff_shape, axis=1) # 추가할 데이터가 a 배열과 행의 개수가 다르기 때문에 에러가 발생된다.
# pprint(result)

type: <class 'numpy.ndarray'>
shape: (3, 4), dimension: 2, dtype: int32
numpy 배열의 데이터
[[16 15 10 12]
 [13 13 13 12]
 [13 15 15 13]]
type: <class 'numpy.ndarray'>
shape: (3, 7), dimension: 2, dtype: int32
numpy 배열의 데이터
[[ 6  1  7 16 15 10 12]
 [ 2  1  9 13 13 13 12]
 [ 2  1  1 13 15 15 13]]


insert() 함수는 지정한 index에 데이터를 삽입한다. axis로 데이터가 삽입되는 방향을 지정할 수 있다.  
np.insert(배열 이름, index, 삽입할 데이터, axis)

In [None]:
a = np.random.randint(1, 10, (3, 3))
pprint(a)

In [49]:
# axis를 지정하지 않으면 None이 기본값이고 배열을 1차원으로 변환한 후 지정된 index에 데이터를 삽입한다.
pprint(np.insert(a, 1, 99999))
pprint(np.insert(a, 1, 99999, axis=None))

type: <class 'numpy.ndarray'>
shape: (10,), dimension: 1, dtype: int32
numpy 배열의 데이터
[    6 99999     1     7     2     1     9     2     1     1]
type: <class 'numpy.ndarray'>
shape: (10,), dimension: 1, dtype: int32
numpy 배열의 데이터
[    6 99999     1     7     2     1     9     2     1     1]


In [50]:
# axis=0으로 지정하면 index가 1인 행에 데이터를 삽입한다.
pprint(np.insert(a, 1, 99999, axis=0))

type: <class 'numpy.ndarray'>
shape: (4, 3), dimension: 2, dtype: int32
numpy 배열의 데이터
[[    6     1     7]
 [99999 99999 99999]
 [    2     1     9]
 [    2     1     1]]


In [51]:
# axis=1로 지정하면 index가 1인 열에 데이터를 삽입한다.
pprint(np.insert(a, 1, 99999, axis=1))

type: <class 'numpy.ndarray'>
shape: (3, 4), dimension: 2, dtype: int32
numpy 배열의 데이터
[[    6 99999     1     7]
 [    2 99999     1     9]
 [    2 99999     1     1]]


delete() 함수로 지정된 index의 데이터를 삭제한다. axis로 데이터가 삭제되는 방향을 지정할 수 있다.  
np.delete(배열 이름, index, axis)

In [56]:
a = np.random.randint(1, 10, (3, 3))
pprint(a)

type: <class 'numpy.ndarray'>
shape: (3, 3), dimension: 2, dtype: int32
numpy 배열의 데이터
[[1 5 7]
 [5 8 5]
 [6 4 9]]


In [57]:
# axis를 지정하지 않으면 None이 기본값이고 배열을 1차원으로 변환한 후 지정된 index에 데이터를 삭제한다.
pprint(np.delete(a, 1))
pprint(np.delete(a, 1, axis=None))

type: <class 'numpy.ndarray'>
shape: (8,), dimension: 1, dtype: int32
numpy 배열의 데이터
[1 7 5 8 5 6 4 9]
type: <class 'numpy.ndarray'>
shape: (8,), dimension: 1, dtype: int32
numpy 배열의 데이터
[1 7 5 8 5 6 4 9]


In [58]:
# axis=0으로 지정하면 index가 1인 행의 데이터를 삭제한다.
pprint(np.delete(a, 1, axis=0))

type: <class 'numpy.ndarray'>
shape: (2, 3), dimension: 2, dtype: int32
numpy 배열의 데이터
[[1 5 7]
 [6 4 9]]


In [59]:
# axis=1으로 지정하면 index가 1인 열의 데이터를 삭제한다.
pprint(np.delete(a, 1, axis=1))

type: <class 'numpy.ndarray'>
shape: (3, 2), dimension: 2, dtype: int32
numpy 배열의 데이터
[[1 7]
 [5 5]
 [6 9]]


배열 결합  
배열과 배열을 결합하는 np.concatenate(), np.vstack(), np.hstack() 함수를 제공한다.

np.concatenate() 함수는 axis로 결합할 방향을 지정해 배열을 결합한다.  
np.concatenate((배열1, 배열2, ...), axis)

In [73]:
a = np.random.randint(1, 10, (2, 3))
pprint(a)
b = np.random.randint(10, 19, (2, 3))
pprint(b)

type: <class 'numpy.ndarray'>
shape: (2, 3), dimension: 2, dtype: int32
numpy 배열의 데이터
[[3 2 7]
 [8 9 3]]
type: <class 'numpy.ndarray'>
shape: (2, 3), dimension: 2, dtype: int32
numpy 배열의 데이터
[[18 18 16]
 [16 10 15]]


In [74]:
# axis를 지정하지 않으면 0이 기본값이고 아래쪽으로 배열을 결합한다. 결합할 배열들이 열의 개수가 다르면 에러가 발생된다.
result = np.concatenate((a, b))
pprint(result)
result = np.concatenate((a, b), axis=0)
pprint(result)

type: <class 'numpy.ndarray'>
shape: (4, 3), dimension: 2, dtype: int32
numpy 배열의 데이터
[[ 3  2  7]
 [ 8  9  3]
 [18 18 16]
 [16 10 15]]
type: <class 'numpy.ndarray'>
shape: (4, 3), dimension: 2, dtype: int32
numpy 배열의 데이터
[[ 3  2  7]
 [ 8  9  3]
 [18 18 16]
 [16 10 15]]


In [75]:
# axis=1로 지정하면 오른쪽으로 배열을 결합한다. 결합할 배열들이 행의 개수가 다르면 에러가 발생된다.
result = np.concatenate((a, b), axis=1)
pprint(result)

type: <class 'numpy.ndarray'>
shape: (2, 6), dimension: 2, dtype: int32
numpy 배열의 데이터
[[ 3  2  7 18 18 16]
 [ 8  9  3 16 10 15]]


np.vstack() 함수는 인수로 지정된 튜플 타입의 배열을 수직 방향(axis=0)으로 결합한다.  
np.concatenate((배열1, 배열2, ...), axis=0)와 동일한 기능이 실행된다.  
np.vstack((배열1, 배열2, ...))

In [88]:
a = np.random.randint(1, 10, (2, 3))
pprint(a)
b = np.random.randint(10, 19, (2, 3))
pprint(b)

type: <class 'numpy.ndarray'>
shape: (2, 3), dimension: 2, dtype: int32
numpy 배열의 데이터
[[3 7 1]
 [9 6 6]]
type: <class 'numpy.ndarray'>
shape: (2, 3), dimension: 2, dtype: int32
numpy 배열의 데이터
[[16 15 13]
 [13 10 18]]


In [89]:
pprint(np.vstack((a, b))) # 결합할 배열들이 열의 개수가 다르면 에러가 발생된다.

type: <class 'numpy.ndarray'>
shape: (4, 3), dimension: 2, dtype: int32
numpy 배열의 데이터
[[ 3  7  1]
 [ 9  6  6]
 [16 15 13]
 [13 10 18]]


np.hstack() 함수는 인수로 지정된 튜플 타입의 배열을 수평 방향(axis=1)으로 결합한다.  
np.concatenate((배열1, 배열2, ...), axis=1)와 동일한 기능이 실행된다.  
np.hstack((배열1, 배열2, ...))

In [90]:
pprint(np.hstack((a, b))) # 결합할 배열들이 행의 개수가 다르면 에러가 발생된다.

type: <class 'numpy.ndarray'>
shape: (2, 6), dimension: 2, dtype: int32
numpy 배열의 데이터
[[ 3  7  1 16 15 13]
 [ 9  6  6 13 10 18]]


배열 분리  
numpy는 배열을 수직(열) 방향으로 분할하는 np.vsplit() 함수와 수평(행) 방향으로 분할하는 np.hsplit() 함수를 제공한다.

In [91]:
a = np.arange(1, 25).reshape(4, 6)
pprint(a)

type: <class 'numpy.ndarray'>
shape: (4, 6), dimension: 2, dtype: int32
numpy 배열의 데이터
[[ 1  2  3  4  5  6]
 [ 7  8  9 10 11 12]
 [13 14 15 16 17 18]
 [19 20 21 22 23 24]]


np.hsplit() 함수로 배열을 수평 방향으로 분할한다.  
np.hsplit(배열 이름, 분할 배열의 개수)

In [97]:
result = np.hsplit(a, 2) # hsplit() 함수의 실행 결과 리턴값은 numpy 배열을 저장된 파이썬 list 형태로 리턴된다.
print(type(result)) # <class 'list'>
print(result)
print(type(result[0])) # <class 'numpy.ndarray'>
print(type(result[1])) # <class 'numpy.ndarray'>

<class 'list'>
[array([[ 1,  2,  3],
       [ 7,  8,  9],
       [13, 14, 15],
       [19, 20, 21]]), array([[ 4,  5,  6],
       [10, 11, 12],
       [16, 17, 18],
       [22, 23, 24]])]
<class 'numpy.ndarray'>
<class 'numpy.ndarray'>


<img src="./numpyImage/numpyImage09.jpg" width="900" align="left"/>

In [98]:
result = np.hsplit(a, 3)
print(result)

[array([[ 1,  2],
       [ 7,  8],
       [13, 14],
       [19, 20]]), array([[ 3,  4],
       [ 9, 10],
       [15, 16],
       [21, 22]]), array([[ 5,  6],
       [11, 12],
       [17, 18],
       [23, 24]])]


<img src="./numpyImage/numpyImage10.jpg" width="900" align="left"/>

In [102]:
result = np.hsplit(a, [1, 3, 5])
print(result)

[array([[ 1],
       [ 7],
       [13],
       [19]]), array([[ 2,  3],
       [ 8,  9],
       [14, 15],
       [20, 21]]), array([[ 4,  5],
       [10, 11],
       [16, 17],
       [22, 23]]), array([[ 6],
       [12],
       [18],
       [24]])]


<img src="./numpyImage/numpyImage11.jpg" width="900" align="left"/>

np.vsplit() 함수로 배열을 수직 방향으로 분할한다.  
np.vsplit(배열 이름, 분할 배열의 개수)

In [103]:
result = np.vsplit(a, 2)
print(result)

[array([[ 1,  2,  3,  4,  5,  6],
       [ 7,  8,  9, 10, 11, 12]]), array([[13, 14, 15, 16, 17, 18],
       [19, 20, 21, 22, 23, 24]])]


<img src="./numpyImage/numpyImage12.jpg" width="900" align="left"/>

In [104]:
result = np.vsplit(a, 4)
print(result)

[array([[1, 2, 3, 4, 5, 6]]), array([[ 7,  8,  9, 10, 11, 12]]), array([[13, 14, 15, 16, 17, 18]]), array([[19, 20, 21, 22, 23, 24]])]


<img src="./numpyImage/numpyImage13.jpg" width="900" align="left"/>

In [105]:
result = np.vsplit(a, [1, 3])
print(result)

[array([[1, 2, 3, 4, 5, 6]]), array([[ 7,  8,  9, 10, 11, 12],
       [13, 14, 15, 16, 17, 18]]), array([[19, 20, 21, 22, 23, 24]])]


<img src="./numpyImage/numpyImage14.jpg" width="900" align="left"/>