In [1]:
%config Completer.use_jedi = False
import warnings
warnings.filterwarnings(action="ignore")
import numpy as np
def pprint(arr):
    print('type -> {}'.format( type(arr) ))
    print('shape -> {}, dimension -> {}, dtype -> {}'.format( arr.shape, arr.ndim, arr.dtype ))
    print('vvv numpy Data vvv\n ', arr, sep='')

***
인덱싱
***
- numpy 배열의 각 요소는 axis 인덱스 배열로 참조할 수 있다.
- 1차원 배열은 1개의 인덱스, 2차원 배열은 2개의 인덱스, 3차원 배열은 3개의 인덱스로 요소를 참조할 수 있다.
- 인덱싱 작업시 [행][열]과 같이 인덱스를 지정하거나, [행, 열]과 같이 인덱스를 지정할 수 있다.  


In [2]:
# 1차원 배열 요소 참조 및 변경
a = np.arange(24) # 1차원 배열
print(a)
print(a[5])
a[5] = 100
print(a)

[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23]
5
[  0   1   2   3   4 100   6   7   8   9  10  11  12  13  14  15  16  17
  18  19  20  21  22  23]


In [3]:
# 2차원 배열 요소 참조 및 변경
b = np.arange(24).reshape(4, 6) # 2차원 배열
print(b)
print(b[1][2])
b[1, 2] = 1000
print(b)

[[ 0  1  2  3  4  5]
 [ 6  7  8  9 10 11]
 [12 13 14 15 16 17]
 [18 19 20 21 22 23]]
8
[[   0    1    2    3    4    5]
 [   6    7 1000    9   10   11]
 [  12   13   14   15   16   17]
 [  18   19   20   21   22   23]]


In [4]:
# 3차원 배열 요소 참조 및 변경
c = np.arange(24).reshape(2, 4, 3) # 3차원 배열
print(c)
print(c[1][3][2])
c[1, 3, 2] = 1000
print(c)

[[[ 0  1  2]
  [ 3  4  5]
  [ 6  7  8]
  [ 9 10 11]]

 [[12 13 14]
  [15 16 17]
  [18 19 20]
  [21 22 23]]]
23
[[[   0    1    2]
  [   3    4    5]
  [   6    7    8]
  [   9   10   11]]

 [[  12   13   14]
  [  15   16   17]
  [  18   19   20]
  [  21   22 1000]]]


***
슬라이싱
***

In [5]:
print(a)
print(a[2:6])

[  0   1   2   3   4 100   6   7   8   9  10  11  12  13  14  15  16  17
  18  19  20  21  22  23]
[  2   3   4 100]


<img src="./image/numpyImage06.jpg" width="600">

In [6]:
print(b)
print('-' * 100)
# 열을 생략하면 전체 열을 의미하므로 행 단위 슬라이싱을 할 수 있다.
print(b[1:3]) # b[1:3, :] 같은 표현이다.
print('-' * 100)
# 열 단위 슬라이싱을 하려면 행 위치에 반드시 ':'을 적어야 한다. ':' 전체 행을 의미한다.
print(b[:, 1:5])
print('-' * 100)
# 인덱싱은 [행][열] 방식이나 [행, 열] 방식을 모두 사용할 수 있지만,
# 슬라이싱은 [행, 열] 방식만 사용할 수 있다.
# b[1:3][1:5] 방식으로 슬라이싱을 하면 b[1:3]로 슬라이싱한 결과에서  [1:5]로 슬라이싱 한다.
print(b[1:3][1:5])
print('-' * 100)
print(b[1:3, 1:5])

[[   0    1    2    3    4    5]
 [   6    7 1000    9   10   11]
 [  12   13   14   15   16   17]
 [  18   19   20   21   22   23]]
----------------------------------------------------------------------------------------------------
[[   6    7 1000    9   10   11]
 [  12   13   14   15   16   17]]
----------------------------------------------------------------------------------------------------
[[   1    2    3    4]
 [   7 1000    9   10]
 [  13   14   15   16]
 [  19   20   21   22]]
----------------------------------------------------------------------------------------------------
[[12 13 14 15 16 17]]
----------------------------------------------------------------------------------------------------
[[   7 1000    9   10]
 [  13   14   15   16]]


<img src="./image/numpyImage07.jpg" width="600">

In [7]:
#음수 인덱싱을 이용한 범위 설정
#음수 인덱스는 지정한 axis의 마지막 요소부터 반대 방향의 인덱스이고, -1은 마지막 요소의 인덱스를 의미한다.
print(b[1:3, 1:5])
print('-' * 100)
print(b[1:-1, 1:-1])

[[   7 1000    9   10]
 [  13   14   15   16]]
----------------------------------------------------------------------------------------------------
[[   7 1000    9   10]
 [  13   14   15   16]]


In [8]:
#슬라이싱을 이용한 데이터 수정
print(b)
print('-' * 100)
slide_arr = b[1:3, 1:5] # 얕은 복사
print(slide_arr)
print('-' * 100)
slide_arr[:, 1:3] = 777
print(b)
print('-' * 100)
print(slide_arr)

[[   0    1    2    3    4    5]
 [   6    7 1000    9   10   11]
 [  12   13   14   15   16   17]
 [  18   19   20   21   22   23]]
----------------------------------------------------------------------------------------------------
[[   7 1000    9   10]
 [  13   14   15   16]]
----------------------------------------------------------------------------------------------------
[[  0   1   2   3   4   5]
 [  6   7 777 777  10  11]
 [ 12  13 777 777  16  17]
 [ 18  19  20  21  22  23]]
----------------------------------------------------------------------------------------------------
[[  7 777 777  10]
 [ 13 777 777  16]]


***
불리언 인덱싱
***
numpy의 불리언 인덱싱은 배열의 각 요소의 선택 여부를 True, False로 지정하는 방식이다. -> True가 선택된다.

In [9]:
a = np.arange(24).reshape(4, 6) # 2차원 배열
print(a)

[[ 0  1  2  3  4  5]
 [ 6  7  8  9 10 11]
 [12 13 14 15 16 17]
 [18 19 20 21 22 23]]


a 배열에서 요소의 값이 짝수인 요소의 전체 합계

In [10]:
#브로드캐스팅 기능을 이용해서 배열 요소 중에서 짝수인 요소를 확인한다.
even_arr1 = a % 2 #브로드캐스팅
print(even_arr1)
print('-' * 100)
even_arr2 = even_arr1 == 0 # 브로드캐스팅
print(even_arr2)
print('-' * 100)
even_arr = a % 2 == 0
print(even_arr)

[[0 1 0 1 0 1]
 [0 1 0 1 0 1]
 [0 1 0 1 0 1]
 [0 1 0 1 0 1]]
----------------------------------------------------------------------------------------------------
[[ True False  True False  True False]
 [ True False  True False  True False]
 [ True False  True False  True False]
 [ True False  True False  True False]]
----------------------------------------------------------------------------------------------------
[[ True False  True False  True False]
 [ True False  True False  True False]
 [ True False  True False  True False]
 [ True False  True False  True False]]


In [11]:
# 불리언 인덱싱은 브로드캐스팅 결과가 True인 요소들만 추출한다.
print(a[even_arr])
print(a[a % 2 == 0]) 
# a배열에서 2로 나눈 나머지가 0인 값<브로드캐스팅으로 각각의 요소를 2로 나눈 값>
# 들은 True로 가정되고, 아닌 값들은 False로 가정된다. -> 값은 변하지 않고 가상으로 True, False가 설정된다.

[ 0  2  4  6  8 10 12 14 16 18 20 22]
[ 0  2  4  6  8 10 12 14 16 18 20 22]


In [12]:
print(a.sum())
print(np.sum(a))
print(a[a % 2 == 0].sum())
print(np.sum(a[a % 2 == 0]))

276
276
132
132


***
불리언 인덱스 응용
***
데이터 파일 -> 2014년 시애틀 강수량 데이터

In [13]:
import pandas as pd

In [14]:
# 2014년 1월 시애틀의 평균 강수량?????
# pandas의 read_csv() 메소드로 csv 파일을 읽어서 데이터프레임으로 리턴한다.
seattle_df = pd.read_csv('./data/Seattle2014.csv', delimiter=',')
print(type(seattle_df))
seattle_df

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,STATION,STATION_NAME,DATE,PRCP,SNWD,SNOW,TMAX,TMIN,AWND,WDF2,WDF5,WSF2,WSF5,WT01,WT05,WT02,WT03
0,GHCND:USW00024233,SEATTLE TACOMA INTERNATIONAL AIRPORT WA US,20140101,0,0,0,72,33,12,340,310,36,40,-9999,-9999,-9999,-9999
1,GHCND:USW00024233,SEATTLE TACOMA INTERNATIONAL AIRPORT WA US,20140102,41,0,0,106,61,32,190,200,94,116,-9999,-9999,-9999,-9999
2,GHCND:USW00024233,SEATTLE TACOMA INTERNATIONAL AIRPORT WA US,20140103,15,0,0,89,28,26,30,50,63,72,1,-9999,-9999,-9999
3,GHCND:USW00024233,SEATTLE TACOMA INTERNATIONAL AIRPORT WA US,20140104,0,0,0,78,6,27,40,40,45,58,1,-9999,-9999,-9999
4,GHCND:USW00024233,SEATTLE TACOMA INTERNATIONAL AIRPORT WA US,20140105,0,0,0,83,-5,37,10,10,67,76,-9999,-9999,-9999,-9999
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
360,GHCND:USW00024233,SEATTLE TACOMA INTERNATIONAL AIRPORT WA US,20141227,33,0,0,94,44,49,210,210,112,161,1,-9999,-9999,-9999
361,GHCND:USW00024233,SEATTLE TACOMA INTERNATIONAL AIRPORT WA US,20141228,41,0,0,67,28,18,50,30,58,72,1,-9999,-9999,-9999
362,GHCND:USW00024233,SEATTLE TACOMA INTERNATIONAL AIRPORT WA US,20141229,0,0,0,61,6,43,350,350,76,103,1,-9999,-9999,-9999
363,GHCND:USW00024233,SEATTLE TACOMA INTERNATIONAL AIRPORT WA US,20141230,0,0,0,33,-21,36,90,70,63,76,-9999,-9999,-9999,-9999


In [15]:
# 2014년 시애틀 강수량 데이터의 강수량 열(시리즈) PRCP의 데이터만 추출한다.
# 데이터프레임의 특정 시리즈 추출하는 방법은 3가지가 있다.
#rain = seattle_df.get('PRCP') # 데이터프레임이름.get('시리즈이름')
#rain = seattle_df['PRCP'] # 데이터프레임이름['시리즈이름']
rain = seattle_df.PRCP # 데이터프레임이름.시리즈이름
print(type(rain))
print(rain)

<class 'pandas.core.series.Series'>
0       0
1      41
2      15
3       0
4       0
       ..
360    33
361    41
362     0
363     0
364     0
Name: PRCP, Length: 365, dtype: int64


In [16]:
# 시리즈에서 인덱스만 얻어오려면 index 속성을 사용하고, 데이터만 얻어오려면 values 속성을 사용한다.
print(type(rain.values)) # 시리즈의 데이터는 numpy 배열 형태로 얻어온다.
print(len(rain.values))
rain_arr = rain.values
print(rain_arr[:40])

<class 'numpy.ndarray'>
365
[  0  41  15   0   0   3 122  97  58  43 213  15   0   0   0   0   0   0
   0   0   0   5   0   0   0   0   0  89 216   0  23  20   0   0   0   0
   0   0  51   5]


In [17]:
days_arr = np.arange(365) #날짜 배열
print(days_arr[:40])
#1월의 날 수 만큼 불리언 인덱스를 생성한다.
january = days_arr < 31
print(january[:40])


[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39]
[ True  True  True  True  True  True  True  True  True  True  True  True
  True  True  True  True  True  True  True  True  True  True  True  True
  True  True  True  True  True  True  True False False False False False
 False False False False]


In [18]:
#불리언 인덱싱을 이용해서 1월의 강수량만 추출한다.
rain_january = rain_arr[january] # january의 실제값은 0-31이다. True가 아니다
print(len(rain_january))
print(rain_january)

31
[  0  41  15   0   0   3 122  97  58  43 213  15   0   0   0   0   0   0
   0   0   0   5   0   0   0   0   0  89 216   0  23]


In [19]:
print('1월 강수량 합계 = {}mm'.format(np.sum(rain_january)))
print('1월 강수량 평균 = {:.1f}mm'.format(np.mean(rain_january)))

1월 강수량 합계 = 940mm
1월 강수량 평균 = 30.3mm


***
팬시 인덱싱
***
배열에 인덱스 배열을 전달해 요소를 참조하는 방법이다.

In [20]:
a = np.arange(1, 25).reshape(4, 6)
print(a)

[[ 1  2  3  4  5  6]
 [ 7  8  9 10 11 12]
 [13 14 15 16 17 18]
 [19 20 21 22 23 24]]


In [28]:
print(a[0, 0], a[1, 1], a[2, 2], a[3, 3])
arr = a[0, 0], a[1, 1], a[2, 2], a[3, 3]
print(type(arr))
print(arr)
arr = [a[0, 0], a[1, 1], a[2, 2], a[3, 3]]
print(type(arr))
print(arr)

print(a[[0, 1, 2, 3], (0, 1, 2, 3)])m

1 8 15 22
<class 'tuple'>
(1, 8, 15, 22)
<class 'list'>
[1, 8, 15, 22]
[ 1  8 15 22]


***
배열 변환
***
배열 변환 방법은 전치, shape 변경, 크기 변경, 요소 추가, 삽입, 삭제, 결합, 분리 등이 있다.  

- 전치 : 행렬의 인덱스가 바뀌는 변환이다.  
<img src="./image/numpyImage08.jpg" width="200"/>

In [30]:
#numpy에서 행렬을 전치하기 위해서 numpy배열.T 속성을 사용한다. 반드시 대문자로 사용한다.
a = np.random.randint(1, 10, (3, 2))
print(a)
print(a.T)

[[7 6]
 [3 7]
 [4 2]]
[[7 3 4]
 [6 7 2]]


numpy는 배열의 형태를 변경하는 reshape() 메소드와 ravel() 메소드를 제공한다.  
- reshape() 메소드는 지정한 shape으로 배열의 형태를 변환하지만,  
- ravel() 메소드는 배열의 shape을 무조건 1차원으로 변환한다.  

In [33]:
a = np.random.randint(1, 10, (3, 2))
print(a)
print(a.ravel()) # ravel() 메소드는 1차원으로 변환한 결과를 리턴한다.
print(a)

[[5 3]
 [4 5]
 [3 5]]
[5 3 4 5 3 5]
[[5 3]
 [4 5]
 [3 5]]


In [36]:
#ravel() 메소드는 원본 배열의 view를 반환한다. -> 얕은 복사를 한다.
#ravel() 메소드가 리턴한 배열을 수정하면 원본 배열의 내용이 같이 수정된다.
b = a.ravel()
print(b)
b[4] = 777
print(b)
print(a)

[  5   3   4   5 777   5]
[  5   3   4   5 777   5]
[[  5   3]
 [  4   5]
 [777   5]]


In [52]:
a = np.random.randint(1, 10, (3, 2))
print(a)
print(a.reshape(3, 2, 1)) # reshape() 메소드는 지정한 shape으로 변환한 결과를 리턴한다.
print(a)

[[6 2]
 [5 1]
 [8 1]]
[[[6]
  [2]]

 [[5]
  [1]]

 [[8]
  [1]]]
[[6 2]
 [5 1]
 [8 1]]


In [41]:
#reshape() 메소드는 원본 배열의 view를 반환한다. -> 얕은 복사를 한다.
#reshape() 메소드가 리턴한 배열을 수정하면 원본 배열의 내용이 같이 수정된다.
b = a.reshape(3, 2, 1)
print(b)
b[1, 1, 0] = 777
print(b)
print(a)

[[[  1]
  [  9]]

 [[  5]
  [777]]

 [[  8]
  [  9]]]
[[[  1]
  [  9]]

 [[  5]
  [777]]

 [[  8]
  [  9]]]
[[  1   9]
 [  5 777]
 [  8   9]]


resize() 메소드로 shape를 지정해서 배열의 크기를 변경할 수 있다.  
***
- numpy배열.resize(new_shape)
- np.resize(numpy배열, new_shape)

In [44]:
a = np.random.randint(1, 10, (2, 6))
print(a)
# numpy배열.resize(new_shape) 형식은 크기가 변경된 배열을 리턴하지 않는다.
print(a.resize(6, 2)) # 원본 배열 자체의 shape를 변경한다.
print(a)

[[2 7 5 7 5 7]
 [8 3 4 5 1 9]]
None
[[2 7]
 [5 7]
 [5 7]
 [8 3]
 [4 5]
 [1 9]]


In [50]:
a = np.random.randint(1, 10, (2, 6))
print(a)
# np.resize(numpy배열, new_shape) 형식은 크기가 변경된 배열을 리턴한다.
print(np.resize(a, (6, 2)))
print(a)
# 원본 배열의 크기를 변경한 결과를 깊은 복사를 해서 리턴한다.; 원본 데이터에 값이 저장되지 않는다.
b = np.resize(a, (6, 2))
print(b)
b[2, 1] = 777
print(b)
print(a)

[[8 1 1 6 1 3]
 [9 2 5 1 7 4]]
[[8 1]
 [1 6]
 [1 3]
 [9 2]
 [5 1]
 [7 4]]
[[8 1 1 6 1 3]
 [9 2 5 1 7 4]]
[[8 1]
 [1 6]
 [1 3]
 [9 2]
 [5 1]
 [7 4]]
[[  8   1]
 [  1   6]
 [  1 777]
 [  9   2]
 [  5   1]
 [  7   4]]
[[8 1 1 6 1 3]
 [9 2 5 1 7 4]]


In [55]:
#reshape() 메소드와 resize() 메소드는 배열의 shape를 변경하는 부분은 같다.
#reshape() 메소드는 배열을 구성하는 요소의 갯수를 변경하지 못하는 반면,
#resize() 메소드는 배열을 구성하는 요소의 갯수를 줄이거나 늘릴 수 있다.
a = np.random.randint(1, 10, (2, 6))
print(a)
# a.reshape(2, 10) # reshape() 메소드는 원본과 요소의 갯수를 다르게 설정하면 에러가 발생된다.
a.resize(2, 10) # 배열 요소의 갯수가 12개에서 20개로 증가하고, 원본 데이터를 제외한 증가된 요소(20 - 12)에 0이 채워진다.
print(a)
a.resize(2, 4) # 배열 요소의 갯수가 20개에서 8개로 감소하고, 감소된 요소 (20 - 8)는 분실된다.
print(a)

[[2 1 5 4 3 7]
 [2 8 2 8 5 1]]
[[2 1 5 4 3 7 2 8 2 8]
 [5 1 0 0 0 0 0 0 0 0]]
[[2 1 5 4]
 [3 7 2 8]]


In [58]:
a = np.random.randint(1, 10, (2, 6))
print(a)
# 배열 요소의 갯수가 12개에서 20개로 증가하고, 원본 데이터를 제외한 증가된 요소(20 - 12)에 원본 배열의 데이터가 반복해서 채워진다.
b = np.resize(a, (2, 10))
print(b)
c = np.resize(a, (2, 4)) # 배열 요소의 갯수가 20개에서 8개로 감소하고, 감소된 요소 (20 - 8)는 분실된다.
print(c)


[[8 3 8 9 9 6]
 [5 3 4 6 7 2]]
[[8 3 8 9 9 6 5 3 4 6]
 [7 2 8 3 8 9 9 6 5 3]]
[[8 3 8 9]
 [9 6 5 3]]


append() 메소드는 axis로 데이터가 추가되는 방향을 지정해서 배열 끝에 데이터(배열)을 추가한다.  
***
np.append(numpy배열, 추가할 배열[, axis])

In [61]:
a = np.random.randint(1, 10, (3, 3))
print(a)
b = np.random.randint(10, 19, (3, 3))
print(b)

[[4 5 8]
 [2 2 4]
 [7 5 7]]
[[15 12 17]
 [17 17 17]
 [16 15 14]]


In [66]:
# axis를 생략하면 None이 기본값으로 사용되고, 1차원으로 변환되어 결합된다.
print(np.append(a, b))
result = np.append(a, b)
print(result)
result = np.append(a, b, axis=None)
print(result)

[ 4  5  8  2  2  4  7  5  7 15 12 17 17 17 17 16 15 14]
[ 4  5  8  2  2  4  7  5  7 15 12 17 17 17 17 16 15 14]
[ 4  5  8  2  2  4  7  5  7 15 12 17 17 17 17 16 15 14]


In [67]:
#axis=0인 경우 열방향(아래쪽)으로 배열을 추가한다.
print(np.append(a, b, axis=0))

[[ 4  5  8]
 [ 2  2  4]
 [ 7  5  7]
 [15 12 17]
 [17 17 17]
 [16 15 14]]


In [74]:
#axis=0인 경우 두 배열이 행의 갯수는 달라도 상관없지만  열의 갯수는 반드시 같아야한다.
c = np.random.randint(10, 19, (4, 3)) # a 배열과 행의 갯수는 다르지만 열의 갯수가 같은 배열
print(c)
print('-'*100)
print(np.append(a, c, axis=0))
print('-'*100)
d = np.random.randint(10, 19, (3, 4)) # a 배열과 행의 갯수는 같지만 열의 갯수가 다른 배열
print(d)
print('-'*100)
#print(np.append(a, d, axis=0)) # a 베열과 d배열의 열의 갯수가 달라 에러가 발생된다.

[[16 10 10]
 [18 16 17]
 [13 17 17]
 [14 12 10]]
----------------------------------------------------------------------------------------------------
[[ 4  5  8]
 [ 2  2  4]
 [ 7  5  7]
 [16 10 10]
 [18 16 17]
 [13 17 17]
 [14 12 10]]
----------------------------------------------------------------------------------------------------
[[16 14 17 13]
 [16 11 14 16]
 [13 18 18 16]]
----------------------------------------------------------------------------------------------------


In [75]:
#axis=1인 경우 행방향(오른쪽)으로 배열을 추가한다.
print(np.append(a, b, axis=1))

[[ 4  5  8 15 12 17]
 [ 2  2  4 17 17 17]
 [ 7  5  7 16 15 14]]


In [77]:
#axis=1인 경우 두 배열이 열의 갯수는 달라도 상관없지만 행의 갯수는 반드시 같아야한다.
c = np.random.randint(10, 19, (4, 3)) # a 배열과 행의 갯수는 다르지만 열의 갯수가 같은 배열
print(c)
print('-'*100)
#print(np.append(a, c, axis=1))  # a 베열과 c배열의 행의 갯수가 달라 에러가 발생된다.
print('-'*100)
d = np.random.randint(10, 19, (3, 4)) # a 배열과 행의 갯수는 같지만 열의 갯수가 다른 배열
print(d)
print('-'*100)
print(np.append(a, d, axis=1))

[[14 13 15]
 [10 18 15]
 [13 17 16]
 [10 14 15]]
----------------------------------------------------------------------------------------------------
----------------------------------------------------------------------------------------------------
[[11 11 12 11]
 [17 17 13 16]
 [17 14 17 14]]
----------------------------------------------------------------------------------------------------
[[ 4  5  8 11 11 12 11]
 [ 2  2  4 17 17 13 16]
 [ 7  5  7 17 14 17 14]]


insert() 메소드는 axis로 데이터가 삽입되는 방향을 지정해서 지정한 인덱스에 데이터(배열)을 추가한다.
***
np.insert(numpy배열, 삽입할인덱스, 삽입할 배열[, axis])

In [78]:
a = np.random.randint(1, 10, (3, 3))
print(a)

[[4 9 4]
 [1 8 3]
 [9 1 9]]


In [79]:
# axis를 생략하면 None이 기본값으로 사용되고, 1차원으로 변환해서 지정한 인덱스에 삽입한다.
print(np.insert(a, 1, 999))
print(np.insert(a, 1, 999, axis=None))

[  4 999   9   4   1   8   3   9   1   9]


In [80]:
# axis=0을 지정하면 열방향 인덱스에 데이터를 삽입한다.
print(np.insert(a, 1, 999, axis=0))

[[  4   9   4]
 [999 999 999]
 [  1   8   3]
 [  9   1   9]]


In [81]:
# axis=1을 지정하면 행방향 인덱스에 데이터를 삽입한다.
print(np.insert(a, 1, 999, axis=1))

[[  4 999   9   4]
 [  1 999   8   3]
 [  9 999   1   9]]


delete() 메소드는 axis로 데이터가 삭제되는 방향을 지정해서 지정한 인덱스에 데이터(배열)을 삭제한다.
***
np.delete(numpy배열, 삭제할인덱스[, axis])

In [82]:
a = np.random.randint(1, 10, (3, 3))
print(a)

[[6 4 2]
 [3 2 9]
 [3 2 6]]


In [83]:
# axis를 생략하면 None이 기본값으로 사용되고, 1차원으로 변환해서 지정한 인덱스의 데이터를 삭제한다.
print(np.delete(a, 1))
print(np.delete(a, 1, axis=None))

[6 2 3 2 9 3 2 6]
[6 2 3 2 9 3 2 6]


In [87]:
# axis=0을 지정하면 열방향 인덱스의 데이터를 삭제한다.
print(np.delete(a, 1, axis=0))

[[6 4 2]
 [3 2 6]]


In [88]:
# axis=1을 지정하면 행방향 인덱스의 데이터를 삭제한다.
print(np.delete(a, 1, axis=1))

[[6 2]
 [3 9]
 [3 6]]


***
배열 결합
***
concatenate() 메소드는 axis로 결합할 방향을 지정해서 배열을 결합한다.  
- np.concatenate((numpy배열1, numpy배열2, .....)[,axis])
- np.concatenate([numpy배열1, numpy배열2, .....][,axis])

In [97]:
a = np.random.randint(1, 10, (2, 3))
print(a)
b = np.random.randint(10, 19, (2, 3))
print(b)

[[4 8 8]
 [7 1 5]]
[[10 17 16]
 [18 17 10]]


In [98]:
# axis=None을 지정하면 1차워으로 변환해서 배열을 결합된다.
print(np.concatenate((a, b), axis=None))

[ 4  8  8  7  1  5 10 17 16 18 17 10]


In [101]:
# axis를 생략하면 0이 기본값으로 사용되고 열방향(아래쪽)으로 배열을 결합한다.
# 결합하려는 배열들의 열의 갯수가 다르면 에러가 발생된다.
print(np.concatenate((a, b)))
print('-'*100)
print(np.concatenate([a, b], axis=0))

[[ 4  8  8]
 [ 7  1  5]
 [10 17 16]
 [18 17 10]]
----------------------------------------------------------------------------------------------------
[[ 4  8  8]
 [ 7  1  5]
 [10 17 16]
 [18 17 10]]


In [102]:
# axis=1을 지정하면 행방향(오른쪽)으로 배열이 결합된다.
# 결합하려는 배열들의행의 갯수가 다르면 에러가 발생된다.
print(np.concatenate([a, b], axis=1))

[[ 4  8  8 10 17 16]
 [ 7  1  5 18 17 10]]


***
vstack() 메소드는 배열을 무조건 열방향(아래쪽, 수직, axis=0)으로 결합한다.  
np.concatenate((numpy배열1, numpy배열2, .....),axis=0)와 동일한 기능이 실행된다.
***
- np.vstack([numpy배열1, numpy배열2, .....])

In [103]:
a = np.random.randint(1, 10, (2, 3))
print(a)
b = np.random.randint(10, 19, (2, 3))
print(b)

[[6 5 7]
 [7 8 7]]
[[17 12 17]
 [16 13 12]]


In [105]:
print(np.vstack( (a, b) )) # 결합하려는 배열들의 열의 갯수가 다르면 에러가 발생된다.

[[ 6  5  7]
 [ 7  8  7]
 [17 12 17]
 [16 13 12]]


***
hstack() 메소드는 배열을 무조건 행방향(오른쪽, 수평, axis=1)으로 결합한다.  
np.concatenate((numpy배열1, numpy배열2, .....),axis=1)와 동일한 기능이 실행된다.
***
- np.hstack([numpy배열1, numpy배열2, .....])

In [107]:
print(np.hstack( (a, b) )) # 결합하려는 배열들의 행의 갯수가 다르면 에러가 발생된다.

[[ 6  5  7 17 12 17]
 [ 7  8  7 16 13 12]]


***
배열 분리
***
hsplit() 메소드는 배열을 수평(행)방향으로 분할한다.  
- np.hsplit(numpy배열, 분할갯수)

In [108]:
a = np.arange(1, 25).reshape(4, 6)
print(a)

[[ 1  2  3  4  5  6]
 [ 7  8  9 10 11 12]
 [13 14 15 16 17 18]
 [19 20 21 22 23 24]]


<img src="./image/numpyImage09.jpg">

In [118]:
result = np.hsplit(a, 2) # 메소드 실행 결과 리턴값은 numpy 배열이 아닌 파이썬 list 형식이다.
print(type(result))
print(result)
print(np.array(result)[0])
print(np.array(result)[1])

<class 'list'>
[array([[ 1,  2,  3],
       [ 7,  8,  9],
       [13, 14, 15],
       [19, 20, 21]]), array([[ 4,  5,  6],
       [10, 11, 12],
       [16, 17, 18],
       [22, 23, 24]])]
[[[ 1  2  3]
  [ 7  8  9]
  [13 14 15]
  [19 20 21]]

 [[ 4  5  6]
  [10 11 12]
  [16 17 18]
  [22 23 24]]]
3


<img src="./image/numpyImage10.jpg">

In [121]:
result = np.hsplit(a, 3)
print(result)

[array([[ 1,  2],
       [ 7,  8],
       [13, 14],
       [19, 20]]), array([[ 3,  4],
       [ 9, 10],
       [15, 16],
       [21, 22]]), array([[ 5,  6],
       [11, 12],
       [17, 18],
       [23, 24]])]


In [126]:
result = np.hsplit(a, 3)
print(result)

[array([[ 1,  2],
       [ 7,  8],
       [13, 14],
       [19, 20]]), array([[ 3,  4],
       [ 9, 10],
       [15, 16],
       [21, 22]]), array([[ 5,  6],
       [11, 12],
       [17, 18],
       [23, 24]])]


<img src="./image/numpyImage11.jpg">

In [125]:
#hsplit() 메소드로 배열을 분리하려면 전체 열의 갯수의 약수의 갯수로 분리가 가능하다.
#hsplit() 메소드의 분할 갯수 위치에 분할 기준이 되는 열 인덱스가 저장된 리스트 또는 튜플을 넘겨주면
#지정된 열 인덱스를 기준축을 기준으로 분할한다.
result = np.hsplit(a, (1, 3))
print(result)

[array([[ 1],
       [ 7],
       [13],
       [19]]), array([[ 2,  3],
       [ 8,  9],
       [14, 15],
       [20, 21]]), array([[ 4,  5,  6],
       [10, 11, 12],
       [16, 17, 18],
       [22, 23, 24]])]


***
vsplit() 메소드는 배열을 수직(열)방향으로 분할한다.  
- np.vsplit(numpy배열, 분할갯수)

<img src="./image/numpyImage12.jpg">

In [127]:
result = np.vsplit(a, 2)
print(result)

[array([[ 1,  2,  3,  4,  5,  6],
       [ 7,  8,  9, 10, 11, 12]]), array([[13, 14, 15, 16, 17, 18],
       [19, 20, 21, 22, 23, 24]])]


<img src="./image/numpyImage13.jpg">

In [128]:
result = np.vsplit(a, 4)
print(result)

[array([[1, 2, 3, 4, 5, 6]]), array([[ 7,  8,  9, 10, 11, 12]]), array([[13, 14, 15, 16, 17, 18]]), array([[19, 20, 21, 22, 23, 24]])]


In [129]:
result = np.vsplit(a, [1, 3])
print(result)

[array([[1, 2, 3, 4, 5, 6]]), array([[ 7,  8,  9, 10, 11, 12],
       [13, 14, 15, 16, 17, 18]]), array([[19, 20, 21, 22, 23, 24]])]
