- Python에서 행렬(Matrix)를 효과적으로 사용하기 위한 외부 라이브러리로 행렬과 관련된 다양한 기능을 가지고 있어, 처리/분석에 적합

- Numpy 내부 알고리즘은 C 언어로 작성되어, 적은 메모리로 빠른 처리가 가능

- 배열(Array)이 가진 요소(Elements)에 각각 2를 곱하고 이를 저장한 새로운 배열을 만드는 시간 측정 => Numpy를 사용한 경우가 더 빠른 것 확인할 수 있음

In [None]:
import numpy as np

In [None]:
#ndarray형 객체와 list형 객체 생성
np_arr = np.arange(1000000)
list_arr = list(range(1000000))

In [None]:
#1000000의 요소에 곱하기 2하는 과정을 10번 수행
#%time 은 코드 한 줄이 실행하는데 걸리는 시간 출력
%time for _ in range(10): my_arr = np_arr *2
%time for _ in range(10): my_arr = [x * 2 for x in list_arr]

CPU times: user 14.6 ms, sys: 6.21 ms, total: 20.8 ms
Wall time: 24.5 ms
CPU times: user 798 ms, sys: 178 ms, total: 975 ms
Wall time: 976 ms


- ndarray는 Numpy의 기본 객체
- 다차원 배열을 빨리 처리하기 위해 homogeneous array(동종 배열) => 배열과 종류 하나로 통일


In [None]:
#기본적인 객체 ndarray 만들기
print(type(np.array(1)))
print(type(np.array(0.1)))
print(type(np.array("str")))
print(type(np.array(True)))
print(type(np.array(["list"])))
print(type(np.array(("tuple"))))
print(type(np.array(({"key":"value"}))))

<class 'numpy.ndarray'>
<class 'numpy.ndarray'>
<class 'numpy.ndarray'>
<class 'numpy.ndarray'>
<class 'numpy.ndarray'>
<class 'numpy.ndarray'>
<class 'numpy.ndarray'>


In [None]:
#2행 3열의 난수로 구성된 객체 ndarray 만들기
rand_data = np.random.randn(2, 3)
print(rand_data, "\n")

#산술연산도 가능
print(rand_data * 10, "\n")
print(rand_data + rand_data, "\n")

[[-0.36523756  1.69719281  1.22487174]
 [ 0.98221423  0.07596641  0.01387814]] 

[[-3.6523756  16.97192809 12.24871736]
 [ 9.82214225  0.7596641   0.13878136]] 

[[-0.73047512  3.39438562  2.44974347]
 [ 1.96442845  0.15193282  0.02775627]] 



In [None]:
#객체 ndarray의 Attribute(Instance Variable)
print(type(rand_data))
print(rand_data.shape) #ndarray의 각 차원을 정수 혹은 정수형으로 구성된 튜플로 알려줌
print(rand_data.ndim) #ndarray가 총 몇 차원으로 구성되었는지 알려줌
print(rand_data.dtype) #ndarray가 어떠한 자료형으로 구성되었는지 알려줌

<class 'numpy.ndarray'>
(2, 3)
2
float64


In [None]:
#자료형 list와 객체 ndarray의 출력 비교
list_arr = [[1,2,3,], [4,5,6]]
print(list_arr)
print(type(list_arr))

np_arr = np.array([[1,2,3,], [4,5,6]])
print(np_arr)
print(type(np_arr))

print(np_arr.ndim)
print(np_arr.shape)
print(np_arr.shape[0]) #자료형이 tuple이기 때문에 불러올 수 있음
print(np_arr.shape[1]) 
print(np_arr.dtype)

[[1, 2, 3], [4, 5, 6]]
<class 'list'>
[[1 2 3]
 [4 5 6]]
<class 'numpy.ndarray'>
2
(2, 3)
2
3
int64


In [None]:
#다른 자료형이 섞여있는 경우 = > 오류 X, 더 많은 것을 표현할 수 있는 자료형으로 통일
#string의 경우 가장 긴 문자열로 통일 
list_arr = [[1.0, 2.0, 3.0], [4,5,6]]
np_arr = np.array(list_arr)
print(np_arr.dtype)

float64


In [None]:
#복잡한 ndarray 객체 만들기(array, arange, ones, ones_like)
my_data = np.array([1,2,3])
print(my_data, my_data.shape)

#.arange(start, stop, step)
my_data = np.arange(3, 0, -1)
print(my_data, my_data.shape)

#행렬의 크기 넣어주면 크기만큼 1로 채움
my_data = np.ones(3)
print(my_data, my_data.shape)

#어떤 값을 채웠는지 중요 X, 몇행 몇열인지 분석 후 동일한 크기로 출력
my_data = np.ones_like([5, 4, 3, 2, 1, 0])
print(my_data, my_data.shape)

[1 2 3] (3,)
[3 2 1] (3,)
[1. 1. 1.] (3,)
[1 1 1 1 1 1] (6,)


In [None]:
#복잡한 ndarray 객체 만들기(zeros, zeros_like, full, full_like)
#.ones와 동일 대신 0으로 채움
my_data = np.zeros(3)
print(my_data, my_data.shape)

#.ones_like와 동일 대신 0으로 채움
my_data = np.zeros_like([5, 4, 3, 2, 1, 0])
print(my_data, my_data.shape)

#.full((4, 2, 4,), True) => 4층 2행 4열을 True로 채움
my_data = np.full((4,2,4,), True)
print(my_data, my_data.shape, my_data.dtype)

my_data = np.full_like(list_arr, True) #list_arr: 2 X 3 행렬
print(my_data, my_data.shape, my_data.dtype)

[0. 0. 0.] (3,)
[0 0 0 0 0 0] (6,)
[[[ True  True  True  True]
  [ True  True  True  True]]

 [[ True  True  True  True]
  [ True  True  True  True]]

 [[ True  True  True  True]
  [ True  True  True  True]]

 [[ True  True  True  True]
  [ True  True  True  True]]] (4, 2, 4) bool
[[1. 1. 1.]
 [1. 1. 1.]] (2, 3) float64


그 외의 방법
- np.empty(), np.empty_like => 값이 없는 행렬
- np.assaray() => 자료형으로 변환
-  np.eye(), np.identity() => 단위 행렬

In [None]:
#객체 ndarray의 자료형을 변환해야 할 경우 .astype() 사용
#실수형을 정수형을 바꾸어 소수점 이하를 버릴 때, 불러온 문자열을 실수/정수형으로 바꿀 때
#변환에 실패할 경우, ValueError 발생
int_arr = np.array([1, 2, 3, 4, 5])
print(int_arr, int_arr.dtype)

#np.astype() X, ndarray.astype() O
float_arr = int_arr.astype(np.float64) 
print(float_arr, float_arr.dtype)

#가장 긴 문자열로 통일 => .dtype 출력시 S와 통일된 최대값이 나옴 
string_arr = np.array(['+1.25', '-9.7', '43'], dtype=np.string_)
print(string_arr, string_arr.dtype)

string_to_float_arr = string_arr.astype(float)
print(string_to_float_arr, string_to_float_arr.dtype)

[1 2 3 4 5] int64
[1. 2. 3. 4. 5.] float64
[b'+1.25' b'-9.7' b'43'] |S5
[ 1.25 -9.7  43.  ] float64


In [None]:
#Broadcasting - 벡터화(Vectorization)
#Numpy는 for 반복문 없이 연산 가능
#list의 덧셈 연산은 list를 합침, ndarray의 덧셈 연산은 행렬을 덧셈 연산
full_data = np.full((4,5), 2)
print(full_data)

print(full_data + full_data)
print(full_data - full_data)
print(full_data * full_data)

#행렬에 스칼라(Scala)를 연산할 경우
print(full_data * 1.5)
print(full_data / 2)

[[2 2 2 2 2]
 [2 2 2 2 2]
 [2 2 2 2 2]
 [2 2 2 2 2]]
[[4 4 4 4 4]
 [4 4 4 4 4]
 [4 4 4 4 4]
 [4 4 4 4 4]]
[[0 0 0 0 0]
 [0 0 0 0 0]
 [0 0 0 0 0]
 [0 0 0 0 0]]
[[4 4 4 4 4]
 [4 4 4 4 4]
 [4 4 4 4 4]
 [4 4 4 4 4]]
[[3. 3. 3. 3. 3.]
 [3. 3. 3. 3. 3.]
 [3. 3. 3. 3. 3.]
 [3. 3. 3. 3. 3.]]
[[1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1.]]


In [None]:
#Broadcasting - 서로 다른 두 행렬의 비교 연산 => True, False로 출력
np_arr = np.array([[1, 3, 5], [2, 4, 6]])
np_arr2 = np.array([[-2, 3, -1], [4, 8, -12]])


print(np_arr < np_arr2)
print(np_arr > np_arr2)
#행의 크기가 다른 경우 => 자동으로 확장 시켜서 연산 수행 
print(np_arr <= np.array([[4], [4]]))

[[False False False]
 [ True  True False]]
[[ True False  True]
 [False False  True]]
[[ True  True False]
 [ True  True False]]


ufunc(유니버셜 함수 - universal function)
- 객체 ndarray를 연산하기 위한 메소드
  - sqrt, square, exp, ceil, floor (매개변수 1개)
  - add, substract, multiply, divide, floor_divide(매개변수 2개)


In [None]:
#1차원에서의 indexing과 slicing
#객체 ndarray의 일부를 선택할 경우
arange_data = np.arange(10)
list_data = list(range(10))

print(arange_data)
print(list_data)

print(arange_data[3])
print(list_data[3])
print(arange_data[2:7])
print(list_data[2:7])

[0 1 2 3 4 5 6 7 8 9]
[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
3
3
[2 3 4 5 6]
[2, 3, 4, 5, 6]


In [None]:
#다차원에서의 indexing과 slicing
#객체 ndarray의 일부를 선택할 경우
arange_array = np.array([np.arange(0, 4), np.arange(4,8), np.arange(8,12), np.arange(12,16)])
print("전체 array 출력")
print(arange_array, "\n")

print(arange_array[0][1])
print(arange_array[0, 1], "\n")

#첫번째 행 출력하기
print("첫 번째 행 출력")
print(arange_array[0]) 
print(arange_array[0][:])
print(arange_array[0, ], "\n")

print("slicing 연습1")
print(arange_array[:3, 1:], "\n") #0~2번 행에서 1~마지막 열 출력

print("slicing 연습2")
#둘 다 의미하는 바는 마지막 열 전체를 말함
print(arange_array[:, 3], "\n") #1차원(가로) 출력, 재정렬해서 하나의 행렬로 출력
print(arange_array[:, 3:4], "\n") #원본 값 처럼 출력하고 싶은 경우

print("slicing 연습3")
print(arange_array[1, :3]) #1번째 행에서 0~2번 열 출력

전체 array 출력
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]] 

1
1 

첫 번째 행 출력
[0 1 2 3]
[0 1 2 3]
[0 1 2 3] 

slicing 연습1
[[ 1  2  3]
 [ 5  6  7]
 [ 9 10 11]] 

slicing 연습2
[ 3  7 11 15] 

[[ 3]
 [ 7]
 [11]
 [15]] 

slicing 연습3
[4 5 6]


In [None]:
#indexing과 slicing에서 한 일부 행렬의 값을 바꿀 때
print("자료형 list")
print(list_data)
for x in range(2, 7):
  list_data[x] = -1
print(list_data, type(list_data), "\n")

print("객체 ndarray 1차원")
print(arange_data)
arange_data[2:7] = -1
print(arange_data, arange_data.dtype, "\n")

print("객체 ndarray 2차원")
print(arange_array)
arange_array[1, :2] = -1
print(arange_array, arange_array.dtype, "\n")

자료형 list
[0, 1, -1, -1, -1, -1, -1, 7, 8, 9]
[0, 1, -1, -1, -1, -1, -1, 7, 8, 9] <class 'list'> 

객체 ndarray 1차원
[[ 0  1  2  3]
 [ 4  5  6  7]
 [-1  9 -1 -1]
 [-1  9 -1 -1]]
[[ 0  1  2  3]
 [ 4  5  6  7]
 [-1 -1 -1 -1]
 [-1 -1 -1 -1]] int64 

객체 ndarray 2차원
[[ 0  1  2  3]
 [-1 -1  6  7]
 [ 8  9 10 11]
 [12 13 14 15]]
[[ 0  1  2  3]
 [-1 -1  6  7]
 [ 8  9 10 11]
 [12 13 14 15]] int64 



In [None]:
#list의 경우 복제 ndarray의 경우 가르키기(view) 때문에 수정시 원본 데이터가 바뀜
arange2_data = arange_data[2]
print(arange2_data)
list2_data = list_data[3:6]
print(list2_data)

arange2_data[1] = 9
list2_data[1] = 9

print(arange_data) #slicing한 행렬 변경한 경우 원본 데이터도 바뀜
print(list_data) #slicing한 행렬 변경해도 원본 데이터는 바뀌지 않음
print(arange2_data)
print(list2_data)

[-1 -1 -1 -1]
[-1, -1, -1]
[[ 0  1  2  3]
 [ 4  5  6  7]
 [-1  9 -1 -1]
 [-1 -1 -1 -1]]
[0, 1, -1, -1, -1, -1, -1, 7, 8, 9]
[-1  9 -1 -1]
[-1, 9, -1]


In [None]:
#list와 ndarray의 행렬을 slicing 한 후 slicing한 행렬을 변경한 때 원본 데이터도 바뀌는지 확인
list_data = list(range(10))
list2_data = list_data[3:6]
print(list2_data)
list2_data[1] = -1
print(list2_data)
print(list_data, "\n")

arange_data = np.arange(10)
arange2_data = arange_data[3:6]
print(arange2_data)
arange2_data[1] = -1
print(arange2_data)
print(arange_data)

[3, 4, 5]
[3, -1, 5]
[0, 1, 2, 3, 4, 5, 6, 7, 8, 9] 

[3 4 5]
[ 3 -1  5]
[ 0  1  2  3 -1  5  6  7  8  9]


In [None]:
#다차원 또한 동일함
print(arange_array)
arange_array[1, :2] = -1
print(arange_array)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]]
[[ 0  1  2  3]
 [-1 -1  6  7]
 [ 8  9 10 11]
 [12 13 14 15]]


In [None]:
#유사한 경우 => 바뀌는 것 확인 가능
n_data = np.array([0,25, 0.5, 0.75, 1.0, 1.25])
m_data = [n_data, n_data, n_data]
print(m_data)

n_data[0] = -1
print(m_data)

#but 둘 다 ndarray의 경우 안바뀜
n_data = np.array([0,25, 0.5, 0.75, 1.0, 1.25])
m_data = np.array([n_data, n_data, n_data])
print(m_data)

n_data[0] = -1
print(m_data)

[array([ 0.  , 25.  ,  0.5 ,  0.75,  1.  ,  1.25]), array([ 0.  , 25.  ,  0.5 ,  0.75,  1.  ,  1.25]), array([ 0.  , 25.  ,  0.5 ,  0.75,  1.  ,  1.25])]
[array([-1.  , 25.  ,  0.5 ,  0.75,  1.  ,  1.25]), array([-1.  , 25.  ,  0.5 ,  0.75,  1.  ,  1.25]), array([-1.  , 25.  ,  0.5 ,  0.75,  1.  ,  1.25])]
[[ 0.   25.    0.5   0.75  1.    1.25]
 [ 0.   25.    0.5   0.75  1.    1.25]
 [ 0.   25.    0.5   0.75  1.    1.25]]
[[ 0.   25.    0.5   0.75  1.    1.25]
 [ 0.   25.    0.5   0.75  1.    1.25]
 [ 0.   25.    0.5   0.75  1.    1.25]]


In [118]:
#.reshape() 생성한 객체 ndarray의 차원 구조 변경
one_data = np.ones(15).reshape(3, 5)
print(one_data, one_data.shape, "\n")
arange_data = np.arange(15).reshape(one_data.shape) #차원만 전달해줘도 괜찮음
print(arange_data, arange_data.shape, "\n")

#아래 결과는 모두 동일
print(np.reshape(arange_data, (5, 3)), arange_data.shape, "\n")
print(arange_data.reshape((5, 3)), arange_data.shape, "\n")

[[1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1.]] (3, 5) 

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]] (3, 5) 

[[ 0  1  2]
 [ 3  4  5]
 [ 6  7  8]
 [ 9 10 11]
 [12 13 14]] (3, 5) 

[[ 0  1  2]
 [ 3  4  5]
 [ 6  7  8]
 [ 9 10 11]
 [12 13 14]] (3, 5) 



In [119]:
#변경된 행렬 구조 반영 필수
arange_data = arange_data.reshape((5, 3))
print(arange_data)
print(arange_data.shape)

#차원 정보가 -1인 경우, 적절한 차원으로 자동 생성
arange_data = np.arange(24).reshape((2, 4, -1))
print(arange_data.shape)

arange_dat = np.arange(24).reshape((2, -1, 3))
print(arange_data.shape)

[[ 0  1  2]
 [ 3  4  5]
 [ 6  7  8]
 [ 9 10 11]
 [12 13 14]]
(5, 3)
(2, 4, 3)
(2, 4, 3)


In [123]:
#다차원의 객체 ndarray를 1차원으로 일괄 변경
arange_data = np.arange(15).reshape(3,5)
print(arange_data, arange_data.shape, "\n")

arange_data2 = np.ravel(arange_data)
print(arange_data2, arange_data2.shape, "\n")

#가리키기 때문에 원본 데이터에도 영향이 감
arange_data2[0] = -1
print(arange_data, arange_data.shape)
print(arange_data2, arange_data2.shape)

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]] (3, 5) 

[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14] (15,) 

[[-1  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]] (3, 5)
[-1  1  2  3  4  5  6  7  8  9 10 11 12 13 14] (15,)


In [124]:
#메소트 flatten은 새로운 객체 ndarray를 생성
arange_data = np.arange(15).reshape(3,5)
arange_data2 = arange_data.flatten()

print(arange_data2, arange_data2.shape, "\n")

#flatten을 사용한 경우 원본 데이터 바뀌지 않음
arange_data2[0] = -1
print(arange_data, arange_data.shape)
print(arange_data2, arange_data2.shape)

[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14] (15,) 

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]] (3, 5)
[-1  1  2  3  4  5  6  7  8  9 10 11 12 13 14] (15,)


In [129]:
#.concatenate : 매개변수로 전달받은 축 정보로 합침(axis = 0 : 행으로 추가 / 1 : 열로 추가)
#.vstack : 행으로 합침(세로)
#.hstack : 열로 합침(가로)
#행으로 추가하기
data1 = np.arange(0, 15).reshape(3,5)
data2 = np.arange(15, 30).reshape(3,5)

#아래 결과는 동일하게 나옴
print(np.concatenate([data1, data2], 0))
print(np.vstack((data1, data2)))

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]
 [15 16 17 18 19]
 [20 21 22 23 24]
 [25 26 27 28 29]]
[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]
 [15 16 17 18 19]
 [20 21 22 23 24]
 [25 26 27 28 29]]


In [130]:
#열로 추가하기
print(np.concatenate([data1, data2], 1))
print(np.hstack((data1, data2)))

[[ 0  1  2  3  4 15 16 17 18 19]
 [ 5  6  7  8  9 20 21 22 23 24]
 [10 11 12 13 14 25 26 27 28 29]]
[[ 0  1  2  3  4 15 16 17 18 19]
 [ 5  6  7  8  9 20 21 22 23 24]
 [10 11 12 13 14 25 26 27 28 29]]


In [140]:
#ndarray의 차원을 분리하기
#sacala 형태 : 동일한 크기의 차원으로 scals개로 분리(동일한 크기로 분리 못하면 ValueError 발생)
#range gudxo : 총 3개로 분리하며 중간 Index 값을 입력(범위를 벗어나면 비어있는 행렬 반환)
arange_data = np.arange(30).reshape(6, 5)
print(arange_data)

#axis = 0 : 행으로 쪼개기, 1: 열로 쪼개기
print(np.split(arange_data, 3), "\n")
print(np.split(arange_data, [2,3], 0), '\n')
print(np.split(arange_data, [2,3], 1), "\n")
print("")
#default인 3개로 쪼갤꺼고 넣은 값이 중앙 값이기에 뒤에 값이 없어서 빈 array도 나옴
print(np.split(arange_data,[2,6]))

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]
 [15 16 17 18 19]
 [20 21 22 23 24]
 [25 26 27 28 29]]
[array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]]), array([[10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19]]), array([[20, 21, 22, 23, 24],
       [25, 26, 27, 28, 29]])] 

[array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]]), array([[10, 11, 12, 13, 14]]), array([[15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24],
       [25, 26, 27, 28, 29]])] 

[array([[ 0,  1],
       [ 5,  6],
       [10, 11],
       [15, 16],
       [20, 21],
       [25, 26]]), array([[ 2],
       [ 7],
       [12],
       [17],
       [22],
       [27]]), array([[ 3,  4],
       [ 8,  9],
       [13, 14],
       [18, 19],
       [23, 24],
       [28, 29]])] 


[array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]]), array([[10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24],
       [25, 26, 27, 28, 29]]), array([], shape=(0, 5), dtype=int64)]


In [212]:
#vsplit : 행(가로)으로 분리
print("원본 데이터")
arange_data = np.arange(30).reshape(6, 5)
print(arange_data, "\n")

print("vsplit 사용")
print(np.vsplit(arange_data, 3), "\n") #3개 행으로 분리
print(np.vsplit(arange_data, [2, 3]), "\n") #2,3번 행을 중간 index로 지정
print(np.vsplit(arange_data, [2, 5]), "\n") #2,3,4,번 행을 중간 index로 지정 
print(np.vsplit(arange_data, [2, 6]), "\n") #2,3,4,5 번 행을 중간 index로 지정, 뒤에 행 없으면 빈 행렬 반환 

원본 데이터
[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]
 [15 16 17 18 19]
 [20 21 22 23 24]
 [25 26 27 28 29]] 

vsplit 사용
[array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]]), array([[10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19]]), array([[20, 21, 22, 23, 24],
       [25, 26, 27, 28, 29]])] 

[array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]]), array([[10, 11, 12, 13, 14]]), array([[15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24],
       [25, 26, 27, 28, 29]])] 

[array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]]), array([[10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24]]), array([[25, 26, 27, 28, 29]])] 

[array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]]), array([[10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24],
       [25, 26, 27, 28, 29]]), array([], shape=(0, 5), dtype=int64)] 



In [219]:
#hsplit : 열(세로)로 분리
print("hsplit 사용")
print(arange_data)
print(np.split(arange_data, 5, 1)) #axis = 1 열 방향으로 5등분
print(np.hsplit(arange_data, 5)) #3번 열을 중간 index로 지정
print(np.hsplit(arange_data, [1, 2])) #1번 열을 중간 indxe로 지정
print(np.hsplit(arange_data, [1, 3])) #1,2 번 열을 중간 indxe로 지정

hsplit 사용
[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]
 [15 16 17 18 19]
 [20 21 22 23 24]
 [25 26 27 28 29]]
[array([[ 0],
       [ 5],
       [10],
       [15],
       [20],
       [25]]), array([[ 1],
       [ 6],
       [11],
       [16],
       [21],
       [26]]), array([[ 2],
       [ 7],
       [12],
       [17],
       [22],
       [27]]), array([[ 3],
       [ 8],
       [13],
       [18],
       [23],
       [28]]), array([[ 4],
       [ 9],
       [14],
       [19],
       [24],
       [29]])]
[array([[ 0],
       [ 5],
       [10],
       [15],
       [20],
       [25]]), array([[ 1],
       [ 6],
       [11],
       [16],
       [21],
       [26]]), array([[ 2],
       [ 7],
       [12],
       [17],
       [22],
       [27]]), array([[ 3],
       [ 8],
       [13],
       [18],
       [23],
       [28]]), array([[ 4],
       [ 9],
       [14],
       [19],
       [24],
       [29]])]
[array([[ 0],
       [ 5],
       [10],
       [15],
       [20],
       [25]])

In [149]:
#repeat : 행렬을 반복, scala 형태만 가능
arange_data = np.arange(5)
print(arange_data)

#5번씩 반복
print(np.repeat(arange_data, 5))

#각 요소별 다르게 반복
print(np.repeat(arange_data, [1, 1, 3, 2, 1]))
print(np.repeat(arange_data, [0, 0, 3, 0, 0]))

[0 1 2 3 4]
[0 0 0 0 0 1 1 1 1 1 2 2 2 2 2 3 3 3 3 3 4 4 4 4 4]
[0 1 2 2 2 3 3 4]
[2 2 2]


In [147]:
#tile : 행렬 자체 행 혹은 열 방향으로 반복, shape처럼 배열 형태로 전달 가능
print(np.tile(arange_data, 2))
print(np.tile(arange_data, (1, 3)))
print(np.tile(arange_data, (3, 1)))

[0 1 2 3 4 0 1 2 3 4]
[[0 1 2 3 4 0 1 2 3 4 0 1 2 3 4]]
[[0 1 2 3 4]
 [0 1 2 3 4]
 [0 1 2 3 4]]


In [153]:
#다차원 행렬에서의 반복
arange_data = np.arange(15).reshape((3, 5))
print(np.repeat(arange_data, 2), "\n") #다차원 행렬에서 메소드 repeat는 축 정보가 없으면 평탄화 발생

print(np.repeat(arange_data, 2, 0)) #axis = 0 : 행 방향 추가
print(np.repeat(arange_data, 2, 1), "\n") #axis = 1 : 열 방향 추가

print(np.tile(arange_data, 2), "\n") #전체 반복
print(np.tile(arange_data, (1, 3)), "\n")
print(np.tile(arange_data, (3, 2)))

[ 0  0  1  1  2  2  3  3  4  4  5  5  6  6  7  7  8  8  9  9 10 10 11 11
 12 12 13 13 14 14] 

[[ 0  1  2  3  4]
 [ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [ 5  6  7  8  9]
 [10 11 12 13 14]
 [10 11 12 13 14]]
[[ 0  0  1  1  2  2  3  3  4  4]
 [ 5  5  6  6  7  7  8  8  9  9]
 [10 10 11 11 12 12 13 13 14 14]] 

[[ 0  1  2  3  4  0  1  2  3  4]
 [ 5  6  7  8  9  5  6  7  8  9]
 [10 11 12 13 14 10 11 12 13 14]] 

[[ 0  1  2  3  4  0  1  2  3  4  0  1  2  3  4]
 [ 5  6  7  8  9  5  6  7  8  9  5  6  7  8  9]
 [10 11 12 13 14 10 11 12 13 14 10 11 12 13 14]] 

[[ 0  1  2  3  4  0  1  2  3  4]
 [ 5  6  7  8  9  5  6  7  8  9]
 [10 11 12 13 14 10 11 12 13 14]
 [ 0  1  2  3  4  0  1  2  3  4]
 [ 5  6  7  8  9  5  6  7  8  9]
 [10 11 12 13 14 10 11 12 13 14]
 [ 0  1  2  3  4  0  1  2  3  4]
 [ 5  6  7  8  9  5  6  7  8  9]
 [10 11 12 13 14 10 11 12 13 14]]


In [155]:
#indexing / slicing 확장
#데이터 수가 많아, 출력화면의 가로축이 협소할 수 있음 => 가로축 무제한으로 늘리는 방법
import numpy as np
np.set_printoptions(linewidth=np.inf) #무제한으로 설정
np.set_printoptions(linewidth=75) #default는 75

In [158]:
man_name = ['월화', '지빈', '하람', '지환', '명환', '진호']
woman_name = ['보경', '연지', '예담', '유리', '이령', '다희']

name_arr = np.array(['지빈', '명환', '연지', '하람', '연지', '진호', '월하', '연지'])
data_arr = np.random.randn(8, 4)

print(name_arr)
print(data_arr)

['지빈' '명환' '연지' '하람' '연지' '진호' '월하' '연지']
[[-0.29328103 -0.22242053  0.54910688  0.91494522]
 [ 0.2863458  -0.05648714 -1.76886857  0.32965203]
 [ 1.45282117 -0.48131736 -0.11466913 -0.87196527]
 [-0.48235925  0.66061707  1.16550195 -1.2294553 ]
 [ 0.24536411  0.89414005 -0.30706926  1.31847257]
 [-0.22343436  1.09889078 -0.59373514  0.68180308]
 [ 1.38830303 -1.11068124 -0.86322786  1.37884826]
 [-0.04764955 -0.31243761 -0.52817884 -0.21344169]]
[False False  True False  True False False  True]


In [159]:
#index = 3,5,8은 True
print(name_arr == '연지')

[False False  True False  True False False  True]


In [160]:
#True인 배열의 행(row) 전체 출력
print(data_arr[name_arr == '연지'])

[[ 1.45282117 -0.48131736 -0.11466913 -0.87196527]
 [ 0.24536411  0.89414005 -0.30706926  1.31847257]
 [-0.04764955 -0.31243761 -0.52817884 -0.21344169]]


In [166]:
print(data_arr[name_arr == "연지", 2:], "\n") #True 중 2~마짐막 열까지
print(data_arr[name_arr == '연지', 3], "\n") #True 중 마지막 열 하나의 배열로
print(data_arr[name_arr == '연지', 3:4]) #True 중 마지막 열 원본 그대로

[[-0.11466913 -0.87196527]
 [-0.30706926  1.31847257]
 [-0.52817884 -0.21344169]] 

[-0.87196527  1.31847257 -0.21344169] 

[[-0.87196527]
 [ 1.31847257]
 [-0.21344169]]


In [168]:
#and / or 연산의 경우 주소에 바로 입력할 수 없음
or_opp = (name_arr == '지빈') | (name_arr == '월하')
print(or_opp)
print(data_arr[or_opp])
print("")
#not 연산은 ~로 활용
not_opp = ~(name_arr == '하람')
print(not_opp)
print(data_arr[not_opp])

[ True False False False False False  True False]
[[-0.29328103 -0.22242053  0.54910688  0.91494522]
 [ 1.38830303 -1.11068124 -0.86322786  1.37884826]]

[ True  True  True False  True  True  True  True]
[[-0.29328103 -0.22242053  0.54910688  0.91494522]
 [ 0.2863458  -0.05648714 -1.76886857  0.32965203]
 [ 1.45282117 -0.48131736 -0.11466913 -0.87196527]
 [ 0.24536411  0.89414005 -0.30706926  1.31847257]
 [-0.22343436  1.09889078 -0.59373514  0.68180308]
 [ 1.38830303 -1.11068124 -0.86322786  1.37884826]
 [-0.04764955 -0.31243761 -0.52817884 -0.21344169]]


In [170]:
#비교 연산으로 특정 조건에 해당하는 값 변경
data_arr[name_arr == '명환'] = 7
print(data_arr, "\n")

#dtype이 정수나 실수인 경우, 크고 작은 비교 연산도 가능
data_arr[data_arr < 0] = 0
print(data_arr)

[[-0.29328103 -0.22242053  0.54910688  0.91494522]
 [ 7.          7.          7.          7.        ]
 [ 1.45282117 -0.48131736 -0.11466913 -0.87196527]
 [-0.48235925  0.66061707  1.16550195 -1.2294553 ]
 [ 0.24536411  0.89414005 -0.30706926  1.31847257]
 [-0.22343436  1.09889078 -0.59373514  0.68180308]
 [ 1.38830303 -1.11068124 -0.86322786  1.37884826]
 [-0.04764955 -0.31243761 -0.52817884 -0.21344169]] 

[[0.         0.         0.54910688 0.91494522]
 [7.         7.         7.         7.        ]
 [1.45282117 0.         0.         0.        ]
 [0.         0.66061707 1.16550195 0.        ]
 [0.24536411 0.89414005 0.         1.31847257]
 [0.         1.09889078 0.         0.68180308]
 [1.38830303 0.         0.         1.37884826]
 [0.         0.         0.         0.        ]]


In [175]:
#Fancy Indexing : 정수 배열을 이용하여 행렬을 Indexing
#1차원 행령을 특정 차원으로 변경
arange_data = np.arange(32)
print(arange_data, "\n")

arange_data = arange_data.reshape((8,4))
print(arange_data, arange_data.shape)

[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
 24 25 26 27 28 29 30 31] 

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]
 [16 17 18 19]
 [20 21 22 23]
 [24 25 26 27]
 [28 29 30 31]] (8, 4)


In [181]:
print(arange_data, "\n")
#8행 중 3번째/2번째/0번째/6번째 행을 출력
print(arange_data[[3,2,0,6]], "\n")
#8행 중 마지막/마지막에서 5번째/마지막에서 두번째/마지막 행을 출력
print(arange_data[[-1, -5, -2, -1]])

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]
 [16 17 18 19]
 [20 21 22 23]
 [24 25 26 27]
 [28 29 30 31]] 

[[12 13 14 15]
 [ 8  9 10 11]
 [ 0  1  2  3]
 [24 25 26 27]] 

[[28 29 30 31]
 [12 13 14 15]
 [24 25 26 27]
 [28 29 30 31]]


In [184]:
print(arange_data, "\n")
#3행 1열, 2행 0열, 0행 3열, 6행 2열 출력
print(arange_data[[3,2,0,6], [1,0,3,2]], "\n")
#3행 1열이 포함된 행, 2행 0열이 포함된 행, 0행 3열이 포함된 행, 6행 2열이 포함된 행 출력
print(arange_data[[3,2,0,6]][:, [1,0,3,2]])

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]
 [16 17 18 19]
 [20 21 22 23]
 [24 25 26 27]
 [28 29 30 31]] 

[13  8  3 26] 

[[13 12 15 14]
 [ 9  8 11 10]
 [ 1  0  3  2]
 [25 24 27 26]]


In [186]:
#Transpose / SwapAxes : 행과 열을 맞바꾼 전치 행렬
#2차원 행렬일 경우, 행과 열을 바꿈
#메소드 transpose는 새로운 객체 ndarray를 생성하지 않음
arange_data = np.arange(15).reshape((3, 5))
print(arange_data, "\n")
print(arange_data.T, "\n")
print(np.transpose(arange_data))

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]] 

[[ 0  5 10]
 [ 1  6 11]
 [ 2  7 12]
 [ 3  8 13]
 [ 4  9 14]] 

[[ 0  5 10]
 [ 1  6 11]
 [ 2  7 12]
 [ 3  8 13]
 [ 4  9 14]]


In [193]:
#3차원 이상의 행렬일 경우, 바꾸고자 하는 축을 입력
#1. 2층 4행 3열의 3차원 행렬 생성
arange_data =np.arange(24).reshape((2, 4, 3))
print(arange_data)
print(arange_data.shape, "\n")

#2. 3층 2행 4열 / 2,0,1 : 원본 arange_data에서 열 / 층 / 행 값
print(np.transpose(arange_data, (2, 0, 1)))
print(np.transpose(arange_data, (2, 0, 1)).shape, "\n")

#3. 4층 3열 2행 / 1,2,0 : 원본 arange_data에서 행 / 열 / 층 값
print(np.transpose(arange_data, (1, 2, 0)))
print(np.transpose(arange_data, (1, 2, 0)).shape, "\n")

[[[ 0  1  2]
  [ 3  4  5]
  [ 6  7  8]
  [ 9 10 11]]

 [[12 13 14]
  [15 16 17]
  [18 19 20]
  [21 22 23]]]
(2, 4, 3) 

[[[ 0  3  6  9]
  [12 15 18 21]]

 [[ 1  4  7 10]
  [13 16 19 22]]

 [[ 2  5  8 11]
  [14 17 20 23]]]
(3, 2, 4) 

[[[ 0 12]
  [ 1 13]
  [ 2 14]]

 [[ 3 15]
  [ 4 16]
  [ 5 17]]

 [[ 6 18]
  [ 7 19]
  [ 8 20]]

 [[ 9 21]
  [10 22]
  [11 23]]]
(4, 3, 2) 



In [197]:
#예시
arange_data = np.arange(16).reshape((2,2,4)) #2층 2행 4열의 행렬 생성
print(arange_data, "\n")

print("transpose 후")
print(arange_data.transpose(1,0,2)) #2층 2행 4열 생성 > 층과 행 변경

[[[ 0  1  2  3]
  [ 4  5  6  7]]

 [[ 8  9 10 11]
  [12 13 14 15]]] 

transpose 후
[[[ 0  1  2  3]
  [ 8  9 10 11]]

 [[ 4  5  6  7]
  [12 13 14 15]]]


In [202]:
#두 개의 축만 바꾸고 싶은 경우
aragne_data = np.arange(24).reshape((2, 4, 3))
print(arange_data, "\n")

print("층과 행 변경")
print(np.swapaxes(arange_data, 0, 1))
print(np.swapaxes(arange_data, 0, 1).shape, "\n")

print("행과 열 변경")
print(np.swapaxes(arange_data, 1, 2))
print(np.swapaxes(arange_data, 1, 2).shape, "\n")

print("층과 열 변경")
print(np.swapaxes(arange_data, 0, 2))
print(np.swapaxes(arange_data, 0, 2).shape)

[[[ 0  1  2  3]
  [ 4  5  6  7]]

 [[ 8  9 10 11]
  [12 13 14 15]]] 

층과 행 변경
[[[ 0  1  2  3]
  [ 8  9 10 11]]

 [[ 4  5  6  7]
  [12 13 14 15]]]
(2, 2, 4) 

행과 열 변경
[[[ 0  4]
  [ 1  5]
  [ 2  6]
  [ 3  7]]

 [[ 8 12]
  [ 9 13]
  [10 14]
  [11 15]]]
(2, 4, 2) 

층과 열 변경
[[[ 0  8]
  [ 4 12]]

 [[ 1  9]
  [ 5 13]]

 [[ 2 10]
  [ 6 14]]

 [[ 3 11]
  [ 7 15]]]
(4, 2, 2)
