- Python에서 행렬(Matrix)를 효과적으로 사용하기 위한 외부 라이브러리로 행렬과 관련된 다양한 기능을 가지고 있어, 처리/분석에 적합

- Numpy 내부 알고리즘은 C 언어로 작성되어, 적은 메모리로 빠른 처리가 가능

- 배열(Array)이 가진 요소(Elements)에 각각 2를 곱하고 이를 저장한 새로운 배열을 만드는 시간 측정 => Numpy를 사용한 경우가 더 빠른 것 확인할 수 있음

In [15]:
import numpy as np

In [16]:
#ndarray형 객체와 list형 객체 생성
np_arr = np.arange(1000000)
list_arr = list(range(1000000))

In [17]:
#1000000의 요소에 곱하기 2하는 과정을 10번 수행
#%time 은 코드 한 줄이 실행하는데 걸리는 시간 출력
%time for _ in range(10): my_arr = np_arr *2
%time for _ in range(10): my_arr = [x * 2 for x in list_arr]

CPU times: user 14.6 ms, sys: 6.21 ms, total: 20.8 ms
Wall time: 24.5 ms
CPU times: user 798 ms, sys: 178 ms, total: 975 ms
Wall time: 976 ms


- ndarray는 Numpy의 기본 객체
- 다차원 배열을 빨리 처리하기 위해 homogeneous array(동종 배열) => 배열과 종류 하나로 통일


In [19]:
#기본적인 객체 ndarray 만들기
print(type(np.array(1)))
print(type(np.array(0.1)))
print(type(np.array("str")))
print(type(np.array(True)))
print(type(np.array(["list"])))
print(type(np.array(("tuple"))))
print(type(np.array(({"key":"value"}))))

<class 'numpy.ndarray'>
<class 'numpy.ndarray'>
<class 'numpy.ndarray'>
<class 'numpy.ndarray'>
<class 'numpy.ndarray'>
<class 'numpy.ndarray'>
<class 'numpy.ndarray'>


In [23]:
#2행 3열의 난수로 구성된 객체 ndarray 만들기
rand_data = np.random.randn(2, 3)
print(rand_data, "\n")

#산술연산도 가능
print(rand_data * 10, "\n")
print(rand_data + rand_data, "\n")

[[-0.36523756  1.69719281  1.22487174]
 [ 0.98221423  0.07596641  0.01387814]] 

[[-3.6523756  16.97192809 12.24871736]
 [ 9.82214225  0.7596641   0.13878136]] 

[[-0.73047512  3.39438562  2.44974347]
 [ 1.96442845  0.15193282  0.02775627]] 



In [24]:
#객체 ndarray의 Attribute(Instance Variable)
print(type(rand_data))
print(rand_data.shape) #ndarray의 각 차원을 정수 혹은 정수형으로 구성된 튜플로 알려줌
print(rand_data.ndim) #ndarray가 총 몇 차원으로 구성되었는지 알려줌
print(rand_data.dtype) #ndarray가 어떠한 자료형으로 구성되었는지 알려줌

<class 'numpy.ndarray'>
(2, 3)
2
float64


In [25]:
#자료형 list와 객체 ndarray의 출력 비교
list_arr = [[1,2,3,], [4,5,6]]
print(list_arr)
print(type(list_arr))

np_arr = np.array([[1,2,3,], [4,5,6]])
print(np_arr)
print(type(np_arr))

print(np_arr.ndim)
print(np_arr.shape)
print(np_arr.shape[0]) #자료형이 tuple이기 때문에 불러올 수 있음
print(np_arr.shape[1]) 
print(np_arr.dtype)

[[1, 2, 3], [4, 5, 6]]
<class 'list'>
[[1 2 3]
 [4 5 6]]
<class 'numpy.ndarray'>
2
(2, 3)
2
3
int64


In [26]:
#다른 자료형이 섞여있는 경우 = > 오류 X, 더 많은 것을 표현할 수 있는 자료형으로 통일
#string의 경우 가장 긴 문자열로 통일 
list_arr = [[1.0, 2.0, 3.0], [4,5,6]]
np_arr = np.array(list_arr)
print(np_arr.dtype)

float64


In [32]:
#복잡한 ndarray 객체 만들기(array, arange, ones, ones_like)
my_data = np.array([1,2,3])
print(my_data, my_data.shape)

#.arange(start, stop, step)
my_data = np.arange(3, 0, -1)
print(my_data, my_data.shape)

#행렬의 크기 넣어주면 크기만큼 1로 채움
my_data = np.ones(3)
print(my_data, my_data.shape)

#어떤 값을 채웠는지 중요 X, 몇행 몇열인지 분석 후 동일한 크기로 출력
my_data = np.ones_like([5, 4, 3, 2, 1, 0])
print(my_data, my_data.shape)

[1 2 3] (3,)
[3 2 1] (3,)
[1. 1. 1.] (3,)
[1 1 1 1 1 1] (6,)


In [34]:
#복잡한 ndarray 객체 만들기(zeros, zeros_like, full, full_like)
#.ones와 동일 대신 0으로 채움
my_data = np.zeros(3)
print(my_data, my_data.shape)

#.ones_like와 동일 대신 0으로 채움
my_data = np.zeros_like([5, 4, 3, 2, 1, 0])
print(my_data, my_data.shape)

#.full((4, 2, 4,), True) => 4층 2행 4열을 True로 채움
my_data = np.full((4,2,4,), True)
print(my_data, my_data.shape, my_data.dtype)

my_data = np.full_like(list_arr, True) #list_arr: 2 X 3 행렬
print(my_data, my_data.shape, my_data.dtype)

[0. 0. 0.] (3,)
[0 0 0 0 0 0] (6,)
[[[ True  True  True  True]
  [ True  True  True  True]]

 [[ True  True  True  True]
  [ True  True  True  True]]

 [[ True  True  True  True]
  [ True  True  True  True]]

 [[ True  True  True  True]
  [ True  True  True  True]]] (4, 2, 4) bool
[[1. 1. 1.]
 [1. 1. 1.]] (2, 3) float64


그 외의 방법
- np.empty(), np.empty_like => 값이 없는 행렬
- np.assaray() => 자료형으로 변환
-  np.eye(), np.identity() => 단위 행렬

In [52]:
#객체 ndarray의 자료형을 변환해야 할 경우 .astype() 사용
#실수형을 정수형을 바꾸어 소수점 이하를 버릴 때, 불러온 문자열을 실수/정수형으로 바꿀 때
#변환에 실패할 경우, ValueError 발생
int_arr = np.array([1, 2, 3, 4, 5])
print(int_arr, int_arr.dtype)

#np.astype() X, ndarray.astype() O
float_arr = int_arr.astype(np.float64) 
print(float_arr, float_arr.dtype)

#가장 긴 문자열로 통일 => .dtype 출력시 S와 통일된 최대값이 나옴 
string_arr = np.array(['+1.25', '-9.7', '43'], dtype=np.string_)
print(string_arr, string_arr.dtype)

string_to_float_arr = string_arr.astype(float)
print(string_to_float_arr, string_to_float_arr.dtype)

[1 2 3 4 5] int64
[1. 2. 3. 4. 5.] float64
[b'+1.25' b'-9.7' b'43'] |S5
[ 1.25 -9.7  43.  ] float64


In [55]:
#Broadcasting - 벡터화(Vectorization)
#Numpy는 for 반복문 없이 연산 가능
#list의 덧셈 연산은 list를 합침, ndarray의 덧셈 연산은 행렬을 덧셈 연산
full_data = np.full((4,5), 2)
print(full_data)

print(full_data + full_data)
print(full_data - full_data)
print(full_data * full_data)

#행렬에 스칼라(Scala)를 연산할 경우
print(full_data * 1.5)
print(full_data / 2)

[[2 2 2 2 2]
 [2 2 2 2 2]
 [2 2 2 2 2]
 [2 2 2 2 2]]
[[4 4 4 4 4]
 [4 4 4 4 4]
 [4 4 4 4 4]
 [4 4 4 4 4]]
[[0 0 0 0 0]
 [0 0 0 0 0]
 [0 0 0 0 0]
 [0 0 0 0 0]]
[[4 4 4 4 4]
 [4 4 4 4 4]
 [4 4 4 4 4]
 [4 4 4 4 4]]
[[3. 3. 3. 3. 3.]
 [3. 3. 3. 3. 3.]
 [3. 3. 3. 3. 3.]
 [3. 3. 3. 3. 3.]]
[[1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1.]]


In [58]:
#Broadcasting - 서로 다른 두 행렬의 비교 연산 => True, False로 출력
np_arr = np.array([[1, 3, 5], [2, 4, 6]])
np_arr2 = np.array([[-2, 3, -1], [4, 8, -12]])


print(np_arr < np_arr2)
print(np_arr > np_arr2)
#행의 크기가 다른 경우 => 자동으로 확장 시켜서 연산 수행 
print(np_arr <= np.array([[4], [4]]))

[[False False False]
 [ True  True False]]
[[ True False  True]
 [False False  True]]
[[ True  True False]
 [ True  True False]]


ufunc(유니버셜 함수 - universal function)
- 객체 ndarray를 연산하기 위한 메소드
  - sqrt, square, exp, ceil, floor (매개변수 1개)
  - add, substract, multiply, divide, floor_divide(매개변수 2개)


In [59]:
#1차원에서의 indexing과 slicing
#객체 ndarray의 일부를 선택할 경우
arange_data = np.arange(10)
list_data = list(range(10))

print(arange_data)
print(list_data)

print(arange_data[3])
print(list_data[3])
print(arange_data[2:7])
print(list_data[2:7])

[0 1 2 3 4 5 6 7 8 9]
[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
3
3
[2 3 4 5 6]
[2, 3, 4, 5, 6]


In [96]:
#다차원에서의 indexing과 slicing
#객체 ndarray의 일부를 선택할 경우
arange_array = np.array([np.arange(0, 4), np.arange(4,8), np.arange(8,12), np.arange(12,16)])
print("전체 array 출력")
print(arange_array, "\n")

print(arange_array[0][1])
print(arange_array[0, 1], "\n")

#첫번째 행 출력하기
print("첫 번째 행 출력")
print(arange_array[0]) 
print(arange_array[0][:])
print(arange_array[0, ], "\n")

print("slicing 연습1")
print(arange_array[:3, 1:], "\n") #0~2번 행에서 1~마지막 열 출력

print("slicing 연습2")
#둘 다 의미하는 바는 마지막 열 전체를 말함
print(arange_array[:, 3], "\n") #1차원(가로) 출력, 재정렬해서 하나의 행렬로 출력
print(arange_array[:, 3:4], "\n") #원본 값 처럼 출력하고 싶은 경우

print("slicing 연습3")
print(arange_array[1, :3]) #1번째 행에서 0~2번 열 출력

전체 array 출력
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]] 

1
1 

첫 번째 행 출력
[0 1 2 3]
[0 1 2 3]
[0 1 2 3] 

slicing 연습1
[[ 1  2  3]
 [ 5  6  7]
 [ 9 10 11]] 

slicing 연습2
[ 3  7 11 15] 

[[ 3]
 [ 7]
 [11]
 [15]] 

slicing 연습3
[4 5 6]


In [88]:
#indexing과 slicing에서 한 일부 행렬의 값을 바꿀 때
print("자료형 list")
print(list_data)
for x in range(2, 7):
  list_data[x] = -1
print(list_data, type(list_data), "\n")

print("객체 ndarray 1차원")
print(arange_data)
arange_data[2:7] = -1
print(arange_data, arange_data.dtype, "\n")

print("객체 ndarray 2차원")
print(arange_array)
arange_array[1, :2] = -1
print(arange_array, arange_array.dtype, "\n")

자료형 list
[0, 1, -1, -1, -1, -1, -1, 7, 8, 9]
[0, 1, -1, -1, -1, -1, -1, 7, 8, 9] <class 'list'> 

객체 ndarray 1차원
[[ 0  1  2  3]
 [ 4  5  6  7]
 [-1  9 -1 -1]
 [-1  9 -1 -1]]
[[ 0  1  2  3]
 [ 4  5  6  7]
 [-1 -1 -1 -1]
 [-1 -1 -1 -1]] int64 

객체 ndarray 2차원
[[ 0  1  2  3]
 [-1 -1  6  7]
 [ 8  9 10 11]
 [12 13 14 15]]
[[ 0  1  2  3]
 [-1 -1  6  7]
 [ 8  9 10 11]
 [12 13 14 15]] int64 



In [89]:
#list의 경우 복제 ndarray의 경우 가르키기(view) 때문에 수정시 원본 데이터가 바뀜
arange2_data = arange_data[2]
print(arange2_data)
list2_data = list_data[3:6]
print(list2_data)

arange2_data[1] = 9
list2_data[1] = 9

print(arange_data) #slicing한 행렬 변경한 경우 원본 데이터도 바뀜
print(list_data) #slicing한 행렬 변경해도 원본 데이터는 바뀌지 않음
print(arange2_data)
print(list2_data)

[-1 -1 -1 -1]
[-1, -1, -1]
[[ 0  1  2  3]
 [ 4  5  6  7]
 [-1  9 -1 -1]
 [-1 -1 -1 -1]]
[0, 1, -1, -1, -1, -1, -1, 7, 8, 9]
[-1  9 -1 -1]
[-1, 9, -1]


In [94]:
#list와 ndarray의 행렬을 slicing 한 후 slicing한 행렬을 변경한 때 원본 데이터도 바뀌는지 확인
list_data = list(range(10))
list2_data = list_data[3:6]
print(list2_data)
list2_data[1] = -1
print(list2_data)
print(list_data, "\n")

arange_data = np.arange(10)
arange2_data = arange_data[3:6]
print(arange2_data)
arange2_data[1] = -1
print(arange2_data)
print(arange_data)

[3, 4, 5]
[3, -1, 5]
[0, 1, 2, 3, 4, 5, 6, 7, 8, 9] 

[3 4 5]
[ 3 -1  5]
[ 0  1  2  3 -1  5  6  7  8  9]


In [97]:
#다차원 또한 동일함
print(arange_array)
arange_array[1, :2] = -1
print(arange_array)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]]
[[ 0  1  2  3]
 [-1 -1  6  7]
 [ 8  9 10 11]
 [12 13 14 15]]


In [100]:
#유사한 경우 => 바뀌는 것 확인 가능
n_data = np.array([0,25, 0.5, 0.75, 1.0, 1.25])
m_data = [n_data, n_data, n_data]
print(m_data)

n_data[0] = -1
print(m_data)

#but 둘 다 ndarray의 경우 안바뀜
n_data = np.array([0,25, 0.5, 0.75, 1.0, 1.25])
m_data = np.array([n_data, n_data, n_data])
print(m_data)

n_data[0] = -1
print(m_data)

[array([ 0.  , 25.  ,  0.5 ,  0.75,  1.  ,  1.25]), array([ 0.  , 25.  ,  0.5 ,  0.75,  1.  ,  1.25]), array([ 0.  , 25.  ,  0.5 ,  0.75,  1.  ,  1.25])]
[array([-1.  , 25.  ,  0.5 ,  0.75,  1.  ,  1.25]), array([-1.  , 25.  ,  0.5 ,  0.75,  1.  ,  1.25]), array([-1.  , 25.  ,  0.5 ,  0.75,  1.  ,  1.25])]
[[ 0.   25.    0.5   0.75  1.    1.25]
 [ 0.   25.    0.5   0.75  1.    1.25]
 [ 0.   25.    0.5   0.75  1.    1.25]]
[[ 0.   25.    0.5   0.75  1.    1.25]
 [ 0.   25.    0.5   0.75  1.    1.25]
 [ 0.   25.    0.5   0.75  1.    1.25]]
