# Numpy

### 어떻게 행렬과 매트릭스를 코드로 표현할 것인가? 

다양한 matrix 계산을 어떻게 만들것인가?  
큰 matrix에 대한 표현은 어떻게 할 것인가?  
처리 속도 문제 

### numpy 특징 

1. 일반 list에 비해 빠르고 메모리 효율적임  
2. 반복문 없이 데이터 배열에 대한 처리를 지원함  
3. 선형대수와 관련된 다양한 기능을 제공함

#### ndarray

numpy array는 차례대로 데이터들이 들어가 있음  
반면 python의 list에는 data의 주소값이 들어가 있음.


In [47]:
import numpy as np 

test_array = np.array([1,4,5,8],float) # np는 하나의 데이터 type만 배열에 넣을 수 있음
test_array

array([1., 4., 5., 8.])

In [48]:
# array RANK에 따라 불리는 이름이 있음 
# scalar, vector, matrix, n-tensor로 불림 
# 차원이 늘어날수록 새로 생긴 차원의 값이 가장 앞에 위치한다. 

print(np.array(test_array).shape) # array의 모양을 알 수 있는 메서드
print(np.array([test_array,test_array]).shape)

(4,)
(2, 4)


In [49]:
# nbytes : ndarray object의 메모리 크기를 반환함 
np.array([[1,2,3],[4,5,6]],dtype=np.float32).nbytes

24

In [50]:
# reshape : array의 shape의 크기를 변경하지만 element갯수는 동일함 
test_matrix = [[1,2,3,4],[5,6,7,8]]

print(np.array(test_matrix).reshape(8,)) # (2,4) -> (8,)로 변경

print(np.array(test_matrix).reshape(4,-1)) #-1은 size를 기반으로 개수를 선정해줌 

[1 2 3 4 5 6 7 8]
[[1 2]
 [3 4]
 [5 6]
 [7 8]]


In [51]:
# flatten : 다차원 array를 1차원 arrray로 변환함 
print(np.array(test_matrix).flatten())

[1 2 3 4 5 6 7 8]


In [52]:
# indexing & slicing

# indexing : index를 정해서 그 자리에 값 할당 가능
test_example  = np.array([[1,2,3],[4,5,6]])
test_example[0,2] = 4
print(test_example)

# slicing : array를 나눌 수 있음 
a = np.array([[1,2,3,4,5],[6,7,8,9,10]])
print(a[:,2:]) # 콜론(:)만 있으면 전체를 의미함 
print(a[1,1:3]) # 콜론 앞뒤로 범위를 지정할 수 있음 
print(a[-1,:]) # -1은 마지막 값을 의미함 
print(a[:,::2]) # 콜론 두개를 사용하면 추출할 칸의 간격을 설정할 수 있다

[[1 2 4]
 [4 5 6]]
[[ 3  4  5]
 [ 8  9 10]]
[7 8]
[ 6  7  8  9 10]
[[ 1  3  5]
 [ 6  8 10]]


In [53]:
# creation function 

np.arange(30) # arrange(시작, 끝 , step) : 시작부터 끝까지 step을 간격으로 삼아 array를 생성함 

np.zeros(shape=(10,),dtype=np.int8) # zeros(shpae,dtype) : shape에 맞춰서 0으로 채워진 array를 생성함 
np.ones(shape=(10,),dtype=np.int8) # zeros와 기능은 같으나 1로 채워줌 
# zero_like, ones_like : 메서드에 입력된 array의 모양과 똑같은 모양의 array를 생성하고 이를 0 or 1로 채워줌 

np.identity(n = 3, dtype= np.int8) #identity(n,dtype) : n개의 행과 열을 가진 단위행렬을 생성함 

np.eye(3,5,k=2) #eye(n,m,k) : n * m행렬을 생성하고 k번째 부터 대각선을 1로 채움 

np.random.uniform(0,1,10).reshape(2,5) # random.method(n,m,k) n부터 m까지의 값을 랜덤하게 k개 생성하여 array를 만듦
# randmom에는 normal, exponential, uniform 등 여러가지 메서드가 있음 

array([[0.14991905, 0.93718646, 0.67777551, 0.98050941, 0.66799681],
       [0.50030368, 0.43543255, 0.74140392, 0.85348312, 0.14373235]])

In [54]:
# operation funcitons

test_array = np.arange(1,13).reshape(-1,4)
print(test_array)

# ndarray는 여러가지 연산 메서드를 지원한다. 
# ndarray는 어떻게 연산을 지원하는가? 
# axis : 모든 operation function을 실행할 때 기준이 되는 dimension축
# shape이 (3,4)인 행렬이 있을 때 axis = 0 이면 행을 가리키고 axis = 1 이면 열을 가리킨다.
# 연산시 axis를 설정해주면 설정한 축을 기준으로 연산을 수행한다. 

print(test_array.sum())
print(test_array.sum(axis=0))
print(test_array.sum(axis=1))

# mean, std, 등등 여러가지를 지원함 

[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]
78
[15 18 21 24]
[10 26 42]


In [55]:
# concatenate((n,m),axis) : axis를 기준으로 n과 m인 ndarray를 합치는 함수 
# vstack, hstack 
# newaxis : 하나의 축을 생성해줌 

# dot() : 행렬 곱셈을 하는 경우
# transpose() or .T : 전치행렬 

# numpy array는 기본적으로 사칙연산을 지원함 

# element-wise operations : 같은 위치에 있는 원소끼리 연산을 시행하는 것, 연산하는 array의 shape이 같아야 함 

# broadcasting : shpae이 다른 배열 간 연산 지원 
# scalar - vector 외에도 vector - matrix 간의 연산도 지원함 
# 주의해야 하는 연산 중 하나임

In [None]:
# numpy performance

# timeit : jupyter 환경에서 코드의 퍼포먼스를 체크하는 함수 

# 일반적으로 속도는 for loop < list comprehension < numpy
# numpy는 c로 구현되어 있어 성능이 좋으나 dynamic typing을 포기함 
# numpysms 대용량 계산에서 가장 흔히 사용됨

## comparsion 

In [64]:
# all & any 

a = np.arange(10)

print(np.all(a < 5)) #all : 모든 원소의 값이 조건을 만족해야 true
print(np.any(a < 5)) #any : 1개라도 만족하는 값이 존재하면 true 
print(np.logical_and(a>0,a<3)) # and 조건의 condition
print(np.logical_not(a>0)) # 조건에 맞는 것을 false로 출력 
print(np.logical_or(a>0, a<3)) # or 조건의 condition 


False
True
[False  True  True False False False False False False False]
[ True False False False False False False False False False]
[ True  True  True  True  True  True  True  True  True  True]


In [66]:
# np.where

np.where(a > 0,3,2) # where(conditon,TRUE,FALSE) : condition에 맞다면 그 인덱스에 true 자리에 설정한 값을 대입함 

np.where(a>5) #condition에 맞는 index값을 반환함 

# isnan, isfi

(array([6, 7, 8, 9]),)

In [75]:
# argmax & argmin : array내 axis를 기반으로 최대값 또는 최소값의 index를 반환함
# argsort : 정렬했을 때 index를 표현함 

a = np.array([[1,2,3,4],[5,6,7,8],[14,15,16,7]])

print(np.argmax(a,axis = 0))
print(np.argmin(a,axis = 0))
print(np.argsort(a))

# index가 아닌 value를 돌려받는 방법 
a = np.array([1,2,4,5,6,78,23,3])
print(a[np.argmax(a)])
print(a[np.argmin(a)])

[2 2 2 1]
[0 0 0 0]
[[0 1 2 3]
 [0 1 2 3]
 [3 0 1 2]]
78
1


In [80]:
# boolean index 

test_array = np.array([1,4,0,2,3,8,9,7], float)

condition = test_array < 3
print(condition)

# fancy index : array를 index valu를 사용해서 값을 추출하는 방법 
a = np.array([2,4,6,8],float)
b = np.array([0,0,1,3,2,1],int) # 반드시 int형으로 선언하기 

# bracket index
print(a[b]) # b에 저장된 index값을 a에서 찾아 a값들을 추출함 
a.take(b) #bracket index와 같은 효과

# matrix 형태의 데이터도 가능하다 
a = np.array([[1,4],[9,15]],float)
b = np.array([0,0,1,1,0],int)
c = np.array([0,1,1,1,1],int)

print(a[b,c])

[ True False  True  True False False False False]
[2. 2. 4. 8. 6. 4.]
[ 1.  4. 15. 15.  4.]


In [81]:
#numpy data 
#loadtxt & savetxt
# numpy를 object로 변환하여 저장해서 사용할 수 있다. 

END