# NUMPY
- matrix와 vector와 같은 array 연산에 정말 많이 쓰임

## ndarray

In [1]:
import numpy as np

In [4]:
test_array=np.array(["1",4,"5",8], float)  #float 타입의 array를 생성
print(test_array)
#numpy는 하나의 데이터 type만 배열에 넣을 수 있음

[1. 4. 5. 8.]


In [5]:
type(test_array[3])

numpy.float64

In [6]:
##메모리 공간
a=[1,2,3,4,5]
b=a #b와 a가 같은 메모리 공간을 사용하게 됨
b[2]=5
a

[1, 2, 5, 4, 5]

In [8]:
#dtype: numpy array의 데이터 type을 반환
test_array.dtype

dtype('float64')

In [9]:
#shape: numpy array의 object dimension 구성을 반환함 : matrix의 크기
test_array.shape #벡터의 경우

(4,)

In [11]:
np.array([[1,4,5,8], [6,2,4,7]]).shape #matrix의 경우

(2, 4)

In [12]:
#ndim : number of dimension
#size : 데이터 개수 반환

In [13]:
#array dtype
np.array([[1,2,3],[4,5,6]], dtype=int)

array([[1, 2, 3],
       [4, 5, 6]])

In [14]:
np.array([[1,2,3],[4.5,'5','6']], dtype=np.float32)

array([[1. , 2. , 3. ],
       [4.5, 5. , 6. ]], dtype=float32)

In [15]:
#nbytes : ndarray object의 메모리 크기를 반환
np.array([[1,2,3],[4.5,'5','6']], dtype=np.float32).nbytes

24

## Handling Shape
- array의 사이즈는 같지만 shape을 바꿈 (element 갯수가 동일함)

In [16]:
test_matrix=[[1,2,3,4],[1,2,5,8]]
np.array(test_matrix).shape

(2, 4)

In [17]:
np.array(test_matrix).reshape(8,)

array([1, 2, 3, 4, 1, 2, 5, 8])

In [18]:
np.array(test_matrix).reshape(8,).shape

(8,)

In [19]:
np.array(test_matrix).reshape(2,4).shape

(2, 4)

In [20]:
np.array(test_matrix).reshape(-1,2).shape  #-1: size를 기반으로 row개수 선정

(4, 2)

In [21]:
np.array(test_matrix).reshape(2,2,2).shape

(2, 2, 2)

In [22]:
np.array(test_matrix).reshape(-1,1)

array([[1],
       [2],
       [3],
       [4],
       [1],
       [2],
       [5],
       [8]])

### flatten
- 다차원 array를 1차원 array로 변환

In [23]:
test_matrix=[[[1,2,3,4],[1,2,5,8]],[[1,2,3,4],[1,2,5,8]]]
np.array(test_matrix).flatten()

array([1, 2, 3, 4, 1, 2, 5, 8, 1, 2, 3, 4, 1, 2, 5, 8])

# Indexing & Slicing

## indexing
- list와 달리 이차원 배열에서 [0,0]과 같은 표기법을 제공

In [25]:
a=np.array([[1,2,3],[4.5,5,6]],int)
print(a)

[[1 2 3]
 [4 5 6]]


In [26]:
print(a[0,0])

1


In [28]:
print(a[0][0])

1


## slicing
- list와 달리 행과 열 부분을 나눠서 slicing 가능

In [29]:
a=np.array([[1,2,3,4,5],[6,7,8,9,10]],int)

In [30]:
a[:,2:] #전체 row의 2열 이상

array([[ 3,  4,  5],
       [ 8,  9, 10]])

In [31]:
a[1,1:3]#1 row의 1열~2열

array([7, 8])

In [33]:
a[1:3]#1row~2row의 전체

array([[ 6,  7,  8,  9, 10]])

# creation function

## arange
- array의 범위를 지정하여 값의 list를 생성

In [3]:
np.arange(30) #integer로 0부터 29까지 배열 추출

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29])

In [4]:
np.arange(0,5,0.5)

array([0. , 0.5, 1. , 1.5, 2. , 2.5, 3. , 3.5, 4. , 4.5])

In [5]:
np.arange(30).reshape(5,6)

array([[ 0,  1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11],
       [12, 13, 14, 15, 16, 17],
       [18, 19, 20, 21, 22, 23],
       [24, 25, 26, 27, 28, 29]])

In [6]:
np.arange(30).reshape(-1,5)

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24],
       [25, 26, 27, 28, 29]])

- zeros : 0으로 가득찬 ndarray 생성
- np.zeros(shape,dtype, order) 

In [7]:
np.zeros(shape=(10,), dtype=np.int8)

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0], dtype=int8)

In [8]:
np.zeros((2,5))

array([[0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.]])

In [9]:
#ones
np.ones((2,5))

array([[1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.]])

In [10]:
np.ones((2,5), dtype=np.int8)

array([[1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1]], dtype=int8)

In [13]:
#empty : shape만 주어지고 비어있는 ndarray 생성
np.empty(shape=(10,), dtype=np.int8)

array([ 32, -77,  25,  67, 109,   2,   0,   0,   0,   0], dtype=int8)

In [14]:
#identity : 단위행렬 생성
np.identity(n=3, dtype=np.int8)

array([[1, 0, 0],
       [0, 1, 0],
       [0, 0, 1]], dtype=int8)

In [15]:
#eye : diagonal이 1인 행렬 생성
np.eye(3,5,k=2) #k=2면 1이 나오는 start값이 2번째

array([[0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

In [17]:
#대각선값 뽑아오기
matrix=np.arange(9).reshape(3,3)
np.diag(matrix, k=1)

array([1, 5])

- random sampmling

In [18]:
np.random.uniform(0,1,10).reshape(2,5) #균등분포

array([[0.69421104, 0.07729941, 0.05345706, 0.83844016, 0.72699722],
       [0.37530256, 0.34199396, 0.75179705, 0.9122587 , 0.19631756]])

In [19]:
np.random.normal(0,1,10).reshape(2,5)

array([[-1.46268113,  0.19413297, -0.84555769, -0.27547264,  0.25960776],
       [ 1.09489061,  0.35506032,  1.05191615,  0.38373814, -0.33245818]])

# operating function

In [20]:
##sum
#axis : 계산시 기준이 되는 dimension
test_array=np.arange(1,13).reshape(3,4)
test_array.sum(axis=1) #열기준

array([10, 26, 42])

In [21]:
test_array

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [22]:
test_array.sum(axis=0) #행기준

array([15, 18, 21, 24])

- 다양한 수학 연산자들을 제공함

#### concatenate : numpy array를 합치는 함수
- vstack, hstack

In [23]:
#vstack : 수직으로 합침. rbind와 같음
a=np.array([1,2,3])
b=np.array([4,5,6])
np.vstack((a,b))

array([[1, 2, 3],
       [4, 5, 6]])

In [24]:
#hstack: 수평으로 합침. cbind와 같음
a=np.array([[1],[2],[3]])
b=np.array([[2],[3],[4]])
np.hstack((a,b))

array([[1, 2],
       [2, 3],
       [3, 4]])

In [25]:
#concatenate + axis 사용
a=np.array([[1,2,3]])
b=np.array([[2,3,4]])
np.concatenate((a,b), axis=0)

array([[1, 2, 3],
       [2, 3, 4]])

# array operations

- numpy는 array간의 기본적인 사친 연산을 지원함

#### element-wise operations
- array간 shape이 같을 때 일어나는 연산

In [26]:
test_a=np.array([[1,2,3],[4,5,6]])
test_a+test_a

array([[ 2,  4,  6],
       [ 8, 10, 12]])

In [27]:
test_a * test_a

array([[ 1,  4,  9],
       [16, 25, 36]])

#### dot product
- dot 함수 사용. matrix의 기본 연산

In [29]:
test_a=np.arange(1,7).reshape(2,3)
test_b=np.arange(5,11).reshape(3,2)
test_a.dot(test_b)

array([[ 46,  52],
       [109, 124]])

In [30]:
#transpose
test_a

array([[1, 2, 3],
       [4, 5, 6]])

In [31]:
test_a.transpose()

array([[1, 4],
       [2, 5],
       [3, 6]])

#### broadcasting
- shape이 다른 배열 간 연산을 지원
- scalar - vector, vector - matrix 간 연산 지원

In [32]:
test_matrix=np.array([[1,2,3],[4,5,6]])
scalar=3
test_matrix+scalar #matrix 각 원소에 scalar 덧셈

array([[4, 5, 6],
       [7, 8, 9]])

# comparisons

#### all & any

In [39]:
a=np.arange(10)
a

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [40]:
a>4

array([False, False, False, False, False,  True,  True,  True,  True,
        True])

In [34]:
np.any(a>5), np.any(a<0)

(True, False)

In [35]:
np.all(a>5)

False

#### logical_

In [37]:
a=np.array([1,3,0])
np.logical_and(a>0, a<3)

array([ True, False, False])

#### np.where
- 조건에 만족하는 index값을 반환

In [41]:
a=np.array([1,3,0])
np.where(a>0, 3, 2) #true면 3, false면 2 반환

array([3, 3, 2])

In [42]:
np.where(a>0)  ##인덱스값을 반환함

(array([0, 1], dtype=int64),)

- np.isnan : not a number

#### argmax & argmin
- 최대값, 최소값 찾을 때
- 인덱스값을 반환함

In [44]:
a=np.array([1,2,4,5,8,78,23,3])
np.argmax(a), np.argmin(a)  ###

(5, 0)

In [47]:
a=np.array([[1,4,9],[2,9,3]])
np.argmax(a, axis=1), np.argmin(a, axis=0)

(array([2, 1], dtype=int64), array([0, 0, 1], dtype=int64))

#### fancy index
- index value를 사용해서 값을 추출

In [49]:
a=np.array([2,4,6,8])
b=np.array([0,0,1,3,2,1], int) #index value. 반드시 int로!!
a[b]  #bracke index

array([2, 2, 4, 8, 6, 4])

In [50]:
a.take(b) #take: bracket index와 같은 효과

array([2, 2, 4, 8, 6, 4])