# Numpy

In [None]:
# numpy 호출

import numpy as np

## ndarray

In [None]:
# 한 가지의 data type만으로 array 생성 가능
# int - 정수형, float - 소수형, str - 문자형

array_int = np.array(["1", 2, "3", 4], dtype = np.int64)
array_int.dtype  # array의 data type

dtype('int64')

In [None]:
# data type 변경 - astype
# int -> float

array_float = array_int.astype('float')
print(array_float)
array_float.dtype

dtype('float64')

In [None]:
# float -> str
# U32 : numpy 에서 사용되는 datatype 

array_str = array_float.astype('str')
print(array_str)
array_str.dtype

['1.0' '2.0' '3.0' '4.0']


dtype('<U32')

In [None]:
# 1차원 array - vector
# [ ]

vector = np.array([1, 2, 3, 4], dtype = np.float64)
print(vector)
print(type(vector[0]), vector.dtype)
print(vector.shape)   # array의 shape
print(vector.ndim)    # array의 차원 수
print(vector.size)    # array의 size

[1. 2. 3. 4.]
<class 'numpy.float64'> float64
(4,)
1
4


In [None]:
# 2차원 array - matrix
# [[ ]]

matrix = np.array([[1, 2, 3, 4], [5, 6, 7, 8], [9, 1, 2, 3]], dtype = np.float64)
print(matrix)
print(type(matrix[1]), matrix.dtype)  
print(matrix.shape)   # array의 shape  (3*4)
print(matrix.ndim)    # array의 차원 수
print(matrix.size)    # array의 size

[[1. 2. 3. 4.]
 [5. 6. 7. 8.]
 [9. 1. 2. 3.]]
<class 'numpy.ndarray'> float64
(3, 4)
2
12


In [None]:
# 3차원 array - tensor
# [[[ ]]]

tensor = np.array([[[1, 2, 3, 4], [5, 6, 7, 8], [9, 1, 2, 3]],
                   [[2, 4, 6, 8], [4, 6, 8, 2], [6, 8, 2, 4]],
                   [[1, 3, 5, 7], [3, 5, 7, 9], [5, 7, 9, 1]]], dtype = np.int64)
print(tensor)
print(type(tensor), tensor.dtype)
print(tensor.shape)   # array의 shape (3*3*4)
print(tensor.ndim)    # array의 차원 수
print(tensor.size)    # array의 size

[[[1 2 3 4]
  [5 6 7 8]
  [9 1 2 3]]

 [[2 4 6 8]
  [4 6 8 2]
  [6 8 2 4]]

 [[1 3 5 7]
  [3 5 7 9]
  [5 7 9 1]]]
<class 'numpy.ndarray'> int64
(3, 3, 4)
3
36


## transpose

In [None]:
# 전치행렬 - 행과 열 바꾸기
# array.T
# array.transpose()
# np.transpose(array)

# array 생성
array_0 = np.array([[0, 1, 2, 3], [4, 5, 6, 7], [8, 9, 10, 11]])
print(array_0)
print()

# 전치행렬
print(array_0.T)
print(array_0.transpose())
print(np.transpose(array_0))

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]

[[ 0  4  8]
 [ 1  5  9]
 [ 2  6 10]
 [ 3  7 11]]
[[ 0  4  8]
 [ 1  5  9]
 [ 2  6 10]
 [ 3  7 11]]
[[ 0  4  8]
 [ 1  5  9]
 [ 2  6 10]
 [ 3  7 11]]


## reshape

In [None]:
# array 생성

array_1 = np.array([1, 2, 3, 4, 5, 6, 7, 8], dtype = int)
array_1

array([1, 2, 3, 4, 5, 6, 7, 8])

In [None]:
# shape, size 확인

print(array_1.shape)
print(array_1.size)

(8,)
8


In [None]:
# reshape -> 2*4

array_2 = array_1.reshape(2, 4)
array_2

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

In [None]:
# reshape -> 2*2*2

array_3 = array_1.reshape(2,2,2)
array_3

array([[[1, 2],
        [3, 4]],

       [[5, 6],
        [7, 8]]])

In [None]:
# reshape -> 4*-1
# -1은 size에 맞도록 자동으로 설정하라는 뜻

array_4 = array_1.reshape(4,-1)   # 4*2 로 설정됨 -> size 8 유지
array_4

array([[1, 2],
       [3, 4],
       [5, 6],
       [7, 8]])

In [None]:
# size가 맞지 않게 reshape -> error

array_error = array_1.reshape(5,2)
array_error

ValueError: cannot reshape array of size 8 into shape (5,2)

## flatten

In [None]:
# 다차원 array -> 1차원 array

print(array_3.shape)  # 3차원의 array, 2*2*2
array_5 = array_3.flatten()
print(array_5.shape)  # 1차원의 array
array_5

(2, 2, 2)
(8,)


array([1, 2, 3, 4, 5, 6, 7, 8])

## indexing

In [None]:
# python은 0 부터 시작
# index : element의 위치

# array 생성
array_idx = np.array([[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12]])
array_idx

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [None]:
# 0행 0열 (첫 번째 행, 첫 번째 열)

print(array_idx[0][0])   # list에서랑 동일한 방식
print(array_idx[0,0])   # 2차원(matrix) array에서 0행 0열 위치. list에서 사용 불가

1
1


In [None]:
# 2행 3열 (세 번째 행, 네 번째 열)

print(array_idx[2][3])
print(array_idx[2,3])

12
12


In [None]:
# -n : 맨 뒤에서 n번째

print(array_idx[-1][-1])
print(array_idx[-1,-1])

12
12


In [None]:
# 값 변경

array_idx[2,3] = 100  # 세 번째 행, 네 번째 열 값 -> 100으로
array_idx

array([[  1,   2,   3,   4],
       [  5,   6,   7,   8],
       [  9,  10,  11, 100]])

## slicing

In [None]:
# array의 원하는 부분 추출
# index 사용

# array 생성
array_slc = np.array([[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12]])
array_slc

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [None]:
# 전체 행, 2열 추출 (세 번째 열)

array_s1 = array_slc[:,2]
array_s1

array([ 3,  7, 11])

In [None]:
# 1행, 0열 이상 2열 미만 추출
# n:m -> n 이상 m 미만

array_s2 = array_slc[1, 0:2]  
array_s2

array([5, 6])

In [None]:
# 2행 미만, 2열 이상 추출

array_s3 = array_slc[:2, 2:]
array_s3

array([[3, 4],
       [7, 8]])

In [None]:
# 0행 이상 2열 미만 추출

array_s4 = array_slc[0:2]  # 한 값만 입력시 row로 처리
array_s4

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

In [None]:
# ::n -> n칸씩 건너 뛰며 추출

# 전체 행, 2칸씩 건너서 열(0번째, 2번째) 추출

array_s5 = array_slc[:, ::2]
array_s5

array([[ 1,  3],
       [ 5,  7],
       [ 9, 11]])

In [None]:
# 2칸씩 건너서 행, 3칸씩 건너서 열 추출
# 0행, 2행 & 0열, 3열

array_s6 = array_slc[::2, ::3]
array_s6

array([[ 1,  4],
       [ 9, 12]])

## arange

In [None]:
# np.arange(start, stop, step, dtype = )

np.arange(0, 10, 2)  # 0 이상 10 미만, 2 간격의 숫자들로 array 생성

array([0, 2, 4, 6, 8])

In [None]:
# np.arange(stop)
# range(stop)과 비슷하게 작동

print(list(range(5)))  # 0 이상 5 미만 정수들로 list 생성
np.arange(5)           # 0 이상 5 미만 정수들로 array 생성

[0, 1, 2, 3, 4]


array([0, 1, 2, 3, 4])

In [None]:
# 소수 단위 step 가능

np.arange(0, 5, 0.5)  # 0 이상 5 미만, 0.5 간격의 숫자들로 array 생성

array([0. , 0.5, 1. , 1.5, 2. , 2.5, 3. , 3.5, 4. , 4.5])

## zeros, ones, full, empty

In [None]:
# zeros : 0 으로 가득 찬 array 생성
# np.zeros(shape = (), dtype = )

print(np.zeros((2,5)))
print()
print(np.zeros(shape = (10,), dtype = np.int64))

[[0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0.]]

[0 0 0 0 0 0 0 0 0 0]


In [None]:
# ones : 1 로 가득 찬 array 생성
# np.ones(shape = (), dtype = )

print(np.ones((2,5)))
print()
print(np.ones(shape = (10,), dtype = np.int64))

[[1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1.]]

[1 1 1 1 1 1 1 1 1 1]


In [None]:
# full : 지정한 값으로 가득 찬 array 생성
# np.full(shape, value, dtype = )

print(np.full((2,5), 10))
print()
print(np.full((10,), 10, dtype = np.int64))

[[10 10 10 10 10]
 [10 10 10 10 10]]

[10 10 10 10 10 10 10 10 10 10]


In [None]:
# empty : 빈 array 생성 후 특정 값으로 reset 하지 않고 기존 메모리에 저장되어 있던 값 사용
# 시간 및 메모리 절약, 아주 큰 size 다룰 때 속도 향상
# 거의 쓸 일 없음

np.empty((2,5))

array([[5.e-324, 5.e-324, 5.e-324, 5.e-324, 5.e-324],
       [5.e-324, 5.e-324, 5.e-324, 5.e-324, 5.e-324]])

## identity, eye

In [None]:
# identity : 단위 행렬 array 생성
# np.identity(n = , dtype = ) : n*n size의 단위 행렬

print(np.identity(n=3, dtype = np.int64))
print()
print(np.identity(4))

[[1 0 0]
 [0 1 0]
 [0 0 1]]

[[1. 0. 0. 0.]
 [0. 1. 0. 0.]
 [0. 0. 1. 0.]
 [0. 0. 0. 1.]]


In [None]:
# eye : 대각선이 1인 array 생성
# np.eye(row, col, k = start, dtype = ) : row*col 의 대각선 1 행렬 array. start row부터 1 채우기 시작
# np.eye(n) : n*n size의 단위 행렬

print(np.eye(3, 5, k = 2))
print()
print(np.eye(3))

[[0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 1.]]

[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]


## random

In [None]:
# seed : random 함수 실행 시 같은 결과 얻기 위해 고정
# np.random.seed(n) 
# n이 같으면 random 실행해도 같은 결과 추출
# 모델 성능 비교시 seed 설정 필요

np.random.seed(12)

In [None]:
# rand : 0, 1 사이 균등분포 sampling으로 array 생성
# np.random.rand(shape) 

np.random.rand(5)  # 0 ~ 1 사이 숫자 5개 랜덤 추출, array 생성

array([0.15416284, 0.7400497 , 0.26331502, 0.53373939, 0.01457496])

In [None]:
# randn : 표준정규분포 sampling으로 array 생성
# np.random.randn(shape)

np.random.randn(2,5)  # 표준정규분포에서 랜덤추출, (2,5) array 생성

array([[-0.42069204, -0.7060276 ,  0.58535808,  0.13978644,  2.73781428],
       [ 1.11674795,  1.57453814, -0.08586679,  0.47673663, -0.61138674]])

In [None]:
# randint : 정수 균등분포 sampling으로 array 생성
# np.random.randint(min, max, shape)

np.random.randint(10, size = (2,5))  # 0 이상 10 미만 정수 랜덤 추출 (2,5) array

array([[9, 0, 0, 9, 8],
       [9, 6, 1, 8, 4]])

In [None]:
# uniform : 균등분포 sanpling으로 array 생성
# np.random.uniform(start, stop, shape)

np.random.uniform(0, 2, 10)   # 0 이상 2 미만에서 숫자 10개 랜덤추출, array 생성

array([0.32873606, 1.73245314, 0.07485738, 0.43528328, 1.9731223 ,
       0.34568438, 0.2432076 , 1.0909272 , 0.84344887, 1.21651611])

In [None]:
# normal : 정규분포 sampling으로 array 생성
# np.random.normal(mean, std^2, shape)

np.random.normal(0, 2, 10)   # 평균 0, 분산 2 정규분포에서 숫자 10개 랜덤추출, array 생성

array([-1.82758135, -2.16047447,  0.48946128,  0.27109705, -2.29573892,
        0.46717118,  1.55243044, -1.1540943 ,  4.04855146, -3.34604775])

## linspace

In [None]:
# 일정 간격의 숫자로 array 생성
# np.linspace(start, stop, step)

np.linspace(1, 10, 5)  # 1 부터 10까지 등간격 숫자 5개 추출, array 생성

array([ 1.  ,  3.25,  5.5 ,  7.75, 10.  ])

## tolist

In [None]:
# array -> list 변환

arr_list = np.arange(0, 20, 3).tolist()
arr_list

[0, 3, 6, 9, 12, 15, 18]

## 기본 연산 - 연산자

In [None]:
# array 생성
np.random.seed(8)
x = np.random.randint(0, 10, (5,))
y = np.random.randint(10, 20, (5,))

print(x)  # 0 ~ 10 사이 정수 5개 랜덤추출
print(y)  # 10 ~ 20 사이 정수 5개 랜덤추출

[3 4 1 9 5]
[18 13 18 10 15]


In [None]:
print(x+1)    # 모든 값 +1
print(x-1)    # 모든 값 -1
print(x*2)    # 모든 값 *2
print(x/2)    # 모든 값 /2 -> 소수로
print(x//2)   # 모든 값 2로 나눌 때 몫
print(x%2)    # 모든 값 2로 나눌 때 나머지
print(x**2)   # 모든 값 2제곱

[ 4  5  2 10  6]
[2 3 0 8 4]
[ 6  8  2 18 10]
[1.5 2.  0.5 4.5 2.5]
[1 2 0 4 2]
[1 0 1 1 1]
[ 9 16  1 81 25]


In [None]:
# x, y -> 동일 index 끼리 연산
# size 같은 array 끼리

print(x+y)    # 합
print(x-y)    # 차
print(x*y)    # 곱
print(x/y)    # 나눗셈
print(x//y)   # 나눗셈 몫
print(x%y)    # 나눗셈 나머지
print(x**y)   # 제곱

[21 17 19 19 20]
[-15  -9 -17  -1 -10]
[54 52 18 90 75]
[0.16666667 0.30769231 0.05555556 0.9        0.33333333]
[0 0 0 0 0]
[3 4 1 9 5]
[ 387420489   67108864          1 -808182895  452807053]


## 기본 연산 - sum, mean, std

In [None]:
# sum : 합
# array.sum(axis = )
# np.sum(array, axis = )

# 2차원 matrix 기준 axis
# axis = 0 : 세로 방향 (아래 방향)으로, 행 +1 방향
# axis = 1 : 가로 방향 (오른쪽 방향)으로, 열 +1 방향

# array 생성
arr = np.arange(2,14).reshape(3,4)

print(arr)  # 2 이상 14 이하 1 간격 정수들로 3*4 array
print()
print(arr.sum(axis = 0))  # 0, 1, 2, 3 열의 elements sum
print()
print(arr.sum(axis = 1))  # 0, 1, 2 행의 elements sum
print()
print(np.sum(arr, axis = 1))  # 0, 1, 2 행의 elements sum

[[ 2  3  4  5]
 [ 6  7  8  9]
 [10 11 12 13]]

[18 21 24 27]

[14 30 46]

[14 30 46]


In [None]:
# mean : 평균
# array.mean(axis = )
# np.mean(array, axis = )
# axis 사용 가능

print(arr.mean())  # 전체 평균
print()
print(arr.mean(axis = 0))  # 각 열마다의 평균
print()
print(arr.mean(axis = 1))  # 각 행마다의 평균
print()
print(np.mean(arr, axis = 1))  # 각 행마다의 평균

7.5

[6. 7. 8. 9.]

[ 3.5  7.5 11.5]

[ 3.5  7.5 11.5]


In [None]:
# std : 표준편차
# axis 사용 가능

print(arr.std())   # 전체 표준편치
print()
print(arr.std(axis = 0))   # 각 열마다의 표준편차
print()
print(arr.std(axis = 1))   # 각 행마다의 표준편차

3.452052529534663

[3.26598632 3.26598632 3.26598632 3.26598632]

[1.11803399 1.11803399 1.11803399]


## 지수, 로그, 제곱, 제곱근
이 외에도 반올림, 올림, 내림 및 삼각함수, 절댓값 등 다양한 수학 연산이 가능하다!

In [None]:
# 바로 위에서 사용한 array
arr

array([[ 2,  3,  4,  5],
       [ 6,  7,  8,  9],
       [10, 11, 12, 13]])

In [None]:
# exp : exponential
# np.exp(array) : array 모든 값의 exponetial 값

np.exp(arr)

array([[7.38905610e+00, 2.00855369e+01, 5.45981500e+01, 1.48413159e+02],
       [4.03428793e+02, 1.09663316e+03, 2.98095799e+03, 8.10308393e+03],
       [2.20264658e+04, 5.98741417e+04, 1.62754791e+05, 4.42413392e+05]])

In [None]:
# log : 로그
# np.log(array) : array 모든 값의 자연 로그 값
# np.log2(array) : array 모든 값의 밑이 2인 로그 값
# np.log10(array) : array 모든 값의 밑이 10인 로그 값 (상용로그)

print(np.log(arr))  # 밑이 e
print()
print(np.log2(arr))  # 밑이 2
print()
print(np.log10(arr))  # 밑이 10

[[0.69314718 1.09861229 1.38629436 1.60943791]
 [1.79175947 1.94591015 2.07944154 2.19722458]
 [2.30258509 2.39789527 2.48490665 2.56494936]]

[[1.         1.5849625  2.         2.32192809]
 [2.5849625  2.80735492 3.         3.169925  ]
 [3.32192809 3.45943162 3.5849625  3.70043972]]

[[0.30103    0.47712125 0.60205999 0.69897   ]
 [0.77815125 0.84509804 0.90308999 0.95424251]
 [1.         1.04139269 1.07918125 1.11394335]]


In [None]:
# square : 제곱
# np.square(array) : array 모든 값 제곱

np.square(arr)

array([[  4,   9,  16,  25],
       [ 36,  49,  64,  81],
       [100, 121, 144, 169]], dtype=int32)

In [None]:
# sqrt : 루트
# np.sqrt(array) : array 모든 값에 루트 씌우기

np.sqrt(arr)

array([[1.41421356, 1.73205081, 2.        , 2.23606798],
       [2.44948974, 2.64575131, 2.82842712, 3.        ],
       [3.16227766, 3.31662479, 3.46410162, 3.60555128]])

## concatenate

In [None]:
# array 합치기
# np.concatenate((array1, array2, ...), axis = )
# axis = 0 : 열 따라서 합침 (밑으로)
# axis = 1 : 행 따라서 합침 (옆으로)

# array 생성
a = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
b = np.array([[10, 11, 12], [13, 14, 15], [16, 17, 18], [19, 20, 21]])
print(a)
print()
print(b)
print()

# axis = 0 (default, 열 따라서 concatenate
print(np.concatenate((a,b)))
print()

# axis = 1. 행 따라서 concatenate
print(np.concatenate((a,b.T), axis = 1))  # 행 수 맞추기 위해 b를 전치행렬로
print()

# axis = None, 전부 1차원 변환 후 concatenate
print(np.concatenate((a,b), axis = None))

[[1 2 3]
 [4 5 6]
 [7 8 9]]

[[10 11 12]
 [13 14 15]
 [16 17 18]
 [19 20 21]]

[[ 1  2  3]
 [ 4  5  6]
 [ 7  8  9]
 [10 11 12]
 [13 14 15]
 [16 17 18]
 [19 20 21]]

[[ 1  2  3 10 13 16 19]
 [ 4  5  6 11 14 17 20]
 [ 7  8  9 12 15 18 21]]

[ 1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21]


## sort

In [None]:
# 크기순 정렬
# np.sort(array, axis = ) : 오름차순 정렬
# np.sort(array, axis = )[::-1] : 1차원 array 내림차순 정렬
# 2차원 이상에서는 for문 사용해서 한 axis씩 1차원 내림차순 정렬시켜줘야 함

# array 생성
arr_sort = np.random.randint(0, 100, size = (4, 5))
print(arr_sort)   # 정렬 전
print()

# 행 정렬
print(np.sort(arr_sort, axis = 1, ))  # 오름차순
print()

# 열 정렬
print(np.sort(arr_sort, axis = 0))  # 오름차순
print()

# 1차원 변환 후 내림차순 정렬
print(np.sort(arr_sort.reshape(-1,))[::-1])

[[39 46  6 95 32]
 [73 98  7  9 98]
 [42 19 59 48  9]
 [16 78 55 55 20]]

[[ 6 32 39 46 95]
 [ 7  9 73 98 98]
 [ 9 19 42 48 59]
 [16 20 55 55 78]]

[[16 19  6  9  9]
 [39 46  7 48 20]
 [42 78 55 55 32]
 [73 98 59 95 98]]

[98 98 95 78 73 59 55 55 48 46 42 39 32 20 19 16  9  9  7  6]
