Numpy는 "Numerical Python"의 약자로 대규모 다차원 배열과 행렬 연산에 필요한 다양한 함수를 제공

- Numerical Python을 의미하는 Numpy는 파이썬에서 선형대수 기반의 프로그램을 쉽게 만들 수 있도록 지원하는 대표적인 패키지
- 많은 머신러닝 알고리즘이 넘파이 기반으로 작성되어 있으며 알고리즘의 입출력 데이터를 넘파이 배열 타입으로 사용함
- 넘파이의 기본 데이터 타입은 ndarray.ndarray를 이용해 넘파이에서 다차원 배열을 쉽게 생성하고 다양한 연산 수행

Numpy 특징
- 강력한 N차원 배열 객체
- 정교한 브로드케스팅 기능
- 유용한 선형 대수학, 푸리에 변환 및 난수 기능
- 푸리에 변환은 시간이나 공간에 대한 함수를 시간 또는 공간 주파수 성분으로 분해하는 변환
- 범용적 데이터 처리에 사용 가능한 다차원 컨테이너

In [1]:
!pip install numpy



In [3]:
import numpy as np
z = np.arange(10)
print(z,type(z))

[0 1 2 3 4 5 6 7 8 9] <class 'numpy.ndarray'>


In [4]:
my_arr = np.arange(1000000)
my_list = list(range(1000000))

In [5]:
%time for _ in range(10): my_array2 = my_arr * 2

Wall time: 11 ms


In [6]:
%time for _ in range(10): my_list2 = [x*2 for x in my_list]

Wall time: 561 ms


In [9]:
# 배열 연산
# np.random.randn 가우시안 표준 정규분표에서 난수 매트릭스 array 생성
data = np.random.randn(2,3) # 표준 정규분포로 구성되는 2행 3열 매트릭스
print(data,'\n')
print(data * 10, '\n')
print(data + data)

[[-0.04578808 -0.16202976  0.51254181]
 [ 0.90366614  0.90122787  0.98092254]] 

[[-0.45788076 -1.62029761  5.12541808]
 [ 9.03666144  9.0122787   9.80922543]] 

[[-0.09157615 -0.32405952  1.02508362]
 [ 1.80733229  1.80245574  1.96184509]]


In [10]:
print(data.shape) # 크기
print(data.dtype) # 데이터 타입
print(data.ndim) # 차원

(2, 3)
float64
2


다차원 배열
<img src = 'numpy차원.jpg' STYLE='width:300px;'>

In [12]:
data2 = [[1,2,3,4],[5,6,7,8]]
print(type(data2),'\n')
arr2 = np.array(data2)
print(arr2,type(arr2))

<class 'list'> 

[[1 2 3 4]
 [5 6 7 8]] <class 'numpy.ndarray'>


In [13]:
print(arr2.ndim,'\n')
print(arr2.shape)

2 

(2, 4)


In [15]:
# 1차원 배열로 3개의 데이터
array1 = np.array([1,2,3])
print(array1,type(array1),array1.shape) # (,옇)이 아닌 (열,) 형태로 출력

[1 2 3] <class 'numpy.ndarray'> (3,)


In [18]:
# 2차원 배열로 2개의 row와 3개의 column으로 구성된 6개의 데이터
array2 = np.array([[1,2,3],[2,3,4]])
print(array2,type(array2),array2.shape)

[[1 2 3]
 [2 3 4]] <class 'numpy.ndarray'> (2, 3)


In [19]:
# 1개의 row와 3개의 column으로 구성된 2차원 배열
array21 = np.array([[1,2,3]])
print(array21,array21.shape)

[[1 2 3]] (1, 3)


In [23]:
# 3차원
array3 = np.array([[[1,2,3,4,5],[6,7,8,9,10]],
                  [[1,2,3,4,5],[6,7,8,9,10]],
                  [[1,2,3,4,5],[6,7,8,9,10]]],dtype=object)
print(array3,array3.shape,'\n')
print(type(array3))

[[[1 2 3 4 5]
  [6 7 8 9 10]]

 [[1 2 3 4 5]
  [6 7 8 9 10]]

 [[1 2 3 4 5]
  [6 7 8 9 10]]] (3, 2, 5) 

<class 'numpy.ndarray'>


In [24]:
# 경고 메시지 제외 처리
import warnings
warnings.filterwarnings('ignore')

배열 생성 및 초기화
- Numpy 는 원하는 shape로 배열을 설정하고 각 요소를 특정 값으로 초기화하는 zeros, ones, full, eye 함수 제공
- 파라미터로 입력한 배열과 같은 shape의 배열을 만드는 zeros_like, ones_like, full_like 함수도 제공

In [26]:
print(np.zeros(10),'\n')
print(np.zeros((3,6)),'\n')
print(np.zeros((2,3,2)))

[0. 0. 0. 0. 0. 0. 0. 0. 0. 0.] 

[[0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0.]] 

[[[0. 0.]
  [0. 0.]
  [0. 0.]]

 [[0. 0.]
  [0. 0.]
  [0. 0.]]]


In [30]:
print(np.ones((2,3,2)))

[[[1. 1.]
  [1. 1.]
  [1. 1.]]

 [[1. 1.]
  [1. 1.]
  [1. 1.]]]


In [31]:
ar1 = np.full((2,2),5)
ar1

array([[5, 5],
       [5, 5]])

In [32]:
# 항등행렬, 단위행렬
ar2 = np.eye(3)
ar2

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [None]:
# [과제] zeros_like, ones_like, full_like 함수 사용 예를 작성하세요.

In [33]:
# arange 함수 : python의 range함수의 배열 버전
arr1 = np.arange(15)
arr1

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

In [38]:
arr2 = arr1.reshape(3,5)
print(arr2,arr2.shape,'\n')
arr3 = arr1.reshape(1,3,5)
print(arr3,arr3.shape)

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]] (3, 5) 

[[[ 0  1  2  3  4]
  [ 5  6  7  8  9]
  [10 11 12 13 14]]] (1, 3, 5)


In [39]:
# Q. array1을 생성하고 reshape 함수를 이용, (5,2) 배열을 생성하고 크기를 같이 출력하세요.
array1 = np.arange(10)
array2 = array1.reshape(5,2)
array2

array([[0, 1],
       [2, 3],
       [4, 5],
       [6, 7],
       [8, 9]])

In [None]:
# 0~29 일차원 배열을 생성한 후 다시 2,3차원 배열로 변환하여 출력하세요

In [41]:
array1 = np.arange(30)
array2 = array1.reshape(5,6)
print(array2,array2.shape,'\n')
array3 = array2.reshape(2,3,5)
print(array3,array3.shape)

[[ 0  1  2  3  4  5]
 [ 6  7  8  9 10 11]
 [12 13 14 15 16 17]
 [18 19 20 21 22 23]
 [24 25 26 27 28 29]] (5, 6) 

[[[ 0  1  2  3  4]
  [ 5  6  7  8  9]
  [10 11 12 13 14]]

 [[15 16 17 18 19]
  [20 21 22 23 24]
  [25 26 27 28 29]]] (2, 3, 5)


In [45]:
# reshape(-1,-1) 이용, 차원 변경
array1 = np.arange(30)
ar12 = array1.reshape(3,-1)
print(ar12,ar12.shape,'\n')
ar13 = array1.reshape(-1,2,5)
print(ar13,ar13.shape)

[[ 0  1  2  3  4  5  6  7  8  9]
 [10 11 12 13 14 15 16 17 18 19]
 [20 21 22 23 24 25 26 27 28 29]] (3, 10) 

[[[ 0  1  2  3  4]
  [ 5  6  7  8  9]]

 [[10 11 12 13 14]
  [15 16 17 18 19]]

 [[20 21 22 23 24]
  [25 26 27 28 29]]] (3, 2, 5)


In [46]:
# 2 -> 1, 3차원으로 변환하여 출력
ar12

array([[ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14, 15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24, 25, 26, 27, 28, 29]])

In [49]:
ar1=ar12.reshape(-1,)
ar3=ar12.reshape(-1,2,5)
print(ar1,ar1.shape,'\n')
print(ar3,ar3.shape,'\n')

[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
 24 25 26 27 28 29] (30,) 

[[[ 0  1  2  3  4]
  [ 5  6  7  8  9]]

 [[10 11 12 13 14]
  [15 16 17 18 19]]

 [[20 21 22 23 24]
  [25 26 27 28 29]]] (3, 2, 5) 



In [None]:
# 3 -> 1,2차원으로 변환하여 출력
ar3

In [50]:
ar3 = np.arange(30).reshape(3,2,5)
ar31 = ar3.reshape(-1,)
ar32 = ar3.reshape(3,-1)

print(ar31,'\n')
print(ar32)

[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
 24 25 26 27 28 29] 

[[ 0  1  2  3  4  5  6  7  8  9]
 [10 11 12 13 14 15 16 17 18 19]
 [20 21 22 23 24 25 26 27 28 29]]


행렬의 종류
- 정방행렬은 행과 열의 수가 같은 행렬
- 대각행렬은 주대각선 원소를 제외한 모든 원소들이 0인 정방행렬
- 항등행렬은 행렬 곱셈 연산에 항등원으로 작용하는 행렬
- 영행렬은 모든 원소가 0인 행렬로 곱셈 연산에서 영원으로 작용하는 행렬
- 전치행렬은 주대각선 원소를 기준으로 행과 열을 바꿔주는 행렬
- 직교행렬은 행렬 A의 역행렬이 A의 전치행렬이고 A의 전치행렬과 A 행렬을 곱하였을 때 항등행렬이 나오는 행렬

In [51]:
# 정방행렬
a = np.full((5,5), 7)
a

array([[7, 7, 7, 7, 7],
       [7, 7, 7, 7, 7],
       [7, 7, 7, 7, 7],
       [7, 7, 7, 7, 7],
       [7, 7, 7, 7, 7]])

In [52]:
# 항등행렬, 단위행렬
a = np.eye(5)
a

array([[1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

In [55]:
# 영행렬
a = np.zeros(25)
a.reshape(5,5)

array([[0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.]])

ndarray 데이터 형태 지정 및 변경
<img src='데이터형태.jpg' STYLE='width:300px;'>

In [57]:
arr1 = np.array([1,2,3],dtype=np.float64)
arr2 = np.array([1,2,3],dtype=np.int32)
print(arr1,arr1.dtype,'\n')
print(arr2, arr2.dtype)

[1. 2. 3.] float64 

[1 2 3] int32


In [60]:
# 타입 변경
arr = np.array([1,2,3,4,5])
print(arr.dtype)
float_arr = arr.astype(np.float64)
print(float_arr.dtype)

int32
float64


In [62]:
np.ones(10)

array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1.])

In [64]:
# empty 함수 : shape와 dtype을 입력 받아 초기화되지 않은 배열을 만들어준다. cf. zeros 함수
# empty 함수를 실행할 때마다 값이 다른 것을 확인할 수 있다. 이는 해당 메모리 영역에 어떤 데이터가 남아있었던지 상관없이
# 그대로 영역의 주소만 알려줄 뿐 초기화는 사용자에게 맡기기 때문임.
print(np.empty(shape=(10,), dtype=np.int8))
print(np.zeros(shape=(10,), dtype=np.int8))

[1 1 1 1 1 1 1 1 1 1]
[0 0 0 0 0 0 0 0 0 0]


In [70]:
# 문자열 타입으로 배열 만들기
# arr = np.array([1,2,3,4], dtype='S')
arr = np.array([1,2,3,4], dtype=np.string_)
print(arr, arr.dtype)

[b'1' b'2' b'3' b'4'] |S1


In [74]:
arr1 = arr.astype('float32')
print(arr1,arr1.dtype)

[1. 2. 3. 4.] float32


In [77]:
# 정수와 실수로 구성된 list_e = [1.2,2.3,3]을 numpy를 이용해서 실수형과 정수형으로 각각 출력하세요.
list_e = [1.2,2.3,3]
array_e1 = np.array(list_e)
print(array_e1,array_e1.dtype,'\n')
array_e2 = array_e1.astype(int)
print(array_e2,array_e2.dtype)

[1.2 2.3 3. ] float64 

[1 2 3] int32


In [79]:
# 배열의 산술 연산
# arr = np.array([[1,2,3],[4,5,6]])
arr = np.arange(1,7).reshape(2,3)
print(arr,arr.dtype)

[[1 2 3]
 [4 5 6]] int32


In [80]:
arr * arr

array([[ 1,  4,  9],
       [16, 25, 36]])

In [81]:
arr - arr

array([[0, 0, 0],
       [0, 0, 0]])

In [82]:
arr2 = np.array([[0.,4.,1.],[7.,2.,12.]])
arr2

array([[ 0.,  4.,  1.],
       [ 7.,  2., 12.]])

In [83]:
arr2 > arr

array([[False,  True, False],
       [ True, False,  True]])

In [88]:
# 기본 사칙연산

value1 = np.arange(1,10).reshape(3,3)
value2 = np.arange(11,20).reshape(3,3)
print(value1+value2,'\n')
print(np.add(value1,value2),'\n')

print(value2-value1,'\n')
print(np.subtract(value2,value1),'\n')

print(value1*value2,'\n')
print(np.multiply(value1,value2),'\n')

print(value2/value1,'\n')
print(np.divide(value2,value1))


[[12 14 16]
 [18 20 22]
 [24 26 28]] 

[[12 14 16]
 [18 20 22]
 [24 26 28]] 

[[10 10 10]
 [10 10 10]
 [10 10 10]] 

[[10 10 10]
 [10 10 10]
 [10 10 10]] 

[[ 11  24  39]
 [ 56  75  96]
 [119 144 171]] 

[[ 11  24  39]
 [ 56  75  96]
 [119 144 171]] 

[[11.          6.          4.33333333]
 [ 3.5         3.          2.66666667]
 [ 2.42857143  2.25        2.11111111]] 

[[11.          6.          4.33333333]
 [ 3.5         3.          2.66666667]
 [ 2.42857143  2.25        2.11111111]]


In [94]:
arr = np.random.randn(2,2)
arr

array([[-1.77740148,  0.10048979],
       [ 0.8333866 ,  0.3054357 ]])

In [91]:
arr.mean().round(4)

-0.0265

In [95]:
arr.mean(axis=1)

array([-0.83845585,  0.56941115])

In [96]:
arr.mean(axis=0)b

array([-0.47200744,  0.20296274])

In [97]:
arr.sum().round(4)

-0.5381

In [98]:
arr.cumprod()

array([-1.77740148, -0.1786107 , -0.14885176, -0.04546464])

In [99]:
# 인덱싱, 슬라이싱
arr2d = np.arange(1,10).reshape(3,3)
arr2d

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [108]:
arr2d[2:]

array([[7, 8, 9]])

In [101]:
arr2d[2][2]

9

In [102]:
arr2d[:,0]

array([1, 4, 7])

In [103]:
arr2d[:2,:]

array([[1, 2, 3],
       [4, 5, 6]])

In [None]:
# arr2d를 다은 방식으로 아래와 같이 출력하세요.
[[1, 2, 3],
[4, 5, 6]]

In [112]:
# arr2d[:2][:]
arr2d[[0,2],:]

array([[1, 2, 3],
       [7, 8, 9]])

In [104]:
# arr2d에서 [3,6], [[1,2],[4,5]]을 출력하세요.
print(arr2d[:2,2])
print()
print(arr2d[:2,:2])

[3 6]

[[1 2]
 [4 5]]


In [114]:
arr = np.arange(30).reshape(5,6)
arr

array([[ 0,  1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11],
       [12, 13, 14, 15, 16, 17],
       [18, 19, 20, 21, 22, 23],
       [24, 25, 26, 27, 28, 29]])

In [None]:
[14,15,16]
[3,9]
[1,7,13]

In [116]:
arr[2][2:5]

array([14, 15, 16])

In [125]:
arr[[0,1],3]
arr[:2,3]

array([3, 9])

In [124]:
arr[:3,1]
arr[[0,1,2],1]

array([ 1,  7, 13])

In [129]:
# 배열을 리스트로 변환
li = arr.tolist()
print(li, type(li))

[[0, 1, 2, 3, 4, 5], [6, 7, 8, 9, 10, 11], [12, 13, 14, 15, 16, 17], [18, 19, 20, 21, 22, 23], [24, 25, 26, 27, 28, 29]] <class 'list'>


In [132]:
# Boolean indexing
arr1d = np.arange(1,10)
print(arr1d)
arr3 = arr1d[arr1d > 5]
print(arr3)
print(arr1d > 5)

[1 2 3 4 5 6 7 8 9]
[6 7 8 9]
[False False False False False  True  True  True  True]


In [133]:
# arr1d에서 일반 인덱스를 이용해서 [6 7 8 9]를 출력하세요.
print(arr1d[5:])

[6 7 8 9]


In [135]:
# Q. 1 ~ 14까지 ndarray를 만들어 array_e로 저장하고 (array_e / 2) > 5를 만족하는 값을 불린 인덱싱으로 출력하세요.

array_e = np.arange(1,15)
array = array_e[(array_e/2) > 5]
print(array)

[11 12 13 14]


In [134]:
names = np.array(['Bob','Joe','Will','Bob','Will','Joe','Joe'])
data = np.random.randn(7,4)
print(names,'\n')
print(data)

['Bob' 'Joe' 'Will' 'Bob' 'Will' 'Joe' 'Joe'] 

[[-0.12498881 -0.29678146 -0.23823233  1.12654396]
 [ 0.48094775  1.67624536 -1.04584645 -2.03236948]
 [-0.01704638  1.91005334  1.15019128 -1.06908766]
 [-0.55262329 -0.02958371 -0.41791047  0.98706867]
 [-0.40581994  0.99667392 -1.10174662 -0.23984348]
 [ 0.85715355 -0.51159727 -0.9106389  -0.72393267]
 [ 1.5643409   1.13356136 -0.20298027  1.56806002]]


In [136]:
names == 'Bob'

array([ True, False, False,  True, False, False, False])

In [137]:
data[names == 'Bob']

array([[-0.12498881, -0.29678146, -0.23823233,  1.12654396],
       [-0.55262329, -0.02958371, -0.41791047,  0.98706867]])

In [138]:
data[names == 'Bob', 2:]

array([[-0.23823233,  1.12654396],
       [-0.41791047,  0.98706867]])

In [139]:
# != 부정
data[names != 'Bob']

array([[ 0.48094775,  1.67624536, -1.04584645, -2.03236948],
       [-0.01704638,  1.91005334,  1.15019128, -1.06908766],
       [-0.40581994,  0.99667392, -1.10174662, -0.23984348],
       [ 0.85715355, -0.51159727, -0.9106389 , -0.72393267],
       [ 1.5643409 ,  1.13356136, -0.20298027,  1.56806002]])

In [140]:
# Bob이거나 Will인 것 출력
mask = (names == 'Bob') | (names == 'Will')
data[mask]

array([[-0.12498881, -0.29678146, -0.23823233,  1.12654396],
       [-0.01704638,  1.91005334,  1.15019128, -1.06908766],
       [-0.55262329, -0.02958371, -0.41791047,  0.98706867],
       [-0.40581994,  0.99667392, -1.10174662, -0.23984348]])

In [142]:
# 음수를 모두 0으로 처리하여 출력
data[data<0] = 0
print(data)

[[0.         0.         0.         1.12654396]
 [0.48094775 1.67624536 0.         0.        ]
 [0.         1.91005334 1.15019128 0.        ]
 [0.         0.         0.         0.98706867]
 [0.         0.99667392 0.         0.        ]
 [0.85715355 0.         0.         0.        ]
 [1.5643409  1.13356136 0.         1.56806002]]


In [None]:
# [과제] 1 ~ 100까지 정수에서 3의 배수인 것만을 출력(for문과 배열 두가지 방식)

In [None]:
# [과제] 1 ~ 100까지 정수에서 5의 배수이면서 2의 배수인 것만을 출력(for문과 배열 두가지 방식)

In [None]:
# [과제] 표준정규분포로 구성된 5행 5열 다차원 배열을 생성하고 함수를 이용하여 평균과 표준편차를 구하세요.

In [None]:
# [과제] 현재 사용하고 있는 numpy의 버전을 출력하세요.

In [None]:
# [과제] numpy 함수의 도움말 기능을 볼수 있는 방법을 수행하여 add 함수의 가이드를 출력하세요.

In [144]:
# [과제] zeros 함수를 이용해서 아래와 같이 출력하세요.
array([0., 0., 0., 0., 1., 0., 0., 0., 0., 0.])

In [145]:
# [과제] 인덱싱을 이용하여 아래 배열을 내림차순으로 정렬하세요.
[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [None]:
# [과제] [1,2,0,0,4,0]dptj zero가 아닌 인덱스를 배열 형태로 출력하세요.