Numpy는 "numerical python"의 약자로 대규모 다차원 배열과 행렬 연산에 필요한 다양한 함수를 제공

- Numerical Python을 의미하는 Numpy는 파이썬에서 선형대수 기반의 프로그램을 쉽게 만들 수 있도록 지원하는 대표적인 패키지
- 많은 머신러닝 알고리즘이 numpy 기반으로 작성되어 있으며 알고리즘의 입출력 데이터를 numpy 배열 타입으로 사용함
- numpy의 기본 데이터 타입은 ndarray.ndarray를 이용해 numpy에서 다차원 배열을 쉽게 새성하고 다양한 연산 수행

Numpy 특징
- 강력한 N차원 배열 객체
- 정교한 브로드캐스팅 기능
- 유용한 선형 대수학, 푸리에 변환 및 난수 기능
- 푸리에 변환은 시간이나 공간에 대한 함수를 시간 또는 공갅파수 성분으로 분해하는 변환
- 범용적 데이터 처리에 사용 가능한 다차원 컨테이너

In [1]:
!pip install numpy



In [3]:
import numpy as np
z = np.arange(10)
print(z)
print(type(z))

[0 1 2 3 4 5 6 7 8 9]
<class 'numpy.ndarray'>


In [4]:
my_arr = np.arange(1000000)
my_list = list(range(1000000))

In [5]:
%time for _ in range(10): my_array2 = my_arr * 2

Wall time: 13 ms


In [6]:
%time for _ in range(10): my_list2 = [x*2 for x in my_list]

Wall time: 612 ms


In [14]:
# 배열 연산
# np.random.randn 가우시안 표준 정규분포에서 난수 매트릭스 array 생성
data = np.random.randn(2,3) #표준 정규분포 2행 3열 매트릭스
print(data *10)
print(data+data)

[[-12.61581835 -14.51607278   5.00129838]
 [  8.48874073   1.13201726   4.22263505]]
[[-2.52316367 -2.90321456  1.00025968]
 [ 1.69774815  0.22640345  0.84452701]]


In [16]:
print(data.shape) # 크기
print(data.dtype) # 데이터 타입
print(data.ndim) # 차원

(2, 3)
float64
2


다차원 배열
<img src = 'numpy차원.jpg' STYLE = 'width:300px;'>

In [18]:
data2 = [[1,2,3,4],[5,6,7,8]]
print(type(data2),'\n')
arr2 = np.array(data2)
print(arr2,type(arr2))

<class 'list'> 

[[1 2 3 4]
 [5 6 7 8]] <class 'numpy.ndarray'>


In [23]:
print(arr2.ndim,'\n')
print(arr2.shape,'\n')

2 

(2, 4) 



In [27]:
#1차원 배열로 3개의 데이터
array1 = np.array([1,2,3])
print(array1,type(array1),array1.shape) # (,열)이 아닌(열,) 형태로 출력

[1 2 3] <class 'numpy.ndarray'> (3,)


In [35]:
# 2차원 배열로 2개의 row와 3개의 column으로 구성된 6개의 데이터
array23 = np.random.randn(2,3)
print(array23, type(array23),array23.shape)

[[ 0.25315446  2.24493932  1.70816458]
 [ 1.82008436  2.1998024  -0.65047153]] <class 'numpy.ndarray'> (2, 3)


In [36]:
#1개의 row와 3개의 column으로 구성된 2차원 배열
array13 = np.random.randn(1,3)
print(array13,type(array13),array13.shape)

array21  = np.array([[1,2,3]])
print(array21,type(array21),array21.shape)

[[ 0.4972784  -0.28153215  0.42275392]] <class 'numpy.ndarray'> (1, 3)
[[1 2 3]] <class 'numpy.ndarray'> (1, 3)


In [41]:
# 3차원 배열
array333 = np.array([[[1,2,3],[4,5,6],[7,8,9]],
                     [[1,2,3],[4,5,6],[7,8,9]],
                     [[1,2,3],[4,5,6],[7,8,9]]])
print(array333,array333.shape)

[[[1 2 3]
  [4 5 6]
  [7 8 9]]

 [[1 2 3]
  [4 5 6]
  [7 8 9]]

 [[1 2 3]
  [4 5 6]
  [7 8 9]]] (3, 3, 3)


In [42]:
# 경고 메시지 제외 처리
import warnings
warnings.filterwarnings('ignore')

배열 생성 및 초기화
- numpy는 원하는 shape로 배열을 설정하고 각 요소를 특정 값으로 초기화하는 zeros, ones, full, eye 함수 제공
- 파라미터로 입력한 배열과 같은 shape의 배열을 만드는 zeros_like, ones_like, full_like 함수도 제공

In [50]:
print(np.zeros(10))
print(np.ones((5,5)))
print(np.zeros((2,3,3)))

[0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
[[1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1.]]
[[[0. 0. 0.]
  [0. 0. 0.]
  [0. 0. 0.]]

 [[0. 0. 0.]
  [0. 0. 0.]
  [0. 0. 0.]]]


In [52]:
a = np.full((2,2),7)
print(a)

[[7 7]
 [7 7]]


In [54]:
#단위행렬 항등행렬
b = np.eye(3)
print(b)

[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]


In [58]:
# arange : python range함수의 배열 버전
arr1 = np.arange(15)
print(arr1,type(arr1),arr1.shape)

[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14] <class 'numpy.ndarray'> (15,)


In [60]:
arr2 = arr1.reshape((3,5))
print(arr2)

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]]


In [62]:
arr3 = arr1.reshape((1,3,5))
print(arr3)

[[[ 0  1  2  3  4]
  [ 5  6  7  8  9]
  [10 11 12 13 14]]]


In [66]:
# array1에 reshape 함수를 이용, (5,2) 배열을 생성하고 크기를 같이 출력하세요.
array1 = np.arange(10)
array2 = array1.reshape((5,2))
print(array2)

[[0 1]
 [2 3]
 [4 5]
 [6 7]
 [8 9]]


In [67]:
arry1 = np.arange(30)
arry2 = arry1.reshape(15,2)
arry3 = arry1.reshape(2,3,5)
print(arry2)
print(arry3)

[[ 0  1]
 [ 2  3]
 [ 4  5]
 [ 6  7]
 [ 8  9]
 [10 11]
 [12 13]
 [14 15]
 [16 17]
 [18 19]
 [20 21]
 [22 23]
 [24 25]
 [26 27]
 [28 29]]
[[[ 0  1  2  3  4]
  [ 5  6  7  8  9]
  [10 11 12 13 14]]

 [[15 16 17 18 19]
  [20 21 22 23 24]
  [25 26 27 28 29]]]


In [70]:
#reshape(-1,-1) 이용, 차원 변경
array1 = np.arange(30)
ar12 = array1.reshape(3,-1)
print(ar12,ar12.shape,'\n')
ar13 = array1.reshape(-1,2,5)
print(ar13,ar13.shape)

[[ 0  1  2  3  4  5  6  7  8  9]
 [10 11 12 13 14 15 16 17 18 19]
 [20 21 22 23 24 25 26 27 28 29]] (3, 10) 

[[[ 0  1  2  3  4]
  [ 5  6  7  8  9]]

 [[10 11 12 13 14]
  [15 16 17 18 19]]

 [[20 21 22 23 24]
  [25 26 27 28 29]]] (3, 2, 5)


In [73]:
#2차원을 1차원이나 3차원으로 변환
a12 = np.array([[1,2,3,4,5],[6,7,8,9,0],[1,3,5,7,9]])
a11 = a12.reshape(-1,)
a13 = a12.reshape(-1,3,1)
print(a11,a11.shape,'\n',a13,a13.shape)

[1 2 3 4 5 6 7 8 9 0 1 3 5 7 9] (15,) 
 [[[1]
  [2]
  [3]]

 [[4]
  [5]
  [6]]

 [[7]
  [8]
  [9]]

 [[0]
  [1]
  [3]]

 [[5]
  [7]
  [9]]] (5, 3, 1)


In [74]:
# 3차원을 1,2차원으로

ar3 = np.array([[[1,2,3],[4,5,6],[7,8,9]]])

ar31 = ar3.reshape(-1,)
ar32 = ar3.reshape(3,-1)

print(ar31,ar31.shape,'\n',ar32,ar32.shape)

[1 2 3 4 5 6 7 8 9] (9,) 
 [[1 2 3]
 [4 5 6]
 [7 8 9]] (3, 3)


행렬의 종류
- 정방행렬 : 행과 열의 수가 같은 행렬
- 대각행렬 : 주대각서 원소를 제외한 모든 원소들이 0인 정방행렬
- 항등행렬 : 행렬 곱셈 연산에 항등원으로 작용하는 행렬
- 영행렬 : 모든 원소가 0인 행렬고 곱셈 연산에서 영원으로 작용하는 행렬
- 전치행렬 : 주대각선 원소를 기준으로 행과 열을 바꿔주는 행렬
- 직교행렬 : 행렬 A의 역행렬이 A의 전치행렬이고 A의 전치행렬과 A행렬을 곱하면 항등행렬이 되는 행렬

In [77]:
#정방행렬
array1 = np.full((5,5),7)
print(array1)

[[7 7 7 7 7]
 [7 7 7 7 7]
 [7 7 7 7 7]
 [7 7 7 7 7]
 [7 7 7 7 7]]


In [79]:
#항등행렬, 단위 행렬
array2 = np.eye(5)
print(array2)

[[1. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 1.]]


In [82]:
# 영행렬
array3 = np.zeros((5,5))
print(array3)

[[0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0.]]


ndarray 데이터 형태 지정 및 변경
<img src = '데이터형태.jpg' STYLE = 'width = 300px;'>

In [88]:
arr1 = np.array([1,2,3],dtype = np.float64)
print(arr1,arr1.dtype)

[1. 2. 3.] float64


In [90]:
#타입 변경 astype
arr = np.array([1,2,3,4,5])
print(arr.dtype)
float_arr = arr.astype(np.float64)
print(float_arr,float_arr.dtype)

int32
[1. 2. 3. 4. 5.] float64


In [129]:
#empty 함수: shape와 dtype를 입력받아 초기화되지 않은 배열을 만들어준다
#empty 함수를 실행할 때마다 값이 다른것을 확인할 수 있다. 이는 해당 메모리 영역에 어느 데이터가 남아있었는지 상관없이 그대로 영역의 주소만 알려줄 뿐 초기화는 사용자에게 맡기기 때문이다.
print(np.empty(shape=(10,),dtype=np.int8))

[1 1 1 1 1 1 1 1 1 1]


In [122]:
# 문자열 타입으로 배열 만들기
arr=np.array([1,2,3,4],dtype='S')
print(arr,arr.dtype)
arr1 = arr.astype(int)
print(arr1,arr1.dtype)

[b'1' b'2' b'3' b'4'] |S1
[1 2 3 4] int32


In [130]:
# 정수와 실수로 구성된 list_e = [1.2,2.3,3]을 numpy를 이용해서 실수형과 정수형으로 각각 출력하세요

list_e = [1.2,2.3,3]

arr = np.array(list_e,dtype = int)
print(arr)
arr2 = np.array(list_e,dtype=float)
print(arr2)

[1 2 3]
[1.2 2.3 3. ]


In [138]:
# 배열의 산술 연산
arr = np.array([[1,2,3],[4,5,6]])
arr = np.arange(1,7).reshape(2,3)
print(arr)

arr+arr

[[1 2 3]
 [4 5 6]]


array([[ 2,  4,  6],
       [ 8, 10, 12]])

In [150]:
arr2 = np.array([[0.,4.,1.],[7.,2.,12.]])
print(arr2)

arr2 > arr

[[ 0.  4.  1.]
 [ 7.  2. 12.]]


array([[False,  True, False],
       [ True, False,  True]])

In [155]:
# 기본 사칙 연산
value1 = np.arange(1,10).reshape(3,3)
value2 = np.arange(11,20).reshape(3,3)

print(value1+value2)
print(np.add(value1,value2))


print(value2-value1)

print(np.subtract(value2,value1))

print(value1*value2)

print(np.multiply(value2,value1))
print(value2/value1)
print(np.divide(value2,value1))

[[12 14 16]
 [18 20 22]
 [24 26 28]]
[[12 14 16]
 [18 20 22]
 [24 26 28]]
[[10 10 10]
 [10 10 10]
 [10 10 10]]
[[10 10 10]
 [10 10 10]
 [10 10 10]]
[[ 11  24  39]
 [ 56  75  96]
 [119 144 171]]
[[ 11  24  39]
 [ 56  75  96]
 [119 144 171]]
[[11.          6.          4.33333333]
 [ 3.5         3.          2.66666667]
 [ 2.42857143  2.25        2.11111111]]
[[11.          6.          4.33333333]
 [ 3.5         3.          2.66666667]
 [ 2.42857143  2.25        2.11111111]]


In [175]:
arr = np.random.randn(2,2)
arr

array([[ 0.10872052, -0.15281705],
       [ 0.50448543, -0.20077848]])

In [176]:
arr.mean(axis=0).round(4)

array([ 0.3066, -0.1768])

In [177]:
arr.mean(axis=1).round(4)

array([-0.022 ,  0.1519])

In [178]:
arr.sum().round(4)

0.2596

In [180]:
arr.cumprod() # 원소들 순으로 누적곱 실행

array([ 0.10872052, -0.01661435, -0.0083817 ,  0.00168286])

In [182]:
# 인덱싱 슬라이싱
arr2d = np.arange(1,10).reshape(3,3)
arr2d

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [184]:
arr2d[2]

array([7, 8, 9])

In [186]:
arr2d[2][2]

9

In [189]:
arr2d[:,0]

array([1, 4, 7])

In [194]:
arr2d[:2][:]

array([[1, 2, 3],
       [4, 5, 6]])

In [210]:
# arr2d에서 [3,6],[[1,2],[4,5]]를 출력하세요
print(arr2d[:2,2])
print(arr2d[:2,:2])

[3 6]
[[1 2]
 [4 5]]


In [216]:
print(arr2d[:-1])

[[1 2 3]
 [4 5 6]]


In [233]:
arr = np.arange(30).reshape(5,6)
arr

print(arr[2,2:5])
print(arr[:2,3])
print(arr[:3,1])

[14 15 16]
[3 9]
[ 1  7 13]


In [235]:
# 배열을 리스트로 변환
li = arr.tolist()
print(li)

[[0, 1, 2, 3, 4, 5], [6, 7, 8, 9, 10, 11], [12, 13, 14, 15, 16, 17], [18, 19, 20, 21, 22, 23], [24, 25, 26, 27, 28, 29]]


In [238]:
# Boolean indexing

arr1d = np.arange(1,10)
print(arr1d)

arr3 = arr1d[arr1d>5]
print(arr3)
print(arr1d > 5)

[1 2 3 4 5 6 7 8 9]
[6 7 8 9]
[False False False False False  True  True  True  True]


In [246]:
#arr1d에서 일반 인덱스를 이용해서 출력
arr4 = arr1d[5:9]
print(arr4)

[6 7 8 9]


In [247]:
# 1~14까지의 ndarray를 만들어 array_e로 저장하고 (array_e/2) > 5를 만족하는 값을 불린 인덱싱으로 출력하세요
array_e = np.arange(1,15)
print(array_e[array_e/2 > 5])

[11 12 13 14]


In [252]:
names = np.array(['Bob','Joe','Will','Bob','Will','Joe','Joe'])
data = np.random.randn(7,4)

print(names == 'Bob')
print(data,'\n','\n',data[names=='Bob'])

[ True False False  True False False False]
[[ 1.73052906  0.25799091 -0.29704707  0.79256355]
 [-1.20265023  0.15869665 -2.9857248   0.62330169]
 [-0.69868949  1.38571966  0.8896105  -1.02951314]
 [-0.10511911  1.00793852 -0.42298169 -0.12469711]
 [-0.9236112   0.33737666  0.18845798 -0.17044232]
 [ 1.1007453   1.84455636  0.66610465 -0.41818943]
 [-1.06386216 -1.70099422  0.45936318  0.40068225]] 
 
 [[ 1.73052906  0.25799091 -0.29704707  0.79256355]
 [-0.10511911  1.00793852 -0.42298169 -0.12469711]]


In [253]:
data[names=='Bob' , 2:]

array([[-0.29704707,  0.79256355],
       [-0.42298169, -0.12469711]])

In [254]:
data[names!='Bob']

array([[-1.20265023,  0.15869665, -2.9857248 ,  0.62330169],
       [-0.69868949,  1.38571966,  0.8896105 , -1.02951314],
       [-0.9236112 ,  0.33737666,  0.18845798, -0.17044232],
       [ 1.1007453 ,  1.84455636,  0.66610465, -0.41818943],
       [-1.06386216, -1.70099422,  0.45936318,  0.40068225]])

In [263]:
data[names !='Joe']

array([[ 1.73052906,  0.25799091, -0.29704707,  0.79256355],
       [-0.69868949,  1.38571966,  0.8896105 , -1.02951314],
       [-0.10511911,  1.00793852, -0.42298169, -0.12469711],
       [-0.9236112 ,  0.33737666,  0.18845798, -0.17044232]])

In [266]:
mask = (names == 'Bob') | (names == 'Will')

data[mask]

array([[ 1.73052906,  0.25799091, -0.29704707,  0.79256355],
       [-0.69868949,  1.38571966,  0.8896105 , -1.02951314],
       [-0.10511911,  1.00793852, -0.42298169, -0.12469711],
       [-0.9236112 ,  0.33737666,  0.18845798, -0.17044232]])

In [272]:
#음수를 모두 0으로 처리하여 출력
data[data<0] = 0
print(data)

[[1.73052906 0.25799091 0.         0.79256355]
 [0.         0.15869665 0.         0.62330169]
 [0.         1.38571966 0.8896105  0.        ]
 [0.         1.00793852 0.         0.        ]
 [0.         0.33737666 0.18845798 0.        ]
 [1.1007453  1.84455636 0.66610465 0.        ]
 [0.         0.         0.45936318 0.40068225]]
