### numpy에서 자주 사용되는 함수들 정리

In [1]:
import numpy as np
import matplotlib.pyplot as plt

from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity="all"


#### numpy documentation
 - [numpy 공식 문서 링크](https://www.numpy.org/devdocs/reference/)
 - numpy에서 제공되는 함수등에 대한 문서


In [2]:
x = np.arange(15).reshape(3, 5)
y = np.random.rand(15).reshape(3, 5)
print(x)
print(y)


[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]]
[[0.18993433 0.5913923  0.52511533 0.17532714 0.17385208]
 [0.93533709 0.47181315 0.48617397 0.15748127 0.24608163]
 [0.25616974 0.98091142 0.98615373 0.39491096 0.69459251]]


#### 연산 함수
 - add, substract, multiply, divide


In [3]:
np.add(x,y)
np.divide(x,y)
np.multiply(x,y)
np.subtract(x,y)

array([[ 0.18993433,  1.5913923 ,  2.52511533,  3.17532714,  4.17385208],
       [ 5.93533709,  6.47181315,  7.48617397,  8.15748127,  9.24608163],
       [10.25616974, 11.98091142, 12.98615373, 13.39491096, 14.69459251]])

array([[ 0.        ,  1.69092497,  3.80868713, 17.11087102, 23.00806485],
       [ 5.34566633, 12.71689853, 14.39813823, 50.79969045, 36.57323005],
       [39.03661743, 11.21406047, 12.1684882 , 32.91881297, 20.15570242]])

array([[ 0.        ,  0.5913923 ,  1.05023066,  0.52598141,  0.69540833],
       [ 4.67668546,  2.83087892,  3.40321778,  1.2598502 ,  2.21473465],
       [ 2.56169736, 10.79002564, 11.83384473,  5.13384247,  9.72429519]])

array([[-0.18993433,  0.4086077 ,  1.47488467,  2.82467286,  3.82614792],
       [ 4.06466291,  5.52818685,  6.51382603,  7.84251873,  8.75391837],
       [ 9.74383026, 10.01908858, 11.01384627, 12.60508904, 13.30540749]])

In [4]:
x+y

array([[ 0.18993433,  1.5913923 ,  2.52511533,  3.17532714,  4.17385208],
       [ 5.93533709,  6.47181315,  7.48617397,  8.15748127,  9.24608163],
       [10.25616974, 11.98091142, 12.98615373, 13.39491096, 14.69459251]])

In [5]:
x-y

array([[-0.18993433,  0.4086077 ,  1.47488467,  2.82467286,  3.82614792],
       [ 4.06466291,  5.52818685,  6.51382603,  7.84251873,  8.75391837],
       [ 9.74383026, 10.01908858, 11.01384627, 12.60508904, 13.30540749]])

#### 통계 함수
 - 평균, 분산, 중앙, 최대값, 최소값 등등 통계 관련된 함수가 내장 -->



In [6]:
y

array([[0.18993433, 0.5913923 , 0.52511533, 0.17532714, 0.17385208],
       [0.93533709, 0.47181315, 0.48617397, 0.15748127, 0.24608163],
       [0.25616974, 0.98091142, 0.98615373, 0.39491096, 0.69459251]])

In [7]:
y.mean() # 평균
y.max() # 최대
y.min() # 최소

0.4843497766786596

0.9861537275744745

0.1574812745885369

In [8]:
np.var(y) # 분산
np.median(y) # 중간값
np.std(y) # 표준편차

0.08410113946862684

0.4718131535350828

0.29000196459442623

#### 집계함수 
- sum : 합계, cumsum : 누적합계

In [9]:
x

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [10]:
np.sum(x, axis=None) # 전체 원소의 합계
np.sum(x, axis=0) # 각 열의 합계
np.sum(x, axis=1)  # 각 행의 합계
np.sum(x)

105

array([15, 18, 21, 24, 27])

array([10, 35, 60])

105

In [11]:
np.cumsum(x) # 각 원소의 누적합계

array([  0,   1,   3,   6,  10,  15,  21,  28,  36,  45,  55,  66,  78,
        91, 105], dtype=int32)

#### any, all 함수
 - any: 특정 조건을 만족하는 것이 하나라도 있으면 True, 아니면 False
 - all: 모든 원소가 특정 조건을 만족한다면 True, 아니면 False


In [12]:

z=np.random.randn(10)
z

array([ 0.49196836,  0.32227868,  0.10432675,  1.17552942,  0.06808049,
       -0.48878712,  0.29214362, -0.25140507,  0.12867133, -1.07283823])

In [13]:
z>0

array([ True,  True,  True,  True,  True, False,  True, False,  True,
       False])

In [14]:

np.any(z>0) # z의 원소중 0 초과하는값이 1개라도 존재하면 True

True

In [15]:
np.all(z>0) # z의 원소 모두가 0 초과하는 값이면 True

False

In [16]:
np.all(z != 0)

True


#### where(조건, 조건이 참인경우, 조건이 거짓인경우) 함수
 - 조건에 따라 선별적으로 값을 선택 가능
 - 사용 예) 음수인경우는 0, 나머지는 그대로 값을 쓰는 경우

In [17]:
z=np.random.randn(10)
z


array([-1.02371074,  2.18372922,  0.03029494,  0.54901241, -1.3955173 ,
       -0.13976092,  2.21426035, -2.17993296,  0.1270542 ,  0.54886063])

In [18]:
np.where(z>0, z, 0)

array([0.        , 2.18372922, 0.03029494, 0.54901241, 0.        ,
       0.        , 2.21426035, 0.        , 0.1270542 , 0.54886063])

In [19]:
np.where(z>0, 10, 0)

array([ 0, 10, 10, 10,  0,  0, 10,  0, 10, 10])

# axis 파라미터 이해

#### axis 이해하기
 - 몇몇 함수에는 axis keyword 파라미터가 존재
 - axis값이 없는 경우에는 전체 데이터에 대해 적용
 - axis값이 있는 경우에는, 해당 axis를 **따라서** 연산 적용

* axis를 파라미터로 갖는 함수를 이용하기
 - 거의 대부분의 연산 함수들이 axis 파라미터를 사용
 - 이 경우, 해당 값이 주어졌을 때, 해당 axis를 **따라서** 연산이 적용
   - 따라서 결과는 해당 axis가 제외된 나머지 차원의 데이터만 남게 됨
 - 예) np.sum, np.mean, np.any 등등

In [20]:
x = np.arange(15)
print(x)


[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14]


- 1차원 데이터에 적용


In [21]:
np.sum(x, axis=0)

105

In [22]:
# np.sum(x, axis=1) # axis 1 is out of bounds for array of dimension 1

AxisError: axis 1 is out of bounds for array of dimension 1

- 행렬에 적용(2차원 데이터)

In [23]:
y=x.reshape(3,5)
y


array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [24]:
np.sum(y, axis=0)
np.sum(y, axis=1)
# np.sum(y, axis=2) #axis 2 is out of bounds for array of dimension 2

array([15, 18, 21, 24, 27])

array([10, 35, 60])

 - 3차원 텐서에 적용하기


In [25]:
nums = np.array(
   [[[[0, 1, 2], [3, 4, 5]], [[6, 7, 8], [9, 10, 11]]]]
)
nums
nums.ndim

array([[[[ 0,  1,  2],
         [ 3,  4,  5]],

        [[ 6,  7,  8],
         [ 9, 10, 11]]]])

4

In [26]:
np.sum(nums,axis=0)

array([[[ 0,  1,  2],
        [ 3,  4,  5]],

       [[ 6,  7,  8],
        [ 9, 10, 11]]])

In [27]:
np.sum(nums,axis=1)


array([[[ 6,  8, 10],
        [12, 14, 16]]])

In [28]:
np.sum(nums,axis=2)


array([[[ 3,  5,  7],
        [15, 17, 19]]])