#  1\.NumPy의 기본 연산

## NumPy documentation
 - [NumPy 공식 문서 링크](https://www.numpy.org/devdocs/reference/)
 - NumPy에서 제공되는 함수등에 대한 문서
 - 검색(search) 기능 적극 활용한다.

In [1]:
import numpy as np 

x = np.arange(15).reshape(3,5)
y = np.arange(0, 150, 10).reshape(3,5)
y2 = np.random.rand(15).reshape(3,5)
y3 = np.arange(15).reshape(5,3)

x, y, y2, y3

(array([[ 0,  1,  2,  3,  4],
        [ 5,  6,  7,  8,  9],
        [10, 11, 12, 13, 14]]),
 array([[  0,  10,  20,  30,  40],
        [ 50,  60,  70,  80,  90],
        [100, 110, 120, 130, 140]]),
 array([[0.41604723, 0.41355701, 0.31509247, 0.66383034, 0.2456898 ],
        [0.62792918, 0.56296726, 0.94746277, 0.11119573, 0.16236234],
        [0.86441757, 0.14835185, 0.37696408, 0.25950463, 0.95257377]]),
 array([[ 0,  1,  2],
        [ 3,  4,  5],
        [ 6,  7,  8],
        [ 9, 10, 11],
        [12, 13, 14]]))

## array 간 연산자

In [2]:
a = [10,20,30,40]
b = 2
c = [100,200,300,400]

- list + list : list 가 합쳐진다.
- list * 정수 : list 가 정수만큼 반복한다.
- list + 정수 : 에러
- list * list : 에러

In [3]:
a + c 

[10, 20, 30, 40, 100, 200, 300, 400]

In [4]:
a * b

[10, 20, 30, 40, 10, 20, 30, 40]

In [5]:
a + b

TypeError: can only concatenate list (not "int") to list

In [6]:
a * c

TypeError: can't multiply sequence by non-int of type 'list'

- array 연산은 원소끼리의 연산이 가능하다

In [8]:
x.shape, y.shape

((3, 5), (3, 5))

In [7]:
x + y

array([[  0,  11,  22,  33,  44],
       [ 55,  66,  77,  88,  99],
       [110, 121, 132, 143, 154]])

In [9]:
x - y

array([[   0,   -9,  -18,  -27,  -36],
       [ -45,  -54,  -63,  -72,  -81],
       [ -90,  -99, -108, -117, -126]])

In [10]:
x * y

array([[   0,   10,   40,   90,  160],
       [ 250,  360,  490,  640,  810],
       [1000, 1210, 1440, 1690, 1960]])

In [11]:
x / y

  x / y


array([[nan, 0.1, 0.1, 0.1, 0.1],
       [0.1, 0.1, 0.1, 0.1, 0.1],
       [0.1, 0.1, 0.1, 0.1, 0.1]])

- nan 은 np.nan 으로 값이 아닌 것을 의미한다.

## 단일값과의 연산

In [12]:
x 

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [13]:
x + 10

array([[10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24]])

In [14]:
x - 10

array([[-10,  -9,  -8,  -7,  -6],
       [ -5,  -4,  -3,  -2,  -1],
       [  0,   1,   2,   3,   4]])

In [15]:
x * 10

array([[  0,  10,  20,  30,  40],
       [ 50,  60,  70,  80,  90],
       [100, 110, 120, 130, 140]])

In [16]:
x / 10

array([[0. , 0.1, 0.2, 0.3, 0.4],
       [0.5, 0.6, 0.7, 0.8, 0.9],
       [1. , 1.1, 1.2, 1.3, 1.4]])

In [17]:
10 + x

array([[10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24]])

- 단일값만 있는 array 는 shape과 관계없이 scalar 연산이 가능하다.

In [18]:
x + np.array(10)

array([[10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24]])

In [19]:
np.array(10).shape

()

In [20]:
x + np.array([10])

array([[10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24]])

In [21]:
x + np.array([[10]])

array([[10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24]])

In [22]:
x + (10, )

array([[10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24]])

In [23]:
x + [10, 20]

ValueError: operands could not be broadcast together with shapes (3,5) (2,) 

- list 또는 tuple 과도 연산이 가능하다.

## 기본 함수

- add(), subtract(), multiply(), divide() : array 간 행렬의 4칙연산
- array 요소간 연산이 이루어진다.(element wise operation)
- 기본적으로는 shape이 같은 array 끼리 가능하다.

In [24]:
np.add(x, y)

array([[  0,  11,  22,  33,  44],
       [ 55,  66,  77,  88,  99],
       [110, 121, 132, 143, 154]])

In [25]:
np.subtract(x, y)

array([[   0,   -9,  -18,  -27,  -36],
       [ -45,  -54,  -63,  -72,  -81],
       [ -90,  -99, -108, -117, -126]])

In [26]:
x + y, x - y

(array([[  0,  11,  22,  33,  44],
        [ 55,  66,  77,  88,  99],
        [110, 121, 132, 143, 154]]),
 array([[   0,   -9,  -18,  -27,  -36],
        [ -45,  -54,  -63,  -72,  -81],
        [ -90,  -99, -108, -117, -126]]))

- shape이 다른 것 끼리 연산하면 에러가 발생한다.

In [27]:
y3.shape

(5, 3)

In [28]:
x + y3

ValueError: operands could not be broadcast together with shapes (3,5) (5,3) 

In [29]:
x + y3.T

array([[ 0,  4,  8, 12, 16],
       [ 6, 10, 14, 18, 22],
       [12, 16, 20, 24, 28]])

- 나중에 배우는 broadcasting 을 사용하면 shape이 달라도 연산이 가능하다.

## 통계 함수
- 평균, 분산, 중앙값, 최대값, 최소값 등 통계와 관련된 함수가 내장되어 있다.

In [30]:
y2

array([[0.41604723, 0.41355701, 0.31509247, 0.66383034, 0.2456898 ],
       [0.62792918, 0.56296726, 0.94746277, 0.11119573, 0.16236234],
       [0.86441757, 0.14835185, 0.37696408, 0.25950463, 0.95257377]])

- 평균

In [31]:
np.mean(y2)

np.float64(0.4711964011442795)

In [32]:
y2.mean()

np.float64(0.4711964011442795)

- 최대값, 최소값

In [33]:
np.max(y2), np.min(y2)

(np.float64(0.9525737711070685), np.float64(0.11119572521185261))

In [35]:
y2.max(), y2.min()

(np.float64(0.9525737711070685), np.float64(0.11119572521185261))

- 최대값, 최소값의 index 값
- 기본적으로는 flatten 한 상태의 index 값을 리턴한다.

In [38]:
y2

array([[0.41604723, 0.41355701, 0.31509247, 0.66383034, 0.2456898 ],
       [0.62792918, 0.56296726, 0.94746277, 0.11119573, 0.16236234],
       [0.86441757, 0.14835185, 0.37696408, 0.25950463, 0.95257377]])

In [39]:
np.argmax(y2)

np.int64(14)

In [40]:
y2.argmax()

np.int64(14)

In [41]:
y2.argmin()

np.int64(8)

- 분산값 : 편차 제곱의 평균

In [42]:
y

array([[  0,  10,  20,  30,  40],
       [ 50,  60,  70,  80,  90],
       [100, 110, 120, 130, 140]])

In [43]:
np.var(y)

np.float64(1866.6666666666667)

In [44]:
y.var()

np.float64(1866.6666666666667)

- 표준편차 : 분산의 제곱근

In [45]:
y.std()

np.float64(43.20493798938573)

In [46]:
np.std(y)

np.float64(43.20493798938573)

- 중앙값 : min과 max 사이의 값

In [47]:
np.median(y)

np.float64(70.0)

In [None]:
# y.median()  없음

AttributeError: 'numpy.ndarray' object has no attribute 'median'

In [49]:
y.mean()

np.float64(70.0)

In [50]:
# mean 평균, median 중앙값
# 평균 : 모든 값을 더한 후 값의 수 나눈 값
# 중앙값 : 최소값 과 최대값의 가운데 값
y2.mean(), np.median(y2)

(np.float64(0.4711964011442795), np.float64(0.41355700964574105))

# 2\. 집계함수
- 합계, 누적합계 등을 계산할 수 있다.

In [51]:
y2

array([[0.41604723, 0.41355701, 0.31509247, 0.66383034, 0.2456898 ],
       [0.62792918, 0.56296726, 0.94746277, 0.11119573, 0.16236234],
       [0.86441757, 0.14835185, 0.37696408, 0.25950463, 0.95257377]])

In [52]:
np.sum(y2), np.average(y2)

(np.float64(7.067946017164193), np.float64(0.4711964011442795))

In [53]:
y2.sum()

np.float64(7.067946017164193)

In [None]:
sum(y2) # 같은 열(각행의 같은 index 번호)끼리 합

array([1.90839398, 1.12487611, 1.63951931, 1.03453069, 1.36062591])

## 누적합계
- 원소들이 계속해서 누적 합산되는 형태의 결과를 의미한다.
- 결과는 1차원 array로 반환된다.

In [55]:
y2

array([[0.41604723, 0.41355701, 0.31509247, 0.66383034, 0.2456898 ],
       [0.62792918, 0.56296726, 0.94746277, 0.11119573, 0.16236234],
       [0.86441757, 0.14835185, 0.37696408, 0.25950463, 0.95257377]])

In [56]:
np.cumsum(y2)

array([0.41604723, 0.82960424, 1.14469671, 1.80852705, 2.05421686,
       2.68214604, 3.24511329, 4.19257606, 4.30377179, 4.46613412,
       5.33055169, 5.47890354, 5.85586762, 6.11537225, 7.06794602])

## ndarray 와의 비교 연산
- bool값이 나오는 비교 연산을 하면 True, False로 이루어진 ndarray 결과값을 반환한다.


In [57]:
z = np.random.randn(10)
z

array([-0.71806451, -0.72179714,  0.56241266,  1.1730667 , -0.78739771,
        1.19555983, -0.21894322, -0.27637712,  0.77130627,  1.73336191])

In [58]:
z > 0

array([False, False,  True,  True, False,  True, False, False,  True,
        True])

In [59]:
z < 0

array([ True,  True, False, False,  True, False,  True,  True, False,
       False])

In [60]:
z = np.arange(1, 13).reshape(3,4)
z

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [61]:
z % 2 == 0 

array([[False,  True, False,  True],
       [False,  True, False,  True],
       [False,  True, False,  True]])

In [62]:
z % 3 == 0

array([[False, False,  True, False],
       [False,  True, False, False],
       [ True, False, False,  True]])

## 문제.    
p에서 짝수의 갯수를 출력해 보세요.

In [63]:
z

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [65]:
z % 2 == 0

array([[False,  True, False,  True],
       [False,  True, False,  True],
       [False,  True, False,  True]])

In [66]:
sum(z % 2 == 0)

array([0, 3, 0, 3])

In [67]:
np.sum(z % 2 == 0)

np.int64(6)

## any, all 함수
- any : 특정 조건을 만족하는 것이 하나라고 있으면 True, 아니면 False 를 반환한다.
- all : 모든 원소가 특정 조건을 만족한다면 True, 아니면 False 를 반환한다.

In [69]:
z = np.random.randn(10)

In [70]:
np.any(z > 0)

np.True_

In [71]:
np.all(z > 0)

np.False_

## where 함수
- 조건에 따라 선별적으로 값을 선택 가능하다.
- 사용예) 음수인 경우는 0, 나머지는 그대로 값을 쓰는 경우
- where(condition, [x,y]) 조건이 True 혹은 False 일때의 값 x, y 명시한다.

In [72]:
z = np.random.randn(10)
z

array([ 0.78658077, -0.51123433, -1.02221658, -1.95869982, -0.03052466,
        1.7278022 , -1.51226279,  1.65331575, -1.24930267,  0.97377002])

In [73]:
np.where(z > 0, z, 0)

array([0.78658077, 0.        , 0.        , 0.        , 0.        ,
       1.7278022 , 0.        , 1.65331575, 0.        , 0.97377002])