#  1\.NumPy의 기본 연산

## NumPy documentation
 - [NumPy 공식 문서 링크](https://www.numpy.org/devdocs/reference/)
 - NumPy에서 제공되는 함수등에 대한 문서
 - 검색(search) 기능 적극 활용한다.

In [2]:
import numpy as np 

x = np.arange(15).reshape(3, 5)
y = np.arange(0, 150, 10).reshape(3, 5)
y2 = np.random.rand(15).reshape(3, 5)
y3 = np.arange(15).reshape(5, 3)

In [3]:
x, y, y2, y3

(array([[ 0,  1,  2,  3,  4],
        [ 5,  6,  7,  8,  9],
        [10, 11, 12, 13, 14]]),
 array([[  0,  10,  20,  30,  40],
        [ 50,  60,  70,  80,  90],
        [100, 110, 120, 130, 140]]),
 array([[0.73053982, 0.09222723, 0.79801296, 0.60272519, 0.96910785],
        [0.82918071, 0.12485398, 0.06570473, 0.96694694, 0.48460305],
        [0.68127812, 0.57040473, 0.44293557, 0.95122472, 0.50218076]]),
 array([[ 0,  1,  2],
        [ 3,  4,  5],
        [ 6,  7,  8],
        [ 9, 10, 11],
        [12, 13, 14]]))

## array 간 연산자

- list + list : list 가 합쳐진다.
- list * 정수 : list 가 정수만큼 반복한다.
- list + 정수 : 에러
- list * list : 에러

In [4]:
a = [10,20,30,40]
b = 2 
c = [100, 200, 300, 400]

In [5]:
# list * 정수(정수를 가진 변수) : list 를 반복
a * b 

[10, 20, 30, 40, 10, 20, 30, 40]

In [6]:
# list + 정수 : 에러
a + b 

TypeError: can only concatenate list (not "int") to list

In [7]:
# list + list : list 를 합친다.
a + c

[10, 20, 30, 40, 100, 200, 300, 400]

In [9]:
# list * list : 에러
a * c

TypeError: can't multiply sequence by non-int of type 'list'

- array 연산은 원소끼리의 연산이 가능하다

In [10]:
x + y

array([[  0,  11,  22,  33,  44],
       [ 55,  66,  77,  88,  99],
       [110, 121, 132, 143, 154]])

In [11]:
x - y

array([[   0,   -9,  -18,  -27,  -36],
       [ -45,  -54,  -63,  -72,  -81],
       [ -90,  -99, -108, -117, -126]])

In [12]:
x * y

array([[   0,   10,   40,   90,  160],
       [ 250,  360,  490,  640,  810],
       [1000, 1210, 1440, 1690, 1960]])

In [13]:
x / y

  x / y


array([[nan, 0.1, 0.1, 0.1, 0.1],
       [0.1, 0.1, 0.1, 0.1, 0.1],
       [0.1, 0.1, 0.1, 0.1, 0.1]])

- nan 은 np.nan 으로 값이 아닌 것을 의미한다.

## 단일값과의 연산

In [14]:
x 

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [15]:
x + 10

array([[10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24]])

In [16]:
x - 10

array([[-10,  -9,  -8,  -7,  -6],
       [ -5,  -4,  -3,  -2,  -1],
       [  0,   1,   2,   3,   4]])

In [17]:
x * 10

array([[  0,  10,  20,  30,  40],
       [ 50,  60,  70,  80,  90],
       [100, 110, 120, 130, 140]])

In [18]:
x / 10 

array([[0. , 0.1, 0.2, 0.3, 0.4],
       [0.5, 0.6, 0.7, 0.8, 0.9],
       [1. , 1.1, 1.2, 1.3, 1.4]])

In [19]:
x ** 2

array([[  0,   1,   4,   9,  16],
       [ 25,  36,  49,  64,  81],
       [100, 121, 144, 169, 196]])

In [20]:
10 + x

array([[10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24]])

- 단일값만 있는 array 는 shape과 관계없이 scalar 연산이 가능하다.

In [21]:
np.array(10)

array(10)

In [22]:
x + np.array(10)

array([[10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24]])

In [26]:
type(a)

list

In [27]:
type(x)

numpy.ndarray

In [28]:
x + np.array([10])

array([[10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24]])

In [29]:
x + np.array([[10]])

array([[10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24]])

- list 또는 tuple 과도 연산이 가능하다.

In [30]:
x + [10]

array([[10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24]])

In [31]:
x + (10,)

array([[10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24]])

In [32]:
x + [10,11]

ValueError: operands could not be broadcast together with shapes (3,5) (2,) 

## 기본 함수

- add(), subtract(), multiply(), divide() : array 간 행렬의 4칙연산
- array 요소간 연산이 이루어진다.(element wise operation)
- 기본적으로는 shape이 같은 array 끼리 가능하다.

In [33]:
x + y

array([[  0,  11,  22,  33,  44],
       [ 55,  66,  77,  88,  99],
       [110, 121, 132, 143, 154]])

In [34]:
np.add(x, y)

array([[  0,  11,  22,  33,  44],
       [ 55,  66,  77,  88,  99],
       [110, 121, 132, 143, 154]])

In [35]:
np.subtract(x, y)

array([[   0,   -9,  -18,  -27,  -36],
       [ -45,  -54,  -63,  -72,  -81],
       [ -90,  -99, -108, -117, -126]])

- shape이 다른 것 끼리 연산하면 에러가 발생한다.

In [36]:
# 단일값 또는 shape이 동일해야 에러가 발생하지 않는다.
y3.shape

(5, 3)

In [37]:
np.add(x, y3)

ValueError: operands could not be broadcast together with shapes (3,5) (5,3) 

- 나중에 배우는 broadcasting 을 사용하면 shape이 달라도 연산이 가능하다.

In [38]:
np.add(x, y3.T)

array([[ 0,  4,  8, 12, 16],
       [ 6, 10, 14, 18, 22],
       [12, 16, 20, 24, 28]])

## 통계 함수
- 평균, 분산, 중앙값, 최대값, 최소값 등 통계와 관련된 함수가 내장되어 있다.

In [39]:
y2

array([[0.73053982, 0.09222723, 0.79801296, 0.60272519, 0.96910785],
       [0.82918071, 0.12485398, 0.06570473, 0.96694694, 0.48460305],
       [0.68127812, 0.57040473, 0.44293557, 0.95122472, 0.50218076]])

- 평균

In [40]:
np.mean(y2)

0.587461756893944

In [41]:
y2.mean()

0.587461756893944

- 최대값, 최소값

In [42]:
np.max(y2), np.min(y2)

(0.9691078525452709, 0.06570472798996319)

In [43]:
y2.max(), y2.min()

(0.9691078525452709, 0.06570472798996319)

- 최대값, 최소값의 index 값
- 기본적으로는 flatten 한 상태의 index 값을 리턴한다.

In [44]:
np.argmax(y2)

4

In [45]:
y2.argmax()

4

In [46]:
np.argmin(y2)

7

In [47]:
y2.argmin()

7

In [49]:
y2.max(), y2[0,4]

(0.9691078525452709, 0.9691078525452709)

In [56]:
y2.flatten()[4]

0.9691078525452709

In [57]:
y2.flatten()[7]

0.06570472798996319

In [51]:
y2.min(), y2[1,2]

(0.06570472798996319, 0.06570472798996319)

- 분산값 : 편차 제곱의 평균

In [52]:
y

array([[  0,  10,  20,  30,  40],
       [ 50,  60,  70,  80,  90],
       [100, 110, 120, 130, 140]])

In [53]:
np.var(y)

1866.6666666666667

- 표준편차 : 분산의 제곱근

In [54]:
np.std(y)

43.20493798938573

- 중앙값 : min과 max 사이의 값

In [55]:
np.median(y)

70.0

# 2\. 집계함수
- 합계, 누적합계 등을 계산할 수 있다.

In [58]:
y2

array([[0.73053982, 0.09222723, 0.79801296, 0.60272519, 0.96910785],
       [0.82918071, 0.12485398, 0.06570473, 0.96694694, 0.48460305],
       [0.68127812, 0.57040473, 0.44293557, 0.95122472, 0.50218076]])

In [59]:
np.sum(y2), y2.sum()

(8.81192635340916, 8.81192635340916)

In [60]:
# 같은 인덱스끼리 합
sum(y2)

array([2.24099865, 0.78748594, 1.30665325, 2.52089685, 1.95589166])

## 누적합계
- 원소들이 계속해서 누적 합산되는 형태의 결과를 의미한다.
- 결과는 1차원 array로 반환된다.

In [62]:
y2

array([[0.73053982, 0.09222723, 0.79801296, 0.60272519, 0.96910785],
       [0.82918071, 0.12485398, 0.06570473, 0.96694694, 0.48460305],
       [0.68127812, 0.57040473, 0.44293557, 0.95122472, 0.50218076]])

In [61]:
np.cumsum(y2)

array([0.73053982, 0.82276705, 1.62078   , 2.22350519, 3.19261304,
       4.02179375, 4.14664773, 4.21235246, 5.17929941, 5.66390245,
       6.34518057, 6.9155853 , 7.35852087, 8.30974559, 8.81192635])

## ndarray 와의 비교 연산
- bool값이 나오는 비교 연산을 하면 True, False로 이루어진 ndarray 결과값을 반환한다.


In [63]:
z = np.random.randn(10)
z

array([ 0.0343949 , -0.47520113, -0.22924726,  0.43691559, -0.22971849,
       -0.60974024, -0.96634889, -1.33618073, -0.32985961, -0.12331431])

In [64]:
z > 0

array([ True, False, False,  True, False, False, False, False, False,
       False])

In [65]:
z < 0 

array([False,  True,  True, False,  True,  True,  True,  True,  True,
        True])

In [67]:
p = np.arange(1, 13).reshape(3, 4)
p

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [68]:
p % 2 == 0

array([[False,  True, False,  True],
       [False,  True, False,  True],
       [False,  True, False,  True]])

In [69]:
p % 3 == 0

array([[False, False,  True, False],
       [False,  True, False, False],
       [ True, False, False,  True]])

In [70]:
p_T = p % 2 == 0
p_T 

array([[False,  True, False,  True],
       [False,  True, False,  True],
       [False,  True, False,  True]])

In [75]:
np.sum(p_T == True)

6

## 문제.    
p에서 짝수의 갯수를 출력해 보세요.

In [76]:
p

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [77]:
np.sum(p % 2 == 0)

6

## any, all 함수
- any : 특정 조건을 만족하는 것이 하나라고 있으면 True, 아니면 False 를 반환한다.
- all : 모든 원소가 특정 조건을 만족한다면 True, 아니면 False 를 반환한다.

In [78]:
z

array([ 0.0343949 , -0.47520113, -0.22924726,  0.43691559, -0.22971849,
       -0.60974024, -0.96634889, -1.33618073, -0.32985961, -0.12331431])

In [79]:
np.any(z > 0)

True

In [80]:
np.any(z < 0)

True

In [81]:
np.all(z > 0)

False

In [82]:
np.all(z < 0)

False

## where 함수
- 조건에 따라 선별적으로 값을 선택 가능하다.
- 사용예) 음수인 경우는 0, 나머지는 그대로 값을 쓰는 경우
- where(condition, [x,y]) 조건이 True 혹은 False 일때의 값 x, y 명시한다.

In [83]:
q = np.random.randn(10)
q

array([ 0.7608589 , -1.07973031,  0.84280863, -0.57714591, -0.90920801,
       -1.04872634,  0.38000172,  0.59699208, -0.29147006, -0.63674432])

In [84]:
np.where(q > 0, q, 0)

array([0.7608589 , 0.        , 0.84280863, 0.        , 0.        ,
       0.        , 0.38000172, 0.59699208, 0.        , 0.        ])

In [86]:
r = np.random.randint(1, 100, 10)
r

array([45, 11, 46, 88, 98, 64, 16, 17, 80, 82])

In [87]:
np.where(r % 2 == 0, '짝수', '홀수')

array(['홀수', '홀수', '짝수', '짝수', '짝수', '짝수', '짝수', '홀수', '짝수', '짝수'],
      dtype='<U2')

In [89]:
np.where(r % 2 == 0, 0, 1)

array([1, 1, 0, 0, 0, 0, 0, 1, 0, 0])

In [90]:
np.where(r % 2 == 0, 0.0, 1.0)

array([1., 1., 0., 0., 0., 0., 0., 1., 0., 0.])

In [91]:
np.where(r % 2 == 0, True, False)

array([False, False,  True,  True,  True,  True,  True, False,  True,
        True])