### 벡터화 연산
- 반복문을 쓰지 않더라도 배열의 모든 원소에 대해 반복 연산을 할 수 있다.
- 선형대수공식과 동일한 간단한 코드 작성 가능

In [2]:
import numpy as np

In [2]:
x = np.arange(1,10001)
y = np.arange(10001, 20001)

In [3]:
%%time  #%%time : 셀 코드의 실행시간을 측정하는 IPython Magic 명령
z = np.zeros_like(x)
for i in range(10000):
    z[i] = x[i] + y[i]

CPU times: total: 0 ns
Wall time: 5.17 ms


In [4]:
z[:10]

array([10002, 10004, 10006, 10008, 10010, 10012, 10014, 10016, 10018,
       10020])

In [6]:
%%time
z = x + y       # 벡터화 연산은 0ns (반복문 연산 : 5.17ms)

CPU times: total: 0 ns
Wall time: 0 ns


array([10002, 10004, 10006, ..., 29996, 29998, 30000])

In [8]:
# 논리 연산 가능
a = np.array([1, 2, 3, 4])
b = np.array([4, 2, 2, 4])

In [9]:
a == b

array([False,  True, False,  True])

In [10]:
a >= b

array([False,  True,  True,  True])

In [11]:
np.all(a==b)

False

In [15]:
# 수학 함수(지수, 로그) - 벡터화 연산 지원
a = np.arange(5)
np.exp(a)

array([ 1.        ,  2.71828183,  7.3890561 , 20.08553692, 54.59815003])

In [16]:
np.log(a+1)

array([0.        , 0.69314718, 1.09861229, 1.38629436, 1.60943791])

### 브로드캐스팅(Broadcasting)
- 서로 크기가 다른 행렬(벡터) 간 연산을 할 수 있도록 지원하는 기능
- 크기가 작은 배열을 큰 배열의 크기로 자동 맞춤


In [17]:
x = np.arange(5)
x

array([0, 1, 2, 3, 4])

In [18]:
y = np.ones_like(x)
y

array([1, 1, 1, 1, 1])

In [19]:
x + y

array([1, 2, 3, 4, 5])

In [20]:
x + 1

array([1, 2, 3, 4, 5])

In [21]:
x = np.vstack([range(7)[i:i+3] for i in range(5)])
x

array([[0, 1, 2],
       [1, 2, 3],
       [2, 3, 4],
       [3, 4, 5],
       [4, 5, 6]])

In [32]:
y = np.arange(5)[:,np.newaxis]
# y = np.arange(5).reshape(5,1)
y

array([[0],
       [1],
       [2],
       [3],
       [4]])

In [33]:
x+y

array([[ 0,  1,  2],
       [ 2,  3,  4],
       [ 4,  5,  6],
       [ 6,  7,  8],
       [ 8,  9, 10]])

### 차원 축소 연산 
- (10,5) 배열을 각 행에 대한 평균을 구한다면, (10,1) 크기의 1차원 벡터를 얻는다.
- 2차원 DATA -> 1차원 VECTOR ==> 차원의 축소

- 연산 명령 메소드
    1. 최대/최소: min, max, argmin(최솟값 위치), argmax(최댓값 위치)
    2. 통계: sum, mean, median, std, var
    3. 불리언: all, any

In [34]:
x = np.array([1, 2, 3, 4])
x

array([1, 2, 3, 4])

In [36]:
x.sum()
np.sum(x)

10

In [40]:
a = np.zeros((100, 100), dtype='i')
a

array([[0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       ...,
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0]], dtype=int32)

In [41]:
np.any(a!=0)

False

In [42]:
np.all(a==0)

True

In [43]:
a = np.array([1, 2, 3, 2])
b = np.array([2, 2, 3, 2])
c = np.array([6, 4, 4, 5])

In [44]:
((a < b) & (b <= c)).all()

False

In [45]:
x = np.array([[1, 1], [2, 2]])
x

array([[1, 1],
       [2, 2]])

In [46]:
x.sum(axis = 0) # 열 연산

array([3, 3])

In [48]:
x.sum(axis = 1) # 행 연산

array([2, 4])

In [59]:
arr = np.random.randint(1, 30, size = (5,6))
arr = arr.astype('f')

In [62]:
arr

array([[20.,  1., 24.,  2., 27., 19.],
       [ 8.,  1., 16.,  7., 19., 28.],
       [ 4., 29., 19., 28.,  1.,  5.],
       [15., 15.,  3., 19., 27., 29.],
       [ 1., 14., 19.,  1., 12., 19.]], dtype=float32)

In [61]:
np.max(arr) #전체 최댓값

29.0

In [63]:
# 각 행의 합
arr.sum(axis = 1)

array([ 93.,  79.,  86., 108.,  66.], dtype=float32)

In [65]:
arr.max(axis = 1)

array([27., 28., 29., 29., 19.], dtype=float32)

In [66]:
arr.mean(axis = 0)

array([ 9.6, 12. , 16.2, 11.4, 17.2, 20. ], dtype=float32)

In [67]:
arr.min(axis=0)

array([1., 1., 3., 1., 1., 5.], dtype=float32)

### 정렬
1. sort()
    - 디폴트는 -1 ; 가장 안쪽 차원을 먼저 정렬
    - in-place 메서드이므로 주의!
2. argsort()
    - sort와 역할 동일
    - Non in-place 메서드

In [69]:
a = np.array([[4,  3,  5,  7],
              [1, 12, 11,  9],
              [2, 15,  1, 14]])
a

array([[ 4,  3,  5,  7],
       [ 1, 12, 11,  9],
       [ 2, 15,  1, 14]])

In [70]:
np.sort(a)

array([[ 3,  4,  5,  7],
       [ 1,  9, 11, 12],
       [ 1,  2, 14, 15]])

In [71]:
np.sort(a, axis = 0)

array([[ 1,  3,  1,  7],
       [ 2, 12,  5,  9],
       [ 4, 15, 11, 14]])

### Random

In [7]:
# 1. Seed : 파이썬에서 난수를 생성하는 random은 실제 무작위는 아니다.
# 주어진 seed를 통해 규칙적으로 난수를 생성하기 때문에,
# 두 랜덤 배열의 Seed가 같다면, 난수 배열이 같다.
np.random.seed(0)
a = np.random.rand(5)
a1 = np.random.rand(10)


In [8]:
np.random.seed(0)
b = np.random.rand(5)
b1 = np.random.rand(10)

In [9]:
a == b

array([ True,  True,  True,  True,  True])

In [10]:
# 2. Shuffle : 무작위 순서 변경
x = np.arange(10)
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [11]:
np.random.shuffle(x) # in-place method

In [12]:
x

array([5, 1, 8, 2, 6, 7, 0, 3, 4, 9])

### 3. Data Sampling : 데이터 집합에서 일부를 무작위 선택 
    - 가설 검정 및 머신러닝을 위한 샘플 추출에 활용
    - numpy.random.choice(a, size=None, replace=True, p=None)
        1. a : 샘플링한 데이터 원본, 정수라면 arange 명령으로 데이터를 생성함
        2. size : 정수, 샘플 숫자
        3. replace : Boolean, True라면 선택된 데이터 재선택 가능
        4. p : 배열, 각 데이터가 선택될 수 있는 확률

In [16]:
np.random.choice(5,5,replace = False)
# 위와 같은 명령은 shuffle과 같은 결과 반환
# arange(5)에서 5개 추출하는데, 비복원추출로 진행

array([4, 2, 3, 1, 0])

In [18]:
np.random.choice(5,3,replace=False)

array([0, 1, 4])

In [19]:
np.random.choice(5,10)

array([4, 2, 0, 0, 4, 0, 4, 1, 4, 1])

In [21]:
np.random.choice(5,10,p=[0.1,0,0.3,0.6,0])
# 0~4까지 5개의 원소가 추출될 수 있는 확률을 제한함
# 0 = 10% / 2 = 30% / 4 = 60% / else = 0%

array([2, 0, 3, 3, 3, 3, 3, 3, 3, 3])

In [22]:
# 동전을 10번 던져 앞면(숫자 1)과 뒷면(숫자 0)이 나오는 가상 실험 코드
np.random.choice(2, 10, p=[0.5,0.5])

array([1, 0, 1, 0, 1, 1, 1, 0, 1, 1])

In [24]:
# 주사위를 100번 던져서 나오는 숫자의 평균
dice = np.random.randint(1,7,100)
dice.mean()

3.69

In [32]:
# 가격이 10,000원인 주식이 있다. 
# 이 주식의 일간 수익률(%)은 기댓값이 0%이고 표준편차가 1%인 표준 정규 분포를 따른다고 하자. 
# 250일 동안의 주가를 무작위로 생성하라.

# 1. 표준 정규분포를 따르는 일간 기대수익률 250일치를 얻는다.
# 2. 10,000원으로 시작해 각 해당 일수의 기대수익률을 통해 250일동안 주가 배열을 구한다.
stk_price = 10000
exp_profit = np.random.randn(250) 
exp_stk_price = []
for i in exp_profit:
    stk_price *= (1 + i/100)
    exp_stk_price.append(stk_price)
exp_stk_price


[9955.623708626312,
 9859.693950615268,
 9947.364253480946,
 10070.438434709431,
 10088.114837094108,
 10203.063304990546,
 10206.53078059761,
 10121.533448033897,
 10251.973080482974,
 10234.354534143386,
 10289.501093091243,
 10493.086087624837,
 10586.37174390311,
 10607.453545489552,
 10418.251965518451,
 10596.703418953408,
 10494.629414578803,
 10638.310158853124,
 10688.53499333962,
 10594.436600149907,
 10598.225646826582,
 10727.287026764514,
 10760.17888839196,
 10659.057169318707,
 10729.280899887664,
 10588.491012954395,
 10519.851055736344,
 10553.40700059233,
 10821.469123467323,
 10747.434113968096,
 10663.650449407713,
 10595.149024919456,
 10731.248908244504,
 10804.129558051542,
 10952.432336077607,
 10851.037725700871,
 10989.743047605089,
 11029.389692502407,
 11095.087610482793,
 11029.102891734663,
 10928.964446506576,
 10814.065693186598,
 10824.072432756348,
 10675.212167400188,
 10531.47256054277,
 10463.2891132815,
 10580.905066682162,
 10710.606894337896,
 10