# 4. NumPy

* Numerical Python 의 줄임말
* 고성능의 과학계산 컴퓨팅과 데이터 분석에 필요한 기본 패키지

NumPy 에서 제공하는 기능
1. 벡터 산술연산과 브로드캐스팅 기능을 제공하는 ndarray
2. 데이터 배열 전체에 대해 빠른 연산을 제공하는 표준 수학함수
3. 선형대수, 난수 발생기, 푸리에 변환 기능
4. **C, C++, 포트란으로 작성된 코드 통합 도구**

In [1]:
import numpy as np

## 4.1. ndarray : 다차원 배열 객체

ndarray에 대해서 간단히 알아보자.
* 생성
* 연산
* 타입

In [3]:
data = np.random.randn(2, 3)

In [4]:
data

array([[ 0.82698903, -0.14098358, -0.8934841 ],
       [-0.8779987 ,  0.1577443 , -0.79337491]])

In [5]:
data * 10

array([[ 8.26989034, -1.40983577, -8.93484096],
       [-8.77998705,  1.57744302, -7.93374906]])

In [6]:
data + data

array([[ 1.65397807, -0.28196715, -1.78696819],
       [-1.75599741,  0.3154886 , -1.58674981]])

In [7]:
data.shape

(2, 3)

In [8]:
data.dtype

dtype('float64')

### 4.1.1. ndarray 생성

In [9]:
data1 = [6, 7.5, 8, 0, 1]

In [10]:
arr1 = np.array(data1)

In [11]:
arr1

array([ 6. ,  7.5,  8. ,  0. ,  1. ])

In [12]:
data2 = [[1, 2, 3, 4], [5, 6, 7, 8]]

In [13]:
arr2 = np.array(data2)

In [14]:
arr2

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

배열의 차원수 확인

In [15]:
arr2.ndim

2

In [16]:
arr2.shape

(2, 4)

np.array 는 0이나 1을 채운 배열을 생성하는 간편한 방법을 제공한다.
* zeros
* ones
* empty - 초기화 되지 않은 수로 배열을 채운다

In [17]:
np.zeros(10)

array([ 0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.])

In [18]:
np.zeros((3, 6))

array([[ 0.,  0.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.,  0.,  0.]])

In [19]:
np.empty((2, 3, 2))

array([[[  0.00000000e+000,   1.72723381e-077],
        [  2.19730955e-314,   2.19730828e-314],
        [  2.19730531e-314,   2.19730025e-314]],

       [[  2.15390251e-314,   0.00000000e+000],
        [  2.13565922e-314,   6.36598737e-311],
        [  0.00000000e+000,   8.34402832e-309]]])

In [20]:
np.arange(15)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

위 예제 외에도 NumPy 는 배열생성함수를 몇가지 더 제공하고 있다.

<table align="left">
    <thead>
        <td>함수</td>
        <td>설명</td>
    <thead>
    <tbody>
        <tr>
            <td>array</td>
            <td>입력 데이터를 ndarray 로 변환, dtype이 명시되지 않은 경우 자료형을 추정하여 저장\n입력 데이터는 복사됨</td>
        </tr>
        <tr>
            <td>asarray</td>
            <td>입력 데이터를 ndarray 로 변환\n이미 ndarray인 경우 복사되지 않음</td>
        </tr>
        <tr>
            <td>arange</td>
            <td>내장 range 함수와 유사, ndarray 반환</td>
        </tr>
        <tr>
            <td>ones, ones_like</td>
            <td>주어진 dtype과 주어진 모양의 배열을 생성하고, 모두 1로 채움</td>
        </tr>
        <tr>
            <td>zeros, zeros_like</td>
            <td>주어진 dtype과 주어진 모양의 배열을 생성하고, 모두 0로 채움</td>
        </tr>
        <tr>
            <td>empty, empty_like</td>
            <td>주어진 dtype과 주어진 모양의 배열을 생성하고, 모두 초기화되지 않은 값으로 채움</td>
        </tr>
        <tr>
            <td>eye, identity</td>
            <td>N*N 크기의 단위행렬을 생성</td>
        </tr>
    </tbody>
</table>

### 4.1.2. ndarray의 자료형

In [21]:
arr1 = np.array([1, 2, 3], dtype=np.float64)

In [22]:
arr1.dtype

dtype('float64')

In [23]:
arr2 = np.array([1, 2, 3], dtype=np.int32)

In [24]:
arr2.dtype

dtype('int32')

NumPy 의 자료형

<table align="left">
    <thead>
        <td>종류</td>
        <td>Type Code</td>
        <td>설명</td>
    </thead>
</table>

In [25]:
arr = np.array([1, 2, 3, 4, 5])

In [26]:
arr.dtype

dtype('int64')

In [27]:
float_arr = arr.astype(np.float64)

In [28]:
float_arr.dtype

dtype('float64')

부동소수점 숫자(float) 를 정수형(int) 로 변환하면 소숫점 아랫자리는 버려진다.

In [29]:
arr = np.array([3.7, -1.2, -2.6, 0.5, 12.9, 10.1])

In [30]:
arr.astype(np.int32)

array([ 3, -1, -2,  0, 12, 10], dtype=int32)

In [31]:
numeric_strings = np.array(['1.25', '-9.6', '42'], dtype=np.string_)

In [32]:
numeric_strings.astype(float)

array([  1.25,  -9.6 ,  42.  ])

In [33]:
int_array = np.arange(10)

In [34]:
calibers = np.array([.22, .270, .357, .380, .44, .50], dtype=np.float64)

In [35]:
int_array.astype(calibers.dtype)

array([ 0.,  1.,  2.,  3.,  4.,  5.,  6.,  7.,  8.,  9.])

u4 는 uint32 와 동일

In [36]:
empty_uint32 = np.empty(8, dtype='u4')

In [37]:
empty_uint32

array([         0, 1075314688,          0, 1075707904,          0,
       1075838976,          0, 1072693248], dtype=uint32)

### 4.1.3. 배열과 스칼라 간의 연산

In [38]:
arr = np.array([[1., 2., 3.],[4., 5., 6.]])

In [39]:
arr

array([[ 1.,  2.,  3.],
       [ 4.,  5.,  6.]])

In [40]:
arr * arr

array([[  1.,   4.,   9.],
       [ 16.,  25.,  36.]])

In [41]:
arr - arr

array([[ 0.,  0.,  0.],
       [ 0.,  0.,  0.]])

In [42]:
1/arr

array([[ 1.        ,  0.5       ,  0.33333333],
       [ 0.25      ,  0.2       ,  0.16666667]])

In [43]:
arr ** 0.5

array([[ 1.        ,  1.41421356,  1.73205081],
       [ 2.        ,  2.23606798,  2.44948974]])

### 4.1.4. 색인과 슬라이싱 기초

In [44]:
arr = np.arange(10)

In [45]:
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [46]:
arr[5]

5

In [47]:
arr[5:8]

array([5, 6, 7])

arr[5:8] = 12 처럼 배열 조각에 스칼라를 대입하면 선택영역(5:8) 전체에 전파된다(브로드캐스팅)<br/>
여기서 배열 조각은 원본 배열에 대한 뷰이며, 데이터는 복사되지 않는다<br/>
만약 복사본이 필요하다면 arr[5:8].copy() 를 사용해야 한다

In [48]:
arr[5:8] = 12

In [49]:
arr

array([ 0,  1,  2,  3,  4, 12, 12, 12,  8,  9])

In [50]:
arr2d = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])

In [51]:
arr2d[2]

array([7, 8, 9])

In [52]:
arr2d[0][2]

3

In [53]:
arr2d[0, 2]

3

다차원 배열에서 마지막 색인을 생략하면 반환되는 객체는 상위 차원의 데이터를 포함하고 있는 한 차원 낮은 ndarray 가 된다<br/>
즉, arr3d 가 2x2x3 배열이라면 arr3d[0] 은 2x3 배열이 된다

In [54]:
arr3d = np.array([[[1, 2, 3], [4, 5, 6]], [[7, 8, 9], [10, 11, 12]]])

In [55]:
arr3d

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [56]:
arr3d[0]

array([[1, 2, 3],
       [4, 5, 6]])

In [57]:
old_values = arr3d[0].copy()

In [58]:
arr3d[0] = 42

In [59]:
arr3d

array([[[42, 42, 42],
        [42, 42, 42]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [60]:
arr3d[0] = old_values

In [61]:
arr3d

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [62]:
arr3d[1, 0]

array([7, 8, 9])

In [63]:
arr3d[1, 0, 2]

9

#### 색인 슬라이드

In [64]:
arr[1:6]

array([ 1,  2,  3,  4, 12])

In [65]:
arr2d

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [66]:
arr2d[:2]

array([[1, 2, 3],
       [4, 5, 6]])

In [67]:
arr2d[:2, 1:]

array([[2, 3],
       [5, 6]])

In [68]:
arr2d[1, :2]

array([4, 5])

In [69]:
arr2d[2, :1]

array([7])

In [70]:
arr2d[:, :1]

array([[1],
       [4],
       [7]])

In [71]:
arr2d[:2, 1:] = 0

In [72]:
arr2d

array([[1, 0, 0],
       [4, 0, 0],
       [7, 8, 9]])

### 4.1.5. Boolean 색인

In [73]:
names = np.array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'])

In [74]:
data = np.random.randn(7, 4)

In [75]:
names

array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'], 
      dtype='<U4')

In [76]:
data

array([[-1.3376643 , -0.8184017 , -1.03468741, -0.30429123],
       [-0.33213703,  1.2807721 ,  0.26862129, -0.20697771],
       [-0.94700898,  0.32582331,  1.20220549, -0.57486251],
       [-0.94310605,  0.96301809, -0.15115909, -0.72676926],
       [ 1.52664577, -1.30389686,  0.7703597 , -0.78804965],
       [-0.44532227,  0.25918038,  1.32711902, -0.21307003],
       [ 0.47814355, -1.0991648 ,  0.71416598,  0.48129869]])

In [77]:
names == 'Bob'

array([ True, False, False,  True, False, False, False], dtype=bool)

In [78]:
data[names == 'Bob']

array([[-1.3376643 , -0.8184017 , -1.03468741, -0.30429123],
       [-0.94310605,  0.96301809, -0.15115909, -0.72676926]])

In [79]:
data[names == 'Bob', 2:]

array([[-1.03468741, -0.30429123],
       [-0.15115909, -0.72676926]])

In [80]:
data[names == 'Bob', 3]

array([-0.30429123, -0.72676926])

In [81]:
names != 'Bob'

array([False,  True,  True, False,  True,  True,  True], dtype=bool)

NumPy 최신 버전에서는 -(마이너스) 가 아니라 ~(물결) 로 변경된 것으로 보인다.(아래 오류 참고)

In [82]:
data[-(names == 'Bob')]

  if __name__ == '__main__':


array([[-0.33213703,  1.2807721 ,  0.26862129, -0.20697771],
       [-0.94700898,  0.32582331,  1.20220549, -0.57486251],
       [ 1.52664577, -1.30389686,  0.7703597 , -0.78804965],
       [-0.44532227,  0.25918038,  1.32711902, -0.21307003],
       [ 0.47814355, -1.0991648 ,  0.71416598,  0.48129869]])

In [83]:
data[~(names == 'Bob')]

array([[-0.33213703,  1.2807721 ,  0.26862129, -0.20697771],
       [-0.94700898,  0.32582331,  1.20220549, -0.57486251],
       [ 1.52664577, -1.30389686,  0.7703597 , -0.78804965],
       [-0.44532227,  0.25918038,  1.32711902, -0.21307003],
       [ 0.47814355, -1.0991648 ,  0.71416598,  0.48129869]])

Boolean 배열에서는 파이썬 예약어인 and 와 or 는 사용할 수 없다

In [84]:
mask = (names == 'Bob') | (names == 'Will')

In [85]:
mask

array([ True, False,  True,  True,  True, False, False], dtype=bool)

In [86]:
data[mask]

array([[-1.3376643 , -0.8184017 , -1.03468741, -0.30429123],
       [-0.94700898,  0.32582331,  1.20220549, -0.57486251],
       [-0.94310605,  0.96301809, -0.15115909, -0.72676926],
       [ 1.52664577, -1.30389686,  0.7703597 , -0.78804965]])

In [87]:
data[data<0] = 0

In [88]:
data

array([[ 0.        ,  0.        ,  0.        ,  0.        ],
       [ 0.        ,  1.2807721 ,  0.26862129,  0.        ],
       [ 0.        ,  0.32582331,  1.20220549,  0.        ],
       [ 0.        ,  0.96301809,  0.        ,  0.        ],
       [ 1.52664577,  0.        ,  0.7703597 ,  0.        ],
       [ 0.        ,  0.25918038,  1.32711902,  0.        ],
       [ 0.47814355,  0.        ,  0.71416598,  0.48129869]])

In [89]:
data[names != 'Joe'] = 7

In [90]:
data

array([[ 7.        ,  7.        ,  7.        ,  7.        ],
       [ 0.        ,  1.2807721 ,  0.26862129,  0.        ],
       [ 7.        ,  7.        ,  7.        ,  7.        ],
       [ 7.        ,  7.        ,  7.        ,  7.        ],
       [ 7.        ,  7.        ,  7.        ,  7.        ],
       [ 0.        ,  0.25918038,  1.32711902,  0.        ],
       [ 0.47814355,  0.        ,  0.71416598,  0.48129869]])

### 4.1.6. 팬시 색인

In [91]:
arr = np.empty((8, 4))

In [92]:
for i in range(8):
    arr[i] = i

In [93]:
arr

array([[ 0.,  0.,  0.,  0.],
       [ 1.,  1.,  1.,  1.],
       [ 2.,  2.,  2.,  2.],
       [ 3.,  3.,  3.,  3.],
       [ 4.,  4.,  4.,  4.],
       [ 5.,  5.,  5.,  5.],
       [ 6.,  6.,  6.,  6.],
       [ 7.,  7.,  7.,  7.]])

In [94]:
arr[[4, 3, 0, 6]]

array([[ 4.,  4.,  4.,  4.],
       [ 3.,  3.,  3.,  3.],
       [ 0.,  0.,  0.,  0.],
       [ 6.,  6.,  6.,  6.]])

색인에 음수를 사용하는 경우 끝에서부터 로우를 선택한다

In [95]:
arr[[-3, -5, -7]]

array([[ 5.,  5.,  5.,  5.],
       [ 3.,  3.,  3.,  3.],
       [ 1.,  1.,  1.,  1.]])

In [96]:
arr = np.arange(32).reshape((8,4))

In [97]:
arr

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15],
       [16, 17, 18, 19],
       [20, 21, 22, 23],
       [24, 25, 26, 27],
       [28, 29, 30, 31]])

In [98]:
arr[[1, 5, 7, 2], [0, 3, 1, 2]]

array([ 4, 23, 29, 10])

결과를 보면 (1, 0), (5, 3), (7, 1), (2, 2) 에 대응하는 요소가 선택되었다.<br/>
예상했던 사각형 영역이 선택되게 하려면 아래와 같이 지정해야 한다

In [99]:
arr[[1, 5, 7, 2]][:, [0, 3, 1, 2]]

array([[ 4,  7,  5,  6],
       [20, 23, 21, 22],
       [28, 31, 29, 30],
       [ 8, 11,  9, 10]])

np.ix_ 를 사용하면 동일한 결과를 얻을 수 있다.<br/>
ix_ 에 대해서는 뒤에서 좀 더 자세히 알아보도록 하고 여기서는 이런 것이 있다는 정도만 확인하고 넘어가자

In [100]:
arr[np.ix_([1, 5, 7, 2], [0, 3, 1, 2])]

array([[ 4,  7,  5,  6],
       [20, 23, 21, 22],
       [28, 31, 29, 30],
       [ 8, 11,  9, 10]])

### 4.1.7. 배열 전치와 축 바꾸기

In [101]:
arr = np.arange(15).reshape((3, 5))

In [102]:
arr

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [103]:
arr.T

array([[ 0,  5, 10],
       [ 1,  6, 11],
       [ 2,  7, 12],
       [ 3,  8, 13],
       [ 4,  9, 14]])

In [104]:
arr = np.random.randn(6, 3)

In [105]:
np.dot(arr.T, arr)

array([[ 13.64577219,  -6.66005371,  -0.42574605],
       [ -6.66005371,   6.92708934,  -0.51609549],
       [ -0.42574605,  -0.51609549,   3.73066568]])

In [106]:
arr = np.arange(16).reshape((2, 2, 4))

transpose 메서드는 튜플로 축 번호를 받아서 치환한다

In [107]:
arr

array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7]],

       [[ 8,  9, 10, 11],
        [12, 13, 14, 15]]])

In [108]:
arr.transpose((1, 0, 2))

array([[[ 0,  1,  2,  3],
        [ 8,  9, 10, 11]],

       [[ 4,  5,  6,  7],
        [12, 13, 14, 15]]])

In [109]:
arr = np.arange(16).reshape((2, 2, 2, 2))

In [110]:
arr

array([[[[ 0,  1],
         [ 2,  3]],

        [[ 4,  5],
         [ 6,  7]]],


       [[[ 8,  9],
         [10, 11]],

        [[12, 13],
         [14, 15]]]])

In [111]:
arr.transpose((1, 3, 0, 2))

array([[[[ 0,  2],
         [ 8, 10]],

        [[ 1,  3],
         [ 9, 11]]],


       [[[ 4,  6],
         [12, 14]],

        [[ 5,  7],
         [13, 15]]]])

ndarray 에는 swapaxes 메서드가 있는데, 2개의 축 번호를 받아서 배열을 뒤 바꾼다

In [112]:
arr

array([[[[ 0,  1],
         [ 2,  3]],

        [[ 4,  5],
         [ 6,  7]]],


       [[[ 8,  9],
         [10, 11]],

        [[12, 13],
         [14, 15]]]])

In [113]:
arr.swapaxes(1, 2)

array([[[[ 0,  1],
         [ 4,  5]],

        [[ 2,  3],
         [ 6,  7]]],


       [[[ 8,  9],
         [12, 13]],

        [[10, 11],
         [14, 15]]]])

## 4.2. 유니버설 함수

ufunc 이라고 불리는 유니버설 합수는 ndarray 내에 있는 데이터 원소별로 연산을 수행하는 함수이다.<br/>
sqrt 나 exp 같은 간단한 변형을 전체 원소에 적용할 수 있다

In [114]:
arr = np.arange(10)

In [115]:
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [116]:
np.sqrt(arr)

array([ 0.        ,  1.        ,  1.41421356,  1.73205081,  2.        ,
        2.23606798,  2.44948974,  2.64575131,  2.82842712,  3.        ])

In [117]:
np.exp(arr)

array([  1.00000000e+00,   2.71828183e+00,   7.38905610e+00,
         2.00855369e+01,   5.45981500e+01,   1.48413159e+02,
         4.03428793e+02,   1.09663316e+03,   2.98095799e+03,
         8.10308393e+03])

이항 유니버설 함수

* add
* maximum

In [118]:
x = np.random.randn(8)
x

array([ 0.1441221 ,  0.30878018,  0.59009144,  0.16394356,  1.15185099,
        1.58815786,  1.76261589, -0.30642894])

In [119]:
y = np.random.randn(8)
y

array([ 0.18204459, -0.24425483,  0.25020821,  0.95898848, -0.29568545,
       -0.36664459, -1.02530966, -0.49108321])

In [120]:
np.maximum(x, y)

array([ 0.18204459,  0.30878018,  0.59009144,  0.95898848,  1.15185099,
        1.58815786,  1.76261589, -0.30642894])

In [121]:
arr = np.random.randn(7) * 5
arr

array([ -0.99463579,   2.1564047 ,   0.93479491,   1.30363373,
       -11.74874396,  -4.41512004,  -9.01994714])

modf 는 파이썬 내장함수인 divmod 의 벡터화 버전이며, 분수를 받아 몫과 나머지를 구분하여 함께 반환한다

In [122]:
np.modf(arr)

(array([-0.99463579,  0.1564047 ,  0.93479491,  0.30363373, -0.74874396,
        -0.41512004, -0.01994714]),
 array([ -0.,   2.,   0.,   1., -11.,  -4.,  -9.]))

단항 유니버설 함수

<table align="left">
    <thead>
        <td>함수</td>
        <td>설명</td>
    </thead>
    <tbody>
        <tr>
            <td>abs, fabs</td>
            <td>각 원소(정수, 실수, 복소수)의 절대값을 구한다. 복소수가 아닌 경우에는 빠른 연산을 위해서 fabs를 사용한다.</td>
        </tr>
        <tr>
            <td>sqrt</td>
            <td>각 원소의 제곱근을 계산한다. arr ** 0.5 와 동일</td>
        </tr>
        <tr>
            <td>square</td>
            <td>각 원소의 제곱을 계산한다. arr ** 2 와 동일</td>
        </tr>
        <tr>
            <td>Exp</td>
            <td>각 원소에서 지수 e 를 계산한다.</td>
        </tr>
        <tr>
            <td>Log, log10, log2, log1p</td>
            <td>각각 자연로그, 로그10, 로그2, 로그(1+x)</td>
        </tr>
        <tr>
            <td>sign</td>
            <td>각 원소의 부호를 계산한다. 1(양수), 0(zero), -1(음수)</td>
        </tr>
        <tr>
            <td>ceil</td>
            <td>각 원소의 소수자리를 올린다. 각 원소의 값보다 같거나 큰 정수 중 가장 작은 정수를 반환한다.</td>
        </tr>
        <tr>
            <td>floor</td>
            <td>각 원소의 소수자리를 내린다. 각 원소의 값보다 작거나 같은 정수 중 가장 작은 수를 반환한다.</td>
        </tr>
        <tr>
            <td>rint</td>
            <td>각 원소의 소수자리를 반올림한다. dtype 은 유지된다.</td>
        </tr>
        <tr>
            <td>modf</td>
            <td>각 원소의 몫과 나머지를 각각의 배열로 반환한다.</td>
        </tr>
        <tr>
            <td>isnan</td>
            <td>각각의 원소가 숫자인지 아닌지를 나타내는 불리언 배열을 반환한다.</td>
        </tr>
        <tr>
            <td>isfinite, isinf</td>
            <td>배열의 각 원소가 유한한지, 무한한지 나타내는 불리언 배열을 반환한다.</td>
        </tr>
        <tr>
            <td>cos, cosh, sin, sinh, tan, tanh</td>
            <td>일반 삼각 함수와 쌍곡삼각 함수</td>
        </tr>
        <tr>
            <td>arccos, arccosh, arcsin<br/>arcsinh, arctan, arctanh</td>
            <td>역삼각 함수</td>
        </tr>
        <tr>
            <td>logical_not</td>
            <td>각 원소의 논리 부정(not)값을 계산한다. -arr 과 동일(~arr)</td>
        </tr>
    </tbody>    
</table>

이항 유니버설 함수

<table align="left">
    <thead>
        <td>함수</td>
        <td>설명</td>
    </thead>
    <tbody>
        <tr>
            <td>add</td>
            <td>두 배열에서 같은 위치의 원소끼리 더한다.</td>
        </tr>
        <tr>
            <td>subtract</td>
            <td>첫 번째 배열의 원소에서 두 번째 배열의 원소를 뺀다.</td>
        </tr>
        <tr>
            <td>multiply</td>
            <td>배열의 원소끼리 곱한다.</td>
        </tr>
        <tr>
            <td>divide, floor_divide</td>
            <td>첫 번째 배열의 원소에서 두 번째 배열의 원소를 나눈다. floor_divide는 몫만 취한다</td>
        </tr>
        <tr>
            <td>power</td>
            <td>첫 번째 배열의 원소에 두 번째 배열의 원소만큼 제곱한다.</td>
        </tr>
        <tr>
            <td>maximum, fmax</td>
            <td>두 원소 중 큰 값을 반환한다. fmax 는 NaN 을 무시한다.</td>
        </tr>
        <tr>
            <td>minimum, fmin</td>
            <td>두 원소 중 작은 값을 반환한다. fmin 은 NaN 을 무시한다.</td>
        </tr>
        <tr>
            <td>mod</td>
            <td>첫 번째 배열의 원소에 두 번째 배열의 원소를 나눈 나머지를 구한다.</td>
        </tr>
        <tr>
            <td>copysign</td>
            <td>첫 번째 배열 원소의 기호를 두 번째 배열 원소의 기호로 바꾼다.</td>
        </tr>
        <tr>
            <td>greater, greater_equal,<br/>less, less_equal, equal<br/>not_equal</td>
            <td>각각 두 원소 같의 >, >=, &lt;, &lt;=, ==, != 비교연산 결과를 불리언 배열로 반환한다.</td>
        </tr>
        <tr>
            <td>logical_and, logical_or<br/>logical_xor</td>
            <td>각각 두 원소 간의 논리연산, &, | , ^ 결과를 반환한다.</td>
        </tr>
    </tbody>    
</table>

## 4.3. 배열을 사용한 데이터 처리

배열 연산을 사용하여 반복문을 명시적으로 제거하는 기법을 흔히 벡터화라고 부른다.<br/>
일반적으로 벡터화된 배열에 대한 산술연산은 순수 파이썬 연산에 비해 2~3배에서 많게는 수십, 수백 배까지 빠르다

간단한 예로 값이 놓여있는 그리드에서 sqrt(x^2 + y^2) 를 계산한다고 해보자. np.meshgrid 함수는 2개의 1차원 배열을 받아 가능한 한 모든 (x, y) 짝을 만들 수 있는 2차원 배열 2개를 반환한다

In [123]:
points = np.arange(-5, 5, 0.01)

In [124]:
points

array([ -5.00000000e+00,  -4.99000000e+00,  -4.98000000e+00,
        -4.97000000e+00,  -4.96000000e+00,  -4.95000000e+00,
        -4.94000000e+00,  -4.93000000e+00,  -4.92000000e+00,
        -4.91000000e+00,  -4.90000000e+00,  -4.89000000e+00,
        -4.88000000e+00,  -4.87000000e+00,  -4.86000000e+00,
        -4.85000000e+00,  -4.84000000e+00,  -4.83000000e+00,
        -4.82000000e+00,  -4.81000000e+00,  -4.80000000e+00,
        -4.79000000e+00,  -4.78000000e+00,  -4.77000000e+00,
        -4.76000000e+00,  -4.75000000e+00,  -4.74000000e+00,
        -4.73000000e+00,  -4.72000000e+00,  -4.71000000e+00,
        -4.70000000e+00,  -4.69000000e+00,  -4.68000000e+00,
        -4.67000000e+00,  -4.66000000e+00,  -4.65000000e+00,
        -4.64000000e+00,  -4.63000000e+00,  -4.62000000e+00,
        -4.61000000e+00,  -4.60000000e+00,  -4.59000000e+00,
        -4.58000000e+00,  -4.57000000e+00,  -4.56000000e+00,
        -4.55000000e+00,  -4.54000000e+00,  -4.53000000e+00,
        -4.52000000e+00,

In [125]:
xs, ys = np.meshgrid(points, points)

In [126]:
ys

array([[-5.  , -5.  , -5.  , ..., -5.  , -5.  , -5.  ],
       [-4.99, -4.99, -4.99, ..., -4.99, -4.99, -4.99],
       [-4.98, -4.98, -4.98, ..., -4.98, -4.98, -4.98],
       ..., 
       [ 4.97,  4.97,  4.97, ...,  4.97,  4.97,  4.97],
       [ 4.98,  4.98,  4.98, ...,  4.98,  4.98,  4.98],
       [ 4.99,  4.99,  4.99, ...,  4.99,  4.99,  4.99]])

In [127]:
import matplotlib.pyplot as plt

In [128]:
z = np.sqrt(xs ** 2 + ys ** 2)

In [129]:
z

array([[ 7.07106781,  7.06400028,  7.05693985, ...,  7.04988652,
         7.05693985,  7.06400028],
       [ 7.06400028,  7.05692568,  7.04985815, ...,  7.04279774,
         7.04985815,  7.05692568],
       [ 7.05693985,  7.04985815,  7.04278354, ...,  7.03571603,
         7.04278354,  7.04985815],
       ..., 
       [ 7.04988652,  7.04279774,  7.03571603, ...,  7.0286414 ,
         7.03571603,  7.04279774],
       [ 7.05693985,  7.04985815,  7.04278354, ...,  7.03571603,
         7.04278354,  7.04985815],
       [ 7.06400028,  7.05692568,  7.04985815, ...,  7.04279774,
         7.04985815,  7.05692568]])

In [160]:
plt.imshow(z, cmap=plt.cm.gray)
plt.colorbar()

<matplotlib.colorbar.Colorbar at 0x10d1cd048>

In [161]:
plt.title("Image plot of $\sqrt{x^2 + y^2}$ for a grid of values")

<matplotlib.text.Text at 0x10d3e59b0>

In [None]:
plt.show()

![Alt text](CH4_meshgrid 샘플.png)

### 4.3.1. 배열연산으로 조건절 표현하기

In [130]:
xarr = np.array([1.1, 1.2, 1.3, 1.4, 1.5])

In [131]:
yarr = np.array([2.1, 2.2, 2.3, 2.4, 2.5])

In [132]:
cond = np.array([True, False, True, True, False])

아래와 같은 방식은 순수 파이썬으로 수행되기 때문에 큰 배열을 빠르게 처리하지 못한다는 것과 다차원 배열에서는 사용할 수 없다는 문제가 있다.

In [133]:
result = [(x if c else y)
         for x, y, c in zip(xarr, yarr, cond)]
result

[1.1000000000000001, 2.2000000000000002, 1.3, 1.3999999999999999, 2.5]

np.where 을 사용하면 순수 파이썬을 이용하였을 때 단점을 보완할 수 있다.

In [135]:
result = np.where(cond, xarr, yarr)
result

array([ 1.1,  2.2,  1.3,  1.4,  2.5])

In [136]:
arr = np.random.randn(4, 4)
arr

array([[-0.03678624,  0.32812793, -0.56550944, -0.19798768],
       [-0.51322613, -1.29040225,  0.85163905,  1.23884316],
       [ 0.06947817,  1.2986813 ,  0.08660231,  0.10667522],
       [-1.07870065, -1.98432996,  0.55424204, -0.33652106]])

In [137]:
np.where(arr > 0, 2, -2)

array([[-2,  2, -2, -2],
       [-2, -2,  2,  2],
       [ 2,  2,  2,  2],
       [-2, -2,  2, -2]])

In [138]:
np.where(arr > 0, 2, arr)

array([[-0.03678624,  2.        , -0.56550944, -0.19798768],
       [-0.51322613, -1.29040225,  2.        ,  2.        ],
       [ 2.        ,  2.        ,  2.        ,  2.        ],
       [-1.07870065, -1.98432996,  2.        , -0.33652106]])

### 4.3.2. 수학 메서드와 통계 메서드

합(sum)이나 평균(mean), 표준편차(std) 는 NumPy 최상위 함수를 이용하거나 배열의 인스턴스 메서드를 사용해서 구할 수 있다.

In [3]:
arr = np.random.randn(5, 4)
arr

array([[-1.29113264,  0.7926261 ,  0.54850714,  0.35119932],
       [ 0.28184408,  1.83351457, -0.02487265,  0.58669238],
       [ 0.68336677, -0.62668147,  0.03311393,  0.6654778 ],
       [-0.79093518,  1.14832456,  1.44691548,  0.306295  ],
       [-1.57520011,  1.26513508, -0.20630612,  1.00913094]])

In [148]:
arr.mean()

-0.14287672065251969

In [149]:
np.mean(arr)

-0.14287672065251969

In [150]:
arr.sum()

-2.8575344130503937

* 0 - 행 방향
* 1 - 열 방향

In [4]:
arr

array([[-1.29113264,  0.7926261 ,  0.54850714,  0.35119932],
       [ 0.28184408,  1.83351457, -0.02487265,  0.58669238],
       [ 0.68336677, -0.62668147,  0.03311393,  0.6654778 ],
       [-0.79093518,  1.14832456,  1.44691548,  0.306295  ],
       [-1.57520011,  1.26513508, -0.20630612,  1.00913094]])

In [5]:
arr.mean(axis=1)

array([ 0.10029998,  0.66929459,  0.18881926,  0.52764997,  0.12318995])

In [6]:
arr.sum(0)

array([-2.69205707,  4.41291883,  1.79735777,  2.91879546])

In [7]:
arr = np.array([[0, 1, 2], [3, 4, 5], [6, 7, 8]])
arr

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

* cumsum - 누적합
* cumprod - 누적곱

In [9]:
arr.cumsum(1)

array([[ 0,  1,  3],
       [ 3,  7, 12],
       [ 6, 13, 21]])

In [156]:
arr.cumprod(1)

array([[  0,   0,   0],
       [  3,  12,  60],
       [  6,  42, 336]])

기본 배열 통계 메서드

<table align="left">
    <thead>
        <td>메서드</td>
        <td>설명</td>
    </thead>
    <tbody>
        <tr>
            <td>sum</td>
            <td>배열 전체 혹은 특정 축에 대한 모든 원소의 합을 계산한다. 크기가 0 인 배열의 결과는 0이다.</td>
        </tr>
        <tr>
            <td>mean</td>
            <td>산술평균을 구한다. 크기가 0인 배열의 결과는 NaN이다.</td>
        </tr>
        <tr>
            <td>std, var</td>
            <td>각각 표준편차(std)와 분산(var)을 구한다. 선택적으로 자유도를 줄 수 있으며 분모의 기본 값은 n이다.</td>
        </tr>
        <tr>
            <td>min, max</td>
            <td>최소값, 최대값</td>
        </tr>
        <tr>
            <td>argmin, argmax</td>
            <td>최소 원소의 색인 값, 최대 원소의 색인 값</td>
        </tr>
        <tr>
            <td>cumsum</td>
            <td>각 원소의 누적합</td>
        </tr>
        <tr>
            <td>cumprod</td>
            <td>각 원소의 누적곱</td>
        </tr>
    </tbody>
</table>

### 4.3.3. 불리언 배열을 위한 메서드

In [159]:
arr = np.random.randn(100)
arr

array([-1.48272281,  0.70113237,  0.92332265, -1.06701417, -0.34964048,
        1.45270876,  0.01741268,  0.6115377 , -0.37040869, -2.13921154,
        2.02201297, -0.91372698, -0.11653663,  0.62867856, -0.27934759,
        0.84052331,  0.74609001, -1.12050393, -0.15193996, -0.82385017,
       -1.82532529,  2.29557326, -0.01487807, -0.39606021, -0.65106078,
       -0.44035712,  0.069114  ,  1.64525776,  0.07806748, -0.15839998,
       -0.56972888,  1.65337307,  0.94329064, -0.66971199,  0.01603878,
        0.58414079,  1.32828478, -1.75980789,  0.74651637, -0.75931705,
       -1.34844085, -0.32310822, -0.79402626, -1.15689769,  0.48501889,
        0.72923937,  0.32908725, -1.36507463,  1.60250587,  0.77212794,
        0.45039355, -0.66920637,  0.29205332,  0.88751809, -0.62955235,
        1.77294754, -1.11204425, -0.97580222,  0.49334452, -1.1864143 ,
        0.93779192,  0.51655453,  0.5734935 ,  0.27133694,  1.00550623,
       -0.99732667, -0.31962241,  1.69972474,  0.66910522,  1.41

In [160]:
(arr > 0).sum()

52

In [161]:
bools = np.array([False, False, True, False])

* any() - 원소 중 적어도 하나 이상 True 인 경우 True 를 반환
* all() - 원소 모두 True 인 경우 True 를 반환

In [162]:
bools.any()

True

In [163]:
bools.all()

False

### 4.3.4. 정렬

sort() 는 배열을 직접 변경하지 않고 복사본을 반환한다

In [12]:
arr = np.random.randn(8)
arr

array([ 1.14108735,  0.17573781, -0.63558266, -1.06538383, -0.04896653,
        1.29894699,  0.81109969, -1.31622888])

In [19]:
arr.sort()
arr

array([-1.31622888, -1.06538383, -0.63558266, -0.04896653,  0.17573781,
        0.81109969,  1.14108735,  1.29894699])

In [18]:
arr[::-1]

array([ 1.29894699,  1.14108735,  0.81109969,  0.17573781, -0.04896653,
       -0.63558266, -1.06538383, -1.31622888])

In [168]:
arr = np.random.randn(5, 3)
arr

array([[ 0.75838374,  0.14160108, -0.30884594],
       [ 0.53853732, -1.29337827, -1.01632488],
       [ 0.67045565, -0.52051689,  0.46050742],
       [-0.42651862, -0.48758513,  0.82108069],
       [-0.27418659, -0.80911571,  0.26359094]])

In [169]:
arr.sort(1)

In [170]:
arr

array([[-0.30884594,  0.14160108,  0.75838374],
       [-1.29337827, -1.01632488,  0.53853732],
       [-0.52051689,  0.46050742,  0.67045565],
       [-0.48758513, -0.42651862,  0.82108069],
       [-0.80911571, -0.27418659,  0.26359094]])

In [171]:
arr.sort(0)
arr

array([[-1.29337827, -1.01632488,  0.26359094],
       [-0.80911571, -0.42651862,  0.53853732],
       [-0.52051689, -0.27418659,  0.67045565],
       [-0.48758513,  0.14160108,  0.75838374],
       [-0.30884594,  0.46050742,  0.82108069]])

In [173]:
large_arr = np.random.randn(1000)

In [174]:
large_arr.sort()

In [175]:
large_arr[int(0.05*len(large_arr))]

-1.7194114603396902

### 4.3.5. 집합 함수

In [176]:
names = np.array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe' 'Joe'])

In [177]:
np.unique(names)

array(['Bob', 'Joe', 'JoeJoe', 'Will'], 
      dtype='<U6')

In [178]:
ints = np.array([3, 3, 3, 2, 2, 1, 1, 4, 4])

In [179]:
np.unique(ints)

array([1, 2, 3, 4])

np.unique를 순수 파이썬만으로 구현하면 아래와 같다

In [180]:
sorted(set(names))

['Bob', 'Joe', 'JoeJoe', 'Will']

In [181]:
values = np.array([6, 0, 0, 3, 2, 5, 6])

In [182]:
np.in1d(values, [2, 3, 6])

array([ True, False, False,  True,  True, False,  True], dtype=bool)

배열 집합연산

<table align="left">
    <thead>
        <td>메서드</td>
        <td>설명</td>
    </thead>
    <tbody>
        <tr>
            <td>unique(x)</td>
            <td>배열 x 에서 중복된 원소를 제거한 후 정렬하여 반환한다.</td>
        </tr>
        <tr>
            <td>intersect1d(x, y)</td>
            <td>배열 x 와 y 에 공통적으로 존재하는 원소를 정렬하여 반환한다.</td>
        </tr>
        <tr>
            <td>union1d(x, y)</td>
            <td>두 배열의 합집합을 반환한다.</td>
        </tr>
        <tr>
            <td>in1d(x, y)</td>
            <td>x 의 원소 중 y 의 원소를 포함하는지를 나타내는 불리언 배열을 반환한다.</td>
        </tr>
        <tr>
            <td>setdiff1d(x, y)</td>
            <td>x 와 y의 차집합을 반환한다.</td>
        </tr>
        <tr>
            <td>setxor1d(x, y)</td>
            <td>한 배열에는 포함되지만 두 배열 모두에는 포함되지 않는 원소들의 집합인 대칭차집합을 반환한다.</td>
        </tr>
    </tbody>
</table>

## 4.4. 배열의 파일 입/출력

NumPy 는 디스크에서 텍스트나 바이너리 형식의 파일로부터 데이터를 불러오거나 저장할 수 있다.

### 4.4.1. 배열을 바이너리 형식으로 디스크에 저장하기

In [183]:
arr = np.arange(10)

In [184]:
np.save('some_array',arr)

In [185]:
np.load('some_array.npy')

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [186]:
np.savez('array_archive.npz', a=arr, b=arr)

In [187]:
arch = np.load('array_archive.npz')

In [188]:
arch['b']

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

### 4.4.2 텍스트 파일 불러오기와 저장하기

In [20]:
!cat array_ex.txt

0.580052,0.186730,1.040717,1.134411
0.194163,-0.636917,-0.938659,0.124094
-0.126410,0.268607,-0.695724,0.047428
-1.484413,0.004176,-0.744203,0.005487
2.302869,0.200131,1.670238,-1.881090
-0.193230,1.047233,0.482803,0.960334

In [191]:
arr = np.loadtxt('array_ex.txt', delimiter=',')
arr

array([[ 0.580052,  0.18673 ,  1.040717,  1.134411],
       [ 0.194163, -0.636917, -0.938659,  0.124094],
       [-0.12641 ,  0.268607, -0.695724,  0.047428],
       [-1.484413,  0.004176, -0.744203,  0.005487],
       [ 2.302869,  0.200131,  1.670238, -1.88109 ],
       [-0.19323 ,  1.047233,  0.482803,  0.960334]])

* np.savetxt() - 배열을 파일로 저장
* genfromtxt() - loadtxt 와 유사하지만 구조화된 배열과 누락된 데이터를 처리

## 4.5. 선형대수 

In [194]:
x = np.array([[1., 2., 3.], [4., 5., 6.]])
x

array([[ 1.,  2.,  3.],
       [ 4.,  5.,  6.]])

In [195]:
y = np.array([[6., 23.], [-1, 7], [8, 9]])
y

array([[  6.,  23.],
       [ -1.,   7.],
       [  8.,   9.]])

In [196]:
x.dot(y)

array([[  28.,   64.],
       [  67.,  181.]])

In [197]:
np.dot(x, np.ones(3))

array([  6.,  15.])

In [21]:
from numpy.linalg import inv, qr

In [22]:
x = np.random.randn(5, 5)

In [23]:
mat = x.T.dot(x)

In [24]:
inv(mat)

array([[ 3.29832005,  1.02453925, -3.7479653 ,  3.72373772, -2.19742863],
       [ 1.02453925,  0.51008782, -1.12962334,  1.06458743, -0.64995737],
       [-3.7479653 , -1.12962334,  4.57004205, -4.54244381,  2.62385169],
       [ 3.72373772,  1.06458743, -4.54244381,  4.65240457, -2.67421049],
       [-2.19742863, -0.64995737,  2.62385169, -2.67421049,  1.62916673]])

In [25]:
mat.dot(inv(mat))

array([[  1.00000000e+00,  -3.32685184e-16,  -1.46413548e-15,
          2.00021102e-16,  -8.80375378e-16],
       [  2.52891142e-16,   1.00000000e+00,   2.84296189e-15,
          4.68899126e-16,   9.21143957e-17],
       [  4.28590654e-15,   2.00129631e-15,   1.00000000e+00,
          2.20686895e-15,  -3.55427395e-15],
       [  5.14357311e-15,  -1.11936738e-15,  -4.87395321e-15,
          1.00000000e+00,  -1.08918305e-15],
       [  1.15885656e-15,   6.22050248e-16,  -3.94846115e-15,
         -8.90391423e-17,   1.00000000e+00]])

In [203]:
q, r = qr(mat)

In [204]:
r

array([[-7.7822399 , -4.65109597,  1.4389955 , -0.63647412,  4.04665262],
       [ 0.        , -3.04121066,  2.33951955, -0.74049374,  2.47861053],
       [ 0.        ,  0.        , -2.48131224, -0.90578416,  1.72757123],
       [ 0.        ,  0.        ,  0.        , -0.63974054,  3.97941427],
       [ 0.        ,  0.        ,  0.        ,  0.        ,  0.02672711]])

자주 사용되는 numpy.linalg 함수

<table align="left">
    <thead>
        <td>함수</td>
        <td>설명</td>
    </thead>
    <tbody>
        <tr>
            <td>numpy.diag</td>
            <td>적사각 행렬의 대각/비대각 원소를 1차원 배열로 반환하거나 1차원 배열을 대각선 원소로 하고 나머지는 0으로 채운 단위 행렬을 반환한다.</td>
        </tr>
        <tr>
            <td>numpy.dot</td>
            <td>행렬의 곱셈</td>
        </tr>
        <tr>
            <td>numpy.trace</td>
            <td>행렬의 대각선 원소의 합을 계산한다.</td>
        </tr>
        <tr>
            <td>numpy.linalg.det</td>
            <td>행렬식을 계산한다.</td>
        </tr>
        <tr>
            <td>numpy.linalg.eig</td>
            <td>정사각 행렬의 고유값과 고유벡터를 계산한다.</td>
        </tr>
        <tr>
            <td>numpy.linalg.inv</td>
            <td>정사각형 행렬의 역행렬을 계산한다.</td>
        </tr>
        <tr>
            <td>numpy.linalg.pinv</td>
            <td>행렬의 무어-펜로즈 유사역원 역행렬을 구한다.</td>
        </tr>
        <tr>
            <td>numpy.linalg.qr</td>
            <td>QR 분해를 계산한다.</td>
        </tr>
        <tr>
            <td>numpy.linalg, 1stsq</td>
            <td>y=xb 를 만족하는 최소제곱해를 구한다.</td>
        </tr>
    </tbody>
</table>

## 4.6. 난수 생성

In [206]:
samples = np.random.normal(size=(4,4))

In [207]:
samples

array([[-2.5132357 , -0.28022984,  0.35524182,  1.8140422 ],
       [-0.2569906 ,  0.76697214, -0.50655901,  0.34480659],
       [ 0.07240846, -0.41946595, -1.86352677,  1.45573728],
       [ 1.29552315, -0.34128101,  0.47764212, -0.17350421]])

In [208]:
from random import normalvariate

In [209]:
N = 1000000

In [210]:
%timeit samples = [normalvariate(0, 1) for _ in range(N)]

1 loop, best of 3: 1.3 s per loop


In [211]:
%timeit np.random.normal(size=N)

10 loops, best of 3: 50.3 ms per loop


numpy.random 함수

<table align="left">
    <thead>
        <td>함수</td>
        <td>설명</td>
    </thead>
    <tbody>
        <tr>
            <td>seed</td>
            <td>난수 발생기의 시드를 저장한다.</td>
        </tr>
        <tr>
            <td>permutation</td>
            <td>순서를 임의로 바꾸거나 임의의 순열을 반환한다.</td>
        </tr>
        <tr>
            <td>shuffle</td>
            <td>리스트나 배열의 순서를 뒤섞는다.</td>
        </tr>
        <tr>
            <td>rand</td>
            <td>균등분포에서 표본을 추출한다.</td>
        </tr>
        <tr>
            <td>randint</td>
            <td>주어진 최소/최대 범위 안에서 임의의 난수를 추출한다.</td>
        </tr>
        <tr>
            <td>randn</td>
            <td>표준편차가 1이과 평균값이 0인 정규분포에서 표본을 추출한다.</td>
        </tr>
        <tr>
            <td>binomial</td>
            <td>이항분포에서 표본을 추출한다.</td>
        </tr>
        <tr>
            <td>normal</td>
            <td>정규분포에서 표본을 추출한다.</td>
        </tr>
        <tr>
            <td>beta</td>
            <td>베타분포에서 표본을 추출한다.</td>
        </tr>
        <tr>
            <td>chisquare</td>
            <td>카이제곱분포에서 표본을 추출한다.</td>
        </tr>
        <tr>
            <td>gamma</td>
            <td>감마분포에서 표본을 추출한다.</td>
        </tr>
        <tr>
            <td>uniform</td>
            <td>균등(0,1)분포에서 표본을 추출한다.</td>
        </tr>
    </tbody>
</table>

## 4.7. 계단 오르내리기 예제

In [30]:
import random
position = 0
walk = [position]
steps = 1000
for i in np.arange(steps):
    step = 1 if random.randint(0, 1) else -1
    position += step
    walk.append(position)

In [31]:
nsteps = 1000
draws = np.random.randint(0, 2, size=nsteps)
steps = np.where(draws > 0, 1, -1)
walk = steps.cumsum()

In [32]:
walk.min()

-1

In [33]:
walk.max()

63

In [34]:
(np.abs(walk) >= 10).argmax()

107

### 4.7.1. 한 번에 계단 오르내리기 시뮬레이션하기

계단 오르내리기 예제 5000번 수행

In [224]:
nwalks = 5000
nsteps = 1000
draws = np.random.randint(0, 2, size=(nwalks, nsteps))
steps = np.where(draws > 0, 1, -1)
walks = steps.cumsum(1)
walks

array([[  1,   0,  -1, ...,  22,  23,  22],
       [  1,   0,  -1, ...,  12,  13,  12],
       [ -1,   0,   1, ...,  16,  15,  16],
       ..., 
       [  1,   2,   1, ...,  -2,  -3,  -4],
       [ -1,  -2,  -3, ..., -38, -39, -38],
       [  1,   2,   3, ...,  -8,  -7,  -6]])

In [225]:
walks.max()

123

In [226]:
walks.min()

-123

In [227]:
hits30 = (np.abs(walks) >= 30).any(1)
hits30

array([False, False, False, ..., False,  True, False], dtype=bool)

In [228]:
hits30.sum()

3331

In [229]:
crossing_times = (np.abs(walks[hits30]) >= 30).argmax(1)

In [230]:
crossing_times.mean()

506.0411287901531

In [232]:
steps = np.random.normal(loc=0, scale=0.25, size=(nwalks, nsteps))

In [233]:
steps

array([[-0.20067302, -0.01224893, -0.1679151 , ...,  0.07485538,
         0.2295023 ,  0.7422835 ],
       [-0.04026986, -0.57020842,  0.05909021, ...,  0.00343434,
        -0.23896678, -0.5219368 ],
       [ 0.18946469,  0.02802554, -0.25589635, ..., -0.22814323,
        -0.20340468, -0.28653601],
       ..., 
       [-0.10269567,  0.14205531,  0.57425561, ..., -0.47278269,
         0.06080578, -0.48731736],
       [-0.12462239,  0.11645497, -0.01656015, ..., -0.5774361 ,
         0.01172033,  0.1833137 ],
       [-0.04214499,  0.60933561, -0.25320351, ...,  0.38409218,
         0.17980586,  0.11746529]])