NumPy : Numerical Python의 준말
파이썬에서 산술 곗간을 위한 가장 중요한 필수 패키지 중 하나이다.
과학 계산을 위한 대부분의 패키지는 넘파이의 배열 객체를 데이터 교환을 위한 공통 언어처럼 사용한다.

넘파이에서 제공하는 기능
- 빠른 배열 계산과 유연한 브로드캐스팅 기능을 제공하는 효율적인 다차원 배열인 ndarray
- 반복문을 작성할 필요 없이 전체 데이터 배열을 빠르게 계산하는 표준 수학 함수
- 배열 데이터를 디스크에 쓰거나 읽을 수 있는 도구와 메모리에 적재된 파일을 다루는 도구
- 선형대수, 난수 생성기, 푸리에 변환 기능
- C, C++, 포트란으로 작성된 코드를 넘파이와 연결하는 API

### 다차원 배열 객체 ndarray
   
ndarray는 파이썬에서 사용할 수 있는 대규모 데이터셋을 담을 수 있는 빠르고 유연한 자료구조이다.
배열을 사용하면 스칼라 원소 간의 연산에 사용하는 문법과 비슷한 방식을 사용해 전체 데이터 블록에 수학적 연산을 수행할 수 있다.

In [2]:
import numpy as np

data = np.array([[1.5, -0.1, 3], [0, -3, 6.5]])
data

array([[ 1.5, -0.1,  3. ],
       [ 0. , -3. ,  6.5]])

In [3]:
# 산술 연산을 수행
data * 10

array([[ 15.,  -1.,  30.],
       [  0., -30.,  65.]])

In [4]:
data + data

array([[ 3. , -0.2,  6. ],
       [ 0. , -6. , 13. ]])

- ndarray는 같은 종류의 데이터를 담을 수 있는 포괄적인 다차원 배열이다.
- ndarray의 모든 원소는 같은 자료형이어야 한다.
- 모든 배열은 각 차원의 크기를 알려주는 shape 튜플과 배열에 저장된 자료형을 알려주는 dtype 객체를 갖는다.

In [5]:
data.shape

(2, 3)

In [6]:
data.dtype

dtype('float64')

### ndarray 생성하기
- 배열을 생성하는 가장 쉬운 방법은 array 함수를 이용하는 것이다.
- 순차적인 객체(다른 배열도 포함해)를 받아서 넘겨받은 데이터가 들어 있는 새로운 넘파이 배열을 생성한다.

In [7]:
# 파이썬 리스트는 배열로 변환하기 좋은 예이다.
data1 = [6, 7.5, 8, 0, 1]
arr1 = np.array(data1)
arr1

array([6. , 7.5, 8. , 0. , 1. ])

In [8]:
# 리스트 길이가 동일한 중첩된 순차 데이터는 다차원 배열로 변환 가능하다.
data2 = [[1, 2, 3, 4], [5, 6, 7, 8]]
arr2 = np.array(data2)
arr2

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

In [9]:
# data2는 리스트를 담고 있는 리스트(중첩 리스트)이므로 
# 넘파이인 arr2는 해당 데이터로부터 형태를 추론해 2차원 형태로 생성한다.
# ndim과 shape 속서을 검사행서 이를 확인할 수 있다.
arr2.ndim    # 배열의 차원

2

In [10]:
arr2.shape   # 매열의 모양

(2, 4)

In [11]:
# 명시적으로 지정하지 않는 한 numpy.array는 생성될 때 적절한 자료형을 추론한다.
# 추론된 자료형은 dtype 객체에 저장된다.
arr1.dtype

dtype('float64')

In [12]:
arr2.dtype

dtype('int32')

In [13]:
# numpy.array는 새로운 배열을 생성하는 여러 함수를 가지고 있다.
# zeros와 ones는 주어진 길이나 모양에 각가 0과 1이 들어 있는 배열을 생성한다.
# empty 함수는 초기화되지 않은 배열을 생성한다.
# 이러한 메서드를 사용해서 다차원 배열을 생성하려면 원하는 형태의 튜플을 넘기면 된다.
np.zeros(10)

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [14]:
np.zeros((3, 6))

array([[0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.]])

In [15]:
# numpy.empty 초기화되지 않은 메모리를 반환하므로 0이 아닌 가비지(gabage) 값을 포함할 수 있다.
# 데이터를 새로 채우기 위해 배열을 생성하는 경우에만 이 함수를 사용해야 한다.
np.empty((2, 3, 2))

array([[[1.34349584e-311, 2.81617418e-322],
        [0.00000000e+000, 0.00000000e+000],
        [3.44902066e-307, 1.04082753e-047]],

       [[4.71194767e-090, 4.27629918e-033],
        [8.26793620e-072, 2.63182161e-052],
        [6.48224660e+170, 4.93432906e+257]]])

In [16]:
# arange는 파이썬의 range 함수의 배열 버전이다.
np.arange(15)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

### ndarray의 자료형
- 자료형(dtype)은 ndarray가 메모리에 있는 
- 특정 데이터를 해석하는 데 필요한 정보(또는 메타데이터)를 담고 있는 특수한 객체이다.

In [17]:
arr1 = np.array([1, 2, 3], dtype=np.float64)   # dtype='float64'
arr2 = np.array([1, 2, 3], dtype=np.int32)     # dtype='int32'
arr1.dtype

dtype('float64')

In [18]:
arr2.dtype

dtype('int32')

In [19]:
# ndarray의 astype 메서드를 사용해 배열의 dtype을 다른 형으로 명시적으로 변환(cast) 가능하다.
# 다음 예제는 정수형을 부동소수점으로 변환한다.
arr = np.array([1, 2, 3, 4, 5])
arr.dtype

dtype('int32')

In [20]:
float_arr = arr.astype(np.float64)
float_arr

array([1., 2., 3., 4., 5.])

In [21]:
float_arr.dtype

dtype('float64')

In [22]:
# 부동소수점을 정수형으로 변환하면 소수점 아래 자리는 버려진다.
arr = np.array([3.7, -1.2, -2.6, 0.5, 12.9, 10.1])
arr

array([ 3.7, -1.2, -2.6,  0.5, 12.9, 10.1])

In [23]:
arr.astype(np.int32)

array([ 3, -1, -2,  0, 12, 10])

In [24]:
# 숫자 형식의 문자열을 담고 있는 배열이면 astyhpe을 사용해 숫자로 변환할 수 있다.
numeric_strings = np.array(['1.25', '-9.6', '42'], dtype=np.string_)
numeric_strings.astype(float)
# 넘파이에서는 문자열 데이터는 고정 크기를 가지며 별다른 경고를 출력하지 않고 입력을 임의로 잘라낼 수 있으므로
# numpy.string_형을 이용할 때는 주의해야 한다.

array([ 1.25, -9.6 , 42.  ])

In [25]:
# 문자열이 float64로 변환되지 않는 경우 형 변환에 실패하면 ValueError가 발생한다.
# 똑똑한 넘파이는 파이썬 자료형을 알맞은 dtype으로 맞춰준다.
int_array = np.arange(10)
calibers = np.array([.22, .270, .357, .380, .44, .50], dtype=np.float64)
int_array.astype(calibers.dtype)

array([0., 1., 2., 3., 4., 5., 6., 7., 8., 9.])

In [26]:
# dtype으로 사용할 수 있는 축약 코드도 있다.
zeros_uint32 = np.zeros(8, dtype='u4')
zeros_uint32

array([0, 0, 0, 0, 0, 0, 0, 0], dtype=uint32)

### 넘파이 배열의 산술 연산
- 배열은 for 문을 작성하지 않고 데이터를 일괄 처리할 수 있어 매우 중요하다.
- 이를 벡터화(vectorization)라고 부르며 크기가 동일한 배열 간의 산술 연산은 배열의 각 원소 단위로 적용된다.

In [27]:
arr = np.array([[1., 2., 3.], [4., 5., 6.]])
arr

array([[1., 2., 3.],
       [4., 5., 6.]])

In [28]:
arr * arr

array([[ 1.,  4.,  9.],
       [16., 25., 36.]])

In [29]:
arr - arr

array([[0., 0., 0.],
       [0., 0., 0.]])

In [30]:
# 스칼라 인수가 포함된 산술 연산의 경우 배열 내의 모든 원소가 스칼라 인수가 적용된다.
1 / arr

array([[1.        , 0.5       , 0.33333333],
       [0.25      , 0.2       , 0.16666667]])

In [31]:
arr ** 2

array([[ 1.,  4.,  9.],
       [16., 25., 36.]])

In [32]:
# 크기가 동일한 배열 간의 비교 연산은 불리언 배열을 반환한다.
arr2 = np.array([[0., 4., 1.], [7., 2., 12.]])
arr2

array([[ 0.,  4.,  1.],
       [ 7.,  2., 12.]])

In [33]:
arr2 > arr

array([[False,  True, False],
       [ True, False,  True]])

### 색인과 슬라이싱
- 1차원 배열은 표면적으로 파이썬 리스트와 유사하게 작동한다.

In [34]:
arr = np.arange(10)
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [35]:
arr[5]

5

In [36]:
arr[5:8]

array([5, 6, 7])

In [41]:
# arr[5:8] = 12로 배열 슬라이스에 스칼라 값을 대입하면 12가 선택 영역 전체로 전파(브로드캐스팅)된다.
arr[5:8] = 12
arr

array([ 0,  1,  2,  3,  4, 12, 12, 12,  8,  9])

In [44]:
# 파이썬에 내장된 리스트와 중요한 차이점은 배열 슬라이스가 원본 배열의 뷰(view)라는 점이다.
# 즉, 데이터는 복사되지 않고 뷰에 대한 변경이 그대로 원본 배열에 반영된다는 의미이다.
# 에에 대한 예제로 먼저 arr 배열의 슬라이스를 생성해보자.
arr_slice = arr[5:8]
arr_slice

array([12, 12, 12])

In [45]:
# arr_slice의 값을 변경하면 원래 배열인 arr의 값도 바뀌어 있음을 확인할 수 있다.
arr_slice[1] = 12345
arr

array([    0,     1,     2,     3,     4,    12, 12345,    12,     8,
           9])

In [46]:
# 단순히 [:]로 슬라이스하면 배열의 모든 값에 할당된다.
arr_slice[:] = 64
arr

array([ 0,  1,  2,  3,  4, 64, 64, 64,  8,  9])

In [47]:
# 넘파이는 대용량 데이터 처리를 염두에 두고 설계되었으므로 만약 넘파이가 데이터 복사를 남발한다면
# 성능과 메모리 문제에 마주치게 될 것이다.
# 만약 뷰가 아닌 ndarray 슬라이스의 복사본을 얻고 싶다면 arr[5:8].copy()로 명시적으로 배열을 복사해야 한다. 판다스도 마찬가지.

In [48]:
# 다차원 배열을 다룰 때 좀 더 많은 옵션이 있다.
# 2차원 배열에서 각 색인에 해당하는 원소는 스칼라 값이 아닌 1차원 배열이다.
arr2d = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
arr2d[2]

array([7, 8, 9])

In [49]:
# 따라서 개별 원소는 재귀적으로 접근해야 한다.
# 하지만 이는 매우 귀찮은 작업이므로 쉼표로 구분된 색인 리스트를 넘기면 된다.
# 다음 두 표현은 동일하다.
arr2d[0][2]

3

In [50]:
arr2d[0, 2]

3

In [55]:
# 다차원 배열에서 마지막 색인을 생략하면 반환되는 객체는 상위 차원의 데이터를 모두 포함한 한 차원 낮은 ndarray 가 반환된다.
# 2 x 2 x 3 크기의 배열 arr3d가 있다고 가정하자.
arr3d = np.array([[[1, 2, 3], [4, 5, 6]], [[7, 8, 9], [10, 11, 12]]])
arr3d

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [56]:
# arr3d[0]은 2 x 3 크기의 배열이다.
arr3d[0]

array([[1, 2, 3],
       [4, 5, 6]])

In [57]:
# arr3d[0]에는 스칼라 값과 배열 모두 할당할 수 있다.
old_values = arr3d[0].copy()
arr3d[0] = 42
arr3d

array([[[42, 42, 42],
        [42, 42, 42]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [58]:
arr3d[0] = old_values
arr3d

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [59]:
# 이런 방식으로 arr3d[1, 0]은 (1, 0)으로 색인되는 1차원 배열과 그 값을 반환한다.
arr3d[1, 0]

array([7, 8, 9])

In [60]:
# 이 표현은 다음처럼 두 번에 걸쳐 인덱싱한 결과와 동일하다.
x = arr3d[1]
x

array([[ 7,  8,  9],
       [10, 11, 12]])

In [61]:
x[0]

array([7, 8, 9])

In [62]:
# 여기서 살펴본 선택된 배열의 부분집합은 모두 배열의 뷰를 반환한다는 점을 기억하자.
# 넘파이 배열의 다차원 색인 구문은 리스트의 리스트 같은 일반적인 파이썬 객체에서는 작동하지 않는다.

In [63]:
# 슬라이스로 선택하기
# 파이썬은 리스트 같은 1차원 객체처럼 ndarray도 익숙한 문법으로 슬라이싱할 수 있다.
arr

array([ 0,  1,  2,  3,  4, 64, 64, 64,  8,  9])

In [64]:
arr[1:6]

array([ 1,  2,  3,  4, 64])

In [65]:
# 앞서 살펴본 2차원 배열 arr2d를 생가해보자. 이 배열을 슬라이싱하는 방법은 조금 다르다.
arr2d

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [66]:
arr2d[:2]

array([[1, 2, 3],
       [4, 5, 6]])

In [68]:
# 첫 번째 축인 0번 축을 기준으로 슬라이싱되었다. 슬라이스는 축을 따라 선택 영역 내의 원소를 선택한다.
# arr2d[:2]는  arr2d의 시작부터 두 번째 행까지 선택하다는 뜻이다.
# 색인을 여러 개 넘겨서 다차원을 슬라이싱할 수도 있다.
arr2d[:2, 1:]

array([[2, 3],
       [5, 6]])

In [70]:
# 이렇게 슬라이싱하면 항상 동일한 차원의 배열 뷰를 얻게 된다.
# 정수 색인과 슬라이스를 함께 사용하면 한 차원 낮은 슬라이스를 얻을 수 있다.
# 예를 들어 두 번째 행의 처음 두 열만 선택하고 싶다면 다음과 같이 하면 된다.
lower_dim_slice = arr2d[1, :2]
lower_dim_slice

array([4, 5])

In [71]:
# 여기서 arr2d는 2차원 배열이지만 lower_dim_slice는 1차원이고 축 크기가 하나인 튜플 모양이다.
lower_dim_slice.shape

(2,)

In [72]:
# 이와 유사하게 처음 두 행에서 세 번째 열만 선택하고 싶다면 다음처럼 할 수 있다.
arr2d[:2, 2]

array([3, 6])

In [73]:
# 열만 사용하면 전체 축을 선택한다는 의미이므로 원래 차원의 슬라이스를 얻게 된다.
arr2d[:, :1]

array([[1],
       [4],
       [7]])

In [74]:
# 슬라이싱 구문에 값을 대입하면 선택 영역 전체에 값이 할당된다.
arr2d[:2, 1:] = 0
arr2d

array([[1, 0, 0],
       [4, 0, 0],
       [7, 8, 9]])

### 불리언 값으로 선택하기

In [88]:
# 다음과 같이 데이터를 가진 배열이 있고, 이름이 중복된 배열이 있다.
names = np.array(['Bob', 'Joe', 'Wil', 'Bob', 'Will', 'Joe', 'Joe'])
data = np.array([[4, 7], [0, 2], [-5, 6], [0, 0], [1, 2], [-12, -4], [3, 4]])

In [89]:
names

array(['Bob', 'Joe', 'Wil', 'Bob', 'Will', 'Joe', 'Joe'], dtype='<U4')

In [90]:
data

array([[  4,   7],
       [  0,   2],
       [ -5,   6],
       [  0,   0],
       [  1,   2],
       [-12,  -4],
       [  3,   4]])

In [91]:
# 각 이름은 data 배열의 각 행에 대응한다고 자정하자.
# 만약 전체 행에서 'Bob'과 동일한 이름을 선택하려면 산술 연산과 마찬가지로 배열에 대한 비교 연산(== 같은)도 벡터화된다.
# 따라서 names를 'Bob' 문자열과 비교하면 불리언 배열이 반환된다.
names == 'Bob'

array([ True, False, False,  True, False, False, False])

In [92]:
# 불리언 배열은 배열의 색인으로 사용할 수 있다.
data[names == 'Bob']

array([[4, 7],
       [0, 0]])

In [93]:
# 불리언 배열은 반드시 색인하려믄 축의 길이와 길이가 동일해야 한다.
# 심지어 불리언 배열을 슬라이스나 정수를 선택하는 데 짜 맞출 수도 있다.
# 다음 예제에서 names == 'Bob' 행에서 색인과 열을 함께 선택했다.
data[names == 'Bob', 1:]

array([[7],
       [0]])

In [94]:
# 'Bob'이 아닌 항목을 모두 선택하려면 != 연산자를 사용하거나 ~를 사용해서 조건부를 부인하면 된다.
names != 'Bob'

array([False,  True,  True, False,  True,  True,  True])

In [95]:
~(names == 'Bob')

array([False,  True,  True, False,  True,  True,  True])

In [97]:
data[~(names == 'Bob')]

array([[  0,   2],
       [ -5,   6],
       [  1,   2],
       [-12,  -4],
       [  3,   4]])

In [100]:
# ~ 연산자는 변수가 참조하는 불리언 배열을 뒤집고 싶을 때 유용하다.
cond = names == 'Bob'
cond

array([ True, False, False,  True, False, False, False])

In [101]:
data[~cond]

array([[  0,   2],
       [ -5,   6],
       [  1,   2],
       [-12,  -4],
       [  3,   4]])

In [102]:
# 세 가지 이름 중에서 두 가지 이름을 선택하려면 &(and)와 |(or) 같은 논리 연산자를 사용해 여러 개의 불리언 조건을 사용하면 된다.
mask = (names == 'Bob') | (names == 'Will')
mask

array([ True, False, False,  True,  True, False, False])

In [103]:
data[mask]

array([[4, 7],
       [0, 0],
       [1, 2]])

In [104]:
# 불리언 색인을 이용해 배열의 데이터를 선택하면 반환되는 배열의 내용이 바뀌지 않더라도 항상 데이터 복사가 발생한다.
# 파이썬 예약어인 and와 or는 불리언 배열에서 사용할 수 없다. &와 |를 대신 사용하자.

In [105]:
# 불리언 배열에 값을 대입하면 오른쪽에 있는 값을 불리언 배열의 값이 True인 위치로 대체하여 작동한다.
# data에 저장된 모든 음수를 0으로 대입하려면 다음과 같이 수행한다.
data[data < 0] = 0
data

array([[4, 7],
       [0, 2],
       [0, 6],
       [0, 0],
       [1, 2],
       [0, 0],
       [3, 4]])

In [106]:
# 1차원 불리언 배열을 사용해 전체 행이나 열의 값을 대입할 수 있다.
data[names != 'Joe'] = 7
data

array([[7, 7],
       [0, 2],
       [7, 7],
       [7, 7],
       [7, 7],
       [0, 0],
       [3, 4]])

In [107]:
# 2차원 데이터의 위와 같은 연산은 판다스에서 처리하는 것이 편리하다.

### 팬시 색인
- 팬시 색인(fancy indexing)은 정수 배열을 사용한 색인을 설명하기 위해 넘파이에서 차용한 단어다.

In [108]:
# 8 x 4 크기의 배열이 있다고 가정하자.
arr = np.zeros((8, 4))

for i in range(8):
    arr[i] = i

arr

array([[0., 0., 0., 0.],
       [1., 1., 1., 1.],
       [2., 2., 2., 2.],
       [3., 3., 3., 3.],
       [4., 4., 4., 4.],
       [5., 5., 5., 5.],
       [6., 6., 6., 6.],
       [7., 7., 7., 7.]])

In [109]:
# 특정한 순서로 행의 하위집합을 선택하고 싶다면 원하는 순서가 명시된 정수가 담긴 ndarray나 리스트를 넘기면 된다.
arr[[4, 3, 0, 6]]

array([[4., 4., 4., 4.],
       [3., 3., 3., 3.],
       [0., 0., 0., 0.],
       [6., 6., 6., 6.]])

In [112]:
# 색인으로 음수를 사용하면 끝에서부터 행을 선택한다.
arr[[-3, -5, -7]]

array([[5., 5., 5., 5.],
       [3., 3., 3., 3.],
       [1., 1., 1., 1.]])

In [113]:
# 다차원 색인 배열을 넘기면 조금 다르게 작동한다.
# 각 색인 튜플에 대응하는 1차원 배열이 선택된다.
arr = np.arange(32).reshape((8, 4))
arr

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15],
       [16, 17, 18, 19],
       [20, 21, 22, 23],
       [24, 25, 26, 27],
       [28, 29, 30, 31]])

In [114]:
arr[[1, 5, 7, 2], [0, 3, 1, 2]]

array([ 4, 23, 29, 10])

In [116]:
# 결과를 살펴보면 (1, 0), (5, 3), (7, 1), (2, 2)에 대응하는 원소가 선택되었다.
# 배열이 몇 차원이든지(여기서는 2차원) 팬시 색인의 결과는 항상 1차원이다.
# 즉, 행렬의 행과 열에 대응하는 사각형 모양의 값이 선택되기를 기대했지만, 팬시 색인이 예상과 조금 다르게 작동했다.
# 우리가 예상한 것처럼 만들려면 아래처럼 수행하면된다.
arr[[1, 5, 7, 2]][:, [0, 3, 1, 2]]

array([[ 4,  7,  5,  6],
       [20, 23, 21, 22],
       [28, 31, 29, 30],
       [ 8, 11,  9, 10]])

In [117]:
# 팬시 색인은 슬라이싱과 달리 선택된 데이터를 새로운 배열로 복사한다.
# 팬시 색인으로 값을 대입하면 색인된 값이 변경된다.
arr[[1, 5, 7, 2], [0, 3, 1, 2]]

array([ 4, 23, 29, 10])

In [118]:
arr[[1, 5, 7, 2], [0, 3, 1, 2]] = 0
arr

array([[ 0,  1,  2,  3],
       [ 0,  5,  6,  7],
       [ 8,  9,  0, 11],
       [12, 13, 14, 15],
       [16, 17, 18, 19],
       [20, 21, 22,  0],
       [24, 25, 26, 27],
       [28,  0, 30, 31]])

### 배열 전치와 축 바꾸기
- 배열 전치(transpose)는 데이터를 복사하지 않고 데이터의 모양이 바뀐 뷰를 반환하는 특별한 기능이다.
- adarray는 transpose 메서드와 T 라는 이름의 특수한 속성을 갖는다.

In [119]:
arr = np.arange(15).reshape((3, 5))
arr

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [120]:
arr.T

array([[ 0,  5, 10],
       [ 1,  6, 11],
       [ 2,  7, 12],
       [ 3,  8, 13],
       [ 4,  9, 14]])

In [124]:
# 행렬을 계산할 때 자주 사용하게 될 행렬의 내적은 numpy.dot을 이용해서 구한다.
arr = np.array([[0, 1, 0], [1, 2, -2], [6, 3, 2], [-1, 0, -1], [1, 0, 1]])
arr

array([[ 0,  1,  0],
       [ 1,  2, -2],
       [ 6,  3,  2],
       [-1,  0, -1],
       [ 1,  0,  1]])

In [125]:
np.dot(arr.T, arr)

array([[39, 20, 12],
       [20, 14,  2],
       [12,  2, 10]])

In [126]:
# @ 연산자는 행렬 곱셈을 수행하는 또 다른 방법이다.
arr.T @ arr

array([[39, 20, 12],
       [20, 14,  2],
       [12,  2, 10]])

In [127]:
# .T 속성을 이용하는 간단한 전치는 축을 뒤바꾸는 특별한 경우다.
# ndarray에는 swqapaxes라는 메서드를 통해 두 개의 축 번호를 받아서 배열을 뒤바꾼다.
arr

array([[ 0,  1,  0],
       [ 1,  2, -2],
       [ 6,  3,  2],
       [-1,  0, -1],
       [ 1,  0,  1]])

In [128]:
arr.swapaxes(0, 1)

array([[ 0,  1,  6, -1,  1],
       [ 1,  2,  3,  0,  0],
       [ 0, -2,  2, -1,  1]])

### 난수 생성
- numpy.random 모듈은 파이썬 내장 random 모듈을 보강해 다양한 종류의 확률분표로부터 효과적으로 표본값을 생성하는 데 주로 사용한다.
- 예를 들어 numpy.random.standard_normal을 사용해 표준정규분포부터 4 x 4 크기의 표본을 생성할 수 있다.

In [135]:
samples = np.random.standard_normal(size=(4, 4))
samples

array([[-0.39653949, -0.13866144,  0.34685189, -0.77917265],
       [ 0.95904392, -0.01487121,  0.74928599, -0.20351174],
       [-0.44922086,  1.20987561,  0.81472848, -0.31642879],
       [-0.0719638 ,  2.21920548,  0.1407791 ,  1.27966334]])

In [137]:
# 이와 대조적으로 파있너 내장 random 모듈은 한 번에 하나의 값만 생성한다.
# 다음 성능 비교에서 확인할 수 있듯이 numpy.random은 매우 큰 표본을 생성하지만 파이썬 내장 모듈보다 수십배 이상 빠르다.
from random import normalvariate

N = 1_000_000

%timeit samples = [normalvariate(0, 1) for _ in range(N)]

1.17 s ± 11.3 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [138]:
%timeit np.random.standard_normal(N)

21.1 ms ± 272 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [140]:
# 난수는 엄밀하게 말하자면 진정한 난수가 아니며 유사난수(pseudorandom)라고 부른다.
# 난수 생성기의 시드(seed) 값에 따라 정해진 난수를 알고리듬으로 생성하기 때문이다.
# numpy.random.standard_normal 같은 함수는 numpy.random 모듈의 기본 난수 생성기를 사용하지만
# 사용할 생성기를 명시적으로 설정할 수 있다.
rng = np.random.default_rng(seed=12345)
data = rng.standard_normal((2, 3))
data

array([[-1.42382504,  1.26372846, -0.87066174],
       [-0.25917323, -0.07534331, -0.74088465]])

In [141]:
# seed 인수는 난수 생성기의 초기 상태를 결정하며 rng 객체가 데이터를 생성할 때마다 상태가 변경된다.
# 생성기 객체인 rng는 numpy.random 모듈을 사용할 수 있는 다른 코드와도 분리되어 있다.
type(rng)

numpy.random._generator.Generator

### 유니버설 함수: 배열의 각 원소를 빠르게 처리하는 함수
- ufunc라고도 부르는 유니버설(universal) 함수는 ndarray 안의 데이터 원소별로 연산을 수행하는 함수다.
- 유니버설 함수는 하나 이상의 스칼라 값을 받아서 하나 이상의 스칼라 결과값을 반환하는
- 간단한 함수를 빠르게 수행하는 벡터화된 래퍼 함수라고 생각하면 된다.

In [143]:
# 많은 ufunc는 numpy.sqrt나 numpy.exp 같은 간단한 변경을 전체 원소에 적용할 수 있다.
arr = np.arange(10)
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [144]:
np.sqrt(arr)

array([0.        , 1.        , 1.41421356, 1.73205081, 2.        ,
       2.23606798, 2.44948974, 2.64575131, 2.82842712, 3.        ])

In [145]:
np.exp(arr)

array([1.00000000e+00, 2.71828183e+00, 7.38905610e+00, 2.00855369e+01,
       5.45981500e+01, 1.48413159e+02, 4.03428793e+02, 1.09663316e+03,
       2.98095799e+03, 8.10308393e+03])

In [146]:
# 위의 두 함수들은 단항(unary) 유니버설 함수다.
# numpy.add나 numpy.maximum 처럼 2개의 매개변수를 취해서 단일 배열을 반환하는 함수는 이항(binary) 유니버설 함수다.
x = rng.standard_normal(8)
y = rng.standard_normal(8)
x

array([-1.3677927 ,  0.6488928 ,  0.36105811, -1.95286306,  2.34740965,
        0.96849691, -0.75938718,  0.90219827])

In [147]:
y

array([-0.46695317, -0.06068952,  0.78884434, -1.25666813,  0.57585751,
        1.39897899,  1.32229806, -0.29969852])

In [148]:
np.maximum(x, y)

array([-0.46695317,  0.6488928 ,  0.78884434, -1.25666813,  2.34740965,
        1.39897899,  1.32229806,  0.90219827])

In [149]:
# 위 예제에서 mumpy.maximum은 x와 y의 원소별로 가장 큰 값을 계산한다.
# 여러 개의 배열을 반환하는 유니버설 함수도 있다.
# numpy.modf는 파이썬 내장 함수인 math.modf의 벡터화 버전이며 분수를 받아서 몫과 나머지를 함께 반환한다.
arr = rng.standard_normal(7) * 5
arr

array([ 4.51459671, -8.10791367, -0.7909463 ,  2.24741966, -6.71800536,
       -0.40843795,  8.62369966])

In [150]:
remainder, whole_part = np.modf(arr)
remainder

array([ 0.51459671, -0.10791367, -0.7909463 ,  0.24741966, -0.71800536,
       -0.40843795,  0.62369966])

In [151]:
whole_part

array([ 4., -8., -0.,  2., -6., -0.,  8.])

In [152]:
# 유니버설 함수는 선택적으로 out 인수를 사용해 계산 결과를 새로운 배열로 만들지 않고 기존 배열에 할다할 수도 있다.
arr

array([ 4.51459671, -8.10791367, -0.7909463 ,  2.24741966, -6.71800536,
       -0.40843795,  8.62369966])

In [154]:
out = np.zeros_like(arr)
np.add(arr, 1)

array([ 5.51459671, -7.10791367,  0.2090537 ,  3.24741966, -5.71800536,
        0.59156205,  9.62369966])

In [155]:
np.add(arr, 1, out=out)

array([ 5.51459671, -7.10791367,  0.2090537 ,  3.24741966, -5.71800536,
        0.59156205,  9.62369966])

In [156]:
out

array([ 5.51459671, -7.10791367,  0.2090537 ,  3.24741966, -5.71800536,
        0.59156205,  9.62369966])