# 4장 NumPy 기본
# 4-1 ndarray: 다차원 배열객체

In [1]:
import numpy as np

>## 1. ndarray 생성

In [3]:
data = np.random.randn(2,3)
data

array([[-0.65423935,  2.58756541,  0.00408467],
       [ 1.05907019,  0.13115192,  0.1816802 ]])

numpy.random.randn(2,3)는

기댓값이 0이고 표준편차가 1인 가우시안 표준 정규 분포를 따르는 난수를 생성하고 (randn)

2*3 행렬에 표시함
___

In [8]:
data * 10

array([[ -6.54239351,  25.87565407,   0.04084666],
       [ 10.59070191,   1.31151923,   1.81680198]])

In [7]:
data * data

array([[  4.28029128e-01,   6.69549473e+00,   1.66844951e-05],
       [  1.12162967e+00,   1.72008269e-02,   3.30076945e-02]])

In [11]:
data.shape

(2, 3)

벡터의 차원 크기는 벡터.shape로 확인 가능
___

In [13]:
data.dtype

dtype('float64')

In [16]:
data1 = [6, 7.5, 8, 0, 1]
arr1 = np.array(data1)
arr1

array([ 6. ,  7.5,  8. ,  0. ,  1. ])

np.array 함수로 벡터를 np 배열로 변경

In [17]:
data2 = [[1, 2, 3, 4], [5, 6, 7, 8]]
arr2 = np.array(data2)
arr2

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

In [19]:
arr2.ndim

2

In [20]:
arr2.shape

(2, 4)

*같은 길이의 리스트*가 담겨 있는 데이터는 다차원 배열로 변환이 가능함
___

In [21]:
np.zeros(10)

array([ 0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.])

In [23]:
np.zeros((2,5))

array([[ 0.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.,  0.]])

In [24]:
np.empty((2,3,2))

array([[[  1.21289921e-311,   3.16202013e-322],
        [  0.00000000e+000,   0.00000000e+000],
        [  0.00000000e+000,   2.69734621e+184]],

       [[  4.28339841e-037,   1.69380143e-052],
        [  8.69223243e-043,   1.45184376e+165],
        [  2.25621003e+180,   2.63060478e-052]]])

In [25]:
np.arange(15)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

In [26]:
np.arange(15).dtype

dtype('int32')

np 함수 사용 예시
___

> ## 2. ndarray 자료형

In [30]:
arr1 = np.array([1,2,3], dtype = np.float64)
arr2 = np.array([1,2,3], dtype = np.int32)

In [31]:
arr1.dtype

dtype('float64')

In [32]:
arr2.dtype

dtype('int32')

dtype 옵션으로 데이터 타입을 설정
___

In [39]:
arr = np.arange(1,6)
arr.dtype

dtype('int32')

In [42]:
float_arr = arr.astype(np.float)
float_arr.dtype

dtype('float64')

벡터.astype 명령어로 데이터 형식 변경 가능

In [43]:
arr = np.array([3.7, -1.2, -2.6, 0.5, 12.9, 10.1])
arr

array([  3.7,  -1.2,  -2.6,   0.5,  12.9,  10.1])

In [44]:
arr.astype(np.int)

array([ 3, -1, -2,  0, 12, 10])

소수점을 정수로 변환시 소수점 이하 버림

In [48]:
numeric_strings = np.array(['1.25', '-9.6', '42'], dtype = np.string_)
numeric_strings

array([b'1.25', b'-9.6', b'42'],
      dtype='|S4')

In [49]:
numeric_strings.astype(float)

array([  1.25,  -9.6 ,  42.  ])

In [51]:
numeric_strings.astype(float).dtype

dtype('float64')

숫자형 문자열은 숫자로 변환 가능
___

> ## 3. 색인과 슬라이싱

In [59]:
arr = np.arange(10)
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [60]:
arr[5]

5

In [61]:
arr[5:8]

array([5, 6, 7])

In [62]:
arr[5:8] = 12
arr

array([ 0,  1,  2,  3,  4, 12, 12, 12,  8,  9])

In [63]:
arr_slice = arr[5:8]
arr_slice

array([12, 12, 12])

In [66]:
arr_slice[1] = 12345
arr

array([    0,     1,     2,     3,     4,    12, 12345,    12,     8,     9])

arr_slice[1] => arr[5:8][1] => arr[6]  

numpy 목적 상 대용량 데이터 처리를 염두에 두고 설계되었기 때문에,  
데이터 복사 남발을 지양함  

% 복사가 필요하다면 arr[5:8].copy() 명령어 사용
___

In [70]:
arr2d = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
arr2d

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [73]:
arr2d[2]

array([7, 8, 9])

In [75]:
arr2d[2,0]

7

In [126]:
arr2d[2][0]

7

위의 두 표현은 같음
___

In [77]:
arr3d = np.array([[[1, 2, 3], [4, 5, 6]], [[7, 8, 9], [10, 11, 12]]])
arr3d

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [78]:
arr3d[0]

array([[1, 2, 3],
       [4, 5, 6]])

In [79]:
old_values = arr3d[0].copy()

In [81]:
arr3d[0] = 42
arr3d

array([[[42, 42, 42],
        [42, 42, 42]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [82]:
arr3d[0] = old_values
arr3d

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

___
**슬라이스 색인**
___

In [84]:
arr[1:6]

array([ 1,  2,  3,  4, 12])

In [85]:
arr2d

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [86]:
arr2d[:2]

array([[1, 2, 3],
       [4, 5, 6]])

In [87]:
arr2d[:2, 1:]

array([[2, 3],
       [5, 6]])

In [89]:
arr2d[1, 1:]

array([5, 6])

___

> ### 4. 불리언 색인

In [93]:
names = np.array(['Bob', "Joe", 'Will', 'Bob', 'Will', 'Joe', 'Joe'])
data = np.random.randn(7, 4)

In [98]:
data

array([[-1.79986868, -0.91008412,  1.11093731, -0.09524399],
       [ 0.32719659,  0.04289409, -1.10288179, -0.12758164],
       [-1.96092244, -0.50544509, -0.56848622, -1.84821212],
       [ 0.22651542,  0.2800088 ,  0.67420079, -0.55722863],
       [-1.44074562, -0.21454174, -1.34963955, -0.17368061],
       [-0.78910903, -0.22066266, -0.59883598, -0.31880215],
       [-0.11434973, -0.74450557,  0.81922353,  0.32165683]])

In [94]:
names == 'Bob'

array([ True, False, False,  True, False, False, False], dtype=bool)

In [95]:
data[names=='Bob']

array([[-1.79986868, -0.91008412,  1.11093731, -0.09524399],
       [ 0.22651542,  0.2800088 ,  0.67420079, -0.55722863]])

In [97]:
data[names=='Bob', 2:]

array([[ 1.11093731, -0.09524399],
       [ 0.67420079, -0.55722863]])

In [99]:
data[names!= 'Bob']

array([[ 0.32719659,  0.04289409, -1.10288179, -0.12758164],
       [-1.96092244, -0.50544509, -0.56848622, -1.84821212],
       [-1.44074562, -0.21454174, -1.34963955, -0.17368061],
       [-0.78910903, -0.22066266, -0.59883598, -0.31880215],
       [-0.11434973, -0.74450557,  0.81922353,  0.32165683]])

In [103]:
data[~(names == 'Bob')]

array([[ 0.32719659,  0.04289409, -1.10288179, -0.12758164],
       [-1.96092244, -0.50544509, -0.56848622, -1.84821212],
       [-1.44074562, -0.21454174, -1.34963955, -0.17368061],
       [-0.78910903, -0.22066266, -0.59883598, -0.31880215],
       [-0.11434973, -0.74450557,  0.81922353,  0.32165683]])

!=를 사용하는 것과 ~(a==b)를 사용하는 것의 결과는 같음

In [104]:
mask = (names == 'Bob') | (names =='Will')
mask

array([ True, False,  True,  True,  True, False, False], dtype=bool)

In [105]:
data[mask]

array([[-1.79986868, -0.91008412,  1.11093731, -0.09524399],
       [-1.96092244, -0.50544509, -0.56848622, -1.84821212],
       [ 0.22651542,  0.2800088 ,  0.67420079, -0.55722863],
       [-1.44074562, -0.21454174, -1.34963955, -0.17368061]])

In [107]:
data[data<0] = 0
data

array([[ 0.        ,  0.        ,  1.11093731,  0.        ],
       [ 0.32719659,  0.04289409,  0.        ,  0.        ],
       [ 0.        ,  0.        ,  0.        ,  0.        ],
       [ 0.22651542,  0.2800088 ,  0.67420079,  0.        ],
       [ 0.        ,  0.        ,  0.        ,  0.        ],
       [ 0.        ,  0.        ,  0.        ,  0.        ],
       [ 0.        ,  0.        ,  0.81922353,  0.32165683]])

In [108]:
names != 'Joe'

array([ True, False,  True,  True,  True, False, False], dtype=bool)

In [110]:
data[names != 'Joe'] = 7
data

array([[ 7.        ,  7.        ,  7.        ,  7.        ],
       [ 0.32719659,  0.04289409,  0.        ,  0.        ],
       [ 7.        ,  7.        ,  7.        ,  7.        ],
       [ 7.        ,  7.        ,  7.        ,  7.        ],
       [ 7.        ,  7.        ,  7.        ,  7.        ],
       [ 0.        ,  0.        ,  0.        ,  0.        ],
       [ 0.        ,  0.        ,  0.81922353,  0.32165683]])

> ## 5. 팬시색인

In [111]:
arr = np.empty((8,4))

In [115]:
for i in range(8):
    arr[i] = i

In [116]:
arr

array([[ 0.,  0.,  0.,  0.],
       [ 1.,  1.,  1.,  1.],
       [ 2.,  2.,  2.,  2.],
       [ 3.,  3.,  3.,  3.],
       [ 4.,  4.,  4.,  4.],
       [ 5.,  5.,  5.,  5.],
       [ 6.,  6.,  6.,  6.],
       [ 7.,  7.,  7.,  7.]])

In [117]:
arr[[4,3,0,6]]

array([[ 4.,  4.,  4.,  4.],
       [ 3.,  3.,  3.,  3.],
       [ 0.,  0.,  0.,  0.],
       [ 6.,  6.,  6.,  6.]])

R로 치면 a[c(4,3,0,6)]과 동일한 기능

In [118]:
arr = np.arange(32).reshape(8,4)
arr

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15],
       [16, 17, 18, 19],
       [20, 21, 22, 23],
       [24, 25, 26, 27],
       [28, 29, 30, 31]])

In [119]:
arr[[1, 5, 7, 2], [0, 3, 1, 2]]

array([ 4, 23, 29, 10])

(1,0), (5,3), (7,1), (2,2) 값 반환

In [120]:
arr[[1, 5, 7, 2]][:,[0, 3, 1, 2]]

array([[ 4,  7,  5,  6],
       [20, 23, 21, 22],
       [28, 31, 29, 30],
       [ 8, 11,  9, 10]])

1, 5, 7, 2 번째 행의 값들을 0, 3, 1, 2 순서로 나열함

In [121]:
arr[np.ix_([1, 5, 7, 2],[0, 3, 1, 2])]

array([[ 4,  7,  5,  6],
       [20, 23, 21, 22],
       [28, 31, 29, 30],
       [ 8, 11,  9, 10]])

위와 동일한 명령어
___

> ## 6. 배열 전치와 축 바꾸기

In [123]:
arr = np. arange(15).reshape(3,5)
arr

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [124]:
arr.T

array([[ 0,  5, 10],
       [ 1,  6, 11],
       [ 2,  7, 12],
       [ 3,  8, 13],
       [ 4,  9, 14]])

In [125]:
np.dot(arr,arr.T)

array([[ 30,  80, 130],
       [ 80, 255, 430],
       [130, 430, 730]])

np.dot(1번 매트릭스, 2번 매트릭스) 로 항렬 곱셈 구함