### * Numpy : 산술계산을 위한 가장 중요한 필수 패키지 중 하나(Numpy 자체는 모델링이나 과학 계산의 기능을 제공하지 않음)

## 1) ndarray
: N차원의 배열 객체

In [1]:
import numpy as np

In [2]:
# 임의의 값 생성
data = np.random.randn(2, 3)

In [3]:
data

array([[ 0.55811294, -0.44283436,  0.67280495],
       [-0.49424915, -0.49372848,  1.06778736]])

In [5]:
data * 10

array([[ 5.58112945, -4.42834359,  6.72804953],
       [-4.94249148, -4.93728475, 10.67787361]])

In [7]:
data + data

array([[ 1.11622589, -0.88566872,  1.34560991],
       [-0.9884983 , -0.98745695,  2.13557472]])

- ndarray는 같은 종류의 데이터를 담을 수 있는 포괄적인 다차원 배열(모든 원소는 같은 자료형이어야 함)

In [9]:
data.shape # 차원의 크기

(2, 3)

In [10]:
data.dtype #배열에 저장된 자료형을 알려줌

dtype('float64')

In [11]:
data1 = [6, 7.5, 8, 0, 1]

In [12]:
arr1 = np.array(data1) # ndarray 생성

In [13]:
arr1

array([6. , 7.5, 8. , 0. , 1. ])

In [14]:
data2 = [[1,2,3,4],[5,6,7,8]] # 같은 길이를 가지는 리스트를 내포하고 있는 순차 데이터 -> 다차원 배열로 변환

In [15]:
arr2 = np.array(data2)

In [16]:
arr2

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

In [17]:
arr2.ndim

2

In [19]:
arr2.shape

(2, 4)

In [20]:
arr1.dtype

dtype('float64')

In [21]:
arr2.dtype

dtype('int32')

In [23]:
np.zeros(10)

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [24]:
np.zeros((3,6))

array([[0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.]])

In [32]:
np.zeros((4,3,2))

array([[[0., 0.],
        [0., 0.],
        [0., 0.]],

       [[0., 0.],
        [0., 0.],
        [0., 0.]],

       [[0., 0.],
        [0., 0.],
        [0., 0.]],

       [[0., 0.],
        [0., 0.],
        [0., 0.]]])

In [33]:
np.ones((3,4))

array([[1., 1., 1., 1.],
       [1., 1., 1., 1.],
       [1., 1., 1., 1.]])

In [29]:
np.empty((2,3)) # 0으로 초기화된 배열 반환x -> 초기화되지 않은 'garbage'값으로 채워진 배열 반환

array([[1.11622589, 0.88566872, 1.34560991],
       [0.9884983 , 0.98745695, 2.13557472]])

In [30]:
np.arange(15) # range함수의 배열버전

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

- dtype : ndarray가 메모리에 있는 특정 데이터를 해석하기 위해 필요한 정보(메타데이터)를 담고 있는 특수한 객체

In [34]:
arr1 = np.array([1,2,3], dtype=np.float64)

In [35]:
arr1.dtype

dtype('float64')

In [36]:
arr = np.array([1,2,3,4,5])

In [37]:
arr.dtype

dtype('int32')

In [39]:
float_arr = arr.astype(np.float64) # 배열의 dtype을 다른 형으로 명시적으로 변환(캐스팅)

In [40]:
float_arr.dtype

dtype('float64')

- 백터화 : 배열은 for문을 작성하지 않고 데이터를 일괄 처리할 수 있음(같은 크기의 배결 간의 산술 연산은 배열의 각 원소 단위로 적용됨)

In [42]:
arr = np.array([[1., 2., 3.], [4., 5., 6.]])

In [43]:
arr

array([[1., 2., 3.],
       [4., 5., 6.]])

In [44]:
arr * arr

array([[ 1.,  4.,  9.],
       [16., 25., 36.]])

In [45]:
arr - arr

array([[0., 0., 0.],
       [0., 0., 0.]])

In [46]:
1 / arr

array([[1.        , 0.5       , 0.33333333],
       [0.25      , 0.2       , 0.16666667]])

In [47]:
arr ** 0.5

array([[1.        , 1.41421356, 1.73205081],
       [2.        , 2.23606798, 2.44948974]])

In [48]:
arr2 = np.array([[0.,4.,1.],[7.,2.,12.]])

In [49]:
arr2

array([[ 0.,  4.,  1.],
       [ 7.,  2., 12.]])

In [50]:
arr2>arr

array([[False,  True, False],
       [ True, False,  True]])

- 색인과 슬라이싱

In [51]:
arr = np.arange(10)

In [52]:
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [53]:
arr[5]

5

In [54]:
arr[5:8]

array([5, 6, 7])

In [57]:
arr[5:8] = 12

In [58]:
arr

array([ 0,  1,  2,  3,  4, 12, 12, 12,  8,  9])

- 리스트와의 차이점 : 배열 조각에 대한 변경은 그대로 원본 배열에 반영됨(즉, 배열 조각은 원본 배열의 뷰이다)

In [62]:
arr_slice = arr[5:8]

In [63]:
arr_slice

array([12, 12, 12])

In [64]:
arr_slice[1] = 12345

In [65]:
arr

array([    0,     1,     2,     3,     4,    12, 12345,    12,     8,
           9])

In [66]:
arr_slice[:] = 64 # 배열의 모든 값 할당

In [67]:
arr

array([ 0,  1,  2,  3,  4, 64, 64, 64,  8,  9])

- 뷰 대신 ndarray 슬라이스의 복사본을 얻고 싶다면 -> arr[5:8].copy()를 사용하여 명시적으로 배열 복사

In [68]:
arr2d = np.array([[1,2,3],[4,5,6],[7,8,9]])

In [69]:
arr2d[2]

array([7, 8, 9])

In [70]:
arr2d[0][2]

3

In [71]:
arr2d[0,2]

3

- 슬라이싱

In [72]:
arr[1:6]

array([ 1,  2,  3,  4, 64])

In [74]:
arr2d

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [75]:
arr2d[:2]

array([[1, 2, 3],
       [4, 5, 6]])

In [78]:
arr2d[:2, 1:]

array([[2, 3],
       [5, 6]])

- 정수 색인과 슬라이스를 함께 사용하면 한 차원 낮은 슬라이스를 얻을 수 있음

In [93]:
arr2d[1, :2]

array([4, 5])

In [100]:
arr2d[:2, 2]

array([3, 6])

In [102]:
arr2d[:, :1] # 그냥 콜론만 쓰면 전체 축을 선택

array([[1],
       [4],
       [7]])

In [104]:
arr2d[2:,:]

array([[7, 8, 9]])

- boolean 값으로 선택하기

In [105]:
names = np.array(['Bob', 'Joe', 'Will','Bob','Will','Joe','Joe'])

In [106]:
data = np.random.randn(7,4) # 임의의 표준 정규 분포

In [107]:
names == 'Bob'

array([ True, False, False,  True, False, False, False])

In [108]:
data[names == 'Bob']

array([[-1.14432833, -0.2134299 , -0.533711  ,  1.02052142],
       [-1.03352487, -1.34064647, -1.15224156, -0.3391664 ]])

In [109]:
names != 'Bob'

array([False,  True,  True, False,  True,  True,  True])

In [113]:
data[~(names == 'Bob')] # ~를 사용해서 조건절 부인

array([[ 0.79775495,  1.05919447,  0.93480625,  1.29658458],
       [ 0.91546813, -0.1796439 ,  1.70782392,  0.37301669],
       [-1.13942684, -1.87028179,  0.20937481,  0.39986994],
       [ 0.46725683,  1.24876271, -0.89805784, -1.21289017],
       [ 0.66843265, -0.4783416 ,  1.53277924,  0.89938499]])