In [21]:
# 필요 라이브러리 로딩
import numpy as np

In [22]:
# 임의의 값을 이용하여 Numpy 배열 생성
data = np.random.randn(2, 3)  # 정규분포, 2행3열
data

array([[-0.06219189, -0.38393059,  0.63788712],
       [ 0.27894909,  1.54252508,  0.45525243]])

In [23]:
# 배열 차원의 크기 (shape)
data.shape

(2, 3)

In [24]:
# 배열에 저장된 데이터의 형 (dtype)
data.dtype

dtype('float64')

### ndarray 생성

In [28]:
data1 = [[6, 7, 8, 0, 1]]
arr1 = np.array(data1)
arr1

array([[6, 7, 8, 0, 1]])

In [29]:
data2 = [[1, 2, 3, 4], [5, 6, 7, 8]]
arr2 = np.array(data2)
arr2

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

In [31]:
# 배열의 차원 확인
arr1.ndim

2

In [32]:
arr2.ndim

2

In [36]:
arr2.shape

(2, 4)

In [34]:
type(arr2)

numpy.ndarray

In [35]:
arr2.dtype

dtype('int32')

In [37]:
np.zeros(10)

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [39]:
# 차원은 튜플타입으로 받아야 한다.
np.zeros((3, 6))

array([[0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.]])

In [40]:
np.zeros((2, 3, 4))

array([[[0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.]],

       [[0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.]]])

In [41]:
# 파이썬의 range()
np.arange(15)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

In [43]:
# dtype
arr1 = np.array([1, 2, 3], dtype=np.float64) # dtype 메타데이터
arr2 = np.array([1, 2, 3], dtype=np.int32)

In [44]:
arr1.dtype

dtype('float64')

In [45]:
arr2.dtype

dtype('int32')

In [46]:
arr1

array([1., 2., 3.])

In [47]:
arr2

array([1, 2, 3])

In [48]:
# astype() : 자료형을 캐스팅 (변환)
arr = np.array([1, 2, 3, 4, 5])
arr.dtype

dtype('int32')

In [50]:
float_arr = arr.astype(np.float64)
float_arr.dtype

dtype('float64')

In [51]:
float_arr

array([1., 2., 3., 4., 5.])

In [52]:
arr = np.array([3.7, -1.2, -2.6, -0.5, 12.9, 10.1])
arr

array([ 3.7, -1.2, -2.6, -0.5, 12.9, 10.1])

In [53]:
arr.astype(np.int32)
# 부동소수점을 정수형으로 바꾸면
# 넘파이에선 소수점 아래가 버려짐.. 
# 다른곳에선 반올림(round) 함

array([ 3, -1, -2,  0, 12, 10])

In [55]:
numeric_strings = np.array(['1.25', '-9.6', '42'], dtype=np.string_)
numeric_strings  # b -> byte타입

array([b'1.25', b'-9.6', b'42'], dtype='|S4')

In [57]:
numeric_strings.astype(float)

array([ 1.25, -9.6 , 42.  ])

### Numpy 배열의 산술 연산

In [61]:
arr = np.array(([1., 2., 3.], [4., 5., 6.]))
arr

array([[1., 2., 3.],
       [4., 5., 6.]])

In [104]:
arr = np.array({{1., 2., 3.}, {4., 5., 6.}})
arr

TypeError: unhashable type: 'set'

In [62]:
arr*arr

array([[ 1.,  4.,  9.],
       [16., 25., 36.]])

In [63]:
arr-arr

array([[0., 0., 0.],
       [0., 0., 0.]])

In [64]:
1/arr 

array([[1.        , 0.5       , 0.33333333],
       [0.25      , 0.2       , 0.16666667]])

In [66]:
arr**0.5

array([[1.        , 1.41421356, 1.73205081],
       [2.        , 2.23606798, 2.44948974]])

In [67]:
arr2 = np.array([[0., 4., 1.], [7., 2., 12.]])
arr2

array([[ 0.,  4.,  1.],
       [ 7.,  2., 12.]])

In [69]:
arr2>arr # 각 요소별 크기 비교하여 참,거짓으로 표시 / 같은 크기

array([[False,  True, False],
       [ True, False,  True]])

In [None]:
# 다른 크기의 배열간 비교 - broadcasting

# 인덱싱과 슬라이싱

In [71]:
arr = np.arange(10)
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [72]:
arr[5]

5

In [73]:
# [start:end]  # 배열의 view 객체를 만들어내는....
arr[5:8]       # view객체를 바꾸면 원래 배열도 바뀜

array([5, 6, 7])

In [74]:
arr[5:8] = 12
arr

array([ 0,  1,  2,  3,  4, 12, 12, 12,  8,  9])

In [75]:
arr_slice = arr[5:8] # 복사가 아니라, 이름만 다르게 보여주기만 함
arr_slice

array([12, 12, 12])

In [76]:
arr_slice[1] = 12345  # 리스트와 다름,, # 원본이 변함
arr

array([    0,     1,     2,     3,     4,    12, 12345,    12,     8,
           9])

In [77]:
# [:] 전체요소
arr_slice[:] = 64
arr

array([ 0,  1,  2,  3,  4, 64, 64, 64,  8,  9])

In [None]:
# view를 하지않고 복사를 하려면 copy를 써야 함.

#대용량 데이터를 처리하기위함. 복사를 남발하지 않음..
#배열은 view를 만들어 씀. 굳이 복사를 하려면 copy사용

In [78]:
# 다차원 배열의 색인
arr2d = np.array([[1, 2, 3], [4, 5, 6],[7, 8, 9]])
arr2d

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [79]:
arr2d[2] # 1차원 배열을 가져옴

array([7, 8, 9])

In [81]:
arr2d[0][2] # 0번째 행, 2번째 열

3

In [82]:
# [행, 열] or [start:end, start:end]
arr2d[0, 2]

3

In [84]:
arr2d[1:, 1:]

array([[5, 6],
       [8, 9]])

In [85]:
arr3d = np.array([[[1, 2, 3], [4, 5, 6]],[[7, 8, 9], [10, 11, 12]]])
arr3d

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [86]:
arr3d[0]

array([[1, 2, 3],
       [4, 5, 6]])

In [87]:
old_value = arr3d[0].copy() # 원본 유지, 사고방지용
arr3d[0] = 42
arr3d

array([[[42, 42, 42],
        [42, 42, 42]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [89]:
arr3d[0] = old_value
arr3d

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [90]:
arr3d[1, 0]

array([7, 8, 9])

In [91]:
x = arr3d[1]
x

array([[ 7,  8,  9],
       [10, 11, 12]])

In [92]:
x[0]

array([7, 8, 9])

In [93]:
arr

array([ 0,  1,  2,  3,  4, 64, 64, 64,  8,  9])

In [94]:
arr[1:6]

array([ 1,  2,  3,  4, 64])

In [95]:
arr2d

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [96]:
arr2d[:2]

array([[1, 2, 3],
       [4, 5, 6]])

In [98]:
arr2d[:2, 1:]

array([[2, 3],
       [5, 6]])

In [99]:
arr2d[1, :2]

array([4, 5])

In [100]:
arr2d[:2, 2]

array([3, 6])

In [101]:
arr2d[:, :]

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [102]:
arr2d[:2, 1:] = 0
arr2d

array([[1, 0, 0],
       [4, 0, 0],
       [7, 8, 9]])

In [107]:
b = np.eye(4, 4, k=-1, dtype=int)
b

array([[0, 0, 0, 0],
       [1, 0, 0, 0],
       [0, 1, 0, 0],
       [0, 0, 1, 0]])

### 블리언 배열을 이용하기 (Boolean)

In [109]:
names = np.array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'])
data = np.random.randn(7, 4)

In [110]:
names # 7개 -> data의 각 행에 대응..

array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'], dtype='<U4')

In [111]:
data

array([[-1.06875953, -0.58201023,  0.86165685,  0.78701584],
       [ 0.27581563,  0.20729564, -0.12352487, -1.69323761],
       [ 0.5962498 ,  0.27669968,  0.38955307,  0.34620754],
       [ 0.40564893,  0.39982427,  1.48376737,  1.11168606],
       [-0.88095252, -0.6579418 ,  1.41616769, -0.28743215],
       [-0.11909959, -0.14221544, -0.88727313, -0.63159624],
       [-0.1391539 , -0.06281469,  2.45210058, -0.29020295]])

In [112]:
names == 'Bob'  # 블리언 배열이 나옴

array([ True, False, False,  True, False, False, False])

In [113]:
# Bob 이라고 써있는 곳을 data에서 추출 (특정 위치의 값 추출)
# [조건식], [범위], [행, 열], [행시작:행마지막, 열시작:열마지막]
data[names == 'Bob'] # Bob-> 0,3번째 인덱스-> Data의 0,3번째 값 추출
                     #블리언 배열을 통해 원하는 값 가져옴

array([[-1.06875953, -0.58201023,  0.86165685,  0.78701584],
       [ 0.40564893,  0.39982427,  1.48376737,  1.11168606]])

In [115]:
data[names == 'Bob', 2:] # Bob행, (2~)열

array([[0.86165685, 0.78701584],
       [1.48376737, 1.11168606]])

In [116]:
data[names == 'Bob', 3]

array([0.78701584, 1.11168606])

In [117]:
# != or ~ (비트부정, 필드기호  /  ~ : not)
# 'Bob'이 아닌 요소를 선택하는 작업
names != 'Bob'

array([False,  True,  True, False,  True,  True,  True])

In [119]:
data[~(names == 'Bob')]  # Bob이 아닌 부분만 추출

array([[ 0.27581563,  0.20729564, -0.12352487, -1.69323761],
       [ 0.5962498 ,  0.27669968,  0.38955307,  0.34620754],
       [-0.88095252, -0.6579418 ,  1.41616769, -0.28743215],
       [-0.11909959, -0.14221544, -0.88727313, -0.63159624],
       [-0.1391539 , -0.06281469,  2.45210058, -0.29020295]])

In [120]:
# 논리연산자 : &(and), |(or)
mask = (names == 'Bob') | (names == 'Will')
mask

array([ True, False,  True,  True,  True, False, False])

In [121]:
data[mask]

array([[-1.06875953, -0.58201023,  0.86165685,  0.78701584],
       [ 0.5962498 ,  0.27669968,  0.38955307,  0.34620754],
       [ 0.40564893,  0.39982427,  1.48376737,  1.11168606],
       [-0.88095252, -0.6579418 ,  1.41616769, -0.28743215]])

In [122]:
data

array([[-1.06875953, -0.58201023,  0.86165685,  0.78701584],
       [ 0.27581563,  0.20729564, -0.12352487, -1.69323761],
       [ 0.5962498 ,  0.27669968,  0.38955307,  0.34620754],
       [ 0.40564893,  0.39982427,  1.48376737,  1.11168606],
       [-0.88095252, -0.6579418 ,  1.41616769, -0.28743215],
       [-0.11909959, -0.14221544, -0.88727313, -0.63159624],
       [-0.1391539 , -0.06281469,  2.45210058, -0.29020295]])

In [129]:
# data의 요소 중에 음수인 것을 모두 0으로 변환
data[data < 0] = 0
data

array([[0.        , 0.        , 0.86165685, 0.78701584],
       [0.27581563, 0.20729564, 0.        , 0.        ],
       [0.5962498 , 0.27669968, 0.38955307, 0.34620754],
       [0.40564893, 0.39982427, 1.48376737, 1.11168606],
       [0.        , 0.        , 1.41616769, 0.        ],
       [0.        , 0.        , 0.        , 0.        ],
       [0.        , 0.        , 2.45210058, 0.        ]])

In [130]:
data[names != 'Joe'] = 7
data

array([[7.        , 7.        , 7.        , 7.        ],
       [0.27581563, 0.20729564, 0.        , 0.        ],
       [7.        , 7.        , 7.        , 7.        ],
       [7.        , 7.        , 7.        , 7.        ],
       [7.        , 7.        , 7.        , 7.        ],
       [0.        , 0.        , 0.        , 0.        ],
       [0.        , 0.        , 2.45210058, 0.        ]])

### 팬시 색인 : 정수 배열을 사용한 색인 (Fancy Indexing)

In [132]:
arr = np.empty((8, 4))

for i in range(8):
    arr[i] = i

arr

array([[0., 0., 0., 0.],
       [1., 1., 1., 1.],
       [2., 2., 2., 2.],
       [3., 3., 3., 3.],
       [4., 4., 4., 4.],
       [5., 5., 5., 5.],
       [6., 6., 6., 6.],
       [7., 7., 7., 7.]])

In [133]:
arr[4]

array([4., 4., 4., 4.])

In [134]:
arr[[4, 3, 0 , 6]]

array([[4., 4., 4., 4.],
       [3., 3., 3., 3.],
       [0., 0., 0., 0.],
       [6., 6., 6., 6.]])

In [135]:
arr[[-3, -5, -7]]

array([[5., 5., 5., 5.],
       [3., 3., 3., 3.],
       [1., 1., 1., 1.]])

In [137]:
arr = np.arange(32).reshape((8, 4))
arr

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15],
       [16, 17, 18, 19],
       [20, 21, 22, 23],
       [24, 25, 26, 27],
       [28, 29, 30, 31]])

In [138]:
arr[[1, 5, 7, 2], [0, 3, 1, 2]]  # -> (1,0), (5,3), (7,1), (2,2)

array([ 4, 23, 29, 10])

In [140]:
# [행, 열]  -> [행][열]
arr[[1, 5, 7, 2]][:,[0, 3, 1, 2]]

array([[ 4,  7,  5,  6],
       [20, 23, 21, 22],
       [28, 31, 29, 30],
       [ 8, 11,  9, 10]])

In [141]:
# 전치행렬(행과 열의 크기를 바꾸는 행렬)
arr = np.arange(15).reshape(3, 5)
arr

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [142]:
arr.T

array([[ 0,  5, 10],
       [ 1,  6, 11],
       [ 2,  7, 12],
       [ 3,  8, 13],
       [ 4,  9, 14]])

In [143]:
A = np.array([[1, 2], [3, 4]])
B = np.array([[5, 6], [7, 8]])

In [144]:
A

array([[1, 2],
       [3, 4]])

In [145]:
B

array([[5, 6],
       [7, 8]])

In [146]:
A+B

array([[ 6,  8],
       [10, 12]])

In [147]:
A*B

array([[ 5, 12],
       [21, 32]])

In [148]:
# 행렬의 곱
np.dot(A, B)  # 1*5+2*7 // 1*6+2*8 // 3*5+4*7 // 3*6+4*8

array([[19, 22],
       [43, 50]])

In [8]:
def pprint(arr):
    print("type : {}".format(type(arr)))
    print("shape : {}, dimension : {}, dtype : {}".format(arr.shape, arr.ndim, arr.dtype))
    print("Array’s Data :\n", arr)
    
# shape, ndim(dimension,차원), dtype(객체의 자료형)

arr = [1, 2, 3]
a = np.array(arr)
pprint(a)

type : <class 'numpy.ndarray'>
shape : (3,), dimension : 1, dtype : int32
Array’s Data :
 [1 2 3]


In [9]:
arr = [[1, 2, 3], [4, 5, 6]]
a = np.array(arr, dtype = float)
pprint(a)
# float형식이라서 숫자뒤에 점이 붙음

type : <class 'numpy.ndarray'>
shape : (2, 3), dimension : 2, dtype : float64
Array’s Data :
 [[1. 2. 3.]
 [4. 5. 6.]]


In [10]:
arr = [[[1, 2, 3], [4, 5, 6]], [[3, 2, 1], [4, 5, 6]]]
a = np.array(arr, dtype = float)
pprint(a)

type : <class 'numpy.ndarray'>
shape : (2, 2, 3), dimension : 3, dtype : float64
Array’s Data :
 [[[1. 2. 3.]
  [4. 5. 6.]]

 [[3. 2. 1.]
  [4. 5. 6.]]]


# numpy 배열 생성 및 초기화  
• zeros : 0으로 초기화된 배열  
• ones : 1로 초기화된 배열  
• linespace : 선형 구간에서 지정 구간의 수만큼 분할  
• logspace : 로그 구간에서 지정 구간의 수만큼 분할  
• empty : 배열을 메모리에 생성만하고 특정한 값을 초기화하지 않는 배열(초기화 시간 단축)

In [11]:
# np.zeros(shape, dtype=자료형)
# 지정된 shape의 배열을 생성하고, 모든 요소를 0으로 초기화
# 튜플로 담음
a = np.zeros((3, 4))
pprint(a)

type : <class 'numpy.ndarray'>
shape : (3, 4), dimension : 2, dtype : float64
Array’s Data :
 [[0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]]


In [12]:
# np.ones(shape, dtype=자료형)
# 지정된 shape의 배열을 생성하고, 모든 요소를 1로 초기화
a = np.ones((2, 3, 4), dtype = np.int16) # 3행 4열-> 2개 만듬 (2,3,4)
pprint(a)

type : <class 'numpy.ndarray'>
shape : (2, 3, 4), dimension : 3, dtype : int16
Array’s Data :
 [[[1 1 1 1]
  [1 1 1 1]
  [1 1 1 1]]

 [[1 1 1 1]
  [1 1 1 1]
  [1 1 1 1]]]


In [15]:
# np.eye(N, M, K, dtype = 자료형)
# NxM 크기의 K값 만큼 이격된 단위 행렬을 반환
# K의 값이 양수일 경우, 우상 방향, K의 값이 음수일 경우, 좌하 방향
# np.identity(N, dtype=자료형)을 사용하여 NxN 크기의 단위 행렬을 반환
a = np.identity(4, dtype = int) # 단위행렬
b = np.eye(4, 4, k=1, dtype=int) # 4x4, +1
print(a)
print(b) 

[[1 0 0 0]
 [0 1 0 0]
 [0 0 1 0]
 [0 0 0 1]]
[[0 1 0 0]
 [0 0 1 0]
 [0 0 0 1]
 [0 0 0 0]]


In [17]:
# np.empty(shape, dtype=자료형)
# 지정된 shape 배열 생성, 요소의 초기화 과정 없고, 기존 메모리 값 그대로 사용
# 배열 생성비용이 가장 저렴하고 빠름
a = np.empty((4, 2))
pprint(a)

type : <class 'numpy.ndarray'>
shape : (4, 2), dimension : 2, dtype : float64
Array’s Data :
 [[4.94065646e-324 0.00000000e+000]
 [2.12199579e-314 0.00000000e+000]
 [0.00000000e+000 4.94065646e-324]
 [0.00000000e+000 2.12199579e-314]]


# 난수 기반 배열 생성 - numpy.random모듈  
• np.random.normal  
• normal(loc=0.0, scale=1.0, size=None)  
• 정규 분포 확률 밀도에서 표본 추출  
• loc : 정규 분포의 평균  
• scale : 표준편차

In [18]:
mean = 0  # 평균
std = 1  # 표준편차
a = np.random.normal(mean, std, (2, 3))
pprint(a)

type : <class 'numpy.ndarray'>
shape : (2, 3), dimension : 2, dtype : float64
Array’s Data :
 [[-1.90235993  0.93984454 -1.00474015]
 [-2.13929308  0.76238157 -0.18327749]]


# 유니버셜 함수 : 배열의 각 원소를 빠르게 처리하는 함수
- ufunc 라고 불리기도 함

In [149]:
arr = np.arange(10)
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [150]:
np.sqrt(arr)

array([0.        , 1.        , 1.41421356, 1.73205081, 2.        ,
       2.23606798, 2.44948974, 2.64575131, 2.82842712, 3.        ])

In [151]:
x = np.random.randn(8)
y = np.random.randn(8)

In [152]:
x

array([ 1.38081122,  0.27764493, -1.8277042 ,  0.11821905, -0.09566683,
        0.4596838 , -0.89639265,  0.0445804 ])

In [153]:
y

array([-0.59542586, -1.68570055, -0.5684688 ,  1.06712548,  0.06705675,
        0.47953196,  0.17577678,  0.9855393 ])

In [154]:
np.maximum(x, y)

array([ 1.38081122,  0.27764493, -0.5684688 ,  1.06712548,  0.06705675,
        0.47953196,  0.17577678,  0.9855393 ])

### 정렬

In [155]:
arr = np.random.randn(6)
arr

array([ 0.0596147 ,  0.83901912,  1.56581702, -0.23185264, -0.57935563,
       -2.24577471])

In [156]:
arr.sort()
arr

array([-2.24577471, -0.57935563, -0.23185264,  0.0596147 ,  0.83901912,
        1.56581702])

In [158]:
# np.unique()
names = np.array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'])
names

array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'], dtype='<U4')

In [159]:
np.unique(names)  # 중복 제거

array(['Bob', 'Joe', 'Will'], dtype='<U4')

In [160]:
ints = np.array([3, 3, 3, 4, 4, 1, 1, 2, 2])
np.unique(ints)

array([1, 2, 3, 4])

In [164]:
sorted(set(names))

['Bob', 'Joe', 'Will']

In [162]:
sorted(set(ints))

[1, 2, 3, 4]