In [2]:
# Numpy

# 모든 요소(items)가 같은 자료형(type)이어야 함
# 요소의 개수를 바꿀 수 없음음

In [3]:
import numpy as np
# anaconda에 기본적으로 포함되어 설치된 라이브러리

In [4]:
# np.array() -> return ndarray
# ndarray class로부터 객체를 생성한다.

ar = np.array([_ for _ in range(10)])
ar

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [5]:
# (10,) -> 1차원의 10칸 갖는 ndarray

ar.shape

(10,)

In [6]:
# np.array로 생성한 객체는 numpy.ndarray 타입을 갖는다.

type(ar)

numpy.ndarray

In [7]:
# 표현범위가 더 큰 자료형으로 변환

ar2 = np.array([0.1, 5, 4, 12, 0.5])
ar2

array([ 0.1,  5. ,  4. , 12. ,  0.5])

In [8]:
# 넘파이 배열의 자료형을 확인하려면 키워드 인자로 dtype 사용

x = np.array([1, 2, 3])
x.dtype

dtype('int32')

In [9]:
# float로 dtype을 지정

x = np.array([1, 2, 3], dtype = 'f')
x.dtype    
# 32비트의 float형으로 생성됨

dtype('float32')

In [10]:
# ndarray도 인덱싱을 할 수 있음
# 덧셈 연산(+)의 결과는 숫자로 계산됨

x[0]+x[1]

3.0

In [11]:
# 유니코드 문자열을 타입으로 지정

x = np.array([1, 2, 3], dtype = 'U')  
x.dtype
# 1글자 이하의 글자들로 구성된 유니코드

dtype('<U1')

In [12]:
# 유니코드 간 덧셈 연산(+)은 concatenate의 결과

x[0]+x[1]

'12'

In [13]:
# 무한대를 표현하기 위한 np.inf(infinity)
# 정의할 수 없는 숫자를 나타내는 np.nan(not a number)

np.array([0, 1, -1, 0]) / np.array([1, 0, 0, 0])

  np.array([0, 1, -1, 0]) / np.array([1, 0, 0, 0])
  np.array([0, 1, -1, 0]) / np.array([1, 0, 0, 0])


array([  0.,  inf, -inf,  nan])

In [14]:
# 벡터화 연산

data = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
x = np.array(data)
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [15]:
# for 반복문 없이 간단하게 표현 가능

x*2

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

In [16]:
a = np.array([1, 2, 3])
b = np.array([10, 20, 30])

In [17]:
2*a + b

array([12, 24, 36])

In [18]:
a == 2

array([False,  True, False])

In [19]:
b > 10

array([False,  True,  True])

In [20]:
(a == 2) & (b>10)    # 벡터화 연산이므로 and 기호 사용 불가능

array([False,  True, False])

In [22]:
# 2차원 배열
# 리스트를 중첩하여 생성 가능
# 안쪽 리스트의 길이는 행렬의 열의 수, 즉 가로 크기가 됨
# 바깥쪽 리스트의 길이는 행렬의 행의 수, 즉 세로 크기가 됨

c = np.array([[0, 1, 2], [3, 4, 5]])    # 2 X 3 array
c

array([[0, 1, 2],
       [3, 4, 5]])

In [23]:
# 행의 갯수
len(c)

2

In [24]:
# 열의 개수
len(c[0])

3

In [26]:
n = np.array([[10, 20, 30, 40], [50, 60, 70, 80]])
n

array([[10, 20, 30, 40],
       [50, 60, 70, 80]])

In [31]:
# 3차원 배열
# 2 X 3 X 4

d = np.array([[[1, 2, 3, 4], 
              [5, 6, 7, 8],
             [9, 10, 11, 12]],
            [[11, 12, 13, 14],
             [15, 16, 17, 18],
             [19, 20, 21, 22]]])    
d

array([[[ 1,  2,  3,  4],
        [ 5,  6,  7,  8],
        [ 9, 10, 11, 12]],

       [[11, 12, 13, 14],
        [15, 16, 17, 18],
        [19, 20, 21, 22]]])

In [32]:
len(d), len(d[0]), len(d[0][0])

(2, 3, 4)

In [33]:
d.shape

(2, 3, 4)

In [37]:
# ndim 속성은 배열의 차원, shape 속성은 배열의 크기를 반환

# a = np.array([1, 2, 3])
print(a.ndim)
print(a.shape)

1
(3,)


In [38]:
# c = np.array([[0, 1, 2], [3, 4, 5]])
print(c.ndim)
print(c.shape)

2
(2, 3)


In [39]:
print(d.ndim)
print(d.shape)

3
(2, 3, 4)


In [41]:
# 배열의 인덱싱

# 일차원 배열의 인덱싱은 리스트의 인덱싱과 같음
# 다차원 배열일 때는 콤마(comma ,)를 사용하여 접근
# 콤마로 구분된 차원 -> 축(axis)

In [42]:
test = [[1, 2, 3, 4], [5, 6, 7, 8]]    # list
test[1][1]

6

In [43]:
a = np.array([[0, 1, 2], [3, 4, 5]])
a

array([[0, 1, 2],
       [3, 4, 5]])

In [45]:
a[0, 0]    # 첫번째 행의 첫번째 열

0

In [46]:
a[0, 1]    # 첫번째 행의 두번째 열

1

In [47]:
a[-1, -1]    # 마지막 행의 마지막 열

5

In [53]:
# 배열의 슬라이싱 

a = np.array([[0, 1, 2, 3], [4, 5, 6, 7]])
a

array([[0, 1, 2, 3],
       [4, 5, 6, 7]])

In [59]:
test = [[1, 2, 3, 4], [5, 6, 7, 8]]    # list
test[0][:3]

[1, 2, 3]

In [54]:
a[0, :]    # 첫번째 행 전체

array([0, 1, 2, 3])

In [56]:
a[:, 1]    # 두번째 열 전체

array([1, 5])

In [57]:
a[1, 1:]    # 두번째 행의 두번째 열부터 끝열까지

array([5, 6, 7])

In [61]:
a[:2, :2]

array([[0, 1],
       [4, 5]])

In [79]:
# 연습문제

m = np.array([[0, 1, 2, 3, 4],
             [5, 6, 7, 8, 9],
             [10, 11, 12, 13, 14]])

In [80]:
m[1, 2]

7

In [81]:
m[2, 4]

14

In [82]:
m[1, 1:3]

array([6, 7])

In [83]:
m[1:, 2]

array([ 7, 12])

In [84]:
m[:2, 3:]

array([[3, 4],
       [8, 9]])

In [98]:
# 배열 생성

In [99]:
# 모든 값이 0인 배열 생성
a = np.zeros((5, 2), dtype = "i")
a

array([[0, 0],
       [0, 0],
       [0, 0],
       [0, 0],
       [0, 0]], dtype=int32)

In [100]:
d = np.zeros(5, dtype = "U4")
d

array(['', '', '', '', ''], dtype='<U4')

In [101]:
# 더 큰 크기의 문자열을 할당하면 잘릴 수 있음 
d[0] = "abc"
d[1] = "abcd"
d[2] = "ABCDE"
d

array(['abc', 'abcd', 'ABCD', '', ''], dtype='<U4')

In [102]:
# 0이 아닌 1로 초기화된 배열을 생성하려면 ones 명령 사용
e = np.ones((2, 3, 4), dtype = "i8")
e

array([[[1, 1, 1, 1],
        [1, 1, 1, 1],
        [1, 1, 1, 1]],

       [[1, 1, 1, 1],
        [1, 1, 1, 1],
        [1, 1, 1, 1]]], dtype=int64)

In [103]:
# shape를 튜플 값으로 명시하지 않고 다른 배열과 같은 shape의 배열을 생성
f = np.ones_like(b, dtype = "f")
f

array([1., 1., 1.], dtype=float32)

In [105]:
# 배열을 생성만 하고 특정한 값으로 초기화를 하지 않는 empty 명령
g = np.empty((4, 3))
g

array([[6.87857032e-312, 3.16202013e-322, 0.00000000e+000],
       [0.00000000e+000, 1.06099790e-312, 9.23290166e-071],
       [3.93989732e-062, 2.32053360e-056, 6.82133438e-038],
       [2.64899348e-032, 2.19061103e-056, 1.35104622e+161]])

In [108]:
# arange 명령
# range 명령과 비슷함
# 특정한 규칙에 따라 증가하는 수열을 만듦

np.arange(10)    # 0 ... n-1

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [109]:
np.arange(3, 21, 2)    # 시작, 끝(포함하지 않음), 단계

array([ 3,  5,  7,  9, 11, 13, 15, 17, 19])

In [110]:
# 선형 구간 혹은 로그 구간을 지정한 구간의 수만큼 분할

ex = np.linspace(0, 100, 5)
ex

array([  0.,  25.,  50.,  75., 100.])

In [111]:
ex2 = np.logspace(0, 100, 5)
ex2

array([1.e+000, 1.e+025, 1.e+050, 1.e+075, 1.e+100])

In [112]:
# 전치 연산
# 메서드가 아닌 속성!

A = np.array([[1, 2, 3], [4, 5, 6]])
A

array([[1, 2, 3],
       [4, 5, 6]])

In [113]:
A.T

array([[1, 4],
       [2, 5],
       [3, 6]])

In [114]:
# 배열의 크기 변형

a = np.arange(12)
a

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [115]:
b = a.reshape(3, 4)
b

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [120]:
a.reshape(2, -1, 2).shape

(2, 3, 2)

In [123]:
# 1차원으로 만들기 위해서는 flatten 혹은 ravel 메서드를 사용

a.flatten()

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [125]:
# 배열의 크기 변형

x = np.arange(5)
x[:, np.newaxis]

array([[0],
       [1],
       [2],
       [3],
       [4]])

In [136]:
# 배열 연결

In [137]:
a1 = np.ones((2, 3))
a1

array([[1., 1., 1.],
       [1., 1., 1.]])

In [138]:
a2 = np.zeros((2, 2))
a2

array([[0., 0.],
       [0., 0.]])

In [139]:
# 행의 수가 같은 두 개 이상의 배열을 옆으로 연결

np.hstack([a1, a2])

array([[1., 1., 1., 0., 0.],
       [1., 1., 1., 0., 0.]])

In [140]:
b1 = np.ones((2, 3))
b1

array([[1., 1., 1.],
       [1., 1., 1.]])

In [143]:
b2 = np.zeros((3, 3))
b2

array([[0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.]])

In [144]:
# 열의 수가 같은 두 개 이상의 배열을 위아래로 연결

np.vstack([b1, b2])

array([[1., 1., 1.],
       [1., 1., 1.],
       [0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.]])

In [146]:
c1 = np.ones((3, 4))
c1

array([[1., 1., 1., 1.],
       [1., 1., 1., 1.],
       [1., 1., 1., 1.]])

In [147]:
c2 = np.zeros((3, 4))
c2

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [150]:
# 제3의 축 즉, 행이나 열이 아닌 깊이(depth) 방향으로 배열을 합침
# 가장 안쪽의 원소의 차원이 증가
# 즉 가장 내부의 숫자 원소가 배열이 됨
# 3 X 4 -> 3 X 4 X 2

np.dstack([c1, c2])

array([[[1., 0.],
        [1., 0.],
        [1., 0.],
        [1., 0.]],

       [[1., 0.],
        [1., 0.],
        [1., 0.],
        [1., 0.]],

       [[1., 0.],
        [1., 0.],
        [1., 0.],
        [1., 0.]]])

In [154]:
(np.dstack([c1, c2])).shape

(3, 4, 2)

In [158]:
# stack 명령은 사용자가 지정한 차원(축으로) 배열을 연결

c = np.stack([c1, c2])
c

array([[[1., 1., 1., 1.],
        [1., 1., 1., 1.],
        [1., 1., 1., 1.]],

       [[0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.]]])

In [161]:
c = np.stack([c1, c2], axis = 2)
c

array([[[1., 0.],
        [1., 0.],
        [1., 0.],
        [1., 0.]],

       [[1., 0.],
        [1., 0.],
        [1., 0.],
        [1., 0.]],

       [[1., 0.],
        [1., 0.],
        [1., 0.],
        [1., 0.]]])

In [160]:
c.shape

(3, 2, 4)

In [167]:
# hstack 명령과 비슷하게 배열을 좌우로 연결
# 메서드임에도 불구하고 대괄호(bracket, [])를 사용
# 이런 특수 메서드를 인덱서(indexer)라고 함
np.r_[np.array([1, 2, 3]), np.array([4, 5, 6])]

array([1, 2, 3, 4, 5, 6])

In [168]:
# 배열의 차원을 증가시킨 후 좌우로 연결
np.c_[np.array([1, 2, 3]), np.array([4, 5, 6])]

array([[1, 4],
       [2, 5],
       [3, 6]])

In [169]:
# 동일한 배열을 반복하여 연결
a = np.array([[0, 1, 2], [3, 4, 5]])
np.tile(a, 2)

array([[0, 1, 2, 0, 1, 2],
       [3, 4, 5, 3, 4, 5]])

In [170]:
np.tile(a, (3, 2))

array([[0, 1, 2, 0, 1, 2],
       [3, 4, 5, 3, 4, 5],
       [0, 1, 2, 0, 1, 2],
       [3, 4, 5, 3, 4, 5],
       [0, 1, 2, 0, 1, 2],
       [3, 4, 5, 3, 4, 5]])

In [214]:
a = np.zeros((3, 3))
b = np.ones((3, 2))
c = np.hstack([a, b])
d = (np.arange(10, 151, 10)).reshape(3, 5)
e = np.vstack([c, d])
np.tile(e, (2,1))

array([[  0.,   0.,   0.,   1.,   1.],
       [  0.,   0.,   0.,   1.,   1.],
       [  0.,   0.,   0.,   1.,   1.],
       [ 10.,  20.,  30.,  40.,  50.],
       [ 60.,  70.,  80.,  90., 100.],
       [110., 120., 130., 140., 150.],
       [  0.,   0.,   0.,   1.,   1.],
       [  0.,   0.,   0.,   1.,   1.],
       [  0.,   0.,   0.,   1.,   1.],
       [ 10.,  20.,  30.,  40.,  50.],
       [ 60.,  70.,  80.,  90., 100.],
       [110., 120., 130., 140., 150.]])

In [215]:
# 벡터화 연산

x = np.arange(1, 10001)
y = np.arange(10001, 20001)

In [216]:
%%time
z = x+y

Wall time: 0 ns


In [218]:
z[:10]

array([10002, 10004, 10006, 10008, 10010, 10012, 10014, 10016, 10018,
       10020])

In [225]:
# 논리 연산도 가능

a = np.array([1, 2, 3, 4])
b = np.array([4, 2, 2, 4])

In [226]:
a == b

array([False,  True, False,  True])

In [227]:
a >= b

array([False,  True,  True,  True])

In [232]:
# 배열의 모든 원소가 다 같은지 알고 싶다면 all 명령

a = np.array([1, 2, 3, 4])
b = np.array([4, 2, 2, 4])
c = np.array([1, 2, 3, 4])

In [233]:
np.all(a == b)

False

In [234]:
np.all(a == c)

True

In [235]:
# 스칼라와 벡터/행렬의 곱셈

x = np.arange(10)
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [236]:
100*x

array([  0, 100, 200, 300, 400, 500, 600, 700, 800, 900])

In [238]:
x = np.arange(12).reshape(3, 4)
x

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [240]:
100*x

array([[   0,  100,  200,  300],
       [ 400,  500,  600,  700],
       [ 800,  900, 1000, 1100]])

In [242]:
# 브로드캐스팅
# 모양이 다른 배열 간의 연산이 가능하도록 배열의 크기를 변환
#  더 작은 배열이 더 큰 배열에 호환되는 모양으로 확장

a = np.array([1.0, 2.0, 3.0])
b = 2.0
a * b

array([2., 4., 6.])

In [246]:
# 확장 가능한 경우
# a. 해당 차원 간의 숫자가 동일한 경우
# b. 해당 차원 중 하나가 1인 경우
# 브로드캐스팅 가능하지 않을 때 ValueError 발생시킴
# 차원의 수가 같지 않아도, 비교하는 차원의 수 중 1이 존재하면 1이 아닌 수에 맞춰서 늘어나거나 복사

In [265]:
# 차원 축소 연산

In [266]:
# sum()
# 해당 배열의 합산 결과를 반환

In [267]:
x = np.array([1, 2, 3, 4])
x

np.sum(x)    # x.sum()

10

In [268]:
x = np.arange(12).reshape(3, -1)
x

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [270]:
x.sum(axis=0)    # axis=0은 행 간의 연산 결과를 구한다.

array([12, 15, 18, 21])

In [271]:
x.sum(axis=1)    # axis=1은 열 간의 연산 결과를 구한다.

array([ 6, 22, 38])

In [281]:
# min()
# 해당 배열의 제일 작은 값의 결과를 반환

In [274]:
x = np.arange(20).reshape(2, 5, -1)
x

array([[[ 0,  1],
        [ 2,  3],
        [ 4,  5],
        [ 6,  7],
        [ 8,  9]],

       [[10, 11],
        [12, 13],
        [14, 15],
        [16, 17],
        [18, 19]]])

In [275]:
x.min()

0

In [276]:
np.min(x)

0

In [277]:
x.min(axis=0)

array([[0, 1],
       [2, 3],
       [4, 5],
       [6, 7],
       [8, 9]])

In [278]:
np.min(x, axis=1)

array([[ 0,  1],
       [10, 11]])

In [279]:
x.min(axis=2)

array([[ 0,  2,  4,  6,  8],
       [10, 12, 14, 16, 18]])

In [280]:
# argmin()
# 해당 배열의 제일 작은 값의 인덱스를 반환

In [282]:
x = np.arange(20).reshape(2, 5, -1)
x

array([[[ 0,  1],
        [ 2,  3],
        [ 4,  5],
        [ 6,  7],
        [ 8,  9]],

       [[10, 11],
        [12, 13],
        [14, 15],
        [16, 17],
        [18, 19]]])

In [283]:
x.argmin()

0

In [284]:
x.argmin(axis=0)

array([[0, 0],
       [0, 0],
       [0, 0],
       [0, 0],
       [0, 0]], dtype=int64)

In [285]:
# max()
# 해당 배열의 제일 큰 값의 결과를 반환

In [286]:
# argmax()
# 해당 배열의 제일 큰 값의 인덱스를 반환

In [287]:
x = np.array([1, 2, 3, 1])

In [290]:
x.mean()    # 평균

1.75

In [291]:
np.median(x)    # 중앙값

1.5

In [292]:
np.all([True, True, False])  # 배열 요소가 모두 True일 때 True

False

In [293]:
np.any([True, True, False])  # 배열 요소가 하나라도 True면 True

True

In [294]:
# 연습 문제

practice = np.array([[1.1, 7.1, 8.0, 2.1, 6.5, 7.2],
                    [2.7, 5.2, 3.3, 9.0, 7.7, 2.8],
                    [0.7, 8.8, 4.2, 8.9, 4.3, 7.4],
                    [8.2, 1.1, 5.4, 2.9, 6.9, 0.2],
                    [7.4, 4.8, 2.7, 3.1, 2.8, 8.9]])

In [301]:
# 전체의 최대값
practice.max()

9.0

In [302]:
# 행 간의 합
practice.sum(axis=0)

array([20.1, 27. , 23.6, 26. , 28.2, 26.5])

In [303]:
# 행 간의 최대값
practice.max(axis=0)

array([8.2, 8.8, 8. , 9. , 7.7, 8.9])

In [304]:
# 열 간의 평균
practice.mean(axis=1)

array([5.33333333, 5.11666667, 5.71666667, 4.11666667, 4.95      ])

In [305]:
# 열 간의 최소값
practice.min(axis=1)

array([1.1, 2.7, 0.7, 0.2, 2.7])

In [308]:
# 정렬

a = np.array([[4, 3, 5, 7],
             [1, 12, 11, 9],
             [2, 15, 1, 14]])
a

array([[ 4,  3,  5,  7],
       [ 1, 12, 11,  9],
       [ 2, 15,  1, 14]])

In [309]:
np.sort(a)    # axis = -1 또는 axis = 1과 동일

array([[ 3,  4,  5,  7],
       [ 1,  9, 11, 12],
       [ 1,  2, 14, 15]])

In [311]:
np.sort(a, axis = 0)

array([[ 1,  3,  1,  7],
       [ 2, 12,  5,  9],
       [ 4, 15, 11, 14]])

In [313]:
# ndarray.sort() 메서드는 해당 객체의 자료 자체가 변화하는 자체변화(in-place) 메서드

a.sort(axis=1)
a

array([[ 3,  4,  5,  7],
       [ 1,  9, 11, 12],
       [ 1,  2, 14, 15]])

In [315]:
# 자료를 정렬하는 것이 아니라 순서만 알고 싶다면 argsort 명령

a = np.array([42, 38, 12, 25])
j = np.argsort(a)
j

array([2, 3, 1, 0], dtype=int64)

In [318]:
a[j]   # 인덱스 배열을 사용한 인덱싱

array([12, 25, 38, 42])

In [319]:
# 고급 인덱싱

a = np.array([[1, 2], [3, 4], [5, 6]])
a

array([[1, 2],
       [3, 4],
       [5, 6]])

In [322]:
print(a[[0, 1, 2], [0, 1, 0]])

# a[0,0] a[1,1] a[2,0]을 인덱스로 하는 1차원 배열(shape=(3,))을 출력

[1 4 5]


In [323]:
# 슬라이싱

a = np.array([[1, 2], [3, 4], [5, 6]])
a

array([[1, 2],
       [3, 4],
       [5, 6]])

In [325]:
print(a[:, [0, 1, 0]])

[[1 2 1]
 [3 4 3]
 [5 6 5]]


In [350]:
# 연습문제
# 첫번째 행(row)에 학번, 두번째 행에 영어 성적, 세번째 행에 수학 성적
# 영어 성적을 기준으로 각 열(column)을 재정렬

scores = np.array([[1, 2, 3, 4],
                   [46, 99, 100, 71],
                   [81, 59, 90, 100]])

In [353]:
eng = np.array([46, 99, 100, 71])
j = np.argsort(eng)
j

print(scores[:, j])

[[  1   4   2   3]
 [ 46  71  99 100]
 [ 81 100  59  90]]
