## Chapter 4
# Numpy 기본
---
## Numpy 개념과 기초

In [9]:
%pylab inline

Populating the interactive namespace from numpy and matplotlib


### Numpy 개념과 특징

- Numpy 의 핵심은 ndarray (N-dimensional array) 구조체이다 (ndarray 는 줄여 array 라고도 부른다)
- ndarray 는 <b>list 의 기능을 확장</b>하여, 복잡한 계산을 쉽게 하기 위해 만들어졌다
- 빠르고 메모리를 효율적으로 사용한다
- ndarray 는 다차원 행렬로 생각할 수 있다
- 하나의 array 는 한가지 타입만 가질 수 있는데, 주로 실수 또는 정수이다
- 대용량의 행렬 형태의 데이터를 빠르게 찾고 자를 수 있고 복잡한 계산을 수행할 수 있다

### Numpy 참고 자료
- 퀵스타트 튜토리얼 : https://docs.scipy.org/doc/numpy/user/quickstart.html
- 레퍼런스 : https://docs.scipy.org/doc/numpy/reference/index.html

### Numpy 맛보기

In [10]:
import numpy as np

a = np.array([1,2,3,4,5])

display(a, type(a), a.ndim, a.dtype, a.shape, len(a))

array([1, 2, 3, 4, 5])

numpy.ndarray

1

dtype('int32')

(5,)

5

In [7]:
b = np.array(a, dtype=float)
display(b, b.dtype)

array([1., 2., 3., 4., 5.])

dtype('float64')

In [8]:
a*2

array([ 2,  4,  6,  8, 10])

In [9]:
a + b

array([ 2.,  4.,  6.,  8., 10.])

In [15]:
a = np.array([[1,2,3],[4,5,6],[7,8,9],[10,11,12]])
display(a, a.ndim, a.shape, len(a))

array([[ 1,  2,  3],
       [ 4,  5,  6],
       [ 7,  8,  9],
       [10, 11, 12]])

2

(4, 3)

4

In [16]:
a = np.array([ [[1,2],[3,4]],
               [[5,6],[7,8]] ])
display(a, a.ndim, a.shape, len(a))

array([[[1, 2],
        [3, 4]],

       [[5, 6],
        [7, 8]]])

3

(2, 2, 2)

2

In [18]:
a = np.array(3)
display(a, a.ndim, a.shape) # len(a) 는 에러 발생함

array(3)

0

()

In [19]:
a = np.array([3])
display(a, a.ndim, a.shape, len(a))

array([3])

1

(1,)

1

#### [주의]
파이썬에서 (5) 과 (5,) 의 의미는 다르다. (5) 는 5라는 숫자를 묶어준 것일 뿐이고, (5,) 는 항목이 하나인 tuple 이다. 위에서 a.shape = (1,) 이라는 의미는 첫번째 차원의 항목수가 1이라는 의미이다.

### 리스트 와의 차이점

In [60]:
l = [1,2,3]
l * 2

[1, 2, 3, 1, 2, 3]

In [61]:
l + 4

TypeError: can only concatenate list (not "int") to list

In [63]:
l + [4]

[1, 2, 3, 4]

In [6]:
l = ['one',2,3.]
l

['one', 2, 3.0]

In [11]:
np.array(l)

array(['one', '2', '3.0'], dtype='<U3')

- 일반적으로 리스트로 데이터를 생성한 후 어레이로 변환한다.
- 아래는 구구단을 어레이로 생성하는 과정이다.

In [19]:
l = [ [i,j,i*j] for i in range(1,10) for j in range(1,10) ]
a = np.array(l)

display(a.shape, a[-5:], a[9*2:9*3,2])

(81, 3)

array([[ 9,  5, 45],
       [ 9,  6, 54],
       [ 9,  7, 63],
       [ 9,  8, 72],
       [ 9,  9, 81]])

array([ 3,  6,  9, 12, 15, 18, 21, 24, 27])

### array 형변환 및 기타

In [22]:
a = np.array([1,2.,3])
display(a, a.dtype)

array([1., 2., 3.])

dtype('float64')

In [24]:
a = np.array((1,2,3))
a

array([1, 2, 3])

In [34]:
a = np.array({1,2,3})
a, a.shape

(array({1, 2, 3}, dtype=object), ())

In [33]:
a = np.array({1:100, 2:200})
a, a.shape

(array({1: 100, 2: 200}, dtype=object), ())

In [30]:
a = np.array([1,2,'three'])
a

array(['1', '2', 'three'], dtype='<U11')

In [31]:
a = np.array(['하나','둘','셋'])
a

array(['하나', '둘', '셋'], dtype='<U2')

In [38]:
a = np.array([True, False, True])
display(a, a.dtype)

array([ True, False,  True])

dtype('bool')

In [183]:
a = np.array([1,2,3])
for i in a:
    display(i)

1

2

3

- 2차원 행렬에서 for 문은 행을 하나씩 가져온다.

In [184]:
a = np.array([[1,2],[3,4],[5,6]])
for i in a:
    display(i)

array([1, 2])

array([3, 4])

array([5, 6])

### array 생성 함수들
- np.zeros()
- np.ones()
- np.eye()
- np.arange()

In [52]:
a = np.zeros([3,3])
display(a, a.shape, a.dtype) # 실수형으로 생성됨

array([[0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.]])

(3, 3)

dtype('float64')

In [47]:
np.zeros([2,3,4])

array([[[0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.]],

       [[0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.]]])

In [48]:
np.zeros(3)

array([0., 0., 0.])

In [54]:
np.zeros(1)

array([0.])

In [55]:
np.ones([4,2])

array([[1., 1.],
       [1., 1.],
       [1., 1.],
       [1., 1.]])

In [56]:
np.eye(4)

array([[1., 0., 0., 0.],
       [0., 1., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 0., 1.]])

In [58]:
np.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [59]:
np.arange(-1,1,0.1)

array([-1.00000000e+00, -9.00000000e-01, -8.00000000e-01, -7.00000000e-01,
       -6.00000000e-01, -5.00000000e-01, -4.00000000e-01, -3.00000000e-01,
       -2.00000000e-01, -1.00000000e-01, -2.22044605e-16,  1.00000000e-01,
        2.00000000e-01,  3.00000000e-01,  4.00000000e-01,  5.00000000e-01,
        6.00000000e-01,  7.00000000e-01,  8.00000000e-01,  9.00000000e-01])

### array 자료형
- float (대표형)
- int
- bool
- str
- object (되도록이면 사용하지 않는다)

In [60]:
a = np.array([1,2,3], dtype=float)
display(a, a.dtype)

array([1., 2., 3.])

dtype('float64')

In [61]:
a = np.array([1,2,3], dtype='float')
display(a, a.dtype)

array([1., 2., 3.])

dtype('float64')

In [26]:
a = np.array([1.1,2.5,3.9], dtype=int) # dtype: 'int', int8, int16, int32, int64
display(a, a.dtype)

array([1, 2, 3])

dtype('int32')

In [65]:
a = np.array([1.1,2.5,3.9], dtype='str') # dtype=str
display(a, a.dtype)

array(['1.1', '2.5', '3.9'], dtype='<U3')

dtype('<U3')

#### [주의]
- 형 변환을 원할 때도, np.array() 함수를 사용하자
- a.astype() 함수를 사용할 수 있지만, 혼동되므로 np.array() 함수를 사용한다.

In [67]:
a = np.array([True,False,True])
display(a,a.dtype)

a = np.array(a, dtype=float)
display(a,a.dtype)

array([ True, False,  True])

dtype('bool')

array([1., 0., 1.])

dtype('float64')

### array 산술연산
- array 에 산술연산을 하면 각 요소 단위로 적용된다

In [68]:
a = np.zeros([3,3])
a

array([[0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.]])

In [73]:
display(a + 1, 1+a, (a-1)*2, (a+3)/2, 1/(a+2))

array([[1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.]])

array([[1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.]])

array([[-2., -2., -2.],
       [-2., -2., -2.],
       [-2., -2., -2.]])

array([[1.5, 1.5, 1.5],
       [1.5, 1.5, 1.5],
       [1.5, 1.5, 1.5]])

array([[0.5, 0.5, 0.5],
       [0.5, 0.5, 0.5],
       [0.5, 0.5, 0.5]])

In [76]:
a = np.arange(10)
display(a%2, a**2)

array([0, 1, 0, 1, 0, 1, 0, 1, 0, 1], dtype=int32)

array([ 0,  1,  4,  9, 16, 25, 36, 49, 64, 81], dtype=int32)

- 리스트에서도 리스트 컴프리핸션을 사용하면 어레이 처럼 계산할 수 있다.
- 하지만 느리고 비효율적이다.

In [31]:
l = list(range(10))
[ (i**2)/2 for i in l ]

[0.0, 0.5, 2.0, 4.5, 8.0, 12.5, 18.0, 24.5, 32.0, 40.5]

#### [연습문제]
- 모든 요소의 숫자가 5.0 인 2*4 행렬을 만들어라

In [74]:
np.zeros([2,4])+5

array([[5., 5., 5., 5.],
       [5., 5., 5., 5.]])

In [75]:
np.ones([2,4])*5

array([[5., 5., 5., 5.],
       [5., 5., 5., 5.]])

### array 색인 기초
- 기본적인 것은 list 와 동일하다
- 하지만 고차원 행렬에서, 차원을 확장해 지정할 수 있다.

In [78]:
a = np.array([1,2,3,4,5])
print(a[0], a[1], a[-1])

1 2 5


In [79]:
print(a[:2], a[1:3], a[3:], a[::2])

[1 2] [2 3] [4 5] [1 3 5]


#### [주의]
값을 읽을 수 있을 뿐만 아니라 아래와 같이 값을 할당할 수도 있다

In [80]:
a[1:3] = -1; a

array([ 1, -1, -1,  4,  5])

In [82]:
a[1] = 0; a

array([ 1,  0, -1,  4,  5])

In [83]:
a[:] = 999; a

array([999, 999, 999, 999, 999])

- 다차원 행렬에서의 색인 기능을 알아보자

In [162]:
a = np.array([[1,2,3],[4,5,6],[7,8,9]])
display(a, a.shape)

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

(3, 3)

In [163]:
display(a[0], a[1], a[-1])

array([1, 2, 3])

array([4, 5, 6])

array([7, 8, 9])

In [164]:
a[:-1]

array([[1, 2, 3],
       [4, 5, 6]])

In [165]:
a[::-1]

array([[7, 8, 9],
       [4, 5, 6],
       [1, 2, 3]])

In [166]:
a[1][2]

6

- 2차원 행렬에서는 아래와 같이 쉼표로 구분하여 각 차원의 색인을 지정할 수 있다

In [35]:
a = np.array([[1,2,3],[4,5,6],[7,8,9]])
a

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [36]:
a[1,2]

6

In [37]:
a[:-1,1:]

array([[2, 3],
       [5, 6]])

In [38]:
a[1,1] = -1
a

array([[ 1,  2,  3],
       [ 4, -1,  6],
       [ 7,  8,  9]])

In [39]:
a[:,1]

array([ 2, -1,  8])

#### [주의]
array 의 값을 바꿀 때, 원본을 유지하고 싶을 때는 <b>copy()</b> 명령을 사용하자!

In [40]:
b = a.copy()
b[1,1] = 5
display(b, a)

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

array([[ 1,  2,  3],
       [ 4, -1,  6],
       [ 7,  8,  9]])

- 3차원 행렬에서는 a[1,1,1] 과 같이 3가지 인덱스를 쉼표로 구분하면 된다

In [42]:
a = np.zeros([3,3,3])
a[1,:-1,1] = 999
a

array([[[  0.,   0.,   0.],
        [  0.,   0.,   0.],
        [  0.,   0.,   0.]],

       [[  0., 999.,   0.],
        [  0., 999.,   0.],
        [  0.,   0.,   0.]],

       [[  0.,   0.,   0.],
        [  0.,   0.,   0.],
        [  0.,   0.,   0.]]])

- 리스트를 사용하여도 같은 작업을 할 수 있다. 하지만 복잡하다.
- 요령은 항상 빈 리스트를 만든 다음, 필요한 값들을 채워가는 것이다.

In [51]:
l = [ [i*10+j for j in range(10)] for i in range(10)]
display(l)

# 5~7 행의 3~5번째 열을 가져오자
l2 = []
for row in l[4:7]:
    l2.append(row[2:5])
    
l2    

[[0, 1, 2, 3, 4, 5, 6, 7, 8, 9],
 [10, 11, 12, 13, 14, 15, 16, 17, 18, 19],
 [20, 21, 22, 23, 24, 25, 26, 27, 28, 29],
 [30, 31, 32, 33, 34, 35, 36, 37, 38, 39],
 [40, 41, 42, 43, 44, 45, 46, 47, 48, 49],
 [50, 51, 52, 53, 54, 55, 56, 57, 58, 59],
 [60, 61, 62, 63, 64, 65, 66, 67, 68, 69],
 [70, 71, 72, 73, 74, 75, 76, 77, 78, 79],
 [80, 81, 82, 83, 84, 85, 86, 87, 88, 89],
 [90, 91, 92, 93, 94, 95, 96, 97, 98, 99]]

[[42, 43, 44], [52, 53, 54], [62, 63, 64]]

### 랜덤 array 생성 함수들

#### **주요 함수**
- np.random.rand()
- np.random.randn()
- np.random.randint()
- np.random.uniform()
- np.random.normal()

#### **[참고]**
- 교재 151쪽
- https://docs.scipy.org/doc/numpy-1.15.1/reference/routines.random.html

In [95]:
np.random.rand(3,2) # [0,1) 사이의 임의의 숫자

array([[0.94585102, 0.89209507],
       [0.14455504, 0.53256205],
       [0.86812715, 0.2720937 ]])

In [96]:
np.random.randn(10) # 평균이 0, 표준편차가 1인 임의의 숫자

array([-2.12971619, -0.77651524,  0.22121923,  0.12492988, -1.47753706,
       -2.40817102, -0.05505928,  1.70739638, -0.81213432,  0.45963518])

In [100]:
np.random.randint(10, 20, size=[3,3]) # 10~19 사이의 임의의 정수

array([[16, 10, 12],
       [12, 14, 18],
       [17, 12, 13]])

In [101]:
np.random.randint(10,size=10)

array([9, 9, 0, 0, 9, 3, 6, 7, 9, 6])

In [103]:
np.random.uniform(1.1, 1.2, size=10) # [1.1, 1.2) 사이의 임의의 숫자

array([1.11121071, 1.14322545, 1.19423596, 1.17948703, 1.17800388,
       1.11974389, 1.13876811, 1.15843538, 1.17857897, 1.19283526])

In [102]:
np.random.normal(100,10,size=[2,4]) # 평균이 100이고, 표준편차가 10인 임의의 숫자

array([[100.89923517,  89.91293948, 108.61622936, 124.84461968],
       [106.23161924, 124.37077174, 102.89087328, 103.09943691]])

#### [주의]
실험 재현을 위해, 난수 발생 순서를 고정할 필요가 있다. 이럴 경우 np.random.seed() 를 사용한다

In [106]:
np.random.seed(2018)
print(np.random.rand(3,3))

np.random.seed(2018)
print(np.random.rand(3,3))

[[0.88234931 0.10432774 0.90700933]
 [0.3063989  0.44640887 0.58998539]
 [0.8371111  0.69780061 0.80280284]]
[[0.88234931 0.10432774 0.90700933]
 [0.3063989  0.44640887 0.58998539]
 [0.8371111  0.69780061 0.80280284]]


- 기타 랜덤 함수들

In [68]:
np.random.choice(['Kim','Lee','Park','Choi'],5)

array(['Lee', 'Lee', 'Kim', 'Park', 'Kim'], dtype='<U4')

In [71]:
np.random.permutation(list('My name is Tom'))

array(['o', 'a', 'n', ' ', 'e', 'T', 'i', 'y', 'M', ' ', 's', 'm', ' ',
       'm'], dtype='<U1')

In [72]:
a = list(range(10))
np.random.shuffle(a) # in place
a

[0, 2, 7, 6, 8, 9, 3, 4, 1, 5]

### 불리언 색인
array 에 조건식을 적용하면 어떻게 될까?

In [133]:
a = np.random.randint(10,size=5); a

array([3, 8, 2, 3, 7])

- 색인의 위치에 숫자 묶음을 넣으면, 해당 항목들을 뽑아낼 수 있다 

In [134]:
a[ [1,3] ]

array([8, 3])

- 비슷하게, 색인의 위치에 True/False 묶음을 넣으면, True 위치의 항목들을 뽑아낼 수 있다.
- 단 True/False 의 갯수는 array 의 갯수와 같아야 한다

In [135]:
a[ [True,False,True,False,True] ]

array([3, 2, 7])

- array 에 조건식을 적용하면, 산술연산 처럼 각 요소 단위로 적용되어 True/False 를 할당한다

In [136]:
a > 5

array([False,  True, False, False,  True])

In [137]:
a[ a>5 ] # a[[False,  True, False, False,  True]]

array([8, 7])

- 2차원 행렬에 적용해 보자

In [53]:
a = np.random.randn(3,3)
a

array([[ 0.44574137, -0.35181787,  0.88304836],
       [-1.69089   ,  0.36000668, -0.54684145],
       [ 1.33393946, -0.19362493, -0.20878079]])

In [54]:
a[ [True,False,True] ]

array([[ 0.44574137, -0.35181787,  0.88304836],
       [ 1.33393946, -0.19362493, -0.20878079]])

In [55]:
a[ np.array([[True,False,True],[False,True,False],[True,False,True]]) ] # list 입력시 에러 발생함

array([ 0.44574137,  0.88304836,  0.36000668,  1.33393946, -0.20878079])

In [56]:
a > 0

array([[ True, False,  True],
       [False,  True, False],
       [ True, False, False]])

- 조건식을 연결해 사용할 수 있다.
- | 는 or 이고, & 는 and 이다.
- 항상 괄호를 붙여야 한다. and 와 or 명칭은 사용할 수 없다.

In [58]:
(a>1) | (a<-1)

array([[False, False, False],
       [ True, False, False],
       [ True, False, False]])

In [141]:
a[ a>0 ]

array([0.02189529, 1.96594692, 0.0441188 , 0.05480681, 0.83636348,
       0.62409454])

In [142]:
a[ (a>1) | (a<-1) ]

array([ 1.96594692, -1.59915758])

In [144]:
a[ abs(a)>1 ]

array([ 1.96594692, -1.59915758])

In [152]:
a

array([[ 0.02189529,  1.96594692,  0.0441188 ],
       [-0.79839363,  0.05480681,  0.83636348],
       [ 0.62409454, -0.19786286, -1.59915758]])

In [155]:
a[ a>1 ] = 1
a[ a<-1 ] = -1
a

array([[ 0.02189529,  1.        ,  0.0441188 ],
       [-0.79839363,  0.05480681,  0.83636348],
       [ 0.62409454, -0.19786286, -1.        ]])

#### [연습문제]
1. 첫열은 0 또는 1 이고, 나머지 3열은 평균이 0이고 표준편차가 1인 10*4인 행렬을 만들어라
2. 첫열의 값이 1인 행들만 뽑아내라

In [157]:
a = np.random.randn(10,4)
a[:,0] = np.random.randint(2,size=10)
a

array([[ 0.        , -0.36005139, -1.44041613,  0.40204404],
       [ 1.        ,  0.83482925,  1.08595128, -0.01254602],
       [ 0.        ,  0.89734933,  0.70430037, -0.48362689],
       [ 0.        ,  1.34356696,  0.09322501, -0.12397867],
       [ 1.        ,  0.54734691,  0.44399344, -0.70074723],
       [ 1.        , -0.46104739, -0.84598255, -1.23633888],
       [ 1.        ,  0.81264325, -0.11079476, -0.63145093],
       [ 0.        , -0.59411021,  0.67505192, -0.75898427],
       [ 0.        ,  1.35731531,  0.01972461,  1.01958821],
       [ 1.        , -0.80785816, -0.55849797, -1.49456944]])

In [159]:
mask = (a[:,0]==1)
display(mask)
a[mask]

array([False,  True, False, False,  True,  True,  True, False, False,
        True])

array([[ 1.        ,  0.83482925,  1.08595128, -0.01254602],
       [ 1.        ,  0.54734691,  0.44399344, -0.70074723],
       [ 1.        , -0.46104739, -0.84598255, -1.23633888],
       [ 1.        ,  0.81264325, -0.11079476, -0.63145093],
       [ 1.        , -0.80785816, -0.55849797, -1.49456944]])

### 팬시 색인
- 사용하기 원하는 인덱스들을 리스트로 전달한다.

In [188]:
a = np.random.randint(10,size=10)
a

array([3, 6, 5, 8, 4, 2, 3, 7, 5, 6])

In [189]:
a[ [1,3,5,7,9] ]

array([6, 8, 2, 7, 6])

In [191]:
a2 = np.random.randint(10, size=[5,5])
a2

array([[5, 3, 8, 2, 9],
       [6, 0, 2, 9, 3],
       [1, 2, 2, 6, 2],
       [7, 4, 4, 5, 5],
       [1, 1, 2, 1, 3]])

In [192]:
a2[ [1,3] ]

array([[6, 0, 2, 9, 3],
       [7, 4, 4, 5, 5]])

In [193]:
a2[:, [0,2,4] ]

array([[5, 8, 9],
       [6, 2, 3],
       [1, 2, 2],
       [7, 4, 5],
       [1, 2, 3]])

#### [주의]
행과 열 인덱스에 모두 숫자 묶음을 주면 원하지 않는 결과가 나온다

In [194]:
a2[ [1,3], [2,4] ]

array([2, 5])

In [197]:
a2[ [1,3] ] [:, [2,4] ]

array([[2, 3],
       [4, 5]])

- 팬시 색인은 순서를 바꾸고자 할 때에도 사용할 수 있다.
- 아래 예제에서, 두번째칼럼 - 첫번째칼럼 - 세번째칼럼 순서가 된다

In [199]:
np.random.seed(2018)
a = np.random.randint(10,size=[3,3])
a

array([[6, 2, 9],
       [5, 4, 6],
       [9, 9, 7]])

In [200]:
a[:, [1,0,2]]

array([[2, 6, 9],
       [4, 5, 6],
       [9, 9, 7]])

### array 모양 변경하기 (shape 변경)

In [211]:
a = np.arange(12)
display(a)
b = a.reshape(3,4) # 복사가 아닌 참조
display(b)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [212]:
a = np.arange(12).reshape(3,4)
a

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [213]:
a.reshape(2,6)

array([[ 0,  1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11]])

In [215]:
a = np.arange(12).reshape(6,-1); a

array([[ 0,  1],
       [ 2,  3],
       [ 4,  5],
       [ 6,  7],
       [ 8,  9],
       [10, 11]])

In [216]:
np.arange(3).reshape(-1,1)

array([[0],
       [1],
       [2]])

In [217]:
np.arange(3).reshape(1,-1)

array([[0, 1, 2]])

In [218]:
np.arange(3).reshape(1,1,-1)

array([[[0, 1, 2]]])

In [219]:
a=np.arange(12).reshape(4,3)
a.reshape(4,1,3)

array([[[ 0,  1,  2]],

       [[ 3,  4,  5]],

       [[ 6,  7,  8]],

       [[ 9, 10, 11]]])

In [220]:
a=np.arange(12).reshape(4,3)
a.reshape(4,3,1)

array([[[ 0],
        [ 1],
        [ 2]],

       [[ 3],
        [ 4],
        [ 5]],

       [[ 6],
        [ 7],
        [ 8]],

       [[ 9],
        [10],
        [11]]])

In [221]:
a.reshape(4,3,1).reshape(4,3)

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11]])

- 1차원 행렬로 바꾸고 싶을 때는 ravel() 함수를 사용한다

In [225]:
a=np.arange(12).reshape(4,3)
a.ravel() # np.ravel(a)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [226]:
a.reshape(-1)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

- 2차원 행렬의 전치행렬을 구하자 (n\*m -> m\*n)

In [227]:
a = np.arange(12).reshape(3,4)
a.T

array([[ 0,  4,  8],
       [ 1,  5,  9],
       [ 2,  6, 10],
       [ 3,  7, 11]])

In [228]:
a.T[0,0]=999
a # 참조가 됨 (복사가 아님)

array([[999,   1,   2,   3],
       [  4,   5,   6,   7],
       [  8,   9,  10,  11]])

In [229]:
a = np.arange(24).reshape(2,3,4)
a

array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]],

       [[12, 13, 14, 15],
        [16, 17, 18, 19],
        [20, 21, 22, 23]]])

### array 에 적용할 수 있는 함수들
- 파이썬 내장 함수 : abs(), sum(), len(), pow()

In [247]:
a = np.arange(12).reshape(3,4)
a

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [248]:
abs(a)

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [249]:
sum(a), len(a)

(66, 3)

- Numpy 전용 함수 : np.exp(), np.sqrt(), np.sin() 등등 (교재 136쪽 참조)

In [250]:
np.pi, np.e

(3.141592653589793, 2.718281828459045)

In [253]:
np.exp(a)

array([[1.00000000e+00, 2.71828183e+00, 7.38905610e+00, 2.00855369e+01],
       [5.45981500e+01, 1.48413159e+02, 4.03428793e+02, 1.09663316e+03],
       [2.98095799e+03, 8.10308393e+03, 2.20264658e+04, 5.98741417e+04]])

In [255]:
np.sin(a)

array([[ 0.        ,  0.84147098,  0.90929743,  0.14112001],
       [-0.7568025 , -0.95892427, -0.2794155 ,  0.6569866 ],
       [ 0.98935825,  0.41211849, -0.54402111, -0.99999021]])

In [258]:
a = np.random.randn(3,5)
np.sign(a)

array([[-1., -1., -1., -1.,  1.],
       [ 1., -1., -1.,  1., -1.],
       [-1., -1.,  1.,  1., -1.]])

In [259]:
np.maximum(a,0)

array([[0.        , 0.        , 0.        , 0.        , 0.44163108],
       [1.57128979, 0.        , 0.        , 0.95677952, 0.        ],
       [0.        , 0.        , 0.53908161, 0.71676968, 0.        ]])

- Numpy 통계 함수들

In [260]:
a = np.arange(9).reshape(3,3)
a

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [267]:
a.sum(), a.mean(), a.std()

(36, 4.0, 2.581988897471611)

In [268]:
np.sum(a), np.mean(a), np.std(a)

(36, 4.0, 2.581988897471611)

In [262]:
a.max(), a.min()

(8, 0)

#### [주의]
axis=0, axis=1 과 같이 axis 값을 부여하면, 열 단위로 또는 행 단위로 통계값을 구할 수 있다.<br>
axis 는 데이터 분석에서 자주 사용되므로 익숙해질 필요가 있다.

In [273]:
a

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [270]:
a.sum(axis=0) # 아래로 계산

array([ 9, 12, 15])

In [271]:
a.sum(axis=1) # 옆으로 계산

array([ 3, 12, 21])

In [272]:
a.cumsum(axis=1) # 누적 합계

array([[ 0,  1,  3],
       [ 3,  7, 12],
       [ 6, 13, 21]], dtype=int32)

#### [주의]
파이썬에서는 산술계산에서 True 와 False 는 항상 1 과 0 으로 취급한다.

In [274]:
1+True, True+False

(2, 1)

In [275]:
a = np.random.randn(5,5)
a

array([[-0.95280352, -1.25437212,  2.50291425, -2.14708789,  0.85921443],
       [-1.73013095,  0.42004214, -0.24349978, -0.91438334,  0.9830354 ],
       [ 0.47919069, -1.26943791,  0.83533197,  0.30007928,  0.07942252],
       [-0.68784862,  0.78239896, -0.69213548,  1.63473668,  0.96673974],
       [ 0.37691732,  0.42960425, -0.16509399,  0.41604518,  1.50799986]])

In [276]:
(a>0).sum()

15

In [277]:
(a>0).sum(axis=1)

array([2, 2, 4, 3, 4])

In [278]:
(a>0).sum(axis=0)

array([2, 3, 2, 3, 5])

In [280]:
(a>-1).all(axis=1) # 각 행에서 모든 항목이 -1 보다 큰가?

array([False, False, False,  True,  True])

In [281]:
(a>1).any(axis=1) # 각 행에서 어떤 항목이 1 보다 큰게 있는가?

array([ True, False, False,  True,  True])

- array 의 조건식에 따라 처리 (np.where() 함수)

In [283]:
a = np.random.randn(5,5)
a

array([[ 0.93177908, -0.48733243, -1.80812511, -1.28100783, -1.24219242],
       [ 0.21551713, -0.99732283,  0.64576822, -1.08528013,  0.86541692],
       [ 0.56030797,  0.61526303, -0.95200132,  1.78428322,  0.09547204],
       [ 0.40876103, -1.7593099 ,  0.13741015, -0.78339489, -0.14629096],
       [ 0.86198453, -0.05644806,  1.44633371,  0.15640616, -1.35122913]])

In [284]:
np.where(abs(a)>1,0,a)

array([[ 0.93177908, -0.48733243,  0.        ,  0.        ,  0.        ],
       [ 0.21551713, -0.99732283,  0.64576822,  0.        ,  0.86541692],
       [ 0.56030797,  0.61526303, -0.95200132,  0.        ,  0.09547204],
       [ 0.40876103,  0.        ,  0.13741015, -0.78339489, -0.14629096],
       [ 0.86198453, -0.05644806,  0.        ,  0.15640616,  0.        ]])

In [286]:
np.where(a>1, 1, np.where(a<-1,-1,a)) # 중첩 사용 가능

array([[ 0.93177908, -0.48733243, -1.        , -1.        , -1.        ],
       [ 0.21551713, -0.99732283,  0.64576822, -1.        ,  0.86541692],
       [ 0.56030797,  0.61526303, -0.95200132,  1.        ,  0.09547204],
       [ 0.40876103, -1.        ,  0.13741015, -0.78339489, -0.14629096],
       [ 0.86198453, -0.05644806,  1.        ,  0.15640616, -1.        ]])

In [288]:
np.where(abs(a)>1) # 결과에서, 첫번째 array 는 행번호, 두번째 array 는 열번호

(array([0, 0, 0, 1, 2, 3, 4, 4], dtype=int32),
 array([2, 3, 4, 3, 3, 1, 2, 4], dtype=int32))

- 정렬 함수

In [290]:
a = np.array([2,1,4,3,5])
np.sort(a)

array([1, 2, 3, 4, 5])

In [291]:
a.sort(); a

array([1, 2, 3, 4, 5])

In [64]:
a = np.random.randint(10,size=[3,3])
a

array([[4, 4, 0],
       [0, 0, 8],
       [2, 4, 8]])

In [65]:
np.sort(a) # np.sort(a, axis=-1)

array([[0, 4, 4],
       [0, 0, 8],
       [2, 4, 8]])

In [66]:
np.sort(a, axis=0)

array([[0, 0, 0],
       [2, 4, 8],
       [4, 4, 8]])

### 파일 입출력
- array 를 파일에 저장하고 불러오기

In [296]:
a = np.random.randn(1000,10)
a[:2]

array([[ 0.18405909, -0.86679036, -0.97714308, -0.78884804,  0.60735299,
        -0.12213656, -1.24228735, -0.74541575,  0.65323785,  1.01748583],
       [-0.77502296,  0.38355232, -1.60004461, -0.87083494, -0.5168726 ,
         0.72242021,  0.46297551, -0.56137218, -0.80614617, -1.30031499]])

In [297]:
np.save('ch04_01.npy',a)

In [299]:
b = np.load('ch04_01.npy')
b[:2]

array([[ 0.18405909, -0.86679036, -0.97714308, -0.78884804,  0.60735299,
        -0.12213656, -1.24228735, -0.74541575,  0.65323785,  1.01748583],
       [-0.77502296,  0.38355232, -1.60004461, -0.87083494, -0.5168726 ,
         0.72242021,  0.46297551, -0.56137218, -0.80614617, -1.30031499]])

In [300]:
a = np.arange(12).reshape(4,3)
b = np.random.randn(3,3)

np.save('ch04_01.npy',[a,b])

In [301]:
a,b = np.load('ch04_01.npy')
display(a,b)

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11]])

array([[ 0.73757256,  0.29742186, -1.19514435],
       [-0.21904762,  0.74418617, -0.18195216],
       [-0.9891875 ,  0.41694769, -1.15362452]])

- 텍스트 파일 불러오기

### 선형대수 (행렬계산)
- 행렬곱은 np.dot(), np.matmul() 을 사용한다. 둘의 기능은 거의 같다.
- 행렬곱은 a @ b 도 가능하다.

In [7]:
a = np.arange(3)
b = np.arange(1,4)
display(a,b)

np.dot(a,b) # np.matmul()

array([0, 1, 2])

array([1, 2, 3])

8

In [11]:
c = np.arange(6).reshape(3,2)
display(a,c)

np.dot(a,c)

array([0, 1, 2])

array([[0, 1],
       [2, 3],
       [4, 5]])

array([10, 13])

In [13]:
np.dot(a.reshape(1,-1), c)

array([[10, 13]])

In [14]:
d = np.arange(8).reshape(2,4)
display(c,d)

np.dot(c,d)

array([[0, 1],
       [2, 3],
       [4, 5]])

array([[0, 1, 2, 3],
       [4, 5, 6, 7]])

array([[ 4,  5,  6,  7],
       [12, 17, 22, 27],
       [20, 29, 38, 47]])

- 행렬식과 역행렬은 아래와 같이 linalg 모듈을 사용한다.

In [22]:
from numpy import linalg

r1 = linalg.det(np.arange(4).reshape(2,2))
r2 = linalg.inv(np.arange(4).reshape(2,2))
display(r1,r2)

-2.0

array([[-1.5,  0.5],
       [ 1. ,  0. ]])

### 기타 기능
- np.nan
- np.inf, -np.inf
- np.newaxis

In [74]:
np.log(-1)

  if __name__ == '__main__':


nan

In [76]:
n = np.nan
display(n==np.nan)
display(np.isnan(n))

False

True

In [77]:
l = [5,3,7,1,6]
n = np.inf

for i in l:
    if i<n: n=i
        
print(n)

1


In [82]:
a = np.array([1,2,3,4,5])
b = a[:,np.newaxis]
c = a[np.newaxis,:]

display(a, b, c)

array([1, 2, 3, 4, 5])

array([[1],
       [2],
       [3],
       [4],
       [5]])

array([[1, 2, 3, 4, 5]])

In [81]:
display(np.pi, np.e)

3.141592653589793

2.718281828459045