# CHAPTER7 NumPy

## 7.1 NumPy 개요

### 7.1.1 NumPy가 하는 일

- 넘파이 : 파이썬으로 **벡터나 행렬 계산**을 빠르게 하도록 특화된 기본 라이브러리
- 라이브러리 : 외부에서 읽어 들이는 파이썬 코드 묶음
- 라이브러리 안에는 여러 모듈이 포함되어 있고, 모듈은 많은 함수들이 통합된 것

### 7.1.2 NumPy의 고속 처리 경험하기
- 파이썬의 느린 벡터,행렬 계산 처리 속도를 넘파이가 보완한다

In [2]:
import numpy as np
import time
from numpy.random import rand

# 행,열 크기
N= 150

# 행렬을 초기화한다
matA = np.array(rand(N,N))
matB = np.array(rand(N,N))
matC = np.array([[0] * N for _ in range(N)])

# 시작 시간 지정
start = time.time()

# 파이썬의 리스트를 사용해 계산
# for문으로 행렬 곱셈을 실행한다
for i in range(N):
    for j in range(N):
        for k in range(N):
            matC[i][j] = matA[i][k] * matB[k][j]

print('파이썬 기능만으로 계산한 결과: %.2f[sec]' %float(time.time() - start))

start = time.time()
matC = np.dot(matA, matB)

print('넘파이로 계산한 결과: %.2f[sec]' %float(time.time() - start))

파이썬 기능만으로 계산한 결과: 3.28[sec]
넘파이로 계산한 결과: 0.01[sec]


## 7.2 NumPy 1차원 배열

### 7.2.1 import

- NumPy를 import할 때는 import numpy
- import한 NumPy는 numpy.모듈명 형태로 사용한다
- import numpy as np, np로 축약해서 사용가능하다

In [3]:
import numpy as np

### 7.2.2 1차원 배열
- 넘파이에는 배열을 고속으로 처리하는 ndarray 클래스가 있다
- np.array()로 ndarray를 생성한다

In [4]:
np.array([1,2,3])

array([1, 2, 3])

In [5]:
np.arange(4)

array([0, 1, 2, 3])

In [8]:
array_1d = np.array([1,2,3,4,5,6,7,8])
array_2d = np.array([[1,2,3,4], [5,6,7,8]])
array_3d = np.array([[[1,2], [3,4]], [[5,6], [7,8]]])

### 7.2.3 1차원 배열의 계산

- 리스트에서 요소별로 계산하기 위해 루프시키고 하나씩 더했지만 넘파이에서는 루프를 사용하지 않아도 된다
- ndarray의 산술 연산은 같은 위치에 있는 요소끼리 계산된다

In [9]:
s = [1,2,3,4]
new_s = []
for n in s:
    n += n
    new_s.append(n)
new_s

[2, 4, 6, 8]

In [10]:
s = np.array([1,2,3,4])
s += s
s

array([2, 4, 6, 8])

In [11]:
arr = np.array([2,5,3,4,8])

print(arr + arr)
print(arr - arr)
print(arr**3)
print(1/arr)


[ 4 10  6  8 16]
[0 0 0 0 0]
[  8 125  27  64 512]
[0.5        0.2        0.33333333 0.25       0.125     ]


### 7.2.4 인덱스 참조와 슬라이스

- 리스트처럼 인덱싱, 슬라이싱 가능하다

In [12]:
arr = np.arange(10)
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [13]:
arr[:3] = 1
arr

array([1, 1, 1, 3, 4, 5, 6, 7, 8, 9])

In [14]:
arr[3:6]

array([3, 4, 5])

In [15]:
arr[3:6] = 24
arr

array([ 1,  1,  1, 24, 24, 24,  6,  7,  8,  9])

### 7.2.5 ndarray 사용시 주의사항

- ndarray 배열을 다른 변수에 그대로 대입한 경우 해당 변수의 값을 변경하면 원래 ndarray 배열 값도 변경된다
- ndarray 복사해서 두개의 변수를 별도로 만들땐 copy를 쓴다


In [16]:
arr1 = np.array([1,2,3,4,5])
arr2 = arr1

arr2[0] = 100
arr1

array([100,   2,   3,   4,   5])

In [17]:
arr1 = np.array([1,2,3,4,5])
arr2 = arr1.copy()

arr2[0] = 100
arr1

array([1, 2, 3, 4, 5])

### 7.2.6 view와 copy

- 리스트와 넘파이 배열의 차이는 넘파이의 슬라이스는 배열의 복사본이 아닌 view라는 것이다
- view는 원래 배열의 데이터를 의미
- 넘파이 슬라이싱은 원래 배열을 변경한다
- 슬라이싱을 복사본으로 만들려면 copy를 사용한다

In [20]:
arr_list = [x for x in range(10)]
arr_list_copy = arr_list[:]
arr_list_copy[0] = 100
arr_list, arr_list_copy

([0, 1, 2, 3, 4, 5, 6, 7, 8, 9], [100, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [23]:
arr_np = np.arange(10)
arr_np_view = arr_np[:]
arr_np_view[0] = 100
arr_np, arr_np_view # 넘파이의 슬라이스는 view가 대입되므로 arr_np_view를 변경하면 원본인 arr_np도 변경된다

(array([100,   1,   2,   3,   4,   5,   6,   7,   8,   9]),
 array([100,   1,   2,   3,   4,   5,   6,   7,   8,   9]))

In [24]:
# 넘파이에 copy 쓸 경우
arr_np = np.arange(10)
arr_np_view = arr_np[:].copy()
arr_np_view[0] = 100
arr_np, arr_np_view # copy를 쓰면 복사본이 생성되기 때문에 arr_np_view는 원본인 arr_np에 영향을 미치지 않는다

(array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9]),
 array([100,   1,   2,   3,   4,   5,   6,   7,   8,   9]))

### 7.2.7 불 인덱스 참조

- arr[ndarray 논리값 배열] : 불 값 배열의 True에 해당하는 요소의 ndarray를 만들어 반환한다

- 이 내용 밑바딥에서 본 기억이 남. 렐루 함수 구현시 0이하인 수들 0으로 바꿀 때 0아래 값들이 True가 나오게 한다음 0으로 바꿔주었다

In [25]:
arr = np.array([2,4,6,7])
arr[np.array([True, True, True, False])]

array([2, 4, 6])

In [26]:
# 이렇게 보니까 판다스 조건문 걸어서 원하는 부분 추출하는 것과 비슷하다
arr[arr % 3 == 1]

array([4, 7])

In [29]:
# arr의 각 요소가 2로 나눠지는지 나타내는 불 배열 출력
# 위의 요소 배열 출력

arr = np.array([2,3,4,5,6,7])

arr % 2 == 0, arr[arr % 2 == 0]

(array([ True, False,  True, False,  True, False]), array([2, 4, 6]))

### 7.2.8 범용 함수

- 범용 함수 : ndarray 배열의 각 요소에 대한 연산 결과를 반환하는 함수
- 요소별로 계산하므로 다차원 배열도 가능
- np.abs, np.exp, np.sqrt, np.add, np.subtract, np.maximum

In [30]:
# arr의 각 요소들을 절댓값으로 변수 arr_abs에 넣어라
# arr_abs의 각 요소의 e의 거듭제곱과 제곱근을 출력하라

arr = np.array([4, -9, 16, -4, 20])

arr_abs = np.abs(arr)
arr_abs

array([ 4,  9, 16,  4, 20])

In [31]:
print(np.exp(arr_abs))
print(np.sqrt(arr_abs))

[5.45981500e+01 8.10308393e+03 8.88611052e+06 5.45981500e+01
 4.85165195e+08]
[2.         3.         4.         2.         4.47213595]


### 7.2.9 집합 함수

- 집합 함수 : 수학의 집합 연산을 수행하는 함수
- 1차원 배열만 대상으로 한다
- np.unique : 배열 요소에서 중복을 제거하고 정렬한 결과를 반환
- np.union1d(x,y) : 배열 x와 y의 합집합을 정렬해서 반환
- np.intersect1d(x,y) : 배열 x와 y의 교집합을 정렬해서 반환
- np.setdiff1d(x,y) : 배열 x에서 배열 y를 뺀 차집합을 정렬해서 반환

In [34]:
# np.unique()로 변수 arr1에서 중복을 제거한 배열을 new_arr1에 넣어라
# new_arr1과 arr2의 합집합
# new_arr1과 arr2의 교집합
# new_arr1에서 arr2을 뺀 차집합

arr1 = [2,5,7,9,5,2]
arr2 = [2,5,8,3,1]

new_arr1 = np.unique(arr1)
print(new_arr1)
print(np.union1d(new_arr1,arr2))
print(np.intersect1d(new_arr1,arr2))
print(np.setdiff1d(new_arr1,arr2))

[2 5 7 9]
[1 2 3 5 7 8 9]
[2 5]
[7 9]


### 7.2.10 난수

- np.random 모듈로 난수 생성 가능
- np.random, np.random.rand, np.random.ranint, np.random.noraml 등등

In [39]:
# np.random을 적지 않아도 randint를 쓰게 import하라
# arr1에 각 요소가 0 이상 10이하인 정수 행렬(5,2)을 대입하라
# arr2에 0 이상 1미만의 난수를 3개 생성해서 대입하라
from numpy.random import randint

arr1 = randint(0,11,(5,2))
arr2 = np.random.rand(3)
print(arr1)
print(arr2)

[[1 7]
 [6 1]
 [5 8]
 [1 6]
 [7 6]]
[0.24690585 0.1625012  0.41266748]


## 7.3 NumPy 2차원 배열

### 7.3.1 2차원 배열

- 2차원 배열은 행렬
- ndarray.shape : 각 차원의 요소 수를 반환
- ndarray.reshape(a,b) : 지정한 인수와 같은 모양의 행렬로 변환

In [40]:
# arr에 리스트 [[1,2,3,4], [5,6,7,8]]을 2차원 배열로 변환하여 대입
# arr행렬의 각 차원의 요소 수를 출력
# arr을 4행 2열 행렬로 변환

arr = np.array([[1,2,3,4], [5,6,7,8]])
print(arr.shape)
print(arr.reshape(4,2))

(2, 4)
[[1 2]
 [3 4]
 [5 6]
 [7 8]]


### 7.3.2 인덱스 참조와 슬라이스

- 2차원 배열의 경우 인덱스를 하나만 지정해서 임의의 행을 배열로 가져올 수 있다

In [41]:
arr = np.array([[1,2,3], [4,5,6]])
arr

array([[1, 2, 3],
       [4, 5, 6]])

- 2차원이므로 인덱스를 두 개 지정해야 한다
- ex) arr[1][2]

In [43]:
arr[1,2]

6

- 매트릭스에서 슬라이스도 가능하다

In [46]:
arr[1,1:], arr[1], arr[1,:]

(array([5, 6]), array([4, 5, 6]), array([4, 5, 6]))

In [50]:
# arr의 요소 중 3을 출력
# arr에서 [[4,5],[7,8]]만 부분적으로 추출하라

arr = np.array([[1,2,3], [4,5,6], [7,8,9]])
print(arr)
print(arr[0,2])
print(arr[1:, :2])

[[1 2 3]
 [4 5 6]
 [7 8 9]]
3
[[4 5]
 [7 8]]


### 7.3.3 axis

- 2차원 배열에서는 axis라는 개념이 중요하다
- axis는 좌표축과 같다. 
- 열단위는 axis=0, 행단위는 axis=1

In [51]:
arr = np.array([[1,2,3], [4,5,6]])

print(arr.sum()) # 전체 합계
print(arr.sum(axis=0)) # 열단위, 세로로 계산됨
print(arr.sum(axis=1)) # 행단위, 가로로 계산됨

21
[5 7 9]
[ 6 15]


In [52]:
# arr행의 합을 구하여 [6 21 57]을 반환하라

arr = np.array([[1,2,3], [4,5,12], [15,20,22]])

print(arr.sum(axis=1))

[ 6 21 57]


### 7.3.4 팬시 인덱스 참조

- 인덱스 참조로 인덱스 배열을 이용하는 방법
- ndarray 배열에서 특정 순서로 행을 추출하려면 그 순서를 나타내는 배열을 인덱스 참조로 전달하면 된다
- 팬시 인덱스 참조는 슬라이스와 달리 항상 원본 데이터의 복사본을 반환하여 새로운 요소를 작성하게 된다

In [53]:
arr = np.array([[1,2], [3,4], [5,6], [7,8]])
arr[[3,2,0]] # 3행 2행 0행을 순서대로 추출해서 새로운 요소를 만든다 / 인덱스 번호는 0부터 시작한다

array([[7, 8],
       [5, 6],
       [1, 2]])

In [58]:
# 팬시 인덱스 참조로 arr의 2행, 4행, 1행 순서로 배열을 출력(여기서 말하는 행은 인덱스 번호와는 별도로 1행부터 센 행을 말함)

arr = np.arange(25).reshape(5,5)
print(arr)
arr[[1,3,0]]

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]
 [15 16 17 18 19]
 [20 21 22 23 24]]


array([[ 5,  6,  7,  8,  9],
       [15, 16, 17, 18, 19],
       [ 0,  1,  2,  3,  4]])

### 7.3.5 전치 행렬

- 행렬에서 행과 열을 바꾸는 것을 전치라 한다
- 전치 행렬은 행렬의 내적 계산 등에 사용한다

In [59]:
arr = np.arange(10).reshape(2,5)
arr.T

array([[0, 5],
       [1, 6],
       [2, 7],
       [3, 8],
       [4, 9]])

### 7.3.6 정렬

- ndarray도 리스트처럼 sort()로 정렬 가능하다
- 2차원 배열은 0을 인수로 하면 열단위로, 1을 인수로 하면 행단위로 정렬된다
- np.sort()는 sort()와 달리 정렬된 배열의 복사본을 반환한다
- argsort() : 정렬된 배열의 인덱스를 반환한다

In [63]:
# arr을 argsort로 정렬해서 출력
# arr을 np.sort로 정렬해서 출력 
# arr을 sort로 행 정렬해서 출력

arr = np.array([[8,4,2], [3,5,1]])
print(np.argsort(arr))
print(np.sort(arr))

arr.sort(1)
print(arr)

[[2 1 0]
 [2 0 1]]
[[2 4 8]
 [1 3 5]]
[[2 4 8]
 [1 3 5]]


### 7.3.7 행렬 계산

- np.dot(a,b) : 두 행렬곱을 반환
- np.linalg.norm(a) : 노름을 반환
- 행렬곱 : 행렬에서 행벡터와 열벡터의 내적을 요소로 하는 행렬을 새로 생성하는 것
- 노름 : 벡터의 길이를 반환, 요소의 제곱값을 더하고 루트를 씌운다

In [64]:
# arr,arr의 행렬곱을 출력
# vec의 노름을 출력

arr = np.arange(9).reshape(3,3)
vec = arr.reshape(9)

print(np.dot(arr,arr))
print(np.linalg.norm(vec))

[[ 15  18  21]
 [ 42  54  66]
 [ 69  90 111]]
14.2828568570857


### 7.3.8 통계 함수

- 통계 함수 : ndarray 배열 전체, 특정 축을 중심으로 수학적 처리를 수행하는 함수, 메서드 ex) sum
- mean(), np.average(), np.max(), np.min(), **np.argmax()**(요소의 최댓값의 인덱스 번호를 반환), np.argmin()
- np.std() - 표준편차, np.var() - 분산
- 어떤 축을 중심으로 처리할지를 axis=0,1로 지정한다

In [70]:
# arr의 각 열 평균
# arr의 행 합계
# arr의 최솟값
# arr의 각 열의 최댓값의 인덱스 번호

arr = np.arange(15).reshape(3,5)

print(arr.mean(axis=0))
print(np.sum(arr, axis=1))

print(np.min(arr))
print(arr.min())

print(np.argmax(arr, axis=0))
print(arr.argmax(axis=0))

[5. 6. 7. 8. 9.]
[10 35 60]
0
0
[2 2 2 2 2]
[2 2 2 2 2]


### 7.3.9 브로드캐스트

- 크기가 다른 넘파이 배열 간의 연산은 브로드캐스트가 자동으로 이루어진다
- 브로드캐스트는 두 ndarray연산시 크기가 작은 배열의 행과 열을 자동을 큰 배열쪽으로 맞춰준다
- 두 배열의 행이 일치하지 않으면 행이 적은 쪽이 많은 쪽의 수에 맞추어 부족한 부분을 기존 행에서 복사한다
- 열도 마찬가지이다

In [72]:
# 0에서 14사이 정숫값을 가진 ndarray 배열 x에서 0에서 4사이 정숫값을 가진 ndarray 배열 y를 빼라

x = np.arange(15).reshape(3,5)
y = np.array([np.arange(5)])
x,y

(array([[ 0,  1,  2,  3,  4],
        [ 5,  6,  7,  8,  9],
        [10, 11, 12, 13, 14]]), array([[0, 1, 2, 3, 4]]))

In [73]:
x - y

array([[ 0,  0,  0,  0,  0],
       [ 5,  5,  5,  5,  5],
       [10, 10, 10, 10, 10]])

In [88]:
# 각 요소가 0~30인 정수행렬 5x3을 arr에 대입
# arr을 전치
# arr의 2,3,4열만 추출한 행렬 3x3을 arr1에 대입
# arr1의 행을 정렬
# 각 열의 평균 출력

np.random.seed(100)
arr = np.random.randint(0,31,(5,3)) # 30이 아니라 31!!
arr = arr.T
print(arr)

arr1 = arr[:, 1:4]
print(arr1)

arr1.sort(0)
print(arr1)
print(np.mean(arr1, axis=0))

[[ 8  7 16 20  2]
 [24 23 10  2  2]
 [ 3 15 30 21 14]]
[[ 7 16 20]
 [23 10  2]
 [15 30 21]]
[[ 7 10  2]
 [15 16 20]
 [23 30 21]]
[15.         18.66666667 14.33333333]


- 이미지 차이 계산 문제
- 0~5 사이 정수를 색으로 가정
- 이미지는 2차원 데이터, 행렬
- 난수로 지정한 크기의 이미지를 생성하는 함수 만들기
- 전달된 행렬의 일부분을 난수로 변경하는 함수 만들기
- 생성된 이미지들의 각 요소의 차이의 절댓값을 계산해서 새 이미지에 대입





```
if np.random.randint(0,2) == 1:

이런식으로 무작위를 줄 수 있다
```



In [101]:
np.random.seed(0)

def make_image(m,n):
    image = np.random.randint(0,6, (m,n)) # 5가 아니라 6. 조심하자
    return image

def change_little(matrix): 
    shape = matrix.shape
    for i in range(shape[0]):
        for j in range(shape[1]):
            if np.random.randint(0,2) == 1: # 아 각 성분에 대해 변경 여부를 무작위로 결정해주려고 매번 0~2사이 무작위로 수를 만드는데 1이 나오면
                matrix[i][j] = np.random.randint(0,6,1) # 해당 부분의 숫자를 랜덤으로 변경.
    return matrix


image1 = make_image(3,3)
image2 = change_little(np.copy(image1))

image3 = np.abs(image2 - image1)
print(image1)
print(image2)
print(image3)

[[4 5 0]
 [3 3 3]
 [1 3 5]]
[[4 5 0]
 [3 3 3]
 [0 5 5]]
[[0 0 0]
 [0 0 0]
 [1 2 0]]
