# **Numpy**
- 작성자: 이수동 (울산대학교 산업경영공학부 | sudonglee@ulsan.ac.kr)
- 참고자료: 권철민, 『파이썬 머신러닝 완벽 가이드』, 위키북스(2020).

# **Introduction**

- 데이터 분석을 위해서는 대용량 배열을 기반으로 한 다양한 종류의 수리 연산이 필요합니다. 
- 특히, 선형대수(linear algebra) 기반의 행렬 연산을 자주 수행하게 됩니다.
- *Numerical Python*을 의미하는 **Numpy**는 대용량의 배열과 행렬 연산을 빠르게 수행하며, 고차원적인 수학 연산자와 함수를 포함하고 있는 Python 라이브러리입니다.

## **Numpy `ndarray` 개요**
- `ndarray`는 Numpy가 지원하는 대표 데이터 타입입니다. 
- `ndarray`는 고차원의 배열 데이터(행렬) 기반 작업을 효과적으로 수행할 수 있도록 다양한 기능을 지원합니다. 

가장 먼저 `numpy`를 `import` 해보겠습니다.

In [3]:
import numpy as np

`numpy`의 기본 데이터 타입은 `ndarray`입니다. `ndarray`를 이용해 다차원 배열을 쉽게 생성하고 연산을 수행할 수 있습니다.

In [3]:
ls = [2, 3, 4]
print(type(ls))

<class 'list'>


## **`ndarray`의 데이터 타입**

- `ndarray` 내의 값은 숫자, 문자열, 불리언 등 모두 가능합니다. 
- 하지만 연산을 위해 하나의 `ndarray` 내에는 하나의 데이터 타입만 존재할 수 있습니다.
- `ndarray` 안에 서로 다른 데이터 타입이 존재하는 경우, 모든 값은 크기가 더 큰 타입으로 자동 변환됩니다.

In [5]:
list1 = [1,2,3]
print(type(list1))
array1 = np.array(list1)
print(type(array1))
print(array1, array1.dtype)

<class 'list'>
<class 'numpy.ndarray'>
[1 2 3] int64


In [6]:
list2 = [1, 2, 'test'] # str >> int, 표현할 수 있는 변수가 많은 class가 더 큼
array2 = np.array(list2)
print(array2, array2.dtype)

list3 = [1, 2, 3.0]
array3 = np.array(list3)
print(array3, array3.dtype)

['1' '2' 'test'] <U21
[1. 2. 3.] float64


In [7]:
array_int = np.array([1, 2, 3])
array_float = array_int.astype('float64') # astype: 원하는 타입으로 변환
print(array_float, array_float.dtype)

array_int1= array_float.astype('int32')
print(array_int1, array_int1.dtype)

array_float1 = np.array([1.1, 2.1, 3.1])
array_int2= array_float1.astype('int32')
print(array_int2, array_int2.dtype)


[1. 2. 3.] float64
[1 2 3] int32
[1 2 3] int32


## **`ndarray`의 차원 이해하기**
- `npdarray`은 주로 *다차원 배열*을 효과적으로 다루기 위해 사용합니다.
- *다차원 배열*의 특징을 이해하기 위해서 먼저 `ndarray`의 **차원**이 무엇인지 살펴봅시다. 

### `ndarray.shape()`: `ndarray`의 형태
`ndarray`의 `shape()` 메서드는 `ndarray`의 *형태*를 출력합니다. 


In [8]:
array1 = np.array([1,2,3])
print('array1: \n', array1)
print('array1 array 형태:', array1.shape)

array2 = np.array([[1,2,3],
                  [2,3,4]])
print('array2: \n', array2)
print('array2 array 형태:', array2.shape)

array3 = np.array([[1,2,3]])
print('array3: \n', array3)
print('array3 array 형태:', array3.shape)

array1: 
 [1 2 3]
array1 array 형태: (3,)
array2: 
 [[1 2 3]
 [2 3 4]]
array2 array 형태: (2, 3)
array3: 
 [[1 2 3]]
array3 array 형태: (1, 3)


In [9]:
array4 = np.array([[[1, 2, 3], [4, 5, 6]], [[7, 8, 9], [10, 11, 12]]])
print('array4: \n', array4)
print('array4 array 형태:', array4.shape)

array4: 
 [[[ 1  2  3]
  [ 4  5  6]]

 [[ 7  8  9]
  [10 11 12]]]
array4 array 형태: (2, 2, 3)


### `ndarray.ndim()`: `ndarray`의 차원의 수

In [10]:
print(f'array1: {array1.ndim}차원, array2: {array2.ndim}차원, array3: {array3.ndim}차원, array4: {array4.ndim}차원')

array1: 1차원, array2: 2차원, array3: 2차원, array4: 3차원


### `ndarray.reshape()`: 차원 변환
`reshape()` 메서드는 `ndarray`를 특정 차원 및 크기로 변환합니다. 

In [17]:
array1 = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12])
print('array1:\n', array1)

array2 = array1.reshape(2,6)
print('array2:\n',array2)

array3 = array1.reshape(4,3)
print('array3:\n',array3)

array1:
 [ 1  2  3  4  5  6  7  8  9 10 11 12]
array2:
 [[ 1  2  3  4  5  6]
 [ 7  8  9 10 11 12]]
array3:
 [[ 1  2  3]
 [ 4  5  6]
 [ 7  8  9]
 [10 11 12]]


`reshape()`은 지정된 사이즈로 변경이 불가능하면 오류를 발생합니다.

In [14]:
array1.reshape(5,2)

array([[ 1,  2],
       [ 3,  4],
       [ 5,  6],
       [ 7,  8],
       [ 9, 10]])

- 인자를 `-1`로 사용하면 편리합니다.
- `-1` 인자는 나머지 사이즈 인자로 변환이 가능하도록 자동으로 값을 할당하라는 의미입니다.

In [23]:
array1 = np.arange(12)
print(array1)
print('array1 shape:',array1.shape)

array2 = array1.reshape(-1,3)
print('array2 shape:',array2.shape)

array3 = array1.reshape(5,-1)
print('array3 shape:',array3.shape)

[ 0  1  2  3  4  5  6  7  8  9 10 11]
array1 shape: (12,)
array2 shape: (4, 3)


ValueError: ignored

In [None]:
array1 = np.arange(10)
array1.reshape(7,-1)

In [25]:
array1 = np.array([1, 2, 3, 4, 5, 6, 7, 8])
print('array1:\n',array1)

array3d = array1.reshape((2,2,2))
print('array3d:\n',array3d)

# 3차원 ndarray를 2차원 ndarray로 변환 
array5 = array3d.reshape(-1,1)
print('array5:\n',array5)
print('array5 shape:',array5.shape)

# 1차원 ndarray를 2차원 ndarray로 변환
array6 = array1.reshape(-1,1)
print('array6:\n',array6)
print('array6 shape:',array6.shape)

array1:
 [1 2 3 4 5 6 7 8]
array3d:
 [[[1 2]
  [3 4]]

 [[5 6]
  [7 8]]]
array5:
 [[1]
 [2]
 [3]
 [4]
 [5]
 [6]
 [7]
 [8]]
array5 shape: (8, 1)
array6:
 [[1]
 [2]
 [3]
 [4]
 [5]
 [6]
 [7]
 [8]]
array6 shape: (8, 1)


## **`ndarray` 편리하게 생성하기 - `arange`, `zeros`, `ones`**

- 초기화, 인덱싱 등의 목적으로 특정 크기와 차원을 가진 연속값, `0` 또는 `1`로 채워진 배열을 생성할 일이 자주 있습니다. 
- 이때 `numpy`가 제공하는 함수를 이용하면 편리합니다.

### `np.arange()`: 연속된 정수 값의 `ndarray` 생성

In [26]:
sequence_array = np.arange(10) # np.arange(end)
print(sequence_array)
print(sequence_array.dtype, sequence_array.shape)

[0 1 2 3 4 5 6 7 8 9]
int64 (10,)


In [None]:
print(np.arange(2, 4)) # np.arange(start, end)

### `np.zeros()`: `0`이 채워진 `ndarray` 생성

In [7]:
zero_array1 = np.zeros(1)
print(zero_array1)
print(zero_array1.dtype, zero_array1.shape)

zero_array2 = np.zeros((3,2),dtype='int32')
print(zero_array2)
print(zero_array2.dtype, zero_array2.shape)

[0.]
float64 (1,)
[[0 0]
 [0 0]
 [0 0]]
int32 (3, 2)


### `np.ones()`: `1`이 채워진 `ndarray` 생성

In [28]:
one_array = np.ones((3,2))
print(one_array)
print(one_array.dtype, one_array.shape)

[[1. 1.]
 [1. 1.]
 [1. 1.]]
float64 (3, 2)


In [31]:
print(np.ones(10))
print(np.ones((5, 5)))

[1. 1. 1. 1. 1. 1. 1. 1. 1. 1.]
[[1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1.]]


In [4]:
print(zero_array1//one_array)

NameError: ignored

## **`ndarray` 데이터 선택하기 - 인덱싱(Indexing)**

`ndarray` 내의 특정 데이터만을 선택할 수 있는 인덱싱(indexing)에 대해 알아보겠습니다. 
1. 특정 데이터만 추출: 원하는 위치의 인덱스 값을 지정하면 해당 위치의 데이터가 반환됩니다.
2. 슬라이싱(Slicing): 연속된 순서의 데이터를 반환합니다. (i.e., m번째부터 n번째까지)
3. 팬시 인덱싱(Fancy Indexing): 인덱싱 집합을 `list` 또는 `ndarray` 형태로 지정해 해당 위치에 있는 데이터의 `ndarray`를 반환합니다. 
4. 불리언 인덱싱(Boolean Indexing): True/False 값 인덱싱 집합을 기반으로 데이터를 반환합니다.

### 단일값 추출
가장 유의해야 할 점은 인덱스의 시작 값이 `0`이라는 것입니다.

In [20]:
from numpy.core.arrayprint import dtype_is_implied
# 1에서 부터 9 까지의 1차원 ndarray 생성 
array1 = np.arange(start=1, stop=10)
print('array1:',array1)
# index는 0 부터 시작하므로 array1[2]는 3번째 index 위치의 데이터 값을 의미
value = array1[0]
print('value:',value)
print(type(value))

array1: [1 2 3 4 5 6 7 8 9]
value: 1
<class 'numpy.int64'>


In [21]:
print(array1[0])

1


In [22]:
print('맨 뒤의 값:',array1[-1], ', 맨 뒤에서 두번째 값:',array1[-2])

맨 뒤의 값: 9 , 맨 뒤에서 두번째 값: 8


In [23]:
array1[0] = 9
array1[8] = 0
print('array1:',array1)

array1: [9 2 3 4 5 6 7 8 0]


In [24]:
array1d = np.arange(start=1, stop=10)
array2d = array1d.reshape(3,3)
print(array2d)

print('(row=0,col=0) index 가리키는 값:', array2d[0,0] )
print('(row=0,col=1) index 가리키는 값:', array2d[0,1] )
print('(row=1,col=0) index 가리키는 값:', array2d[1,0] )
print('(row=2,col=2) index 가리키는 값:', array2d[2,2] )

[[1 2 3]
 [4 5 6]
 [7 8 9]]
(row=0,col=0) index 가리키는 값: 1
(row=0,col=1) index 가리키는 값: 2
(row=1,col=0) index 가리키는 값: 4
(row=2,col=2) index 가리키는 값: 9


In [26]:
print(array2d[0,2])

3


### Slicing

In [27]:
array1 = np.arange(1, 10)
print('array1:\n', array1)
array3 = array1[0:3]
print('array3:\n', array3)
print(type(array3))

array1:
 [1 2 3 4 5 6 7 8 9]
array3:
 [1 2 3]
<class 'numpy.ndarray'>


In [28]:
array1 = np.arange(start=1, stop=10)
array4 = array1[:3]
print(array4)

array5 = array1[3:]
print(array5)

array6 = array1[:]
print(array6)

[1 2 3]
[4 5 6 7 8 9]
[1 2 3 4 5 6 7 8 9]


In [None]:
array1d = np.arange(start=1, stop=10)
array2d = array1d.reshape(3,3)
print('array2d:\n',array2d)

In [32]:
print(array2d)
print('array2d[0:2, 0:2] \n', array2d[0:2, 0:2])
print('array2d[1:3, 0:3] \n', array2d[1:3, 0:3])
print('array2d[1:3, :] \n', array2d[1:3, :])
print('array2d[:, :] \n', array2d[:, :])
print('array2d[:2, 1:] \n', array2d[:2, 1:])
print('array2d[:2, 0] \n', array2d[:2, 0])

[[1 2 3]
 [4 5 6]
 [7 8 9]]
array2d[0:2, 0:2] 
 [[1 2]
 [4 5]]
array2d[1:3, 0:3] 
 [[4 5 6]
 [7 8 9]]
array2d[1:3, :] 
 [[4 5 6]
 [7 8 9]]
array2d[:, :] 
 [[1 2 3]
 [4 5 6]
 [7 8 9]]
array2d[:2, 1:] 
 [[2 3]
 [5 6]]
array2d[:2, 0] 
 [1 4]


In [33]:
print(array2d[0])
print(array2d[1])
print('array2d[0] shape:', array2d[0].shape, 'array2d[1] shape:', array2d[1].shape )

[1 2 3]
[4 5 6]
array2d[0] shape: (3,) array2d[1] shape: (3,)


### **Fancy indexing**

In [34]:
array1d = np.arange(start=1, stop=10)
array2d = array1d.reshape(3,3)
print('array2d:\n', array2d)

array3 = array2d[[0,1], 2]
print('array2d[[0,1], 2]:\n', array3)

array4 = array2d[[0,1], 0:2]
print('array2d[[0,1], 0:2]:\n', array4)

array5 = array2d[[0,1]]
print('array2d[[0,1]]:\n', array5)

array2d:
 [[1 2 3]
 [4 5 6]
 [7 8 9]]
array2d[[0,1], 2]:
 [3 6]
array2d[[0,1], 0:2]:
 [[1 2]
 [4 5]]
array2d[[0,1]]:
 [[1 2 3]
 [4 5 6]]


### Boolean indexing

In [35]:
array1d = np.arange(start=1, stop=10)
# [ ] 안에 array1d > 5 Boolean indexing을 적용 
array3 = array1d[array1d > 5]
print('array1d:', array1d)
print('array1d > 5:', array1d > 5)
print('array1d > 5 불린 인덱싱 결과 값 :', array3)

array1d: [1 2 3 4 5 6 7 8 9]
array1d > 5: [False False False False False  True  True  True  True]
array1d > 5 불린 인덱싱 결과 값 : [6 7 8 9]


In [37]:
print('array1d 중 짝수:', array1d[array1d%2 == 0])

array1d 중 짝수: [2 4 6 8]


## **행렬의 정렬 – sort( )와 argsort( )**

- `numpy`에서 행렬을 정렬하는 `np.sort()`와 `ndarray.sort()`, 그리고 정렬된 행렬의 인덱스를 반환하는 `argsort()`에 대해 알아보겠습니다.
- 덧붙여 함수(`np.sort()`)와 메서드(`ndarray.sort()`)의 차이점도 알아보겠습니다.

In [39]:
org_array = np.array([3, 1, 9, 5]) 
print('원본 행렬:', org_array)
# np.sort( )로 정렬 
sort_array1 = np.sort(org_array)
print ('np.sort( ) 호출 후 반환된 정렬 행렬:', sort_array1)
print('np.sort( ) 호출 후 원본 행렬:', org_array)
# ndarray.sort( )로 정렬
sort_array2 = org_array.sort()
print('org_array.sort( ) 호출 후 반환된 행렬:', sort_array2) # 반환되는 값이 없음
print('org_array.sort( ) 호출 후 원본 행렬:', org_array)

원본 행렬: [3 1 9 5]
np.sort( ) 호출 후 반환된 정렬 행렬: [1 3 5 9]
np.sort( ) 호출 후 원본 행렬: [3 1 9 5]
org_array.sort( ) 호출 후 반환된 행렬: None
org_array.sort( ) 호출 후 원본 행렬: [1 3 5 9]


In [41]:
org_array = np.array([3, 1, 9, 5]) 
print(org_array)
print(org_array[::-1])
print(np.sort(org_array))

[3 1 9 5]
[5 9 1 3]
[1 3 5 9]


In [42]:
sort_array1_desc = np.sort(org_array)[::-1]
print ('내림차순으로 정렬:', sort_array1_desc) 

내림차순으로 정렬: [9 5 3 1]


In [43]:
array2d = np.array([[8, 12], 
                   [7, 1 ]])

sort_array2d_axis0 = np.sort(array2d, axis=0)
print('로우 방향으로 정렬:\n', sort_array2d_axis0)
print('로우 방향으로 역순 정렬:\n', sort_array2d_axis0[::-1])

sort_array2d_axis1 = np.sort(array2d, axis=1)
print('컬럼 방향으로 정렬:\n', sort_array2d_axis1)
print('컬럼 방향으로 역순 정렬:\n', sort_array2d_axis1[:,::-1])

로우 방향으로 정렬:
 [[ 7  1]
 [ 8 12]]
로우 방향으로 역순 정렬:
 [[ 8 12]
 [ 7  1]]
컬럼 방향으로 정렬:
 [[ 8 12]
 [ 1  7]]
컬럼 방향으로 역순 정렬:
 [[12  8]
 [ 7  1]]


### 정렬 행렬의 인덱스 반환

In [44]:
org_array = np.array([3, 1, 9, 5]) 
sort_indices = np.argsort(org_array)
print(type(sort_indices))
print('행렬 정렬 시 원본 행렬의 인덱스:', sort_indices)

# 학생들 성적으로 순위 매길때 사용

<class 'numpy.ndarray'>
행렬 정렬 시 원본 행렬의 인덱스: [1 0 3 2]


In [45]:
org_array = np.array([3, 1, 9, 5]) 
sort_indices_desc = np.argsort(org_array)[::-1]
print('행렬 내림차순 정렬 시 원본 행렬의 인덱스:', sort_indices_desc)

행렬 내림차순 정렬 시 원본 행렬의 인덱스: [2 3 0 1]


In [46]:
import numpy as np

name_array = np.array(['John', 'Mike', 'Sarah', 'Kate', 'Samuel'])
score_array= np.array([78, 95, 84, 98, 88])

sort_indices_asc = np.argsort(score_array)
print('성적 오름차순 정렬 시 score_array의 인덱스:', sort_indices_asc)
print('성적 오름차순으로 name_array의 이름 출력:', name_array[sort_indices_asc])

성적 오름차순 정렬 시 score_array의 인덱스: [0 2 4 1 3]
성적 오름차순으로 name_array의 이름 출력: ['John' 'Sarah' 'Samuel' 'Mike' 'Kate']


## **행렬 연산**

### 행렬의 사칙연산

In [47]:
A = np.array([[1, 2, 3],
              [4, 5, 6]])
B = np.array([[7, 8, 9],
              [10, 11, 12]])
sum_array = A+B
sub_array = A-B
print('행렬 덧셈 결과:\n', sum_array)
print('행렬 뺄셈 결과:\n', sub_array)
print('행렬 곱셈 결과:\n', A*B)
print('행렬 나눗셈 결과:\n', A/B)

행렬 덧셈 결과:
 [[ 8 10 12]
 [14 16 18]]
행렬 뺄셈 결과:
 [[-6 -6 -6]
 [-6 -6 -6]]
행렬 곱셈 결과:
 [[ 7 16 27]
 [40 55 72]]
행렬 나눗셈 결과:
 [[0.14285714 0.25       0.33333333]
 [0.4        0.45454545 0.5       ]]


### 행렬 내적

In [48]:
A = np.array([[1, 2, 3],
              [4, 5, 6]])
B = np.array([[7, 8],
              [9, 10],
              [11, 12]])

dot_product = np.dot(A, B)
print('행렬 내적 결과:\n', dot_product)

행렬 내적 결과:
 [[ 58  64]
 [139 154]]


### 전치 행렬

In [None]:
A = np.array([[1, 2],
              [3, 4]])
transpose_mat = np.transpose(A)
print('A의 전치 행렬:\n', transpose_mat)