# **넘파이(NumPy)**

# [개념정리]
**넘파이란?**
- 넘파이(NumPy) : Numerical Python의 약자
- 파이썬에서 선형대수 기반의 프로그램을 쉽게 만들 수 있도록 지원하는 대표적인 패키지
- 루프를 사용하지 않고 대량 데이터의 배열 연산을 가능하게 하여 빠른 배열 연산 속도를 보장함


**넘파이 ndarray 개요**
- 넘파이 모듈 임포트 방법 : **import numpy as np**

 (np라는 약어를 사용하여 모듈을 표현하는 것이 관례)
- 넘파이의 기반 데이터 타입은 ndarray로, ndarray를 이용하여 넘파이에서 다차원 배열을 쉽게 생성하고 다양한 연산을 수행할 수 있음
- 넘파이의 다양한 함수
  - **array()**: 파이썬의 리스트와 같은 다양한 인자를 입력받아 ndarray로 변환하는 기능을 수행함
  - **ndarray.shape**: ndarray의 크기, 즉 행과 열의 수를 튜플 형태로 가지고 있고, 이를 통하여 ndarray 배열의 차원까지 알 수 있음
  - **ndarray.ndim**: 생성된 ndarray의 차원을 알 수 있음


**ndarray의 데이터 타입**
- ndarray내에서 가능한 데이터 타입: 숫자 값, 문자열 값, 불 값 등
- ndarray내의 데이터 타입은 그 연산의 특성상 같은 데이터 타입만 가능함

  ex) 한개의 ndarray객체에 int와 float가 함께 있을 수 없음
  
  -> 즉 데이터 타입이 2개 이상인 경우 더 큰 데이터 타입으로 변환되어 나타남
- **ndarray.dtype**: 데이터 타입을 확인 가능함
- **ndarray.astype()**: ndarray 내 데이터값의 타입을 변경하는 방법으로 원하는 타입을 문자열로 지정하면 됨

**ndarray를 편리하게 생성하기 - arange, zeros, ones**
- 특정 크기와 차원을 가진 ndarray를 연속값이나 0 또는 1로 초기화하여 쉽게 생성해야 할 때 사용됨

    ex) 테스트용으로 데이터를 만드는 경우, 대규모의 데이터를 일괄적으로 초기화해야 하는 경우

  1) **arange()**: 파이썬의 표준 함수인 range()와 유사한 기능을 수행하는 함수로, 0부터 함수 인자 값 -1까지의 값을 순차적으로 ndarray의 데이터 값으로 변환해줌
  - 이때 내부에 들어간 값(default 함수 인자)는 stop값으로 인식됨 (미만의 값)
  
  2) **zeros()**: 함수인자로 튜플 형태의 shape 값을 입력하면 모든 값을 0으로 채운 해당 shape를 가진 ndarray를 반환함

  3) **ones()**: zeros()와 유사하게 튜플형태의 shape 값을 입력하면 모든 값을 1로 채운 해당 shape를 가진 ndarray를 반환함

  ** ones()의 경우 dtype을 따로 정해주지 않으면 default로 float64형의 데이터로 darray를 채움

**ndarray의 차원과 크기를 변경하는 reshape()**
- **reshape()**: ndarray를 특정 차원 및 크기로 변환함
  - 변환을 원하는 크기를 함수 인자로 부여 하면 됨
  - reshape()의 경우, 지정된 사이즈로 변경이 불가능하면 **ValueError**인 오류를 발생시킴!!
  - -1을 인자로 적용할 경우, 원래 ndarray와 호환되는 새로운 shape로 변환해줌

  ** 하지만 이경우에도 호환될 수 없는 형태를 적을 경우, **ValueError** 오류가 발생함
- **ndarray.tolist()**: ndarray의 자료형을 리스트 자료형으로 변환하는 함수

**넘파이의 ndarray의 데이터 세트 선택하기 - 인덱싱(Indexing)**
- 인덱싱(Indexing)

  1. **특정 데이터 추출**: 원하는 위치의 인덱스 값을 지정하면 해당 위치의 데이터가 반환됨
  2. **슬라이싱(Slicing)**: 슬라이싱은 연속된 인덱스 상의 ndarray를 추출하는 방식으로, ':' 기호 사이에 시작 인덱스와 종료 인덱스를 표시하면 시작 인덱스에서 종료 인덱스-1 위치에 있는 데이터의 ndarray를 반환함
  3. **팬시 인덱싱(Fancy Indexing)**: 일정한 인덱싱 집합을 리스트 또는 ndarray 형태로 지정하여 해당 위치에 있는 데이터의 ndarray를 반환함
  4. **불린 인덱싱(Boolean indexing)**: 특정 조건에 해당하는지 여부인 True/False 값 인덱싱 집합을 기반으로 True에 해당하는 인덱스 위치에 있는 데이터의 ndarray를 반환함
  ** Boolean indexing의 순서

  - **Step 1**: ndarray의 필터링 조건을 []안에 기재

  - **Step 2**: False값은 무시하고 True 값에 해당하는 인덱스 값만 저장
  
    (유의: True값 자체인 1을 저장하는 것이 아닌 True값의 인덱스를 저장)

  - **Step 3**: 저장된 인덱스 데이터 세트로 ndarray 조회

**행렬의 정렬 - sort()와 argsort()**
- 행렬 정렬
  - **np.sort()**: 넘파이의 sort()를 호출하는 방식
  - **ndarray.sort()**: 행렬 자체에서 sort()를 호출하는 방식

  ---

  ** 두 방식의 차이
  
  np.sort(): 원 행렬은 그대로 유지한 채 원 행렬의 정렬된 행렬을 반환함
  
  ndarray.sort(): 원 행렬 자체를 정렬한 형태로 변환하며 반환값은 None을 반환

  ---

  - 2차원의 행렬의 정렬의 경우 row방향은 axis=0 으로, column방향은 axis=1로 정렬함
  -  내림차순 정렬의 경우, sort()뒤에 [::-1]을 붙여서 정렬 가능


- 정렬된 행렬의 인덱스 반환: **argsort()**
  - 이때 정렬 행렬의 원본 행렬 인덱스를 ndarray 형으로 반환함


**선형대수 연산 - 행렬 내적과 전치 행렬 구하기**
- 행렬 내적(행렬 곱): **np.dot()**
  
  ex) 두 행렬 A와 B의 내적의 경우, 왼쪽 행렬(A)의 로우(행)와 오른쪽 행렬(B)의 칼럼(열)의 원소들을 순차적으로 곱한 뒤 그 결과를 모두 더한 값을 나타냄

- 전치 행렬: **transpose()**

  ex) 2*2의 행렬 A를 가정하면 1행 2열의 원소가 2행 1열의 원소로, 2행 1열의 원소가 1행 2열의 원소로 교환하는 것 (A^T로 나타냄)

# [코드필사]

In [1]:
import numpy as np

In [3]:
array1 = np.array([1, 2, 3])
print('array1 type:', type(array1))
print('array1 array 형태:', array1.shape)

array2 = np.array([[1, 2, 3], [2, 3, 4]])
print('array2 type:', type(array2))
print('array2 array 형태:', array2.shape)

array3 = np.array([[1, 2, 3]])
print('array3 type', type(array3))
print('array3 array 형태', array3.shape)

array1 type: <class 'numpy.ndarray'>
array1 array 형태: (3,)
array2 type: <class 'numpy.ndarray'>
array2 array 형태: (2, 3)
array3 type <class 'numpy.ndarray'>
array3 array 형태 (1, 3)


여기서 array1과 array3의 경우, array1은 1차원 array로 3개의 데이터를 가지고 있음을 의미하는 반면, array3의 경우 (1, 3)으로 나타난 점을 보아 1개의 row, 3개의 column을 의미하여 이들의 데이터는 2차원의 형태임을 확인할 수 있다.  

In [4]:
print('array1: {0}차원, array2: {1}차원, array3: {2}차원'.format(array1.ndim, array2.ndim, array3.ndim))


array1: 1차원, array2: 2차원, array3: 2차원


이에 따라 해당 데이터의 차원을 보면 위에서 추측한 바와 같이 array1은 1차원, array2는 2차원, array3도 마찬가지로 2차원의 형태임을 알 수 있다.

즉, 리스트 [ ]는 1차원의 형태, 리스트 리스트 [[ ]]는 2차원의 형태라는 것이다.

In [5]:
list1 = [1, 2, 3]
print(type(list1))
array1 = np.array(list1)
print(type(array1))
print(array1, array1.dtype)

<class 'list'>
<class 'numpy.ndarray'>
[1 2 3] int64


In [6]:
list2 = [1, 2, 'test']
array2 = np.array(list2)
print(array2, array2.dtype)

list3 = [1, 2, 3.0]
array3 = np.array(list3)
print(array3, array3.dtype)

['1' '2' 'test'] <U21
[1. 2. 3.] float64


In [3]:
array_int = np.array([1, 2, 3])
array_float = array_int.astype('float64')
print(array_float, array_float.dtype)

array_int1 = array_float.astype('int32')
print(array_int1, array_int1.dtype)

array_float1 = np.array([1.1, 2.1, 3.1])
array_int2 = array_float1.astype('int32')
print(array_int2, array_int2.dtype)

[1. 2. 3.] float64
[1 2 3] int32
[1 2 3] int32


In [4]:
sequence_array = np.arange(10)
print(sequence_array)
print(sequence_array.dtype, sequence_array.shape)

[0 1 2 3 4 5 6 7 8 9]
int64 (10,)


In [2]:
zero_array = np.zeros((3, 2), dtype='int32')
print(zero_array)
print(zero_array.dtype, zero_array.shape)

one_array = np.ones((3, 2))
print(one_array)
print(one_array.dtype, one_array.shape)

[[0 0]
 [0 0]
 [0 0]]
int32 (3, 2)
[[1. 1.]
 [1. 1.]
 [1. 1.]]
float64 (3, 2)


In [3]:
array1 = np.arange(10)
print('array1:\n', array1)

array2 = array1.reshape(2, 5)
print('array:\n', array2)

array3 = array1.reshape(5, 2)
print('array3:\n', array3)

array1:
 [0 1 2 3 4 5 6 7 8 9]
array:
 [[0 1 2 3 4]
 [5 6 7 8 9]]
array3:
 [[0 1]
 [2 3]
 [4 5]
 [6 7]
 [8 9]]


In [4]:
array1.reshape(4, 3)

ValueError: cannot reshape array of size 10 into shape (4,3)

reshpe()는 지정된 사이즈로 변경이 불가능하면 오류를 발생시킨다.
즉, 여기선 (10,)데이터를 (4,3)Shape 형태로 변경할 수 없기 때문에 ValueError 오류가 나타난 것이다.

In [5]:
array1 = np.arange(10)
print(array1)
array2 = array1.reshape(-1, 5)
print('array2 shape:', array2.shape)
array3 = array1.reshape(5, -1)
print('array3 shape:', array3.shape)

[0 1 2 3 4 5 6 7 8 9]
array2 shape: (2, 5)
array3 shape: (5, 2)


In [6]:
array1 = np.arange(10)
array4 = array1.reshape(-1, 4)

ValueError: cannot reshape array of size 10 into shape (4)

array4의 경우, 10개의 1차원 데이터를 고정된 4개의 칼럼을 가진 로우로는 변경할 수 없기에 reshape(-1, 4)에서 ValueError 오류가 발생하게 된다.

In [8]:
array1 = np.arange(8)
array3d = array1.reshape((2, 2, 2))
print('array3d:\n', array3d.tolist())

# 3차원 ndarray를 2차원 ndarray로 변환
array5 = array3d.reshape(-1, 1)
print('array5:\n', array5.tolist())
print('array5 shape:', array5.shape)

# 1차원 ndarray를 2차원 ndarray로 변환
array6 = array1.reshape(-1,1)
print('array6:\n', array6.tolist())
print('array6 shape:', array6.shape)

array3d:
 [[[0, 1], [2, 3]], [[4, 5], [6, 7]]]
array5:
 [[0], [1], [2], [3], [4], [5], [6], [7]]
array5 shape: (8, 1)
array6:
 [[0], [1], [2], [3], [4], [5], [6], [7]]
array6 shape: (8, 1)


In [9]:
# 1부터 9까지의 1차원 ndarray 생성
array1 = np.arange(start=1, stop=10)
print('array1:', array1)
# index는 0부터 시작하므로 array1[2]는 3번째 index 위치의 데이터값을 의미
value = array1[2]
print('value:', value)
print(type(value))

array1: [1 2 3 4 5 6 7 8 9]
value: 3
<class 'numpy.int64'>


In [15]:
print('맨 뒤의 값:', array1[-1], ' 맨 뒤에서 두 번째 값:', array1[-2])

맨 뒤의 값: 9  맨 뒤에서 두 번째 값: 8


In [16]:
array1[0] = 9
array1[8] = 0
print('array1:', array1)

array1: [9 2 3 4 5 6 7 8 0]


In [17]:
array1d = np.arange(start=1, stop=10)
array2d = array1d.reshape(3, 3)
print(array2d)

print('(row=0, col=0) index 가리키는 값:', array2d[0, 0])
print('(row=0, col=1) index 가리키는 값:', array2d[0, 1])
print('(row=1, col=0) index 가리키는 값:', array2d[1, 0])
print('(row=2, col=2) index 가리키는 값:', array2d[2, 2])

[[1 2 3]
 [4 5 6]
 [7 8 9]]
(row=0, col=0) index 가리키는 값: 1
(row=0, col=1) index 가리키는 값: 2
(row=1, col=0) index 가리키는 값: 4
(row=2, col=2) index 가리키는 값: 9


In [18]:
array1 = np.arange(start=1, stop=10)
array3 = array1[0:3]
print(array3)
print(type(array3))

[1 2 3]
<class 'numpy.ndarray'>


In [20]:
array1 = np.arange(start=1, stop=10)
array4 = array1[:3]
print(array4)

array5 = array1[3:]
print(array5)

array6 = array1[:]
print(array6)

[1 2 3]
[4 5 6 7 8 9]
[1 2 3 4 5 6 7 8 9]


In [21]:
array1d = np.arange(start=1, stop=10)
array2d = array1d.reshape(3, 3)
print('array2d:\n', array2d)

print('array2d[0:2, 0:2] \n', array2d[0:2, 0:2])
print('array2d[1:3, 0:3] \n', array2d[1:3, 0:3])
print('array2d[1:3, :] \n', array2d[1:3, :])
print('array2d[:, :] \n', array2d[:, :])
print('array2d[:2, 1:] \n', array2d[:2, 1:])
print('array2d[:2, 0] \n', array2d[:2, 0])

array2d:
 [[1 2 3]
 [4 5 6]
 [7 8 9]]
array2d[0:2, 0:2] 
 [[1 2]
 [4 5]]
array2d[1:3, 0:3] 
 [[4 5 6]
 [7 8 9]]
array2d[1:3, :] 
 [[4 5 6]
 [7 8 9]]
array2d[:, :] 
 [[1 2 3]
 [4 5 6]
 [7 8 9]]
array2d[:2, 1:] 
 [[2 3]
 [5 6]]
array2d[:2, 0] 
 [1 4]


In [22]:
print(array2d[0])
print(array2d[1])
print('array2d[0] shape:', array2d[0].shape, 'array2d[1] shape:', array2d[1].shape)

[1 2 3]
[4 5 6]
array2d[0] shape: (3,) array2d[1] shape: (3,)


In [24]:
array1d = np.arange(start=1, stop=10)
array2d = array1d.reshape(3, 3)

array3 = array2d[[0, 1], 2]
print('array2d[[0, 1], 2]=>', array3.tolist())

array4 = array2d[[0, 1], 0:2]
print('array2d[[0, 1], 0:2]=>', array4.tolist())

array5 = array2d[[0, 1]]
print('array2d[[0, 1]]=>', array5.tolist())

array2d[[0, 1], 2]=> [3, 6]
array2d[[0, 1], 0:2]=> [[1, 2], [4, 5]]
array2d[[0, 1]]=> [[1, 2, 3], [4, 5, 6]]


In [25]:
array1d = np.arange(start=1, stop=10)
# [ ] 안에 array1d > 5 Boolean indexing을 적용
array3 = array1d[array1d > 5]
print('array1d > 5 불린 인덱싱 결과 값:', array3)

array1d > 5 불린 인덱싱 결과 값: [6 7 8 9]


In [26]:
array1d > 5

array([False, False, False, False, False,  True,  True,  True,  True])

In [27]:
boolean_indexes = np.array([False, False, False, False, False, True, True, True, True])
array3 = array1d[boolean_indexes]
print('불린 인덱스로 필터링 결과:', array3)

불린 인덱스로 필터링 결과: [6 7 8 9]


In [28]:
indexes = np.array([5, 6, 7, 8])
array4 = array1d[indexes]
print('일반 인덱스로 필터링 결과:', array4)

일반 인덱스로 필터링 결과: [6 7 8 9]


In [30]:
org_array = np.array([3, 1, 9, 5])
print('원본 행렬:', org_array)
# np.sort()로 정렬
sort_array1 = np.sort(org_array)
print('np.sort() 호출 후 반환된 정렬 행렬:', sort_array1)
print('np.sort() 호출 후 원본 행렬:', org_array)
# ndarray.sort()로 정렬
sort_array2 = org_array.sort()
print('org_array.sort() 호출 후 반환된 행렬:', sort_array2)
print('org_array.sort() 호출 후 원본 행렬:', org_array)

원본 행렬: [3 1 9 5]
np.sort() 호출 후 반환된 정렬 행렬: [1 3 5 9]
np.sort() 호출 후 원본 행렬: [3 1 9 5]
org_array.sort() 호출 후 반환된 행렬: None
org_array.sort() 호출 후 원본 행렬: [1 3 5 9]


In [31]:
sort_array1_desc = np.sort(org_array)[::-1]
print('내림차순으로 정렬:', sort_array1_desc)

내림차순으로 정렬: [9 5 3 1]


In [32]:
array2d = np.array([[8, 12], [7, 1]])

sort_array2d_axis0 = np.sort(array2d, axis=0)
print('로우 방향으로 정렬:\n', sort_array2d_axis0)

sort_array2d_axis1 = np.sort(array2d, axis=1)
print('칼럼 방향으로 정렬:\n', sort_array2d_axis1)

로우 방향으로 정렬:
 [[ 7  1]
 [ 8 12]]
칼럼 방향으로 정렬:
 [[ 8 12]
 [ 1  7]]


In [33]:
org_array = np.array([3, 1, 9, 5])
sort_indices = np.argsort(org_array)
print(type(sort_indices))
print('행렬 정렬 시 원본 행렬의 인덱스:', sort_indices)

<class 'numpy.ndarray'>
행렬 정렬 시 원본 행렬의 인덱스: [1 0 3 2]


In [34]:
org_array = np.array([3, 1, 9, 5])
sort_indices_desc = np.argsort(org_array)[::-1]
print('행렬 내림차순 정렬 시 원본 행렬의 인덱스:', sort_indices_desc)

행렬 내림차순 정렬 시 원본 행렬의 인덱스: [2 3 0 1]


In [35]:
import numpy as np

name_array = np.array(['John', 'Mike', 'Sarah', 'Kate', 'Samuel'])
score_array = np.array([78, 95, 84, 98, 88])

sort_indices_asc = np.argsort(score_array)
print('성적 오름차순 정렬 시 score_array의 인덱스:', sort_indices_asc)
print('성적 오름차순으로 name_array의 이름 출력:', name_array[sort_indices_asc])

성적 오름차순 정렬 시 score_array의 인덱스: [0 2 4 1 3]
성적 오름차순으로 name_array의 이름 출력: ['John' 'Sarah' 'Samuel' 'Mike' 'Kate']


In [36]:
A = np.array([[1, 2, 3], [4, 5, 6]])
B = np.array([[7, 8], [9, 10], [11, 12]])
dot_product = np.dot(A, B)
print('행렬 내적 결과:\n', dot_product)

행렬 내적 결과:
 [[ 58  64]
 [139 154]]


In [37]:
A = np.array([[1, 2], [3, 4]])
transpose_mat = np.transpose(A)
print('A의 전치 행렬:\n', transpose_mat)

A의 전치 행렬:
 [[1 3]
 [2 4]]
