### 1. 넘파이 ndarray 개요

In [1]:
import numpy as np

- 기본적으로 as np와 같이 약어로 모듈을 표현해주는 것이 관례
- 넘파이의 기본 데이터 타입: ndarray → 다차원 배열 생성 및 연산 수행

In [4]:
array1 = np.array([1, 2, 3])
print('array1 type:', type(array1))
print('array1 array 형태:', array1.shape)

array2 = np.array([[1, 2, 3],
                   [2, 3, 4]])
print('array2 type:', type(array2))
print('array2 array 형태:', array2.shape)

array1 type: <class 'numpy.ndarray'>
array1 array 형태: (3,)
array2 type: <class 'numpy.ndarray'>
array2 array 형태: (2, 3)


- np.array() : 인자를 ndarray로 변환하여 반환
- ndarray.shpae : ndarray의 차원과 크기를 튜플 형태로 반환(예: (3, ) → 1차원, 3개 데이터 / (2, 3) → 2차원, 2개의 row와 3개의 column으로 이루어짐)

In [5]:
print('array1의 차원:', array1.ndim)
print('array2의 차원:', array2.ndim)

array1의 차원: 1
array2의 차원: 2


- ndarray.ndim : ndarray의 차원 확인

### 2. ndarray의 데이터 타입

- ndarray 내의 데이터값은 숫자, 문자열, bool 모두 가능
- 다만 ndarray 내의 데이터는 연산 특성 상 모두 같은 타입이어야 함. int와 float이 함께 존재할 수 없음
- dtype 이용, ndarray 내의 데이터 타입 확인 가능

In [6]:
list1 = [1, 2, 3]
print(type(list1))

array1 = np.array(list1)
print(type(array1))
print(array1, array1.dtype)

<class 'list'>
<class 'numpy.ndarray'>
[1 2 3] int64


- 다른 데이터 타입이 섞여있을 경우, 데이터 크기가 더 큰 데이터 타입으로 형 변환 일괄 적용

In [7]:
list2 = [1, 2, 'test'] # int와 string이 공존
array2 = np.array(list2)
print(array2, array2.dtype)

list3 = [1, 2, 3.0]
array3 = np.array(list3)
print(array3, array3.dtype)

['1' '2' 'test'] <U21
[1. 2. 3.] float64


- list2의 경우 int값이 모두 유니코드 문자열 값으로, list3의 경우 int값이 모두 float64 값으로 형변환 됨

- astype() 메서드 : ndarray 내의 데이터를 일괄적으로 형 변환 가능
- 가령 int 값으로도 가능한 경우인데 데이터 타입이 float일 때 메모리 절약을 위해 astype('int')를 이용, 메모리를 절약하는 경우로 많이 사용

In [8]:
# int → float
array_int = np.array([1, 2, 3])
array_float = array_int.astype('float64')
print(array_float, array_float.dtype)

# float → int
# float → int 형 변환 시 소수점 이하는 제거됨
array_int1 = array_float.astype('int32')
print(array_int1, array_int1.dtype)

# float → int
array_float1 = np.array([1.1, 2.1, 3.1])
array_int2 = array_float1.astype('int32')
print(array_int2, array_int2.dtype)

[1. 2. 3.] float64
[1 2 3] int32
[1 2 3] int32


### 3. arange, zeros, ones

- arange() : range()와 유사한 기능. array()를 range()로 표현
- 0부터 함수 인자 값 -1까지의 값을 순차적으로 ndarray 데이터값으로 변환
- np.arange(start, end) : start부터 end - 1 값까지 ndarray 생성

In [9]:
# 0부터 9까지 ndarray로 표현
sequence_array = np.arange(10)
print(sequence_array)
print(sequence_array.dtype, sequence_array.shape)

[0 1 2 3 4 5 6 7 8 9]
int64 (10,)


- zeros() : 함수 인자로 튜플 형태의 shape 값을 입력 → 모든 값을 0으로 채운 해당 shpae 형태의 ndarray 생성
- ones() : 위와 동일하나 모든 값을 1로 채움
- dtype을 정해주지 않을 경우 default로 float64 데이터 지정

In [11]:
zero_array = np.zeros((3, 2), dtype = 'int32')
print(zero_array)
print(zero_array.dtype, zero_array.shape)

one_array = np.ones((3, 2))
print(one_array)
print(one_array.dtype, one_array.shape)

[[0 0]
 [0 0]
 [0 0]]
int32 (3, 2)
[[1. 1.]
 [1. 1.]
 [1. 1.]]
float64 (3, 2)


### 4. reshape()
- reshape() : ndarray를 특정 차원 및 크기로 변환

In [12]:
# 0 ~ 9까지의 값으로 ndarray 생성
array1 = np.arange(10)
print('array1:\n', array1)

# (2, 5)로 변환
array2 = array1.reshape(2, 5)
print('array2:\n', array2)

# (5, 2)로 변환
array3 = array1.reshape(5, 2)
print('array3:\n', array3)

array1:
 [0 1 2 3 4 5 6 7 8 9]
array2:
 [[0 1 2 3 4]
 [5 6 7 8 9]]
array3:
 [[0 1]
 [2 3]
 [4 5]
 [6 7]
 [8 9]]


### 5. 인덱싱
- 1. 특정 데이터만 추출 : 원하는 위치의 인덱스 값을 지정
- 2. 슬라이싱 : ':' 사이에 시작 인덱스와 인덱스를 표시 → 시작 인덱스 ~ (종료 인덱스 - 1) 까지의 데이터 반환
- 3. 팬시 인덱싱 : 일정 인덱싱 집합을 리스트 또는 ndarray에 저장, 해당 위치에 있는 ndarray 반환
- 4. 불린 인덱싱 : 특정 조건에 해당하는지 여부(True/False)값 인덱싱 집합을 기반, True에 해당하는 ndarray 반환

1) 단일 값 추출

In [13]:
# 1 ~ 9 까지의 ndarray 생성
array1 = np.arange(start = 1, stop = 10)
print('array1:', array1)

# 인덱스 2에 해당하는 값(세번째 값) 추출
value = array1[2]
print('value:', value)
print(type(value))

array1: [1 2 3 4 5 6 7 8 9]
value: 3
<class 'numpy.int64'>


- 마이너스 값 : 뒤에서부터 데이터를 추출
- 인덱스 -1 : 맨 뒤의 데이터값, -2 : 맨 뒤에서 두 번째 데이터값

In [14]:
print('맨 뒤의 값:', array1[-1], '맨 뒤에서 두 번째 값:', array1[-2])

맨 뒤의 값: 9 맨 뒤에서 두 번째 값: 8


In [15]:
# 단일 인덱스를 이용, ndarray값 수정
array1[0] = 9
array1[8] = 0
print('array1:', array1)

array1: [9 2 3 4 5 6 7 8 0]


2) 슬라이싱

In [16]:
array1 = np.arange(start = 1, stop = 10)
array3 = array1[0:3] # 인덱스 0부터 인덱스 2까지 슬라이싱
print(array3)
print(type(array3))

[1 2 3]
<class 'numpy.ndarray'>


- 시작 인덱스 생략 : 0부터 시작
- 종료 인덱스 생략 : 끝까지
- 둘 다 생략 : 처음부터 끝까지

In [17]:
# 시작 인덱스 생략
print(array1[:3])

# 종료 인덱스 생략
print(array1[3:])

# 둘 다 생략
print(array1[:])

[1 2 3]
[4 5 6 7 8 9]
[1 2 3 4 5 6 7 8 9]


3) 팬시 인덱싱

In [18]:
array1d = np.arange(start = 1, stop = 10)
array2d = array1d.reshape(3, 3) # 2차원 ndarray 생성

array3 = array2d[[0, 1], 2]
print('array2d[[0, 1], 2] = > ', array3.tolist())

array2d[[0, 1], 2] = >  [3, 6]


4) 불린 인덱싱

In [20]:
array1d = np.arange(start = 1, stop = 10)

# 불린 인덱싱 적용
array3 = array1d[array1d > 5]
print('array1d > 5 불린 인덱싱 값:', array3)

array1d > 5 불린 인덱싱 값: [6 7 8 9]


In [21]:
array1d > 5

array([False, False, False, False, False,  True,  True,  True,  True])

- 위의 결과에서 True에 해당하는 6, 7, 8, 9 값만 인덱싱 되어 출력됨

### 6. sort(), argsrot()

- np.sort() : 원 행렬을 유지한 채 정렬된 행렬 반환
- ndarray.sort() : 원 행렬 자체를 정렬하여 변환. 반환 값은 None

In [22]:
# 원 행렬
org_array = np.array([3, 1, 9, 5])
print('원본 행렬:', org_array)

# np.sort()
sort_array1 = np.sort(org_array)
print('np.sort() 호출 후 반환된 정렬 행렬:', sort_array1)
print('np.sort() 호출 후 반환된 원본 행렬:', org_array)

# ndarray.sort()
sort_array2 = org_array.sort()
print('org_array.sort() 호출 후 반환된 정렬 행렬:', sort_array2)
print('org_array.sort() 호출 후 반환된 원본 행렬:', org_array)

원본 행렬: [3 1 9 5]
np.sort() 호출 후 반환된 정렬 행렬: [1 3 5 9]
np.sort() 호출 후 반환된 원본 행렬: [3 1 9 5]
org_array.sort() 호출 후 반환된 정렬 행렬: None
org_array.sort() 호출 후 반환된 원본 행렬: [1 3 5 9]


- 내림차순 정렬 : [::-1] 사용

In [23]:
sort_array1_desc = np.sort(org_array)[::-1]
print('내림차순 정렬:', sort_array1_desc)

내림차순 정렬: [9 5 3 1]


- np.argsort() : 원본 행렬을 정렬 후, 기존 원본 행렬의 원소에 대한 인덱스가 필요한 경우 이용

In [24]:
# 원본 행렬 생성
org_array = np.array([3, 1, 9, 5])
sort_indices = np.argsort(org_array)
print(type(sort_indices))
print('행렬 정렬 시 원본 행렬의 인덱스:', sort_indices)

<class 'numpy.ndarray'>
행렬 정렬 시 원본 행렬의 인덱스: [1 0 3 2]


In [25]:
# argsort() 활용 : 넘파이의 데이터 추출에서 많이 사용

# 학생 이름과 점수 ndarray 생성
name_array = np.array(['john', 'mike', 'sarah', 'kate', 'samuel'])
score_array = np.array([78, 95, 84, 98, 88])

# 성적 오름차순 후, 그 인덱스 저장
sort_indices_asc = np.argsort(score_array)
print('성적 오름차순 정렬 시 score_array의 인덱스:', sort_indices_asc)
# 성적 오름차순 정렬 시 그 등수
print('성적 오름차순으로 name_array 출력:', name_array[sort_indices_asc]) # 팬시 인덱싱 적용

성적 오름차순 정렬 시 score_array의 인덱스: [0 2 4 1 3]
성적 오름차순으로 name_array 출력: ['john' 'sarah' 'samuel' 'mike' 'kate']


### 7. 행렬 내적, 전치 행렬

행렬 내적(행렬 곱)
- np.dot()을 이용해 계산 가능

In [26]:
A = np.array([[1, 2, 3],
              [4, 5, 6]])
B = np.array([[7, 8],
              [9, 10],
              [11, 12]])

dot_product = np.dot(A, B)
print('행렬 내적 결과:', dot_product)

행렬 내적 결과: [[ 58  64]
 [139 154]]


전치 행렬
- 원 행렬에서 행과 열의 위치를 교환한 것
- 예 ) 2x2 행렬 → 1행 2열의 원소를 2행 1열, 2행 1열의 원소를 1행 2열로 교환
- transpose() 이용

In [28]:
A = np.array([[1, 2],
             [3, 4]])
transpose_mat = np.transpose(A)
print('A의 전치 행렬:\n', transpose_mat)

A의 전치 행렬:
 [[1 3]
 [2 4]]
