# 파이썬 머신러닝 완벽가이드 예제

In [1]:
import numpy as np

In [3]:
array1d = np.arange(start=1, stop=10)
array2d = array1d.reshape(3, 3)
print(array2d)

print('(row=0, col=0) index 가리키는 값:', array2d[0,0])
print('(row=0, col=1) index 가리키는 값:', array2d[0,1])
print('(row=1, col=0) index 가리키는 값:', array2d[1,0])
print('(row=2, col=2) index 가리키는 값:', array2d[2,2])

[[1 2 3]
 [4 5 6]
 [7 8 9]]
(row=0, col=0) index 가리키는 값: 1
(row=0, col=1) index 가리키는 값: 2
(row=1, col=0) index 가리키는 값: 4
(row=2, col=2) index 가리키는 값: 9


----------------------------------------------------------------

# ndarray의 데이터 타입

- ndarray내의 데이터 타입은 dtype 속성으로 확인
- 다른 데이터 유형의 섞여 있는 리스트를 ndarray로 변경하면 데이터 크기가 더 큰 데이터 타입으로 형 변환을 일괄 적용

- ndarray 내 데이터값의 타입 변경도 astype()메서드를 이용, 주로 메모리를 절약해야 할 때 보통 이용

In [4]:
import numpy as np

list2 = [1, 2, 'test']
array2 = np.array(list2)
print(array2, array2.dtype)  #1, 2는 문자열 '1', '2'로 바뀜

list3 = [1, 2, 3.0]
array3 = np.array(list3)
print(array3, array3.dtype)

###########################################

array_int = np.array([1, 2, 3])
array_float = array_int.astype('float64')
print(array_float, array_float.dtype)

array_float1 = np.array([1.1, 2.1, 3.1])
array_int2 = array_float1.astype('int32')
print(array_int2, array_int2.dtype)

['1' '2' 'test'] <U11
[1. 2. 3.] float64
[1. 2. 3.] float64
[1 2 3] int32


----------------------------------------------------------------

# ndarray 편리하게 생성 - arange, zeros, ones

In [8]:
import numpy as np

sequence_array = np.arange(10)
print(sequence_array)
print(sequence_array.dtype, sequence_array.shape)

#############################

zero_array = np.zeros((3, 2), dtype ='int32')
print(zero_array)
print(zero_array.dtype, zero_array.shape)

one_array = np.ones((3, 2))
print(one_array)
print(one_array.dtype, one_array.shape)

[0 1 2 3 4 5 6 7 8 9]
int32 (10,)
[[0 0]
 [0 0]
 [0 0]]
int32 (3, 2)
[[1. 1.]
 [1. 1.]
 [1. 1.]]
float64 (3, 2)


----------------------------------------------------------------

# ndarray의 차원과 크기를 변경하는 reshape()

- -1 인자를 사용하면 원래 ndarray와 호환되는 새로운 shape로 변환해 준다.

In [10]:
import numpy as np

array1 = np.arange(10)
print(array1)
array2 = array1.reshape(-1, 5)
print('array2 shape: ', array2.shape)
array3 = array1.reshape(5, -1)
print('array3 shape: ', array3.shape)

[0 1 2 3 4 5 6 7 8 9]
array2 shape:  (2, 5)
array3 shape:  (5, 2)


----------------------------------------------------------------

## 팬시 인덱싱
: 리스트나 ndarray로 인덱스 집합을 지정하면 해당 위치의 인덱스에 해당하는 ndarray를 반환하는 인덱싱 방식

- 특정한 데이터만 추출
- 슬라이싱, 팬시 인덱싱, 불린 인덱싱

In [19]:
array1d = np.arange(start=1, stop=10)
array2d = array1d.reshape(3, 3)

array3 = array2d[[0,1],2]
print('array2d[[0,1],2] => ', array3.tolist()) # tolist: 같은 위치에 있는 애들끼리 묶어준다.

array4 = array2d[[0,1], 0:2]
print('array2d[[0,1], 0:2] => ', array4.tolist())

array5 = array2d[[0,1]]
print('array2d[[0,1]] => ', array5.tolist())

array2d[[0,1],2] =>  [3, 6]
array2d[[0,1], 0:2] =>  [[1, 2], [4, 5]]
array2d[[0,1]] =>  [[1, 2, 3], [4, 5, 6]]


----------------------------------------------------------------

## 불린 인덱싱
: 조건 필터링과 검색을 동시에 할 수 있기 때문에 매우 자주 사용되는 인덱싱 방식

In [16]:
array1d = np.arange(start=1, stop=10)
# [] 안에 array1d > 5 Boolean indexing을 적용
array3 = array1d[array1d > 5 ]
print('array1d > 5 불린 인덱싱 결과 값 : ', array3)
print('array1d > 5 불린 인덱싱 결과 값 : ', array1d > 5)

array1d > 5 불린 인덱싱 결과 값 :  [6 7 8 9]
array1d > 5 불린 인덱싱 결과 값 :  [False False False False False  True  True  True  True]


In [18]:
boolean_indexes = np.array([False, False, False, False, False,  True,  True,  True,  True])
array3 = array1d[boolean_indexes]
print('불린 인덱스로 필터링 결과 : ', array3)

불린 인덱스로 필터링 결과 :  [6 7 8 9]


----------------------------------------------------------------

# 행렬의 정렬 
- argsort() : 원본 행렬이 정렬되었을 때 기존 원본 행렬의 원소에 대한 '인덱스'를 필요로 할때 np.argsort()를 이용합니다.

In [20]:
org_array = np.array([3, 1, 9, 5])
sort_indices_desc = np.argsort(org_array)[::-1] # [::-1] : 내림차순
print('행렬 내림차순 정렬 시 원본 행렬의 인덱스: ', sort_indices_desc)

행렬 내림차순 정렬 시 원본 행렬의 인덱스:  [2 3 0 1]


In [11]:
import numpy as np

name_array = np.array(['John', 'Mike', 'Sarah', 'Kate', 'Samuel'])
score_array = np.array([78, 95, 84, 98, 88])

sort_indices_asc = np.argsort(score_array)
print('성적 오름차순 정렬 시 score_array의 인덱스: ', sort_indices_asc)
print('성적 오름차순으로 name_array의 이름 출력: ', name_array[sort_indices_asc])

성적 오름차순 정렬 시 score_array의 인덱스:  [0 2 4 1 3]
성적 오름차순으로 name_array의 이름 출력:  ['John' 'Sarah' 'Samuel' 'Mike' 'Kate']
