사이킷런 매개변수 타입이 대부분 넘파이의 ndarray 타입이라 기본적인 넘파이 사용법을 익혀둬야 한다. 70~80%가 데이터 가공 코드고, 나머지가 머신러닝 알고리즘 코드.
(넘파이가 친절한 API를 제공하진 않아서 2차원 데이터라면 가공을 위해 판다스를 쓰는 게 나음)

In [4]:
import sklearn
import numpy as np

In [5]:
sklearn.__version__

'1.3.0'

In [6]:
import xgboost
import lightgbm

print(xgboost.__version__)
print(lightgbm.__version__)

1.7.3
4.1.0


n dimension array
요소들은 모두 같은 타입이어야 함. 정수, 실수가 섞여있으면 정수를 실수로 자동 형변환

In [12]:
array1 = np.array([1,2,3]) # 파이썬 list
array2 = np.array([
    array1, # 혹은 ndarray
    [2,3,4]
])
print(array2)

[[1 2 3]
 [2 3 4]]


ndarray의 shape는 행, 열, 높이 단위로 부여되는 게 아니라
axis0, axis1, axis2처럼 axis 단위로 부여됨

In [13]:
array1.shape # axis0 = 3

(3,)

In [16]:
array2.shape # axis0 = 2, axis1 = 3

(2, 3)

In [17]:
array1.ndim

1

In [18]:
array2.ndim

2

In [20]:
array2.dtype

dtype('int64')

In [28]:
# 대용량 데이터에서 메모리 절약을 위해
array_int32 = array2.astype("int32")
print(array_int32)
print(array_int32.dtype)
print(type(array_int32))

sample_list = [1,2,3]
print(type(sample_list))

[[1 2 3]
 [2 3 4]]
int32
<class 'numpy.ndarray'>
<class 'list'>


In [26]:
print(f"array1: {array1.ndim}차원, array2: {array2.ndim}차원")

array1: 1차원, array2: 2차원


In [31]:
array3 = np.array([1, 2.1])
print(array3)
print(array3.dtype)

[1.  2.1]
float64


In [33]:
sequence_array = np.arange(10)
print(sequence_array)

[0 1 2 3 4 5 6 7 8 9]


In [34]:
zero_array = np.zeros((3, 2), dtype='int32')
print(zero_array)

[[0 0]
 [0 0]
 [0 0]]


In [36]:
one_array = np.ones((3, 2))
print(one_array)

[[1. 1.]
 [1. 1.]
 [1. 1.]]


In [37]:
print(sequence_array.reshape(5, 2))

[[0 1]
 [2 3]
 [4 5]
 [6 7]
 [8 9]]


In [38]:
print(sequence_array.reshape(-1, 5))

[[0 1 2 3 4]
 [5 6 7 8 9]]


In [39]:
print(sequence_array.reshape(-1, 5).reshape(-1,))

[0 1 2 3 4 5 6 7 8 9]


In [40]:
print(sequence_array.reshape(-1, 5).reshape(-1, 1))

[[0]
 [1]
 [2]
 [3]
 [4]
 [5]
 [6]
 [7]
 [8]
 [9]]


In [41]:
sequence_array.reshape(4,3)

ValueError: cannot reshape array of size 10 into shape (4,3)

In [42]:
sequence_array.tolist()

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [44]:
arr1 = np.arange(start=1, stop=10)
value1 = arr1[2]
print(value1)
print(type(value1))

3
<class 'numpy.int64'>


In [45]:
print(arr1[-2]);
print(arr1[:3]);

8
[1 2 3]


In [46]:
arr2 = arr1.reshape(3,3)
print(arr2)

[[1 2 3]
 [4 5 6]
 [7 8 9]]


In [47]:
arr2[:2, 1:]

array([[2, 3],
       [5, 6]])

In [48]:
arr2[[0,1]]

array([[1, 2, 3],
       [4, 5, 6]])

In [49]:
arr2[[0,1],:1]

array([[1],
       [4]])

In [50]:
arr2[arr2 > 5]

array([6, 7, 8, 9])

In [51]:
arr2 > 5

array([[False, False, False],
       [False, False,  True],
       [ True,  True,  True]])

In [52]:
type(arr2 > 5)

numpy.ndarray

In [59]:
boolean_indexes = np.array([False, True, False, False, False, False,False, False, False])

In [60]:
arr1[boolean_indexes]

array([2])

In [61]:
arr1[::-1]

array([9, 8, 7, 6, 5, 4, 3, 2, 1])

In [62]:
org_array = np.array([3,1,9,5])

In [63]:
sorted_array1 = np.sort(org_array) # 순수 함수
print(sorted_array1)

[1 3 5 9]


In [65]:
sorted_array2 = org_array.sort()
print(sorted_array2)
print(org_array)

None
[1 3 5 9]


In [66]:
array2d = np.array([
    [8, 12],
    [7, 1]
])

array2d_axis0 = np.sort(array2d, axis=0)
array2d_axis1 = np.sort(array2d, axis=1)

print(array2d_axis0)
print(array2d_axis1)

[[ 7  1]
 [ 8 12]]
[[ 8 12]
 [ 1  7]]


Numpy는 key-value 구조로 사용할 수 없어서 argsort가 꽤 유용

In [69]:
sort_indices = np.argsort(np.array([8, 1, 9, 3]))
print(sort_indices)

[1 3 0 2]


In [70]:
names = np.array(['John', 'Mike', "Sarah", "Kate", "Samuel"])
scores = np.array([76, 95, 84, 98, 88])

sort_indices_asc = np.argsort(scores)
print("성적 오름차순 : ", names[sort_indices_asc])

성적 오름차순 :  ['John' 'Sarah' 'Samuel' 'Mike' 'Kate']


선형대수 연산 - 행렬 내적과 전치 행렬

In [71]:
A = np.array([
    [1,2,3],
    [4,5,6]
])
B = np.array([
    [7,8],
    [9,10],
    [11,12]
])

dot_product = np.dot(A, B)
print(dot_product)

[[ 58  64]
 [139 154]]


In [72]:
print(np.transpose(A))

[[1 4]
 [2 5]
 [3 6]]
