In [4]:
# conda update --all
# pip install --upgrade nbconvert
# conda install -c conda-forge xgboost
# https://drive.google.com/file/d/1npdCLF0KMkTspBH-E0TSaNvmc9TEuSiL/view?usp=sharing
# conda install -c conda-forge lightgbm

import sklearn
import pandas as pd
import numpy as np
import xgboost
import lightgbm

In [5]:
print(sklearn.__version__)
print(pd.__version__)
print(np.__version__)
print(xgboost.__version__)
print(lightgbm.__version__)

1.3.0
2.0.3
1.24.3
1.7.3
3.3.5


### Numpy
- 머신러닝 애플리케이션에서 데이터 추출, 가공, 변환과 같은 데이터 처리 부분을 담당한다.
- 넘파이 기반의 사이킷런을 이해하기 위해서는 넘파이는 필수이다.
- 사이킷런은 직관적이고 간결하기 때문에 상대적으로 개발하기 쉽지만 넘파이는 양도 많고 배워야 할 것도 많다.
- 넘파이 전체를 다 이해하고 공부하는 것은 머신러닝을 포기하게 만들기 때문에 기본 문법과 중요 API만 이해하는 것이 전략적으로 좋다.

### ndarray
- N차원(Dimension) 배열 객체
- 파이썬 list를 array() 메소드에 전달하면 ndarray로 변환되고 다양하고 편리한 기능들을 사용할 수 있게 된다.  
📌 반드시 같은 자료형의 데이터만 담아야 한다.

![](./images/numpy1.png)

In [7]:
import numpy as np

In [30]:
ndarray1 = np.array([1, 2, 3])
ndarray2 = np.array([[1, 2, 3], [4, 5, 6]])
print(type(ndarray1), ndarray1, sep="\n")

# shape: 차원을 알 수 있으며, 각 차원별 개수를 나타냄
print(ndarray1.shape)
print(ndarray2.shape)

# ndim: 차원만 나타냄
print(ndarray1.ndim)
print(ndarray2.ndim)

<class 'numpy.ndarray'>
[1 2 3]
(3,)
(2, 3)
1
2


### astype()
- ndarray에 저장된 요소의 타입을 변환 시킬 때 사용한다.
- 대용량 데이터 처리 시, 메모리 절약을 위해 사용한다.

In [40]:
ndarray1 = np.array([1, 2, 3])
ndarray2 = np.array([4, 5, 6])

print(type(ndarray1))
print(ndarray1.dtype)

ndarray1_int8 = ndarray1.astype(np.int8)
print(ndarray1_int8.dtype)

ndarray1_float16 = ndarray1.astype(np.float16)
print(ndarray1_float16.dtype)
print(ndarray1_float16)

ndarray2_int16 = ndarray2.astype('int16')
print(ndarray2_int16.dtype)

<class 'numpy.ndarray'>
int32
int8
float16
[1. 2. 3.]
int16


### ndarray의 axis
- 축의 방향성을 표현할 때 axis로 표현할 수 있다.
- 2차원(행, 열)일 경우 순서대로 행: axis 0(위에서 아래로), 열: axis 1(왼쪽에서 오른쪽)이다.
- 3차원(면, 행, 열)일 경우 순서대로 면: axis 0(뒤에서 앞으로), 행: axis 1(위에서 아래로), 열: axis 2(왼쪽에서 오른쪽)이다.  

![](./images/numpy2.png)

### arange(), zeros(), ones()
- ndarray의 요소를 원하는 범위의 연속값, 0또는 1로 초기화할 때 사용한다.

In [45]:
# 0~9 까지 1차원
ndarray = np.arange(0, 10)
print(ndarray, ndarray.dtype, ndarray.shape)

# 2행 3열 요소 모두 0으로 초기화
ndarray = np.zeros((2, 3))
print(ndarray, ndarray.dtype, ndarray.shape)

# 1차원 3칸 배열 요소 모두 1로 초기화
# ndarray = np.ones(3)
ndarray = np.ones((3,))
print(ndarray, ndarray.dtype, ndarray.shape)

# 요소 타입 정수로 변환
ndarray_int8 = ndarray.astype(np.int8)
print(ndarray_int8, ndarray_int8.dtype, ndarray_int8.shape)

[0 1 2 3 4 5 6 7 8 9] int32 (10,)
[[0. 0. 0.]
 [0. 0. 0.]] float64 (2, 3)
[1. 1. 1.] float64 (3,)
[1 1 1] int8 (3,)


### reshape()
- ndarray의 기존 shape를 다른 shape로 변경한다.

In [57]:
ndarray1 = np.arange(8)
print(ndarray1, ndarray1.shape)

print("=" * 30)

ndarray2 = ndarray1.reshape(2, 4)
print(ndarray2, ndarray2.shape)

print("=" * 30)

# axis 자리에 -1을 작성하면, 자동으로 열 개수로 나누어 맞춰진다. 직접 계산해서 작성하는 번거러움을 줄여준다.
ndarray3 = ndarray1.reshape(-1, 2)
print(ndarray3, ndarray3.shape)

print("=" * 30)

ndarray4 = ndarray1.reshape(4, -1)
print(ndarray4, ndarray4.shape)

[0 1 2 3 4 5 6 7] (8,)
[[0 1 2 3]
 [4 5 6 7]] (2, 4)
[[0 1]
 [2 3]
 [4 5]
 [6 7]] (4, 2)
[[0 1]
 [2 3]
 [4 5]
 [6 7]] (4, 2)


### Indexing
- 특정 위치의 데이터를 가져오는 것

1. 위치 인덱싱(Location indexing): 전달한 위치(인덱스)의 값 한 개 추출
2. 슬라이싱(Slicing): 시작 위치와 종료 위치에 해당하는 ndarray 추출
3. 팬시 인덱싱(Fancy indexing): list를 전달하여 한 번에 여러 요소를 추출, 특정 위치 값들을 콕 찝어서 추출
4. 불린 인덱싱(Boolean indexing): True인 위치의 ndarray 추출

In [66]:
# 1-1. 1차원 위치 인덱싱(Location indexing)

# 2부터 10까지 순서대로 요소를 갖는 1차원 ndarray
ndarray = np.arange(start=2, stop=11)
print(ndarray)

data = ndarray[2]
print(data, type(data))

data = ndarray[-1]
print(data, type(data))

data = ndarray[-2]
print(data, type(data))

ndarray[-1] = 100
print(ndarray)

[ 2  3  4  5  6  7  8  9 10]
4 <class 'numpy.int32'>
10 <class 'numpy.int32'>
9 <class 'numpy.int32'>
[  2   3   4   5   6   7   8   9 100]


In [74]:
# 1-2. 2차원 위치 인덱싱(Location indexing)
ndarray1 = np.arange(start=1, stop=10)
ndarray2 = ndarray1.reshape((3, -1))
print(ndarray2)

print(ndarray2[1, 0])
print(ndarray2[1, 1])
print(ndarray2[2, 0])
print(ndarray2[2, 1])
print(ndarray2[0], ndarray2[0].shape)

[[1 2 3]
 [4 5 6]
 [7 8 9]]
4
5
7
8
[1 2 3] (3,)


In [84]:
# 2-1. 1차원 슬라이싱(Slicing)

ndarray1 = np.arange(start=2, stop=10, step=2)
print(ndarray1)

print(ndarray1[:3], ndarray1[:3].shape)
print(ndarray1[3:], ndarray1[3:].shape)
print(ndarray1[:])
print(ndarray1[-4:])
print(ndarray1[-2::-1])

[2 4 6 8]
[2 4 6] (3,)
[8] (1,)
[2 4 6 8]
[2 4 6 8]
[6 4 2]


In [96]:
# 2-2. 2차원 슬라이싱(Slicing)

ndarray1 = np.arange(start=1, stop=28)
print(ndarray1)

print("=" * 30)

ndarray2 = ndarray1.reshape((-1, 3))
print(ndarray2)

print("=" * 30)

print(ndarray2[:3, :2])

print("=" * 30)

print(ndarray2[4:9])

print("=" * 30)

print(ndarray2[4:, :])

print("=" * 30)

print(ndarray2[:])

print("=" * 30)

print(ndarray2[-2:-1, 0:2])

print("=" * 30)

print(ndarray2[::-1])

print("=" * 30)

print(ndarray2[::-1, ::-1])

[ 1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
 25 26 27]
[[ 1  2  3]
 [ 4  5  6]
 [ 7  8  9]
 [10 11 12]
 [13 14 15]
 [16 17 18]
 [19 20 21]
 [22 23 24]
 [25 26 27]]
[[1 2]
 [4 5]
 [7 8]]
[[13 14 15]
 [16 17 18]
 [19 20 21]
 [22 23 24]
 [25 26 27]]
[[13 14 15]
 [16 17 18]
 [19 20 21]
 [22 23 24]
 [25 26 27]]
[[ 1  2  3]
 [ 4  5  6]
 [ 7  8  9]
 [10 11 12]
 [13 14 15]
 [16 17 18]
 [19 20 21]
 [22 23 24]
 [25 26 27]]
[[22 23]]
[[25 26 27]
 [22 23 24]
 [19 20 21]
 [16 17 18]
 [13 14 15]
 [10 11 12]
 [ 7  8  9]
 [ 4  5  6]
 [ 1  2  3]]
[[27 26 25]
 [24 23 22]
 [21 20 19]
 [18 17 16]
 [15 14 13]
 [12 11 10]
 [ 9  8  7]
 [ 6  5  4]
 [ 3  2  1]]


In [103]:
# 3. 팬시 인덱싱(Fancy indexing)

ndarray1 = np.arange(start=1, stop=21)
ndarray2 = ndarray1.reshape((4, 5))
print(ndarray2)

print(ndarray2[[0, 1, 3], 2:5])
print(ndarray2[[0, 1]])

# 2차원 ndarray에서 행과 열 모두 팬시 인덱싱을 사용하면, 해당 좌표의 열백터를 가져온다.
# ndarray2[[x1, x2], [y1, y2]] : (x1, y1), (x2, y2) : [x, y]
print(ndarray2[[1, 2], [1, 3]])
print(ndarray2[[3, 2, 1], [1, 2, 4]])

[[ 1  2  3  4  5]
 [ 6  7  8  9 10]
 [11 12 13 14 15]
 [16 17 18 19 20]]
[[ 3  4  5]
 [ 8  9 10]
 [18 19 20]]
[[ 1  2  3  4  5]
 [ 6  7  8  9 10]]
[ 7 14]
[17 13 10]


In [116]:
# 4. 불린 인덱싱(Boolean indexing)
ndarray1 = np.arange(start=1, stop=101, step=3)
print(ndarray1 % 5 == 0)
print(ndarray1[ndarray1 % 5 == 0])

ndarray1 = np.arange(3)
print(ndarray1)
print(ndarray1[[False, True, False]])

[False False False  True False False False False  True False False False
 False  True False False False False  True False False False False  True
 False False False False  True False False False False  True]
[ 10  25  40  55  70  85 100]
[0 1 2]
[1]


### 정렬
- 모두 오름차순 정렬이며, 내림차순은 오름차순 정렬 후 [::-1]을 붙여 사용한다.
1. np.sort(ndarray) : 전달한 기존 행렬은 그대로 놔둔 채 새롭게 정렬된 행렬을 리턴한다.
2. np.sort(ndarray, axis=n) : 전달한 축(axis)을 기준으로 정렬한다.
3. ndarray.sort() : 기존 행렬을 정렬하며, 리턴은 없다.
4. np.argsort(ndarray) : 요소 정렬 후 원래 인덱스(정렬 전 인덱스)를 리턴한다.

In [117]:
# np.sort(ndarray)

original_ndarray = np.array([0, 4, 2, 5])

sorted_ndarray = np.sort(original_ndarray)
print(f"원본 배열: {original_ndarray}")
print(f"정렬된 배열: {sorted_ndarray}")

원본 배열: [0 4 2 5]
정렬된 배열: [0 2 4 5]


In [123]:
# np.sort(ndarray, axis=n)

ndarray1 = np.array([i for i in range(20, 0, -2)])
ndarray2 = ndarray1.reshape(2, -1)
print(f"원본 \n{ndarray2}")

ndarray2[0, 1] = 3
sorted_ndarray_axis0 = np.sort(ndarray2, axis=0)
print(f"axis0 정렬 \n{sorted_ndarray_axis0}")

sorted_ndarray_axis1 = np.sort(ndarray2, axis=1)
print(f"axis1 정렬 \n{sorted_ndarray_axis1}")

원본 
[[20 18 16 14 12]
 [10  8  6  4  2]]
axis0 정렬 
[[10  3  6  4  2]
 [20  8 16 14 12]]
axis1 정렬 
[[ 3 12 14 16 20]
 [ 2  4  6  8 10]]


In [127]:
# ndarray.sort()

original_ndarray = np.array([1, 2, 0, 4])
original_ndarray.sort()

print(f"원본 배열: {original_ndarray}")
print(f"내림 차순: {original_ndarray[::-1]}")

원본 배열: [0 1 2 4]
내림 차순: [4 2 1 0]
