In [1]:
import numpy as np

In [2]:
print(np.__version__)

1.26.4


### Numpy
- 머신러닝 애플리케이션에서 데이터 추출, 가공, 변환과 같은 데이터 처리 부분을 담당한다.
- 넘파이 기반의 사이킷런을 이해하기 위해서 넘파이는 필수다.
- 사이킷런은 직관적이고 간결하기 때문에 상대적으로 개발하기 쉽지만, 넘파이는 양도 많고 배울 것도 많다.
- 넘파이 전체를 다 이해하고 공부하는 것은 머신러닝을 포기하게 만들기 때문에  
  기본 문법과 중요한 API만 이해하는 것이 전략적인 면에서 좋다.

#### ndarray
- N차원(n-dimension) 배열 객체이다.
- 파이썬 리스트를 array() 메소드에 전달하면 ndarray로 변환되고,  
  넘파이의 다양하고 편리한 기능들을 사용할 수 있게 된다.
- 반드시 같은 자료형의 데이터만 담아야 한다.  

<img src="./images/numpy01.png" width="400px" style="margin-left: 10px;">

In [3]:
import numpy as np

In [6]:
ndarray1 = np.array([1, 2, 3])
print(type(ndarray1), ndarray1, sep="\n")

print("=" * 30)

# shape: 차원 별 개수를 나타낸다. 1차원일 경우, 뒤에 콤마(,)가 붙는다.
print(ndarray1.shape)

#ndim: 차원 개수를 나타낸다.
print(ndarray1.ndim)

<class 'numpy.ndarray'>
[1 2 3]
(3,)
1


In [12]:
# 아래의 2차원 리스트를 ndarray로 변환한다.
# 1 2 3
# 4 5 6

# 차원을 출력해본다.
ndarray_2 = np.array([[1, 2, 3], [4, 5, 6]])
print(type(ndarray_2), ndarray_2, sep="\n")

print("=" * 30)

print(ndarray_2.shape)
print(ndarray_2.ndim)

<class 'numpy.ndarray'>
[[1 2 3]
 [4 5 6]]
(2, 3)
2


#### astype()
- ndarray에 저장된 요소의 타입을 변환시킬 때 사용한다.
- 대용량 데이터 처리 시, 메모리 절약을 위해 사용한다.

In [16]:
ndarray1 = np.array([1, 2, 3])

print(type(ndarray1))
print(ndarray1.dtype)

ndarray1_int8 = ndarray1.astype(np.int8)

print(type(ndarray1_int8))
print(ndarray1_int8.dtype)

<class 'numpy.ndarray'>
int32
<class 'numpy.ndarray'>
int8


In [21]:
# 4, 5, 6을 nparray에 담는다.
# dtype을 확인한 뒤 float16을 변경시키고 확인한다.

nparray2 = np.array([4, 5, 6])
print(type(nparray2), nparray2, sep="\n")
print(nparray2.dtype)
print(nparray2.shape)

print("=" * 30)

nparray2_float16 = nparray2.astype(np.float16)

print(type(nparray2_float16), nparray2_float16, sep="\n")
print(nparray2_float16.dtype)
print(nparray2_float16.shape)

<class 'numpy.ndarray'>
[4 5 6]
int32
(3,)
<class 'numpy.ndarray'>
[4. 5. 6.]
float16
(3,)


#### axis
- 축의 방향성을 표현할 때 axis로 표현할 수 있다.

<img src="./images/numpy02.png" width="500px" style="margin-left: 10px;">

#### arange(), zeros(), ones()
- ndarray의 요소를 원하는 범위의 연속값 0 또는 1로 초기화할 때 사용한다.

In [31]:
# 0~9까지 1차원 ndarray
ndarray1 = np.arange(0, 10)

print(ndarray1.dtype, ndarray1.shape)
print(ndarray1)

# 2행 3열 요소를 전부 0으로 초기화
ndarray2 = np.zeros((2, 3))
print(ndarray2.dtype, ndarray2.shape)
print(ndarray2)

# 1차원 배열 3칸의 요소를 전부 1로 초기화
# ndarray1 = np.ones(3)
ndarray1 = np.ones((3, ), dtype=np.int16)
print(ndarray1.dtype, ndarray1.shape)
print(ndarray1)


int32 (10,)
[0 1 2 3 4 5 6 7 8 9]
float64 (2, 3)
[[0. 0. 0.]
 [0. 0. 0.]]
int16 (3,)
[1 1 1]


#### reshape()
- ndarray의 shpae를 다른 shape로 변경한다.

In [35]:
ndarray1 = np.arange(8)
print(ndarray1.shape)
print(ndarray1)

print("=" * 30)

ndarray2 = ndarray1.reshape((2, 4))
print(ndarray2.shape)
print(ndarray2)

print("=" * 30)

ndarray2 = ndarray1.reshape((-1, 2))
print(ndarray2.shape)
print(ndarray2)

print("=" * 30)

ndarray2 = ndarray1.reshape((8, -1))
print(ndarray2.shape)
print(ndarray2)

print("=" * 30)

(8,)
[0 1 2 3 4 5 6 7]
(2, 4)
[[0 1 2 3]
 [4 5 6 7]]
(4, 2)
[[0 1]
 [2 3]
 [4 5]
 [6 7]]
(8, 1)
[[0]
 [1]
 [2]
 [3]
 [4]
 [5]
 [6]
 [7]]


#### Indexing
- 특정 위치의 데이터를 가져오는 것
- 위치 인덱싱(Location Indexing)
- 슬라이싱(Slicing)
- 팬시 인덱싱(Fancy Indexing)
- 불린 인덱싱(Boolean Indexing)

In [43]:
# 1차원 위치 인덱싱: 전달한 위치(인덱스) 값 한 개 추출

# 2부터 10까지 순서대로 요소를 갖는 1차원 ndarray
ndarray1 = np.arange(2, 11)
print(ndarray1)

data = ndarray1[2]
print(data, type(data))

data = ndarray1[-1]
print(data, type(data))

ndarray1[-1] = 100
print(ndarray1)

# 9 가져오기
data = ndarray1[-2]
print(data, type(data), data.dtype, sep="\n")

[ 2  3  4  5  6  7  8  9 10]
4 <class 'numpy.int32'>
10 <class 'numpy.int32'>
[  2   3   4   5   6   7   8   9 100]
9
<class 'numpy.int32'>
int32


In [55]:
# 2차원 위치 인덱싱: 전달한 위치(인덱스) 값 한 개 추출

# 1~9까지 1차원 ndarray 생성
ndarray1 = np.arange(1, 10)
print(ndarray1)

print("=" * 30)

# 2차원 3행으로 변경
ndarray2 = ndarray1.reshape((3, -1))
print(ndarray2)

print(ndarray2[1, 0])
print(ndarray2[1, 1])
print(ndarray2[0], type(ndarray2[0]))

[1 2 3 4 5 6 7 8 9]
[[1 2 3]
 [4 5 6]
 [7 8 9]]
4
5
[1 2 3] <class 'numpy.ndarray'>


In [58]:
# 1차원 슬라이싱: 시작 위치와 종료 위치에 해당하는 ndarray 추출
ndarray1 = np.arange(start=2, stop=10, step=2)
print(ndarray1)

print(ndarray1[:3])
print(ndarray1[:])
print(ndarray1[:-1], ndarray1[-1])

[2 4 6 8]
[2 4 6]
[2 4 6 8]
[2 4 6] 8


In [66]:
# 2차원 슬라이싱: 시작 위치와 종료 위치에 해당하는 ndarray 추출
ndarray1 = np.arange(1, 28)
print(ndarray1)

print("=" * 30)

ndarray2 = ndarray1.reshape((-1, 3))
print(ndarray2)

print("=" * 30)

print(ndarray2[:3, :2])

print("=" * 30)

print(ndarray2[4:9])

print("=" * 30)

print(ndarray2[::-1])

print("=" * 30)

print(ndarray2[::-1, ::-1])

[ 1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
 25 26 27]
[[ 1  2  3]
 [ 4  5  6]
 [ 7  8  9]
 [10 11 12]
 [13 14 15]
 [16 17 18]
 [19 20 21]
 [22 23 24]
 [25 26 27]]
[[1 2]
 [4 5]
 [7 8]]
[[13 14 15]
 [16 17 18]
 [19 20 21]
 [22 23 24]
 [25 26 27]]
[[25 26 27]
 [22 23 24]
 [19 20 21]
 [16 17 18]
 [13 14 15]
 [10 11 12]
 [ 7  8  9]
 [ 4  5  6]
 [ 1  2  3]]
[[27 26 25]
 [24 23 22]
 [21 20 19]
 [18 17 16]
 [15 14 13]
 [12 11 10]
 [ 9  8  7]
 [ 6  5  4]
 [ 3  2  1]]


In [70]:
# 팬시 인덱싱: list를 전달해서 한 번에 여러 요소를 추출한다.
ndarray1 = np.arange(1, 21)
ndarray2 = ndarray1.reshape((4, -1))

print(ndarray2)

print("=" * 30)

print(ndarray2[[0, 1, 3], 2:5])

[[ 1  2  3  4  5]
 [ 6  7  8  9 10]
 [11 12 13 14 15]
 [16 17 18 19 20]]
[[ 3  4  5]
 [ 8  9 10]
 [18 19 20]]


In [73]:
# 불린 인덱싱: True인 위치의 ndarray를 추출한다.
ndarray1 = np.arange(1, 101, 3)
ndarray1[ndarray1 % 5 == 0]

array([ 10,  25,  40,  55,  70,  85, 100])

#### Sorting
- 모두 오름차순 정렬이며, 내림차순은 오름차순 정렬 이후 [::-1]을 붙여서 사용한다.

In [74]:
# np.sort(ndarray)

original_ndarray = np.array([0, 4, 2, 5])
sorted_ndarray = np.sort(original_ndarray)

print(f'원본 배열: {original_ndarray}')
print(f'오름차순으로 정렬된 배열: {sorted_ndarray}')
print(f'내림차순으로 정렬된 배열: {sorted_ndarray[::-1]}')

원본 배열: [0 4 2 5]
오름차순으로 정렬된 배열: [0 2 4 5]
내림차순으로 정렬된 배열: [5 4 2 0]


In [78]:
# np.sort(ndarray, axis=n)
ndarray1 = np.array([i for i in range(20, 0, -2)])
ndarray2 = ndarray1.reshape((2, -1))
print(f"원본\n{ndarray2}")

sorted_ndarray_axis0 = np.sort(ndarray2, axis=0)
print(f"axis=0 정렬\n{sorted_ndarray_axis0}")

sorted_ndarray_axis1 = np.sort(ndarray2, axis=1)
print(f"axis=1 정렬\n{sorted_ndarray_axis1}")

원본
[[20 18 16 14 12]
 [10  8  6  4  2]]
axis=0 정렬
[[10  8  6  4  2]
 [20 18 16 14 12]]
axis=1 정렬
[[12 14 16 18 20]
 [ 2  4  6  8 10]]


In [82]:
# np.argsort(ndarray)
original_ndarray = np.array([0, 3, 2, 6])
sorted_indices = np.argsort(original_ndarray)
print(f"정렬 후 원본 인덱스: {sorted_indices}")

sorted_ndarray = original_ndarray[sorted_indices]
print(f"오름차순 정렬된 ndarray: {sorted_ndarray}")

정렬 후 원본 인덱스: [0 2 1 3]
오름차순 정렬된 ndarray: [0 2 3 6]


In [86]:
# 제로백이 빠른 순서대로 자동차 이름 정렬

cars = np.array(['Lamborghini', 'Mclaren', 'Benz', 'Bentley', 'The New Morning'])
zero100 = np.array([2.8, 2.9, 5.2, 3.7, 13.5])

zero100_argsorted = np.argsort(zero100)
zero100_cars = cars[zero100_argsorted]
print(f'제로백 순위: {zero100_cars}')

제로백 순위: ['Lamborghini' 'Mclaren' 'Bentley' 'Benz' 'The New Morning']


### 벡터
- 데이터 과학에서의 벡터란, 숫자 자료를 나열한 것을 의미한다.
- 벡터는 공간에서 한 점을 나타낸다.
- feature 1개 당 1차원이고, 그에 따라 feature가 3개면 3차원이다.
- 이 때, 1차원 좌표평면에서는 열벡터를 표현할 수 있으며, 2차원 좌표평면에서는 2열 데이터를 표현할 수 있게 된다.

#### 내적 (Dot Product)
- 두 벡터의 성분들의 곱의 합  

<img src="./images/dot_product.png" width="500px" style="margin-left: 0;">

#### 선형대수 (Linear Algebra)
- 선형 방정식을 풀기 위해 배우는 학문이다.
- 4x = 16일 경우, 좌항의 4를 우항으로 넘겨서 x의 값을 구할 수 있고,  
  그에 따라 방정식 하나만으로 해를 구할 수 있다.
- y = 2x + 5일 경우, 미지수가 2개이기 때문에 방정식이 2개 필요하다.
- 이러한 연립 방정식을 더 쉽게 표현하기 위해서 선형대수를 배운다.

In [3]:
import numpy as np

A = np.array([1, 2, 3, 4]).reshape((2, 2))
w = np.array([5, 6]).reshape((2, 1))

print(A, w, sep="\n")
print(np.dot(A, w))

[[1 2]
 [3 4]]
[[5]
 [6]]
[[17]
 [39]]


In [8]:
# x + y = 10
# 2x - 3y = 10

# Aw = k

# A: 각 방정식에서 x, y의 가중치(앞쪽 숫자)를 하나의 배열로 만들어서 2차원으로 나열
# K: 각 방정식의 결과값을 1차원 배열로 담고, 전치(T) - 이 경우, 열벡터를 행벡터로 변환하고, 이는 아래에서 내적을 하기 위함
A = np.array([[1, 1], [2, -3]])
k = np.array([[10, 10]]).T

# w = 1/A * k - liealg.inv()를 사용해서 A를 역행렬인 1/A로 바꿔준 후 k와 내적하면 w의 값(방정식의 해)을 알 수 있다
w = np.dot(np.linalg.inv(A), k)

print(w)

[[8.]
 [2.]]


In [6]:
# x + 2y + 3z = 1
# x + 2y +z = 3
# x + 3z = 5

A = np.array([[1, 2, 3], [1, 2, 1], [1, 0, 3]])
k = np.array([[1, 3, 5]]).T

w = np.dot(np.linalg.inv(A), k)

print(w)

[[ 8.]
 [-2.]
 [-1.]]


#### 과결정계 (Overdetermined System)
- 미지수보다 많은 방정식이 있는 연립방정식으로, 보통 해가 존재하지 않는다.
- 3차원 공간에 존재하는 2차원 평면에서 3차원 공간의 해를 구할 수 없기 때문에,  
  3차원을 2차원으로 축소해야 하고, 이 때 투영이 필요하다.
- 투영 시, 원본 값에서 어느 정도의 loss(손실)가 발생하지만, 이를 감안하고 근사값을 구한다.