In [2]:
import numpy as np

In [3]:
print(np.__version__)

1.26.4


### Numpy
- 머신러닝 애플리케이션에서 데이터 추출, 가공, 변환과 같은 데이터 처리 부분을 담당한다.
- 넘파이 기반의 사이킷런을 이해하기 위해서는 넘파이는 필수이다.
- 사이킷런은 직관적이고 간결하기 때문에 상대적으로 개발하기 쉽지만 넘파이는 양도 많고 배울것도 많다.
- 넘파이 전체를 다 이해하고 공부하는 것은 머신러닝을 포기하게 만들기 때문에 기본 문법과 중요 API만 이해하는 것이 전략적으로 좋다.

#### ndarray
- N 차원(n-dimension) 배열 객체이다.
- 파이썬 list를 array() 메소드에 전달하면 ndarray로 변환되고 넘파이의 다양하고 편리한 기능들을 사용할 수 있게된다.
- 반드시 같은 자료형의 데이터만 담아야 한다.

<img src="./images/numpy01.png" width="400ox" style="margin-left:10ox">

In [4]:
import numpy as np

In [9]:
ndarray1 = np.array([1,2,3])

print(type(ndarray1), ndarray1, sep='\n')
print("="*20)

# shaoe: 차원별 개수를 나타낸다.
print(ndarray1.shape)

# ndim : 차원 개수를 나타낸다.
print(ndarray1.ndim)

<class 'numpy.ndarray'>
[1 2 3]
(3,)
1


In [20]:
# 아래의 2차원 list를 ndarray로 변환한다
# 1,2,3
# 4,5,6
 #차원을 출력해본다

ndarray2 = np.array([[1,2,3], [4,5,6]])
print(type(ndarray2), ndarray2, sep='\n')
print(ndarray2.shape)
print(ndarray2.ndim)

<class 'numpy.ndarray'>
[[1 2 3]
 [4 5 6]]
(2, 3)
2


#### astype()
- ndarray에 저장된 요소의 타입을 변활시킬 때 사용한다.
- 대용량 데이터 처리 시, 메모리 절약을 위해 사용한다.

In [30]:
nparray1 = np.array([1,2,3])
print(type(ndarray1), ndarray1, sep='\n')
print(ndarray1.dtype)

ndarray1_int8 = ndarray1.astype(np.int8)

print(type(ndarray1_int8), ndarray1_int8, sep='\n')
print(ndarray1.dtype)


<class 'numpy.ndarray'>
[1 2 3]
int32
<class 'numpy.ndarray'>
[1 2 3]
int32


In [33]:
# 4,5,6을 ndarray에 담는다
# dtype을 확인 한 뒤 float16으로 확인한다.
nparray = np.array([4,5,6])
print(nparray.shape)
print(nparray.dtype)
ndarray1_test = nparray.astype(np.float16)
print(ndarray1_test.dtype)

(3,)
int32
float16


#### axis
- 축의 방향성을 표현할 때 axis로 표현할 수 있다.

<img src="./images/numpy02.png" width="500ox" style="margin-left:10ox">

#### arnage(), zeros(), ones()
- ndarray의 요소를 원하는 범위의 연속값, 0 또는 1로 초기화할 때 사용한다.

In [54]:
# 0 ~ 9까지 1차원 ndarray
ndarray1 = np.arange(0, 10)
print(ndarray1.dtype, ndarray1.shape)
ndarray1

# 2행 3열 요소 모두 0으로 초기화
ndarray2 = np.zeros((2,3))
print(ndarray2.dtype, ndarray2.shape)
print(ndarray2)

# 1차원 3칸 배열 요소 모두 1로 초기화
ndarray3 = np.ones((3,), dtype=np.int16)
print(ndarray3.dtype, ndarray3.shape)
print(ndarray3)

int32 (10,)
float64 (2, 3)
[[0. 0. 0.]
 [0. 0. 0.]]
int16 (3,)
[1 1 1]


### reshape()
- ndarray의 기존 shape를 다른 shape로 변경한다.

In [65]:
ndarray1 = np.arange(8)
print(ndarray1.shape)
print(ndarray1)

print('='*20)

ndarray2 = ndarray1.reshape((2,4))
print(ndarray2.shape)
print(ndarray2)

print('='*20)

ndarray3 = ndarray1.reshape((-1, 2))
print(ndarray3.shape)
print(ndarray3)

print('='*20)


(8,)
[0 1 2 3 4 5 6 7]
(2, 4)
[[0 1 2 3]
 [4 5 6 7]]
(4, 2)
[[0 1]
 [2 3]
 [4 5]
 [6 7]]


#### Indexing
- 특정 위치의 데이터를 가져오는 것
- 위치 인덱싱(Location indexing)
- 슬라이싱(Slicing)
- 팬시 인덱싱(Fancy indexing)
- 불린 인덱싱(Boolean indexing)

In [73]:
# 1차원 위치 인덱싱 : 전달한 위치(인덱스) 값 한 개 추출

# 2~10 까지 순서대로 요소를 갖는 1차원 ndarray

nparray1 = np.arange(start = 2, stop = 11)

data = nparray1[2]
print(data)


# 9가져오기
data = nparray1[-2]
print(data)


4
9


In [90]:
# 2차원 위치 인덱싱 : 전달한 위치(인덱스) 값 한 개 추출

# 1~10 1차원 ndarray
# 2차원 3행으로 변경

ndarray1 = np.arange(start = 1, stop = 10)
data = ndarray1.reshape((3,-1))
print(data[0,0])
print(data[2,2])
print(data[2])

1
9
[7 8 9]


In [95]:
# 1차원 슬라이싱 : 시작위치와 종료위치에 해당하는 ndarray 추출

ndarray1 = np.arange(start = 2, stop = 10, step = 2)
print(ndarray1)
print(ndarray1[:])
print(ndarray1[:-1], ndarray1[-1])

[2 4 6 8]
[2 4 6 8]
[2 4 6] 8


In [106]:
# 2차원 슬라이싱 : 시작위치와 종료위치에 해당하는 ndarray 추출

ndarray1 = np.arange(start = 1, stop = 28)
print(ndarray1)
print("="*20)
ndarray2 = ndarray1.reshape((-1, 3))
print(ndarray2)
print("="*20)
print(ndarray2[:3,:2])
print("="*20)
print(ndarray2[::-1])

[ 1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
 25 26 27]
[[ 1  2  3]
 [ 4  5  6]
 [ 7  8  9]
 [10 11 12]
 [13 14 15]
 [16 17 18]
 [19 20 21]
 [22 23 24]
 [25 26 27]]
[[1 2]
 [4 5]
 [7 8]]
[[25 26 27]
 [22 23 24]
 [19 20 21]
 [16 17 18]
 [13 14 15]
 [10 11 12]
 [ 7  8  9]
 [ 4  5  6]
 [ 1  2  3]]


In [109]:
# 팬시 인덱싱 : list를 전달해서 한 번에 여러 요소를 추출한다.

ndarray1 = np.arange(start = 1, stop = 21)
ndarray2 = ndarray1.reshape((4, -1))
print(ndarray2)
print("="*20)
ndarray2[[0,2]]

[[ 1  2  3  4  5]
 [ 6  7  8  9 10]
 [11 12 13 14 15]
 [16 17 18 19 20]]


array([[ 1,  2,  3,  4,  5],
       [11, 12, 13, 14, 15]])

In [113]:
# 불린 인덱싱 : True인 위치의 ndarray 추출

ndarray = np.arange(start=1, stop = 101, step = 3)
ndarray[ndarray % 5 == 0]

array([ 10,  25,  40,  55,  70,  85, 100])

#### Sorting
- 모두 오름차순 정렬이며, 내림차순은 오름차순 정렬 후 [::-1]을 붙여 사용한다.

In [115]:
# np.sort(ndaaray)

original_ndarray = np.array([0,4,2,5])
sorted_ndarray = np.sort(original_ndarray)
print(f'원본배열 : {original_ndarray}')
print(f'오름차순 배열 : {sorted_ndarray}')
print(f'오름차순 배열 : {sorted_ndarray[::-1]}')


원본배열 : [0 4 2 5]
오름차순 배열 : [0 2 4 5]
오름차순 배열 : [5 4 2 0]


In [123]:
# np.sort(ndaaray, axis=n)

ndarray = np.array([i for i in range(20,0,-2)])
ndarray1 = ndarray.reshape((2,-1))
print(f'원본 : {ndarray1}')
sorted_ndarray_axis0 = np.sort(ndarray1, axis=0)
print(sorted_ndarray_axis0 )
sorted_ndarray_axis1 = np.sort(sorted_ndarray_axis0, axis=1)
print(sorted_ndarray_axis1 )

원본 : [[20 18 16 14 12]
 [10  8  6  4  2]]
[[10  8  6  4  2]
 [20 18 16 14 12]]
[[ 2  4  6  8 10]
 [12 14 16 18 20]]


In [126]:
# np.argsort(ndarray)

original_ndarray = np.array([0,3,2,6])
sorted_indices = np.argsort(original_ndarray)
print(f'정렬 후 원본 인덱스 {sorted_indices}')

sorted_ndarray = original_ndarray[sorted_indices]
print(f'오름차순으로 정렬된 mdarray : {sorted_ndarray}')


정렬 후 원본 인덱스 [0 2 1 3]
오름차순으로 정렬된 mdarray : [0 2 3 6]


In [139]:
cars = np.array(['Lamborghini', 'Mclaren', 'Benz', 'Bentley', 'The New Morning'])
zero100 = np.array([2.8, 2.9, 5.2, 3.7, 13.5])

number = np.argsort(zero100)
print(number)
print(f'1 :{cars[number][0]} 2: {cars[number][1]} 3: {cars[number][2]} 4: {cars[number][3]} 5: {cars[number][4]}')

[0 1 3 2 4]
1 :Lamborghini 2: Mclaren 3: Bentley 4: Benz 5: The New Morning


### 백터
- 데이터 과학에서 백터란 숫자 자료를 나열한 것을 의미한다.
- 백터는 공간에서 한 점을 나타낸다.
- freture 1개당 1차원이고, feature가 3개면 3차원이다.
- 이 때, 1차원 좌표평면에서는 열벡터를 표현할 수 있으며, 2차원 좌표평면에서는 2열 데이터를 표현할 수 있게 된다.

#### 내적 (Dot produt)
- 두 벡터의 성분들의 곱의 합

<img src="./images/numpy03.png" width="500ox">

#### 선형대수 (Linear Algebra)
- 선형 방정식을 풀기 위해 배우는 학문이다.
- 4x = 16일 경우, 좌항의 4를 우향으로 넘겨서 x라는 것을 구할 수 있고, 방정식 1개만으로 해를 구할 수 있다.
- y = 2x + 5 일 경우, 미지수가 2개이기 때문에 방정식이 2개 필요하다
- 이러한 연립 방정식을 표현할 때 쉽게 표현하기 위해서 선형대수를 배운다.
----------------------------------------------------------------------------

Aw = k

A = np.array([[1,1],[2,-3]])
K = np.array([[10,10]]).T
w = np.dot(np.linalg.inv(A), K)
print(w)

In [3]:
import numpy as np

A = np.array([1,2,3,4]).reshape((2,2))
w = np.array([5,6]).reshape((2,1))

print(A,w, sep='\n')
np.dot(A,w)

[[1 2]
 [3 4]]
[[5]
 [6]]


array([[17],
       [39]])

In [4]:
# x + y = 10
# 2x - 3y = 10

# Aw = k

A = np.array([[1,1],[2,-3]])
K = np.array([[10,10]]).T
w = np.dot(np.linalg.inv(A), K)
print(w)

[[8.]
 [2.]]


In [12]:
# x + 2y + 3z = 1
# x + 2y + z = 3
# x + 3z = 5

A = np.array([[1,2,3],[1,2,1],[1,0,3]])
K = np.array([[1,3,5]]).T
w = np.dot(np.linalg.inv(A), K)
print(w)

[[ 8.]
 [-2.]
 [-1.]]


#### 과결정계 (Overdetermined system)
- 미지수보다 많은 방정식이 있는 연립방정식으로서 보통 해가 존재하지 않는다.
- 3차원 공간에 존재하는 2차원 평명에서 3차원 공간의 해를 구할 수 없기 때문에, 3차원을 2차원으로 축소해야 하고, 이때 투영이 필요하다.
- 투영시, 원본 값에서 어느정도의 lose(손실)가 발생하지만 이를 감안하고 근사값을 구한다.