In [1]:
import numpy as np

In [2]:
print(np.__version__)

2.2.6


### Numpy
- 머신러닝 애플리케이션에서 데이터 추출, 가공, 변환과 같은 데이터 처리 부분을 담당한다.
- 넘파이 기반의 사이킷런을 이해하기 위해서는 넘파이는 필수이다.
- 사이킷런은 직관적이고 간결하기 때문에 상대적으로 개발하기 쉽지만 넘파이는 양도 많고 배울 것도 많다.
- 넘파이 전체를 다 이해하고 공부하는 것은 머신러닝을 포기하게 만들기 때문에  
  기본 문법과 중요 API만 이해하는 것이 전략적으로 좋다.

#### ndarray
- N차원(n-dimension) 배열 객체이다.
- 파이썬 list를 array() 메소드에 전달하면 ndarray로 변환되고  
  넘파이의 다양하고 편리한 기능들을 사용할 수 있게 된다.
- 반드시 같은 자료형의 데이터만 담아야 한다.  

<img src="./images/numpy1.png" width="400px" style="margin-left: 10px;">

In [3]:
import numpy as np

ndarray1 = np.array([1, 2, 3])
print(type(ndarray1), ndarray1, sep='\n')

print(ndarray1.shape)
print(ndarray1.ndim)

<class 'numpy.ndarray'>
[1 2 3]
(3,)
1


In [4]:
ndarray2 = np.array([[1, 3, 5], [2, 4, 6]])
print(type(ndarray2), ndarray2, sep='\n')

print(ndarray2.shape)
print(ndarray2.ndim)

<class 'numpy.ndarray'>
[[1 3 5]
 [2 4 6]]
(2, 3)
2


#### astype()
- ndarray에 저장된 요소의 타입을 변환시킬 때 사용한다.
- 대용량 데이터 처리 시, 메모리 절약을 위해 사용한다.

In [5]:
ndarray1 = np.array([1, 2, 3])
print(type(ndarray1))
print(ndarray1.dtype)

ndarray1_int8 = ndarray1.astype(np.int8)
print(type(ndarray1_int8))
print(ndarray1_int8.dtype)

<class 'numpy.ndarray'>
int64
<class 'numpy.ndarray'>
int8


In [6]:
#  4, 5, 6을 ndarray에 담는다.
# dtype을 확인한 뒤 float16으로 변경하고 확인한다.
ndarray1 = np.array([4, 5, 6])
print(type(ndarray1))
print(ndarray1.dtype)

ndarray1_float16 = ndarray1.astype(np.float16)
print(type(ndarray1_float16))
print(ndarray1_float16.dtype)

<class 'numpy.ndarray'>
int64
<class 'numpy.ndarray'>
float16


In [7]:
# 1 ~ 10까지의 요소를 ndarray에 담는다.
# 각 요소에 5씩 더한다.
ndarray1 = np.array(list(range(1, 11)))
ndarray1 + 5

array([ 6,  7,  8,  9, 10, 11, 12, 13, 14, 15])

#### axis
- 축의 방향성을 표현할 때, axis로 표현할 수 있다.  
  
<img src="./images/numpy2.png" width="500px" style="margin-left: 10px;">

#### arange(), zeros(), ones()
- ndarray의 요소를 원하는 범위의 연속값, 0 또는 1로 초기화할 때 사용한다.

In [8]:
import numpy as np

# 0 ~ 9까지 1차원 ndarray
ndarray1 = np.arange(0, 10, dtype=np.float16)
print(ndarray1.shape)
print(ndarray1)

# 2행 3열 요소 모두 0으로 초기화
ndarray2 = np.zeros((2, 3))
print(ndarray2.shape)
print(ndarray2)

# 1차원 3칸 배열 요소 모두 1로 초기화
ndarray1 = np.ones((3,), dtype=np.int8)
print(ndarray1.shape)
print(ndarray1)

(10,)
[0. 1. 2. 3. 4. 5. 6. 7. 8. 9.]
(2, 3)
[[0. 0. 0.]
 [0. 0. 0.]]
(3,)
[1 1 1]


### reshape()
- ndarray의 기존 shape를 다른 shape로 변경한다.

In [9]:
ndarray1 = np.arange(8)
print(ndarray1)

ndarray2 = ndarray1.reshape((2, 4))
print(ndarray2.shape)

# ndarray1의 차원을 2차원 2열로 변경
ndarray2 = ndarray1.reshape((-1, 2))
print(ndarray2.shape)

# ndarray1을 2차원 1열로 변환
ndarray2 = ndarray1.reshape((-1, 1))
print(ndarray2.shape)

[0 1 2 3 4 5 6 7]
(2, 4)
(4, 2)
(8, 1)


In [10]:
import numpy as np

# axis 0이 10인 shape이면서 모든 원소가 0, dtype은 int32인 ndarray만들기
ndarray1 = np.zeros((10, ), dtype=np.int32)
print(ndarray1, ndarray1.shape, sep='\n')

# axis 0이 3, axis1이 4인 shape이면서 모든 원소가 1인 ndarray 만들기
ndarray2 = np.ones((3, 4))
print(ndarray2, ndarray2.shape, sep='\n')

# axis 0이 5, 각 요소가 0~4인 ndarray 만들기
ndarray1 = np.arange(5)
print(ndarray1, ndarray1.shape, sep='\n')

# 아래의 ndarray1이 주어졌을 때 순서대로 문제를 해결한다.
ndarray1 = np.arange(start=0, stop=16)
print(ndarray1, ndarray1.shape, sep='\n')

# 2 Dimension, axis 1은 2로 변경
ndarray2 = ndarray1.reshape((-1, 2))
print(ndarray2, ndarray2.shape, sep='\n')

# 2 Dimension, axis 0은 8로 변경
ndarray2 = ndarray1.reshape((8, -1))
print(ndarray2, ndarray2.shape, sep='\n')

# 3 Dimension으로 변경
ndarray3 = ndarray1.reshape((4, 2, -1))
print(ndarray3, ndarray3.shape, sep='\n')

# ndarray3을 axis 1이 1인 2차원 ndarray로 변환
ndarray2 = ndarray3.reshape((-1, 1))
print(ndarray2, ndarray2.shape, sep='\n')

# ndarray3을 1 Dimension으로 변환
# ndarray1 = ndarray3.reshape((-1, ))
ndarray1 = ndarray3.flatten()
print(ndarray1, ndarray1.shape, sep='\n')

[0 0 0 0 0 0 0 0 0 0]
(10,)
[[1. 1. 1. 1.]
 [1. 1. 1. 1.]
 [1. 1. 1. 1.]]
(3, 4)
[0 1 2 3 4]
(5,)
[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15]
(16,)
[[ 0  1]
 [ 2  3]
 [ 4  5]
 [ 6  7]
 [ 8  9]
 [10 11]
 [12 13]
 [14 15]]
(8, 2)
[[ 0  1]
 [ 2  3]
 [ 4  5]
 [ 6  7]
 [ 8  9]
 [10 11]
 [12 13]
 [14 15]]
(8, 2)
[[[ 0  1]
  [ 2  3]]

 [[ 4  5]
  [ 6  7]]

 [[ 8  9]
  [10 11]]

 [[12 13]
  [14 15]]]
(4, 2, 2)
[[ 0]
 [ 1]
 [ 2]
 [ 3]
 [ 4]
 [ 5]
 [ 6]
 [ 7]
 [ 8]
 [ 9]
 [10]
 [11]
 [12]
 [13]
 [14]
 [15]]
(16, 1)
[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15]
(16,)


#### Indexing
- 특정 위치의 데이터를 가져오는 것
- 위치 인덱싱(Location indexing)
- 슬라이싱(Slicing)
- 팬시 인덱싱(Fancy indexing)
- 불린 인덱싱(Boolean indexing)

In [11]:
# 위치 인덱싱
ndarray1 = np.arange(2, 11)
print(ndarray1, ndarray1.shape, sep='\n')

data = ndarray1[2]
print(data)

data = ndarray1[-2]
print(data)

ndarray1[-3] = 100
print(ndarray1)

ndarray1 = np.arange(1, 10)
ndarray2 = ndarray1.reshape(3, -1)
print(ndarray2)

data = ndarray2[0, 2]
print(data)

[ 2  3  4  5  6  7  8  9 10]
(9,)
4
9
[  2   3   4   5   6   7 100   9  10]
[[1 2 3]
 [4 5 6]
 [7 8 9]]
3


In [12]:
# 슬라이싱
ndarray1 = np.arange(2, 10, 2)
print(ndarray1)

print(ndarray1[:3])
print(ndarray1[1:])
print(ndarray1[:])
print(ndarray1[:-1])

ndarray1 = np.arange(1, 28)
ndarray2 = ndarray1.reshape((-1, 3))
print(ndarray2)

print(ndarray2[:3])
print(ndarray2[:3, :2])
print(ndarray2[::-1])
print(ndarray2[::-1, ::-1])
print(ndarray2[:3, :])

[2 4 6 8]
[2 4 6]
[4 6 8]
[2 4 6 8]
[2 4 6]
[[ 1  2  3]
 [ 4  5  6]
 [ 7  8  9]
 [10 11 12]
 [13 14 15]
 [16 17 18]
 [19 20 21]
 [22 23 24]
 [25 26 27]]
[[1 2 3]
 [4 5 6]
 [7 8 9]]
[[1 2]
 [4 5]
 [7 8]]
[[25 26 27]
 [22 23 24]
 [19 20 21]
 [16 17 18]
 [13 14 15]
 [10 11 12]
 [ 7  8  9]
 [ 4  5  6]
 [ 1  2  3]]
[[27 26 25]
 [24 23 22]
 [21 20 19]
 [18 17 16]
 [15 14 13]
 [12 11 10]
 [ 9  8  7]
 [ 6  5  4]
 [ 3  2  1]]
[[1 2 3]
 [4 5 6]
 [7 8 9]]


In [13]:
# 팬시 인덱싱
ndarray1 = np.arange(1, 21)
print(ndarray1[[1, 4]])

ndarray2 = ndarray1.reshape((4, -1))
print(ndarray2)

print(ndarray2[[0, 1, 3], 2:5])

[2 5]
[[ 1  2  3  4  5]
 [ 6  7  8  9 10]
 [11 12 13 14 15]
 [16 17 18 19 20]]
[[ 3  4  5]
 [ 8  9 10]
 [18 19 20]]


In [14]:
# 불린 인덱싱
ndarray1 = np.arange(1, 101, 3)
print(ndarray1)

ndarray1[ndarray1 % 5 == 0]

[  1   4   7  10  13  16  19  22  25  28  31  34  37  40  43  46  49  52
  55  58  61  64  67  70  73  76  79  82  85  88  91  94  97 100]


array([ 10,  25,  40,  55,  70,  85, 100])

In [18]:
ndarray1 = np.arange(start=1, stop=21)
ndarray2 = ndarray1.reshape((5, -1))
print(ndarray2)

# 2행의 4번째 숫자 출력
print(ndarray2[1, 3])

# 1~100 중 짝수만 출력
ndarray1 = np.arange(start=1, stop=100)
ndarray1_even = ndarray1[ndarray1 % 2 == 0]
print(ndarray1_even)

# 위에서 구한 짝수들을 axis 0이 10인 2차원 배열로 변환 후 82~100까지 추출
ndarray2 = ndarray1_even.reshape((10, -1))
ndarray = ndarray2[-2:]
print(ndarray2)

# 아래의 ndarray1 요소 중 1의 자리수가 2인 수들만 추출하기
ndarray1 = np.arange(start=1, stop=101)
# 1~49요소 중 2와 5의 공배수 추출하기
# 위에서 추출한 공배수 중 20이상인 값만 추출하기

[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]
 [13 14 15 16]
 [17 18 19 20]]
8
[ 2  4  6  8 10 12 14 16 18 20 22 24 26 28 30 32 34 36 38 40 42 44 46 48
 50 52 54 56 58 60 62 64 66 68 70 72 74 76 78 80 82 84 86 88 90 92 94 96
 98]


ValueError: cannot reshape array of size 49 into shape (10,newaxis)

In [19]:
ndarray1 = np.arange(20, 0, -2)
ndarray2 = ndarray1.reshape((2, -1))
print(ndarray2)

# 행방향(0), 세로
sorted_ndarray_axis0 = np.sort(ndarray2, axis=0)
print(f'axis=0 정렬\n{sorted_ndarray_axis0}')

# 열방향(1), 가로
sorted_ndarray_axis1 = np.sort(ndarray2, axis=1)
print(f'axis=1 정렬\n{sorted_ndarray_axis1}')

[[20 18 16 14 12]
 [10  8  6  4  2]]
axis=0 정렬
[[10  8  6  4  2]
 [20 18 16 14 12]]
axis=1 정렬
[[12 14 16 18 20]
 [ 2  4  6  8 10]]


In [20]:
original_ndarray = np.array([0, 3, 2, 6])
sorted_indices = np.argsort(original_ndarray)

print(sorted_indices)
print(original_ndarray[sorted_indices])

[0 2 1 3]
[0 2 3 6]


In [48]:
# 제로백이 빠른 순으로 자동차 이름 정렬하기
cars = np.array(['Lamborghini', 'Mclaren', 'Benz', 'Bentley', 'The New Morning'])
zero100 = np.array([2.8, 2.9, 5.2, 3.7, 13.5], dtype=np.float16)

ndarray = np.array((cars, zero100))
print(ndarray)

sorted_ndarray_axis0 = np.sort(ndarray, axis=0)
print(f'axis=1 정렬\n{sorted_ndarray_axis0}')

[['Lamborghini' 'Mclaren' 'Benz' 'Bentley' 'The New Morning']
 ['2.8' '2.9' '5.2' '3.7' '13.5']]
axis=1 정렬
[['2.8' '2.9' '5.2' '3.7' '13.5']
 ['Lamborghini' 'Mclaren' 'Benz' 'Bentley' 'The New Morning']]


In [None]:
# 데이터를 분석하여, 각 수치별 오름차순 및 내림차순 후 이름을 출력하세요.
# [[과일이름], [가격]], 가격별 내림차순
array1 = [['Mango', 'Apple', 'Pear', 'Pitch', 'Melon'], [1500, 1800, 2000, 2500, 8500]]

### 벡터
- 데이터 과학에서 벡터란 숫자 자료를 나열한 것을 의미한다.
- 벡터는 공간에서 한 점을 나타낸다.
- feature 1개당 1차원이고, feature가 3개면 3차원이다.
- 이 때, 1차원 좌표평면에서는 열벡터를 표현할 수 있으며, 2차원 좌표평면에서는 2열 데이터를 표현할 수 있게 된다.

In [51]:
A = np.array([[1, 2, 3], [1, 2, 1], [1, 0, 3]])
b = np.array([[1, 3, 5]])
w = np.linalg.inv(A) @ b.T

print(w)

[[ 8.]
 [-2.]
 [-1.]]


In [59]:
A = np.array([[1, 2, 3], [1, 2, 1], [1, 0, 3], [1, 5, 2]])
b = np.array([1, 3, 5, 55])
x, residuals, _, _ = np.linalg.lstsq(A, b)

print(x)
print(residuals)

[-21.5         11.76666667   4.9       ]
[464.13333333]
