In [2]:
import numpy as np

In [3]:
print(np.__version__)

2.2.6


### Numpy
- 머신러닝 애플리케이션에서 데이터 추출, 가공, 변환과 같은 데이터 처리 부분을 담당한다.
- 넘파이 기반의 사이킷런을 이해하기 위해서는 넘파이는 필수이다.
- 사이킷런은 직관적이고 간결하기 때문에 상대적으로 개발하기 쉽지만 넘파이는 양도 많고 배울 것도 많다.
- 넘파이 전체를 다 이해하고 공부하는 것은 머신러닝을 포기하게 만들기 때문에  
  기본 문법과 중요 API만 이해하는 것이 전략적으로 좋다.

#### ndarray
- N차원(n-dimension) 배열 객체이다.
- 파이썬 list를 array() 메소드에 전달하면 ndarray로 변환되고  
  넘파이의 다양하고 편리한 기능들을 사용할 수 있게 된다.
- 반드시 같은 자료형의 데이터만 담아야 한다.  

<img src="./images/numpy1.png" width="400px" style="margin-left: 10px;">

In [4]:
import numpy as np

ndarray1 = np.array([1, 2, 3])
print(type(ndarray1), ndarray1, sep='\n')

print(ndarray1.shape)
print(ndarray1.ndim)

<class 'numpy.ndarray'>
[1 2 3]
(3,)
1


In [6]:
ndarray2 = np.array([[1, 3, 5], [2, 4, 6]])
print(type(ndarray2), ndarray2, sep='\n')

print(ndarray2.shape)
print(ndarray2.ndim)

<class 'numpy.ndarray'>
[[1 3 5]
 [2 4 6]]
(2, 3)
2


#### astype()
- ndarray에 저장된 요소의 타입을 변환시킬 때 사용한다.
- 대용량 데이터 처리 시, 메모리 절약을 위해 사용한다.

In [11]:
ndarray1 = np.array([1, 2, 3])
print(type(ndarray1))
print(ndarray1.dtype)

ndarray1_int8 = ndarray1.astype(np.int8)
print(type(ndarray1_int8))
print(ndarray1_int8.dtype)

<class 'numpy.ndarray'>
int64
<class 'numpy.ndarray'>
int8


In [12]:
#  4, 5, 6을 ndarray에 담는다.
# dtype을 확인한 뒤 float16으로 변경하고 확인한다.
ndarray1 = np.array([4, 5, 6])
print(type(ndarray1))
print(ndarray1.dtype)

ndarray1_float16 = ndarray1.astype(np.float16)
print(type(ndarray1_float16))
print(ndarray1_float16.dtype)

<class 'numpy.ndarray'>
int64
<class 'numpy.ndarray'>
float16


In [16]:
# 1 ~ 10까지의 요소를 ndarray에 담는다.
# 각 요소에 5씩 더한다.
ndarray1 = np.array(list(range(1, 11)))
ndarray1 + 5

array([ 6,  7,  8,  9, 10, 11, 12, 13, 14, 15])

#### axis
- 축의 방향성을 표현할 때, axis로 표현할 수 있다.  
  
<img src="./images/numpy2.png" width="500px" style="margin-left: 10px;">

#### arange(), zeros(), ones()
- ndarray의 요소를 원하는 범위의 연속값, 0 또는 1로 초기화할 때 사용한다.

In [36]:
import numpy as np

# 0 ~ 9까지 1차원 ndarray
ndarray1 = np.arange(0, 10, dtype=np.float16)
print(ndarray1.shape)
print(ndarray1)

# 2행 3열 요소 모두 0으로 초기화
ndarray2 = np.zeros((2, 3))
print(ndarray2.shape)
print(ndarray2)

# 1차원 3칸 배열 요소 모두 1로 초기화
ndarray1 = np.ones((3,), dtype=np.int8)
print(ndarray1.shape)
print(ndarray1)

(10,)
[0. 1. 2. 3. 4. 5. 6. 7. 8. 9.]
(2, 3)
[[0. 0. 0.]
 [0. 0. 0.]]
(3,)
[1 1 1]


### reshape()
- ndarray의 기존 shape를 다른 shape로 변경한다.

In [45]:
ndarray1 = np.arange(8)
print(ndarray1)

ndarray2 = ndarray1.reshape((2, 4))
print(ndarray2.shape)

# ndarray1의 차원을 2차원 2열로 변경
ndarray2 = ndarray1.reshape((-1, 2))
print(ndarray2.shape)

# ndarray1을 2차원 1열로 변환
ndarray2 = ndarray1.reshape((-1, 1))
print(ndarray2.shape)

[0 1 2 3 4 5 6 7]
(2, 4)
(4, 2)
(8, 1)


In [58]:
import numpy as np

# axis 0이 10인 shape이면서 모든 원소가 0, dtype은 int32인 ndarray만들기
ndarray1 = np.zeros((10, ), dtype=np.int32)
print(ndarray1, ndarray1.shape, sep='\n')

# axis 0이 3, axis1이 4인 shape이면서 모든 원소가 1인 ndarray 만들기
ndarray2 = np.ones((3, 4))
print(ndarray2, ndarray2.shape, sep='\n')

# axis 0이 5, 각 요소가 0~4인 ndarray 만들기
ndarray1 = np.arange(5)
print(ndarray1, ndarray1.shape, sep='\n')

# 아래의 ndarray1이 주어졌을 때 순서대로 문제를 해결한다.
ndarray1 = np.arange(start=0, stop=16)
print(ndarray1, ndarray1.shape, sep='\n')

# 2 Dimension, axis 1은 2로 변경
ndarray2 = ndarray1.reshape((-1, 2))
print(ndarray2, ndarray2.shape, sep='\n')

# 2 Dimension, axis 0은 8로 변경
ndarray2 = ndarray1.reshape((8, -1))
print(ndarray2, ndarray2.shape, sep='\n')

# 3 Dimension으로 변경
ndarray3 = ndarray1.reshape((4, 2, -1))
print(ndarray3, ndarray3.shape, sep='\n')

# ndarray3을 axis 1이 1인 2차원 ndarray로 변환
ndarray2 = ndarray3.reshape((-1, 1))
print(ndarray2, ndarray2.shape, sep='\n')

# ndarray3을 1 Dimension으로 변환
# ndarray1 = ndarray3.reshape((-1, ))
ndarray1 = ndarray3.flatten()
print(ndarray1, ndarray1.shape, sep='\n')

[0 0 0 0 0 0 0 0 0 0]
(10,)
[[1. 1. 1. 1.]
 [1. 1. 1. 1.]
 [1. 1. 1. 1.]]
(3, 4)
[0 1 2 3 4]
(5,)
[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15]
(16,)
[[ 0  1]
 [ 2  3]
 [ 4  5]
 [ 6  7]
 [ 8  9]
 [10 11]
 [12 13]
 [14 15]]
(8, 2)
[[ 0  1]
 [ 2  3]
 [ 4  5]
 [ 6  7]
 [ 8  9]
 [10 11]
 [12 13]
 [14 15]]
(8, 2)
[[[ 0  1]
  [ 2  3]]

 [[ 4  5]
  [ 6  7]]

 [[ 8  9]
  [10 11]]

 [[12 13]
  [14 15]]]
(4, 2, 2)
[[ 0]
 [ 1]
 [ 2]
 [ 3]
 [ 4]
 [ 5]
 [ 6]
 [ 7]
 [ 8]
 [ 9]
 [10]
 [11]
 [12]
 [13]
 [14]
 [15]]
(16, 1)
[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15]
(16,)


#### Indexing
- 특정 위치의 데이터를 가져오는 것
- 위치 인덱싱(Location indexing)
- 슬라이싱(Slicing)
- 팬시 인덱싱(Fancy indexing)
- 불린 인덱싱(Boolean indexing)

In [67]:
# 위치 인덱싱
ndarray1 = np.arange(2, 11)
print(ndarray1, ndarray1.shape, sep='\n')

data = ndarray1[2]
print(data)

data = ndarray1[-2]
print(data)

ndarray1[-3] = 100
print(ndarray1)

ndarray1 = np.arange(1, 10)
ndarray2 = ndarray1.reshape(3, -1)
print(ndarray2)

data = ndarray2[0, 2]
print(data)

[ 2  3  4  5  6  7  8  9 10]
(9,)
4
9
[  2   3   4   5   6   7 100   9  10]
[[1 2 3]
 [4 5 6]
 [7 8 9]]
3


In [81]:
# 슬라이싱
ndarray1 = np.arange(2, 10, 2)
print(ndarray1)

print(ndarray1[:3])
print(ndarray1[1:])
print(ndarray1[:])
print(ndarray1[:-1])

ndarray1 = np.arange(1, 28)
ndarray2 = ndarray1.reshape((-1, 3))
print(ndarray2)

print(ndarray2[:3])
print(ndarray2[:3, :2])
print(ndarray2[::-1])
print(ndarray2[::-1, ::-1])
print(ndarray2[:3, :])

[2 4 6 8]
[2 4 6]
[4 6 8]
[2 4 6 8]
[2 4 6]
[[ 1  2  3]
 [ 4  5  6]
 [ 7  8  9]
 [10 11 12]
 [13 14 15]
 [16 17 18]
 [19 20 21]
 [22 23 24]
 [25 26 27]]
[[1 2 3]
 [4 5 6]
 [7 8 9]]
[[1 2]
 [4 5]
 [7 8]]
[[25 26 27]
 [22 23 24]
 [19 20 21]
 [16 17 18]
 [13 14 15]
 [10 11 12]
 [ 7  8  9]
 [ 4  5  6]
 [ 1  2  3]]
[[27 26 25]
 [24 23 22]
 [21 20 19]
 [18 17 16]
 [15 14 13]
 [12 11 10]
 [ 9  8  7]
 [ 6  5  4]
 [ 3  2  1]]
[[1 2 3]
 [4 5 6]
 [7 8 9]]


In [84]:
# 팬시 인덱싱
ndarray1 = np.arange(1, 21)
print(ndarray1[[1, 4]])

ndarray2 = ndarray1.reshape((4, -1))
print(ndarray2)

print(ndarray2[[0, 1, 3], 2:5])

[2 5]
[[ 1  2  3  4  5]
 [ 6  7  8  9 10]
 [11 12 13 14 15]
 [16 17 18 19 20]]
[[ 3  4  5]
 [ 8  9 10]
 [18 19 20]]


In [89]:
# 불린 인덱싱
ndarray1 = np.arange(1, 101, 3)
print(ndarray1)

ndarray1[ndarray1 % 5 == 0]

[  1   4   7  10  13  16  19  22  25  28  31  34  37  40  43  46  49  52
  55  58  61  64  67  70  73  76  79  82  85  88  91  94  97 100]


array([ 10,  25,  40,  55,  70,  85, 100])

In [None]:
ndarray1 = np.arange(start=1, stop=21)
ndarray2 = ndarray1.reshape((5, -1))
print(ndarray2)

# 2행의 4번째 숫자 출력
# 1~100 중 짝수만 출력
# 위에서 구한 짝수들을 axis 0이 10인 2차원 배열로 변환 후 82~100까지 추출
# 아래의 ndarray1 요소 중 1의 자리수가 2인 수들만 추출하기
ndarray1 = np.arange(start=1, stop=101)
# 1~49요소 중 2와 5의 공배수 추출하기
# 위에서 추출한 공배수 중 20이상인 값만 추출하기