## 01. Numpy

- 다차원 배열을 쉽고 효율적으로 사용할 수 있도록 지원하는 파이썬 라이브러리
- 데이터 분석 라이브러리에 많이 사용됨

### 1-1. ndarray
- numpy의 핵심 데이터 구조
- 동일한 자료형의 다차원 배열

In [2]:
import numpy as np

In [7]:
# ndarray의 생성
a = np.array([[1,2,3],[4,5,6]])
b = np.array([1.0, 3.14, 1.24])

# 배열의 구조
print(f"배열의 구조: {a.shape}")

# 배열의 차원 수
print(f"배열의 차원: {a.ndim}")

# 데이터 타입
print(f"배열의 데이터 타입: {a.dtype}")
print(f"배열의 데이터 타입: {b.dtype}")

# 형변환
new_a = a.astype(np.float64)
print(f"수정한 배열의 데이터 타입: {new_a.dtype}")

배열의 구조: (2, 3)
배열의 차원: 2
배열의 데이터 타입: int64
배열의 데이터 타입: float64
수정한 배열의 데이터 타입: float64


In [10]:
# 3차원 행렬
a = np.array([
    [[1,2,3],[4,5,6]],
    [[1,2,3],[4,5,6]],
    [[1,2,3],[4,5,6]]
])

print(f"배열의 구조: {a.shape}")
print(f"배열의 차원: {a.ndim}")

배열의 구조: (3, 2, 3)
배열의 차원: 3


In [11]:
# 4차원 행렬
a = np.array([[
    [[1,2,3],[4,5,6]],
    [[1,2,3],[4,5,6]],
    [[1,2,3],[4,5,6]]
]])

print(f"배열의 구조: {a.shape}")
print(f"배열의 차원: {a.ndim}")

배열의 구조: (1, 3, 2, 3)
배열의 차원: 4


### 1-2. 배열 초기화

In [13]:
# 모든 요소가 0인 배열 생성
np.zeros((3,4)) # 2차원
np.zeros((2,3,4),dtype=np.int64) # 3차원

array([[[0, 0, 0, 0],
        [0, 0, 0, 0],
        [0, 0, 0, 0]],

       [[0, 0, 0, 0],
        [0, 0, 0, 0],
        [0, 0, 0, 0]]])

In [14]:
# 모든 요소가 1인 배열 생성
np.ones((5, 6))

array([[1., 1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1., 1.]])

In [15]:
# (원소의 값이) 초기화 되지 않은 배열 생성
np.empty((2, 3))

array([[4.9e-324, 9.9e-324, 1.5e-323],
       [2.0e-323, 2.5e-323, 3.0e-323]])

In [16]:
# 주어진 값으로 채운 배열
np.full((3, 3), 7)

array([[7, 7, 7],
       [7, 7, 7],
       [7, 7, 7]])

In [20]:
# 단위 행렬
np.eye(3, 3)
np.eye(3, 5, 1)
np.eye(3, 5, -1)

array([[0., 0., 0., 0., 0.],
       [1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.]])

### 1-3 범위 기반 배열 생성

In [None]:
# arange : range()와 유사한 기능 제공
# 시작 이상 끝 미만의 정수 배열을 지정한 간격으로 생성
np.arange(0, 10)
np.arange(0, 10, 2)

array([0, 2, 4, 6, 8])

In [25]:
# linspace : 시작~끝깍지 균일 간격으로 지정한 개수만큼 숫자를 생성
# 끝을 포함

np.linspace(10, 100, 10)
np.linspace(0.1, 1, 10)

array([0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1. ])

### 1-4. 랜덤 배열 생성

In [26]:
# random.rand(m, n) : 0 ~ 1 사이의 난수로 초기화
np.random.rand(2, 3)

array([[0.94735665, 0.18583263, 0.55967708],
       [0.2331675 , 0.42801253, 0.27501447]])

In [40]:
# random.rand(m, n) : 표준정규분포를 따르는 난수로 초기화
# 표준정규분포 : 평균 0, 분산 1인 정규분포

np.random.randn(2, 4, 5)

# random.randint(low, high, (size))
np.random.randint(10, 20, (2, 4))

array([[14, 17, 19, 18],
       [18, 10, 18, 16]], dtype=int32)

In [43]:
# random.seed() : 난수 생성시 시작값 제공
np.random.seed(42)
np.random.randn(2, 3)

array([[ 0.49671415, -0.1382643 ,  0.64768854],
       [ 1.52302986, -0.23415337, -0.23413696]])

In [45]:
# RNG (Random Number Generator) : 최근 Numpy 사용에서 권장되는 방식
from numpy.random import default_rng

rng = default_rng(seed = 42)
rng2 = default_rng(seed = 10)

print(rng.random((3, 2)))
print(rng2.random((3, 2)))

[[0.77395605 0.43887844]
 [0.85859792 0.69736803]
 [0.09417735 0.97562235]]
[[0.95600171 0.20768181]
 [0.82844489 0.14928212]
 [0.51280462 0.1359196 ]]


#### 실습 1. 배열 초기화 및 생성 (1)
1. 0으로 채워진 크기 (3, 4) 배열을 생성한 후, 모든 값을 5로 채우는 새로운 배열을 만드세요.
2. 0부터 20까지 2씩 증가하는 1차원 배열을 생성하세요.
3. 0~1 사이의 실수 난수를 가지는 (2, 3) 크기의 배열을 생성하세요.
4. 평균이 100, 표준편차가 20인 정규분포 난수 6개를 생성하세요.

In [77]:
# 문제 1

a1 = np.zeros((3, 4))
a1_2 = np.full((3, 4), 5)

print("문제 1:", a1, a1_2, a1 + a1_2, sep="\n")


문제 1:
[[0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]]
[[5 5 5 5]
 [5 5 5 5]
 [5 5 5 5]]
[[5. 5. 5. 5.]
 [5. 5. 5. 5.]
 [5. 5. 5. 5.]]


In [84]:
# 문제 2

a2 = np.arange(0, 21, 2)
print("\n문제 2:", a2)


문제 2: [ 0  2  4  6  8 10 12 14 16 18 20]


In [85]:
# 문제 3

a3 = np.random.rand(2, 3)
print("\n문제 3:", a3)


문제 3: [[0.77760228 0.48037008 0.98528605]
 [0.37673897 0.7495783  0.39298945]]


In [None]:
# 문제 4
# (평균, 표준편차, 개수)
a4 = np.random.normal(100, 20, 6)
print("\n문제 4:", a4)



문제 4: [105.17333824 124.65028423 104.37366185  90.31248616 132.77719973
 104.50470706]


#### 실습 2. 배열 초기화 및 생성 (2)
5. 1부터 20까지의 정수를 포함하는 1차원 배열을 만들고, 이 배열을 (4, 5) 크기의 2차원 배열로 변환하세요.
6. 0부터 1까지 균등 간격으로 나눈 12개의 값을 가지는 배열을 생성하고, 이를 (3, 4) 크기로 변환하세요.
7. 0~99 사이의 난수로 이루어진 (10, 10) 배열을 생성한 뒤, np.eye()로 만든 단위 행렬을 더하여 대각선 요소가 1씩 증가된 배열을 만드세요
8. 0~9 사이의 난수로 이루어진 (2, 3, 4) 3차원 배열을 생성하세요.


In [None]:
# 문제 5

a5 = np.arange(1, 21).reshape(4, 5)
print("\n문제 5:", a5)

[[ 1  2  3  4  5]
 [ 6  7  8  9 10]
 [11 12 13 14 15]
 [16 17 18 19 20]]

문제 5: [[ 1  2  3  4  5]
 [ 6  7  8  9 10]
 [11 12 13 14 15]
 [16 17 18 19 20]]


In [91]:
# 문제 6
a6 = np.linspace(0, 1, 12).reshape(3, 4)
print("\n문제 6:", a6)


문제 6: [[0.         0.09090909 0.18181818 0.27272727]
 [0.36363636 0.45454545 0.54545455 0.63636364]
 [0.72727273 0.81818182 0.90909091 1.        ]]


In [93]:
# 문제 7
a7 = np.random.randint(0, 100, (10, 10))
a7_eye = np.eye(10)
a7_added = a7 + a7_eye
print("\n문제 7:", a7_added)



문제 7: [[93. 31. 49. 60. 50. 18. 20.  4. 81. 91.]
 [41. 61. 21. 20. 69.  0.  4. 11. 89. 45.]
 [33. 48. 78. 89. 44. 26. 72. 25. 46. 85.]
 [55. 93. 62. 48. 60. 80. 25. 35.  0.  7.]
 [98. 51. 78. 46. 56. 85. 13. 89. 27. 86.]
 [77. 87.  1. 25. 13. 59. 55.  6.  2. 22.]
 [17. 37. 98. 14. 63. 88. 28. 73. 38. 56.]
 [16. 85. 89. 43. 24. 16. 12. 84. 24. 67.]
 [ 9. 66. 17. 99. 85. 33.  7. 39. 83. 41.]
 [40.  5. 51. 25. 63. 97. 58. 55. 58. 70.]]


In [94]:
# 문제 8

a8 = np.random.randint(0, 10, (2, 3, 4))
print("\n문제 8:", a8)


문제 8: [[[4 8 0 4]
  [5 4 5 5]
  [6 3 7 6]]

 [[8 6 2 2]
  [7 4 3 7]
  [5 1 3 3]]]


### 1-5. 인덱싱과 슬라이싱
- 다차원 배열을 다루는 편의 기능 제공
- Python의 시퀀스보다 빠름


In [95]:
# 인덱싱
a = np.array([10, 20, 30, 40, 50])
print(a[2])
print(a[-1])

30
50


In [99]:
# 다차원 인덱싱
# 파이썬 리스트
matrix = [[1, 2, 4], [4, 5, 6]]
print("파이썬 인덱싱:", matrix[1][1])

# numpy 배열
a2 = np.array([[1, 2, 4], [4, 5, 6]])
print("numpy 인덱싱:", a2[1][1])

# 3차원 배열 인덱싱
a3 = np.arange(24).reshape(2, 3, 4)
print(a3)
print("3차원 인덱싱:", a3[1, 1, 1])

파이썬 인덱싱: 5
numpy 인덱싱: 5
[[[ 0  1  2  3]
  [ 4  5  6  7]
  [ 8  9 10 11]]

 [[12 13 14 15]
  [16 17 18 19]
  [20 21 22 23]]]
3차원 인덱싱: 17


In [100]:
# 슬라이싱
# arr[행_슬라이스, 열_슬라이스]
# arr[..., 4차원 슬라이스, 3차원 슬라이스, 2차원, 1차원]

a1 = np.array([10, 20, 30, 40, 50])
print(a1[1:3])
print(a1[2:])
print(a1[:2])
print(a1[:])
print(a1[::2])
print(a1[::-1])

[20 30]
[30 40 50]
[10 20]
[10 20 30 40 50]
[10 30 50]
[50 40 30 20 10]


In [104]:
# 파이썬 리스트와의 차이
# 파이썬 리스트
py_list = [10, 20, 30, 40, 50]
sliced = py_list[1:4]
sliced[1] = 100
print("py원본:", py_list)
print("py슬라이싱:", sliced)
print()
a1 = np.array([10, 20, 30, 40, 50])
a1_sliced = a1[1:4]
a1_sliced[1] = 100
print("numpy원본:", a1)
print("numpy슬라이싱:", a1_sliced)


py원본: [10, 20, 30, 40, 50]
py슬라이싱: [20, 100, 40]

numpy원본: [ 10  20 100  40  50]
numpy슬라이싱: [ 20 100  40]


#### 실습 2. 인덱싱과 슬라이싱 (1)
1. 다음 배열에서 2, 4, 6번째 요소를 Fancy Indexing으로 선택하세요.
  * arr = np.arange(10, 30, 2)
2. 3 x 3 배열에서 왼쪽 위 -> 오른쪽 아래 대각선의 요소만 인덱싱으로 추출하세요.
  * arr = np.arange(1,10).reshape(3, 3)
3. 3 x 4 배열에서 마지막 열만 선택해 모두 -1로 변경하세요.
  * arr = np.arange(1, 13).reshape(3, 4)
4. 4 x 4 배열에서 행을 역순, 열을 역순으로 각각 슬라이싱해 출력하세요.
  * arr = np.arange(1, 17).reshape(4, 4)

In [126]:
# 문제 1

arr = np.arange(10, 30, 2)
idx = [1, 3, 5]
print("문제 1:", arr[idx])

문제 1: [12 16 20]


In [125]:
# 문제 2

arr = np.arange(1, 10).reshape(3, 3)
idx2 = arr[[0, 1, 2], [0, 1, 2]]
print("문제 2:", idx2)

문제 2: [1 5 9]


In [124]:
# 문제 3
arr = np.arange(1, 13).reshape(3, 4)
arr[:, -1] = -1
print("문제 3:\n", arr)

문제 3:
 [[ 1  2  3 -1]
 [ 5  6  7 -1]
 [ 9 10 11 -1]]


In [128]:
# 문제 4
arr = np.arange(1, 17).reshape(4, 4)
row = arr[::-1, :]
print("문제 4 - 행 역순:\n", row)

col = arr[:, ::-1]
print("문제 4 - 열 역순:\n", col)


문제 4 - 행 역순:
 [[13 14 15 16]
 [ 9 10 11 12]
 [ 5  6  7  8]
 [ 1  2  3  4]]
문제 4 - 열 역순:
 [[ 4  3  2  1]
 [ 8  7  6  5]
 [12 11 10  9]
 [16 15 14 13]]
