## 01. Numpy

- 다차원 배열을 쉽고 효율적으로 사용할 수 있도록 지원하는 파이썬 라이브러리
- 데이터 분석 라이브러리에 많이 사용됨

### 1-1. ndarray
- numpy의 핵심 데이터 구조
- 동일한 자료형의 다차원 배열

In [2]:
import numpy as np

In [None]:
# ndarray의 생성
a = np.array([[1,2,3],[4,5,6]])
b = np.array([1.0, 3.14, 1,24])

# 배열의 구조
print(f"배열의 구조: {a.shape}")

# 배열의 차원 수
print(f"배열의 차원: {a.ndim}")

# 데이터 타입
print(f"배열의 데이터 타입: {a.dtype}")
print(f"배열의 데이터 타입: {b.dtype}")

# 형변환
new_a = a.astype(np.float64)
print(f"수정한 배열의 데이터 타입: {new_a.dtype}")

배열의 구조: (2, 3)
배열의 차원: 2
배열의 데이터 타입: int64
배열의 데이터 타입: float64
수정한 배열의 데이터 타입: float64


In [9]:
# 3차원 행렬
a = np.array([[[1,2,3], [4,5,6]],
              [[1,2,3], [4,5,6]],
              [[1,2,3], [4,5,6]]])

print(f"배열의 구조: {a.shape}")
print(f"배열의 차원: {a.ndim}")

배열의 구조: (3, 2, 3)
배열의 차원: 3


In [None]:
# 4차원 행렬
a = np.array([[[[1,2,3],[4,5,6]],
              [[1,2,3],[4,5,6]],
              [[1,2,3],[4,5,6]]],
              [[[1,2,3],[4,5,6]],
              [[1,2,3],[4,5,6]],
              [[1,2,3],[4,5,6]]]])
print(f"배열의 구조: {a.shape}")
print(f"배열의 차원: {a.ndim}")

배열의 구조: (2, 3, 2, 3)
배열의 차원: 4


### 1-2. 배열 초기화

In [12]:
# 모든 요소가 0인 배열 생성
np.zeros((3,4)) #2차원
np.zeros((2,3,4),dtype=np.int64) #3차원

array([[[0, 0, 0, 0],
        [0, 0, 0, 0],
        [0, 0, 0, 0]],

       [[0, 0, 0, 0],
        [0, 0, 0, 0],
        [0, 0, 0, 0]]])

In [14]:
# 모든 요소가 1인 배열 생성
np.ones((5, 6))

array([[1., 1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1., 1.]])

In [17]:
# (원소의 값이) 초기화 되지 않은 배열 생성
np.empty((2,3))

array([[4.9e-324, 9.9e-324, 1.5e-323],
       [2.0e-323, 2.5e-323, 3.0e-323]])

In [18]:
# 주어진 값으로 채운 배열
np.full((3,3), 7)

array([[7, 7, 7],
       [7, 7, 7],
       [7, 7, 7]])

In [None]:
# 단위 행렬
np.eye(3, 3)
np.eye(3,5,1)

array([[0., 0., 0., 0., 0.],
       [1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.]])

### 1-3. 범위 기반 배열 생성

In [24]:
# arange : range()와 유사한 기능 제공
# 시작 이상 끝 미만의 정수 배열을 지정한 간격으로 생성
np.arange(0, 10)
np.arange(0, 10, 2)


array([0, 2, 4, 6, 8])

In [None]:
# linspace : 시작~끝까지 균일 간격으로 지정한 개수만큼 숫자를 생성
# 끝을 포함

np.linspace(10, 100, 10)
np.linspace(0.1, 1, 10)

array([0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1. ])

### 1-4. 랜덤 배열 생성

In [29]:
# random.rand(m,n) : 0 ~ 1 사이의 난수로 초기화
np.random.rand(2, 3)

array([[0.34494651, 0.13329106, 0.12887651],
       [0.98888501, 0.73336365, 0.63387088]])

In [33]:
# random.randn(m, n) : 표준정규분포를 따르는 난수로 초기화
# 표준정규분포 : 평균 0, 분산 1인 정규분포
np.random.randn(2, 4, 5)

# random.randint(low, high, (size))
np.random.randint(10, 20, (2,4))

array([[18, 14, 18, 19],
       [17, 12, 10, 12]], dtype=int32)

In [43]:
# random.seed() : 난수 생성시 시작값 제공
np.random.seed(42)
np.random.randn(2,3)

array([[ 0.49671415, -0.1382643 ,  0.64768854],
       [ 1.52302986, -0.23415337, -0.23413696]])

In [46]:
# RNG(Random Numbwer Genenrator) : 최근 Numpy 사용에서 권장되는 방식
from numpy.random import default_rng

rng = default_rng(seed=42)
rng2 = default_rng(seed=10)

print(rng.random((3,2)))
print(rng2.random((3,2)))

[[0.77395605 0.43887844]
 [0.85859792 0.69736803]
 [0.09417735 0.97562235]]
[[0.95600171 0.20768181]
 [0.82844489 0.14928212]
 [0.51280462 0.1359196 ]]


In [58]:
# 실습1. 배열 초기화 및 생성(1)
# 1. 0으로 채워진 크기 (3, 4) 배열을 생성한 후, 모든 값을 5로 채우는 새로운 배열을 만드세요. 
a1 = np.zeros((3,4))
a1_2 = np.full((3,4), 5)
print("문제1:", a1, a1_2, a1 + a1_2, sep="\n")

# 2. 0부터 20까지 2씩 증가하는 1차원 배열을 생성하세요.
a2 = np.arange(0,21,2)
print("\n문제2:", a2)

# 3. 0~1 사이의 실수 난수를 가지는 (2, 3) 크기의 배열을 생성하세요.
a3 = np.random.rand(2,3)
# print("\n문제3:", a3)

# 4. 평균이 100, 표준편차가 20인 정규분포 난수 6개를 생성하세요.
# (평균, 표준편차, 개수)
a4 = np.random.normal(100, 20, 6)
# print("\n문제4:", a4)

# 5. 1부터 20까지의 정수를 포함하는 1차원 배열을 만들고, 이 배열을 (4, 5) 크기의 2차원 배열로 변환하세요.
a5 = np.arange(1,21).reshape(4,5)
# print("\n문제5:", a5)

# 6. 0부터 1까지 균등 간격으로 나눈 12개의 값을 가지는 배열을 생성하고, 이를 (3, 4) 크기로 변환하세요. 
a6 = np.linspace(0, 1, 12).reshape(3,4)
# print("\n문제6:", a6)

# 7. 0~99 사이의 정수 난수로 이루어진 (10, 10) 배열을 생성한 뒤,
# np.eye()로 만든 단위 행렬을 더하여 대각선 요소가 1씩 증가된 배열을 만드세요.
a7 = np.random.randint(0, 100, (10, 10))
a7_eye = np.eye(10)
a7_added = a7 + a7_eye
print("\n문제7:", a7_added)

# 8. 0~9 사이의 정수 난수로 이루어진 (2, 3, 4) 3차원 배열을 생성하세요.
a8 = np.random.randint(0, 10, (2, 3, 4))
print("\n문제8:", a8)

문제1:
[[0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]]
[[5 5 5 5]
 [5 5 5 5]
 [5 5 5 5]]
[[5. 5. 5. 5.]
 [5. 5. 5. 5.]
 [5. 5. 5. 5.]]

문제2: [ 0  2  4  6  8 10 12 14 16 18 20]

문제7: [[99. 11. 24. 51. 84. 99. 52. 22. 15. 56.]
 [38. 53. 41. 57. 38. 13. 94.  4. 34. 86.]
 [92. 74. 18. 75.  8. 73. 57. 16.  6. 45.]
 [12. 39. 41.  9. 49. 26. 65.  4. 28. 36.]
 [37. 82.  7. 64. 86. 16. 70. 88. 44.  3.]
 [35. 69. 30. 18. 60. 54. 38. 90. 73. 89.]
 [18. 38. 66. 44. 12. 91. 58. 19. 91. 71.]
 [60. 38.  0.  2. 76. 91. 61. 63. 24. 55.]
 [32. 37.  5. 57. 43. 44. 31. 44. 61. 46.]
 [20. 79. 84. 74. 35. 98. 18. 19. 56. 18.]]

문제8: [[[8 0 0 4]
  [5 5 2 6]
  [8 9 7 5]]

 [[7 4 7 9]
  [3 9 7 9]
  [1 4 8 3]]]


### 1-5. 인덱싱과 슬라이싱
- 다차원 배열을 다루는 편의 기능 제공
- Python의 시퀀스보다 빠름

In [59]:
# 인덱싱
a = np.array([10,20,30,40,50])
print(a[2])
print(a[-1])

30
50


In [62]:
# 다차원 인덱싱
# 파이썬 리스트
matrix = [[1,2,4], [4,5,6]]
print("파이썬 인덱싱:", matrix[1][1])

# numpy 배열
a2 = np.array([[1,2,4], [4,5,6]])
print("numpy 인덱싱:", a2[1,1])

# 3차원 배열 인덱싱
a3 = np.arange(24).reshape(2,3,4)
print(a3)
print("3차원 인덱싱:", a3[1,1,1])

파이썬 인덱싱: 5
numpy 인덱싱: 5
[[[ 0  1  2  3]
  [ 4  5  6  7]
  [ 8  9 10 11]]

 [[12 13 14 15]
  [16 17 18 19]
  [20 21 22 23]]]
3차원 인덱싱: 17


In [63]:
# 슬라이싱
# arr[행_슬라이스, 열_슬라이스]
# arr[..., 4차원 슬라이스, 3차원 슬라이스, 2차원, 1차원]

a1 = np.array([10,20,30,40,50])
print(a1[1:3])
print(a1[2:])
print(a1[:2])
print(a1[:])
print(a1[::2])
print(a1[::-1])

[20 30]
[30 40 50]
[10 20]
[10 20 30 40 50]
[10 30 50]
[50 40 30 20 10]


In [65]:
# 파이썬 리스트와의 차이
# 파이썬 리스트
py_list = [10,20,30,40,50]
sliced = py_list[1:4]
sliced[1] = 100
print("py원본:", py_list)
print("py슬라이싱:", sliced)
print()

# numpy 배열
a1 = np.array([10, 20, 30, 40, 50])
a1_sliced = a1[1:4]
a1_sliced[1] = 100
print("numpy원본:", a1)
print("numpy슬라이싱:", a1_sliced)


py원본: [10, 20, 30, 40, 50]
py슬라이싱: [20, 100, 40]

numpy원본: [ 10  20 100  40  50]
numpy슬라이싱: [ 20 100  40]
