## 01. Numpy
- 다차원 배열을 쉽고 효율적으로 사용할 수 있도록 지원하는 파이썬 라이브러리
- 데이터 분석 라이브러리에 많이 사용됨

### 1-1. ndarray
- numpy의 핵심 데이터 구조
- 동일한 자료형의 다차원 배열

In [2]:
import numpy as np

In [6]:
# ndarray의 생성
a = np.array([[1, 2, 3], [4, 5, 6]])
b = np.array([1.0, 3.14, 1.24])

a

array([[1, 2, 3],
       [4, 5, 6]])

In [9]:
# 배열의 구조
print(f"배열의 구조: {a.shape}")

# 배열의 차원 수
print(f"배열의 차원: {a.ndim}")

# 데이터 타입
print(f"배열의 데이터 타입: {a.dtype}")
print(f"배열의 데이터 타입: {b.dtype}")

# 형변환
new_a = a.astype(np.float64)
print(f"수정한 배열의 데이터 타입: {new_a.dtype}")

배열의 구조: (2, 3)
배열의 차원: 2
배열의 데이터 타입: int64
배열의 데이터 타입: float64
수정한 배열의 데이터 타입: float64


In [10]:
# 3차원 행렬
a = np.array([[[1, 2, 3], [4, 5, 6]],
              [[1, 2, 3], [4, 5, 6]],
              [[1, 2, 3], [4, 5, 6]]])

print(f"배열의 구조: {a.shape}")
print(f"배열의 차원: {a.ndim}")

배열의 구조: (3, 2, 3)
배열의 차원: 3


In [14]:
# 4차원 행렬
a = np.array([[[[1, 2, 3], [4, 5, 6]],
              [[1, 2, 3], [4, 5, 6]],
              [[1, 2, 3], [4, 5, 6]]],

              [[[1, 2, 3], [4, 5, 6]],
              [[1, 2, 3], [4, 5, 6]],
              [[1, 2, 3], [4, 5, 6]]]])

print(f"배열의 구조: {a.shape}")
print(f"배열의 차원: {a.ndim}")

배열의 구조: (2, 3, 2, 3)
배열의 차원: 4


### 1-2. 배열 초기화

In [18]:
# 모든 요소가 0인 배열 생성
np.zeros((3, 4)) # 2차원
np.zeros((2, 3, 4), dtype = np.int64) # 3차원

array([[[0, 0, 0, 0],
        [0, 0, 0, 0],
        [0, 0, 0, 0]],

       [[0, 0, 0, 0],
        [0, 0, 0, 0],
        [0, 0, 0, 0]]])

In [19]:
# 모든 요소가 1인 배열 생성
np.ones((5, 6))

array([[1., 1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1., 1.]])

In [20]:
# (원소의 값)이 초기화 되지 않은 배열 생성
np.empty((2, 3))

array([[1., 2., 3.],
       [4., 5., 6.]])

In [21]:
# 주어진 값으로 채운 배열
np.full((3, 3), 7)

array([[7, 7, 7],
       [7, 7, 7],
       [7, 7, 7]])

In [24]:
# 단위 행렬
np.eye(3, 3)
np.eye(3, 5, -1)

array([[0., 0., 0., 0., 0.],
       [1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.]])

### 1-3. 범위 기반 배열 생성


In [26]:
# arange: range()와 유사한 기능 제공, 시작 이상 끝 미만의 정수 배열을 지정한 간격으로 생성
np.arange(0, 10)
np.arange(0, 10, 2)

array([0, 2, 4, 6, 8])

In [29]:
# linspace: 시작 ~ 끝까지 균일 간격으로 지정한 개수 만큼 숫자를 생성 , 끝을 포함
np.linspace(10, 100, 10)
np.linspace(0.1, 1, 10)

array([0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1. ])

### 1-4. 랜덤 배열 생성

In [30]:
# random.rand(w): 0 ~ 1사이의 난수로 초기화
np.random.rand(2,3)

array([[0.5437686 , 0.87965511, 0.50682645],
       [0.62878599, 0.54906218, 0.53998032]])

In [48]:
# random(randn(m , n)): 표준정규분포를 따르는 난수로 초기화
# 표준정규분포 = 평균 0, 분산 1인  정규분포
np.random.randn(2, 4, 5)

array([[[-0.46947439,  0.54256004, -0.46341769, -0.46572975,
          0.24196227],
        [-1.91328024, -1.72491783, -0.56228753, -1.01283112,
          0.31424733],
        [-0.90802408, -1.4123037 ,  1.46564877, -0.2257763 ,
          0.0675282 ],
        [-1.42474819, -0.54438272,  0.11092259, -1.15099358,
          0.37569802]],

       [[-0.60063869, -0.29169375, -0.60170661,  1.85227818,
         -0.01349722],
        [-1.05771093,  0.82254491, -1.22084365,  0.2088636 ,
         -1.95967012],
        [-1.32818605,  0.19686124,  0.73846658,  0.17136828,
         -0.11564828],
        [-0.3011037 , -1.47852199, -0.71984421, -0.46063877,
          1.05712223]]])

In [33]:
# random.randint(low, high, (size))
np.random.randint(10, 20, (2, 4))

array([[11, 17, 12, 11],
       [10, 11, 12, 19]], dtype=int32)

In [None]:
# random.seed(): 난수 생성시 시작값 제공
np.random.seed(42)
np.random.randn(2, 3)

array([[ 0.49671415, -0.1382643 ,  0.64768854],
       [ 1.52302986, -0.23415337, -0.23413696]])

In [37]:
# RNG(Random Number Generator): 최근 numpy 사용에서 권장되는 방식
from numpy.random import default_rng

rng1 = default_rng(seed = 42)
rng2 = default_rng(seed = 10)

print(rng1.random((3, 2)))
print(rng2.random((3, 2)))

[[0.77395605 0.43887844]
 [0.85859792 0.69736803]
 [0.09417735 0.97562235]]
[[0.95600171 0.20768181]
 [0.82844489 0.14928212]
 [0.51280462 0.1359196 ]]


In [94]:
# 1. 0으로 채워진 크기 (3, 4) 배열을 생성한 후, 모든 값 을 5로 채우는 새로운 배열을 만드세요.
print(f"문제1:\n {np.full((3, 4), 5)}")

문제1:
 [[5 5 5 5]
 [5 5 5 5]
 [5 5 5 5]]


In [46]:
# 2. 0 부터20 까지 2씩 증가하는 1차원 배열을 생성하세요.
print(f"문제2:\n {np.arange(0, 21, 2)}")

문제2:
 [ 0  2  4  6  8 10 12 14 16 18 20]


In [47]:
# 3. 0 ~ 1 사이의 실수 난수를 가지는(2, 3) 크기의 배열을 생성하세요.
print(f"문제3:\n {np.random.rand(2,3)}")

문제3:
 [[0.05808361 0.86617615 0.60111501]
 [0.70807258 0.02058449 0.96990985]]


In [60]:
# 4. 평균이 100, 표준편차가 20인 정규 분포 난수 6개를 생성하세요.
from numpy.random import default_rng
rng = default_rng(seed = 42)
print(f"문제4:\n {rng.normal(100, 20, 6)}")

문제4:
 [106.0943416   79.20031788 115.00902392 118.81129433  60.97929623
  73.95640986]


In [95]:
# 5. 1 부터 20 까지의 정수를 포함하는 1차원 배열을 만들고, 이 배열을(4, 5) 크기의 2차원 배열로 변환하세요.
arr = np.arange(1, 21).reshape(4, 5)
print(f"문제5:\n {arr}")


문제5:
 [[ 1  2  3  4  5]
 [ 6  7  8  9 10]
 [11 12 13 14 15]
 [16 17 18 19 20]]


In [100]:
# 6.  0 부터 1 까지 균등 간격 으로 나눈 12개의 값을 가지는 배열을 생성하고, 이를 (3, 4)크기로 변환하세요.
a6 = np.linspace(0, 1, 12).reshape(3, 4)
print(f"문제6:\n {a6}")

문제6:
 [[0.         0.09090909 0.18181818 0.27272727]
 [0.36363636 0.45454545 0.54545455 0.63636364]
 [0.72727273 0.81818182 0.90909091 1.        ]]


In [101]:
# 7. 0 ~ 99 사이의 난수로 이루어진(10, 10) 배열을 생성한 뒤, np.eye()로 만든 단위행렬을 더하여 대각선 요소가 1씩 증가된 배열을 만드세요.
num1 = np.random.randint(0, 100, (10, 10))
num2 = np.eye(10)
print(f"문제7:\n {num1 + num2}")

문제7:
 [[59. 86. 37. 25. 44. 30. 69. 44. 30. 60.]
 [47. 45. 59. 60. 51. 51. 75. 80. 61. 25.]
 [66. 78. 49. 87. 93. 43. 35. 52. 43. 90.]
 [21.  1.  6. 16. 87. 93. 43. 64. 90. 72.]
 [70. 68. 60. 29. 42. 90. 73. 24. 81. 70.]
 [56. 94. 31. 49. 74. 10. 21. 94. 40. 46.]
 [13.  2. 87. 77. 52. 15. 61. 27. 34.  1.]
 [60. 55. 97. 54. 17. 70. 48. 42.  6.  3.]
 [42. 79. 58. 48. 59.  5. 19. 30. 83. 21.]
 [84. 81. 31. 46. 33. 26. 43. 29. 32. 27.]]


In [102]:
# 8. 0 ~ 9 사이의 난수로 이루어진(2, 3, 4) 3차원 배열을 생성하세요.
num1 = np.random.randint(0, 10, (2, 3, 4))
print(f"문제8:\n {num1}")

문제8:
 [[[6 7 6 2]
  [5 3 4 2]
  [4 5 7 5]]

 [[8 9 9 9]
  [9 3 1 8]
  [2 6 3 0]]]


### 1-5. 인덱싱과 슬라이싱
- 다차원 배열을 다루는 편의 기능 제공
- Python의 시퀀스보다 빠름

In [None]:
# 인덱싱
a = np.array((10, 20, 30, 40, 50))
print(a[2])
print(a[-1])

# 다차원 인덱싱

# 파이썬 리스트 
matrix = [[1, 2, 3], [4, 5, 6]]
print(f"python: {matrix[1][1]}")

# numpy 배열
a2 = np.array([[1, 2, 3], [4, 5, 6]])
print(f"numpy: {a2[1, 1]}")

#3차원 배열 인덱싱
a3 = np.arange(24).reshape(2, 3, 4)
print(a3)
print(f"3차원: {a3[1, 1, 1]}")

30
50
python: 5
numpy: 5
[[[ 0  1  2  3]
  [ 4  5  6  7]
  [ 8  9 10 11]]

 [[12 13 14 15]
  [16 17 18 19]
  [20 21 22 23]]]
3차원: 17


In [109]:
# 슬라이싱
# arr[행_슬레이스, 열_슬라이스]
# arr[..., 4차원 슬라이스, 3차원 슬라이스, 2차원, 1차원]

a1 = np.array([10, 20, 30, 40, 50])
print(a[1:3])
print(a[2:])
print(a[:2])
print(a[:])
print(a[::2])
print(a[::-1])

[20 30]
[30 40 50]
[10 20]
[10 20 30 40 50]
[10 30 50]
[50 40 30 20 10]


In [111]:
# 파이썬 리스트와의 차이
# 파이썬 리스트
py_list = [10, 20, 30, 40, 50]
sliced = py_list[1:4]
sliced[1]  = 100
print(f"py원본:{py_list}")
print(f"py슬라이스:{sliced}")
print()

# numpy 배열
a1 = np.array([10, 20, 30, 40, 50])
a1_sliced = a1[1:4]
a1_sliced[1] = 100
print(f"numpy원본: {a1}")
print(f"numpy슬라이싱: {a1_sliced}")

py원본:[10, 20, 30, 40, 50]
py슬라이스:[20, 100, 40]

numpy원본: [ 10  20 100  40  50]
numpy슬라이싱: [ 20 100  40]


In [None]:
# 2차원 배열 슬라이싱
a2 = np.arange(1, 21).reshape(4, 5)
print(a2)

# 행 슬라이싱
print(a2[0])
print(a2[1])
print(a2[1:3])
print(a2[2:])
print()

# 열 슬라이싱
print(a2[:,2])
print(a2[:,-1])
print(a2[:,1:3])
print()

# 행과 열 슬라이싱
print(a2[1:3,2:4])
print(a2[2:,3:])
print(a2[::2,::2])

[[ 1  2  3  4  5]
 [ 6  7  8  9 10]
 [11 12 13 14 15]
 [16 17 18 19 20]]
[1 2 3 4 5]
[ 6  7  8  9 10]
[[ 6  7  8  9 10]
 [11 12 13 14 15]]
[[11 12 13 14 15]
 [16 17 18 19 20]]

[ 3  8 13 18]
[ 5 10 15 20]
[[ 2  3]
 [ 7  8]
 [12 13]
 [17 18]]

[[ 8  9]
 [13 14]]
[[14 15]
 [19 20]]
[[ 1  3  5]
 [11 13 15]]


In [52]:
# 3차원 슬라이싱
a3 = np.arange(36).reshape(3, 3, 4)
print(a3)
print()
print(a3[1, 1, 1:3])


[[[ 0  1  2  3]
  [ 4  5  6  7]
  [ 8  9 10 11]]

 [[12 13 14 15]
  [16 17 18 19]
  [20 21 22 23]]

 [[24 25 26 27]
  [28 29 30 31]
  [32 33 34 35]]]

[17 18]


In [46]:
# 얕은 복사: 복사본이 원본과 메모리를 공유 > 변경사항이 서로에게 영향을 줌
a1 = np.array([1, 2, 3])
a1_viewed = a1.view()
a1_viewed[1] = 10
print("원본:", a1)
print("복사본:", a1_viewed)
print()

# 깊은 복사: 복사본이 원본과 독립적으로 복사됨 > 서로 영향주지 않는다
a2 = np.array([1, 2, 3])
a2_viewed = a2.copy()
a2_viewed[1] = 10
print("원본:", a2)
print("복사본:", a2_viewed)

원본: [ 1 10  3]
복사본: [ 1 10  3]

원본: [1 2 3]
복사본: [ 1 10  3]


In [45]:
# Fancy Indexing: 정수 배열을 사용하여 여러 인덱스로 여러 요소를 한번에 선택
af = np.arange(1, 21)
print(af)
print()
print(af[[4, 7, 11]])
print()

af2 = np.arange(1, 21).reshape(4, 5)
print(af2)
print()
print(af2[[1,3], [2,4]])
print()

[ 1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20]

[ 5  8 12]

[[ 1  2  3  4  5]
 [ 6  7  8  9 10]
 [11 12 13 14 15]
 [16 17 18 19 20]]

[ 8 20]



In [49]:
# Boolean Indexing
ab = np.linspace(10, 100, 10)
print(ab)
print()
print(ab[ab > 40])
print()

# Boolean masking
ab2 = np.arange(0, 21)
print(ab2)
print()
mask = ab2 % 2 == 0
print(mask)
print()
print(ab2[mask])

[ 10.  20.  30.  40.  50.  60.  70.  80.  90. 100.]

[ 50.  60.  70.  80.  90. 100.]

[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20]

[ True False  True False  True False  True False  True False  True False
  True False  True False  True False  True False  True]

[ 0  2  4  6  8 10 12 14 16 18 20]


In [163]:
# 1. 다음배열 에서 2, 4, 6번째 요소를 Fancy Indexing으로 선택하세요.
arr = np.arange(10, 30, 2)
my_arr = arr[[1, 3, 5]]
print(f"문제1:\n {my_arr}")

문제1:
 [12 16 20]


In [164]:
# 2. 3 x 3 배열 에서 왼쪽 위 → 오른쪽 아래 대각선의 요소만 인덱싱으로 추출하세요.
arr = np.arange(1, 10).reshape(3, 3)
my_arr = arr[[0, 1 ,2], [0, 1, 2]]
print(f"문제2:\n {my_arr}")

문제2:
 [1 5 9]


In [165]:
# 3. 3 x 4 배열에서 마지막 열만 선택해 모두 -1로 변경하세요.
arr = np.arange(1, 13).reshape(3, 4)
arr[:, 3] = -1
print(f"문제3:\n {arr}")

문제3:
 [[ 1  2  3 -1]
 [ 5  6  7 -1]
 [ 9 10 11 -1]]


In [187]:
# 4. 4 x 4 배열에서 행을 역순, 열을 역순으로 각각 슬라이싱해 출력하세요.
arr = np.arange(1, 17).reshape(4, 4)
print(f"문제4(행역순):\n {arr[::-1]}\n")
print(f"문제4(열역순):\n {arr[:, ::-1]}\n")

문제4(행역순):
 [[13 14 15 16]
 [ 9 10 11 12]
 [ 5  6  7  8]
 [ 1  2  3  4]]

문제4(열역순):
 [[ 4  3  2  1]
 [ 8  7  6  5]
 [12 11 10  9]
 [16 15 14 13]]



In [216]:
# 5. 4 x 5 배열에서 가운데 2 x 3 부분을 슬라이싱한 뒤 copy()를 이용해 독립 배열을 만드세요.
arr = np.arange(1, 21).reshape(4, 5)
my_arr = arr[1:3, 1:4].copy()
print(f"문제5(부분배열):\n {my_arr}\n")

문제5(부분배열):
 [[ 7  8  9]
 [12 13 14]]



In [219]:
# 6. 3 x 4 배열에서 짝수이면서 10 이상인 값만 선택하세요.
arr= np.array([[ 4,  9, 12,  7], [10, 15, 18,  3], [ 2, 14,  6, 20]])
print(f"문제6:\n {arr[(arr >= 10) & (arr % 2 == 0)]}")

문제6:
 [12 10 18 14 20]


In [None]:
# 7. 5 x 5 배열에서 2, 4번째 행을 선택하고, 선택된 행에서 열 순서를 [4, 0, 2]로 재배치하세요.
arr= np.arange(1, 26).reshape(5, 5)
my_arr = arr[[1, 3]]
result = my_arr[:, [4, 0 ,2]]
print(f"문제7:\n {result}")

문제7:
 [[10  6  8]
 [20 16 18]]


In [10]:
# 8. 5 x 3 배열에서 각 행의 첫 번째 값이 50 이상인 행만 Boolean Indexing으로 선택하세요.
import numpy as np
arr= np.array([[10, 20, 30], [55, 65, 75], [40, 45, 50], [70, 80, 90], [15, 25, 35]])
print(f"문제8:\n {arr[arr > 50].reshape(2, 3)}")


문제8:
 [[55 65 75]
 [70 80 90]]


In [139]:
# 9.  4 x 4 배열에서 (0,1), (1,3), (2,0), (3,2) 위치의 요소를 한 번에 선택하세요.
arr= np.arange(1, 17).reshape(4, 4)
print(f"문제9:\n {arr[[0, 1, 2, 3], [1, 3, 0, 2]]}")

문제9:
 [ 2  8  9 15]


In [138]:
# 10. 3차원 배열 (2, 3, 4)에서 모든 블록에서 두 번째 열만 추출해 새로운 2차원 배열 (2, 3)을 만드세요.
arr3d = np.arange(24).reshape(2, 3, 4)
print(f"문제10:\n {arr3d[:, :, 1]}")

문제10:
 [[ 1  5  9]
 [13 17 21]]


In [159]:
arr3 = np.arange(24).reshape(2, 3, 4)
print(arr3)
print()
print(arr3[
    [0, 0, 0, 1, 1, 1],   # block
    [0, 1, 2, 0, 1, 2],   # row
    [0, 1, 2, 0, 1, 2]    # col
])

[[[ 0  1  2  3]
  [ 4  5  6  7]
  [ 8  9 10 11]]

 [[12 13 14 15]
  [16 17 18 19]
  [20 21 22 23]]]

[ 0  5 10 12 17 22]


In [209]:
# 1. 0부터 24까지 정수를 가진 배열을 만들고, (5, 5) 배열로 변환한 뒤 가운데 행(3번째 행)과 가운데 열(3번째 열)을 각각 1차원 배열로 출력하세요.
arr1 = np.arange(25).reshape(5, 5)
print(f"문졔1(가운데행):\n {arr1[2, :]}\n")
print(f"문졔1(가운데열):\n {arr1[:, 2]}\n")

# 2. 0 ~ 99 난수로 이루어진 (10, 10) 배열을 생성하고, 짝수 인덱스의 행만 선택하여 출력하세요.
arr2 = np.random.randint(0, 100, (10, 10))
print(f"문제2:\n {arr2[::2]}\n")

# 3.  0부터 49까지 정수를 가진 배열을 (5, 10) 배열로 변환한 후, 2행 3열부터 4행 7열까지의 부분 배열을 추출하세요.
arr3 = np.arange(0, 50).reshape(5,10)
print(f"문제3:\n {arr3[1:4, 2:8]}\n")

문졔1(가운데행):
 [10 11 12 13 14]

문졔1(가운데열):
 [ 2  7 12 17 22]

문제2:
 [[92 49 24 82 14  9 17 32 98 22]
 [51 16 80 70 50 10 52 73 90 41]
 [81 90 49 61 14 93 48 39 30 46]
 [32 58 72 98 30 27 95 74 80 21]
 [62 23 45 13 27 92  8 78 57 61]]

문제3:
 [[12 13 14 15 16 17]
 [22 23 24 25 26 27]
 [32 33 34 35 36 37]]



In [None]:
# 4. 0 ~ 9 난수로 이루어진 (4, 4) 배열을 생성하고, 각각 인덱싱으로 추출해 출력하세요.(for문 이용)
# 주 대각선 요소 (왼쪽 위 > 오른쪽 아래), 부 대각선(오른쪽 위 > 왼쪽 아래)
arr4 = np.random.randint(0, 10, (4, 4))
print("문제4:")
main = []
for i in range(4):
    main.append(arr4[i][i])

sub = []
for i in range(4):
    sub.append(arr4[i][3 - i])
print(f"주 대각선 요소 (왼쪽 위 > 오른쪽 아래): {main}")
print(f"부 대각선 요소 (오른쪽 위 > 왼쪽 아래): {sub}\n")

# 5. 0 ~ 9 난수로 이루어진 (3, 4, 5) 배열을 생성하고, 두 번째 층에서 첫 번째 행과 마지막 열의 값을 출력하세요.
arr5 = np.random.randint(0, 10, (3, 4, 5))
print("문제5:")
print(f"arr5:\n {arr5}\n")
print(f"두 번째 층에서 첫 번째 행과 마지막 열의 값: {arr5[1, 0, 4]}")

문제4:
주 대각선 요소 (왼쪽 위 > 오른쪽 아래): [np.int32(0), np.int32(9), np.int32(2), np.int32(1)]
부 대각선 요소 (오른쪽 위 > 왼쪽 아래): [np.int32(0), np.int32(9), np.int32(5), np.int32(7)]

문제5:
arr5:
 [[[6 0 0 2 0]
  [8 3 3 3 6]
  [5 0 0 5 3]
  [4 2 5 9 0]]

 [[7 6 7 2 9]
  [2 2 7 8 6]
  [0 4 4 4 5]
  [5 9 2 8 3]]

 [[7 6 8 0 6]
  [5 4 6 2 4]
  [5 4 3 3 7]
  [0 7 4 1 7]]]

두 번쨰 층에서 첫 번째 행과 마지막 열의 값: 9


In [None]:
# 6. 35부터 74 까지의 순차적인 수로 이루어진 1차원 배열을 만들고  10 X 4 행렬로 변환 후 출력 해보세요.
arr6 = np.arange(35, 75).reshape(10, 4)
print(f"문제6:\n {arr6}\n")

# 7. 6번 에서 만든 배열을 맨 끝의 행부터 역순으로 출력하세요
arr7 = arr6[::-1]
print(f"문제7:\n {arr7}")

문제6:
 [[35 36 37 38]
 [39 40 41 42]
 [43 44 45 46]
 [47 48 49 50]
 [51 52 53 54]
 [55 56 57 58]
 [59 60 61 62]
 [63 64 65 66]
 [67 68 69 70]
 [71 72 73 74]]

문제7:
 [[71 72 73 74]
 [67 68 69 70]
 [63 64 65 66]
 [59 60 61 62]
 [55 56 57 58]
 [51 52 53 54]
 [47 48 49 50]
 [43 44 45 46]
 [39 40 41 42]
 [35 36 37 38]]



In [233]:
# 8. 6번 에서 만든 배열 중 두 번째 행부터 마지막 직전 행 까지, 세 번째 열부터 마지막 열까지 슬라이싱해서 출력해주세요.
arr8 = arr6[1:9, 2:]
print(f"문제8:\n {arr8}")

문제8:
 [[41 42]
 [45 46]
 [49 50]
 [53 54]
 [57 58]
 [61 62]
 [65 66]
 [69 70]]


In [261]:
# 9. 1부터 50까지의 난수로 된 5 x 6 배열을 만들고, 배열에서 짝수만 선택하여 출력하는 코드를 작성하세요.
arr9 = np.random.randint(1, 51, (5, 6))
print(f"문제9:\n 짝수: {arr9[arr9 % 2 == 0]}\n")

# 10. 0부터 99까지의 정수로 이루어진 (10, 10) 배열을 생성한 후, 
# [1, 3, 5]번째 행과 [2, 4, 6]번째 열의 교차하는 원소들만 선택하여 출력하세요.
arr10 = np.arange(100).reshape(10, 10)
print(f"문제10:\n {arr10[[1, 3, 5]][:, [2, 4, 6]]}\n")

# 11. 0~9 난수로 이루어진 1차원 배열(길이 15)을 생성하고, 짝수 인덱스 위치에 있는 값들 중에서 5 이상인 값만 선택해 출력하세요.
arr11 = np.random.randint(0, 10, size = 15)
print(f"문제11(짝수 인덱스):\n {arr11[::2]}")
print(f"문제11(짝수 인덱스 & 5이상):\n {arr11[::2][arr11[::2] >= 5]}")

문제9:
 짝수: [50 18 30 40 28 48 14 30 10 36 36 12 38 42 32  2]

문제10:
 [[12 14 16]
 [32 34 36]
 [52 54 56]]

문제11(짝수 인덱스):
 [0 5 5 8 7 6 1 5]
문제11(짝수 인덱스 & 5이상):
 [5 5 8 7 6 5]


In [266]:
import numpy as np
import pandas as pd

print(np.__version__)
print(pd.__version__)

2.3.5
2.3.3


In [267]:
import pandas as pd
import numpy as np

# ==============================
# 1. 데이터 생성
# ==============================
# 2024년 1년치, 1시간 간격 데이터 생성
date_rng = pd.date_range(start="2024-01-01 00:00", end="2024-12-31 23:00", freq="H")

np.random.seed(42)  # 재현성을 위한 시드 고정

# 기본 부하 (주간 평균 150kW, 표준편차 20)
base_load = np.random.normal(loc=150, scale=20, size=len(date_rng))

# 냉방 부하: 7~9월에 추가 부하 (여름)
cooling_extra = np.where(
    (date_rng.month >= 7) & (date_rng.month <= 9),
    70,   # 여름철 추가 부하
    0
)

# 난방 부하: 1,2,12월에 약간 추가 (겨울)
heating_extra = np.where(
    (date_rng.month.isin([1, 2, 12])),
    30,
    0
)

# 시간대별 부하 패턴 (업무시간 9~18시에 더 많이 쓰는 패턴)
hour = date_rng.hour
hour_factor = np.where(
    (hour >= 9) & (hour <= 18),
    1.2,    # 업무시간 20% 증가
    0.8     # 야간·새벽 20% 감소
)

# 랜덤 노이즈
noise = np.random.normal(loc=0, scale=10, size=len(date_rng))

# 최종 부하 계산
load = (base_load + cooling_extra + heating_extra) * hour_factor + noise

# 음수 값 방지 (이상치 정리)
load = np.where(load < 0, 0, load)

# DataFrame 구성
df = pd.DataFrame({
    "datetime": date_rng,
    "load_kW": load
})

# 파생 컬럼
df["date"] = df["datetime"].dt.date
df["month"] = df["datetime"].dt.month
df["hour"] = df["datetime"].dt.hour
df["weekday"] = df["datetime"].dt.day_name()  # 요일 이름 (월,화,... 영어)

print("데이터 예시")
print(df.head())
print(f"\n전체 행 개수: {len(df):,}개\n")


# ==============================
# 2. 월별 전력 사용량 분석
# ==============================
# 시간별 부하(kW)를 kWh로 본다고 가정하고 단순 합산
monthly_energy = df.groupby("month")["load_kW"].sum().reset_index()
monthly_energy.columns = ["month", "monthly_kWh"]

print("월별 전력 사용량 (kWh 가정):")
print(monthly_energy)

# (그래프는 Jupyter에서)
# import matplotlib.pyplot as plt
# plt.bar(monthly_energy["month"], monthly_energy["monthly_kWh"])
# plt.xlabel("월")
# plt.ylabel("전력 사용량 (kWh)")
# plt.title("월별 전력 사용량")
# plt.show()


# ==============================
# 3. 일별 피크 부하(최대값) 탐지
# ==============================
# 각 날짜별 최댓값(피크 kW) 계산
daily_peak = df.groupby("date")["load_kW"].max().reset_index()
daily_peak.columns = ["date", "peak_kW"]

print("\n일별 피크 부하 상위 5일:")
print(
    daily_peak.sort_values("peak_kW", ascending=False)
    .head(5)
)

# 연간 최고 피크 1건
peak_row = df.loc[df["load_kW"].idxmax()]
annual_peak_datetime = peak_row["datetime"]
annual_peak_value = peak_row["load_kW"]

print(f"\n연간 최고 피크 시점: {annual_peak_datetime}, {annual_peak_value:.1f} kW")


# ==============================
# 4. 시간대별 평균 부하 분석
# ==============================
hourly_pattern = df.groupby("hour")["load_kW"].mean().reset_index()
hourly_pattern.columns = ["hour", "avg_kW"]

print("\n시간대별 평균 부하:")
print(hourly_pattern)

# (그래프 예시)
# plt.plot(hourly_pattern["hour"], hourly_pattern["avg_kW"], marker="o")
# plt.xlabel("시간(시)")
# plt.ylabel("평균 부하 (kW)")
# plt.title("시간대별 평균 전력 부하 패턴")
# plt.grid(True)
# plt.show()


# ==============================
# 5. 냉방기간 vs 비냉방기간 비교
# ==============================
cooling_months = [7, 8, 9]

cooling_df = df[df["month"].isin(cooling_months)]
non_cooling_df = df[~df["month"].isin(cooling_months)]

avg_cooling = cooling_df["load_kW"].mean()
avg_non_cooling = non_cooling_df["load_kW"].mean()

increase_ratio = (avg_cooling - avg_non_cooling) / avg_non_cooling * 100

print(f"\n냉방기간(7~9월) 평균 부하: {avg_cooling:.1f} kW")
print(f"비냉방기간(그 외 월) 평균 부하: {avg_non_cooling:.1f} kW")
print(f"냉방기간 증가율: {increase_ratio:.1f}%")

# ==============================
# 6. 자동 요약 리포트 생성
# ==============================
annual_energy = df["load_kW"].sum()
monthly_max = (
    daily_peak.assign(month=lambda x: pd.to_datetime(x["date"]).dt.month)
    .groupby("month")["peak_kW"]
    .max()
)

# 가장 피크가 높은 달
peak_month = monthly_max.idxmax()
peak_month_value = monthly_max.max()

report = f"""
[건물 전력 사용량 분석 요약 리포트]

1. 연간 전력 사용 개요
- 분석 기간: 2024-01-01 ~ 2024-12-31
- 연간 총 전력 사용량(가정): {annual_energy:,.0f} kWh
- 연간 최고 피크 부하: {annual_peak_datetime} 에 {annual_peak_value:.1f} kW 기록

2. 월별 사용량 특징
- 월별 총 사용량(가장 높은 달): {peak_month}월, 최대 피크 {peak_month_value:.1f} kW
- 냉방기간(7~9월) 평균 부하는 {avg_cooling:.1f} kW,
  비냉방기간(기타 월) 평균 부하는 {avg_non_cooling:.1f} kW
  → 냉방기간에는 평균 부하가 약 {increase_ratio:.1f}% 증가

3. 시간대별 패턴
- 전체적으로 9~18시 사이에 부하가 높게 나타나는 업무시간 중심 패턴
- 심야·새벽(0~6시)에는 상대적으로 낮은 부하 유지

4. 인사이트 및 개선 방향 (예시)
- 여름철(7~9월) 및 평일 오후 14~17시 사이에 피크가 집중
  → 이 시간대에 대한 수요관리(DR), 온도 설정값 조정, 설비 운전 스케줄 최적화 필요
- 야간·주말 부하가 일정 수준 이상 유지된다면, 대기전력 및 불필요 설비 가동 여부 점검 권장

※ 본 분석은 시뮬레이션 데이터 기반 예시이며,
   실제 BEMS/AMI 데이터에 동일한 로직을 적용하여 실무 분석이 가능함.
"""

print(report)

데이터 예시
             datetime     load_kW        date  month  hour weekday
0 2024-01-01 00:00:00  139.908290  2024-01-01      1     0  Monday
1 2024-01-01 01:00:00  144.040338  2024-01-01      1     1  Monday
2 2024-01-01 02:00:00  160.656623  2024-01-01      1     2  Monday
3 2024-01-01 03:00:00  165.377787  2024-01-01      1     3  Monday
4 2024-01-01 04:00:00  147.046484  2024-01-01      1     4  Monday

전체 행 개수: 8,784개

월별 전력 사용량 (kWh 가정):
    month    monthly_kWh
0       1  129395.860402
1       2  122150.845578
2       3  108035.775414
3       4  104781.614080
4       5  107803.445715
5       6  103462.678764
6       7  158604.300980
7       8  157364.764882
8       9  152960.635962
9      10  107499.886884
10     11  104996.565342
11     12  130493.159045

일별 피크 부하 상위 5일:
           date     peak_kW
236  2024-08-24  341.662278
252  2024-09-09  341.242527
230  2024-08-18  337.900072
257  2024-09-14  337.850422
241  2024-08-29  337.715211

연간 최고 피크 시점: 2024-08-24 09:00:00, 341.7 kW

  date_rng = pd.date_range(start="2024-01-01 00:00", end="2024-12-31 23:00", freq="H")
