## 01. numpy

--다차원 배열을 쉽고 효율적으로 사용할 수 있도록 지원하는 파이썬 라이브러리
- 데이터 분석 라이브러리에 많이 사용됨.

### 1-1. ndarray
- numpy의 핵심 데이터 구조
- 동일한 자료형의 다차원 배열


In [2]:
import numpy as np

In [4]:
# ndarry의 생성 
# 쉬프트 + 엔터: 실행

a = np.array([[1,2,3],[4,5,6]])
b = np.array([1.0,3.14,1,24])

a

# 배열의 구조
print(f"배열의 구조: {a.shape}")

# 배열의 차원 수
print(f"배열의 차원: {a.ndim}")

#데이터 타입
print(f"배열의 데이터 타입: {a.dtype}")
print(f"배열의 데이터 타입: {b.dtype}")

#형변환
new_a = a.astype(np.float64)
print(f"수정한 배열의 데이터 타입: {new_a.dtype}")



배열의 구조: (2, 3)
배열의 차원: 2
배열의 데이터 타입: int64
배열의 데이터 타입: float64
수정한 배열의 데이터 타입: float64


In [14]:
# 3차원 행렬
a = np.array([[[1,2,3],[4,5,6]],
              [[1,2,3],[4,5,6]],
              [[1,2,3],[4,5,6]]])

print(f"배열의 구조: {a.shape}")
print(f"배열의 차원: {a.ndim}")

배열의 구조: (3, 2, 3)
배열의 차원: 3


### 1-2. 배열 초기화

In [11]:
# 모든 요소가 0인 배열 생성
np.zeros((3,4)) #2차원
np.zeros((2,3,4),dtype=np.int64) #3차원

array([[[0, 0, 0, 0],
        [0, 0, 0, 0],
        [0, 0, 0, 0]],

       [[0, 0, 0, 0],
        [0, 0, 0, 0],
        [0, 0, 0, 0]]])

In [12]:
#(원소의 값이) 초기화 되지 않은 배열 생성
np.empty((2,3))

array([[6.23042070e-307, 4.67296746e-307, 1.69121096e-306],
       [8.45596650e-307, 1.89146896e-307, 7.56571288e-307]])

In [15]:
# 주어진 값으로 채운 배열
np.full((3,3), 7)


array([[7, 7, 7],
       [7, 7, 7],
       [7, 7, 7]])

In [17]:
# 단위 행렬
np.eye(3, 3)
np.eye(3,5,-1)

array([[0., 0., 0., 0., 0.],
       [1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.]])

### 1-3 범위 기반 배열 생성

In [18]:
# arange : range()와 유사한 기능 제공
# 시작 이상 끝 미만의 정수 배열을 지정한 간격으로 생성
np.arange(0, 10)
np.arange(0,10,2)

array([0, 2, 4, 6, 8])

In [19]:
# linspace : 시작~ 끝까지 균일 간격으로 지정한 개수만큼 숫자를 생성
# 끝을 포함함

np.linspace(10,100,10)
np.linspace(0.1 ,1, 10)

array([0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1. ])

### 1-4. 랜덤 배열 생성

In [20]:
# random.rand(m,n) 0 ~ 1 사이의 난수로 초기화 
np.random.rand(2, 3)

array([[0.45434285, 0.7790241 , 0.7897597 ],
       [0.36614811, 0.48994762, 0.25849197]])

In [None]:
# random.randn(m, n): 표준 정규분포를 따르는 난수로 초기화
#표준정규분포: 평균 0, 분산 1인 정규분포
np.random.randn(2, 4, 5)

#random.randint(low,high,(size))
np.random.randint(10, 20, (2,4))

array([[13, 13, 13, 10],
       [15, 19, 15, 14]], dtype=int32)

In [22]:
#random.seed() : 난수 생성시 시작값 제공

np.random.seed(42)
print(np.random.rand(2,3))

[[0.37454012 0.95071431 0.73199394]
 [0.59865848 0.15601864 0.15599452]]


In [24]:
#RNG(Random Number Generator) : 최근 Numpy 사용에서 권장되는 방식

from numpy.random import default_rng

rng = default_rng(seed=2)
rng2 = default_rng(seed = 10)

print(rng.random((3,2)))
print(rng2.random((4,4)))

[[0.26161213 0.29849114]
 [0.81422574 0.09191594]
 [0.60010053 0.72856053]]
[[0.95600171 0.20768181 0.82844489 0.14928212]
 [0.51280462 0.1359196  0.68903648 0.84174772]
 [0.425509   0.956926   0.82533291 0.33821531]
 [0.57576055 0.75330186 0.82710394 0.93343847]]


In [60]:
#실습
#1
np.zeros((3,4))
np.full((3,4), 5)

#모범 답안
a1 = np.zeros((3,4))
a2 = np.full((3,4), 5)
print(a1, a2, sep="\n")


[[0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]]
[[5 5 5 5]
 [5 5 5 5]
 [5 5 5 5]]


In [None]:
#2
np.arange(0,21,2)

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18, 20])

In [30]:
#3
np.random.rand(2, 3)

array([[0.05808361, 0.86617615, 0.60111501],
       [0.70807258, 0.02058449, 0.96990985]])

In [64]:
#4 (평균, 표준편차, 개수)
rng3 = default_rng(seed=3)
print(rng3.normal(100,20,6))

#모범 답안
a4 = np.random.normal(100,20,6)
print(a4)

[140.81838243  48.88669937 108.36197693  88.64460788  90.94701416
  95.68805674]
[ 90.8077536  110.69641749 129.38514734  77.93584258 101.96073366
 114.44270696]


In [None]:
#5
#1부터 20까지의 정수를 포함하는 1차원 배열을 만들고, 이 배열을 (4, 5) 크기의 2차원 배열로 변환
a = np.arange(1,21,1)
a = a.reshape(4,5)
print(a)

#모범답안: 아니 이렇게 한꺼번에 붙여도 되구나?
a5 = np.arange(1,21).reshape(4,5)
print(a5)

[[ 1  2  3  4  5]
 [ 6  7  8  9 10]
 [11 12 13 14 15]
 [16 17 18 19 20]]
[[ 1  2  3  4  5]
 [ 6  7  8  9 10]
 [11 12 13 14 15]
 [16 17 18 19 20]]


In [None]:
#6
#0부터 1까지 균등 간격으로 나눈 12개의 값을 가지는 배열을 생성하고, 이를 (3, 4) 크기로 변환하세요

rng4 = default_rng(seed=2)

print(rng4.random((3,4)))

#모범답안
a6 = np.linspace(0,1,12).reshape(3,4)

[[0.26161213 0.29849114 0.81422574 0.09191594]
 [0.60010053 0.72856053 0.18790107 0.05514663]
 [0.27496937 0.65743301 0.56226566 0.15006226]]


In [None]:
#7
#0~99 사이의 난수로 이루어진 (10, 10) 배열을 생성한 뒤, 
# np.eye()로 만든 단위 행렬을 더 하여 대각선 요소가 1씩 증가된 배열을 만드세요

#random.randint(low,high,(size))
v = np.random.randint(0, 99, (10,10))
v1 = np.eye(10)

print(v)
print(v + v1)


#모범 답안
a7 = np.random.randint(0,100,(10,10))
a7_1 = np.eye(10,10)
# a7+a7_1 하는게 맞다.

[[ 3 29 16 84 82 14 51 79 17 50]
 [53 25 48 17 32 81 80 41 90 12]
 [30 81 17 16  0 31 73 64 38 22]
 [96 66 67 62 95 27 82 62 77 48]
 [93 75 86 37 11 21 33 95 43 88]
 [96 73 40 43 90 71  8 85 72 28]
 [30 89 25 78 81 85 62 13 41 33]
 [ 4 87 94 28 39 91  9  7 22 32]
 [ 3  9 52 76 68 30 70 74 30  9]
 [ 2 65 13 75 52  5 93 84 48 62]]
[[ 4. 29. 16. 84. 82. 14. 51. 79. 17. 50.]
 [53. 26. 48. 17. 32. 81. 80. 41. 90. 12.]
 [30. 81. 18. 16.  0. 31. 73. 64. 38. 22.]
 [96. 66. 67. 63. 95. 27. 82. 62. 77. 48.]
 [93. 75. 86. 37. 12. 21. 33. 95. 43. 88.]
 [96. 73. 40. 43. 90. 72.  8. 85. 72. 28.]
 [30. 89. 25. 78. 81. 85. 63. 13. 41. 33.]
 [ 4. 87. 94. 28. 39. 91.  9.  8. 22. 32.]
 [ 3.  9. 52. 76. 68. 30. 70. 74. 31.  9.]
 [ 2. 65. 13. 75. 52.  5. 93. 84. 48. 63.]]


In [None]:
#8
#0~9 사이의 난수로 이루어진 (2, 3, 4) 3차원 배열을 생성하세요

np.random.randint(0, 9, (2,3,4))

#모범답안
a8= np.random.randint(0,10,(2,3,4))

array([[[2, 8, 0, 7],
        [6, 5, 8, 2],
        [2, 0, 1, 2]],

       [[3, 5, 7, 8],
        [7, 7, 6, 2],
        [0, 4, 5, 4]]], dtype=int32)

### 1-5. 인덱싱과 슬라이싱
- 다차원 배열을 다루는 편의 기능 제공
- Python의 시퀸스보다 빠름

In [None]:
#인덱싱 a[]<인덱싱 좌표
a = np.array([10,20,30,40,50])
print(a[2])
print(a[-1])

30
50


In [68]:
# 다차원 인덱싱
#파이썬 리스트
matrix = [[1,2,4], [4,5,6]]
print("파이썬 인덱싱:",matrix[1][1])

#numpy 배열
a2 = np.array([[1,2,4],[4,5,6]])
print("numpy 인덱싱:", a2[1,1])

#3차원 배열 인덱싱
a3 = np.arange(24).reshape(2,3,4)
print(a3)
print("numpy 인덱싱:", a3[1,1,1])

파이썬 인덱싱: 5
numpy 인덱싱: 5
[[[ 0  1  2  3]
  [ 4  5  6  7]
  [ 8  9 10 11]]

 [[12 13 14 15]
  [16 17 18 19]
  [20 21 22 23]]]
numpy 인덱싱: 17


In [69]:
# 슬라이싱
# arr[행 슬라이스, 열 슬라이스]
# arr[..., 4차원 슬라이스, 3차원 슬라이스, 2차원, 1차원]

a1 = np.array([10,20,30,40,50])
print(a1[1:3])
print(a1[2:])
print(a1[:2])
print(a1[:])
print(a1[::2])
print(a1[::-1])

[20 30]
[30 40 50]
[10 20]
[10 20 30 40 50]
[10 30 50]
[50 40 30 20 10]


In [70]:
# 파이썬 리스트와의 차이
# 파이썬 리스트
py_list = [10,20,30,40,50]
sliced = py_list[1:4]
sliced[1] = 100
print("py 원본",py_list)
print("py 슬라이싱", sliced)
print()

#numpy 배열
a1 = np.array([10,20,30,40,50])
a1_silced = a1[1:4]
a1_silced[1] = 100
print("numpy 원본",a1)
print("numpy 슬라이싱",a1_silced)

py 원본 [10, 20, 30, 40, 50]
py 슬라이싱 [20, 100, 40]

numpy 원본 [ 10  20 100  40  50]
numpy 슬라이싱 [ 20 100  40]


In [71]:
#실습
#1
arr= np.arange(10, 30, 2)
print(arr[[1,3,5]])

[12 16 20]


In [None]:
#2 3x3 배열에서 왼쪽 위 → 오른쪽 아래 대각선의 요소만 인덱싱으로 추출하세요
arr= np.arange(1, 10).reshape(3, 3)
print(arr[0,0],arr[1,1],arr[2,2])


#3 3x4 배열에서 마지막 열만 선택해 모두 -1로 변경하세요
arr= np.arange(1, 13).reshape(3, 4)
arr[0,3] = -1
arr[1,3] = -1
arr[2,3] = -1

print(arr)

1 5 9
[[ 1  2  3 -1]
 [ 5  6  7 -1]
 [ 9 10 11 -1]]
[[13 14 15 16]
 [ 9 10 11 12]
 [ 5  6  7  8]
 [ 1  2  3  4]]


In [75]:
#4 4x4 배열에서 행을 역순, 열을 역순으로 각각 슬라이싱해 출력하세요
arr= np.arange(1, 17).reshape(4, 4)
print(arr[::-1])
print(arr[:,::-1])

[[13 14 15 16]
 [ 9 10 11 12]
 [ 5  6  7  8]
 [ 1  2  3  4]]
[[ 4  3  2  1]
 [ 8  7  6  5]
 [12 11 10  9]
 [16 15 14 13]]
