## 01. Numpy

- 다차원 배열을 쉽고 효율적으로 사용할 수 있도록 지원하는 파이썬 라이브러리
- 데이터 분석 라이브러리에 많이 사용됨
### 1-1. ndarray
- numpy의 핵심 데이터 구조
- 동일한 자료형의 다차원 배열

In [None]:
import numpy as np

In [None]:
a = np.array([[1,2,3],[4,5,6]])
b = np.array([1.0, 3.14, 1.24])

# 배열의 구조\n
print(f"배열의 구조: {a.shape}")

# 배열의 차원 수
print(f"배열의 차원 수: {a.ndim}")

# 데이터 타입
print(f"데이터 타입: {a.dtype}")
print(f"데이터 타입: {b.dtype}")

# 형변환
new_a = a.astype(np.float64)
print(f"수정한 배열의 데이터 타입: {new_a.dtype}")

In [None]:
# 3차원 행렬
a = np.array([[[1,2,3], [4,5,6]],
              [[1,2,3], [4,5,6]],
              [[1,2,3], [4,5,6]]])
print(f"배열의 구조: {a.shape}")
print(f"배열의 차원 수: {a.ndim}")

In [None]:
# 4차원 행렬
a = np.array([[[[1,2,3],[4,5,6]],
              [[1,2,3],[4,5,6]],
              [[1,2,3],[4,5,6]],
              [[1,2,3],[4,5,6]],
              
              [[1,2,3],[4,5,6]],
              [[1,2,3],[4,5,6]],
              [[1,2,3],[4,5,6]]]])
print(f"배열의 구조: {a.shape}")
print(f"배열의 차원 수: {a.ndim}")

### 1-2. 배열 초기화

In [None]:
# 모든 요소가 0인 배열 생성

np.zeros((3,4)) # 2차원
np.zeros((2,3,4),dtype=np.int64) # 3차원

In [None]:
# (원소의 값이) 초기화 되지 않은 배열 생성
np.empty((2,3))

In [None]:
# 주어진 값으로 채운 배열
np.full((3,3),7)

In [None]:
# 단위 행렬
np.eye(3, 3)
np.eye(3,5,-1)


### 1-3. 범위 기반 배열 생성

In [None]:
# arrange: range()와 유사한 기능 제공
# 시작 이상 끝 미만의 정수 배열을 지정한 간격으로 생성
np.arange(0,10)
np.arange(0,10,2)

In [None]:
# linspace: 시작~끝까지 균일 간격으로 지정한 개수만큼 숫자를 생성
# 끝을 포함
np.linspace(10,100,10)
np.linspace(0.1, 1, 10)

### 1-4. 랜덤 배열 생성

In [None]:

# random.rand(m,n): 0~1 사이의 난수로 초기화
np.random.rand(2,3)

In [None]:
# random.randn(m,n): 표준정규분포를 따르는 난수로 초기화
# 표준정규분포: 평균 0, 분산 1인 정규분포

np.random.randn(2, 4, 5)
# random.randint(low, high, (size))
np.random.randint(10, 20, (2, 4))

In [None]:
# random.seed(): 난수 생성시 시작값 제공
np.random.seed(42)
np.random.randn(2,3)

In [None]:
# RNG(Random Number Generator): 최근 Numpy 사용에서 권장되는 방식
from numpy.random import default_rng

rng = default_rng(seed=42)
rng2 = default_rng(seed=10)
print(rng.random((3,2)))
print(rng2.random((3,2)))

### 실습

In [None]:
# 1.
arr1 = np.zeros((3,4))
arr1[:] = 5
print(arr1)

In [None]:
# 2.
a2 = np.arange(0,21,2)
print(a2)

In [None]:
# 3.
a3 = np.random.rand(2,3)
print(a3)

In [None]:
a4 = np.random.normal(100,20,6)
print(a4)

In [None]:
a5 = np.arange(1,21)
a5.shape = (4,5)
print(a5)

In [None]:
a6 = np.linspace(0,1,12)
a6.shape = (3,4)
print(a6)

In [None]:
a7 = np.random.randint(0,100,(10,10))
a7 = a7 + np.eye(10)
print(a7)

In [None]:
a8 = np.random.randint(0,10,(2,3,4))
print(a8)

### 1-5. 인덱싱과 슬라이싱
- 다차원 배열을 다루는 편의 가능 제공
- Python의 시퀀스보다 빠름

In [5]:
# 인덱싱
a = np.array([10,20,30,40,50])
print(a[2])
print(a[-1])

30
50


In [4]:
# 다차원 인덱싱
# 파이썬 인덱싱
matrix = [[1,2,4], [4,5,6]]
print("파이썬 인덱싱:", matrix[1][1])

# numpy 배열
a2 = np.array([[1,2,4], [4,5,6]])
print("numpy 인덱싱:", a2[1,1])

# 3차원 배열 인덱싱
a3 = np.arange(24).reshape(2,3,4)
print(a3)
print("3차원 인덱싱:", a3[1,1,1])


파이썬 인덱싱: 5
numpy 인덱싱: 5
[[[ 0  1  2  3]
  [ 4  5  6  7]
  [ 8  9 10 11]]

 [[12 13 14 15]
  [16 17 18 19]
  [20 21 22 23]]]
3차원 인덱싱: 17


In [7]:
# 슬라이싱
# arr[행_슬라이스, 열_슬라이스]
# arr[..., 4차원 슬라이스, 3차원 슬라이스, 2차원, 1차원]
a1 = np.array([10,20,30,40,50])
print(a1[1:3])
print(a1[2:])
print(a1[:2])
print(a1[:])
print(a1[::2])
print(a1[::-1])

[20 30]
[30 40 50]
[10 20]
[10 20 30 40 50]
[10 30 50]
[50 40 30 20 10]


In [10]:
# 파이썬 리스트와의 차이
# 파이썬 리스트
py_list = [10,20,30,40,50]
sliced = py_list[1:4]
sliced[1] = 100
print("py원본:", py_list)
print("py슬라이싱:", sliced)
print()

# numpy 계열
a1 = np.array([10,20,30,40,50])
a1_sliced = a1[1:4]
a1_sliced[1] = 100
print("numpy원본:", a1)
print("numpy슬라이싱:", a1_sliced)

py원본: [10, 20, 30, 40, 50]
py슬라이싱: [20, 100, 40]

numpy원본: [ 10  20 100  40  50]
numpy슬라이싱: [ 20 100  40]


In [11]:
# 실습 2

# 1.
arr = np.arange(10,30,2)
a1 = arr[[1,3,5]]
print(a1)

[12 16 20]


In [None]:
# 2.
arr = np.arange(1,10).reshape(3,3)
a2 = arr[[0,1,2],[0,1,2]]
print(a2)


[1 5 9]


In [13]:
# 3.
a3 = np.arange(1,13).reshape(3,4)
a3[:, -1] = -1
print(a3)

[[ 1  2  3 -1]
 [ 5  6  7 -1]
 [ 9 10 11 -1]]


In [18]:
a4 = np.arange(1,17).reshape(4,4)
a4_a1 = a4[::-1]
a4_a2 = a4[:, ::-1]
print("\n문제4.행 역순:", a4_a1, sep="\n")
print("\n문제4.열 역순:", a4_a2, sep="\n")


문제4.행 역순:
[[13 14 15 16]
 [ 9 10 11 12]
 [ 5  6  7  8]
 [ 1  2  3  4]]

문제4.열 역순:
[[ 4  3  2  1]
 [ 8  7  6  5]
 [12 11 10  9]
 [16 15 14 13]]


In [6]:
# 2차원 배열 슬라이싱
import numpy as np
a2 = np.arange(1,21).reshape(4,5)
print(a2)

# 행 슬라이싱
# print(a2[0])
# print(a2[1])
# print(a2[1:3])
# print(a2[:2])
# print()

# 열 슬라이싱
print(a2[:,2])
print(a2[:,-1])
print(a2[:,1:3])
print()

# 행과 열 슬라이싱
print(a2[1:3, 2:4])
print(a2[2: , 3:])
print(a2[::2, ::2])

[[ 1  2  3  4  5]
 [ 6  7  8  9 10]
 [11 12 13 14 15]
 [16 17 18 19 20]]
[ 3  8 13 18]
[ 5 10 15 20]
[[ 2  3]
 [ 7  8]
 [12 13]
 [17 18]]

[[ 8  9]
 [13 14]]
[[14 15]
 [19 20]]
[[ 1  3  5]
 [11 13 15]]


In [8]:
# 3차원 슬라이싱
a3 = np.arange(36).reshape(3,3,4)
print(a3)
print(a3[1,1,1:3])

[[[ 0  1  2  3]
  [ 4  5  6  7]
  [ 8  9 10 11]]

 [[12 13 14 15]
  [16 17 18 19]
  [20 21 22 23]]

 [[24 25 26 27]
  [28 29 30 31]
  [32 33 34 35]]]
[17 18]


In [9]:
# 얕은 복사: 복사본이 원본과 메모리를 공유-> 변경사항이 서로에게 영향을 줌

a1 = np.array([1,2,3])
a1_viewd = a1.view()
a1_viewd[1] = 10
print("원본", a1)
print("복사본", a1_viewd)
print()

# 깊은 복사: 복사본이 원본과 독립적으로 복사됨-> 서로 영향 x
a2 = np.array([1,2,3])
a2_copied = a2.copy()
a2_copied[1] = 10
print("원본2", a2)
print("복사본2", a2_copied)

원본 [ 1 10  3]
복사본 [ 1 10  3]

원본2 [1 2 3]
복사본2 [ 1 10  3]


In [13]:
# Fancy Indexing
# 정수 배열을 사용하여 여러 인덱스로 여러 요소를 한번에 선택
af = np.arange(1,21)
print(af)
print(af[[4,7,11]])

af2 = np.arange(1,21).reshape(4,5)
print(af2)
print(af2[[1,3], [2,4]])


[ 1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20]
[ 5  8 12]
[[ 1  2  3  4  5]
 [ 6  7  8  9 10]
 [11 12 13 14 15]
 [16 17 18 19 20]]
[ 8 20]


In [16]:
# Boolean Indexing
ab = np.linspace(10,100,10)
print(ab)
print(ab[ab> 40])
print()

# Boolean masking
ab2 = np.arange(0,21)
print(ab2)
mask = ab2 % 2 == 0
print(mask)
print(ab2[mask])

[ 10.  20.  30.  40.  50.  60.  70.  80.  90. 100.]
[ 50.  60.  70.  80.  90. 100.]

[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20]
[ True False  True False  True False  True False  True False  True False
  True False  True False  True False  True False  True]
[ 0  2  4  6  8 10 12 14 16 18 20]


In [24]:
# 실습 2
# 5. 
a5 = np.arange(1,21).reshape(4,5)
a5_as = a5[1:3, 1:4].copy()
print(a5_as)
print()

# 6.
a6 = np.array([[4,9,12,7],[10,15,18,3],[2,14,6,20]])
a6_as = a6[(a6 % 2 == 0) & (a6 >= 10)]
print(a6_as)
print()

# 7.
a7 = np.arange(1,26).reshape(5,5)
a7_as = a7[[1,3], :][:, [4,0,2]]
print(a7_as)

[[ 7  8  9]
 [12 13 14]]

[12 10 18 14 20]

[[10  6  8]
 [20 16 18]]


In [31]:
# 실습 2
# 8.
a8 = np.array([[10,20,30],[55,65,75],[40,45,50],[70,80,90],[15,25,35]])
a8_as = a8[a8[:,0]>= 50]
print(a8_as)
print()

# 9.
a9 = np.arange(1,17).reshape(4,4)
rows = [0,1,2,3]
cols = [1,3,0,2]
a9_as = a9[rows,cols]
print(a9_as)
print()

# 10.
a10 = np.arange(24).reshape(2,3,4)
a10_as = a10[:,:,1]
print(a10_as)


[[55 65 75]
 [70 80 90]]

[ 2  8  9 15]

[[ 1  5  9]
 [13 17 21]]


In [50]:
# 종합실습
# 1.
cp1 = np.arange(0,25).reshape(5,5)
cp1_r = cp1[2,:]
cp1_c = cp1[:,2]
print(cp1)
print("가운데 행:", cp1_r)
print("가운데 열:", cp1_c)
print()

# 2.
cp2 = np.random.randint(0,100, (10,10))
cp2_as = cp2[::2]
print(cp2_as)
print()
# 3.
cp3 = np.arange(50).reshape(5,10)
cp3_as = cp3[1:4,2:7]
print(cp3_as)

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]
 [15 16 17 18 19]
 [20 21 22 23 24]]
가운데 행: [10 11 12 13 14]
가운데 열: [ 2  7 12 17 22]

[[ 8 74 57 40 53 20 19 75 50 48]
 [33 99 25 39 98  5 13 37 36 97]
 [89 62 66 86 48 89 61 43 95 53]
 [92 85 29 54 97 31 47 24 72 97]
 [96 84 42 36 75 78  9 95 50 98]]

[[12 13 14 15 16]
 [22 23 24 25 26]
 [32 33 34 35 36]]


In [51]:
# 4.
cp4 = np.random.randint(0,10,(4,4))
main_d = [cp4[i,i] for i in range(4)]
sub_d = [cp4[i,3-i] for i in range(4)]
print(cp4)
print("주대각선:", main_d)
print("부대각선:", sub_d)
print()

# 5.
cp5 = np.random.randint(0,10,(3,4,5))
cp5_as = cp5[1,0,-1]
print("두번째 층의 첫 행 마지막 열값:", cp5_as)


[[1 4 7 7]
 [4 8 2 7]
 [1 8 9 7]
 [5 5 8 4]]
주대각선: [np.int32(1), np.int32(8), np.int32(9), np.int32(4)]
부대각선: [np.int32(7), np.int32(2), np.int32(8), np.int32(5)]

두번째 층의 첫 행 마지막 열값: 8


In [44]:
# 6.
cp6 = np.arange(35,75).reshape(10,4)
print(cp6)
print()
# 7.
cp7 = cp6[::-1]
print(cp7)
print()

# 8.
cp8 = cp6[1:-1,2:]
print(cp8)

[[35 36 37 38]
 [39 40 41 42]
 [43 44 45 46]
 [47 48 49 50]
 [51 52 53 54]
 [55 56 57 58]
 [59 60 61 62]
 [63 64 65 66]
 [67 68 69 70]
 [71 72 73 74]]

[[71 72 73 74]
 [67 68 69 70]
 [63 64 65 66]
 [59 60 61 62]
 [55 56 57 58]
 [51 52 53 54]
 [47 48 49 50]
 [43 44 45 46]
 [39 40 41 42]
 [35 36 37 38]]

[[41 42]
 [45 46]
 [49 50]
 [53 54]
 [57 58]
 [61 62]
 [65 66]
 [69 70]]


In [52]:
# 9.
cp9 = np.random.randint(1,51,(5,6))
cp9_as = cp9[cp9 % 2 == 0]
print(cp9_as)
print()

# 10.
cp10 = np.arange(0,100).reshape(10,10)
row = cp10[[1,3,5]]
cp10_as = row[:, [2,4,6]]
print(cp10_as)
print()

# 11.
cp11 = np.random.randint(0,10,15)
cp11_as1 = cp11[::2]
cp11_as2 = cp11_as1[cp11_as1 >= 5]
print("짝수 인덱스 값:", cp11_as1)
print("짝수 인덱스 중 5이상인 값:", cp11_as2)

[38 40 18 24 50 30 20  8 26 32 16 48 16]

[[12 14 16]
 [32 34 36]
 [52 54 56]]

짝수 인덱스 값: [9 9 0 1 9 3 5 1]
짝수 인덱스 중 5이상인 값: [9 9 9 5]
