## 01. NumPy
- 다차원 배열을 쉽고 효율적으로 사용할 수 있도록 지원하는 파이썬 라이브러리
- 데이터 분석 라이브러리의 근본

### 1-1 ndarray
- NumPy의 핵심 데이터 구조
- 동일한 자료형의 다차원 배열

In [2]:
import numpy as np

In [None]:
# ndarray 생성
a = np.array([[1,2,4], [4,5,6]])
b = np.array([1.0,2.3,3.14])

# 배열의 구조
print(f"배열의 구조 : {a.shape}")
# 배열의 구조 : (2, 3)

# 배열의 차원 수
print(f"배열의 차원 : {a.ndim}")
# 배열의 차원 : 2

# 데이터 타입
print(f"배열의 데이터 타입 : {a.dtype}")
print(f"배열의 데이터 타입 : {b.dtype}") 
# 배열의 데이터 타입 : int64 / 정수가 표현할 수 있는 용량 = 64 비트
# 배열의 데이터 타입 : float64 / 실수가 표현할 수 있는 용량 = 64 비트

# 형변환
new_a = a.astype(np.float64) 
print(f"배열의 데이터 타입 : {new_a.dtype}")
# 배열의 데이터 타입 : float64

In [None]:
# 3차원 행열

a = np.array([[[1,2,4], [4,5,6]], [[1,2,4], [4,5,6]]])

print(f"배열의 구조 : {a.shape}")
print(f"배열의 차원 : {a.ndim}")
# 배열의 구조 : (2, 2, 3)
# 배열의 차원 : 3

In [None]:
# 4차원 행열

a = np.array([[[[1,2,4], [4,5,6]], [[1,2,4], [4,5,6]]], [[[1,2,4], [4,5,6]], [[1,2,4], [4,5,6]]]])

print(f"배열의 구조 : {a.shape}")
print(f"배열의 차원 : {a.ndim}")
# 배열의 구조 : (2, 2, 2, 3)
# 배열의 차원 : 4

In [None]:
# 만들 수 없는 배열

# 내부 배열의 구조가 같아야 함
a = np.array([[1], [2,3]]) # ValueError 

### 1-2 배열 초기화

In [None]:
# 모든 요소가 0인 배열 생성

np.zeros((3, 4)) # 2차원
# array([[0., 0., 0., 0.],
#        [0., 0., 0., 0.],
#        [0., 0., 0., 0.]])

np.zeros((2, 3, 4), dtype=np.int64) # 3차원 / 데이터 타입 지정 가능
# array([[[0, 0, 0, 0],
#         [0, 0, 0, 0],
#         [0, 0, 0, 0]],

#        [[0, 0, 0, 0],
#         [0, 0, 0, 0],
#         [0, 0, 0, 0]]])

In [None]:
# 모든 요소가 1인 배열 생성

np.ones((5,6))
# array([[1., 1., 1., 1., 1., 1.],
#        [1., 1., 1., 1., 1., 1.],
#        [1., 1., 1., 1., 1., 1.],
#        [1., 1., 1., 1., 1., 1.],
#        [1., 1., 1., 1., 1., 1.]])

In [None]:
# (원소의 값이) 초기화 되지 않은 배열 생성

np.empty((2,3)) # 쓰레기 값 = 메모리에 남아있던 값
# array([[4.9e-324, 9.9e-324, 2.0e-323],
#        [2.0e-323, 2.5e-323, 3.0e-323]])

In [None]:
# 주어진 값으로 채운 배열

np.full((3,3), 7)
# array([[7, 7, 7],
#        [7, 7, 7],
#        [7, 7, 7]])

In [None]:
# 단위 행렬 : 행렬의 곱에서 자기 자신이 만들어지는 행렬

np.eye(3,3)
# array([[1., 0., 0.],
#        [0., 1., 0.],
#        [0., 0., 1.]])

np.eye(3,5,1) # 3번째 인자를 입력하면 1이 오른쪽으로 이동
# array([[0., 1., 0., 0., 0.],
#        [0., 0., 1., 0., 0.],
#        [0., 0., 0., 1., 0.]])

### 1-3 범위 기반 배열 생성

In [None]:
# arange : range() 와 유사한 기능을 제공
# 시작 이상 끝 미만의 정수 배열을 지정한 간격으로 생성

np.arange(0, 10)
# array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
np.arange(0, 10, 2)
# array([0, 2, 4, 6, 8])

In [None]:
# linspace : 시작~끝까지 균일 간격으로 지정한 개수만큼 숫자를 생성
# 끝을 포함

np.linspace(10, 100, 10)
# array([ 10.,  20.,  30.,  40.,  50.,  60.,  70.,  80.,  90., 100.])

np.linspace(0.1, 1, 10)
# array([0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1. ])

In [None]:
# reshape : 배열의 구조를 재배치

np.linspace(1, 10, 6).reshape((2,3))
# array([[ 1. ,  2.8,  4.6],
#        [ 6.4,  8.2, 10. ]])

# 원소의 개수가 같아야 함
np.linspace(1, 10, 10).reshape((2,3)) # ValueError  

### 1-4 랜덤 배열 생성

In [None]:
# random.rand(m, n) : 0~1 사이의 난수로 초기화

np.random.rand(2,3)
# array([[0.72780303, 0.82995047, 0.38476608],
#        [0.84412908, 0.29035368, 0.5260673 ]])

In [None]:
# random.randn(m, n) : 표준정규분포를 따르는 난수로 초기화
# 표준정규분포 : 평균 : 0, 분산 : 1인 정규분포

np.random.randn(2,2,3)
# array([[[ 1.23783806,  1.0700067 ,  1.01619099],
#         [-1.26835453, -0.49229975,  1.59009656]],

#        [[ 1.84248661, -0.25435332, -1.44099114],
#         [ 0.00508073, -0.55274915, -0.24587321]]])

# random.normal(평균, 분산, (사이즈))
# 정규 분포
np.random.normal(10, 20, (2,4))
# array([[ 31.3501789 ,  17.28820375,  14.50562041,   0.84559278],
#        [ -1.18526527, -27.49522524,   8.04457321,  15.6071304 ]])

In [None]:
# random.randint(low, high, (size)) : 정수 배열 생성

np.random.randint(0, 101, (3, 3))
# array([[36, 76, 50],
#        [32, 83, 34],
#        [33, 61,  3]])

In [None]:
# random.seed() : 랜덤 난수의 초기화 값을 고정

np.random.seed(42)

print(np.random.rand(2,3))

print(np.random.randn(2,2))

print(np.random.randint(0, 101, (3, 3)))
# [[0.37454012 0.95071431 0.73199394]
#  [0.59865848 0.15601864 0.15599452]]

# [[ 1.57921282  0.76743473]
#  [-0.46947439  0.54256004]]

# [[63 59 20]
#  [32 75 57]
#  [21 88 48]]

In [None]:
# RNG(Random Number Generator)
# 최근 파이썬 사용에서 권장되는 방식

from numpy.random import default_rng
rng = default_rng(seed=42)
rng2 = default_rng(seed=10) # 시드값 변경으로 독립적으로 시드 사용 가능
rng3 = default_rng() # 시드 사용 안해도 가능

# 0~1 사이의 난수
print(rng.random((2,3)))
# [[0.77395605 0.43887844 0.85859792]
#  [0.69736803 0.09417735 0.97562235]]

# 정규 분포
print(rng.normal(0, 1, (2,3)))
# [[ 0.1278404  -0.31624259 -0.01680116]
#  [-0.85304393  0.87939797  0.77779194]]

# 정수 난수
print(rng.integers(0, 100, (3,3)))
# [[78 64 40]
#  [82 54 44]
#  [45 22  9]]

# 균등 분포
print(rng.uniform(0, 100, (3,2)))
# [[ 6.38172561 82.7631172 ]
#  [63.16643991 75.80877401]
#  [35.45259681 97.06980244]]

In [None]:
# 실습 1. 배열 초기화 및 생성

# 1. 
print(np.zeros((3,4)))

print(np.full((3,4), 5 ))

In [None]:
# 2. 
np.arange(0, 21, 2)

In [None]:
# 3. 
np.random.rand(2,3)

In [None]:
# 4. 
from numpy.random import default_rng
rng = default_rng()
print(rng.normal(100,20,6))

In [None]:
# 5.
np.arange(1, 21).reshape((4,5))

In [None]:
# 6. 
np.linspace(0, 1, 12).reshape((3,4))

In [None]:
# 7.
np.random.seed(42)
a = np.random.randint(0, 100, (10, 10))
b = np.eye(10, 10)

print(a)
print(a + b)

In [None]:
# 8.
np.random.randint(0, 10, (2, 3, 4))

### 1-5 인덱싱과 슬라이싱
- 다차원 배열을 다루는 편의 기능 제공
- Python의 시퀀스보다 빠름

In [None]:
# 인덱싱

a = np.array([1,2,3,4,5])
print(a[1]) # 2
print(a[-1]) # 5

In [None]:
# 다차원 인덱싱

# 파이썬 리스트
matrix = [[1,2,3], [4,5,6]]
print("파이썬 인덱싱 :", matrix[1][1])
# 파이썬 인덱싱 : 5

# NumPy 배열
a2 = np.array([[1,2,3], [4,5,6]])
print("넘파이 인덱싱 :", a2[1, 1])
# 넘파이 인덱싱 : 5

In [None]:
# 3차원 배열 인덱싱

a3 = np.arange(24).reshape(2,3,4)
print(a3)
# [[[ 0  1  2  3]
#   [ 4  5  6  7]
#   [ 8  9 10 11]]

#  [[12 13 14 15]
#   [16 17 18 19]
#   [20 21 22 23]]]

print("17 확인", a3[1,1,1])
print("11 확인", a3[0,2,3])
# 17 확인 17
# 11 확인 11

In [None]:
# 슬라이싱
# 2차원 슬라이스 = arr[행 슬라이스, 열 슬라이스]
# 다차원 슬라이스 = arr[3차원 슬라이스, 2차원 슬라이스, 1차원 슬라이스]

a1 = np.array([1,2,3,4,5])

print(a1[1:3]) # [2 3]
print(a1[2:]) # [3 4 5]
print(a1[:2]) # [1 2]
print(a1[::2]) # [1 3 5]
print(a1[::-1]) # [5 4 3 2 1]

In [None]:
# 파이썬 리스트와의 차이

# 파이썬 리스트
py_list = [1,2,3,4,5]
sliced = py_list[1:4]
sliced[1] = 100
print("py원본", py_list) # py원본 [1, 2, 3, 4, 5]
print("py슬라이싱", sliced) # py슬라이싱 [2, 100, 4]

# NumPy 배열
a1 = np.array([1,2,3,4,5])
a1_sliced = a1[1:4]
a1_sliced[1] = 100
print("numpy원본", a1) # numpy원본 [  1   2 100   4   5]
print("numpy슬라이싱", a1_sliced) # umpy슬라이싱 [  2 100   4]

In [None]:
# 2차원 배열 슬라이싱

a2 = np.arange(1, 21).reshape(4,5)
print(a2)
# [[ 1  2  3  4  5]
#  [ 6  7  8  9 10]
#  [11 12 13 14 15]
#  [16 17 18 19 20]]

# 행 슬라이싱 = 2차원 슬라이싱
print(a2[0, :])
# [1 2 3 4 5]
print(a2[1])
# [ 6  7  8  9 10]
print(a2[1:3])
# [[ 6  7  8  9 10]
#  [11 12 13 14 15]]
print(a2[2:])
# [[11 12 13 14 15]
#  [16 17 18 19 20]]

# 열 슬라이싱 = 1차원 슬라이싱
print(a2[:, 2])
# [ 3  8 13 18]
print(a2[:, -1])
# [ 5 10 15 20]
print(a2[:, 1:3])
# [[ 2  3]
#  [ 7  8]
#  [12 13]
#  [17 18]]

# 행과 열 슬라이싱
print(a2[1:3, 2:4])
# [[ 8  9]
#  [13 14]]
print(a2[2:, 3:])
# [[14 15]
#  [19 20]]
print(a2[::2, ::2])
# [[ 1  3  5]
#  [11 13 15]]

In [None]:
# 3차원 슬라이싱

a3 = np.arange(36).reshape(3,3,4)
print(a3)
# [[[ 0  1  2  3]
#   [ 4  5  6  7]
#   [ 8  9 10 11]]

#  [[12 13 14 15]
#   [16 17 18 19]
#   [20 21 22 23]]

#  [[24 25 26 27]
#   [28 29 30 31]
#   [32 33 34 35]]]

print(a3[1, 1, 1:3])
# [17 18]

In [None]:
# 앝은 복사 : 복사본이 원본과 메모리를 공유 -> 변경사항이 서로에게 영향을 줌
a1 = np.array([1,2,3])
a1_copied = a1.view()
a1_copied[1] = 10
print("원본", a1) # 원본 [ 1 10  3]
print("복사본", a1_copied) # 복사본 [ 1 10  3]

# 깊은 복사 : 복사본이 원본과 독립적으로 복사됨 -> 서로 영향을 주지 않음
a2 = np.array([1,2,3])
a2_copied = a2.copy()
a2_copied[1] = 10
print("원본", a2) # 원본 [ 1 2  3]
print("복사본", a2_copied) # 복사본 [ 1 10  3]

In [None]:
# Fancy Indexing
# 정수 배열을 사용하여 여러 인덱스로 여러 요소를 한번에 선택

af = np.arange(1,21)
print(af)
# [ 1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20]

print(af[[4,7,11]])
# [ 5  8 12]

# 2차원 배열에서의 Fancy Indexing
af2 = np.arange(1, 21).reshape(4,5)
print(af2)
# [[ 1  2  3  4  5]
#  [ 6  7  8  9 10]
#  [11 12 13 14 15]
#  [16 17 18 19 20]]

print(af2[[1,3],[2,4]])
# [ 8 20]

In [None]:
# Boolean indexing

ab = np.linspace(10,100,10)
print(ab)
# [ 10.  20.  30.  40.  50.  60.  70.  80.  90. 100.]
print(ab[ab > 40])
# [ 50.  60.  70.  80.  90. 100.]

# Boolean Masking
ab2 = np.arange(0,21)
print(ab2)
# [ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20]
mask = ab2 % 2 == 0
print(mask)
# [ True False  True False  True False  True False  True False  True False
#   True False  True False  True False  True False  True]
print(ab2[mask])
# [ 0  2  4  6  8 10 12 14 16 18 20] 

In [None]:
# 실습 2. 인덱싱과 슬라이싱

# 1. 
arr = np.arange(10, 30, 2)
print(arr, "\n")
print(arr[[1,3,5]])

In [None]:
# 2. 
arr = np.arange(1, 10).reshape(3, 3)
print(arr, "\n")
print(arr[[0,1,2],[0,1,2]])

In [None]:
# 3.
arr = np.arange(1, 13).reshape(3, 4)
print(arr, "\n")
arr[:,3] = -1
print(arr, "\n")

In [None]:
# 4.
arr = np.arange(1, 17).reshape(4, 4)
print(arr, "\n")
print("행 역순 :\n", arr[::-1,:])
print("열 역순 :\n", arr[:,::-1])

In [None]:
# 5.
arr = np.arange(1, 21).reshape(4, 5)
print(arr, "\n")
new_arr = arr[1:3,1:4].copy()
print(new_arr)

In [None]:
# 6.
arr = np.array([[ 4, 9, 12, 7], [10, 15, 18, 3], [ 2, 14, 6, 20]])
print(arr, "\n")
mask = (arr % 2 == 0) & (arr >= 10)
print(arr[mask])

In [None]:
# 7.
arr = np.arange(1, 26).reshape(5, 5)
print(arr, "\n")
new_arr = arr[[1,3]]
print(new_arr[:, [4,0,2]])
# [[ 1  2  3  4  5]
#  [ 6  7  8  9 10]
#  [11 12 13 14 15]
#  [16 17 18 19 20]
#  [21 22 23 24 25]] 

# [[10  6  8]
#  [20 16 18]]

In [None]:
# 8.
arr = np.array([[10, 20, 30], [55, 65, 75], [40, 45, 50], [70, 80, 90], [15, 25, 35]])
print(arr, "\n")
print(arr[arr[:,0] >= 50])

In [None]:
# 9.
arr = np.arange(1, 17).reshape(4, 4)
print(arr, "\n")
print(arr[[0,1,2,3],[1,3,0,2]])

In [None]:
# 10.
arr3d = np.arange(24).reshape(2, 3, 4)
print(arr3d, "\n")
arr2d = arr3d[:, :, 1].copy()
print(arr2d)

In [142]:
# 실습 3. NumPy 종합 연습
# 1. 
a1 = np.arange(25).reshape(5,5)
print("가운데 행 :", a1[2])
print("가운데 열 :", a1[:,2])

가운데 행 : [10 11 12 13 14]
가운데 열 : [ 2  7 12 17 22]


In [171]:
# 2.
a2 = np.random.randint(0,100,(10,10))
print(a2, "\n")
print("짝수 인덱스 행\n", a2[::2])

[[85 25 18 43 28 98 70 17 41 10]
 [89 89 54 84 48 97  7  7  9 45]
 [48  7 99 19 39 85 45 66 40 81]
 [22 40 96 98 96 56 43 48 65 62]
 [ 7 18 68 64 88 37 92 44 56 76]
 [72 46  3 98 97 74 76 52 71 31]
 [41 53 59  2 57 98 20 13 98 66]
 [43 99 47 53  2 89 11 17 47  9]
 [77 84 73 52 24 50 47 86 61 37]
 [96 21  2 13 29 23 16 27 11 17]] 

짝수 인덱스 행
 [[85 25 18 43 28 98 70 17 41 10]
 [48  7 99 19 39 85 45 66 40 81]
 [ 7 18 68 64 88 37 92 44 56 76]
 [41 53 59  2 57 98 20 13 98 66]
 [77 84 73 52 24 50 47 86 61 37]]


In [148]:
# 3.
a3 = np.arange(50).reshape(5,10)
print(a3, "\n")
print(a3[1:4, 2:8])

[[ 0  1  2  3  4  5  6  7  8  9]
 [10 11 12 13 14 15 16 17 18 19]
 [20 21 22 23 24 25 26 27 28 29]
 [30 31 32 33 34 35 36 37 38 39]
 [40 41 42 43 44 45 46 47 48 49]] 

[[12 13 14 15 16 17]
 [22 23 24 25 26 27]
 [32 33 34 35 36 37]]


In [None]:
# 4.
a4 = np.random.randint(0,10,(4,4))
print(a4, "\n")
new_a4 = []
sub_a4 = []

for i in range(len(a4)):
    new_a4.append(a4[i, i])

# for i in range(len(a4)):
#     new_a4.append(a4[i, i])


print(new_a4)


[[1 6 0 1]
 [1 6 7 1]
 [3 1 4 2]
 [4 4 5 9]] 

[np.int64(1), np.int64(6), np.int64(4), np.int64(9)]
[]


In [158]:
# 5.
a5 = np.random.randint(0,10,(3,4,5))
print(a5, "\n")
print(a5[1,0,-1])

[[[5 2 6 7 4]
  [7 4 3 4 7]
  [6 5 6 5 0]
  [0 8 7 4 6]]

 [[4 8 6 0 1]
  [4 7 1 0 0]
  [6 6 9 0 7]
  [3 2 1 0 2]]

 [[5 0 2 7 0]
  [3 1 5 9 5]
  [2 6 3 8 4]
  [8 9 2 2 3]]] 

1


In [3]:
# 6.
a6 = np.arange(35,75).reshape(10,4)
print(a6)

[[35 36 37 38]
 [39 40 41 42]
 [43 44 45 46]
 [47 48 49 50]
 [51 52 53 54]
 [55 56 57 58]
 [59 60 61 62]
 [63 64 65 66]
 [67 68 69 70]
 [71 72 73 74]]


In [4]:
# 7.
a7 = a6[::-1]
print(a7)

[[71 72 73 74]
 [67 68 69 70]
 [63 64 65 66]
 [59 60 61 62]
 [55 56 57 58]
 [51 52 53 54]
 [47 48 49 50]
 [43 44 45 46]
 [39 40 41 42]
 [35 36 37 38]]


In [162]:
# 8.
a8 = a6[1:-1, 2:]
print(a8)

[[41 42]
 [45 46]
 [49 50]
 [53 54]
 [57 58]
 [61 62]
 [65 66]
 [69 70]]


In [164]:
# 9.
a9 = np.random.randint(1,51,(5,6))
print(a9, "\n")
print(a9[a9 % 2 == 0])

[[38  6 35  9 34 43]
 [31  9 50 32 25 49]
 [12 26 14 10 37 43]
 [44 24  6 31 48 48]
 [21 39 12  4 10 44]] 

[38  6 34 50 32 12 26 14 10 44 24  6 48 48 12  4 10 44]


In [10]:
# 10.
arr = np.arange(100).reshape(10,10)
print(arr, "\n")
# selected_row = arr[[1,3,5]]
# print(selected_row)
# selected_col = selected_row[:,[2,4,6]]
# print(selected_col)

a10 = arr[[1,3,5]][:,[2,4,6]]
print(a10)


[[ 0  1  2  3  4  5  6  7  8  9]
 [10 11 12 13 14 15 16 17 18 19]
 [20 21 22 23 24 25 26 27 28 29]
 [30 31 32 33 34 35 36 37 38 39]
 [40 41 42 43 44 45 46 47 48 49]
 [50 51 52 53 54 55 56 57 58 59]
 [60 61 62 63 64 65 66 67 68 69]
 [70 71 72 73 74 75 76 77 78 79]
 [80 81 82 83 84 85 86 87 88 89]
 [90 91 92 93 94 95 96 97 98 99]] 

[[12 14 16]
 [32 34 36]
 [52 54 56]]


In [19]:
# 11.
arr = np.random.randint(0,10,(15))
print(arr, "\n")
a11 = arr[::2]
print(a11)
a11_1 = a11[a11 >= 5]
print(a11_1)

[6 8 6 7 3 4 9 8 0 5 3 0 4 2 8] 

[6 6 3 9 0 3 4 8]
[6 6 9 8]
