### 01. Numpy
- 다차원 배열을 쉽고 효율적으로 사용할 수 있도록 지원하는 파이썬 라이브러리
- 데이터 분석 라이브러리의 근본!!  

### 1-1. ndarray
- NymPy의 핵심 데이터 구조
- 동일한 자료형의 다차원 배열

In [7]:
import numpy as np

In [19]:
# ndarray의 생성
a = np.array([[1,2,3],[4,5,6]])
b = np.array([1.0, 3.14, 1.24])

# 배열의 구조
print(f"배열의 구조: {a.shape}")

# 배열의 차원 수 
print(f"배열의 차원: {a.ndim}")

# 데이터 타입
print(f"배열 a의 데이터 타입: {a.dtype}")
print(f"배열 b의 데이터 타입: {b.dtype}")

# 형변환
new_a = a.astype(np.float64)
print(f"배열 new_a의 데이터 타입: {new_a.dtype}")

배열의 구조: (2, 3)
배열의 차원: 2
배열 a의 데이터 타입: int64
배열 b의 데이터 타입: float64
배열 new_a의 데이터 타입: float64


In [14]:
# 3차원 행렬
a = np.array([[[1,2,3],[4,5,6]], 
                [[1,2,3],[4,5,6]],
                [[1,2,3],[4,5,6]]])
print(f"배열의 구조: {a.shape}")
print(f"배열의 차원: {a.ndim}")

배열의 구조: (3, 2, 3)
배열의 차원: 3


In [16]:
# 4차원 행렬
a = np.array([[[[1,2,3],[4,5,6]], 
                [[1,2,3],[4,5,6]], 
                [[1,2,3],[4,5,6]],    
                [[1,2,3],[4,5,6]], 
                [[1,2,3],[4,5,6]], 
                [[1,2,3],[4,5,6]]]])
print(f"배열의 구조: {a.shape}")
print(f"배열의 차원: {a.ndim}")

배열의 구조: (1, 6, 2, 3)
배열의 차원: 4


In [18]:
# 만들 수 없는 행렬
# 내부 배열의 구조가 같아야 함.
a = np.array([1, [2,3]])

ValueError: setting an array element with a sequence. The requested array has an inhomogeneous shape after 1 dimensions. The detected shape was (2,) + inhomogeneous part.

### 1-2. 배열 초기화

In [None]:
# 모든 요소가 0인 배열
np.zeros((3,4))    # 2차원
np.zeros((2,3,4), dtype=np.int64)   # 3차원

array([[[0, 0, 0, 0],
        [0, 0, 0, 0],
        [0, 0, 0, 0]],

       [[0, 0, 0, 0],
        [0, 0, 0, 0],
        [0, 0, 0, 0]]])

In [11]:
# 모든 요소가 1인 배열
np.ones((5,6))     # 2차원

array([[1., 1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1., 1.]])

In [12]:
# (원소의 값이) 초기화 되지 않은 배열 생성
np.empty((2,3))

array([[1.04914920e-153, 6.26089492e-143, 3.68977620e+180],
       [4.30512406e-096, 1.50598685e+161, 1.04917752e-153]])

In [17]:
# 주어진 값으로 채운 배열
np.full((3,3), 7)

array([[7, 7, 7],
       [7, 7, 7],
       [7, 7, 7]])

In [None]:
# 단위 행렬
np.eye(3,3)
np.eye(3,5)
np.eye(3,5,1)   # 3번째 인자를 입력 → 1이 오른쪽으로 이동

array([[0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.]])

In [None]:
### 1-3. 범위 기반 배열 생성

In [None]:
# arange : range()와 유사한 기능을 제공
# 시작 이상, 끝 미만의 정수 배열을 지정한 간격으로 생성
np.arange(0,10)
np.arange(0,10,2)   # 간격 지정

array([0, 2, 4, 6, 8])

In [29]:
# linspace : 시작~끝까지 균일 간격으로 지정한 개수만큼 숫자를 생성
# 끝을 포함
np.linspace(10, 100, 10)
np.linspace(0.1, 1, 10)

array([0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1. ])

In [31]:
# reshape : 배열의 구조를 재배치
np.linspace(1, 10, 6).reshape((2,3))
# np.linspace(1, 10, 10).reshape((2,3))   # 원소의 개수가 같아야 함
np.linspace(5, 100, 20).reshape((4,5))

array([[  5.,  10.,  15.,  20.,  25.],
       [ 30.,  35.,  40.,  45.,  50.],
       [ 55.,  60.,  65.,  70.,  75.],
       [ 80.,  85.,  90.,  95., 100.]])

### 1-4. 랜덤 배열 생성

In [32]:
# random.rand(m, n) : 0~1 사이의 난수로 초기화
np.random.rand(2,3)

array([[0.7131586 , 0.50415358, 0.89527452],
       [0.75240986, 0.84711718, 0.03590392]])

In [34]:
# random.randn(m, n) : 표준정규분포를 따르는 난수로 초기화
# 표준정규분포 : 평균 0, 분산 1인 정규분포
np.random.randn(4,5)
np.random.randn(2,4,5)

array([[[-0.02797525,  0.5709046 , -0.21016536, -0.2579006 ,
          0.98385487],
        [ 1.13338161,  1.7008299 , -0.59643458, -0.85694579,
          0.59818859],
        [ 0.57355449,  0.67359869,  0.44156182, -0.13407567,
          0.72868977],
        [ 0.55328366, -1.16036112,  0.66696978,  1.7586832 ,
         -1.08977647]],

       [[ 0.79200895, -0.81686656, -0.3461521 ,  0.95704285,
         -1.06802753],
        [ 0.62743775, -0.35753074, -0.25784696, -2.1491502 ,
          0.53881713],
        [ 1.14231143, -0.23433403, -2.02672418, -0.7028038 ,
          0.85172794],
        [ 0.57985649,  0.41331222,  2.2285025 ,  0.74004643,
          1.52502074]]])

In [36]:
# random.randint(low, high, (size)) 
np.random.randint(0, 101, (3, 3)) 
print(np.random.randint(0, 101, (3, 3)) )

[[ 32  52  89]
 [ 89  58  52]
 [ 86  39 100]]


In [None]:
# random.seed() : 난수 생성시 시작값 제공
print(np.random.rand(2,3))
print(np.random.randn(4,5))
print(np.random.randint(0, 101, (3, 3)) )

[[0.37454012 0.95071431 0.73199394]
 [0.59865848 0.15601864 0.15599452]]
[[ 1.57921282  0.76743473 -0.46947439  0.54256004 -0.46341769]
 [-0.46572975  0.24196227 -1.91328024 -1.72491783 -0.56228753]
 [-1.01283112  0.31424733 -0.90802408 -1.4123037   1.46564877]
 [-0.2257763   0.0675282  -1.42474819 -0.54438272  0.11092259]]
[[50  6 20]
 [72 38 17]
 [ 3 88 59]]


In [None]:
# RNG(Random Number Generator)
# 최근 NumPy 사용에서 권장되는 방식
# 독립적으로 seed를 사용할 수 있음에 장점. (일부는 고정, 일부는 랜덤 생성 가능)

from numpy.random import default_rng
rng = default_rng(seed=42)
rng2 = default_rng(seed=10)
rng3 = default_rng()

print(rng.random((3,2)))    # 0~1 사이의 난수
print(rng.normal(0, 1, (4,5)))  # 정규분포
print(rng2.integers(0, 100, (2,2)))  # 정수 난수
print(rng3.uniform(0, 100, (4,4)))   # 균등분포


[[0.77395605 0.43887844]
 [0.85859792 0.69736803]
 [0.09417735 0.97562235]]
[[ 0.1278404  -0.31624259 -0.01680116 -0.85304393  0.87939797]
 [ 0.77779194  0.0660307   1.12724121  0.46750934 -0.85929246]
 [ 0.36875078 -0.9588826   0.8784503  -0.04992591 -0.18486236]
 [-0.68092954  1.22254134 -0.15452948 -0.42832782 -0.35213355]]
[[77 95]
 [26 20]]
[[71.51223783 63.47009665 37.93075522 17.64960737]
 [95.63245423 36.48132133 74.94464694 64.39863546]
 [95.92896695 20.45720625 26.40954399 47.24500575]
 [63.58538688 74.00521374 17.99512762 15.91718159]]


In [None]:
# 실습. 배열 초기화 및 생성

# 1. 0으로 채워진 크기 (3, 4) 배열을 생성한 후, 모든 값을 5로 채우는 새로운 배열을 만드세요.
np.zeros((3,4)) + np.full((3,4), 5)

# 2. 0부터 20까지 2씩 증가하는 1차원 배열을 생성하세요.
np.arange(0,21,2)

# 3. 0~1 사이의 실수 난수를 가지는 (2, 3) 크기의 배열을 생성하세요.
np.random.rand(2,3)

# 4. 평균이 100, 표준편차가 20인 정규분포 난수 6개를 생성하세요.
rng.normal(100, 20, 6)

# 5. 1부터 20까지의 정수를 포함하는 1차원 배열을 만들고, 이 배열을 (4, 5) 크기의 2차원 배열로 변환하세요.
np.arange(1,21)
np.arange(1,21).reshape((4,5))

# 6. 0부터 1까지 균등 간격으로 나눈 12개의 값을 가지는 배열을 생성하고, 이를 (3, 4) 크기로 변환하세요. 
np.linspace(0.1, 1, 12)
np.linspace(0.1, 1, 12).reshape((3,4))

# 7. 0~99 사이의 난수로 이루어진 (10, 10) 배열을 생성한 뒤, 
#   np.eye()로 만든 단위 행렬을 더하여 대각선 요소가 1씩 증가된 배열을 만드세요.
np.random.randint(0, 100, (10, 10)) 
np.random.randint(0, 100, (10, 10)) + np.eye(10,10)

# 8.  0~9 사이의 난수로 이루어진 (2, 3, 4) 3차원 배열을 생성하세요
np.random.randint(0, 10, (2,3,4)) 

array([[[9, 7, 1, 8],
        [0, 7, 3, 3],
        [4, 7, 4, 7]],

       [[9, 0, 9, 8],
        [5, 2, 7, 8],
        [5, 6, 0, 4]]], dtype=int32)