## 01. Numpy

- 다차원 배열을 쉽고 효율적으로 사용할 수 있도록 지원하는 파이썬 라이브러리
- 데이터 분석 라이브러리에 많이 사용됨


### 1-1. ndarray
- numpy의 핵심 데이터 구조
- 동일한 자료형의 다차원 배열

In [2]:
import numpy as np

In [None]:
# ndarray의 생성
a = np.array([[1,2,3], [4,5,6]])            # 2차원
b = np.array([1.0, 3.14, 1.24])             # 1차원

a

array([[1, 2, 3],
       [4, 5, 6]])

In [11]:
# 배열의 구조
print(f"배열의 구조: {a.shape}")

# 배열의 차원수
print(f"배열의 차원: {a.ndim}")

# 데이터 타입
print(f"배열의 데이터 타입: {a.dtype}")
print(f"배열의 데이터 타입: {b.dtype}")

# 형 변환
new_a = a.astype(np.float64)
print(f"수정한 배열의 데이터 타입: {new_a.dtype}")


배열의 구조: (2, 3)
배열의 차원: 2
배열의 데이터 타입: int64
배열의 데이터 타입: float64
수정한 배열의 데이터 타입: float64


In [13]:
# 3차원 행렬
a = np.array([[[1,2,3], [4,5,6]], 
              [[1,2,3], [4,5,6]],
              [[1,2,3], [4,5,6]]])

print(f"배열의 구조: {a.shape}")
print(f"배열의 차원: {a.ndim}")

배열의 구조: (3, 2, 3)
배열의 차원: 3


In [14]:
# 4차원 행렬
a = np.array([[[[1,2,3], [4,5,6]], 
              [[1,2,3], [4,5,6]],
              [[1,2,3], [4,5,6]]],
              
              [[[1,2,3], [4,5,6]], 
              [[1,2,3], [4,5,6]],
              [[1,2,3], [4,5,6]]]])

print(f"배열의 구조: {a.shape}")
print(f"배열의 차원: {a.ndim}")

배열의 구조: (2, 3, 2, 3)
배열의 차원: 4


### 1-2. 배열 초기화

In [8]:
import numpy as np
# 모든 요소가 0인 배열 생성
print(np.zeros((3,4)))                              # 2차원
print(np.zeros((2,3,4), dtype=np.int64))            # 3차원     # int64 -> 소수점 사라짐

[[0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]]
[[[0 0 0 0]
  [0 0 0 0]
  [0 0 0 0]]

 [[0 0 0 0]
  [0 0 0 0]
  [0 0 0 0]]]


In [23]:
# 모든 요소가 1인 배열 생성
np.ones((5,6))

array([[1., 1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1., 1.]])

In [28]:
# (원소의 값이) 초기화 되지 않은 배열 생성
np.empty((2,3))

array([[1., 2., 3.],
       [4., 5., 6.]])

In [None]:
# 주어진 값으로 채운 배열
np.full((3, 3), 7)

array([[7, 7, 7],
       [7, 7, 7],
       [7, 7, 7]])

In [11]:
# 단위 행렬
print(np.eye(3, 3))
print(np.eye(3, 5, -1))

[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]
[[0. 0. 0. 0. 0.]
 [1. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0.]]


### 1-3. 범위 기반 배열 생성

In [12]:
# arrange: range() 와 유사한 기능 제공
# 시작 이상 끝 미만의 정수 배열을 지정한 간격으로 생성
print(np.arange(0, 10))
print(np.arange(0, 10, 2))

[0 1 2 3 4 5 6 7 8 9]
[0 2 4 6 8]


In [13]:
# linspace : 시작 ~ 끝까지 균일 간격으로 지정한 개수만큼 숫자를 생성
# 끝을 포함

print(np.linspace(10, 100, 10))
print(np.linspace(0.1, 1, 10))

[ 10.  20.  30.  40.  50.  60.  70.  80.  90. 100.]
[0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1. ]


### 1-4. 랜덤 배열 생성

In [None]:
# random.rand(m,n) : 0 ~ 1 사이의 난수로 초기화

np.random.rand(2,3)


array([[0.72860802, 0.42494477, 0.2342449 ],
       [0.58545945, 0.27420743, 0.51793467]])

In [49]:
# random.randn(m,n) : 표준 정규분포를 따르는 난수로 초기화
# 표준 정규분포 : 평균 0, 분산 1인 정규분포

np.random.randn(2,4,5)

array([[[ 0.35012773,  0.09141364, -1.76829382,  0.11623813,
         -0.4121351 ],
        [-1.56499425,  0.03579492,  0.74503456,  0.96163637,
         -0.56530278],
        [ 1.43813726, -2.508991  ,  1.83605737,  1.12809374,
         -0.33767653],
        [-1.48900202, -0.41411166,  0.3483623 , -2.25438656,
          1.54739915]],

       [[ 2.25710005,  0.49329907, -0.07981603, -0.42820949,
         -0.79471819],
        [-0.17920129, -0.57543341,  0.48808518, -1.98676298,
         -0.72822409],
        [ 0.35164259,  1.97614605,  0.0625254 ,  1.2196352 ,
          0.12460916],
        [-0.39853295, -2.89213765,  0.37470003,  1.24822103,
         -0.40180127]]])

In [None]:
# random.randint(low, high, size)

np.random.randint(10, 20, (2,4))            # 10 ~ 20 사이 정수(2 x 4) 배열

array([[15, 17, 17, 17],
       [11, 13, 15, 18]], dtype=int32)

In [None]:
# random.seed() : 난수 생성시 시작값을 제공함           

np.random.seed(42)
np.random.randn(2,3)                        # 결과값 고정

array([[ 0.49671415, -0.1382643 ,  0.64768854],
       [ 1.52302986, -0.23415337, -0.23413696]])

In [68]:
# RNG(Random Number Generator) : 최근 Numpy 사용에서 권장되는 방식
from numpy.random import default_rng

rng = default_rng(seed=42)
rng2 = default_rng(seed=10)

print(rng.random((3,2)))
print(rng2.random((3,2)))


[[0.77395605 0.43887844]
 [0.85859792 0.69736803]
 [0.09417735 0.97562235]]
[[0.95600171 0.20768181]
 [0.82844489 0.14928212]
 [0.51280462 0.1359196 ]]


In [None]:
# <실습1-1> 0으로 채워진 크기 (3, 4) 배열을 생성한 후, 모든 값을 5로 채우는 새로운 배열을 만드세요.
a1 = np.zeros([3,4])
a1_2 = np.full((3,4),5)
print(a1, a1_2, a1+a1_2, sep="\n")

# <실습1-2> 0부터 20까지 2씩 증가하는 1차원 배열을 생성하세요.
a2 = np.arange(0,21,2)
b2 = np.linspace(0,20, 11)
print(a2)
print(b2)

# <실습1-3> 0~1 사이의 실수 난수를 가지는 (2, 3) 크기의 배열을 생성하세요.
a3 = np.random.rand(2,3)
print(a3)

# <실습1-4> 평균이 100, 표준편차가 20인 정규분포 난수 6개를 생성하세요.
a4 = np.random.normal(100, 20, 6)
print(a4)

# <실습1-5> 1부터 20까지의 정수를 포함하는 1차원 배열을 만들고, 이 배열을 (4, 5) 크기의 2차원 배열로 변환하세요.
a5 = np.arange(1,21)
a5.shape = (4,5)
print(a5)

# a5 = np.arange(1,21).reshape(4,5)
# print(a5)

# <실습1-6> 0부터 1까지 균등 간격으로 나눈 12개의 값을 가지는 배열을 생성하고, 이를 (3, 4) 크기로 변환하세요.
a6 = np.linspace(0,1,12)
a6.shape = (3,4)
print(a6)

# a6 = np.linspace(0,1,12).reshape(3,4)
# print(a6)

# <실습1-7> 0~99 사이의 난수로 이루어진 (10, 10) 배열을 생성한 뒤, np.eye()로 만든 단위 행렬을 더하여 대각선 요소가 1씩 증가된 배열을 만드세요.

a7 = np.random.randint(0,100,(10,10))
a7_eye = np.eye(10)
a7_added = a7 + a7_eye
print(a7_added)

# <실습1-8> 0~9 사이의 난수로 이루어진 (2, 3, 4) 3차원 배열을 생성하세요
a8 = np.random.randint(0,10,(2,3,4)) 
print(a8)


[[0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]]
[[5 5 5 5]
 [5 5 5 5]
 [5 5 5 5]]
[[5. 5. 5. 5.]
 [5. 5. 5. 5.]
 [5. 5. 5. 5.]]
[ 0  2  4  6  8 10 12 14 16 18 20]
[ 0.  2.  4.  6.  8. 10. 12. 14. 16. 18. 20.]
[[0.64996393 0.70196688 0.79579267]
 [0.89000534 0.33799516 0.37558295]]
[103.30045596  82.88142164  99.20727716  89.30674516  64.2300699
 107.14609084]
[[ 1  2  3  4  5]
 [ 6  7  8  9 10]
 [11 12 13 14 15]
 [16 17 18 19 20]]
[[0.         0.09090909 0.18181818 0.27272727]
 [0.36363636 0.45454545 0.54545455 0.63636364]
 [0.72727273 0.81818182 0.90909091 1.        ]]
[[ 58.  57.  85.  48.  51.  41.  69.  14.  53.  59.]
 [ 96.   8.  52.  59.   4.  67.   5.  95.  93.  46.]
 [ 98.  54.  40.  51.  15.  12.  29.  18.  16.  62.]
 [ 18.  91.  57.  55.  89.  89.  61.  22.   8.  11.]
 [  0.  57.   0.  33.  96.  47.  88.   0.  15.  60.]
 [ 63.  62.  68.  21.  92.  67.  75.  25.  15.  50.]
 [ 85.  56.  28.  77.  91.  68.  47.  93.  61.  68.]
 [ 75.  15.  89.  89.  47.  84.  38. 100.  32.  93.]
 

### 1-5. 인덱싱과 슬라이싱
- 다차원 배열을 다루는 편의 기능 제공
- Python의 시퀀스보다 빠름

In [124]:
# 인덱싱
a = np.array([10,20,30,40,50])
print(a[2])
print(a[-1])

30
50


In [130]:
# 다차원 인덱싱
# 파이썬 리스트
matrix = [[1,2,4], [4,5,6]]
print("파이썬 인덱싱: ", matrix[1][1])

# numpy 배열
a2 = np.array([[1,2,4], [4,5,6]])
print("numpy 인덱싱: ", a2[1,1])

# 3차원 배열 인덱싱
a3 = np.arange(24).reshape(2,3,4)
print(a3)
print("3차원 인덱싱: ", a3[1,1,1])


파이썬 인덱싱:  5
numpy 인덱싱:  5
[[[ 0  1  2  3]
  [ 4  5  6  7]
  [ 8  9 10 11]]

 [[12 13 14 15]
  [16 17 18 19]
  [20 21 22 23]]]
3차원 인덱싱:  17


In [131]:
# 슬라이싱
# arr[행_슬라이스, 열_슬라이스]
# arr[..., 4차원 슬라이스, 3차원 슬라이스, 2차원, 1차원]

a1 = np.array([10,20,30,40,50])
print(a1[1:3])
print(a1[2:])
print(a1[:2])
print(a1[:])
print(a1[::2])
print(a1[::-1])

[20 30]
[30 40 50]
[10 20]
[10 20 30 40 50]
[10 30 50]
[50 40 30 20 10]


In [135]:
# 파이썬 리스트와의 차이
# 파이썬 리스트
py_list = [10,20,30,40,50]
sliced = py_list[1:4]
sliced[1] = 100
print("py원본: ", py_list)
print("py슬라이싱: ", sliced)

# Numpy 배열
a1 = np.array([10,20,30,40,50])
a1_sliced = a1[1:4]
a1_sliced[1] = 100
print("Numpy원본: ", a1)
print("Numpy슬라이싱: ", a1_sliced)


py원본:  [10, 20, 30, 40, 50]
py슬라이싱:  [20, 100, 40]
Numpy원본:  [ 10  20 100  40  50]
Numpy슬라이싱:  [ 20 100  40]


In [None]:
#<실습2>
# 2-1. 다음 배열에서 2, 4, 6번째 요소를 Fancy Indexing으로 선택하세요.
arr1 = np.arange(10, 30, 2)
print("문제1: ", arr1[[1,3,5]])

# 2-2. 3x3 배열에서 왼쪽 위 → 오른쪽 아래 대각선의 요소만 인덱싱으로 추출하세요.
arr2 = np.arange(1, 10).reshape(3, 3)
arr2_arr2 = np.array([arr2[0,0], arr2[1,1], arr2[2,2]])
print("문제2: ", arr2_arr2)

# 2-3. 3x4 배열에서 마지막 열만 선택해 모두 -1로 변경하세요.
arr3 = np.arange(1, 13).reshape(3, 4)
arr3[:,-1] = -1 
print("문제3: ", arr3)

# 2-4. 4x 4 배열에서 행을 역순, 열을 역순으로 각각 슬라이싱해 출력하세요.
arr4 = np.arange(1, 17).reshape(4, 4)
arr4_1 = arr4[::-1,:]
arr4_2 = arr4[:,::-1]

print("문제4-1: ", arr4_1)
print("문제4-2: ", arr4_2)

문제1:  [12 16 20]
문제2:  [1 5 9]
문제3:  [[ 1  2  3 -1]
 [ 5  6  7 -1]
 [ 9 10 11 -1]]
문제4-1:  [[13 14 15 16]
 [ 9 10 11 12]
 [ 5  6  7  8]
 [ 1  2  3  4]]
문제4-2:  [[ 4  3  2  1]
 [ 8  7  6  5]
 [12 11 10  9]
 [16 15 14 13]]
