# Numpy
-----
## 03. 배열 연산과 함수
### 스칼라, 벡터, 매트릭스, 텐서

- 스칼라
    - 수학과 물리학에서 사용되는 개념으로 크기만을 가지고 방향이 없는 양
    - 다른 말로 단 하나의 값을 갖는 변수 또는 양
    - 1차원으로만 표현
    - 주로 실수, 정수, 복소수 등과 같은 숫자 형태로 표현되며 수학적 연산에 사용될 수 있음
- 스칼라는 벡터(크기와 방향을 가지는 양)과 대비되는 개념으로 이해
- 차원별 용어
    - 0D: 스칼라
    - 1D: 벡터
    - 2D: 매트릭스
    - 3D: 큐브
    - 4D: 테서렉트
- Tensor : 3차원 이상의 데이터는 텐서라고 통칭하여 3차원 텐서, 4차원 텐서, n차원 텐서라 지칭하기도 함
        

In [1]:
import numpy as np

# 차원이 없는 배열은 스칼라
scalar = np.array(3)
# scalar의 속성들을 살펴봅시다
print(scalar.shape, scalar.ndim, scalar.size, scalar.dtype)

# 그렇다면 이것은 어떨까?
onedim = np.array([3])
# onedim의 속성들을 살펴봅시다
print(onedim.shape, onedim.ndim, onedim.size, onedim.dtype)


() 0 1 int32
(1,) 1 1 int32


### 기본 수학 연산: 덧셈, 뺄셈, 곱셈, 나눗셈

- 배열과 스칼라의 연산
    - 스칼라가 배열의 각 요소로 브로드캐스팅되어 연산된다

In [2]:
import numpy as np

# 스칼라 데이터
scalar = 10
# 배열 데이터
arr = np.array([1, 2, 3, 4, 5])

print("덧셈:", arr + scalar)
print("뺼셈:", scalar - arr)
print("곱셈:", arr * scalar)
print("나눗셈:", arr / scalar)

print("type of arr:", arr.dtype)
print("type of arr / scalar:", (arr / scalar).dtype)

덧셈: [11 12 13 14 15]
뺼셈: [9 8 7 6 5]
곱셈: [10 20 30 40 50]
나눗셈: [0.1 0.2 0.3 0.4 0.5]
type of arr: int32
type of arr / scalar: float64


- 배열과 배열의 연산

In [3]:
import numpy as np

# 1차원과 1차원의 연산
arr1 = np.array([1, 2, 3, 4, 5])
arr2 = np.array([2, 4, 6, 8, 10])

print(arr1 + arr2)
print()
arr3 = np.array([3, 4, 5, 6, 7, 8, 9, 10])
# print(arr1 + arr3)  # Error -> 항상 형상의 변화에 관심을 기울이자

# 2차원과 1차원 연산
arr4 = np.array([10, 20, 30])
arr5 = np.array([
    [1, 2, 3],
    [4, 5, 6],
    [7, 8, 9]
])

print(arr4 + arr5)

[ 3  6  9 12 15]

[[11 22 33]
 [14 25 36]
 [17 28 39]]


### 내적
- 내적
    - 점곱(Dot Product)라고도 불리며 선형 대수학에서 두 벡터간의 연산을 말함
    - 두 벡터의 각 성분을 곱한 후 그 결과들을 더하는 연산
        -  벡터의 길이와 방향에 대한 정보를 담고 있음
    - 넘파이에서는 dot 함수로 수행


※ 단위 행렬이 가지는 의미 : 선형대수학에서는 행렬의 곱셈을 정의할 때, 단위 행렬을 곱해도 결과 행렬이 변하지 않는다는 의미로 사용

In [2]:
import numpy as np

# 벡터와 벡터의 내적
arr1 = np.array([1, 2, 3])
arr2 = np.array([10, 20, 30])
print(arr1.dot(arr2))
print(np.dot(arr1, arr2))

# 매트릭스와 벡터의 내적
mat = np.array([
    [0, 1, 2],
    [10, 11, 12],
    [20, 21, 22],
    [30, 21, 32]
])
vec = np.array([0, 1, 2])

print(mat)
print(vec)

result = mat.dot(vec)
print(result)

# 매트릭스와 매트릭스의 내적
mat2 = np.array([
    [0, 1, 2],
    [10, 11, 12],
    [20, 21, 22],
    [30, 21, 32]
])
mat2 = mat2.transpose() # 해줘야 한다. Why?
print("mat2: transposed")
print(mat2)
result = mat.dot(mat2)
print()
print(result)

# 단위행렬의 의미: 곱해도 결과가 변하지 않는 행렬

arr = np.array([
    [1, 2, 3],
    [4, 5, 6],
    [7, 8, 9]
])
print("\n[arr]:", arr, sep="\n")
print("arr * one:\n", np.dot(arr, np.eye(3)))

140
140
[[ 0  1  2]
 [10 11 12]
 [20 21 22]
 [30 21 32]]
[0 1 2]
[ 5 35 65 85]
mat2: transposed
[[ 0 10 20 30]
 [ 1 11 21 21]
 [ 2 12 22 32]]

[[   5   35   65   85]
 [  35  365  695  915]
 [  65  695 1325 1745]
 [  85  915 1745 2365]]

[arr]:
[[1 2 3]
 [4 5 6]
 [7 8 9]]
arr * one:
 [[1. 2. 3.]
 [4. 5. 6.]
 [7. 8. 9.]]


### 넘파이 함수 활용
- sum : 합계
- mean : 산술통계
- median : 중앙값
- min : 최솟값
- max : 최댓값
- var : 분산
- std : 표준편자

In [5]:
import numpy as np

# 파이썬 기본 자료형의 통계치
lst = [10, 20, 30, 40, 50]
print("합계:", sum(lst))
print("평균:", sum(lst) / len(lst))
print("최솟값:", min(lst))
print("최댓값:", max(lst))
# 이건 보너스
## 분산 구하기
## 1. 평균을 구한다
avg = sum(lst) / len(lst)
### 2. 각 데이터들의 편차 목록
diffs = [n - avg for n in lst]
print("편차의 목록:", diffs)
### 3. 편차 제곱의 평균 -> 분산
dsquares = [n ** 2 for n in diffs]
print("편차의 제곱:", dsquares)
var = sum(dsquares) / len(dsquares)
print("분산:", var)
### 4. 표준 편차 : 분산의 제곱근
import math
print("표준편차:", math.sqrt(var))

# 넘파이 배열의 통계 함수
arr = np.array([
    [0, 1, 2],
    [10, 11, 12],
    [20, 21, 22],
    [30, 31, 32]
])

print("SUM:", arr.sum(), np.sum(arr))
print("MEAN:", arr.mean())  # 192 / 12
print("MEDIAN:", np.median(arr))
print("MIN:", arr.min())
print("MAX:", arr.max())
print("VAR:", arr.var())
print("STD:", arr.std())

합계: 150
평균: 30.0
최솟값: 10
최댓값: 50
편차의 목록: [-20.0, -10.0, 0.0, 10.0, 20.0]
편차의 제곱: [400.0, 100.0, 0.0, 100.0, 400.0]
분산: 200.0
표준편차: 14.142135623730951
SUM: 192 192
MEAN: 16.0
MEDIAN: 16.0
MIN: 0
MAX: 32
VAR: 125.66666666666667
STD: 11.210114480533491


#### 축(AXIS)의 이해
- 행별 통계, 열별 통계 등을 구하려면 axis 매개변수를 이해해야 함

In [6]:
import numpy as np

arr = np.array([
    [0, 1, 2],
    [10, 11, 12],
    [20, 21, 22],
    [30, 31, 32]
])

print(arr.sum(axis=0))  # 열별 합계
print(arr.sum(axis=1))  # 행별 합계

arr2 = np.array([
    [
        [0, 1, 2],
        [10, 11, 12],
        [20, 21, 22],
        [30, 31, 32]
    ],
    [
        [100, 101, 102],
         [110, 111, 112],
         [120, 121, 122],
         [130, 131, 132]
    ]
])

print("\nmatrix")
print(arr2)
print()
print(arr2.sum(axis=0))

[60 64 68]
[ 3 33 63 93]

matrix
[[[  0   1   2]
  [ 10  11  12]
  [ 20  21  22]
  [ 30  31  32]]

 [[100 101 102]
  [110 111 112]
  [120 121 122]
  [130 131 132]]]

[[100 102 104]
 [120 122 124]
 [140 142 144]
 [160 162 164]]


### 배열의 변형
- reshape : 배열의 모양(Shape)을 변경
- resize : 배열의 모양(Shape)을 변경
    - reshape와 다르게 원본 배열을 변경
- flatten : 다차원 배열을 1차원으로 펼침
- ravel : 다차원 배열을 1차원으로 펼침
    - flatten와 유사하나 원본 배열과 공유 메모리를 사용하기 때문에 효율적
- transpose : 전치 행렬
    - 행과 열을 바꾸는 작업
    - T 속성으로도 전치 행렬을 구할 수 있음

In [7]:
import numpy as np

arr = np.array([1, 2, 3, 4, 5, 6])
print("[원본배열]")
print(arr)

print("형상:", arr.shape)
print("차원:", arr.ndim)

# reshape
print("[reshaped: (3, 2)]")
print(arr.reshape(3, 2))
print(arr)  # 원본은 보존됨

# resize
print("[resize: (3, 2)]")
print(arr.resize(3, 2))
print(arr)  # 원본이 변경됨

# flatten
print("[flatten]")
print(arr.flatten())
print(arr)

# ravel
print("[ravel]")
raveled = arr.ravel()
print(raveled)
arr[1,1] = 100
print(raveled)

# transpose
arr = np.array([[1, 2, 3], [4, 5, 6]])
transposed_arr = arr.transpose()
print(transposed_arr)

[원본배열]
[1 2 3 4 5 6]
형상: (6,)
차원: 1
[reshaped: (3, 2)]
[[1 2]
 [3 4]
 [5 6]]
[1 2 3 4 5 6]
[resize: (3, 2)]
None
[[1 2]
 [3 4]
 [5 6]]
[flatten]
[1 2 3 4 5 6]
[[1 2]
 [3 4]
 [5 6]]
[ravel]
[1 2 3 4 5 6]
[  1   2   3 100   5   6]
[[1 4]
 [2 5]
 [3 6]]


### 배열의 병합과 분할
- 배열의 병합
    - concatenate : 배열의 병합
    - vstack : 배열을 수직 방향으로 쌓아 올림
    - hstack : 배열을 수평 방향으로 옆으로 붙임

In [8]:
import numpy as np

arr1 = np.array([1, 2, 3])
arr2 = np.array([4, 5, 6])
print("arr1:", arr1)
print("arr2:", arr2)

# concatenate
combined_arr = np.concatenate([arr1, arr2])
print("concatenate:", combined_arr)

# vstack
arr1 = np.array([[1, 2], [3, 4]])
arr2 = np.array([[5, 6]])
print("arr1:", arr1, sep="\n")
print("arr2:", arr2, sep="\n")

print("vstack:", np.vstack([arr1, arr2]), sep="\n")

# hstack
# print("hstack:", np.hstack([arr1, arr2]), sep="\n") # error... why?
print("hstack:", np.hstack([arr1, arr2.T]), sep="\n")

arr1: [1 2 3]
arr2: [4 5 6]
concatenate: [1 2 3 4 5 6]
arr1:
[[1 2]
 [3 4]]
arr2:
[[5 6]]
vstack:
[[1 2]
 [3 4]
 [5 6]]
hstack:
[[1 2 5]
 [3 4 6]]


- 배열의 분할
    - split : 배열을 주어진 인덱스 또는 개수를 기준으로 분할
    - vsplit : 배열을 수직 방향으로 분할
    - hsplit : 배열을 수평 방향으로 분할

In [9]:
import numpy as np

# split
arr = np.array([1, 2, 3, 4, 5, 6])
split_arrs = np.split(arr, 3)
print(split_arrs)

# vsplit
arr = np.array([[1, 2], [3, 4], [5, 6]])
print("arr:", arr, sep="\n")
split_arrs = np.vsplit(arr, 3)
print("vsplit:", split_arrs, sep="\n")

# hsplit
arr = np.array([[1, 2, 3], [4, 5, 6]])
print("arr:", arr, sep="\n")
split_arrs = np.hsplit(arr, 3)
print("hsplit:", split_arrs, sep="\n")

[array([1, 2]), array([3, 4]), array([5, 6])]
arr:
[[1 2]
 [3 4]
 [5 6]]
vsplit:
[array([[1, 2]]), array([[3, 4]]), array([[5, 6]])]
arr:
[[1 2 3]
 [4 5 6]]
hsplit:
[array([[1],
       [4]]), array([[2],
       [5]]), array([[3],
       [6]])]


### 배열의 복제
- 얕은 복제 : 원본 배열과 공유 메모리를 사용
    - view : 원본 배열과 메모리를 공유하면서 새로운 ndarray 객체를 생성
    - slice : 원본 배열의 일부를 가리키는 별칭 생성

In [10]:
import numpy as np

origin_arr = np.array([1, 2, 3, 4, 5])
print("origin_arr:", origin_arr)

# 얕은 복사
shallow_copy = origin_arr.view()

# 배열 내용 출력
print("원본:", origin_arr)
print("복제:", shallow_copy)

shallow_copy[0] = 100

print("원본:", origin_arr)
print("복제:", shallow_copy)

origin_arr: [1 2 3 4 5]
원본: [1 2 3 4 5]
복제: [1 2 3 4 5]
원본: [100   2   3   4   5]
복제: [100   2   3   4   5]


- 깊은 복제 : 원본 배열과 공유 메모리를 사용하지 않음
    - copy : 원본 배열과 공유 메모리를 사용하지 않고 새로운 ndarray 객체를 생성

In [11]:
import numpy as np

# 원본 배열 생성
original_array = np.array([1, 2, 3, 4, 5])

# 깊은 복사
deep_copy = original_array.copy()

# 배열 내용 출력
print(original_array)  # [1 2 3 4 5]
print(deep_copy)       # [1 2 3 4 5]

# 복사된 배열의 첫 번째 요소를 변경
deep_copy[0] = 100

# 변경 후 배열 내용 출력
print(original_array)  # [1 2 3 4 5]
print(deep_copy)       # [100 2 3 4 5]

[1 2 3 4 5]
[1 2 3 4 5]
[1 2 3 4 5]
[100   2   3   4   5]
