# **01_numpy.ipynb**

- `데이터분석` : 데이터를 분석하여 의사결정에 도움을 준다.
#### 통계 vs 데이터분석 vs 머신러닝
   - 통계: 데이터를 **요약, 해석하는 수학**(평균, 분산)
   - 데이터분석: **문제를 정의하고, 인사이트를 도출**(고객 구매 패턴 분석)
   - 머신러닝: 데이터를 학습하여 **예측**(스팸함 분류, 추천)
---
#### 데이터 분석
   - 의사결정 데이터 기반의 근거
   - 패턴 발견, 예측(머신러닝)
> ##### ***어떤 데이터를 어디까지 수집할 것인가?***

#### DA Flow
1. 문제 정의
2. **데이터 수집**
3. **데이터 정제(결측치, 이상치 지우기)**
4. **탐색 - 시각화(평균, 분포, 상관관계, 막대그래프, 히스토그램)**
5. 통계분석 및 해석(수학 -> 가설 검정, 회귀분석)
6. 결론 도출

#### Sheet vs DB vs Python
- `Sheet` 편하고, 사전지식이 많이 필요하지 않음
    - 대개는 여기정도면 됨
- `DB`    대용량 CRUD 처리(억단위)
- `Python` 시각화, 분석, 머신러닝

#### 라이브러리
- `numpy` : 빠름(수학, 통계, ***배열 연산***) ```파이썬 리스트 vs Numpy array 차이점```
- `pandas`: 표(DataFrame) --> `numpy`기반으로 만들어짐
- `matplotlib`: 시각화(그래프)
- `seaborn`: 시각화 심화
- `scipy`: 고급 통계, 수학 연산
- `scikit-learn`: 머신러닝

#### 배열 vs List
> ##### ***이거는 gpt한테 물어보기***

In [5]:
# %pip install numpy
# 이렇게 하면 설치됨(이거 콜랩에서 했던 거네)
# 터미널 실행이랑 동일.
python_list = [1, 2, 3, 4, 5]
double = [x*2 for x in python_list]
double

[2, 4, 6, 8, 10]

In [10]:
import numpy as np
array = np.array([1,2,3,4,5])    # 얘는 list가 아니라 ndarray임.(new type!)
result = array * 2
print(result)
# numpy의 가장 큰 특징 : 행렬 내 모든 데이터의 type이 똑같아야 함

[ 2  4  6  8 10]


In [14]:
arr = np.array([1, 2, 3, 4, 5])
print(arr, type(arr))
print('dimension', arr.ndim)
print('shape', arr.shape)
print('size', arr.size)

[1 2 3 4 5] <class 'numpy.ndarray'>
dimension 1
shape (5,)
size 5


In [18]:
arr1d = np.array([1, 2, 3, 4, 5])
print(arr1d) # 쉼표는 신경 쓰지 마시게.

[1 2 3 4 5]


In [27]:
l2d = [
    [1, 2, 3],
    [4, 5, 6],
]
arr2d = np.array(l2d)
arr2d
print('dimension', arr2d.ndim)
print('shape', arr2d.shape)
print('size', arr2d.size)
print('type', arr2d.dtype)

dimension 2
shape (2, 3)
size 6
type int64


In [29]:
silsu = np.array([1, 2, 3], dtype = float)
silsu, silsu.dtype

(array([1., 2., 3.]), dtype('float64'))

In [24]:
np.zeros(5)

array([0., 0., 0., 0., 0.])

In [41]:
# 0으로 채움
z1d = np.zeros(5)
z2d = np.zeros((2, 3))

# 1로 채움
o1d = np.ones(7)
o2d = np.ones((2, 3))

# n으로 채움
n1d = np.full(5, 7)
n2d = np.full((2, 3), 7)
n2d

# 빈칸이지만 먼저 만듦
empty = np.empty(3) # 이 안에 있는 내용은 의미가 없음(그냥 n칸짜리 데이터를 만든 것.


In [48]:
# 시퀀스 데이터

range_arr = np.arange(10, 20, 2)
# np.array(range(10, 20, 2))랑 똑같음

# 등간격 실수 배열
lin_space = np.linspace(0, 1, 5)
lin_space

# 로그스케일?
log_space = np.logspace(0, 2, 5)    # 10^0 ~ 10^2까지를 5등분.
log_space


array([  1.        ,   3.16227766,  10.        ,  31.6227766 ,
       100.        ])

In [68]:
# 난수 배열

# 균등 분포 난수
random = np.random.rand(3, 3)   # 랜덤수는 기본적으로 0 ~ 1사이의 랜덤한 값.
print(random)

# 정규 분포 난수
normal = np.random.randn(3, 3)
print(normal)

# 난수 in 정수
int_random = np.random.randint(0, 10, (3, 3))
print(int_random)

# 시드 설정(랜덤 재현 가능))
np.random.seed(42) # 랜덤상황 42 고정
np.random.rand(3)

[[0.59865848 0.15601864 0.15599452]
 [0.05808361 0.86617615 0.60111501]
 [0.70807258 0.02058449 0.96990985]]
[[-0.46947439  0.54256004 -0.46341769]
 [-0.46572975  0.24196227 -1.91328024]
 [-1.72491783 -0.56228753 -1.01283112]]
[[2 6 3]
 [8 2 4]
 [2 6 4]]


array([0.37454012, 0.95071431, 0.73199394])

In [77]:
# 배열의 데이터타입

# 데이터타입 확인
arr = np.array([1, 2, 3])
print(arr.dtype)

# 데이터 타입 지정 생성
f_arr = np.array([1, 2, 3], dtype=np.float64)
print(f_arr.dtype)

# 데이터 타입 변경
converted = arr.astype(np.float32)
print(converted.dtype)

# 문자열 -> 숫자
str_arr = np.array(['1.2', '2.3', '3.4'])
num_arr = str_arr.astype(float)
print(num_arr, num_arr.dtype)

int64
float64
float32
[1.2 2.3 3.4] float64


In [81]:
#  메모리 사용량
print(arr.itemsize) # int64 -> 8byte
print(converted.itemsize) # float32 -> 4

# 총 메모리 사용량
print(arr.nbytes)
print(converted.nbytes)

"""
데이터에 대한 고려사항
과학연산의 경우에는 가능한 길게 쓰는 것이 좋음.
"""

8
4
24
12


'\n데이터에 대한 고려사항\n과학연산의 경우에는 가능한 길게 쓰는 것이 좋음.\n'

In [88]:
# 배열 재구성하기.

arr = np.arange(12)
reshaped = arr.reshape(3, 4)
reshaped3d = arr.reshape(2 * 2 * 3) # 2 x 3 짜리로 2페이지 개설

# 자동계산
auto1 = arr.reshape(3, -1) #  row 3개, col 알아서
auto2 = arr.reshape(-1, 6) #  row 알아서, col 6개
auto1, auto2

(array([[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]]),
 array([[ 0,  1,  2,  3,  4,  5],
        [ 6,  7,  8,  9, 10, 11]]))

In [93]:
# reshape -> 원본 그대로 두고, 새로분 배열 만드는 것
# resize  -> 원본을 바꿈
arr = np.arange(12)
reshaped = arr.reshape(3, 4)
print(reshaped)
print(arr)

arr.resize(3, 4)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
[ 0  1  2  3  4  5  6  7  8  9 10 11]


In [98]:
# 1 ~ 15의 정수배열
print(np.arange(1, 16))

# 0 ~ 10까지 홀수
print(np.arange(1, 11, 2))

# 0 ~ 1까지 균등 6등분
print(np.linspace(0, 3, 6))

[ 1  2  3  4  5  6  7  8  9 10 11 12 13 14 15]
[1 3 5 7 9]
[0.  0.6 1.2 1.8 2.4 3. ]


In [104]:
# 4 * 4 단위행렬(identity matrix) -> 대각선1, 나머지 0
np.eye(3)

# 3 * 4 사이즈의 모든 원소 1로 가득찬 int 배열
np.ones((3, 4), dtype = int)

# 2 * 3 * 4 사이즈 0 ~ 1 난수배열
np.random.rand(2, 3, 4) # 인자로 차원 지정 -> 오래된 버전에서 주로 씀
np.random.random((2, 3, 4)) # 인자로 채원 지정 -> 최신 버전에서 자중 씀.
# rand과 random의 차이

array([[[0.11005192, 0.22793516, 0.42710779, 0.81801477],
        [0.86073058, 0.00695213, 0.5107473 , 0.417411  ],
        [0.22210781, 0.11986537, 0.33761517, 0.9429097 ]],

       [[0.32320293, 0.51879062, 0.70301896, 0.3636296 ],
        [0.97178208, 0.96244729, 0.2517823 , 0.49724851],
        [0.30087831, 0.28484049, 0.03688695, 0.60956433]]])

In [196]:
# N차원 -> 1차원

arr = np.array([[1, 2, 3], [4, 5, 6]])
r = arr.ravel() # VIEW: 원본이 연결되어 있음(아, 업데이트가 되는구나)
f = arr.flatten()   # 복사본(얘는 업데이트 적용이 안 되는구나)

r[0] = 100
f[0] = -100

print(arr, r, f) # 원본값을 바꾸진 않는 건가?
id(arr), id(r), id(f)


[[100   2   3]
 [  4   5   6]] [100   2   3   4   5   6] [-100    2    3    4    5    6]


(4647883024, 4649087984, 4647884176)

In [202]:
# 전치행렬
arr_2d = np.array([[1, 2, 3], [4, 5, 6]])
arr_2d = np.arange(1, 7).reshape(2, 3)
print(arr_2d)

d2_rra = arr_2d.transpose()
# 같은 거: arr_2d.T
d2_rra
# T 속성

[[1 2 3]
 [4 5 6]]


array([[1, 4],
       [2, 5],
       [3, 6]])

# ***배열의 인덱싱/슬라이싱***
*`arr`은 값은 바꿀 수 있지만 구조는 바꿀 수 없음*

In [114]:
# 생성
arr = np.array([10, 20, 30, 40, 50])

# 접근
print(arr[0], arr[2], arr[-1], arr[-2])

# 변경
arr[0] = 100
print(arr[0], arr[2], arr[-1], arr[-2])

# 배열의 단점 : 자유롭지 않고 고정적임.

10 30 50 40
100 30 50 40


In [123]:
arr_2d = np.arange(1, 10).reshape(3, 3)
arr_2d

print(arr_2d[0][0]) # 이렇게 안 하고 한 번에 찾아가는 법

# 쉼표로 여러 차원을 쉽게 접근할 수 있음(numpy에서만)
print(arr_2d[0, 0]) 

#행 접근
arr_2d[1]

# 변경
arr_2d[0, 0] = 100
print(arr_2d[0, 0])

1
1
100


In [132]:
# 슬라이싱
arr = np.arange(10)
print(
    arr[2:5],
    arr[:5],
    arr[5:]
)

print(
    arr[1:8:2],
    arr[::2]
)

print(
    arr[::-1],
    arr[7:2:-1]
)

# 슬라이싱 일괄 변경(파이썬은 불가능)
arr[3:6] = 100
print(arr)

[2 3 4] [0 1 2 3 4] [5 6 7 8 9]
[1 3 5 7] [0 2 4 6 8]
[9 8 7 6 5 4 3 2 1 0] [7 6 5 4 3]
[  0   1   2 100 100 100   6   7   8   9]


In [133]:
# 파이썬은 리스트 값 바꾸기 안 됨
l = [1, 2, 3, 4]
l[1:3] = 100

TypeError: must assign iterable to extended slice

In [141]:
arr_2d = np.arange(1, 13).reshape(3, -1) # 참고로 이거 딱 떨어져야 함
print(arr_2d)

# row 슬라이싱
print(arr_2d[0:2])

# column 슬라이싱
print(arr_2d[:, 1:3]) # 모든 행의 2, 3번째 열

# row / col 동시 슬라이싱
print(arr_2d[1:3, 0:2])

# 와중에 간격 지정 가능
print(arr_2d[::2, ::2])

[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]
[[1 2 3 4]
 [5 6 7 8]]
[[ 2  3]
 [ 6  7]
 [10 11]]
[[ 5  6]
 [ 9 10]]
[[ 1  3]
 [ 9 11]]


In [150]:
# 다차원 배열 슬라이싱으로 변경
print(arr_2d)

# 부분배열 일괄 변경
arr_2d[0:2, 0:2] = 0
arr_2d # 바뀐다!

# 브로드캐스팅(Broadcasting)
# 열 교체
    # 값 하나를 전체에 뿌리는 것.
arr_2d[:,3] = [100, 200, 300]
print(arr_2d[:,3])  # 오잉 벡터로 바뀌어서 나온다(why...?)
print(arr_2d) # 열값으로 바꿈.

[[  0   0   3 100]
 [  0   0   7 200]
 [  9  10  11 300]]
[100 200 300]
[[  0   0   3 100]
 [  0   0   7 200]
 [  9  10  11 300]]


In [160]:
# boolean indexing
    # 조건에 따라 배열 요소를 선택(필터링)
arr = np.arange(1, 6)

# 마스킹 -> T/F로 바꿈
mask = arr > 3
print(mask, arr)

# 마스킹 배열로 필터링
print(arr[mask])

# 직접 조건을 걸 수 있음.
print(arr[arr > 3])

# 다중조건
print(arr[(arr > 2) & (arr < 4)]) # and
print(arr[(arr < 2) | (arr > 4)]) # or

# & fancy indexing: 

[False False False  True  True] [1 2 3 4 5]
[4 5]
[4 5]
[3]
[1 5]


In [172]:
# 2차원 배열 불리언 인덱싱
arr_2d = np.arange(1, 10).reshape(3, 3)
arr_2d

mask = arr_2d > 5  # 하나짜리 연산을 전체 배열에 적용을 하니까 BROADCASTING
print(arr_2d > 5)
print(arr_2d[mask]) # 필터링하면 그냥 vector로 나옴

# 조건에 맞는 행만 선택하는 법
# 1
arr_2d[:, 0:3:2]
# 2
row_mask = np.array([True, False, True])
print(arr_2d[row_mask]) # 1 3 행 뽑기
print(arr_2d[:, row_mask]) # 1 3 열 뽑기

[[False False False]
 [False False  True]
 [ True  True  True]]
[6 7 8 9]
[[1 2 3]
 [7 8 9]]
[[1 3]
 [4 6]
 [7 9]]


In [180]:
arr = np.arange(10, 60, 10)
print(arr)

# arr[1, 2] -> 얘는 에러
arr[[0, 1, 4]] # 이건 됨...?
# 오 ㅅㅂ 그래서 fancy구나.
# 대괄호 두 번 까먹지 마시라우요~

# 중복 뽑기~
print(arr[[0, 0 , 1, 1, 2]]) # 진짜 그냥 입력된 열의 숫자를 가져오네. 2차원은 되나?

# 순서 바꾸기 ~
print(arr[[2, 3, 1, 4, 2, 0]])

[10 20 30 40 50]
[10 10 20 20 30]
[30 40 20 50 30 10]


In [203]:
# 다차원 fancy indexing

arr_2d = np.arange(1, 10).reshape(3, 3)
print(arr_2d)

print(
    arr_2d[
        [0, 1, 2],
        [0, 2, 1]
    ]
) # 아 이게 (0, 0), (1, 2), (2, 1) 순서로 만든 벡터구나.

# 행렬의 특정 열을 순서 바꾸기.
print(arr_2d[ # 이건 근데 바꾼 게 아니라, 그냥 이렇게 보이게 출력한 거잖아여...
    :,
    [2, 0, 1]
])

print(arr_2d)

[[1 2 3]
 [4 5 6]
 [7 8 9]]
[1 6 8]
[[3 1 2]
 [6 4 5]
 [9 7 8]]
[[1 2 3]
 [4 5 6]
 [7 8 9]]


# **배열 <-> 배열 연산**

In [205]:
a = np.array([1, 2, 3, 4])
b = np.array([5, 6, 7, 8])
print(a + b)
print(a - b)
print(a * b)
print(a / b)
print(a ** 2)
print(a ** b)

[ 6  8 10 12]
[-4 -4 -4 -4]
[ 5 12 21 32]
[0.2        0.33333333 0.42857143 0.5       ]
[ 1  4  9 16]
[    1    64  2187 65536]


In [207]:
a = np.array([True, False, True, False])
b = np.array([False, True, True, False])

# 논리연산
# AND
print(a & b)
# OR
print(a | b)
# NOT
print(~a)

[False False  True False]
[ True  True  True False]
[False  True False  True]


# ** 배열 <-> 스칼라(단일값) 연산 **
> ###  Broadcasting

In [210]:
# 배열 생성
arr = np.array([1, 2, 3, 4, 5])

# 스칼라 덧셈
print(arr + 10)     # [11 12 13 14 15]

# 스칼라 뺄셈
print(arr - 1)      # [0 1 2 3 4]

# 스칼라 곱셈
print(arr * 2)      # [2 4 6 8 10]

# 스칼라 나눗셈
print(arr / 2)      # [0.5 1.  1.5 2.  2.5]

# 스칼라 거듭제곱
print(arr ** 2)     # [ 1  4  9 16 25]

# 스칼라 비교(불리언 배열)
print(arr > 3)      # [False False False  True  True]
print(arr == 2)     # [False  True False False False]

[11 12 13 14 15]
[0 1 2 3 4]
[ 2  4  6  8 10]
[0.5 1.  1.5 2.  2.5]
[ 1  4  9 16 25]
[False False False  True  True]
[False  True False False False]


### **Matrix <-> Scalar 연산**

In [212]:
# 2차원 배열
arr_2d = np.array([[1, 2, 3], [4, 5, 6]])

# 스칼라 연산
print(arr_2d + 10)
# [[11 12 13]
#  [14 15 16]]

print(arr_2d * 3)
# [[ 3  6  9]
#  [12 15 18]]

[[11 12 13]
 [14 15 16]]
[[ 3  6  9]
 [12 15 18]]


### **Matrix <-> Vector** 연산

In [216]:
matrix = np.array([[1, 2, 3], [4, 5,6]])
vector = np.array([10, 20, 30])

# 행렬 + 벡터
print(matrix + vector)

# 열 벡터 브로드캐스팅
col_vec = np.array(
    [
        [100],
        [200]
    ]
)

print(matrix + col_vec)

[[11 22 33]
 [14 25 36]]
[[101 102 103]
 [204 205 206]]


In [219]:
test_vc = np.array([10,[-10],[-20]])
print(matrix + test_vc)
# 줄을 안 맞추면 실행이 안 됨

ValueError: setting an array element with a sequence. The requested array has an inhomogeneous shape after 1 dimensions. The detected shape was (3,) + inhomogeneous part.

In [224]:
matrix = np.array([[1, 2, 3], [4, 5,6]])
vector = np.array([10, 20, 30])

print('Matrix shape', matrix.shape)
print('Vector shape', vector.shape)
print('Matrix + Vector', matrix + vector)
# 1. Vector(3,) 앞에 1이 추가됨(열 개념을 만들어주는 것)
# 2. Matrix(1, 3)으로 변환
# 3. 기존 Matrix의 행 수만큼, Vector가 복제됨(기존 Matrix 사이즈의 행렬이 만들어짐)
# 4. 두 개 더함.(올ㅋ)

Matrix shape (2, 3)
Vector shape (3,)
Matrix + Vector [[11 22 33]
 [14 25 36]]


In [226]:
# 브로드 캐스팅 가능한 경우(Shape 확인을 하자)

A = np.ones((3, 2))       # 3x2 배열
B = np.ones((2,))         # 길이 2인 1차원 배열 (1x2로 해석) (행벡터)
C = np.ones((3, 1))       # 3x1 배열 (사실상 열벡터)

print("A + B 형태:", (A + B).shape)  # (3, 2) - B는 각 행에 브로드캐스팅
print(A + B)


print("A + C 형태:", (A + C).shape)  # (3, 2) - C는 각 열에 브로드캐스팅
print(A + C)

A + B 형태: (3, 2)
[[2. 2.]
 [2. 2.]
 [2. 2.]]
A + C 형태: (3, 2)
[[2. 2.]
 [2. 2.]
 [2. 2.]]


In [235]:
# 뷰(원본 링크)와 복사본(아예 별개) 차이
arr = np.arange(1, 6)
print(arr)

# 슬라이싱 -> 뷰 생성
view = arr[2:4]
# 참고로 파이썬 슬라이싱은 새로 만드는 거임.
print(view) # 원본과 연결되어 있음.

view[0] -= 20
print(arr)

# 복사본 만드는 법~
copy = arr.copy() # copy는 매서드, 그렇다면 arr은 인스턴스
copy[0] = 100
print(arr, copy)

[1 2 3 4 5]
[3 4]
[  1   2 -17   4   5]
[  1   2 -17   4   5] [100   2 -17   4   5]


In [242]:
# 연산 중 자동변환
int_arr = np.array([1, 2, 3])
float_arr = np.array([1.5, 2.5, 3.5])
print(int_arr + float_arr)
print(int_arr * float_arr)
print(int_arr / 2) # 얘는 float
print(int_arr // 2) # 얘는 int

[2.5 4.5 6.5]
[ 1.5  5.  10.5]
[0.5 1.  1.5]
[0 1 1]


In [274]:
arr1 = np.array([8, 12, 6, 10])
arr2 = np.array([3, 4, 24, 2])
print(arr1 ** 2)
print(arr1 ** 0.5, np.sqrt(arr1)) # 둘 다 루트

# 각 자리 최댓값만 모음
print(np.maximum(arr1, arr2))

[ 64 144  36 100]
[2.82842712 3.46410162 2.44948974 3.16227766] [2.82842712 3.46410162 2.44948974 3.16227766]
[ 8 12 24 10]


In [247]:
# 테스트 배열
x = np.array([0, np.pi/4, np.pi/2, np.pi])
y = np.array([1, 2, 3, 4])

# 삼각함수
print("sin(x) =", np.sin(x))  # [0., 0.70710678, 1., 0.]
print("cos(x) =", np.cos(x))  # [1., 0.70710678, 0., -1.]
print("tan(x) =", np.tan(x))  # [0., 1., 16331239353195370., 0.]

# 역삼각함수
print("arcsin(sin(x)) =", np.arcsin(np.sin(x)))

# 지수와 로그
print("exp(y) =", np.exp(y))  # [2.71828183, 7.3890561, 20.08553692, 54.59815003]
print("log(y) =", np.log(y))  # [0., 0.69314718, 1.09861229, 1.38629436]
print("log10(y) =", np.log10(y))  # [0., 0.30103, 0.47712125, 0.60205999]
print("log2(y) =", np.log2(y))  # [0., 1., 1.58496250, 2.]

# 제곱근과 거듭제곱
print("sqrt(y) =", np.sqrt(y))  # [1., 1.41421356, 1.73205081, 2.]
print("power(y, 2) =", np.power(y, 2))  # [1, 4, 9, 16]

# 절대값과 부호
z = np.array([-2, -1, 0, 1, 2])
print("abs(z) =", np.abs(z))  # [2 1 0 1 2]
print("sign(z) =", np.sign(z))  # [-1 -1  0  1  1]

# 소수점 처리
w = np.array([1.2, 2.7, 3.5, 4.9])
print("floor(w) =", np.floor(w))  # [1. 2. 3. 4.] (내림)
print("ceil(w) =", np.ceil(w))   # [2. 3. 4. 5.] (올림)
print("round(w) =", np.round(w))  # [1. 3. 4. 5.] (반올림)
print("trunc(w) =", np.trunc(w))  # [1. 2. 3. 4.] (소수점 버림)

sin(x) = [0.00000000e+00 7.07106781e-01 1.00000000e+00 1.22464680e-16]
cos(x) = [ 1.00000000e+00  7.07106781e-01  6.12323400e-17 -1.00000000e+00]
tan(x) = [ 0.00000000e+00  1.00000000e+00  1.63312394e+16 -1.22464680e-16]
arcsin(sin(x)) = [0.00000000e+00 7.85398163e-01 1.57079633e+00 1.22464680e-16]
exp(y) = [ 2.71828183  7.3890561  20.08553692 54.59815003]
log(y) = [0.         0.69314718 1.09861229 1.38629436]
log10(y) = [0.         0.30103    0.47712125 0.60205999]
log2(y) = [0.        1.        1.5849625 2.       ]
sqrt(y) = [1.         1.41421356 1.73205081 2.        ]
power(y, 2) = [ 1  4  9 16]
abs(z) = [2 1 0 1 2]
sign(z) = [-1 -1  0  1  1]
floor(w) = [1. 2. 3. 4.]
ceil(w) = [2. 3. 4. 5.]
round(w) = [1. 3. 4. 5.]
trunc(w) = [1. 2. 3. 4.]


In [250]:
arr = np.array([
    [1, 2, 3], 
    [4, 5, 6], 
    [7, 8, 9]
])

# 기본 집계
print("합계:", np.sum(arr))          # 45
print("평균:", np.mean(arr))         # 5.0
print("최소값:", np.min(arr))        # 1
print("최대값:", np.max(arr))        # 9
print("표준편차:", np.std(arr))      # 2.581988897471611
print("분산:", np.var(arr))          # 6.666666666666667

# 축을 따라 집계
print("행별 합계:", np.sum(arr, axis=1))  # [ 6 15 24]
print("열별 합계:", np.sum(arr, axis=0))  # [12 15 18]
print("행별 평균:", np.mean(arr, axis=1))  # [2. 5. 8.] # (당연히) 평균은 float로 나온다.
print("열별 평균:", np.mean(arr, axis=0))  # [4. 5. 6.]
print("행별 최소값:", np.min(arr, axis=1))  # [1 4 7]
print("열별 최소값:", np.min(arr, axis=0))  # [1 2 3]

합계: 45
평균: 5.0
최소값: 1
최대값: 9
표준편차: 2.581988897471611
분산: 6.666666666666667
행별 합계: [ 6 15 24]
열별 합계: [12 15 18]
행별 평균: [2. 5. 8.]
열별 평균: [4. 5. 6.]
행별 최소값: [1 4 7]
열별 최소값: [1 2 3]


In [252]:
print(arr)

# 누적 합계 (cumulative sum)
print("누적 합계:", np.cumsum(arr))  # [ 1  3  6 10 15 21 28 36 45]
print("행별 누적 합계:")
print(np.cumsum(arr, axis=1))
# [[ 1  3  6]
#  [ 4  9 15]
#  [ 7 15 24]]

# 누적 곱 (cumulative product) factorial!
print("누적 곱:", np.cumprod(arr))  # [1 2 6 24 120 720 5040 40320 362880]

# 중앙값 (median)
print("중앙값:", np.median(arr))        # 5.0
print("행별 중앙값:", np.median(arr, axis=1))  # [2. 5. 8.]
print("열별 중앙값:", np.median(arr, axis=0))  # [4. 5. 6.]

# 백분위수 (percentile)
print("25% 백분위수:", np.percentile(arr, 25))  # 3.0
print("50% 백분위수:", np.percentile(arr, 50))  # 5.0 (중앙값과 동일)
print("75% 백분위수:", np.percentile(arr, 75))  # 7.0

# 가중 평균 (weighted average)
weights = np.array([0.1, 0.3, 0.6])  # 가중치
data = np.array([2, 5, 8])
print("가중 평균:", np.average(data, weights=weights))  # 6.1

[[1 2 3]
 [4 5 6]
 [7 8 9]]
누적 합계: [ 1  3  6 10 15 21 28 36 45]
행별 누적 합계:
[[ 1  3  6]
 [ 4  9 15]
 [ 7 15 24]]
누적 곱: [     1      2      6     24    120    720   5040  40320 362880]
중앙값: 5.0
행별 중앙값: [2. 5. 8.]
열별 중앙값: [4. 5. 6.]
25% 백분위수: 3.0
50% 백분위수: 5.0
75% 백분위수: 7.0
가중 평균: 6.5


#### **배열분할**

In [254]:
# 샘플 배열
arr = np.arange(12)  # [ 0  1  2  3  4  5  6  7  8  9 10 11]

# 균등 분할
print("3개로 균등 분할:") # 딱 떨어지게 분할해야 함.
print(np.split(arr, 3))  # [array([0, 1, 2, 3]), array([4, 5, 6, 7]), array([ 8,  9, 10, 11])]

# 위치 지정 분할
print("위치 지정 분할 (인덱스 3, 8 기준):")
print(np.split(arr, [3, 8]))  # [array([0, 1, 2]), array([3, 4, 5, 6, 7]), array([ 8,  9, 10, 11])]

# 2차원 배열 분할
arr_2d = np.arange(16).reshape(4, 4)
print("2차원 배열:")
print(arr_2d)

# 행 방향 분할
print("행 방향 분할:")
print(np.split(arr_2d, 2, axis=0))  # 2개 배열로 (각 2x4)
print(np.vsplit(arr_2d, 2))  # 동일한 결과

# 열 방향 분할
print("열 방향 분할:")
print(np.split(arr_2d, 2, axis=1))  # 2개 배열로 (각 4x2)
print(np.hsplit(arr_2d, 2))  # 동일한 결과

3개로 균등 분할:
[array([0, 1, 2, 3]), array([4, 5, 6, 7]), array([ 8,  9, 10, 11])]
위치 지정 분할 (인덱스 3, 8 기준):
[array([0, 1, 2]), array([3, 4, 5, 6, 7]), array([ 8,  9, 10, 11])]
2차원 배열:
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]]
행 방향 분할:
[array([[0, 1, 2, 3],
       [4, 5, 6, 7]]), array([[ 8,  9, 10, 11],
       [12, 13, 14, 15]])]
[array([[0, 1, 2, 3],
       [4, 5, 6, 7]]), array([[ 8,  9, 10, 11],
       [12, 13, 14, 15]])]
열 방향 분할:
[array([[ 0,  1],
       [ 4,  5],
       [ 8,  9],
       [12, 13]]), array([[ 2,  3],
       [ 6,  7],
       [10, 11],
       [14, 15]])]
[array([[ 0,  1],
       [ 4,  5],
       [ 8,  9],
       [12, 13]]), array([[ 2,  3],
       [ 6,  7],
       [10, 11],
       [14, 15]])]


In [266]:
arr = np.array([1, 2, 3, 4])
print(arr)

# row vector로 만들겠다. -> [[1, 2, 3, 4]]
row_vector = np.expand_dims(arr, axis = 0)
print(row_vector)
# 이딴 짓을 굳이 하는 이유는??? Vector의 차원을 확장하는 것. 엣 그러면 차원 확장하게 되면 브로드캐스팅 안 되나? 해보자.

# col_vector 만들기
col_vector = np.expand_dims(arr, axis = 1)
print(col_vector)
# 이건 좀 쓸모 있겠다.

# 구버전 row_vec 만들기
row_vector2 = arr[np.newaxis, :]
print(row_vector2)

# 구버전 col_vec 만들기
col_vector2 = arr[:, np.newaxis]
print(col_vector2)

# 엣 그러면 차원 확장하게 되면 브로드캐스팅 안 되나? 해보자.
matrix = np.arange(16).reshape(4,4)
print(matrix)
print(matrix + row_vector)
print(matrix + col_vector)

[1 2 3 4]
[[1 2 3 4]]
[[1]
 [2]
 [3]
 [4]]
[[1 2 3 4]]
[[1]
 [2]
 [3]
 [4]]
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]]
[[ 1  3  5  7]
 [ 5  7  9 11]
 [ 9 11 13 15]
 [13 15 17 19]]
[[ 1  2  3  4]
 [ 6  7  8  9]
 [11 12 13 14]
 [16 17 18 19]]


### **행렬의 차원축소**

In [273]:
arr = np.array([[[1], [2], [3]]])   # 뭔 짓이야...
print(arr, arr.shape)

# 모든 단일차원(shape 안에서 1이 나오는 것들)을 제거.
print(np.squeeze(arr), '\n', '\n')

# 특정 축만 제거
arr2 = np.array([[[1, 2, 3]]])
print(arr2, arr2.shape) # 1 1 3
print(np.squeeze(arr2, axis = 1)) # 1 (1) 3
# axis에 할당된 차원을 지움.

[[[1]
  [2]
  [3]]] (1, 3, 1)
[1 2 3] 
 

[[[1 2 3]]] (1, 1, 3)
[[1 2 3]]


### **Broadcasting 관련**
https://numpy.org/doc/stable/user/basics.broadcasting.html
