# `Numpy 🔢`

- 통계 vs 데이터분석 vs 머신러닝
    - 데이터분석 : **문제를 정의하고 인사이트 도출** (고객 구매 패턴 분석)
    - 통계 : 데이터를 **요약, 해석하는 수학** (평균, 분산)
    - 머신러닝 : 데이터를 학습하여 **예측** (스팸함 분류, 추천)
- 데이터분석 : 데이터를 분석하여 의사결정에 도움을 준다.
    - 의사결정 데이터 기반의 근거 
    - 패턴 발견, 예측 (머신 러닝)

- DA flow (흐름)
    1. 문제 정의
    1. 데이터 수집
    1. 데이터 정제 (결측치, 이상치 처리)
    1. 탐색 - 시각화 - 통계분석 및 해석
    1. 결론 도출

- 시트 vs DB vs Python
    - 시트는 편함.
    - DB는 대용량 CRUD (억단위)
    - Python은 시각화, 분석, 머신러닝

- 라이브러리
    - `numpy` : 빠름(배열 연산) `파이썬 리스트 vs Numpy 배열 차이점`
    - `pandas`: 표(DataFrame) -> `numpy` 기반으로 만들어 짐
    - `matplotlib` : 시각화 기본(그래프)
    - `seaborn` : 시각화 심화
    - `scipy` : 고급 통계, 수학 연산
    - `scikit-learn` : 머신러닝

In [2]:
python_list = [1, 2, 3, 4, 5]

# [2, 4, 6, 8, 10]
result = [x*2 for x in python_list]
print(result)

[2, 4, 6, 8, 10]


In [3]:
import numpy as np

array = np.array([1, 2, 3, 4, 5])
result = array * 2
print(result)

[ 2  4  6  8 10]


In [4]:
arr = np.array([1, 2, 3, 4, 5])
print(arr, type(arr))
print('차원', arr.ndim)
print('형태', arr.shape)
print('크기', arr.size)

[1 2 3 4 5] <class 'numpy.ndarray'>
차원 1
형태 (5,)
크기 5


In [153]:
arr1d = np.array([1, 2, 3, 4, 5])
arr1d

array([1, 2, 3, 4, 5])

In [6]:
l2d = [
    [1, 2, 3],
    [4, 5, 6]
]
arr2d = np.array(l2d)

arr2d.ndim, arr2d.shape, arr2d.size, arr2d.dtype

(2, (2, 3), 6, dtype('int64'))

In [7]:
# 실수형 arr
np.array([1, 2, 3], dtype=float)

array([1., 2., 3.])

In [8]:
# 0으로 채워짐
z1d = np.zeros(5)
z2d = np.zeros((2, 3))
print(z1d)
print(z2d)

# 1로 채워짐
o1d = np.ones(5)
o2d = np.ones((2, 3))
print(o1d)
print(o2d)

# n으로 채움
n1d = np.full(5, 7)  # 7로 채워진 5칸
n2d = np.full((2, 3), 7)
print(n1d)
print(n2d)

# 빈칸이지만 먼저 만듦
empty = np.empty(3)  # 3칸 짜리를 뭔가 만들었다
print(empty)

[0. 0. 0. 0. 0.]
[[0. 0. 0.]
 [0. 0. 0.]]
[1. 1. 1. 1. 1.]
[[1. 1. 1.]
 [1. 1. 1.]]
[7 7 7 7 7]
[[7 7 7]
 [7 7 7]]
[1. 2. 3.]


In [9]:
# 시퀀스 데이터

# range
range_arr = np.arange(0, 10, 2)
print(range_arr)

# 등간격 실수 배열
lin_space = np.linspace(0, 1, 5)
print(lin_space)

# 로그스케일
log_space = np.logspace(0, 2, 5)  # 10 ^0 ~ 10^2의 범위에서 5개 요소
print(log_space)

[0 2 4 6 8]
[0.   0.25 0.5  0.75 1.  ]
[  1.           3.16227766  10.          31.6227766  100.        ]


In [10]:
# 난수 배열

# 균등 분포 난수 (0~1 사이를 균등확률 분포)
random = np.random.rand(3, 3)  # 0 ~ 1 실수
print(random)

# 정규 분포 난수
normal = np.random.randn(3, 3)
print(normal)

# 정수 난수 (0 ~ 9, 3*3)
int_random = np.random.randint(0, 10, (3, 3))
print(int_random)

# 시드 설정(랜덤 재현 가능)
np.random.seed(42)  # 랜덤 상황 42 고정
np.random.rand(3)

[[0.68974559 0.85156343 0.28582183]
 [0.73663908 0.14757777 0.31941662]
 [0.35390929 0.9652732  0.14253059]]
[[ 0.87789431  1.02626926 -0.0751546 ]
 [ 0.48720899  0.27529592 -2.56905655]
 [ 0.40995986 -0.44554786 -0.2358006 ]]
[[1 0 5]
 [4 0 9]
 [4 3 3]]


array([0.37454012, 0.95071431, 0.73199394])

In [11]:
# 배열의 데이터 타입
# 데이터 타입 확인
arr = np.array([1, 2, 3])
print(arr.dtype)

# 데이터 타입 지정 생성
f_arr = np.array([1, 2, 3], dtype=np.float64)
print(f_arr.dtype)

# 데이터 타입 변경 (int -> float)
converted = arr.astype(np.float32)
print(converted.dtype)

# 문자열 -> 숫자
str_arr = np.array(['1.2', '2.3', '3.4'])
num_arr = str_arr.astype(float)  # np.floatxx 라고 지정 안 하고 float 쓰면 -> float64
print(num_arr, num_arr.dtype)

int64
float64
float32
[1.2 2.3 3.4] float64


In [12]:
# 1칸의 메모리 사용량
print(arr.itemsize)  # int64 -> 8byte
print(converted.itemsize)  # float32 -> 4byte

# 총 메모리 사용량
print(arr.nbytes)
print(converted.nbytes)

8
4
24
12


In [13]:
# 배열 재구성
arr = np.arange(12)
print(arr)

reshaped2d  = arr.reshape(3, 4)  # 3row * 4col
print(reshaped2d)

reshaped3d = arr.reshape(2, 2, 3)  # 2페이지, 2row * 3col
print(reshaped3d)

# 자동 계산
auto1 = arr.reshape(3, -1)  # row 3개, col 알아서
auto2 = arr.reshape(-1, 6)  # row 알아서, col 6개

print(auto1)
print(auto2)

[ 0  1  2  3  4  5  6  7  8  9 10 11]
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
[[[ 0  1  2]
  [ 3  4  5]]

 [[ 6  7  8]
  [ 9 10 11]]]
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
[[ 0  1  2  3  4  5]
 [ 6  7  8  9 10 11]]


In [14]:
# 1차원을 -> N차원
# reshape -> 원본 그대로, 새로운 배열 만듦
# resize  -> 원본을 바꿈

arr = np.arange(12)
reshaped = arr.reshape(3, 4)  # 새로운 배열 리턴
print(reshaped)
print(arr)

arr.resize(3, 4)  # arr이 바뀜
print(arr)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
[ 0  1  2  3  4  5  6  7  8  9 10 11]
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]


In [15]:
# N차원 -> 1차원
arr = np.array([[1, 2, 3], [4, 5, 6]])

r = arr.ravel()    # 뷰(원본 연결) -> 빨리 보기
f = arr.flatten()  # 복사본       -> 안전하게 새로 만들어서 활용

r[0] = 100
f[0] = -100

print(arr)
print(r, f)

[[100   2   3]
 [  4   5   6]]
[100   2   3   4   5   6] [-100    2    3    4    5    6]


In [16]:
# 전치 -> 행과 열을 교환
arr_2d = np.array([[1, 2, 3], [4, 5, 6]])
print(arr_2d)

arr_2d.transpose(), arr_2d.T

[[1 2 3]
 [4 5 6]]


(array([[1, 4],
        [2, 5],
        [3, 6]]),
 array([[1, 4],
        [2, 5],
        [3, 6]]))

In [17]:
# 1 ~ 15 정수 배열 ( arange vs array(range) )
print(np.arange(1, 16), np.array(range(1, 16)))

# 0 ~ 9까지 홀수
print(np.arange(1, 10, 2))

# 0 ~ 3까지 균등 6등분(5구간) 배열
print(np.linspace(0, 3, 6))

[ 1  2  3  4  5  6  7  8  9 10 11 12 13 14 15] [ 1  2  3  4  5  6  7  8  9 10 11 12 13 14 15]
[1 3 5 7 9]
[0.  0.6 1.2 1.8 2.4 3. ]


In [18]:
# 4 * 4 단위 행렬(identity matrix) -> 대각선 1, 나머지 0
print(np.eye(4))

# 3 * 4 사이즈의 1로 가득찬 int 배열
print(np.ones((3, 4), dtype=int))

# 2 * 3 * 4 사이즈 (3*4가 2페이지 있다) 0 ~ 1 난수 배열
print(np.random.rand(2, 3, 4)) # 인자로 차원 지정 -> 오래된 버전에서 주로 씀
print(np.random.random((2, 3, 4)))  # 튜플로 차원 지정 -> 최신 버전에서 주로 씀

[[1. 0. 0. 0.]
 [0. 1. 0. 0.]
 [0. 0. 1. 0.]
 [0. 0. 0. 1.]]
[[1 1 1 1]
 [1 1 1 1]
 [1 1 1 1]]
[[[0.59865848 0.15601864 0.15599452 0.05808361]
  [0.86617615 0.60111501 0.70807258 0.02058449]
  [0.96990985 0.83244264 0.21233911 0.18182497]]

 [[0.18340451 0.30424224 0.52475643 0.43194502]
  [0.29122914 0.61185289 0.13949386 0.29214465]
  [0.36636184 0.45606998 0.78517596 0.19967378]]]
[[[0.51423444 0.59241457 0.04645041 0.60754485]
  [0.17052412 0.06505159 0.94888554 0.96563203]
  [0.80839735 0.30461377 0.09767211 0.68423303]]

 [[0.44015249 0.12203823 0.49517691 0.03438852]
  [0.9093204  0.25877998 0.66252228 0.31171108]
  [0.52006802 0.54671028 0.18485446 0.96958463]]]


## 배열의 인덱싱/슬라이싱

In [19]:
arr = np.array([10, 20, 30, 40, 50])
# 접근
print(arr[0], arr[2], arr[-1], arr[-2])

# 변경
arr[0] = 100
print(arr)

10 30 50 40
[100  20  30  40  50]


In [20]:
# arr_2d = np.array(range(1, 10)).reshape(3, 3)

arr_2d = np.array(
    [
        [1, 2, 3],
        [4, 5, 6],
        [7, 8, 9]
    ]
)

# Numpy 에서만 지원
arr_2d[0, 0]  # arr_2d[0][0] -> r 0, c 0
arr_2d[1, 1]

arr_2d[1]  # 행 접근

# 변경
arr_2d[0, 0] = 100
arr_2d

array([[100,   2,   3],
       [  4,   5,   6],
       [  7,   8,   9]])

In [21]:
# 슬라이싱
arr = np.arange(10)
print(
    arr[2:5],
    arr[:5],
    arr[5:]
)

print(
    arr[1:8:2],
    arr[::2]
)

print(
    arr[::-1],
    arr[7:2:-1]
)

# 슬라이싱으로 일괄 변경 (파이썬에는 없음)
arr[3:6] = 100
print(arr)

[2 3 4] [0 1 2 3 4] [5 6 7 8 9]
[1 3 5 7] [0 2 4 6 8]
[9 8 7 6 5 4 3 2 1 0] [7 6 5 4 3]
[  0   1   2 100 100 100   6   7   8   9]


In [22]:
arr_2d = np.arange(1, 13).reshape(3, -1)
print(arr_2d)

# row(행) 슬라이싱 -> 0, 1 idx의 행
print(arr_2d[0:2])

# col(열) 슬라이싱 -> 모든 행의 idx 1, 2열
print(arr_2d[:, 1:3])

# row / col 동시 슬라이싱 -> 1, 2행 / 0, 1열
print(arr_2d[1:3, 0:2])

# 간격 지정 -> 행/열 모두 2간격
print(arr_2d[::2, ::2])

[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]
[[1 2 3 4]
 [5 6 7 8]]
[[ 2  3]
 [ 6  7]
 [10 11]]
[[ 5  6]
 [ 9 10]]
[[ 1  3]
 [ 9 11]]


In [23]:
# 다차원 배열 슬라이싱으로 변경
print(arr_2d)

# 부분 배열 일괄 변경
arr_2d[0:2, 0:2] = 0
print(arr_2d)

# 열 교체 (모든 행 , idx 3열) -> 벡터 -> 교체 -> 원본 matrix의 열이 바뀜
arr_2d[:, 3] = [100, 200, 300]

print(arr_2d)

[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]
[[ 0  0  3  4]
 [ 0  0  7  8]
 [ 9 10 11 12]]
[[  0   0   3 100]
 [  0   0   7 200]
 [  9  10  11 300]]


In [24]:
# boolean 인덱싱
# 조건에 따라 배열 요소 선택

arr = np.arange(1, 6)  # [1, 2, 3, 4, 5]

# 마스킹 -> T/F로 바꿈
mask = arr > 3
print(mask, arr)

# 마스킹 배열로 필터링
print(arr[mask])

# 직접 조건
print(arr[arr > 3])

# 다중 조건
print(arr[(arr > 2) & (arr < 5)])  # and
print(arr[(arr == 1) | (arr > 3)])  # or


[False False False  True  True] [1 2 3 4 5]
[4 5]
[4 5]
[3 4]
[1 4 5]


In [25]:
# 2차원 배열 불리언 인덱싱
arr_2d = np.arange(1, 10).reshape(3, 3)

mask = arr_2d > 5

print(arr_2d[mask])  # 원본 matrix 형태 없음. True로 필터된 애들만 Vector로 나옴
print(arr_2d[arr_2d < 6])

# 조건에 맞는 행만 선택
row_mask = np.array([True, False, True])
print(arr_2d)
print(arr_2d[row_mask])  # row T, F, T -> 0, 2 row만 뽑음

[6 7 8 9]
[1 2 3 4 5]
[[1 2 3]
 [4 5 6]
 [7 8 9]]
[[1 2 3]
 [7 8 9]]


In [26]:
# Fancy 인덱싱
arr = np.arange(10, 60, 10)
print(arr)

# arr[1, 2] -> arr[1][2]
print(arr[[1, 2]]) # -> arr[1], arr[2]를 뽑아라
print(arr[[0, 2, 3]])  # -> arr[0], arr[2], arr[3]만 가져와라

print(arr[[0, 0, 1, 1, 2]])
print(arr[[4, 2, 3, 1, 0]])

[10 20 30 40 50]
[20 30]
[10 30 40]
[10 10 20 20 30]
[50 30 40 20 10]


In [27]:
arr_2d = np.arange(1, 10).reshape(3, 3)
print(arr_2d)

print(arr_2d[0])  # row 0

# 특정 행만 선택
print(arr_2d[[0, 2]])  # row 0, 2

# 행과 열 동시에 선택
print(
    arr_2d[  #(0, 0), (1, 2), (2, 1) 순서로 벡터 만듦
        [0, 1, 2],
        [0, 2, 1]
    ]
)

# 행렬의 열을 순서 바꾸기
print(
    arr_2d[
        :,  # 모든 행
        [2, 0, 1]  # 열 idx를 이렇게 바꿔라
    ]
)

[[1 2 3]
 [4 5 6]
 [7 8 9]]
[1 2 3]
[[1 2 3]
 [7 8 9]]
[1 6 8]
[[3 1 2]
 [6 4 5]
 [9 7 8]]


In [28]:
# 10부터 20까지의 정수 배열 생성
arr = np.arange(10, 21)
print('원본', arr)

# 문제1: 배열의 첫 번째, 세 번째, 마지막 요소 출력
print(arr[0], arr[2], arr[-1])

# 문제2: 인덱스 2부터 5까지 요소 출력
print(arr[2:6])

# 문제3: 처음부터 5번째 요소까지 모든 짝수 인덱스 요소 출력
print(arr[0:6:2])

# 문제4: 배열의 요소를 역순으로 출력
print(arr[::-1])

원본 [10 11 12 13 14 15 16 17 18 19 20]
10 12 20
[12 13 14 15]
[10 12 14]
[20 19 18 17 16 15 14 13 12 11 10]


In [29]:
# 3 * 4 matrix
matrix = np.arange(12).reshape(3, 4)
print('원본', matrix)

# 문제1: (1,2) 위치의 요소 출력
print(matrix[1, 2])

# 문제2: 두 번째 행 전체 출력
print(matrix[1])

# 문제3: 마지막 열 전체 출력
print(matrix[:, -1])

# 문제4: 첫 번째와 세 번째 행의 두 번째와 네 번째 열 요소만 추출
print(matrix[::2, 1::2])
print(matrix[[0, 2], :] [:, [1, 3]])
print(matrix[np.ix_([0, 2], [1, 3])])

원본 [[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
6
[4 5 6 7]
[ 3  7 11]
[[ 1  3]
 [ 9 11]]
[[ 1  3]
 [ 9 11]]
[[ 1  3]
 [ 9 11]]


In [30]:
arr = np.arange(1, 21)
print('원본', arr)

# 문제1: 5의 배수만 선택하여 출력
print(arr[arr % 5 == 0])

# 문제2: 3보다 크고 15보다 작은 요소 선택
print(arr[(arr > 3) & (arr < 15)])

# 문제3: 7의 배수이거나 홀수인 요소 선택
print(arr[(arr % 7 == 0) | (arr % 2 != 0)])

원본 [ 1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20]
[ 5 10 15 20]
[ 4  5  6  7  8  9 10 11 12 13 14]
[ 1  3  5  7  9 11 13 14 15 17 19]


In [31]:
matrix = np.arange(1, 21).reshape(5, 4)
print('원본', matrix)

# 문제4: 10보다 큰 요소만 100으로 변경 (슬라이싱 / 불리언인덱싱 -> 뷰 생성 (원본데이터 연결))
matrix[matrix > 10] = 100
print(matrix)

원본 [[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]
 [13 14 15 16]
 [17 18 19 20]]
[[  1   2   3   4]
 [  5   6   7   8]
 [  9  10 100 100]
 [100 100 100 100]
 [100 100 100 100]]


## 선형대수 연산


In [32]:
a = np.array([1, 2, 3, 4])
b = np.array([5, 6, 7, 8])

print(a + b)
print(a - b)
print(a * b)
print(a / b)

print(a ** 2)
print(a ** b)

[ 6  8 10 12]
[-4 -4 -4 -4]
[ 5 12 21 32]
[0.2        0.33333333 0.42857143 0.5       ]
[ 1  4  9 16]
[    1    64  2187 65536]


In [33]:
a = np.array([True, False, True, False])
b = np.array([False, True, True, False])

# 논리연산
# AND
print(a & b)

# OR
print(a | b)

# NOT
print(~a)

[False False  True False]
[ True  True  True False]
[False  True False  True]


## 배열(1줄) <-> 스칼라(단일값) 연산
> Broadcasting (스칼라가 배열 크기에 맞게 확장)

In [34]:
# 배열 생성
arr = np.array([1, 2, 3, 4, 5])

# 스칼라 덧셈
print(arr + 10)     # [11 12 13 14 15]

# 스칼라 뺄셈
print(arr - 1)      # [0 1 2 3 4]

# 스칼라 곱셈
print(arr * 2)      # [2 4 6 8 10]

# 스칼라 나눗셈
print(arr / 2)      # [0.5 1.  1.5 2.  2.5]

# 스칼라 거듭제곱
print(arr ** 2)     # [ 1  4  9 16 25]

# 스칼라 비교 (불리언 배열)
print(arr > 3)      # [False False False  True  True]
print(arr == 2)     # [False  True False False False]

[11 12 13 14 15]
[0 1 2 3 4]
[ 2  4  6  8 10]
[0.5 1.  1.5 2.  2.5]
[ 1  4  9 16 25]
[False False False  True  True]
[False  True False False False]


## 매트릭스(행렬) <-> 스칼라(단일값) 연산

In [35]:
# 2차원 배열
arr_2d = np.array([[1, 2, 3], [4, 5, 6]])

# 스칼라 연산
print(arr_2d + 10)

print(arr_2d * 3)

[[11 12 13]
 [14 15 16]]
[[ 3  6  9]
 [12 15 18]]


## 매트릭스(행렬) <-> 벡터(1줄) 연산

In [36]:
matrix = np.array([[1, 2, 3], [4, 5, 6]])
vector = np.array([10, 20, 30])

# 행렬 + 행 벡터
print(matrix + vector)

# 열 벡터 브로드캐스팅
col_vec = np.array(
    [
        [100],
        [200]
    ]
)
print(matrix + col_vec)

[[11 22 33]
 [14 25 36]]
[[101 102 103]
 [204 205 206]]


In [37]:
matrix = np.array([[1, 2, 3], [4, 5, 6]])
vector = np.array([10, 20, 30])

print('Matrix shape', matrix.shape)
print('Vector shape', vector.shape)

# 1. Vector(3, )가 앞에 1이 추가됨. -> Matrix(1, 3)으로 변함
# 2. 더해야하는 matrix (2, 3)이랑 줄 수가 같을 때까지 row 복사함.
print('Matrix + Vector')
print(matrix + vector)

Matrix shape (2, 3)
Vector shape (3,)
Matrix + Vector
[[11 22 33]
 [14 25 36]]


In [38]:
# 브로드 캐스팅 가능한 경우 (Shape 확인을 하자 ! - Shape이 맞을 때만 가능하다!)

A = np.ones((3, 2))       # 3x2 배열
B = np.ones((2,))         # 길이 2인 1차원 배열 (1x2로 해석) (행벡터)
C = np.ones((3, 1))       # 3x1 배열 (사실상 열벡터)

print("A + B 형태:", (A + B).shape)  # (3, 2) - B는 각 행에 브로드캐스팅
print(A + B)


print("A + C 형태:", (A + C).shape)  # (3, 2) - C는 각 열에 브로드캐스팅
print(A + C)

A + B 형태: (3, 2)
[[2. 2.]
 [2. 2.]
 [2. 2.]]
A + C 형태: (3, 2)
[[2. 2.]
 [2. 2.]
 [2. 2.]]


In [39]:
# 뷰(원본 데이터와 링크)와 복사본(완전 별도) 차이
arr = np.arange(1, 6)
print(arr)

# 슬라이싱 -> 뷰 생성
view = arr[1:4]
print(view)

view[0] = 20
print(arr)

# 복사본..?
copy = arr.copy()
copy[0] = 100
print(arr, copy)

[1 2 3 4 5]
[2 3 4]
[ 1 20  3  4  5]
[ 1 20  3  4  5] [100  20   3   4   5]


In [40]:
# 연산 중 데이터 자동 변환
int_arr = np.array([1, 2, 3])
float_arr = np.array([1.5, 2.5, 3.5])

# int + float = float
print(int_arr + float_arr)

# int / int = float
print(int_arr / 2)

# int // int = int
print(int_arr // 2)

[2.5 4.5 6.5]
[0.5 1.  1.5]
[0 1 1]


In [41]:
arr1 = np.array([8, 12, 6, 10])
arr2 = np.array([3, 4, 1, 20])

print(arr1 ** 2)
print(arr1 ** 0.5, np.sqrt(arr1))  # 루트. 같은 결과

# 각 자리마다 최댓값만 모음
print(np.maximum(arr1, arr2))

# arr1 + arr2 의 모든 자릿수를 더한 총합
print(np.sum(arr1 + arr2))

[ 64 144  36 100]
[2.82842712 3.46410162 2.44948974 3.16227766] [2.82842712 3.46410162 2.44948974 3.16227766]
[ 8 12  6 20]
64


In [42]:
# 테스트 배열
x = np.array([0, np.pi/4, np.pi/2, np.pi])
y = np.array([1, 2, 3, 4])

# 삼각함수
print("sin(x) =", np.sin(x))  # [0., 0.70710678, 1., 0.]
print("cos(x) =", np.cos(x))  # [1., 0.70710678, 0., -1.]
print("tan(x) =", np.tan(x))  # [0., 1., 16331239353195370., 0.]

# 역삼각함수
print("arcsin(sin(x)) =", np.arcsin(np.sin(x)))

# 지수와 로그

# 자연상수 e^x -> e^1, e^2 ...
print("exp(y) =", np.exp(y))  # [2.71828183, 7.3890561, 20.08553692, 54.59815003]
# 자연상수 log e
print("log(y) =", np.log(y))  # [0., 0.69314718, 1.09861229, 1.38629436]
print("log10(y) =", np.log10(y))  # [0., 0.30103, 0.47712125, 0.60205999]
print("log2(y) =", np.log2(y))  # [0., 1., 1.58496250, 2.]

# 제곱근과 거듭제곱
print("sqrt(y) =", np.sqrt(y))  # [1., 1.41421356, 1.73205081, 2.]
print("power(y, 2) =", np.power(y, 2))  # [1, 4, 9, 16]
print("power(y, 3) =", np.power(y, 3))  # [1, 8, 27, 64]


# 절대값과 부호
z = np.array([-2, -1, 0, 1, 2])
print("abs(z) =", np.abs(z))  # [2 1 0 1 2]
print("sign(z) =", np.sign(z))  # [-1 -1  0  1  1]

# 소수점 처리
w = np.array([1.2, 2.7, 3.5, 4.9])
print("floor(w) =", np.floor(w))  # [1. 2. 3. 4.] (내림)
print("ceil(w) =", np.ceil(w))   # [2. 3. 4. 5.] (올림)
print("round(w) =", np.round(w))  # [1. 3. 4. 5.] (반올림)
print("trunc(w) =", np.trunc(w))  # [1. 2. 3. 4.] (소수점 버림)

sin(x) = [0.00000000e+00 7.07106781e-01 1.00000000e+00 1.22464680e-16]
cos(x) = [ 1.00000000e+00  7.07106781e-01  6.12323400e-17 -1.00000000e+00]
tan(x) = [ 0.00000000e+00  1.00000000e+00  1.63312394e+16 -1.22464680e-16]
arcsin(sin(x)) = [0.00000000e+00 7.85398163e-01 1.57079633e+00 1.22464680e-16]
exp(y) = [ 2.71828183  7.3890561  20.08553692 54.59815003]
log(y) = [0.         0.69314718 1.09861229 1.38629436]
log10(y) = [0.         0.30103    0.47712125 0.60205999]
log2(y) = [0.        1.        1.5849625 2.       ]
sqrt(y) = [1.         1.41421356 1.73205081 2.        ]
power(y, 2) = [ 1  4  9 16]
power(y, 3) = [ 1  8 27 64]
abs(z) = [2 1 0 1 2]
sign(z) = [-1 -1  0  1  1]
floor(w) = [1. 2. 3. 4.]
ceil(w) = [2. 3. 4. 5.]
round(w) = [1. 3. 4. 5.]
trunc(w) = [1. 2. 3. 4.]


In [43]:
arr = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])

# 기본 집계
print("합계:", np.sum(arr))          # 45
print("평균:", np.mean(arr))         # 5.0
print("최소값:", np.min(arr))        # 1
print("최대값:", np.max(arr))        # 9
print("표준편차:", np.std(arr))      # 2.581988897471611
print("분산:", np.var(arr))          # 6.666666666666667

# 축을 따라 집계
print("행별 합계:", np.sum(arr, axis=1))  # [ 6 15 24]
print("열별 합계:", np.sum(arr, axis=0))  # [12 15 18]
print("행별 평균:", np.mean(arr, axis=1))  # [2. 5. 8.]
print("열별 평균:", np.mean(arr, axis=0))  # [4. 5. 6.]
print("행별 최소값:", np.min(arr, axis=1))  # [1 4 7]
print("열별 최소값:", np.min(arr, axis=0))  # [1 2 3]

합계: 45
평균: 5.0
최소값: 1
최대값: 9
표준편차: 2.581988897471611
분산: 6.666666666666667
행별 합계: [ 6 15 24]
열별 합계: [12 15 18]
행별 평균: [2. 5. 8.]
열별 평균: [4. 5. 6.]
행별 최소값: [1 4 7]
열별 최소값: [1 2 3]


In [44]:
# 누적 합계 (cumulative sum)
print("누적 합계:", np.cumsum(arr))  # [ 1  3  6 10 15 21 28 36 45]
print("행별 누적 합계:")
print(np.cumsum(arr, axis=1))
# [[ 1  3  6]
#  [ 4  9 15]
#  [ 7 15 24]]

# 누적 곱 (cumulative product)
print("누적 곱:", np.cumprod(arr))  # [1 2 6 24 120 720 5040 40320 362880]

# 중앙값 (median)
print("중앙값:", np.median(arr))        # 5.0
print("행별 중앙값:", np.median(arr, axis=1))  # [2. 5. 8.]
print("열별 중앙값:", np.median(arr, axis=0))  # [4. 5. 6.]

# 백분위수 (percentile)
print("25% 백분위수:", np.percentile(arr, 25))  # 3.0
print("50% 백분위수:", np.percentile(arr, 50))  # 5.0 (중앙값과 동일)
print("75% 백분위수:", np.percentile(arr, 75))  # 7.0

# 가중 평균 (weighted average)
weights = np.array([0.1, 0.3, 0.6])  # 가중치
data = np.array([2, 5, 8])
print("가중 평균:", np.average(data, weights=weights))  # 6.5

누적 합계: [ 1  3  6 10 15 21 28 36 45]
행별 누적 합계:
[[ 1  3  6]
 [ 4  9 15]
 [ 7 15 24]]
누적 곱: [     1      2      6     24    120    720   5040  40320 362880]
중앙값: 5.0
행별 중앙값: [2. 5. 8.]
열별 중앙값: [4. 5. 6.]
25% 백분위수: 3.0
50% 백분위수: 5.0
75% 백분위수: 7.0
가중 평균: 6.5


In [45]:
# 샘플 배열
arr = np.arange(12)  # [ 0  1  2  3  4  5  6  7  8  9 10 11]

# 균등 분할
print("3개로 균등 분할:")
print(np.split(arr, 3))  # [array([0, 1, 2, 3]), array([4, 5, 6, 7]), array([ 8,  9, 10, 11])]

# 위치 지정 분할
print("위치 지정 분할 (인덱스 3, 8 기준):")
print(np.split(arr, [3, 8]))  # [array([0, 1, 2]), array([3, 4, 5, 6, 7]), array([ 8,  9, 10, 11])]

# 2차원 배열 분할
arr_2d = np.arange(16).reshape(4, 4)
print("2차원 배열:")
print(arr_2d)

# 행 방향 분할
print("행 방향 분할:")
print(np.split(arr_2d, 2, axis=0))  # 2개 배열로 (각 2x4)
print(np.vsplit(arr_2d, 2))  # 동일한 결과

# 열 방향 분할
print("열 방향 분할:")
print(np.split(arr_2d, 2, axis=1))  # 2개 배열로 (각 4x2)
print(np.hsplit(arr_2d, 2))  # 동일한 결과

3개로 균등 분할:
[array([0, 1, 2, 3]), array([4, 5, 6, 7]), array([ 8,  9, 10, 11])]
위치 지정 분할 (인덱스 3, 8 기준):
[array([0, 1, 2]), array([3, 4, 5, 6, 7]), array([ 8,  9, 10, 11])]
2차원 배열:
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]]
행 방향 분할:
[array([[0, 1, 2, 3],
       [4, 5, 6, 7]]), array([[ 8,  9, 10, 11],
       [12, 13, 14, 15]])]
[array([[0, 1, 2, 3],
       [4, 5, 6, 7]]), array([[ 8,  9, 10, 11],
       [12, 13, 14, 15]])]
열 방향 분할:
[array([[ 0,  1],
       [ 4,  5],
       [ 8,  9],
       [12, 13]]), array([[ 2,  3],
       [ 6,  7],
       [10, 11],
       [14, 15]])]
[array([[ 0,  1],
       [ 4,  5],
       [ 8,  9],
       [12, 13]]), array([[ 2,  3],
       [ 6,  7],
       [10, 11],
       [14, 15]])]


In [None]:
# 1차원 배열 결합
arr1 = np.array([1, 2, 3])
arr2 = np.array([4, 5, 6])
result = np.concat((arr1, arr2))  # np.concatenate도 같음.
print(result)

# 2차원 배열 결합
arr2d1 = np.array([[1, 2], [3, 4]])
arr2d2 = np.array([[5, 6], [7, 8]])

# concat, axis=0 == vstack
result2 = np.concat((arr2d1, arr2d2), axis=0)
result22 = np.vstack((arr2d1, arr2d2))
print(result2)
print(result22)

# concat, axis=1 == hstack
result3 = np.concat((arr2d1, arr2d2), axis=1)
result33 = np.hstack((arr2d1, arr2d2))
print(result3)
print(result33)

# matrix 두 개를 겹친다 -> Tensor
result4 = np.dstack((arr2d1, arr2d2))
print(result4)

[1 2 3 4 5 6]
[[1 2]
 [3 4]
 [5 6]
 [7 8]]
[[1 2]
 [3 4]
 [5 6]
 [7 8]]
[[1 2 5 6]
 [3 4 7 8]]
[[1 2 5 6]
 [3 4 7 8]]
[[[1 5]
  [2 6]]

 [[3 7]
  [4 8]]]


In [47]:
# 벡터를 차원 확장 (행이냐 열이냐)
arr = np.array([1, 2, 3, 4])
print(arr)

# row vector -> [[1 2 3 4]]
row_vector = np.expand_dims(arr, axis=0)
print(row_vector)
row_vector2 = arr[np.newaxis, :]
print(row_vector2)

# col vector -> [[1] [2] [3] [4]]
col_vector = np.expand_dims(arr, axis=1)
print(col_vector)
col_vector2 = arr[:, np.newaxis]
print(col_vector2)

[1 2 3 4]
[[1 2 3 4]]
[[1 2 3 4]]
[[1]
 [2]
 [3]
 [4]]
[[1]
 [2]
 [3]
 [4]]


In [48]:
# 차원 축소
arr = np.array([[[1], [2], [3]]])
print(arr, arr.shape)

# 모든 단일 차원(shape에서 1 나온 것들) 제거
print(np.squeeze(arr))

# 특정 축만 제거
arr2 = np.array([[[1, 2, 3]]])
print(arr2, arr2.shape)

print(np.squeeze(arr2, axis=1))  # shape이 1 3 (1 1 3 에서 가운데 1만 지운 거)

[[[1]
  [2]
  [3]]] (1, 3, 1)
[1 2 3]
[[[1 2 3]]] (1, 1, 3)
[[1 2 3]]


In [49]:
# 학급별 시험 점수 (5개 학급, 각 10명의 학생)
scores = np.random.randint(50, 101, size=(5, 10))  # 50~100 사이 점수
print("학급별 점수:")
print(scores)

# 문제1: 전체 평균과 표준편차
print('전체 평균:', np.mean(scores), '표준편차:', np.std(scores))

# 문제2: 학급별 최고점과 최저점
print('학급별 최고점:', np.max(scores, axis=1), '학급별 최저점:', np.min(scores, axis=1))

# 문제3: 전체 학생 중 상위 25%와 하위 25% 컷오프 점수
print('상위 25% 컷오프 점수:', np.percentile(scores, 75), '하위 25% 컷오프 점수:', np.percentile(scores, 25))

# 문제4: 학급별 평균이 가장 높은/낮은 학급 찾기
print('학급별 평균:', np.mean(scores, axis=1), '가장 높은 평균:', np.max(np.mean(scores, axis=1)), '가장 낮은 평균:', np.min(np.mean(scores, axis=1)))
print("최고 평균 학급:", np.argmax(np.mean(scores, axis=1)) + 1)  # +1은 학급 번호 조정
print("최저 평균 학급:", np.argmin(np.mean(scores, axis=1)) + 1)  # +1은 학급 번호 조정

학급별 점수:
[[ 75  93  83  59  85  63  80  97  64  57]
 [ 63  72  89  70  65  94  67  96  73  75]
 [ 74  94  90  78  64  94  50  74  56  58]
 [ 73  50  93  57  73  60 100  66  57  84]
 [ 84  82  54  91  88  90  77  56  58  57]]
전체 평균: 74.04 표준편차: 14.359610022559805
학급별 최고점: [ 97  96  94 100  91] 학급별 최저점: [57 63 50 50 54]
상위 25% 컷오프 점수: 87.25 하위 25% 컷오프 점수: 60.75
학급별 평균: [75.6 76.4 73.2 71.3 73.7] 가장 높은 평균: 76.4 가장 낮은 평균: 71.3
최고 평균 학급: 2
최저 평균 학급: 4


# 유틸리티 함수

In [None]:
# where
arr = np.arange(10)

# 단순 필터링 (짝수)
print(np.where(arr % 2 == 0))
# 값을 바꾸기
print(np.where(arr % 2 == 0, '짝수', '홀수'))

# 0 ~ 10 랜덤으로 3 x 3 size로
arr2d = np.random.randint(0, 10, (3, 3))
print(arr2d)

# 조건만 걸면, 좌표(인덱스)가 나옴
print(np.where(arr2d > 5))
# [0, 1, 1, 2, 2]
# [0, 1, 2, 0, 1]
# -> 좌표값

# 5보다 큰 값들은 * 2, 아니면 그대로
print(np.where(arr2d > 5, arr2d * 2, arr2d))

# 그냥 조건에 맞는 값들만 보고 싶으면?
print(arr2d[arr2d > 5])

(array([0, 2, 4, 6, 8]),)
['짝수' '홀수' '짝수' '홀수' '짝수' '홀수' '짝수' '홀수' '짝수' '홀수']
[[8 4 0]
 [2 9 7]
 [5 7 8]]
(array([0, 1, 1, 2, 2]), array([0, 1, 2, 1, 2]))
[[16  4  0]
 [ 2 18 14]
 [ 5 14 16]]
[8 9 7 7 8]


In [None]:
# argmax, argmin

# 벡터에서 최대/최소 위치
arr = np.array([3, 5, 1, 0, 4])

max_idx = np.argmax(arr)
min_idx = np.argmin(arr)

print(max_idx, min_idx)

# 매트릭스에서 최대/최소
np.random.seed(23)
arr2d = np.random.randint(0, 10, (3, 3))
print(arr2d)

# 각 행에서 최댓값의 idx
row_max = np.argmax(arr2d, axis=1)
print(row_max)
# 각 열에서 최솟값의 idx
col_min = np.argmin(arr2d, axis=0)
print(col_min)

1 3
[[3 6 8]
 [9 6 8]
 [7 9 3]]
[2 0 1]
[0 0 2]


In [91]:
# unique 고유값 찾기
arr = np.array([1, 2, 3, 2, 3, 4, 3, 1, 5, 5, 6, 4])

# 값들만
unique_values = np.unique(arr)
print(unique_values)

# 값들, 개수
values, count = np.unique(arr, return_counts=True)
print('valeus:', values)
print('count:', count)

# 값들, 개수 -> dict
freq_dict = dict(zip(values, count))
print(freq_dict)

# 가장 많이 등장하는 숫자 찾기
idx = np.argmax(count)
print('가장 많이 나온 숫자:', values[idx])

[1 2 3 4 5 6]
valeus: [1 2 3 4 5 6]
count: [2 2 3 2 2 1]
{np.int64(1): np.int64(2), np.int64(2): np.int64(2), np.int64(3): np.int64(3), np.int64(4): np.int64(2), np.int64(5): np.int64(2), np.int64(6): np.int64(1)}
가장 많이 나온 숫자: 3


In [100]:
# sort, argsort
arr = np.array([3, 5, 1, 0, 4, 2, 7])
print(arr)

# 오름차순 정렬 ASC
print(np.sort(arr))

# 내림차순 정렬 DESC
print(np.sort(arr)[::-1])

# 정렬하기 위한 인덱스 배치
idx = np.argsort(arr)
print(idx)

print(arr[idx])

[3 5 1 0 4 2 7]
[0 1 2 3 4 5 7]
[7 5 4 3 2 1 0]
[3 2 5 0 4 1 6]
[0 1 2 3 4 5 7]


In [106]:
# Matrix 정렬
np.random.seed(1)
arr2d = np.random.randint(0, 10, (3, 4))
print(arr2d)

# 행별 ASC 정렬
row_sorted = np.sort(arr2d, axis=1)
print(row_sorted)

# 열별 DESC 정렬
col_sorted = np.sort(arr2d, axis=0)[::-1]
print(col_sorted)

[[5 8 9 5]
 [0 0 1 7]
 [6 9 2 4]]
[[5 5 8 9]
 [0 0 1 7]
 [2 4 6 9]]
[[6 9 9 7]
 [5 8 2 5]
 [0 0 1 4]]


### 실습

In [121]:
# 가상의 학생 시험 점수 데이터
math_scores = np.array([85, 90, 75, 95, 70, 80, 65, 75, 90, 85])
science_scores = np.array([90, 85, 80, 95, 70, 75, 65, 80, 85, 90])
english_scores = np.array([80, 85, 90, 80, 75, 90, 70, 75, 85, 95])

subjects = ['수학', '과학', '영어']
scores = np.vstack((math_scores, science_scores, english_scores))
print(scores)

[[85 90 75 95 70 80 65 75 90 85]
 [90 85 80 95 70 75 65 80 85 90]
 [80 85 90 80 75 90 70 75 85 95]]


In [None]:
# 기본 통계 (과목별 평균, 중앙값, 표준편차, 최소, 최대)

# 평균
subjects_average = np.mean(scores, axis=1)
print('과목별 평균:', subjects_average)

# 중앙값
subjects_median = np.median(scores, axis=1)
print('과목별 중앙값:', subjects_median)

# 표준편차
subjects_std = np.std(scores, axis=1)
print('과목별 표준편차:', subjects_std)

# 최소
min_idx = np.argmin(scores, axis=1)
scores_row = np.arange(scores.shape[0])
scores_min = scores[scores_row, min_idx]
print('과목별 최소 점수:', scores_min)

# 최대
max_idx = np.argmax(scores, axis=1)
scores_row = np.arange(scores.shape[0])
scores_max = scores[scores_row, max_idx]
print('과목별 최대 점수:', scores_max)

과목별 평균: [81.  81.5 82.5]
과목별 중앙값: [82.5 82.5 82.5]
수학 표준편차: 9.17
과학 표준편차: 8.96
영어 표준편차: 7.5
과목별 표준편차: [9.16515139 8.95823643 7.5       ]
과목별 최소 점수: [65 65 70]
과목별 최대 점수: [95 95 95]


In [165]:
# 기본 통계 (과목별 평균, 중앙값, 표준편차, 최소, 최대)
for idx, subject in enumerate(scores):
    # 평균 mean
    mean_score = np.mean(scores[idx])  # == np.mean(subject)
    # 중앙값 median
    median_score = np.median(subject)
    # 표준편차 standard dev (std)
    std_dev = np.std(subject)
    # 최소 min
    min_score = np.min(subject)
    # 최대 max
    max_score = np.max(subject)

    print(f'{subjects[idx]} 평균: {mean_score}, 중앙값: {median_score}, 표준편차: {std_dev:.2f}, 최소: {min_score}, 최대: {max_score}')

수학 평균: 81.0, 중앙값: 82.5, 표준편차: 9.17, 최소: 65, 최대: 95
과학 평균: 81.5, 중앙값: 82.5, 표준편차: 8.96, 최소: 65, 최대: 95
영어 평균: 82.5, 중앙값: 82.5, 표준편차: 7.50, 최소: 70, 최대: 95


In [180]:
# 총점 기준 상위 3명 학생 표시 
# | 학생번호(idx) | 수학 | 과학 | 영어 | 총점 |

# 과목 총점 배열
total_scores = np.sum(scores, axis=0)
print('학생별 총점:', total_scores)

# 총점 desc 정렬 후 3명 잘라서 idx만 내놔
top_students = np.argsort(total_scores)[::-1][:3]

print('학생번호 | 수학 | 과학 | 영어 | 총점')
for idx in top_students:
    print(
        f'{idx+1:^7} | {math_scores[idx]:^3} | {science_scores[idx]:^4} |',
        f'{english_scores[idx]:^3} | {total_scores[idx]}'
    )

학생별 총점: [255 260 245 270 215 245 200 230 260 270]
학생번호 | 수학 | 과학 | 영어 | 총점
  10    | 85  |  90  | 95  | 270
   4    | 95  |  95  | 80  | 270
   9    | 90  |  85  | 85  | 260


In [None]:
# 과목별 상관관계

correlation = np.correcoef(scores)
print('과목 간 상관관계:')
