# Numpy 계산 및 통계 함수

In [73]:
import numpy as np

## 기본 연산

In [74]:
a = np.array([1, 2, 3])
b = np.array([4, 5, 6])

In [75]:
# 덧셈
add = a + b
print(add)

[5 7 9]


In [76]:
# 뺄셈
min = a - b
print(min)

[-3 -3 -3]


In [77]:
# 곱셈
mul = a * b
print(mul)

[ 4 10 18]


In [78]:
# 나눗셈(실수)
div = a / b
print(div)

[0.25 0.4  0.5 ]


In [79]:
# 나눗셈(정수)
div2 = a // b
print(div2)

[0 0 0]


In [80]:
# 나머지
rem = a % b
print(rem)

[1 2 3]


In [81]:
# 제곱
squ = a ** b
print(squ)

[  1  32 729]


## 수학 연산

In [82]:
# 절대값
a_ = np.array([-1, 2, -4])
abs_a = np.abs(a_)
print(abs_a)

[1 2 4]


In [83]:
# 지수 함수
exp = np.exp(a)
print(exp)

[ 2.71828183  7.3890561  20.08553692]


In [84]:
# 자연 로그 함수
loge = np.log(a)
print(loge)

[0.         0.69314718 1.09861229]


In [85]:
# 밑이 2인 로그 함수
log2 = np.log2(a)
print(log2)

[0.        1.        1.5849625]


In [86]:
# 밑이 10인 로그 함수
log10 = np.log10(a)
print(log10)

[0.         0.30103    0.47712125]


In [87]:
# 삼각함수: sin
b_ = np.array([0, np.pi/2, np.pi])
sin_b = np.sin(b_)
print(sin_b)

[0.0000000e+00 1.0000000e+00 1.2246468e-16]


In [88]:
# 삼각함수: cos
cos_b = np.cos(b_)
print(cos_b)

[ 1.000000e+00  6.123234e-17 -1.000000e+00]


In [89]:
# 삼각함수: tan
tan_b = np.tan(b_)
print(tan_b)

[ 0.00000000e+00  1.63312394e+16 -1.22464680e-16]


In [90]:
# 제곱근 함수
arr = np.array([1, 4, 9, 16, 25])
sqr = np.sqrt(arr)
print(sqr)

[1. 2. 3. 4. 5.]


## 집계 및 통계 함수

In [91]:
# 평균
mea = np.mean(arr)
print(mea)

11.0


In [92]:
# 중앙값
mid = np.median(arr)
print(mid)

9.0


In [93]:
# 표준편차
std = np.std(arr)
print(std)

8.648699324175862


In [94]:
# 분산
var = np.var(arr)
print(var)

74.8


In [95]:
# 공분산
cov = np.cov(arr)
print(cov)

93.5


In [96]:
# 배열의 합계
sum = np.sum(arr)
print(sum)

55


In [97]:
# 배열의 누적 합계
cum = np.cumsum(arr)
print(cum)

[ 1  5 14 30 55]


In [98]:
# 배열의 최소값
min = np.argmin(arr)
print(min) # 결과: 인덱스

0


In [99]:
# 배열의 최대값
max = np.argmax(arr)
print(max) # 결과: 인덱스

4


In [100]:
# 배열에서 적어도 한 개 이상이 참인지
arr_ = np.array([1, 1, 1, 0])
any = np.any(arr_)
print(any)

True


In [101]:
# 배열의 모든 원소가 참인지
all = np.all(arr_)
print(all)

False


In [102]:
# NaN 값을 0으로 간주하고 합
arr2 = np.array([1, 2, np.nan, 4])
nsum = np.nansum(arr2)
print(nsum)

7.0


In [103]:
# 조건에 맞는 값
arr3 = np.array([1, 2, 3, 4, 5])

# where(조건, 조건에 맞을 때 넣어줄 값, 조건과 다를 때 넣어줄 값)
whe = np.where(arr3 < 4, arr3, 0)
print(whe)

[1 2 3 0 0]


In [104]:
# Permutation 순열
# 순서를 정해서 나열

per = np.random.permutation(5) # 5까지 범위의 무작위 순열된 값 리턴
                               # 원본 배열을 만들어서 그 값을 넣어주거나 숫자만 입력해서 사용 가능
print(per)

[2 0 1 3 4]


In [105]:
# Shuffle 셔플
# 배열을 무작위로 섞어줌
# permutation은 원본 배열이 필요 없지만 shuffle은 필요
# permutation은 원본 배열이 보존되지만 shuffle은 원본 배열이 변함

s = np.arange(5)
np.random.shuffle(s)
print(s)

[4 0 3 2 1]


In [106]:
# Combination 조합 (Numpy 1.17 버전 이후 사용 가능)
# 지정된 길이의 조합

c = np.math.comb(5, 2) # 5개 요소에서 2개 선택
print(c)

10


# Pandas 통계 함수

In [107]:
import pandas as pd

In [108]:
data = pd.DataFrame({
    '도시': ['서울', '부산', '제주', '서울', '제주', '제주', '부산', '부산', '제주'],
    '연도': [2015, 2016, 2017, 2018, 2019, 2020, 2021, 2022, 2023],
    '전입신고 수': [10040, 22300, 6000, 12400, 4000, 600, 11100, 45000, 31000],
    '세금': [1004000, 2230000, 600000, 1240000, 400000, 60000, 1110000, 4500000, 3100000]
})

In [109]:
data

Unnamed: 0,도시,연도,전입신고 수,세금
0,서울,2015,10040,1004000
1,부산,2016,22300,2230000
2,제주,2017,6000,600000
3,서울,2018,12400,1240000
4,제주,2019,4000,400000
5,제주,2020,600,60000
6,부산,2021,11100,1110000
7,부산,2022,45000,4500000
8,제주,2023,31000,3100000


In [110]:
# 최대값
data['세금'].max()

4500000

In [111]:
# 최소값
data['세금'].min()

60000

In [112]:
# 평균
data['세금'].mean()

1582666.6666666667

In [113]:
# 중앙값
data['세금'].median()

1110000.0

In [114]:
# 최빈값
data['세금'].mode()

0      60000
1     400000
2     600000
3    1004000
4    1110000
5    1240000
6    2230000
7    3100000
8    4500000
Name: 세금, dtype: int64

In [115]:
# 합계
data['세금'].sum()

14244000

In [116]:
# 데이터 수(결측값 제외)
data['세금'].count()

9

In [117]:
# 분위수
data['세금'].quantile()

1110000.0

In [118]:
# 분산
data['세금'].var()

2073839000000.0

In [119]:
# 왜도
data['세금'].skew()

1.1903851942409518

In [120]:
# 첨도
data['세금'].kurt()

0.8065444705713558

In [121]:
# 평균표준오차
data['세금'].sem()

480027.66124001186

In [122]:
# 평균절대편차 (mad 매서드 사용 불가)
(data['세금'] - data['세금'].mean()).abs().mean()

1129333.3333333335

In [123]:
# 누적합
data['세금'].cumsum()

0     1004000
1     3234000
2     3834000
3     5074000
4     5474000
5     5534000
6     6644000
7    11144000
8    14244000
Name: 세금, dtype: int64

In [124]:
# 누적 최대값
data['세금'].cummax()

0    1004000
1    2230000
2    2230000
3    2230000
4    2230000
5    2230000
6    2230000
7    4500000
8    4500000
Name: 세금, dtype: int64

In [125]:
# 누적 최소값
data['세금'].cummin()

0    1004000
1    1004000
2     600000
3     600000
4     400000
5      60000
6      60000
7      60000
8      60000
Name: 세금, dtype: int64