In [163]:
import numpy as np

# 통계를 위한 연산
- 배열의 합, 평균, 표준편차, 분산, 최소값, 최대값, 누적합, 누적곱 등

In [164]:
arr1 = np.arange(5)
arr1

array([0, 1, 2, 3, 4])

In [165]:
# 합과 산술 평균 : sum(), mean()
(arr1.sum(), arr1.mean())

(10, 2.0)

In [166]:
# 표준편차와 분산 : std(), var()
(arr1.std().round(3), arr1.var())

(1.414, 2.0)

In [167]:
# 최소값과 최대값 : min(), max()
(arr1.min(), arr1.max())

(0, 4)

In [168]:
arr2 = np.arange(1,6)
arr2

array([1, 2, 3, 4, 5])

In [169]:
# 누적합과 누적곱 : cumsum(), cumprod()
(arr2.cumsum(), arr2.cumprod())

(array([ 1,  3,  6, 10, 15]), array([  1,   2,   6,  24, 120]))

## 행렬 연산
- 선형 대수를 위한 행렬(2차원 배열) 연산
- 행렬 곱, 전치 행렬, 역행렬, 행렬식 등
    - 행렬곱 : A.dot(B) 혹은 np.dot(A, B)
    - 전치행렬 : A.transpose() 혹은 np.transpose(A)
    - 역행렬 : np.linalg.inv(A)
    - 행렬식 : np.linalg.det(A)

In [170]:
A = np.arange(1, 5).reshape(2,2)
# array([[1, 2],
#        [3, 4]])
B = np.array([3,2,0,1]).reshape(2,2)
# array([[3, 2],
#        [0, 1]])

### 행렬의 곱

In [171]:
A.dot(B) # np.dot(A, B)

array([[ 3,  4],
       [ 9, 10]])

In [172]:
B.dot(A) # np.dot(B, A)

array([[ 9, 14],
       [ 3,  4]])

### 전치행렬

In [173]:
A.transpose()

array([[1, 3],
       [2, 4]])

###  역행렬 (inverse)

In [174]:
np.linalg.inv(A)

array([[-2. ,  1. ],
       [ 1.5, -0.5]])

###  행렬식 (determinent)

In [175]:
np.linalg.det(A).round()

-2.0

In [176]:
# A * inv(A) = I (단위 행렬)
np.dot(A, np.linalg.inv(A)).round()

array([[1., 0.],
       [0., 1.]])

---

## Array 인덱싱(indexting)과 슬라이싱(Slicing)
- 인덱싱 : 배열 위치나 조건을 지정해 배열의 원소를 선택
- 슬라이싱 : 배열의 범위를 지정해 배열의 원소를 선택

### 1차원 배열의 인덱싱 
**배열명[위치]**
- 파이썬의 인덱싱과 동일
- 0번째로 시작함

In [177]:
arr = np.arange(10)
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [178]:
arr[0]

0

In [179]:
arr[3]

3

In [180]:
arr[3:8]

array([3, 4, 5, 6, 7])

### 배열명[[위치1, 위치2, ...]]

In [181]:
arr[[1,3,4]]

array([1, 3, 4])

### 2차원 배열의 인덱싱 
**배열명[행위치, 열위치]**
- 파이썬의 인덱싱과 동일
- 0번째로 시작함

In [182]:
arr2 = np.arange(1,13).reshape(3,4)
arr2

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [183]:
arr2[2,3]

12

In [184]:
arr2[0,0] = 90
arr2

array([[90,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

**2차원배열명[행위치]**

: 2차원 배열에서 지정한 행 전체가 선택됨

In [185]:
arr2[1]

array([5, 6, 7, 8])

In [186]:
arr2[1] = (8, 7, 6, 5)
arr2

array([[90,  2,  3,  4],
       [ 8,  7,  6,  5],
       [ 9, 10, 11, 12]])

**2차원배열명[:,열위치]**

: 2차원 배열에서 지정한 열 전체가 선택됨

In [187]:
arr2[:,1]

array([ 2,  7, 10])

**배열명[조건]**

: 배열에서 조건을 만족하는 원소만 선택

In [188]:
arr2>10

array([[ True, False, False, False],
       [False, False, False, False],
       [False, False,  True,  True]])

In [189]:
arr2[arr2>10]

array([90, 11, 12])

In [190]:
arr2[arr2%2==0]

array([90,  2,  4,  8,  6, 10, 12])

**배열명[[행],[열]]**
**배열명[행][열]**


In [191]:
arr2[[1,2],[1]]

array([ 7, 10])

In [192]:
arr2

array([[90,  2,  3,  4],
       [ 8,  7,  6,  5],
       [ 9, 10, 11, 12]])

In [193]:
arr2[1][1]

7

In [194]:
arr2[1:][1:]

array([[ 9, 10, 11, 12]])

### 1차원 배열의 슬라이싱 
**배열명[행위치, 열위치]**
- 시작위치에서 끝위치-1에 해당하는 배열의 원소 반환

In [195]:
arr1

array([0, 1, 2, 3, 4])

In [196]:
# array_name[start:end+1:step] : start~end 범위 step 간격
arr[3:9:2] 

array([3, 5, 7])

In [197]:
arr1[::2]

array([0, 2, 4])

### 2차원 배열의 슬라이싱 
**배열명[(행):, (열):]**
- 시작위치에서 끝위치-1에 해당하는 배열의 원소 반환

In [198]:
arr2

array([[90,  2,  3,  4],
       [ 8,  7,  6,  5],
       [ 9, 10, 11, 12]])

In [199]:
arr2[2,2]

11

In [200]:
arr2[1:,1:3]

array([[ 7,  6],
       [10, 11]])

In [201]:
arr3 = np.arange(10,100,10).reshape(3,3)
arr3

array([[10, 20, 30],
       [40, 50, 60],
       [70, 80, 90]])

### 슬라이싱 된 배열에 값을 지정

In [202]:
arr3[:2, 1:3]=np.array([[1,3],[4,1]])
arr3

array([[10,  1,  3],
       [40,  4,  1],
       [70, 80, 90]])

## Array boolean 인덱싱(Mask)
- 다차원의 인덱싱을 응용하여 boolean 인덱싱.
- boolean 인덱싱을 통해 만들어낸 array를 통해 원하는 행이나 열의 값만 뽑아냄
- 가리고 싶은 부분은 가리고 원하는 요소만 꺼냄

In [203]:
names = np.array(['Beomwoo','Beomwoo','Kim','Joan','Lee','Beomwoo',
                  'Park','Beomwoo'])
names.shape

(8,)

In [204]:
# 8행 4열의 실수 난수 배열 생성
data = np.random.randn(8,4)
print(data, data.shape)

[[-0.1993743  -0.64353884 -0.0441531  -0.66460786]
 [-0.14382234 -0.25425478  0.5266684  -0.60053841]
 [ 0.34436513  1.90598557 -0.567094   -0.23803837]
 [-0.53134376  0.49506394  2.77161103 -0.8271367 ]
 [ 0.765419   -0.04787455 -0.2297725  -2.27266096]
 [-0.56334115  0.21497319 -0.51687967  0.61981734]
 [-0.25866142 -1.25054595  0.08067343 -1.25690653]
 [ 0.93263822  1.0708038  -0.67377952 -0.06010951]] (8, 4)


In [205]:
# 요소가 Beomwoo인 항목에 대한 mask 생성
names_mask_Beomwoo = (names == 'Beomwoo')
names_mask_Beomwoo

array([ True,  True, False, False, False,  True, False,  True])

In [206]:
data[names_mask_Beomwoo, :]

array([[-0.1993743 , -0.64353884, -0.0441531 , -0.66460786],
       [-0.14382234, -0.25425478,  0.5266684 , -0.60053841],
       [-0.56334115,  0.21497319, -0.51687967,  0.61981734],
       [ 0.93263822,  1.0708038 , -0.67377952, -0.06010951]])

In [207]:
names_mask_Kim = (names == 'Kim')
data[names_mask_Kim]

array([[ 0.34436513,  1.90598557, -0.567094  , -0.23803837]])

In [208]:
names_mask_KimOrPark = (names == 'Kim') | (names == 'Park')
data[names_mask_KimOrPark]

array([[ 0.34436513,  1.90598557, -0.567094  , -0.23803837],
       [-0.25866142, -1.25054595,  0.08067343, -1.25690653]])

마스크 인덱싱 연습

In [209]:
mask = data[:,0]<0
mask

array([ True,  True, False,  True, False,  True,  True, False])

In [210]:
data[mask,2:4]

array([[-0.0441531 , -0.66460786],
       [ 0.5266684 , -0.60053841],
       [ 2.77161103, -0.8271367 ],
       [-0.51687967,  0.61981734],
       [ 0.08067343, -1.25690653]])

---

# array에 적용되는 다양한 함수

In [211]:
# random.randn(행, 열)
data = np.random.randn(5,3)

In [212]:
data

array([[-0.42959146, -0.12262575,  1.45176892],
       [ 0.20656797,  1.57213524,  1.40518799],
       [-2.27376028, -0.29553275, -0.84870682],
       [ 0.9234952 , -0.30455449, -0.29926865],
       [-0.16246256, -0.76252894,  1.68397096]])

https://numpy.org/doc/stable/reference/routines.math.html

In [213]:
# 수학관련 함수

# 절대값
print('절대값\n',np.abs(data))
abs_data = np.abs(data)

print('-'*50)

# 제곱근 : 양수에만 제곱근을 쓸수있어서~
print('제곱근\n',np.sqrt(abs_data))

print('-'*50)

# 제곱
print('제곱 : square\n',np.square(data))

print('-'*50)

# 지수함수 : 각 성분을 자연대수 e의 지수로 삼은 값.
print('지수함수 : exp\n',np.exp(data))

print('-'*50)

# 로그(자연로그) = log, log10, log2 (밑이 2인 로그)

절대값
 [[0.42959146 0.12262575 1.45176892]
 [0.20656797 1.57213524 1.40518799]
 [2.27376028 0.29553275 0.84870682]
 [0.9234952  0.30455449 0.29926865]
 [0.16246256 0.76252894 1.68397096]]
--------------------------------------------------
제곱근
 [[0.65543227 0.3501796  1.20489374]
 [0.45449749 1.25384817 1.18540626]
 [1.50789929 0.54362924 0.92125286]
 [0.96098658 0.55186456 0.54705452]
 [0.40306645 0.87322903 1.29767907]]
--------------------------------------------------
제곱 : square
 [[0.18454883 0.01503707 2.10763301]
 [0.04267033 2.47160922 1.9745533 ]
 [5.1699858  0.08733961 0.72030327]
 [0.85284339 0.09275344 0.08956173]
 [0.02639408 0.58145039 2.83575819]]
--------------------------------------------------
지수함수 : exp
 [[0.6507749  0.88459466 4.27066231]
 [1.2294513  4.81692251 4.07629298]
 [0.10292443 0.74413504 0.42796801]
 [2.51807621 0.73745184 0.74136021]
 [0.85004791 0.46648522 5.38690473]]
--------------------------------------------------


In [214]:
np.isnan(data)

array([[False, False, False],
       [False, False, False],
       [False, False, False],
       [False, False, False],
       [False, False, False]])

In [215]:
np.isnan(np.log(data))

  np.isnan(np.log(data))


array([[ True,  True, False],
       [False, False, False],
       [ True,  True,  True],
       [False,  True,  True],
       [ True,  True, False]])

In [216]:
np.cos(data)

array([[ 0.90913598,  0.99249088,  0.11874655],
       [ 0.97874059, -0.00133891,  0.16485237],
       [-0.64648181,  0.95664712,  0.66095413],
       [ 0.60303567,  0.95398064,  0.95555236],
       [ 0.98683196,  0.72309145, -0.11293319]])

In [217]:
np.floor(data)

array([[-1., -1.,  1.],
       [ 0.,  1.,  1.],
       [-3., -1., -1.],
       [ 0., -1., -1.],
       [-1., -1.,  1.]])

In [218]:
np.trunc(data)

array([[-0., -0.,  1.],
       [ 0.,  1.,  1.],
       [-2., -0., -0.],
       [ 0., -0., -0.],
       [-0., -0.,  1.]])

In [219]:
print(np.sum(data, axis=0)) # 같은 열의 요소들은 합한 결과
print('-'*40)
print(np.sum(data, axis=1)) # 같은 행의 요소들을 합한 결과

[-1.73575113  0.08689331  3.3929524 ]
----------------------------------------
[ 0.89955171  3.18389121 -3.41799985  0.31967206  0.75897946]


#### 최대값, 최소값 위치 인덱스 : argmax(), agrmin()

In [220]:
data

array([[-0.42959146, -0.12262575,  1.45176892],
       [ 0.20656797,  1.57213524,  1.40518799],
       [-2.27376028, -0.29553275, -0.84870682],
       [ 0.9234952 , -0.30455449, -0.29926865],
       [-0.16246256, -0.76252894,  1.68397096]])

In [251]:
divmod(np.argmax(data),np.shape(data)[1])

(4, 2)

In [268]:
data[4][2]

1.6839709587625689

In [269]:
np.sort(data) # 행별 오름차순 정렬
np.sort(data, axis=0) # 열별 오름차순 정렬


array([[-2.27376028, -0.76252894, -0.84870682],
       [-0.42959146, -0.30455449, -0.29926865],
       [-0.16246256, -0.29553275,  1.40518799],
       [ 0.20656797, -0.12262575,  1.45176892],
       [ 0.9234952 ,  1.57213524,  1.68397096]])