In [1]:
#우리가 data를 분석할 때 가장 먼저 사용하는 값들이 바로 mean, standard deviation, variance 값들이다.
#물론 NumPy에서도 이를 쉽게 구할 수 있는 method들이 존재한다. 이들은 각각
#1. ndarray.mean()
#2. ndarray.std()
#3. ndarray.var()

import numpy as np

test_np = np.random.randint(low = 0, high = 100, size = (200,))

print("mean:", test_np.mean())
print("standard deviation: ", test_np.std())
print("variance:", test_np.var())

mean: 46.1
standard deviation:  29.224476043207346
variance: 854.07


In [2]:
import pandas as pd
maths = np.random.randint(low = 30, high = 100, size = (20,))
english = np.random.randint(low = 30, high = 100, size = (20,))
physics = np.random.randint(low = 30, high = 100, size = (20,))

score_table = np.vstack((maths, english, physics)).T
d = {"Math scores": maths, "English scores": english, "Physics scores": physics}
df = pd.DataFrame(data=d)
print(df)

    Math scores  English scores  Physics scores
0            86              78              77
1            33              44              36
2            35              93              30
3            97              92              92
4            71              46              39
5            60              48              70
6            50              30              72
7            68              88              37
8            41              83              92
9            32              99              99
10           33              79              38
11           56              67              95
12           35              84              97
13           69              49              52
14           45              73              87
15           98              82              74
16           48              70              44
17           99              71              76
18           94              47              34
19           47              62         

In [3]:
#우리가 mean, std, var를 구하는 과정은 과목별로 구하게 되므로 axis=0이 되는 것을 알 수 있고,
#이는 각각 다음과 같다.

mean_np = score_table.mean(axis = 0)
std_np = score_table.std(axis = 0)

print("mean values:", mean_np)
print("std values:", std_np)

mean values: [59.85 69.25 66.7 ]
std values: [23.38648114 18.98650837 24.48897711]


In [5]:
#이때 slicing을 이용하여 각 점수들을 추출해보면
print(score_table.shape)
print(mean_np.shape)
print(std_np.shape)

(20, 3)
(3,)
(3,)


In [7]:
#그리고 우리가 배운 broadcasting을 이용하여
# score_table - mean_np 를 하면 mean_np는 (20,3)로 broadcasting되어 각각의 element에 element-wise로 빼지는 것을 알 수 있다.

mean_sub = score_table - mean_np
print(mean_sub.shape, '\n')
#물론 이 결과는 다시 (20,3)의 ndarray를 가지게 되고, 우리가 여기에 std_np를 나눠준다면 다시 이 std_np는 (20,3)으로 broadcasting되어 나눠지는 것을 알 수 있다.

std_div = (score_table - mean_np)/std_np
print(std_div.shape, '\n')
#그리고 우리가 matrix와 scalar의 연산에서의 broadcasting을 이용하여 20을 곱해주고, 100을 더해주면 원하는 표준점수의 ndarray를 구할 수 있다.

standard_scores = 20*(score_table - mean_np)/std_np + 100
print(standard_scores.shape, '\n')
#이렇게 ndarray를 이용하면 한 줄을 통해 큰 matrix에 연산도 가능해지는 것을 알 수 있다.

(20, 3) 

(20, 3) 

(20, 3) 



In [11]:
#Vector와 Matrix 연산에서 가장 중요한 것은 dot product와 matrix multiplication이 될 수 있다.
#이를 통해 우리는 table 자체의 연산이 가능하며 수많은 연산을 단번에 수행할 수 있기 때문에 선형대수학의 연산 중에서도 가장 중요하다고 할 수 있다.
# 그리고 우리는 이 연산을 ndarray.dot() method를 통해 할 수 있다.

#dot product를 배우기 전에 2가지 필요한 method들을 배워보자. 바로 transpose와 squeeze이다.
#ranspose는 ndarray.T로 나타내며 (m,n) ndarray를 (n,m) ndarray로 바꿔주는 역할을 한다.
#즉, diagonal을 기준으로 대칭시켜주는 역할을 한다.

test_np = np.random.randint(low = 0, high = 5, size = (3,3))
print(test_np,'\n')
print(test_np.T,'\n')
#즉 선형대수에서 다루는 transpose는 ndarray.T를 통해 구할 수 있다.

[[4 1 3]
 [0 0 1]
 [1 0 3]] 

[[4 0 1]
 [1 0 0]
 [3 1 3]] 



In [15]:
#squeeze() method는 구체적으로 보면 쓸데없는 차원을 없애주는 역할을 한다.
#만약 우리가 어떤 일련의 연산을 통해 (1,3,1,1)차원의 ndarray를 얻었다고 해보자.

test_np = np.ones(shape = (1,3,1,1))
print(test_np.shape)
print("test_np:\n", test_np,'\n')

#이때 결과에 squeeze()를 해주면 다음과 같다.

test_np = np.ones(shape = (1,3,1,1))
print(test_np.squeeze().shape)
print("test_np:\n", test_np.squeeze(),'\n')

#즉 우리한테 필요한 차원만 남겨주는 역할을 한다. 또한
test_np = np.ones(shape = (2,3,1,1))
print(test_np.shape)
print(test_np.squeeze().shape,'\n')
#위와 같이 쓸모있는 정보를 가지고 있는 n개의 차원은 모두 남겨주는 것을 확인할 수 있다.

(1, 3, 1, 1)
test_np:
 [[[[1.]]

  [[1.]]

  [[1.]]]] 

(3,)
test_np:
 [1. 1. 1.] 

(2, 3, 1, 1)
(2, 3) 



In [28]:
#위의 transpose와 squeeze를 이용하여 Vector들의 dot product를 살펴보자.
#Vector는 기본적으로 column-wise로 표시하는 경우가 많기 때문에 다음과 같이 test vector들을 만들 수 있다.

vec1 = np.array([1, 2, 3]).reshape(-1,1)
vec2 = np.array([3, 4, 5]).reshape(-1,1)

print("vec1:\n", vec1, '\n')
print("vec2:\n", vec2, '\n')
print("vec1.shape:", vec1.shape)
print("vec1.T.shape:", vec1.T.shape, '\n')

#NumPy를 이용할 때 dot product를 하는 한 가지 방법은 ndarray.dot(다른 ndarray)이다.
#따라서 transpose를 한 (1,3) vector와 (3,1)인 vec2를 dot product하면 다음과 같다.
dot_prod = vec1.T.dot(vec2)
print("vec1:\n", vec1, '\n')
print("vec2:\n", vec2, '\n')
print("dot_prod:", dot_prod)
print("dot_prod.shape:", dot_prod.shape, '\n')

vec1:
 [[1]
 [2]
 [3]] 

vec2:
 [[3]
 [4]
 [5]] 

vec1.shape: (3, 1)
vec1.T.shape: (1, 3) 

vec1:
 [[1]
 [2]
 [3]] 

vec2:
 [[3]
 [4]
 [5]] 

dot_prod: [[26]]
dot_prod.shape: (1, 1) 



In [27]:
#그리고 결과가 scalar인데 (1,1) ndarray이므로 squeeze()를 적용해주면 다음과 같다.
print(dot_prod.squeeze())

#즉, dot product는 다음과 같이 나타낼 수 있다.
dot_prod = vec1.T.dot(vec2).squeeze()
print("dot_prod:", dot_prod)

26
dot_prod: 26


In [31]:
# matrix multiplication은 특히 data science에서 많은 data를 한 번에 처리할 때 항상 사용되는 연산이다.
#그리고 조심할 점은 (m,n)*(n,p)처럼 가운데 2개의 차원이 동일해야 된다는 점이다.(행렬 곱의 성질을 유지해야한다)
#matrix multiplication은 dot product와 마찬가지로 ndarray.dot()을 통해서 연산할 수 있다.
operand1 = np.random.randint(low=0, high=5, size=(2,3))
operand2 = np.random.randint(low=0, high=5, size=(3,4))

print(operand1.shape, operand2.shape)
print("operand1:\n", operand1)
print("operand2:\n", operand2,'\n')

#위와 같이 matrix 2개가 있을 때, 다음과 같이 matrix multiplication을 할 수 있다.
print("operand1.dot(operand2):\n", operand1.dot(operand2))
print("operand1.dot(operand2).shape:", operand1.dot(operand2).shape)

(2, 3) (3, 4)
operand1:
 [[4 4 3]
 [4 3 3]]
operand2:
 [[2 3 2 4]
 [2 0 4 0]
 [3 0 0 4]] 

operand1.dot(operand2):
 [[25 12 24 28]
 [23 12 20 28]]
operand1.dot(operand2).shape: (2, 4)


In [34]:
#그러면 연속해서 matrix multiplication이 진행될 땐 어떻게 해야할까?

operand1 = np.random.randint(low=0, high=5, size=(2,3))
operand2 = np.random.randint(low=0, high=5, size=(3,4))
operand3 = np.random.randint(low=0, high=5, size=(4,2))

result = operand1.dot(operand2)
print("operand1:\n", operand1)
print("operand2:\n", operand2)
print("operand3:\n", operand3,'\n')
print(result)
print(result.shape)

operand1:
 [[4 0 0]
 [1 3 4]]
operand2:
 [[0 3 0 3]
 [1 4 4 4]
 [4 4 0 0]]
operand3:
 [[3 0]
 [3 3]
 [1 3]
 [4 1]] 

[[ 0 12  0 12]
 [19 31 12 15]]
(2, 4)
