## Numpy

- 데이터는 행열로 표현
- 행열 데이터 빠르게 계산을 해야 합니다.
- 행열 데이터 생성, 수정, 계산등을 빠르게 처리해주는 패키지
- 특징
    - C, C++, 포트란으로 작성
    - 선형대수학을 빠르게 연산 -> / Scala, Vector, Matrix
    

In [5]:
!pip install numpy



In [6]:
import numpy as np

In [7]:
array = np.array([1, 2, 3])
type(array), array

(numpy.ndarray, array([1, 2, 3]))

In [8]:
array2 = np.array(
    [[1, 2, 3],
    [4, 5, 6]],
)
array2

array([[1, 2, 3],
       [4, 5, 6]])

In [10]:
array2.ndim, array2.shape      # 행렬 차원, 모양 확인

(2, (2, 3))

In [13]:
# 행렬 모양(shape) 변경하기

array2.reshape(6)

array([1, 2, 3, 4, 5, 6])

In [14]:
array2.reshape(3,2)

array([[1, 2],
       [3, 4],
       [5, 6]])

In [20]:
# 행렬 데이터의 선택 : offset index : masking

print(array2[1][2])
print(array2[1][::-1])

6
[6 5 4]


In [23]:
# braodcasting

array2[0] = 0
print(array2)

[[0 0 0]
 [4 5 6]]


In [25]:
array2[0] = [7, 8, 9]
print(array2)

[[7 8 9]
 [4 5 6]]


In [27]:
# 조건으로 선택

array2 > 7

array([[False,  True,  True],
       [False, False, False]])

In [28]:
idx = array2 > 7
array2[idx]

array([8, 9])

In [30]:
array2[idx] = 100
print(array2)

[[  7 100 100]
 [  4   5   6]]


In [33]:
# 행렬 데이터 생성 2

array3 = np.zeros((2, 3))
array3

array([[0., 0., 0.],
       [0., 0., 0.]])

In [34]:
array3.dtype

dtype('float64')

In [37]:
array3.astype('int')


array([[0, 0, 0],
       [0, 0, 0]])

In [39]:
array4 = np.ones((2, 3, 2))
array4

array([[[1., 1.],
        [1., 1.],
        [1., 1.]],

       [[1., 1.],
        [1., 1.],
        [1., 1.]]])

In [41]:
# arrange

np.arange(5)

array([0, 1, 2, 3, 4])

In [42]:
np.arange(5, 10)

array([5, 6, 7, 8, 9])

# Index

## 1. 분산
## 2. 공분산
## 3. 상관계수
## 4. 결정계수
## 5. 프리미어리그 데이터 상관계수 분석

In [43]:
import numpy as np

In [45]:
data1 = np.array([80, 85, 100, 90, 95])
data2 = np.array([70, 80, 100, 95, 95])

### 1. 분산

- 1개의 이산정도를 나타냄
- 평균과 얼마나 떨어져 있는가
- 편차제곱의 평균

$ variance = \frac{\sum_{i=1}^n{(x_i-\bar{x})^2}}{n}, (\bar{x}:평균) $

In [47]:
def variance(data):
    avg = np.average(data)
    var = 0
    for num in data:
        var += (num - avg) ** 2
    return var / len(data)


In [48]:
variance(data1), variance(data2)

(50.0, 126.0)

In [50]:
np.var(data1), np.var(data2)

(50.0, 126.0)

In [52]:
p_data1 = np.random.randint(60, 100, int(1E5))
p_data2 = np.random.randint(60, 100, int(1E5))

In [56]:
%%time
np.var(p_data1), np.var(p_data2)

CPU times: user 1.49 ms, sys: 968 µs, total: 2.46 ms
Wall time: 1.31 ms


(133.31434507189996, 133.43472315999998)

### 2. 공분산

- 2개의 확률변수의 상관정도를 나타냄
- $ \bar{x} $ > 0 이면, 2 데이터 방향성이 같음, $ \bar{x} $ < 0 이면 2 데이터 방향이 반대
- 평균 편차곱
- 방향성은 보여줄 수 있으나 강도를 나타내는데 한계까 있다.

$ covariance = \frac{\sum_{i=1}^{n}{(x_i-\bar{x})(y_i-\bar{y})}}{n}, (\bar{x}:x의 평균, \bar{y}:y의 평균) $

In [59]:
data1 = np.array([80, 85, 100, 90, 95])
data2 = np.array([70, 80, 100, 95, 95])
np.cov(data1, data2)[0][1]

93.75

In [60]:
data3 = np.array([80, 85, 100, 90, 95])
data4 = np.array([100, 90, 70, 90, 80])
np.cov(data3, data4)[0][1]

-87.5