In [None]:
import numpy as np

## 배열의 연산

### 벡터화 연산(vectorized operation)
* 명시적으로 반복문을 사용하지 않고도 배열의 모든 원소에 대해 반복 연산을 할 수 있음
* 선형 대수 공식과 동일한 아주 간단한 파이썬 코드를 작성할 수 있음
<br>
<br>
$$
x = \begin{bmatrix}1\\2\\3\\⋯\\10000\end{bmatrix},\quad
y = \begin{bmatrix}10001\\10002\\10003\\⋯\\20000\end{bmatrix}
$$

<br>
$$
z = x + y
$$

<br>
$$
\begin{bmatrix}1\\2\\3\\⋯\\10000\end{bmatrix}
+ \begin{bmatrix}10001\\10002\\10003\\⋯\\20000\end{bmatrix}
= \begin{bmatrix}1+10001\\2+10002\\3+10003\\⋯\\10000+20000\end{bmatrix}
= \begin{bmatrix}10002\\10004\\10006\\⋯\\30000\end{bmatrix}
$$

In [None]:
x = np.arange(1,10001)
y = np.arange(10001, 20001)

In [None]:
z = np.zeros_like(x)

In [None]:
%%time
# %time %% -> 여러줄 -> 걸리는 시간을 측정
for i in range(len(z)):
    z[i] = x[i] + y[i]
z

CPU times: user 10.5 ms, sys: 0 ns, total: 10.5 ms
Wall time: 10.5 ms


array([10002, 10004, 10006, ..., 29996, 29998, 30000])

In [None]:
%%time
z = x + y
z

CPU times: user 1.96 ms, sys: 0 ns, total: 1.96 ms
Wall time: 4.74 ms


array([10002, 10004, 10006, ..., 29996, 29998, 30000])

In [None]:
# 사칙연산뿐만 아니라 비교/논리 연산(벡터화 연산)
a = np.array([1,2,3,4])
b = np.array([4,2,2,4])

In [None]:
a == b # 같은지 확인 # numpy를 사용하면 for문보다 간단

array([False,  True, False,  True])

In [None]:
a != b

array([ True, False,  True, False])

In [None]:
a >= b

array([False,  True,  True,  True])

In [None]:
# 배열의 각 원소를 하나씩 비교하는 게아니라 = 같은 위치끼리 비교하는 것이 아니라
# 배열의 모든 원소가 같은지 알고 싶다 np.all(조건식)
c = np.array([1, 2, 3, 4])
a, b, c

(array([1, 2, 3, 4]), array([4, 2, 2, 4]), array([1, 2, 3, 4]))

In [None]:
np.all(a == b)

False

In [None]:
np.all(a ==c)

True

In [None]:
# o배열의 원소 중 하나라도 이 조건을 만족시키는가? np.any(조건식), or과 비슷
np.any(a==b)

True

In [None]:
# 지수함수, 로그함수 (수학함수) -> 벡터화 연산
a = np.arange(5)
a

array([0, 1, 2, 3, 4])

In [None]:
np.exp(a) # 지수?

array([ 1.        ,  2.71828183,  7.3890561 , 20.08553692, 54.59815003])

In [None]:
np.exp(a+1)

array([  2.71828183,   7.3890561 ,  20.08553692,  54.59815003,
       148.4131591 ])

In [None]:
10 ** a

array([    1,    10,   100,  1000, 10000])

## 스칼라와 벡터/ 행렬의 곱셈

In [None]:
x = np.arange(10)
x # 1차원 배열

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [None]:
100 * x

array([  0, 100, 200, 300, 400, 500, 600, 700, 800, 900])

In [None]:
x = np.arange(12).reshape(3,-1)
x # 2차원 행령

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [None]:
100 * x

array([[   0,  100,  200,  300],
       [ 400,  500,  600,  700],
       [ 800,  900, 1000, 1100]])

## 브로드캐스팅
* 벡터(또는 행렬)끼리 덧셈과 뺄셈... -> 두 벡터(또는 행렬)간의 크기가 일치
* Numpy에선 서로 다른 크기를 가진 두 배열의 사칙연산을 지원 = 브로드캐스팅(broadcasting)
> 크기가 큰 배열에 맞춤

<br>
$$
x = \begin{bmatrix}0\\1\\2\\3\\4\end{bmatrix},\quad 
x + 1 = \begin{bmatrix}0\\1\\2\\3\\4\end{bmatrix} + 1 = ?
$$
<br>
$$
\begin{bmatrix}0\\1\\2\\3\\4\end{bmatrix} + 1
= \begin{bmatrix}0\\1\\2\\3\\4\end{bmatrix}
+ \begin{bmatrix}1\\1\\1\\1\\1\end{bmatrix}
= \begin{bmatrix}1\\2\\3\\4\\5\end{bmatrix}
$$

* 원래 안되는 x + 1 => 1을 늘려서 넣는다고 이해하기

In [None]:
x = np.arange(5) # [0...4] (5,)
y = np.ones_like(x) # [1...1] (5,)
x + y # [1...6] (5,)

array([1, 2, 3, 4, 5])

In [None]:
x + 1

array([1, 2, 3, 4, 5])

In [None]:
# 2차원 이상 -> 브로드캐스팅 된다
# 2차원 이상 -> 브로드캐스팅 된다
x = np.vstack([range(7)[i:i+3] for i in range(5)]) # 0~6사이를 슬라이싱 #5줄로 나눔
x

array([[0, 1, 2],
       [1, 2, 3],
       [2, 3, 4],
       [3, 4, 5],
       [4, 5, 6]])

In [None]:
y = np.arange(5)[:, np.newaxis]
y



array([[0],
       [1],
       [2],
       [3],
       [4]])

In [None]:
x+y

array([[ 0,  1,  2],
       [ 2,  3,  4],
       [ 4,  5,  6],
       [ 6,  7,  8],
       [ 8,  9, 10]])

In [None]:
# array([[0, 0, 0],
#        [1, 1, 1],
#        [2, 2, 2],
#        [3, 3, 3],
#        [4, 4, 4]]) 로 늘어나서 더하기 연산

In [None]:
y = np.arange(3)
y, y.shape

(array([0, 1, 2]), (3,))

In [None]:
x + y

array([[0, 2, 4],
       [1, 3, 5],
       [2, 4, 6],
       [3, 5, 7],
       [4, 6, 8]])

## 차원 축소 연산
* 행렬의 **하나의 행에 있는 원소들**을 하나의 데이터 집합으로 보고, 각 행에 처리된 연산으로 한 차원 낮은 벡터를 구성하게 하는 연산


### sum: 합계

In [None]:
x = np.arange(1,5)
x

array([1, 2, 3, 4])

In [None]:
np.sum(x), x.sum() # arr.sum: 합계를 구함

(10, 10)

### min, max: 최소, 최대

In [None]:
x = np.array([1,2,3])
x

array([1, 2, 3])

In [None]:
x.min(), x.max()

(1, 3)

In [None]:
np.min(x), np.max(x)

(1, 3)

In [None]:
x.argmin() # 최솟값의 위치 - 인덱스 번호

0

In [None]:
x.argmax() # 최댓값의 위치 - 인덱스 번호

2

### 평균값(mean, mediam,...)

In [None]:
x = np.array([1,2,3,1])

In [None]:
x.mean()

1.75

In [None]:
np.mean(x)

1.75

In [None]:
np.median(x) # 중간값

1.5

In [None]:
x.median() # 없음

AttributeError: ignored

### 불리언 (any, all)

In [None]:
np.all([True, True, False]) # 모두가 True인지

False

In [None]:
np.any([True, False, False]) # 뭐라도 하나가 True인지

True

* 2차원 이상에서의 차원 축소 연산은?
* 어느 차원으로 계산을 할지 axis인수를 사용해서 지시
* axis=0인 경우에는 열 연산, axis=1인 경우는 행연산, 디폴트는 axis=0
* axis인수는 대부분의 차원축소 명령어에 적용할 수 있음


In [None]:
x = np.array([[1,1],[2,2]])
x

array([[1, 1],
       [2, 2]])

In [None]:
x.sum()

6

In [None]:
x.sum(axis=0) # 같은 열끼리 연산 1+2, 1+2

array([3, 3])

In [None]:
x.sum(axis=1) # 같은 행끼리 연산 1+1 2+2

array([2, 4])

## ⚓ 연습문제 1
실수로 이루어진 5 x 6 형태의 데이터 행렬을 만들고 이 데이터에 대해 다음과 같은 값 도출
1. 전체의 최댓값
2. 각 행의 합
3. 각 행의 최댓값
4. 각 열의 평균
5. 각 열의 최솟값

In [None]:
#0. 배열 선언하기
array3 = np.arange(1,31).reshape(5,6)
array3

array([[ 1,  2,  3,  4,  5,  6],
       [ 7,  8,  9, 10, 11, 12],
       [13, 14, 15, 16, 17, 18],
       [19, 20, 21, 22, 23, 24],
       [25, 26, 27, 28, 29, 30]])

In [None]:
#1. 전체의 최댓값
np.max(array3)
# array3.max()

30

In [None]:
#2. 각 행의 합
np.sum(array3, axis=1)
# array3.sum(axis=1)

array([ 21,  57,  93, 129, 165])

In [None]:
#3, 각 행의 최댓값
np.max(array3, axis=1)
# array3.max(axis = 1)

In [None]:
#4. 각 열의 평균 
np.mean(array3, axis=0)
# array3.mean(axis=0)

array([13., 14., 15., 16., 17., 18.])

In [None]:
#5. 각 열의 최솟값
np.min(array3, axis=0)
# array3.min(axis=0)

1

## 정렬
* `np.sort` : 배열 안의 원소를 크기에 따라 정렬하여 새로운 배열 생성
* 2차원 이상인 경우 -> 행이나 열을 따로따로 정렬
  * axis = 0 : 각각의 행을 따로따로 정렬
  * axis = 1 : 각각의 열을 따로따로 정렬
  * axis = -1 : 가장 안쪽(나중)의 차원

In [None]:
a = np.array([[4,3,5,7],[1,12,11,9],[2,15,1,14]])
a

array([[ 4,  3,  5,  7],
       [ 1, 12, 11,  9],
       [ 2, 15,  1, 14]])

In [None]:
np.sort(a, axis=0) # 열을 기준으로 정리

array([[ 1,  3,  1,  7],
       [ 2, 12,  5,  9],
       [ 4, 15, 11, 14]])

In [None]:
np.sort(a) # axis = -1, axis=1 => 행내부 데이터를 정렬(행을 기준으로 정렬)

array([[ 3,  4,  5,  7],
       [ 1,  9, 11, 12],
       [ 1,  2, 14, 15]])

In [None]:
np.sort(a, axis=1)

array([[ 3,  4,  5,  7],
       [ 1,  9, 11, 12],
       [ 1,  2, 14, 15]])

In [None]:
np.sort(a, axis=-1)

array([[ 3,  4,  5,  7],
       [ 1,  9, 11, 12],
       [ 1,  2, 14, 15]])

In [None]:
np.sort(a) # axis-=-1, axis=1 -> 2차원 배열 행렬, 깊은 복사 = 원본이 수정되지 않음

array([[ 3,  4,  5,  7],
       [ 1,  9, 11, 12],
       [ 1,  2, 14, 15]])

In [None]:
a # np.sort는 원본에 영향x

array([[ 4,  3,  5,  7],
       [ 1, 12, 11,  9],
       [ 2, 15,  1, 14]])

In [None]:
b = a.copy() # b에 a의 내용을 복
b

array([[ 4,  3,  5,  7],
       [ 1, 12, 11,  9],
       [ 2, 15,  1, 14]])

In [None]:
b.sort() # arr.sort()를 사용할 경우, 해당 arr의 상태가 변화
# -> 자체변화 메소드(in-place) = 원본이 수정
b

array([[ 3,  4,  5,  7],
       [ 1,  9, 11, 12],
       [ 1,  2, 14, 15]])

In [None]:
b.sort(axis=1)
b

array([[ 3,  4,  5,  7],
       [ 1,  9, 11, 12],
       [ 1,  2, 14, 15]])

### `argsort` : 자료 정렬이 아니라 순서만 알고 싶다
* 오름차순: 작은 값에서 큰 값으로 값이 커진다. (데이터가 전개된 방향으로 일치하게 커진다. asc)
* 내림차순: 큰 값에서 작은 값으로 값이 작아진다.(데이터가 전개되는 방향으로 작아진다. = 가장큰 값이 맨 앞에 있다.desc)

In [None]:
a = np.array([42, 38, 12, 25])
j = np.argsort(a) # 오름차순
j # 결과는 인덱스로 보임

array([2, 3, 1, 0])

In [None]:
a[j] # 정수 배열 인덱싱

array([12, 25, 38, 42])

## ⚓ 연습문제 2
> 두 번째 행을 기준으로 각 열(column)을 재정렬
```
array([[  1,    2,    3,    4],
       [ 46,   99,  100,   71],
       [ 81,   59,   90,  100]])
```

In [None]:
x = np.array([[  1,    2,    3,    4],
       [ 46,   99,  100,   71],
       [ 81,   59,   90,  100]])

In [None]:
#1. 1행을 정렬
x[1]

array([ 46,  99, 100,  71])

In [None]:
# 2. x[1,:]를 오름차순으로 정렬할 경우의 인덱스가 보임
np.argsort(x[1]) # 위치 인덱스가 보임

array([0, 3, 1, 2])

In [None]:
# 3. 정렬된 1행을 기준으로 각 열을 정렬
x[:,np.argsort(x[1])]

array([[  1,   4,   2,   3],
       [ 46,  71,  99, 100],
       [ 81, 100,  59,  90]])

# 기술 통계 (descriptive statistics)

* 데이터 집합에 대해 통계를 계산 (차원 축소)

In [None]:
x = np.array([18,   5,  10,  23,  19,  -8,  10,   0,   0,   5,   2,  15,   8,
              2,   5,   4,  15,  -1,   4,  -7, -24,   7,   9,  -6,  23, -13])
x

array([ 18,   5,  10,  23,  19,  -8,  10,   0,   0,   5,   2,  15,   8,
         2,   5,   4,  15,  -1,   4,  -7, -24,   7,   9,  -6,  23, -13])

## 데이터의 개수

In [None]:
len(x)

26

## 표본 평균
* 우리가 일반적으로 아는 평균
* 통계용어로는 표본 평균(sample average, sample mean)
<br>
$
\bar{x} = \frac{1}{N}\displaystyle\sum_{i=1}^{N}{x_i}
$
(𝑁은 데이터의 개수)

In [None]:
# sum(data)/len(data)
np.mean(x)

4.8076923076923075

## 표본 분산
* 표본 분산(sample variance) : 데이터와 표본 평균간의 거리의 제곱의 평균
* 표본 분산이 작으면 데이터가 모여있는 것이고 크면 흩어져 있는 것
<br>
$
s^2 = \frac{1}{N}\displaystyle\sum_{i=1}^{N}{(x_i-\bar{x})^2}
$

In [None]:
np.var(x)

115.23224852071006

## 표본 표준편차
* 표본 표준편차(sample standard variance) : 표본 분산의 양의 제곱근 값 
<br>
$
s = \sqrt{s^2}
$

In [None]:
np.std(x)

10.734628476137871

## 최댓값과 최솟값

In [None]:
# 최댓값 (maximum) / 최솟값 (minimum)
np.max(x), np.min(x)

(23, -24)

## 중앙값
* 중앙값(median) : 데이터를 크기대로 정렬하였을 때 가장 가운데에 있는 수
* 만약 데이터의 수가 짝수이면 가장 가운데에 있는 두 수의 평균을 사용

In [None]:
np.median(x)

5.0

## 사분위수
* 사분위수(quartile) : 데이터를 가장 작은 수부터 가장 큰 수까지 크기가 커지는 순서대로 정렬하였을 때 1/4, 2/4, 3/4 위치에 있는 수
* 각각 1사분위수, 2사분위수, 3사분위수라고 함
* 1/4의 위치란 전체 데이터의 수가 만약 100개이면 25번째 순서, 즉 하위 25%
* 따라서 2사분위수는 중앙값과 같음
* 때로는 위치를 1/100 단위로 나눈 백분위수(percentile)을 사용하기도 함
* 1사분위수는 25% 백분위수와 같음

* 주로 1사분위수와 3사분위수 사용, 2사분위수는 평균이다

In [None]:
np.percentile(x, 0)  # 최솟값 

-24.0

In [None]:
np.percentile(x, 25)  # 1사분위 수 100 중 25 => 25/100 => 1/4

0.0

In [None]:
np.percentile(x, 50)  # 2사분위 수 2/4

5.0

In [None]:
np.percentile(x, 75)  # 3사분위 수 

10.0

In [None]:
np.percentile(x, 100)  # 최댓값 

23.0