In [None]:
import numpy as np

# 배열의 연산

### 벡터화 연산 (vectorized operation)
* 명시적으로 반복문을 사용하지 않고도 배열의 모든 원소에 대해 반복 연산을 할 수 있음
* 선형 대수 공식과 동일한 아주 간단한 파이썬 코드를 작성할 수 있음

<br>
$$
x = \begin{bmatrix}1\\2\\3\\⋯\\10000\end{bmatrix},\quad
y = \begin{bmatrix}10001\\10002\\10003\\⋯\\20000\end{bmatrix}
$$

<br>
$$
z = x + y
$$

<br>
$$
\begin{bmatrix}1\\2\\3\\⋯\\10000\end{bmatrix}
+ \begin{bmatrix}10001\\10002\\10003\\⋯\\20000\end{bmatrix}
= \begin{bmatrix}1+10001\\2+10002\\3+10003\\⋯\\10000+20000\end{bmatrix}
= \begin{bmatrix}10002\\10004\\10006\\⋯\\30000\end{bmatrix}
$$

In [None]:
x = np.arange(1, 10001)
y = np.arange(10001, 20001)

In [None]:
z = np.zeros_like(x)

In [None]:
%%time
# %time %% -> 여러줄 -> 걸리는 시간을 측정
for i in range(len(z)):
    z[i] = x[i] + y[i]
z

CPU times: user 8.78 ms, sys: 0 ns, total: 8.78 ms
Wall time: 18.3 ms


array([10002, 10004, 10006, ..., 29996, 29998, 30000])

In [None]:
%%time
z = x + y
z

CPU times: user 222 µs, sys: 34 µs, total: 256 µs
Wall time: 185 µs


array([10002, 10004, 10006, ..., 29996, 29998, 30000])

In [None]:
# 사칙 연산 뿐만 아니라, 비교/논리 연산 (벡터화 연산)
a = np.array([1, 2, 3, 4])
b = np.array([4, 2, 2, 4])

In [None]:
a == b

array([False,  True, False,  True])

In [None]:
a != b

array([ True, False,  True, False])

In [None]:
a >= b

array([False,  True,  True,  True])

In [None]:
# 배열의 각 원소를 하나씩 비교하는 게 아니라,
# 배열의 모든 원소가 같은지 알고 싶다 np.all(조건식)
c = np.array([1, 2, 3, 4])
a, b, c

(array([1, 2, 3, 4]), array([4, 2, 2, 4]), array([1, 2, 3, 4]))

In [None]:
np.all(a == b)

False

In [None]:
np.all(a == c)

True

In [None]:
# 배열의 원소 중 하나라도 이 조건을 만족시키는가? np.any(조건식)
np.any(a == b)

True

In [None]:
# 지수함수, 로그함수 (수학함수) -> 벡터화 연산
a = np.arange(5)
a

array([0, 1, 2, 3, 4])

In [None]:
np.exp(a)

array([ 1.        ,  2.71828183,  7.3890561 , 20.08553692, 54.59815003])

In [None]:
np.log(a + 1)

array([0.        , 0.69314718, 1.09861229, 1.38629436, 1.60943791])

In [None]:
10 ** a

array([    1,    10,   100,  1000, 10000])

## 스칼라와 벡터/행렬의 곱셉

In [None]:
x = np.arange(10)
x # 1차원 배열

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [None]:
100 * x

array([  0, 100, 200, 300, 400, 500, 600, 700, 800, 900])

In [None]:
x = np.arange(12).reshape(3, -1)
x # 2차원 행렬

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [None]:
100 * x

array([[   0,  100,  200,  300],
       [ 400,  500,  600,  700],
       [ 800,  900, 1000, 1100]])

## 브로드캐스팅
* 벡터(또는 행렬)끼리 덧셈과 뺄셈... -> 두 벡터(또는 행령) 간의 크기가 일치
* Numpy에선 서로 다른 크기를 가진 두 배열의 사칙 연산을 지원 = 브로드캐스팅(broadcasting)
> 크기가 작은 배열을 자동으로 반복 확장하여 크기가 큰 배열에 맞춤

<br>
$$
x = \begin{bmatrix}0\\1\\2\\3\\4\end{bmatrix},\quad 
x + 1 = \begin{bmatrix}0\\1\\2\\3\\4\end{bmatrix} + 1 = ?
$$
<br>
$$
\begin{bmatrix}0\\1\\2\\3\\4\end{bmatrix} + 1
= \begin{bmatrix}0\\1\\2\\3\\4\end{bmatrix}
+ \begin{bmatrix}1\\1\\1\\1\\1\end{bmatrix}
= \begin{bmatrix}1\\2\\3\\4\\5\end{bmatrix}
$$

In [None]:
x = np.arange(5) # [0...4] (5,)
y = np.ones_like(x) # [1...1] (5,)
x + y # [1...6] (5,)
x + 1

array([1, 2, 3, 4, 5])

In [None]:
# 2차원 이상 -> 브로드캐스팅 된다
x = np.vstack([range(7)[i:i+3] for i in range(5)])
# 0-6 (0:3, 1:4...)
x, x.shape

(array([[0, 1, 2],
        [1, 2, 3],
        [2, 3, 4],
        [3, 4, 5],
        [4, 5, 6]]), (5, 3))

In [None]:
y = np.arange(5)[:, np.newaxis]
y, y.shape

(array([[0],
        [1],
        [2],
        [3],
        [4]]), (5, 1))

In [None]:
x + y

array([[ 0,  1,  2],
       [ 2,  3,  4],
       [ 4,  5,  6],
       [ 6,  7,  8],
       [ 8,  9, 10]])

In [None]:
y = np.arange(3)
y, y.shape

(array([0, 1, 2]), (3,))

In [None]:
x + y

array([[0, 2, 4],
       [1, 3, 5],
       [2, 4, 6],
       [3, 5, 7],
       [4, 6, 8]])

## 차원 축소 연산
* 행렬의 **하나의 행에 있는 원소들**을 하나의 데이터 집합으로 보고, 각 행에 처리된 연산으로 한 차원 낮은 벡터를 구성하게 하는 연산

### sum : 합계

In [None]:
x = np.arange(1, 5)
x

array([1, 2, 3, 4])

In [None]:
np.sum(x), x.sum() # arr.sum()

(10, 10)

### min, max : 최소, 최대

In [None]:
x = np.array([1, 3, 2])
x

array([1, 3, 2])

In [None]:
x.min(), x.max()

(1, 3)

In [None]:
np.min(x), np.max(x)

(1, 3)

In [None]:
x.argmin() # 최솟값의 위치

0

In [None]:
x.argmax() # 최댓값의 위치

1

### 통계 (mean, median...)

In [None]:
x = np.array([1, 2, 3, 1])

In [None]:
# x.mean()
np.mean(x) # 평균

1.75

In [None]:
np.median(x) # 중간값

1.5

### 불리언 (any, all)

In [None]:
np.all([True, True, False]) # 모두가 True인지

False

In [None]:
np.any([True, False, False]) # 뭐라도 하나가 True인지

True

* 2차원 이상에서의 차원축소연산은?
* 어느 차원으로 계산을 할지 axis 인수를 사용해서 지시
* axis=0인 경우에는 열 연산, axis=1인 경우는 행 연산
* axis 인수는 대부분의 차원 축소 명령에 적용할 수 있음

In [None]:
x = np.array([[1, 1], [2, 2]])
x

array([[1, 1],
       [2, 2]])

In [None]:
x.sum()

6

In [None]:
x.sum(axis=0)

array([3, 3])

In [None]:
x.sum(axis=1)

array([2, 4])

## ⚓ 연습문제 1
실수로 이루어진 5 x 6 형태의 데이터 행렬을 만들고 이 데이터에 대해 다음과 같은 값 도출
1. 전체의 최댓값
2. 각 행의 합
3. 각 행의 최댓값
4. 각 열의 평균
5. 각 열의 최솟값

In [None]:
a = np.linspace(10, 100, 30).reshape((5, 6))
a

array([[ 10.        ,  13.10344828,  16.20689655,  19.31034483,
         22.4137931 ,  25.51724138],
       [ 28.62068966,  31.72413793,  34.82758621,  37.93103448,
         41.03448276,  44.13793103],
       [ 47.24137931,  50.34482759,  53.44827586,  56.55172414,
         59.65517241,  62.75862069],
       [ 65.86206897,  68.96551724,  72.06896552,  75.17241379,
         78.27586207,  81.37931034],
       [ 84.48275862,  87.5862069 ,  90.68965517,  93.79310345,
         96.89655172, 100.        ]])

In [None]:
# 전체의 최댓값
a.max()

100.0

In [None]:
# 각 행의 합계 => axis=1
a.sum(axis=1)

array([106.55172414, 218.27586207, 330.        , 441.72413793,
       553.44827586])

In [None]:
# 각 행의 최댓값 => axis=1
a.max(axis=1)

array([ 25.51724138,  44.13793103,  62.75862069,  81.37931034,
       100.        ])

In [None]:
# 각 열의 평균 => axis=0
a.mean(axis=0)

array([47.24137931, 50.34482759, 53.44827586, 56.55172414, 59.65517241,
       62.75862069])

In [None]:
# 각 열의 최솟값
a.min(axis=0)

array([10.        , 13.10344828, 16.20689655, 19.31034483, 22.4137931 ,
       25.51724138])

## 정렬
* `np.sort` : 배열 안의 원소를 크기에 따라 정렬하여 새로운 배열 생성
* 2차원 이상인 경우 -> 행이나 열을 따로따로 정렬
    * axis=0 : 각각의 행을 따로따로 정렬
    * axis=1 : 각각의 열을 따로따로 정렬
    * axis=-1 : 가장 안쪽(나중)의 차원

In [None]:
a = np.array([
    [4, 3, 5, 7],
    [1, 12, 11, 9],
    [2, 15, 1, 14]
])
a

array([[ 4,  3,  5,  7],
       [ 1, 12, 11,  9],
       [ 2, 15,  1, 14]])

In [None]:
np.sort(a, axis=0)

array([[ 1,  3,  1,  7],
       [ 2, 12,  5,  9],
       [ 4, 15, 11, 14]])

In [None]:
np.sort(a, axis=1)

array([[ 3,  4,  5,  7],
       [ 1,  9, 11, 12],
       [ 1,  2, 14, 15]])

In [None]:
np.sort(a, axis=-1)

array([[ 3,  4,  5,  7],
       [ 1,  9, 11, 12],
       [ 1,  2, 14, 15]])

In [None]:
np.sort(a) # axis=-1, axis=1 -> 2차원 배열, 행렬

array([[ 3,  4,  5,  7],
       [ 1,  9, 11, 12],
       [ 1,  2, 14, 15]])

In [None]:
a # np.sort 는 원본에 영향 X, 깊은 복사

array([[ 4,  3,  5,  7],
       [ 1, 12, 11,  9],
       [ 2, 15,  1, 14]])

In [None]:
b = a.copy()
b

array([[ 4,  3,  5,  7],
       [ 1, 12, 11,  9],
       [ 2, 15,  1, 14]])

In [None]:
b.sort() # arr.sort()를 사용할 경우, 해당 arr의 상태가 변화
# -> 자체변화 메소드(in-place) = 원본이 수정
b

array([[ 3,  4,  5,  7],
       [ 1,  9, 11, 12],
       [ 1,  2, 14, 15]])

In [None]:
b.sort(axis=1)
b

array([[ 3,  4,  5,  7],
       [ 1,  9, 11, 12],
       [ 1,  2, 14, 15]])

* `argsort` : 자료 정렬이 아니라 순서만 알고 싶다

In [None]:
#              0, 1,  2,  3
a = np.array([42, 38, 12, 25])
j = np.argsort(a) # 오름차순
j
# 오름차순 : 작은 -> 큰 값으로 (데이터가 전개된 방향 일치하게 커진다, asc)
# 내림차순 : 큰 -> 작은 (데이터가 전개되는 방향으로 작아진다 = 가장 큰 값이 맨 앞에 있다, desc)

array([2, 3, 1, 0])

In [None]:
a[j] # 정수 배열 인덱싱

array([12, 25, 38, 42])

## ⚓ 연습문제 2
> 두 번째 행을 기준으로 각 열(column)을 재정렬
```
array([[  1,    2,    3,    4],
       [ 46,   99,  100,   71],
       [ 81,   59,   90,  100]])
```

In [None]:
x = np.array([
    [1, 2, 3, 4],
    [46, 99, 100, 71],
    [81, 59, 90, 100]
])
x

array([[  1,   2,   3,   4],
       [ 46,  99, 100,  71],
       [ 81,  59,  90, 100]])

In [None]:
x[1]

array([ 46,  99, 100,  71])

In [None]:
np.argsort(x[1]) # = 열들의 인덱스

array([0, 3, 1, 2])

In [None]:
x[:, np.argsort(x[1])]

array([[  1,   4,   2,   3],
       [ 46,  71,  99, 100],
       [ 81, 100,  59,  90]])

# 기술 통계 (descriptive statistics)

* 데이터 집합에 대해 통계를 계산 (차원 축소)

In [None]:
x = np.array([18,   5,  10,  23,  19,  -8,  10,   0,   0,   5,   2,  15,   8,
              2,   5,   4,  15,  -1,   4,  -7, -24,   7,   9,  -6,  23, -13])
x

array([ 18,   5,  10,  23,  19,  -8,  10,   0,   0,   5,   2,  15,   8,
         2,   5,   4,  15,  -1,   4,  -7, -24,   7,   9,  -6,  23, -13])

## 데이터의 개수

In [None]:
len(x)

26

## 표본 평균
* 우리가 일반적으로 아는 평균
* 통계용어로는 표본 평균(sample average, sample mean)
<br>
$
\bar{x} = \frac{1}{N}\displaystyle\sum_{i=1}^{N}{x_i}
$
(𝑁은 데이터의 개수)

In [None]:
# sum(data) / len(data)
np.mean(x)

4.8076923076923075

## 표본 분산
* 표본 분산(sample variance) : 데이터와 표본 평균간의 거리의 제곱의 평균
* 표본 분산이 작으면 데이터가 모여있는 것이고 크면 흩어져 있는 것
<br>
$
s^2 = \frac{1}{N}\displaystyle\sum_{i=1}^{N}{(x_i-\bar{x})^2}
$

In [None]:
np.var(x)

115.23224852071006

## 표본 표준편차
* 표본 표준편차(sample standard variance) : 표본 분산의 양의 제곱근 값 
<br>
$
s = \sqrt{s^2}
$

In [None]:
np.std(x)

10.734628476137871

## 최댓값과 최솟값

In [None]:
# 최댓값 (maximum) / 최솟값 (minimum)
np.max(x), np.min(x)

(23, -24)

## 중앙값
* 중앙값(median) : 데이터를 크기대로 정렬하였을 때 가장 가운데에 있는 수
* 만약 데이터의 수가 짝수이면 가장 가운데에 있는 두 수의 평균을 사용

In [None]:
np.median(x)

5.0

## 사분위수
* 사분위수(quartile) : 데이터를 가장 작은 수부터 가장 큰 수까지 크기가 커지는 순서대로 정렬하였을 때 1/4, 2/4, 3/4 위치에 있는 수
* 각각 1사분위수, 2사분위수, 3사분위수라고 함
* 1/4의 위치란 전체 데이터의 수가 만약 100개이면 25번째 순서, 즉 하위 25%
* 따라서 2사분위수는 중앙값과 같음
* 때로는 위치를 1/100 단위로 나눈 백분위수(percentile)을 사용하기도 함
* 1사분위수는 25% 백분위수와 같음

In [None]:
np.percentile(x, 0)  # 최솟값 

-24.0

In [None]:
np.percentile(x, 25)  # 1사분위 수 100 중 25 => 25/100 => 1/4

0.0

In [None]:
np.percentile(x, 50)  # 2사분위 수 2/4

5.0

In [None]:
np.percentile(x, 75)  # 3사분위 수 

10.0

In [None]:
np.percentile(x, 100)  # 최댓값 

23.0

# 난수 발생과 카운트

* 난수? 임의의 수? 무작위 수?
* 컴퓨터 프로그램에서 발생하는 무작위의 수는 실은 엄격한 의미의 무작위 수가 아님
* 어떠한 특정한 시작 숫자를 정해주면 컴퓨터가 정해진 알고리즘에 이해 마치 난수처럼 보이는 수열을 생성 -> 이런 시작 숫자를 시드(seed)라고 함

## 시드 설정

* 일단 생성된 나수는 다음번 난수 생성을 위한 시드값이 됨.
* 시드값은 한 번만 정해주면 됨.
* 시드 -> 현재 시각 등 -> 자동으로 정해짐. 사람이 수동으로 설정.
* 수동으로 설정 -> 그 다음에 만들어진 난수는 모두 예측가능한 값.
* 고정된 결과를 얻기 위해서는 실습 때 **시드**를 설정

In [None]:
np.random.seed(0) # 시드값이 고정

## `rand` : 0과 1 사이의 난수를 발생

In [None]:
np.random.rand(5) # (갯수)

array([0.5488135 , 0.71518937, 0.60276338, 0.54488318, 0.4236548 ])

In [None]:
np.random.rand(10)

array([0.64589411, 0.43758721, 0.891773  , 0.96366276, 0.38344152,
       0.79172504, 0.52889492, 0.56804456, 0.92559664, 0.07103606])

## 데이터의 순서 변경

### `shuffle`
* 데이터의 순서를 변경
* 자체 변환 함수(in-place) 함수 -> 원본에 영향

In [None]:
x = np.arange(10)
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [None]:
np.random.shuffle(x)
x

array([5, 1, 8, 2, 6, 7, 0, 3, 4, 9])

## 데이터 샘플링
* 표본 선택 혹은 샘플링(sampling) : 이미 있는 데이터 집합에서 일부를 무작위로 선택하는 것

### `choice` : 샘플링에 사용
* a : 배열이면 원래의 데이터, 정수이면 arange(a) 명령으로 데이터 생성
* size : 정수. 샘플 숫자
* replace : 불리언. True이면 한번 선택한 데이터를 다시 선택 가능 (복원/비복원 추출)
* p : 배열. 각 데이터가 선택될 수 있는 확률
```
np.random.choice(a, size=None, replace=True, p=None)
```

In [None]:
# np.random.choice(추출 대상이 될 배열, 추출할 사이즈, 복원 여부, 개별 확률)
np.random.choice(5, 5, replace=False)
np.random.choice(5, 3, replace=False) # 비복원추출 : 자리뽑기, 경품뽑기

array([1, 4, 2])

In [None]:
np.random.choice(5, 5, replace=True) # 복원추출 : 동전던지기, 주사위던지기

array([3, 3, 2, 4, 2])

In [None]:
# arange(5) = [0, 1, 2, 3, 4] => 10.
np.random.choice(5, 10, p=[0.1, 0, 0.3, 0.6, 0])

array([3, 3, 3, 3, 3, 3, 3, 2, 3, 2])

## 난수 생성

## `rand` : 0~1 사이에서 균일한 확률 분포로 실수인 난수를 생성
=> 0~1 사이의 임의의 수 <br>
`np.random.rand(n)` : 생성할 난수의 개수 <br>
`np.random.rand(m, n)` : 배열 모양으로 생성

In [None]:
np.random.rand(10) # 0~1 10개 임의의 수

array([0.77834548, 0.94957105, 0.66252687, 0.01357164, 0.6228461 ,
       0.67365963, 0.971945  , 0.87819347, 0.50962438, 0.05571469])

In [None]:
np.random.rand(3, 5) # 0~1 15개 -> (3, 5)

array([[0.45115921, 0.01998767, 0.44171092, 0.97958673, 0.35944446],
       [0.48089353, 0.68866118, 0.88047589, 0.91823547, 0.21682214],
       [0.56518887, 0.86510256, 0.50896896, 0.91672295, 0.92115761]])

In [None]:
np.random.rand(3, 5, 2)

array([[[0.08311249, 0.27771856],
        [0.0093567 , 0.84234208],
        [0.64717414, 0.84138612],
        [0.26473016, 0.39782075],
        [0.55282148, 0.16494046]],

       [[0.36980809, 0.14644176],
        [0.56961841, 0.70373728],
        [0.28847644, 0.43328806],
        [0.75610669, 0.39609828],
        [0.89603839, 0.63892108]],

       [[0.89155444, 0.68005557],
        [0.44919774, 0.97857093],
        [0.11620191, 0.7670237 ],
        [0.41182014, 0.67543908],
        [0.24979628, 0.31321833]]])

### `randn` : 기댓값(평균)이 0이고 표준편차가 1인 표준 정규 분포 (standard normal distribution)를 따르는 난수를 생성

In [None]:
np.random.randn(10)

array([ 0.08672983,  0.45628701,  0.4310333 ,  2.07257353, -0.53778512,
       -1.3784301 , -0.49240425,  2.32773811,  1.80440397, -0.24942133])

In [None]:
np.random.randn(5, 2)

array([[-0.82086383, -1.49333996],
       [ 0.52417595,  0.34511317],
       [ 0.72437468, -2.04038084],
       [-1.0797781 , -0.69342441],
       [-2.33804615,  1.66226234]])

### `randint` : 임의의 범위의 숫자들을 리턴
```
np.random.randint(low, high=None, size=None)
```
low~high값까지의 범위에 임의 정수를 반환
* high를 입력하지 않으면 0~low
* size를 입력하지 않으면 1만. size 입력하면 그만큼


In [None]:
np.random.randint(10)

8

In [None]:
np.random.randint(10, size=10)

array([4, 6, 5, 8, 2, 3, 9, 7, 5, 3])

In [None]:
np.random.randint(10, 20, size=10) # size는 배열의 사이즈

array([14, 15, 13, 13, 17, 19, 19, 19, 17, 13])

In [None]:
np.random.randint(10, 20, size=(2, 2, 5))

array([[[12, 13, 19, 17, 17],
        [15, 11, 12, 12, 18]],

       [[11, 15, 18, 14, 10],
        [12, 15, 15, 10, 18]]])

## ⚓ 연습문제 3
1. 동전을 10번 던져 앞면(숫자 1)과 뒷면(숫자 0)이 나오는 가상 실험을 작성하라
2. 주사위를 100번 던져서 나오는 숫자의 평균
3. 가격이 10,000원인 주식이 있다. 이 주식의 일간 수익률(%)은 기댓값이 0%이고 표준편차가 1%인 표준 정규 분포를 따른다고 하자. 250일 동안의 주가를 무작위로 생성하라

In [None]:
#1
np.random.randint(2, size=10)

array([0, 1, 1, 0, 1, 1, 1, 0, 0, 1])

In [None]:
# HEAD, TAIL
coin = np.array(['HEAD', 'TAIL']) # 앞, 뒤
coin = np.array([0, 1]) # 앞, 뒤
np.random.choice(coin, size=10, replace=True)

array([1, 1, 1, 0, 1, 0, 1, 0, 0, 0])

In [None]:
#2
dice = np.arange(1, 7) # 1~6
np.random.choice(dice, 100, replace=True).mean()

3.35

In [None]:
(np.random.randint(6, size=100) + 1).mean()

3.32

In [None]:
#3
earn1 = np.random.randn(250)
earn1 # 평균 0, 표준편차가 1인 분포

In [None]:
earn2 = earn1 / 100 # 1% 표준편차 (1% = 0.01)
earn2

In [None]:
stock = np.empty(250)
price = 10000
for i, v in enumerate(earn2): # index, value
    price *= (1 + v) # 수익률 변화를 거친 금액
    stock[i] = price
stock

In [None]:
er = np.random.randn(250) / 100
stock = np.empty(250)
price = 10000
for i, v in enumerate(er): # index, value
    price *= (1 + v) # 수익률 변화를 거친 금액
    stock[i] = price
stock

array([ 9915.33920277,  9906.61664811,  9892.47966865,  9883.48186686,
        9981.13316387,  9823.47246252,  9959.74880032,  9878.90231531,
        9794.26448262,  9836.31647364,  9755.31759714,  9630.47463652,
        9649.28594113,  9573.37104518,  9498.54464587,  9544.97583949,
        9665.57372232,  9580.7401576 ,  9667.36406262,  9707.63700437,
        9666.13347365,  9670.89167129,  9828.93474864,  9839.72511606,
        9835.19028267,  9786.24160184,  9836.619825  ,  9934.16664557,
       10158.0821667 , 10276.46082024, 10294.16572236, 10387.82499678,
       10564.70977489, 10495.41018117, 10517.49080992, 10510.80968349,
       10396.77055322, 10399.83910593, 10259.62596952, 10324.08653579,
       10473.26362679, 10575.48555678, 10569.46451745, 10466.68869652,
       10307.16940214, 10361.74369524, 10417.83169899, 10295.52624083,
       10224.73750177, 10354.84527448, 10425.97051433, 10597.18529915,
       10539.5591887 , 10599.51854001, 10529.91676115, 10617.65207853,
      

## 정수 데이터 카운팅
  * 만약 난수가 정수값이면 unique 명령이나 bincount 명령으로 데이터의 빈도가 값을 분석

### `unique`
* unique 함수는 데이터에서 중복된 값을 제거하고 중복되지 않은 값의 리스트 출력 (set?)
* return_counts 인수를 True로 설정하면 각 값을 가진 데이터 갯수도 출력

In [None]:
set([11, 11, 2, 2, 34, 34])

{2, 11, 34}

In [None]:
np.unique([11, 11, 2, 2, 34, 34])

array([ 2, 11, 34])

In [None]:
a = np.array(['a', 'b', 'b', 'c', 'a'])
# np.unique(a, return_counts=True)
index, count = np.unique(a, return_counts=True) # 중복제거된 값들, 각 값의 빈도수

In [None]:
index

array(['a', 'b', 'c'], dtype='<U1')

In [None]:
count

array([2, 2, 1])

In [None]:
list(zip(index, count))

[('a', 2), ('b', 2), ('c', 1)]

### `bincount`
* `unique` 함수는 데이터에 존재하는 값에 대해서만 갯수를 세므로 데이터 값이 나올 수 있음에도 불구하고 데이터가 하나도 없는 경우에는 정보를 주지 않음
* 따라서 데이터가 주사위를 던졌을 때 나오는 수처럼 특정 범위안의 수인 경우에는 `bincount` 함수에 `minlength` 인수를 설정하여 쓰는 것이 더 편리
* `bincount` 함수는 0 부터 `minlength` - 1 까지의 숫자에 대해 각각 카운트
* 데이터가 없을 경우에는 카운트 값이 0이 됨

In [None]:
np.bincount([1, 1, 2, 2, 2, 3], minlength=6)

array([0, 2, 3, 1, 0, 0])

In [None]:
r = np.random.randint(6, size=10) # 0~5
r

array([4, 4, 2, 5, 0, 5, 1, 1, 1, 1])

In [None]:
np.unique(r, return_counts=True)

(array([0, 1, 2, 4, 5]), array([1, 4, 1, 2, 2]))

In [None]:
np.bincount(r, minlength=6)

array([1, 4, 1, 0, 2, 2])