<a href="https://colab.research.google.com/github/jaiwon880/DataAnalysis_23/blob/main/jaiwon880/ch05_03_%EB%B0%B0%EC%97%B4%EC%9D%98_%EC%97%B0%EC%82%B0.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 배열의 연산

## 벡터화 연산 (vectorized operation)
* 명시적으로 반복문을 사용하지 않고도 배열의 모든 원소에 대해 반복 연산을 할 수 있음
* 선형 대수 공식과 동일한 아주 간단한 파이썬 코드를 작성할 수 있음

<br>
$$
x = \begin{bmatrix}1\\2\\3\\⋯\\10000\end{bmatrix},\quad
y = \begin{bmatrix}10001\\10002\\10003\\⋯\\20000\end{bmatrix}
$$

<br>
$$
z = x + y
$$

<br>
$$
\begin{bmatrix}1\\2\\3\\⋯\\10000\end{bmatrix}
+ \begin{bmatrix}10001\\10002\\10003\\⋯\\20000\end{bmatrix}
= \begin{bmatrix}1+10001\\2+10002\\3+10003\\⋯\\10000+20000\end{bmatrix}
= \begin{bmatrix}10002\\10004\\10006\\⋯\\30000\end{bmatrix}
$$



In [2]:
import numpy as np
# x = np.array(range(1,10001))
x = np.arange(1,10001)
y = np.arange(10001,20001)
x, y

(array([    1,     2,     3, ...,  9998,  9999, 10000]),
 array([10001, 10002, 10003, ..., 19998, 19999, 20000]))

In [4]:
%%time

z = np.zeros_like(x)
for i in range(len(z)):
  z[i] = x[i] +y[i]

CPU times: user 8.73 ms, sys: 0 ns, total: 8.73 ms
Wall time: 11.1 ms


In [5]:
%%timeit

z = np.zeros_like(x)
for i in range(len(z)):
  z[i] = x[i] +y[i]

3.61 ms ± 121 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [7]:
%%time
z = x + y

CPU times: user 57 µs, sys: 0 ns, total: 57 µs
Wall time: 62.7 µs


In [8]:
%%timeit
z = x + y

6.77 µs ± 829 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


In [12]:
# 사칙 연산뿐 아니라 비교 연산과 같은 논리 연산도 벡터화 연산이 가능

In [13]:
x == y

array([False, False, False, ..., False, False, False])

In [14]:
(x == y) | (x > y)

array([False, False, False, ..., False, False, False])

In [None]:
# 배열의 각 원소를 일일히 비교하는 것이 아닌 배열의 모든 원소가 다 같은지 알고 싶다면 all 명령 사용

In [10]:
a == b

array([False,  True, False,  True])

In [9]:
a = np.arange(1, 5)
b = np.array((4,2,2,4))
c = np.arange(1, 5)

In [16]:
print(a)
print(b)
np.all(a == b)

[1 2 3 4]
[4 2 2 4]


False

In [18]:
print(a)
print(c)
np.all(a == c)

[1 2 3 4]
[1 2 3 4]


True

In [20]:
np.any(a == b) # 모든 조건의 or 연산

True

In [22]:
# 지수 함수, 로그 함수 등의 수학 함수도 벡터화 연산을 지원
a = np.arange(5)
a

array([0, 1, 2, 3, 4])

In [23]:
np.exp(a)

array([ 1.        ,  2.71828183,  7.3890561 , 20.08553692, 54.59815003])

In [24]:
10 ** a

array([    1,    10,   100,  1000, 10000])

In [25]:
np.log(a+1)

array([0.        , 0.69314718, 1.09861229, 1.38629436, 1.60943791])

## 스칼라와 벡터/행렬의 곱셈

In [26]:
x= np.arange(10)
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [27]:
100 * x

array([  0, 100, 200, 300, 400, 500, 600, 700, 800, 900])

In [28]:
x = np.arange(12).reshape(3,4)
x

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [29]:
100 * x

array([[   0,  100,  200,  300],
       [ 400,  500,  600,  700],
       [ 800,  900, 1000, 1100]])

## 브로드캐스팅
* 벡터(또는 행렬)끼리 덧셈 혹은 뺄셈을 하려면 두 벡터(또는 행렬)의 크기가 같아야 함
* Numpy에선 서로 다른 크기를 가진 두 배열의 사칙 연산 지원 = 브로드캐스팅(broadcasting)
> 크기가 작은 배열을 자동으로 반복 확장하여 크기가 큰 배열에 맞추는 방법

<br>
$$
x = \begin{bmatrix}0\\1\\2\\3\\4\end{bmatrix},\quad 
x + 1 = \begin{bmatrix}0\\1\\2\\3\\4\end{bmatrix} + 1 = ?
$$
<br>
$$
\begin{bmatrix}0\\1\\2\\3\\4\end{bmatrix} + 1
= \begin{bmatrix}0\\1\\2\\3\\4\end{bmatrix}
+ \begin{bmatrix}1\\1\\1\\1\\1\end{bmatrix}
= \begin{bmatrix}1\\2\\3\\4\\5\end{bmatrix}
$$

In [30]:
x = np.arange(5)
x

array([0, 1, 2, 3, 4])

In [31]:
y = np.ones_like(x)
y

array([1, 1, 1, 1, 1])

In [32]:
x+y

array([1, 2, 3, 4, 5])

In [34]:
x+1

array([1, 2, 3, 4, 5])

In [35]:
# x + 2
y = np.full_like(x,2)
x + y

array([2, 3, 4, 5, 6])

In [40]:
# 2차원 이상에서도 적용됨
x = np.vstack(range(7)[i:i+3] for i in range(5))
# 0~6 0:3 행으로 잘라서 / 0~4 5개 열추가해줌 vstack이니까
x, x.ndim, x.shape

  x = np.vstack(range(7)[i:i+3] for i in range(5))


(array([[0, 1, 2],
        [1, 2, 3],
        [2, 3, 4],
        [3, 4, 5],
        [4, 5, 6]]), 2, (5, 3))

In [39]:
y = np.arange(5)[:, np.newaxis]
y

array([[0],
       [1],
       [2],
       [3],
       [4]])

In [41]:
x + y

array([[ 0,  1,  2],
       [ 2,  3,  4],
       [ 4,  5,  6],
       [ 6,  7,  8],
       [ 8,  9, 10]])

In [42]:
y = np.arange(3)
y, y.ndim, y.shape

(array([0, 1, 2]), 1, (3,))

In [43]:
x+y

array([[0, 2, 4],
       [1, 3, 5],
       [2, 4, 6],
       [3, 5, 7],
       [4, 6, 8]])

## 차원 축소 연산 (dimension reduction)
> 행렬의 하나의 행에 있는 원소들을 하나의 데이터 집합으로 보고 각 행에 처리된 연산으로 한 차원 낮은 벡터를 구성하게 하는 연산
* 최대/최소 : `min`, `max`, `argmin`, `argmax`
* 통계 : `sum`, `mean`, `median`, `std`, `var`
* 불리언 : `all`, `any`

In [44]:
x = np.arange(1,5)
x

array([1, 2, 3, 4])

In [46]:
np.sum(x), x.sum()

(10, 10)

In [47]:
x = np.array([1,3,2])

In [49]:
x.min(), x.max()

(1, 3)

In [51]:
x.argmin(), x.argmax() # 최대, 최솟값의 위치

(0, 1)

In [52]:
x = np.array([1,2,3,1])

In [55]:
x.mean(), x.sum()/len(x) # 통계적 평균 = 산술적 평균

(1.75, 1.75)

In [59]:
np.median(x) # 1, 1, 2, 3

1.5

In [60]:
a = np.zeros((100, 100), dtype="f")
a

array([[0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       ...,
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.]], dtype=float32)

In [61]:
np.any(a != 0)

False

In [62]:
np.all( a == a)

True

In [65]:
a= np.array([1,2,3,2])
b= np.array([2,2,3,2])
c= np.array([6,4,4,5])

In [66]:
((a <= b) & (b <= c)).all()

True

* 연산의 대상이 2차원 이상인 경우에는 어느 차원으로 계산을 할 지를 axis 인수를 사용하여 지시
* axis=0인 경우는 열 연산, axis=1인 경우는 행 연산. 디폴트 값은 axis=0.
* axis 인수는 대부분의 차원 축소 명령에 적용할 수 있음

In [68]:
x = np.array(((1,1), (2,2)))
x

array([[1, 1],
       [2, 2]])

In [69]:
x.sum()

6

In [70]:
x.sum(axis=0)  # 열 합계(연산) (열들 간의 연산)

array([3, 3])

In [72]:
x.sum(axis=1) # 행 합계 - (행들 간의 연산)

array([2, 4])

## 💡 연습문제 5
실수로 이루어진 5 x 6 형태의 데이터 행렬을 만들고 이 데이터에 대해 다음과 같은 값 도출
1. 전체의 최댓값
2. 각 행의 합
3. 각 행의 최댓값
4. 각 열의 평균
5. 각 열의 최솟값

In [74]:
a = np.arange(30, dtype="f").reshape((5,6))
a

array([[ 0.,  1.,  2.,  3.,  4.,  5.],
       [ 6.,  7.,  8.,  9., 10., 11.],
       [12., 13., 14., 15., 16., 17.],
       [18., 19., 20., 21., 22., 23.],
       [24., 25., 26., 27., 28., 29.]], dtype=float32)

In [75]:
# 전체의 최댓값
a.max()

29.0

In [76]:
# 각 행의 합
a.sum(axis=1)

array([ 15.,  51.,  87., 123., 159.], dtype=float32)

In [77]:
# 각 행의 최댓값
a.max(axis=1)

array([ 5., 11., 17., 23., 29.], dtype=float32)

In [81]:
# 각 열의 평균
a.sum(axis=0)/len(a)
# a.mean(axis=0)

array([12., 13., 14., 15., 16., 17.], dtype=float32)

In [82]:
# 각 열의 최솟값
a.min(axis=0)

array([0., 1., 2., 3., 4., 5.], dtype=float32)

## 정렬
* `sort` : 배열 안의 원소를 크기에 따라 정렬하여 새로운 배열 생성
* 2차원 이상인 경우에는 행이나 열을 각각 따로따로 정렬
    * `axis=0` : 각각의 행을 따로따로 정렬
    * `axis=1` : 각각의 열을 따로따로 정렬 
    * `axis=-1` : 가장 안쪽(나중)의 차원 (default)

In [83]:
a = np.array([
    [4,3,5,7,],
    [1,12,11,9],
    [2,15,1,14]
])

a

array([[ 4,  3,  5,  7],
       [ 1, 12, 11,  9],
       [ 2, 15,  1, 14]])

In [84]:
np.sort(a) # axis = -1, axis=1 열들 간의 정리
#  np.sort(a, axis = -1)

array([[ 3,  4,  5,  7],
       [ 1,  9, 11, 12],
       [ 1,  2, 14, 15]])

In [85]:
np.sort(a, axis=0)

array([[ 1,  3,  1,  7],
       [ 2, 12,  5,  9],
       [ 4, 15, 11, 14]])

In [86]:
# sort 메서드는 해당 객체의 자료 자체가 변화하므로 주의
# 자체변화(in-place) 메서드 = 원본이 수정됨
a.sort(axis = 1)
a

array([[ 3,  4,  5,  7],
       [ 1,  9, 11, 12],
       [ 1,  2, 14, 15]])

* `argsort` : 자료 정렬이 아니라 순서만 알고 싶다면 사용

In [91]:
a = np.array([
    42,38,12,25
])

j = np.argsort(a)
j

array([2, 3, 1, 0])

In [90]:
a[j]

array([12, 25, 38, 42])

In [92]:
np.sort(a)

array([12, 25, 38, 42])

## 💡 연습문제 6
> 두 번째 행을 기준으로 각 열(column)을 재정렬
```
array([[  1,    2,    3,    4],
       [ 46,   99,  100,   71],
       [ 81,   59,   90,  100]])
```

In [98]:
x = np.array([
    [1, 2, 3, 4],
    [46, 99, 100, 71],
    [81, 59, 90, 100]
])
x

array([[  1,   2,   3,   4],
       [ 46,  99, 100,  71],
       [ 81,  59,  90, 100]])

In [106]:
x[:]

array([[  1,   2,   3,   4],
       [ 46,  71,  90, 100],
       [ 59,  81,  99, 100]])

# 기술 통계

## 기술 통계(descriptive statistics)
> 데이터 집합에 대해 통계를 계산
* 데이터의 개수(count)
* 평균(mean, average)
* 분산(variance)
* 표준 편차(standard deviation)
* 최댓값(maximum)
* 최솟값(minimum)
* 중앙값(median)
* 사분위수(quartile)

In [107]:
x = np.array([18,   5,  10,  23,  19,  -8,  10,   0,   0,   5,   2,  15,   8,
              2,   5,   4,  15,  -1,   4,  -7, -24,   7,   9,  -6,  23, -13])

## 데이터의 개수

In [108]:
len(x)

26

## 표본 평균
* 우리가 일반적으로 아는 평균
* 통계용어로는 표본 평균(sample average, sample mean)
<br>
$
\bar{x} = \frac{1}{N}\displaystyle\sum_{i=1}^{N}{x_i}
$
(𝑁은 데이터의 개수)

In [110]:
np.mean(x) # x.mean()

4.8076923076923075

## 표본 분산
* 표본 분산(sample variance) : 데이터와 표본 평균간의 거리의 제곱의 평균
* 표본 분산이 작으면 데이터가 모여있는 것이고 크면 흩어져 있는 것
<br>
$
s^2 = \frac{1}{N}\displaystyle\sum_{i=1}^{N}{(x_i-\bar{x})^2}
$

In [111]:
np.var(x)

115.23224852071006

## 표본 표준편차
* 표본 표준편차(sample standard variance) : 표본 분산의 양의 제곱근 값 
<br>
$
s = \sqrt{s^2}
$

In [112]:
np.std(x)

10.734628476137871

## 최댓값과 최솟값

In [113]:
# 최댓값 (maximum) / 최솟값 (minimum)
np.max(x), np.min(x)

(23, -24)

## 중앙값
* 중앙값(median) : 데이터를 크기대로 정렬하였을 때 가장 가운데에 있는 수
* 만약 데이터의 수가 짝수이면 가장 가운데에 있는 두 수의 평균을 사용


In [114]:
np.median(x)

5.0

## 사분위수
* 사분위수(quartile) : 데이터를 가장 작은 수부터 가장 큰 수까지 크기가 커지는 순서대로 정렬하였을 때 1/4, 2/4, 3/4 위치에 있는 수
* 각각 1사분위수, 2사분위수, 3사분위수라고 함
* 1/4의 위치란 전체 데이터의 수가 만약 100개이면 25번째 순서, 즉 하위 25%
* 따라서 2사분위수는 중앙값과 같음
* 때로는 위치를 1/100 단위로 나눈 백분위수(percentile)을 사용하기도 함
* 1사분위수는 25% 백분위수와 같음


In [115]:
np.percentile(x, 0)  # 최솟값 

-24.0

In [116]:
np.percentile(x, 25)  # 1사분위 수 

0.0

In [117]:
np.percentile(x, 50)  # 2사분위 수 

5.0

In [118]:
np.percentile(x, 75)  # 3사분위 수 

10.0

In [119]:
np.percentile(x, 100)  # 최댓값 

23.0

# 난수 발생과 카운팅

## 시드 설정
* 컴퓨터 프로그램에서 발생하는 무작위 수는 사실 엄격한 의미의 무작위 수가 아님
* 어떤 특정한 시작 숫자를 정해 주면 컴퓨터가 정해진 알고리즘에 의해 마치 난수처럼 보이는 수열을 생성. 이런 시작 숫자를 시드(seed)라고 함
* 일단 생성된 난수는 다음번 난수 생성을 위한 시드값이 됨. 따라서 시드값은 한 번만 정해주면 됨.
* 시드는 보통 현재 시각 등을 이용하여 자동으로 정해지지만 사람이 수동으로 설정할 수도 있음 * 특정한 시드값이 사용되면 그 다음에 만들어지는 난수들은 모두 예측할 수 있음
* 고정된 결과를 얻기 위해서 실습엔 시드를 설정

In [120]:
np.random.seed(0) # 시드값 고정

### `rand` : 0과 1 사이의 난수를 발생

In [123]:
np.random.rand(5) # rand(n) n개의 길이를 가지는 배열에 각각 0~1 사이의 난수를 채움

array([0.0871293 , 0.0202184 , 0.83261985, 0.77815675, 0.87001215])

In [122]:
np.random.rand(10)

array([0.64589411, 0.43758721, 0.891773  , 0.96366276, 0.38344152,
       0.79172504, 0.52889492, 0.56804456, 0.92559664, 0.07103606])

## 데이터의 순서 변경

### `shuffle`
* 데이터의 순서를 변경
* 자체 변환(in-place) 함수 (원본에 영향)

In [124]:
x = np.arange(10)
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [125]:
np.random.shuffle(x)
x

array([7, 6, 9, 4, 5, 8, 1, 0, 3, 2])

## 데이터 샘플링
* 표본선택 혹은 샘플링(sampling) : 이미 있는 데이터 집합에서 일부를 무작위로 선택하는 것

### `choice` : 샘플링에 사용
```
numpy.random.choice(a, size=None, replace=True, p=None)
```
* a : 배열이면 원래의 데이터, 정수이면 arange(a) 명령으로 데이터 생성
* size : 정수. 샘플 숫자
* replace : 불리언. True이면 한번 선택한 데이터를 다시 선택 가능 (복원/비복원 추출)
* p : 배열. 각 데이터가 선택될 수 있는 확률

In [126]:
np.random.choice(5, 5, replace=False)  # shuffle 명령과 같음 

array([4, 2, 3, 1, 0])

In [128]:
np.random.choice(5, 3, replace=False)  # 3개만 선택  (비복원 추출)

array([0, 1, 4])

In [131]:
np.random.choice(5, 10)  # 반복해서 10개 선택 (복원 추출) replace=True

array([3, 0, 3, 4, 1, 2, 4, 3, 4, 4])

In [135]:
np.random.choice(5, 10, p=[0.1, 0, 0.3, 0.6, 0])  # 선택 확률을 다르게 해서 10개 선택 

array([3, 3, 3, 3, 3, 0, 2, 0, 3, 3])

## 난수 생성
* `rand` : 0부터 1 사이의 균일 분포
* `randn` : 표준 정규 분포
* `randint` : 균일 분포의 정수 난수

### `rand` : 0부터 1 사이에서 균일한 확률 분포로 실수 난수를 생성
* 숫자 인수는 생성할 난수의 크기
* 여러 개의 인수를 넣으면 해당 크기를 가진 행렬을 생성

In [136]:
np.random.rand(10)

array([0.84138612, 0.26473016, 0.39782075, 0.55282148, 0.16494046,
       0.36980809, 0.14644176, 0.56961841, 0.70373728, 0.28847644])

In [137]:
np.random.rand(3, 5)

array([[0.43328806, 0.75610669, 0.39609828, 0.89603839, 0.63892108],
       [0.89155444, 0.68005557, 0.44919774, 0.97857093, 0.11620191],
       [0.7670237 , 0.41182014, 0.67543908, 0.24979628, 0.31321833]])

### `randn` : 기댓값이 0이고 표준편차가 1인 표준 정규 분포(standard normal distribution)를 따르는 난수를 생성

In [138]:
np.random.randn(10)

array([ 0.08672983,  0.45628701,  0.4310333 ,  2.07257353, -0.53778512,
       -1.3784301 , -0.49240425,  2.32773811,  1.80440397, -0.24942133])

In [139]:
np.random.randn(3, 5)

array([[-0.82086383, -1.49333996,  0.52417595,  0.34511317,  0.72437468],
       [-2.04038084, -1.0797781 , -0.69342441, -2.33804615,  1.66226234],
       [-0.27535274, -0.74657045,  1.22510346, -0.11043246, -1.27348939]])

### `randint`
```
numpy.random.randint(low, high=None, size=None)
```
만약 `high`를 입력하지 않으면 0과 `low`사이의 숫자, `high`를 입력하면 `low`와 `high`는 사이의 숫자를 출력. `size`는 난수의 숫자

In [140]:
np.random.randint(10, size=10)

array([5, 3, 4, 5, 3, 3, 7, 9, 9, 9])

In [141]:
np.random.randint(10, 20, size=10)

array([17, 13, 12, 13, 19, 17, 17, 15, 11, 12])

In [142]:
np.random.randint(10, 20, size=(3, 5))

array([[12, 18, 11, 15, 18],
       [14, 10, 12, 15, 15],
       [10, 18, 11, 11, 10]])

## 💡 연습문제 7
1. 동전을 10번 던져 앞면(숫자 1)과 뒷면(숫자 0)이 나오는 가상 실험을 작성하라
2. 주사위를 100번 던져서 나오는 숫자의 평균
3. 가격이 10,000원인 주식이 있다. 이 주식의 일간 수익률(%)은 기댓값이 0%이고 표준편차가 1%인 표준 정규 분포를 따른다고 하자. 250일 동안의 주가를 무작위로 생성하라

In [143]:
# 1.
coin = np.array(['HEAD', 'TAIL'])
np.random.choice(coin, size=10, replace=True)

# np.random.choice([0,1], size =10, replace=True)

array(['TAIL', 'HEAD', 'TAIL', 'HEAD', 'HEAD', 'HEAD', 'HEAD', 'TAIL',
       'TAIL', 'TAIL'], dtype='<U4')

In [144]:
# 2.
# dice = np.arange(1,7)
# np.random.choice(dice,100,replace=True).mean()
np.random.randint(1,7,100).mean()

3.65

In [145]:
# 3.
earn = np.random.randn(250) / 100
earn

array([ 3.17861517e-04, -3.75827695e-03,  2.27850766e-03,  7.03788682e-03,
       -7.97799885e-03, -6.75899931e-03, -9.22546325e-03, -4.48586346e-03,
        1.81979099e-03, -2.20083762e-03,  2.49561833e-04, -8.91894812e-03,
        5.70080807e-03,  2.66322756e-02,  4.10289467e-03,  4.85651893e-03,
        1.31152655e-02, -2.35649453e-03, -1.48017978e-02, -2.14847542e-04,
        1.05279068e-02, -1.17402219e-03,  1.82850826e-02, -1.66771313e-04,
        1.87011107e-02, -3.80307149e-03,  4.28697937e-03,  3.61895886e-03,
        4.67567606e-03, -1.51802870e-02, -1.89304483e-02, -7.85086531e-03,
       -1.60529407e-02,  1.43184023e-02, -1.94219012e-02,  1.13995339e-02,
       -6.17165933e-03, -1.77555859e-02, -1.11820547e-02, -1.60638701e-02,
       -8.14676080e-03,  3.21280905e-03, -1.23930443e-03,  2.21212562e-04,
       -3.21286508e-03,  6.92618052e-03, -3.53523517e-03,  8.12289960e-03,
       -1.14178779e-02, -2.87548786e-03,  1.31554171e-02,  6.85780511e-03,
        5.24598790e-03, -

In [None]:
stock = np.empty(250)
price = 10000
for i, v in enumerate(earn):
    price *= (1 + v)
    stock[i] = price
stock

array([ 9968.24569061,  9805.52172515,  9798.93887103,  9944.87995133,
        9996.72298327, 10057.89564959,  9922.96930879,  9970.29178757,
        9985.09264399, 10037.91830117, 10080.34141693,  9943.27087728,
        9939.15428244,  9863.82832836,  9858.88811928,  9770.41436592,
        9898.64815922,  9813.6215047 ,  9725.40272392,  9732.65655233,
        9627.82619918,  9586.94035449,  9507.37214356,  9641.53752326,
        9717.30109408,  9711.71660794,  9673.72271651,  9764.74447753,
        9804.31162059,  9853.14223038,  9850.56147198,  9684.2613353 ,
        9673.36983564,  9621.86011642,  9683.9264325 ,  9781.91250933,
        9717.55231377,  9763.06789394,  9932.54293905,  9866.22208637,
       10032.16422056,  9946.63140825,  9948.91513051,  9947.80626305,
        9948.95015133,  9865.60998051,  9807.28616123,  9741.80092199,
        9773.65296712,  9805.90945388, 10024.18353955, 10161.61399384,
       10109.8056916 , 10142.64937851, 10243.78355919, 10246.91834384,
      

## 정수 데이터 카운팅
* 만약 난수가 정수값이면 unique 명령이나 bincount 명령으로 데이터 값을 분석

### `unique`
* unique 함수는 데이터에서 중복된 값을 제거하고 중복되지 않는 값의 리스트를 출력
* return_counts 인수를 True 로 설정하면 각 값을 가진 데이터 갯수도 출력


In [151]:
np.unique([11, 11, 2, 2, 34, 34])

array([ 2, 11, 34])

In [152]:
a = np.array(['a', 'b', 'b', 'c', 'a'])
index, count = np.unique(a, return_counts=True)

In [148]:
index

array(['a', 'b', 'c'], dtype='<U1')

In [153]:
count

array([2, 2, 1])

In [154]:
dict(zip(*np.unique(a, return_counts=True)))

{'a': 2, 'b': 2, 'c': 1}

### `bincount` (값이 있어야 셈)
* `unique` 함수는 데이터에 존재하는 값에 대해서만 갯수를 세므로 데이터 값이 나올 수 있음에도 불구하고 데이터가 하나도 없는 경우에는 정보를 주지 않음
* 따라서 데이터가 주사위를 던졌을 때 나오는 수처럼 특정 범위안의 수인 경우에는 `bincount` 함수에 `minlength` 인수를 설정하여 쓰는 것이 더 편리
* `bincount` 함수는 0 부터 `minlength` - 1 까지의 숫자에 대해 각각 카운트
* 데이터가 없을 경우에는 카운트 값이 0이 됨

In [156]:
np.bincount([1, 1, 2, 2, 2, 3], minlength=6)

array([0, 2, 3, 1, 0, 0])