# Numpy 라이브러리

- https://numpy.org/
- 파이썬의 고성능 과학 계산용 라이브러리
- 벡터나 행렬 같은 선형대수의 표현법을 코드로 처리
- 사실상의 표준 라이브러리
- 다차원 리스트나 크기가 큰 데이터 처리에 유리

### 라이브러리 확인

In [None]:
!pip install numpy

In [None]:
import numpy
numpy.__version__

### 용어
- **스칼라**(scalar) : 숫자 하나만으로 이루어진 데이터, 보통 $x$와 같이 알파벳 소문자로 표기, 실수 숫자로 $x ∈ R$
- **벡터**(vector) : 여러 숫자가 특정한 순서대로 모여 있는 것. ex)데이터 레코드들. 행(row), 열(columns)을 가지는 형태, $x ∈ R^n$
- **행렬**(array) : 복수 차원을 가지는 데이터 레코드

### 넘파이를 사용한 벡터 표현

In [None]:
import numpy as np

x1 = np.array([5.1, 3.5, 1.4 , 0.2])
print(x1)  # 콤마가 없다.

x2 = np.array([[5.1],[3.5],[1.4],[0.2]])
print(x2)


## 다양한 Numpy 적용 사례


### 1.이미지 데이터에서 넘파이 사용
- OpenCV 영상(이미지) 데이터에서 사용
- 단, 아래 코드는 opencv-python 라이브러리가 설치되어 있는 상태에서 실행해야 오류가 없다.

In [None]:
# OpenCV 라이브러리 설치하기
!pip install opencv-python

In [None]:
import sys
import cv2

print('Hello OpenCV', cv2.__version__)

image = cv2.imread('./image/cat.jpg')
if image is None:
    print('Image load failed!')
    sys.exit()
    
print(type(image))
print(image.dtype)   
print(image) 
    
cv2.namedWindow('image')
cv2.imshow("image", image)
cv2.waitKey()
cv2.destroyAllWindows()

### 2.텍스트 데이터에서 넘파이 사용
- scikit-learn에서 붓꽃데이터를 확인해 보자!
- 단, 아래 코드는 scikit-learn 라이브러리가 설치되어 있는 상태에서 실행해야 오류가 없다.

In [None]:
!pip install scikit-learn

In [None]:
from sklearn.datasets import load_iris  

iris = load_iris()

#iris
iris.data[0, :]    # 첫 번째 꽃의 데이터


--------

## 1. numpy 배열

###  numpy 사용

In [None]:
import numpy as np

arr = np.array([0,1,2,3,4,5])
print(type(arr))
print(arr)

### 1차원 배열 만들기

In [None]:
na = np.array([0,1,2,3,4,5,6,7,8,9])
print(na)

In [None]:
na = np.array(range(0,10,1))
print(na)

In [None]:
na = np.arange(10)
print(na)

### [실습]: 2차원 배열 만들기

In [None]:
import numpy as np

arr = np.array([[10,20,30,40],[50,60,70,80]])

arr = np.array([[1,2,3,4],[5,6,7,8]])
print(arr*10)

### 2차원 배열

In [None]:
na = np.array([[0,1,2],[3,4,5]])  # 2  x 3 array (괄호의 갯수)
print(na)

### 3차원 배열

In [None]:
na = np.array([[[0,1,2],[3,4,5]],[[6,7,8],[9,10,11]]])
print(na)

### 배열의 차원과 크기

In [None]:
na1 = np.array([0,1,2,3,4,5,6,7,8,9])
na2 = np.array([[0,1,2],[3,4,5]])
na3 = np.array([[[0,1,2],[3,4,5]],[[6,7,8],[9,10,11]]])

print(len(na1),len(na2),len(na3))    # 배열의 요소 개수
print(len(na1),len(na2[0]),len(na3[1][0])) 

#### - ndim : 배열의 차원

In [None]:
na3.ndim    #배열의 차원

#### - shape : 배열의 크기

In [None]:
na3.shape   #배열의 크기   (면, 행, 열) matrix

#### - reshape : 배열의 크기 변경

In [None]:
na = np.arange(12)
print(na)

nb = na.reshape(3,4)
print(nb)

In [None]:
nb = na.reshape(3,-1)
print(nb)

In [None]:
nb = na.reshape(2,2,-1)  # -1 : 자동으로 값이 계산
print(nb)

In [None]:
nb = na.reshape(2,-1,2)
print(nb)

#### - flatten / ravel : 1차원 배열로 만듦

In [None]:
nc = nb.flatten()
print(nc)

In [None]:
nc = nb.ravel()
print(nc)

In [None]:
nc = nb.reshape(-1)
print(nc)

In [None]:
nc.dtype

In [None]:
np.iinfo('int64')

### 배열의 인덱싱 & 슬라이싱

In [None]:
na1 = np.array([0,1,2,3,4,5,6,7,8,9])
print(na1[2])
print(na1[1:3])
print(na1[::-1])
print('-'*20)

na2 = np.array([[0,1,2],[3,4,5]])
print(na2[0,0])
print(na2[-1,2])
print(na2[:,1])
print(na2[1,1:])
print('-'*20)

na3 = np.array([[[0,1,2],[3,4,5]],[[6,7,8],[9,10,11]]])
print(na3[0,0])
print(na3[0,1,2])
print(na3[1,1:2,2])

---------

## 2. 배열의 생성과 변형

### 배열의 데이터 타입

In [None]:
na = np.array([0,1,2,3,4,5,6,7,8,9])
na.dtype

#### 1.배열은 한가지 데이터 타입만 가질 수 있다.

In [None]:
na = np.array([0,1,2,3.5,4,5,6,7,8,9])
print(na)
print(na.dtype)   # float

In [None]:
na = np.array([0,1,2,3.5,'4',5,6,7,8,9])
print(na)
print(na.dtype)   # 유니코드 문자열

#### 2.데이터 타입 지정

In [None]:
na = np.array([1, 2, 3], dtype='float')
print(na.dtype)
print(na)

#### 모두 동일한 데이터 타입

In [None]:
na = np.array([1, 2, 3], dtype=np.int64) 
print(na.dtype) # int64 

na = np.array([1, 2, 3], dtype='int64') 
print(na.dtype) # int64 

na = np.array([1, 2, 3], dtype='i8') 
print(na.dtype) # int64

In [None]:
na = np.array([1, 2, 3], dtype=np.float64) 
print(na.dtype) # float64 

na = np.array([1, 2, 3], dtype='float64') 
print(na.dtype) # float64 

na = np.array([1, 2, 3], dtype='f8') 
print(na.dtype) # float64

In [None]:
na = np.array([True, False])
#na = np.array([True, False], dtype='int')
print(na.dtype, na)

#### 3.숫자형 데이터가 취할 수 있는 값 범위 (최소값, 최대값)의 확인

 - 정수 int, unit이 취할 수 있는 범위 
 - np.iinfo()

In [None]:
print(np.iinfo('int64'))

 - 부동소수점 float이 취할 수 있는 범위
 - np.finfo()

In [None]:
print(np.finfo('float'))

#### 4.데이터 타입 변경 : astype

In [None]:
na = np.array([0,1,2,3,4])
print(na)
print(na.dtype)

na = na.astype(np.float64)
print(na)
print(na.dtype)

### [실습] 2차원 이미지를 1차원 벡터로 변경하기
- 8 x 8 --> (64 x 1) 

In [None]:
from sklearn.datasets import load_digits
import matplotlib.pyplot as plt

digits = load_digits()
digits
samples = [0, 10, 20, 30, 1, 11, 21, 31]  # 선택된 이미지 번호
d = []
for i in range(8):
    d.append(digits.images[samples[i]])
    
plt.figure(figsize=(8, 2))
for i in range(8):
    plt.subplot(1, 8, i+1)
    plt.imshow(d[i], interpolation='nearest', cmap=plt.cm.bone_r)
    plt.grid(False)
    plt.xticks([])
    plt.yticks([])
    plt.title(f'image: {i+1}')
plt.suptitle('number 0 & 1 image')
plt.tight_layout()
plt.show()

#### 1차원 벡터로 변형하기

In [None]:
v = []
for i in range(8):
    v.append(d[i].reshape(64,1))  #벡터화
    
plt.figure(figsize=(10, 3))
for i in range(8):
    plt.subplot(1, 8, i+1)
    plt.imshow(v[i], aspect=0.4, interpolation='nearest', cmap=plt.cm.bone_r)
    plt.grid(False)
    plt.xticks([])
    plt.yticks([])
    plt.title(f'vector: {i+1}')
plt.suptitle('Vector image', y=1.05)
plt.tight_layout(w_pad=7)
plt.show()

### 다양한 배열생성 방법

#### - zeros

In [None]:
na = np.zeros(5)
print(na)

In [None]:
na = np.zeros((2, 3), dtype=int)  # 튜플 타입으로 지정
print(na)

na = np.zeros((2, 3, 4))
print(na)

In [None]:
na = np.zeros(5, dtype="U4")
print(na)

In [None]:
na[0] = 'a'
na[1] = 'ab'
na[2] = 'abc'
na[3] = 'abcd'
print(na)

In [None]:
import numpy as np
import cv2

image = np.zeros((768, 1024), np.uint8)
image.fill(200)      # 또는 image[:] = 200

cv2.imshow("Window title", image)
cv2.waitKey(0)
cv2.destroyAllWindows()

#### - ones

In [None]:
na = np.ones(5)
print(na)

na = np.ones((2,3), dtype='i')
print(na)

#### - zeros_like, ones_like: 다른 배열과 같은 크기의 배열 생성

In [None]:
na = np.ones_like(na)  #
print(na)

#### - empty : 배열만 생성 (값을 초기화 하지 않음)

In [None]:
na = np.empty((3,1))  # 배열의 크기가 커지면 배열을 초기화하는데도 시간이 걸린다
print(na)

#### - arange : range와 유사한 명령

In [None]:
na = np.arange(10)
print(na)

In [None]:
na = np.arange(2, 10, 2)  # start, end(포함안됨), step
print(na)

#### - linspace: 선형구간 지정, logspace: 로그구간 지정

In [None]:
na = np.linspace(0, 100, 5, dtype=int)
print(na)

In [None]:
na = np.logspace(0.1, 1, 10)
print(na)

In [None]:
import numpy as np

a = np.zeros((2,5), np.int64)
b = np.ones((3,1), np.uint8)
c = np.empty((1,5), np.float64)
d = np.full(5, 15, np.float32)

print(type(a), type(a[0]), type(a[0][0]))
print(type(b), type(b[0]), type(b[0][0]))
print(type(c), type(c[0]), type(c[0][0]))
print(type(d), type(d[0]) )
print('c 형태:', c.shape, '   d 형태:', d.shape)
print(a), print(b)
print(c), print(d)

### 배열의 연결

#### - hstack : 행의 수가 같은 두 개 이상의 배열을 옆으로 연결

In [None]:
na1 = np.ones((2,3), dtype=int)
na2 = np.zeros((2,2), dtype=int)
print(na1)
print(na2)
print(np.hstack([na1, na2]))

#### - vstack : 열의 수가 같은 두 개 이상의 배열을 위아래로 연결

In [None]:
na1 = np.ones((2,3), dtype=int)
na2 = np.zeros((3,3), dtype=int)
print(na1)
print(na2)
print(np.vstack([na1, na2]))

#### - dstack 
- 행이나 열이 아닌 깊이(면: depth) 방향으로 배열을 합침, 가장 안쪽 원소의 차원 증가 
- 3차원 데이터

#### # 1차원 데이터일 경우

In [None]:
na1 = np.zeros(2, dtype=int)    # [0 0]
na2 = np.ones(2, dtype=int)     # [1 1]
na3 = np.full(2, 2,  dtype=int) # [2 2]
na = np.dstack([na1, na2])
print(na.shape)
print(na)

In [None]:
na = np.dstack([na1, na2, na3])
print(na.shape)
print(na)

#### #2차원 데이터일 경우

In [None]:
na1 = np.zeros((2,3), dtype=int)   # [[0 0 0]
                                   #  [0 0 0]]
na2 = np.ones((2,3), dtype=int) 
na3 = np.full((2,3), 2,  dtype=int)

na = np.dstack([na1, na2])
print(na.shape)
print(na)

In [None]:
na = np.dstack([na1, na2, na3])
print(na.shape)
print(na)

#### - stack : axis인수를 사용하여 사용자가 지정한 차원(축으로) 배열을 연결
- default axis=0 
- 1차원 : (행,  )      : (axis=0, ) 
- 2차원 : (행, 열)     : (axis=0, axis=1) 
- 3차원 : (행, 열, 면) : (axis=0, axis=1, axis=2)
- 배열의 크기가 같아야함
- 차원 증가

#### # 1차원 데이터

In [None]:
na1 = np.zeros(2, dtype=int)    # [0 0]
na2 = np.ones(2, dtype=int)     # [1 1]
na3 = np.full(2, 2,  dtype=int) # [2 2]

na = np.stack([na1, na2])  # default: axis=0 행 쌓기
print(na)
print(na.shape)

In [None]:
na = np.stack([na1, na2], axis=1) # 열로 쌓기
print(na)
print(na.shape)

In [None]:
na = np.stack([na1, na2, na3])
print(na.shape)
print(na)

In [None]:
na = np.stack([na1, na2, na3], axis=1)
print(na.shape)
print(na)

#### # 2차원 데이터

In [None]:
na1 = np.zeros((2,3), dtype=int)   # [[0 0 0]
                                   #  [0 0 0]]
na2 = np.ones((2,3), dtype=int) 
na3 = np.full((2,3), 2,  dtype=int)

na = np.stack([na1, na2])
print(na.shape)
print(na)

In [None]:
na = np.stack([na1, na2], axis=1)
print(na.shape)
print(na)

In [None]:
na = np.stack([na1, na2, na3], axis=0)
print(na)
print(na.shape)

In [None]:
na = np.stack([na1, na2, na3], axis=1)
print(na)
print(na.shape)

#### - r_ : hstack 명령과 비슷, 배열을 좌우로 연결

In [None]:
na1 = np.array([1, 2, 3])
na2 = np.array([4, 5, 6])
print( np.r_[na1, na2 ] )

#### - c_ : 배열의 차원을 증가시킨 후 좌우로 연결

In [None]:
na1 = np.array([1, 2, 3])
na2 = np.array([4, 5, 6])
print( np.c_[na1, na2] )

#### - tile : 동일한 배열을 반복하여 연결

In [None]:
a = np.array([[0, 1, 2], [3, 4, 5]])
print(a)
print( np.tile(a, 2) )

In [None]:
print( np.tile(a, (3, 2)) )

### [실습] 다양한 배열을 쌓아 다른 배열 만들기

In [None]:
[[  0   0   0   1   1]
 [  0   0   0   1   1]
 [  0   0   0   1   1]
 [ 10  20  30  40  50]
 [ 60  70  80  90 100]
 [110 120 130 140 150]
 [  0   0   0   1   1]
 [  0   0   0   1   1]
 [  0   0   0   1   1]
 [ 10  20  30  40  50]
 [ 60  70  80  90 100]
 [110 120 130 140 150]]

In [None]:
na1 = np.zeros((3,3), dtype=int)
na2 = np.ones((3,2), dtype=int)
na3 = np.arange(10,160,10)
na3 = na3.reshape(3,5)

a = np.hstack([na1, na2])
b = np.vstack([a, na3])
print(np.vstack([b, b]))

----------

## 3. 배열의 연산

#### 행과 열 바꾸기 (.T 속성 사용) : transpose()

In [None]:
import numpy as np

na1 = np.array([[0,0,0],[1,1,1]], dtype=int)
print(na1)
print(na1.T)  #transpose()

### [실습] numpy 배열을 이용하여 아래 z = x + y 를 코딩하기

In [None]:
x = np.arange(1,10001)
y = np.arange(10001, 20001)
z = x + y
z

In [None]:
x = np.arange(1,10001)
y = np.arange(10001, 20001)

z = np.zeros_like(x)
for i in range(len(x)):
    z[i] = x[i] + y[i]
print(z)

In [None]:
x = np.arange(1,10001)
x = x.reshape(-1,1)

y = np.arange(10001,20001)
y = y.reshape(-1,1)

z = x + y
print(z)

### 벡터화 연산

In [None]:
x = np.array([0,1,2,3,4])
print(x+1)

In [None]:
print(2*x)

In [None]:
a = np.array([1,2,3])
b = np.array([10,20,30])
print(2*a + b)

In [None]:
print(a == 2)

In [None]:
print(b > 10)

In [None]:
print((a == 2) & (b > 10))

### [실습]  1차원 배열의 벡터화 연산 문제

In [None]:
x = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10,
              11, 12, 13, 14, 15, 16, 17, 18, 19, 20])

#### 1. 배열에서 3의 배수를 찾아라

In [None]:
print(x[x%3==0])

#### 2. 이 배열에서 4로 나누면 1이 남는 수를 찾아라.

In [None]:
print(x[x%4==1])

#### 3. 이 배열에서 3으로 나누면 나누어지고 4로 나누면 1이 남는 수를 찾아라.

In [None]:
print(x[(x%3==0) & (x%4==1)])

### 브로드캐스팅
 - 서로 다른 크기를 가진 두 배열의 사칙 연산을 지원함
 - 크기가 작은 배열을 자동으로 반복 확장하여 크기가 큰 배열에 맞추는 방법

In [None]:
x1 = np.arange(0,5)
x1 = x1.reshape(-1,1)
x2 = x1 + 1
x3 = x2 + 1

arr = np.hstack([x1,x2,x3])
print(arr + x1)

In [None]:
y = np.arange(0,3)
print(arr + y)

In [None]:
x = np.arange(0, 3)
print(np.vstack([x, x+1, x+2, x+3, x+4]))

In [None]:
x = np.vstack([range(i, i+3) for i in range(5)])
print(x)

In [None]:
y = np.arange(5)
print(y)

In [None]:
print(y.reshape(5,-1))

In [None]:
x+y

In [None]:
y = np.arange(3)
x+y

### [실습] 벡터화 연산 

A, B, C 세 회사의 주식은 각각 100만원, 80만원, 50만원이다. 이 주식을 각각 3주 4주 5주를 매수할 때 필요한 금액을 넘파이를 이용하여 구해보시오.

In [None]:
p = np.array([100, 80, 50])
n = np.array([3, 4, 5])

total = np.sum(p * n)
total = p @ n  # 벡터와 행렬의 내적구하는 방법

print(f'총금액: {total} 만원')

### 팬시 인덱싱(fancy indexing)
- **인덱스를 통해 배열의 해당 요소에 빠르게 접근하는 방법**
- 다른 배열로 배열을 인덱싱 하는 방법

### [실습] 짝수인 원소만 골라내기

In [None]:
# 방법1: 마스크 배열을 이용
arr = np.arange(10)
idx = np.array([True, False, True, False, True, 
                False, True, False, True, False])

print(arr[idx])

In [None]:
#방법2: 조건 이용
print(arr % 2)
print(arr % 2 == 0)

print(arr[arr % 2 == 0])

#### - 1. 불(Boolean)배열 인덱싱(마스크로 이용)
- Boolean값을 갖는 마스크를 씌워서 원하는 행렬을 뽑아내는 방법 

In [None]:
names = np.array(['Paul','Paul','Kim','Joan','Lee','Paul', 'Park'])
data = np.random.rand(7, 4)  # 0~1사이의 실수를 7행 4열로

print(data)

In [None]:
# 마스크 만들기
names_mask = (names=='Paul')

print(names_mask)

In [None]:
# 마스크 적용하기
print(data[names_mask, :]) # index가 0, 1, 5 행만 추출

In [None]:
print(data[names=='Kim', :]) # index가 2 행만 추출

In [None]:
print(data[(names=='Kim')|(names=='Park'), :]) # index가 2, 6 행만 추출

#### - 2. 정수 배열 인덱싱

In [None]:
arr = np.array([11,22,33,44,55,66,77,88,99])
idx = np.array([0,2,4,6,8])

print(arr[idx])

In [None]:
arr = np.array([[1,2,3,4],[5,6,7,8],[9,10,11,12]])

print(arr[:, [True,False,False, True]])

In [None]:
print(arr[[2,0,1], :])

### 기타 행렬

#### - 전치행렬
- 행과 열이 바뀐 행렬

In [None]:
import numpy as np

arr = np.array([[0,0,0],[1,1,1]], dtype=int)
print(arr)
print(arr.T)

#### - 정방행렬
- 행과 열의 개수가 같은 행렬


In [None]:
arr = np.zeros((3,3), dtype=int)
print(arr)

#### - 대각행렬
- 모든 비대각 요소가 0인 행렬

In [None]:
arr = np.diag([1,2,3])
print(arr)

#### - 항등행렬
- 대각행렬 중애서 대각성분의 값이 1인 행렬

In [None]:
arr = np.identity(3, dtype=int)
print(arr)

arr = np.eye(4, dtype=int)
print(arr)

------

## 4.기술통계 함수

numpy는 아래와 같은 데이터 집합에 대해 간단한 통계를 계산하는 함수(통계량)를 제공한다.
 - 데이터의 개수(count)
 - 평균(mean, average): 평균을 통계용어->표본 평균(sample average, sample mean)
 - 분산(variance): 표본 분산, 데이터와 표본 평균간의 거리의 제곱의 평균, 표본 분산이 작으면 데이터가 모여있는 것이고 크면 흩어져 있는 것
 - 표준 편차(standard deviation) : 표본 분산의 양의 제곱근 값
 - 최댓값(maximum) : 데이터 중에서 가장 큰 값
 - 최솟값(minimum) : 데이터 중에서 가장 작은 값
 - 중앙값(median) : 데이터를 크기대로 정렬하였을 때 가장 가운데에 있는 수
 - 사분위수(quartile) : 데이터를 가장 작은 수부터 가장 큰 수까지 크기가 커지는 순서대로 정렬하였을 때 1/4, 2/4, 3/4 위치에 있는 수
 
 x={18,5,10,23,19,−8,10,0,0,5,2,15,8,2,5,4,15,−1,4,−7,−24,7,9,−6,23,−13}

In [None]:
import numpy as np

x = np.array([18,5,10,23,19,-8,10,0,0,5,2,15,8,2,5,4,15,-1,4,-7,-24,7,9,-6,23,-13])
print(x)

#### - 데이터의 개수(count) : 
- len 
-- np.bincount() : 배열 요소의 개수를 센다. 음수 제거 후 사용

In [None]:
print( len(x) )

# x = np.array([[1,2,3],[4,5,6]])
# print( len(x) )

In [None]:
#print( np.bincount(x) )  # 음수 때문에 오류 발생
print( np.bincount(x[x>=0]) )

### 기술통계 함수

#### - 평균(mean, average)

In [None]:
print( np.mean(x) )

#### - 분산(variance)

In [None]:
print( np.var(x) )

#### - 표준 편차(standard deviation)

In [None]:
print( np.std(x) )

#### - 최대값(maximum)

In [None]:
print( np.max(x) )

#### - 배열의 최대값 인덱스(argmax)
- 동일한 값이 있을 경우 첫 번째 인덱스

In [None]:
print( np.argmax(x) )

#### - 최솟값(minimum)

In [None]:
print( np.min(x) )

#### - 배열의 최소값 인덱스(argmin)
- 동일한 값이 있을 경우 첫 번째 인덱스

In [None]:
print( np.argmin(x) )

#### - 중앙값(median)

In [None]:
print( np.median(x) )

 #### - 사분위수(quartile)
 - 자동 정렬 후 계산

In [None]:
print( np.percentile(x, 0) ) # 0% 해당하는 수

In [None]:
print( np.percentile(x, 25) )  # 25%,  1사분위 수

In [None]:
print( np.percentile(x, 50) )  # 50%, 2사분위 수

In [None]:
print( np.percentile(x, 75) ) # 75%, 3사분위 수

In [None]:
print( np.percentile(x, 100) )  # 100%,  최대값

### 히스토그램 그리기

In [None]:
x = np.array([18,5,10,23,19,-8,10,0,0,5,2,15,8,2,5,4,15,-1,4,-7,-24,7,9,-6,23,-13])
print(f'도수: {len(x)}')   # 도수

bins = np.arange(-25,25,5)   # 도수분포 구간 
print(f'도수분포 구간: {bins}')   # 도수분포 구간 

hist, bins = np.histogram(x, bins)  # 
# hist, bins = np.histogram(x, bins=5)  # 도수를 5개의 구간으로 나눈 수

print(f'도수분포 구간: {bins}') 
print(f'히스토그램 구간에 해당하는 도수: {hist}')


In [None]:
import matplotlib.pyplot as plt

plt.hist(x, edgecolor='w')
plt.show()

In [None]:
# 구간의 개수를 직접 지정 : bins=5
import matplotlib.pyplot as plt

plt.hist(x, bins=5, edgecolor='w')
plt.show()

In [None]:
n, bins, patches = plt.hist(x, bins=10, edgecolor='w')
print(n, bins, patches)
plt.show()

-------

## 5. 난수(Random) 

### 난수 발생

#### - 시드 설정
인수로는 0과 같거나 큰 정수를 넣어준다

In [None]:
np.random.seed(0)

#### - 난수 발생 : rand
 0과 1사이의 균일 분포 난수를 발생

In [None]:
np.random.rand(5)  # 0~1사이 균일분포 5개

#### - randn: 표준 정규 분포:
- 기댓값이 0이고 표준편차가 1인 표준 정규 분포

In [None]:
np.random.randn(5) 

#### - randint: 균일 분포의 정수 난수: 
- random.randint(low, high=None, size=None)

In [None]:
np.random.randint(10,size=5) 

In [None]:
np.random.randint(10, 20, size=5) 

#### - 데이터 순서 임의로 바꾸기 :  shuffle

In [None]:
x = np.arange(10)
print(x)

np.random.shuffle(x)
print(x)

#### - 데이터 샘플링 : choice
이미 있는 데이터 집합에서 일부를 무작위로 선택하는 것을 표본선택 혹은 샘플링(sampling)이라고 한다

numpy.random.choice(a, size=None, replace=True, p=None)
 - a : 배열이면 원래의 데이터, 정수이면 arange(a) 명령으로 데이터 생성
 - size : 정수. 샘플 숫자
 - replace : 불리언. True이면 한번 선택한 데이터를 다시 선택 가능(복원추출/비복원추출)
 - p : 배열. 각 데이터가 선택될 수 있는 확률

In [None]:
np.random.choice(5, 3, replace=False)  # arange(5)에서 3개만 선택

In [None]:
np.random.choice(5, 5, replace=False)  # shuffle 명령과 같다.

In [None]:
np.random.choice(5, 10)  # 반복해서 10개 선택

In [None]:
np.random.choice(5, 10, p=[0.1, 0, 0.3, 0.6, 0])  # 선택 확률을 다르게 해서 10개 선택

#### - 카운트, 정렬
- bincount: 배열 요소들의 각 개수 셈
- unique: 배열 요소 중 중복되지 않은 요소만 개수 셈
- sort: 배열 요소 정렬

In [None]:
x = np.random.choice(5, 10)
print(x)

print( np.bincount(x) ) 
print( np.unique(x) )
print( np.sort(x) )

-------

## 실습: 주사위를 100번 던져서 나오는 숫자의 평균을 구하라.

In [None]:
# 주사위 데이터 100개 생성
x = np.random.randint(1,7, size=100) 
print(x)


# 정렬하기
print( np.sort(x) ) 


# 배열 요소들의 각 개수 세기
print(np.bincount(x))
print('최종 ---------------')
print(np.bincount(x)[1:])

#### - 평균, 중위수

In [None]:
print(np.mean(x))
# x = np.median(x)

#### - 히스토그램

In [None]:
import matplotlib.pyplot as plt
plt.hist(x, edgecolor='w')
plt.show()

### [실습문제] 
- Q: 가격이 10,000원인 주식이 있다. 이 주식의 일간 수익률(%)은 기댓값이 0%이고 표준편차가 1%인 표준 정규 분포를 따른다고 하자. 250일 동안의 주가를 무작위로 생성하라


In [None]:
np.random.seed(0)
x = np.random.randn(250) 
x = x + 10000
x.astype(dtype=int)