# 3. `numpy`의 랜덤모듈

In [1]:
import numpy as np

## A. np.random.rand()

`-` 0~1 사이의 난수를 생성

In [2]:
np.random.rand(10)

`-` 0~2 사이의 난수를 생성

In [4]:
np.random.rand(10)*2

`-` 1~2사이의 난수를 생성

In [6]:
np.random.rand(10) + 1

`-` 1~3사이의 난수를 생성

In [8]:
np.random.rand(10)*2+1 #1~3

## B. np.random.randn()

`-` N(0,1)에서 난수생성

In [10]:
np.random.randn(10) # 표준정규분포에서 10개의 샘플 추출

`-` N(1,1)에서 난수생성

In [13]:
np.random.randn(10) + 1 

`-` N(0,4)에서 난수생성

In [14]:
np.random.randn(10)*2

`-` N(3,4)에서 난수생성

In [15]:
np.random.randn(10)*2 + 3

## C. np.random.choice()

`-` \[0,1,2,3,4\] 에서 임의의 원소를 하나 뽑는 방법

In [35]:
np.random.choice([0,1,2,3,4])

`-` \[0,1,2,3,4\] 에서 30개의 원소를 뽑는 방법

In [36]:
np.random.choice([0,1,2,3,4],size=30)

In [37]:
np.random.choice(range(5),size=30)

`-` \[‘사과’,‘딸기’,‘딸기’,‘배’\] 에서 10000개의 원소를 뽑는 방법

In [53]:
lst = list(np.random.choice(['사과','딸기','딸기','배'],size=10000))
{s:lst.count(s) for s in set(lst)}

`-` \[‘사과’,‘딸기’,‘딸기’,‘배’\] 에서 3개의 원소를 중복을 허용하지 않고
(= 뽑은걸 다시 넣지 않고) 뽑는 방법

In [59]:
np.random.choice(['사과','딸기','딸기','배'],size=3,replace=False) 

In [62]:
np.random.choice(['사과','딸기','딸기','배'],size=4,replace=False) 

In [63]:
np.random.choice(['사과','딸기','딸기','배'],size=5,replace=False) 

## D. np.random.randint()

`-` \[0,1,2,3\] 에서 하나의 정수를 뽑는 방법

In [79]:
#[0,1,2,3] 은 [0,4) 구간에 존재하는 정수로 해석가능함. 
np.random.randint(low=0,high=4) # = np.random.choice(range(4))

`-` \[0,1,2,3\] 에서 30개의 정수를 뽑는 방법

In [81]:
np.random.randint(low=0,high=4,size=30)

## E. 통계분포

`-` 균등분포에서 난수생성

In [84]:
np.random.uniform(low=0,high=1,size=10) # np.random.rand(10) 

In [86]:
np.random.uniform(low=0,high=2,size=10) # np.random.rand(10)*2

In [87]:
np.random.uniform(low=2,high=4,size=10) # np.random.rand(10)*2+2

`-` 정규분포에서 난수생성

In [91]:
np.random.normal(loc=0,scale=1,size=10) # np.random.randn(10)

In [93]:
np.random.normal(loc=0,scale=2,size=10) # np.random.randn(10)*2 

In [94]:
np.random.normal(loc=5,scale=2,size=10) # np.random.randn(10)*2 + 5 

`-` 이항분포

In [126]:
lst = np.random.binomial(n=2, p=0.5, size=10000).tolist()
{s:lst.count(s) for s in set(lst)}

`-` 포아송분포

In [130]:
np.random.poisson(lam=1.0,size=100)

# 4. `numpy` – 기타 유용한 기본기능들

## A. np.where, np.argwhere

`-` 1차원

In [133]:
a = np.array([0,0,0,1,0])
a

In [135]:
np.where(a==1), np.where(a==0)

In [136]:
np.argwhere(a==1), np.argwhere(a==0)

`-` 2차원

In [145]:
np.random.seed(43052)
a = np.random.randn(12).reshape(3,4)
a

In [146]:
np.where(a<0),np.argwhere(a<0)

In [153]:
a[1,2],a[1,3],a[2,0],a[2,1],a[2,3] 

-   인덱스를 읽기에는 np.argwhere 이 편한듯

의문: `np.where()`은 필요없는가? –\> 사실 `np.where()`이
`np.argwhere()`보다 쓸만함

In [176]:
np.random.seed(43052)
a = np.random.randn(12).reshape(3,4)
a

*a의 원소중 0보다 작은것을 출력하고 싶다면?*

In [177]:
a[np.where(a<0)] # 출력가능

In [178]:
a[np.argwhere(a<0)] # 출력불가능

*a의 원소중 0보다 작은것을 0으로 바꾸고 싶다면?*

In [184]:
np.random.seed(43052)
a = np.random.randn(12).reshape(3,4)
a

In [187]:
np.where(a<0,0,a) # a<0을 체크 -> 조건에 맞으면 0 -> 조건에 안맞으면 a

In [188]:
np.where(a<0,0,100) # a<0을 체크 -> 조건에 맞으면 0 -> 조건에 안맞으면 100

`-` 요약: `np.argwhere()`이 인덱스의 좌표를 읽을때 가독성이 있으나
조건에 맞는 원소를 출력하거나 처리할때는 `np.where()`이 유용함.

## B. 인덱싱 (실수하지마세요)

`-` 아래와 같은 2d-array를 고려하자.

In [212]:
a = np.arange(12).reshape(3,4)
a

`-` 첫번째 행을 뽑을때, 축의 숫자를 줄이고 싶을때도 있고 축의 숫자를
유지하고 싶을때도 있음.

In [218]:
a[0,:] # 첫번째 행을 뽑는코드1 = 축이 하나 줄어든다

In [219]:
a[[0],:] # 첫번째 행을 뽑는코드2 = 축의 숫자가 유지된다. 

`-` 세번째 열을 뽑을때, 축의 숫자를 줄이고 싶을때도 있고 축의 숫자를
유지하고 싶을때도 있음.

In [215]:
a[:,2] # 세번째 열을 뽑는코드1 = 축이 하나 줄어든다

In [216]:
a[:,[2]] # 세번째 열을 뽑는코드2 = 축의 숫자가 유지된다. 

## C. `np.ix_`

In [220]:
a = np.arange(12).reshape(3,4)
a

In [235]:
a[0:3,0:3]

In [236]:
a[[0,1,2],0:3]

In [237]:
a[0:3,[0,1,2]]

In [238]:
a[[0,1,2],[0,1,2]] # 이건 왜이래?

`-` 사실 np.where 에서 이러한 결과를 보긴했음

In [239]:
a[np.where(a % 5 ==0)]

In [240]:
a[[0,1,2],[0,1,2]] # 이 코드는 a[0:3,0:3] 와 다르다!

-   헷갈리게 만든건 맞음. 결론은 실수하면 안됨.

`-` 그런데 가끔은 `a[[0,1,2],[0,1,2]]` 이 `a[0:3,0:3]`를 의미하도록 하고
싶음.

In [244]:
a[[0,1,2],[0,1,2]] # 이건 이상하게 동작하는데..

In [246]:
a[np.ix_([0,1,2],[0,1,2])] # 이건 상식적으로 동작함..

## D. 메소드의 도움말을 자세히 확인하기

`-` 넘파이에서 `a.sum()`에 대한 도움말은 `np.sum`을 확인하면 더 자세하게
읽을 수 있음.

## E. hstack, vstack

`-` hstack, vstack을 쓰는 사람도 있다.

In [277]:
a = np.arange(6)
b = -a 

In [278]:
np.vstack([a,b]) # 출력이 2차원
# np.stack([a,b],axis=0) -- 이거랑 같은코드

In [279]:
np.hstack([a,b]) # 출력이 1차원
# np.concatenate([a,b],axis=0) -- 이거랑 같은 코드

## F. append

`-` 이걸 쓰는 사람도 있음

`-` 활용방법1: reshape(-1) + concat

In [281]:
a = np.arange(30).reshape(5,6)
b = -np.arange(8).reshape(2,2,2)

In [283]:
a, b

In [284]:
a.shape, b.shape

In [290]:
np.append(a,b)
# np.concatenate([a.reshape(-1), b.reshape(-1)]) -- 같은코드

`-` 활용방법2: reshape(-1) + concat

In [291]:
a = np.arange(2*3*4).reshape(2,3,4)
b = -a

In [293]:
a.shape, b.shape

In [300]:
np.append(a,b,axis=0)
#np.concatenate([a,b],axis=0) -- 이거랑 같은코드

*append와 concat은 약간의 차이가 있음 – append는 3개이상을 concat할 수
없음.*

In [301]:
a = np.arange(2*3*4).reshape(2,3,4)
b = -a
c = 2*a

In [306]:
np.concatenate([a,b,c],axis=0)

In [307]:
np.append(a,b,c,axis=0) # 3개는 에러..

## G. ravel, faltten

In [308]:
a = np.arange(2*3*4).reshape(2,3,4)
a

In [311]:
a.reshape(-1)

In [312]:
a.ravel()

In [313]:
a.flatten()

## H. 통계관련 함수들

`-` 평균, 중앙값

In [321]:
a = np.random.randn(1000)*2 + 1 
a.mean(), np.median(a)

`-` 표준편차, 분산

In [322]:
a = np.random.randn(1000)*2 + 1 
a.var(), a.std()

In [323]:
# 자유도의 조절
a.var(ddof=1), a.std(ddof=1)

`-` corr matrix, cov matrix

In [328]:
x = np.random.randn(10000)
y = np.random.randn(10000)*2
z = np.random.randn(10000)*0.5

In [329]:
np.cov([x,y,z]).round(2)

In [330]:
np.corrcoef([x,y,z]).round(2)

## I. `dtype`

`-` np.array 에는 항상 dtype이 있다.

In [338]:
a = np.array([1,2,3])
a.dtype

In [339]:
a = np.array([1.0, 2.0, 3.0])
a.dtype

`-` 같은 int라고 해도 int16, int32, int64와 같이 타입이 다를 수 있다.

In [343]:
a = np.array([1,2,3], dtype=np.int64)
a

In [344]:
a = np.array([1,2,3], dtype=np.int32)
a

In [345]:
a = np.array([1,2,3], dtype=np.int16)
a

`-` 같은 float라고 해도 float16, float32, float64와 같이 타입이 다를 수
있다.

In [351]:
a = np.array([1,2,3], dtype=np.float64)
a

In [347]:
a = np.array([1,2,3], dtype=np.float32)
a

In [348]:
a = np.array([1,2,3], dtype=np.float16)
a

`-` `dtype`은 아래와 같은 방법으로 변환할 수 있다.

In [352]:
a = np.array([1,2,3])
a

In [353]:
a.dtype

In [356]:
b = a.astype(np.float64)

In [358]:
a, b

`-` 문자열이 넘파이의 원소로 있는 경우

In [368]:
a = np.array(['a','b','c'])
a

In [369]:
a = np.array(['aa','b','c'])
a

In [370]:
a = np.array(['aaaa','b','c'])
a

`-` 문자열+숫자의혼합 -\> 각 원소의 자료형이 문자열로 통일됨

In [373]:
a = np.array([['Korea', 89],['Japan', 55]])
a

In [376]:
a[0,1] # 이것이 string으로 저장되어있다.

In [379]:
a[:,[1]].astype(np.int64)

## J. 브로드캐스팅과 시간측정

(예비학습)