In [1]:
import pandas as pd
import numpy as np

## 예제 8-1 난수 생성 이해하기 
### 전역 난수 생성 vs 지역 난수 생성

### 난수를 발생해 본다.

In [2]:
np.random.randn(5)

array([-0.46277118,  0.55295894, -0.68485094, -0.2248166 , -0.43582746])

In [3]:
np.random.randn(5)

array([-0.90312542,  1.54638752,  1.78926001, -0.4022264 , -0.09808588])

In [4]:
np.random.randn(5)

array([-0.02057537,  0.16011206, -0.75827343, -0.8031486 , -0.81499508])

In [5]:
np.random.randn(5)

array([-0.61031532, -0.16152821,  0.86020418, -0.90859215,  1.61567239])

### 난수를 생성할 때마다 값은 임의로 발생한다.  
난수 발생한 순서를 재현하려면 모든 발생값을 저장해야만 한다.

### seed 를 통해 무작위성을 통제

In [6]:
np.random.seed(123)
np.random.randn(5)

array([-1.0856306 ,  0.99734545,  0.2829785 , -1.50629471, -0.57860025])

In [7]:
np.random.randn(5)

array([ 1.65143654, -2.42667924, -0.42891263,  1.26593626, -0.8667404 ])

다시 seed 값을 설정하고 난수 발생시 동일한 결과로 난수가 발생한다.

In [8]:
np.random.seed(123)
np.random.randn(5)

array([-1.0856306 ,  0.99734545,  0.2829785 , -1.50629471, -0.57860025])

In [9]:
np.random.randn(5)

array([ 1.65143654, -2.42667924, -0.42891263,  1.26593626, -0.8667404 ])

### 전역 난수방식의 문제는 향후 발생하는 모든 난수는 시드의 영향을 받게 된다는 점이다.
따라서 독립적인 난수를 발생하고 싶을 경우 지역 난수를 사용한다. => RandomState

In [10]:
rns = np.random.RandomState(456)
rns.randn(5)

array([-0.6681285 , -0.49820952,  0.61857582,  0.56869225,  1.35050948])

In [11]:
rns.randn(5)

array([ 1.62958853,  0.30196621,  0.44948318, -0.34581112, -0.31523083])

전역 seed에 영향을 받지 않고 지역난수 순서대로 난수를 발생

In [12]:
np.random.seed(123)
rns = np.random.RandomState(456)
rns.randn(5)

array([-0.6681285 , -0.49820952,  0.61857582,  0.56869225,  1.35050948])

In [13]:
rns.randn(5)

array([ 1.62958853,  0.30196621,  0.44948318, -0.34581112, -0.31523083])

## 예제 8-2  데이터프레임 브로드캐스팅 기타 응용 

In [15]:
rng = np.random.RandomState(42)
df_2 = pd.DataFrame((rng.randint(0, 20, (4, 4))), columns=list('QRST'))
df_2

Unnamed: 0,Q,R,S,T
0,6,19,14,10
1,7,6,18,10
2,10,3,7,2
3,1,11,5,1


In [16]:
df_2.iloc[0]

Q     6
R    19
S    14
T    10
Name: 0, dtype: int32

In [17]:
df_2 - df_2.iloc[0]

Unnamed: 0,Q,R,S,T
0,0,0,0,0
1,1,-13,4,0
2,4,-16,-7,-8
3,-5,-8,-9,-9


열을 고정하여 행단위 연산을 한다는 의미로 axis = 1 로 지정

In [18]:
df_2.subtract(df_2.iloc[0],axis = 1)

Unnamed: 0,Q,R,S,T
0,0,0,0,0
1,1,-13,4,0
2,4,-16,-7,-8
3,-5,-8,-9,-9


동일한 요소가 아니면 아무 연산도 일어나지 않고 NaN 처리됨

In [19]:
df_2.subtract(df_2.iloc[0],axis=0)

Unnamed: 0,Q,R,S,T
0,,,,
1,,,,
2,,,,
3,,,,
Q,,,,
R,,,,
S,,,,
T,,,,


In [20]:
df_2['R']

0    19
1     6
2     3
3    11
Name: R, dtype: int32

데이터프레임의 브로드캐스팅은 행단위로 이루어져 열단위 연산처리를 할 수 없다.

In [21]:
df_2 - df_2['R']

Unnamed: 0,Q,R,S,T,0,1,2,3
0,,,,,,,,
1,,,,,,,,
2,,,,,,,,
3,,,,,,,,


열단위 연산은 지원되는 메소드를 통해 진행한다.

In [22]:
df_2.subtract(df_2['R'],axis=0)

Unnamed: 0,Q,R,S,T
0,-13,0,-5,-9
1,1,0,12,4
2,7,0,4,-1
3,-10,0,-6,-10


In [23]:
df_2.subtract(df_2['R'],axis=1)

Unnamed: 0,Q,R,S,T,0,1,2,3
0,,,,,,,,
1,,,,,,,,
2,,,,,,,,
3,,,,,,,,
