## np.randomについて 

`numpy.random.seed`等でシード値を固定してしまうと，グローバルなnumpyに影響してしまう．そこで，`numpy.random`の`Generator`と`BitGenerator`が利用できる．ただし自分のv1-15環境では利用できなかった．そこで，レガシーコードである`Randomstate`を利用する．

[参考はこちら](https://numpy.org/doc/stable/reference/random/index.html)  
[レガシーコードについてはこちら](https://numpy.org/doc/stable/reference/random/legacy.html)

In [5]:
from numpy.random import RandomState

In [25]:
seed = 123
rs = RandomState(seed)

In [26]:
rs.randint(0, 10, (2,2))

array([[2, 2],
       [6, 1]])

このメソッドを呼び出した回数ごとに，対応したndarrayが出力される．そこで，コンストラクタと同時に実行すれば，値を固定できる．

In [34]:
seed = 456
RandomState(seed).randint(0, 10, (2,2))

array([[5, 9],
       [4, 5]])

seedにNoneを指定すれば，シードを指定しないのと同じ結果となる．

In [69]:
seed = None
RandomState(seed).randint(0, 10, (2,2))

array([[5, 8],
       [1, 1]])

## indexの取得について 

特定の条件を満たすindexのarrayを取得するには，`np.where`があるが，速度が気になる場合がある．以下のように，1d-arrayにおいて条件を満たす最初のインデックスを求めたいとき，以下のようにbool arrayの`sum`代替できる．

In [61]:
import numpy as np

In [62]:
wanted_index = 123000
a = np.zeros(10000000)
a[wanted_index:] = 1

In [63]:
indice = np.where(a>0)[0]
indice[0]

123000

In [64]:
(a < 1).sum()

123000

## numpyの合同判定について 

ndarrayに条件判定してもブールのndarrayが返ってくるだけであり，二つのndarrayが同一か判定するには，`np.array_equal`を利用する．  
[参考はこちら](https://numpy.org/doc/stable/reference/generated/numpy.array_equal.html)

In [70]:
import numpy as np

In [71]:
a = np.array([0,1,2,3,4,5])
b = np.arange(0,6)
np.array_equal(a,b)

True

大体等しい(ある範囲内に誤差が入る)のを判定する場合は，`numpy.allclose`が利用できる．(値の大きさに比例する誤差も指定できる)  
[参考1](http://oppython.hatenablog.com/entry/2015/05/29/020902)  
[参考2](https://numpy.org/doc/stable/reference/generated/numpy.allclose.html)

In [72]:
a = np.ones(1000)
b = a - 0.0001
np.allclose(a,b,atol=0.01)

True

In [73]:
a = np.ones(1000)
b = a - 0.011
np.allclose(a,b,atol=0.01)

False

object型でも比較できる

In [75]:
a = np.array(["a"]*1000).astype(object)
b = np.array(["a"]*1000).astype(object)

np.array_equal(a,b)

True

## pd.DataFrameの同一判定について 

`pandas.DataFrame.equals`や`pandas.Index.equals`が利用できる．

In [79]:
import pandas as pd
import datetime

In [77]:
a = pd.DataFrame([[1,2,3],[4,5,6],[7,8,9]])

b = pd.DataFrame([[1,2,3],[4,5,6],[7,8,9]])
a.equals(b)

True

seriesの場合，`name`を指定しなくても同一判定される．

In [78]:
a = pd.Series([1,2,3,4,5],name="A")
b = pd.Series([1,2,3,4,5])

a.equals(b)

True

In [80]:
a = pd.date_range(datetime.datetime(2020,12,11,0,0,0), datetime.datetime(2020,12,12,0,0,0), freq="D")
b = pd.date_range(datetime.datetime(2020,12,11,0,0,0), datetime.datetime(2020,12,12,0,0,0), freq="D")

a.equals(b)

True

## numpyの「入っているか」判定

### ndarrayとndarray同士で比較 

numpy.in1dが利用できる．

In [82]:
a = np.array([1,2,3,4,5])
b = np.array([10,9,8,7,6,5,4,3])

np.in1d(a,b)

array([False, False,  True,  True,  True])

集合演算の場合，setにして比較するしかないらしい．

In [83]:
c = np.array([3,4,5])
print(set(a)<set(b))
print(set(c)<set(b))

False
True


### 数値型とndarrayで比較 

In [88]:
a = np.array([13800])
b = np.arange(0,15000)

In [100]:
np.in1d(a,b).item()

True

In [103]:
(a==b).sum() > 0

True