# Daru の紹介 (Sameer Deshmukh Deccan Ruby Conf 2015, Pune, India. の翻訳)

In [1]:
require 'daru'
require 'distribution'

true

### Daru::Vector の作成

`Vector` は `index` オプションを使用しインデックス付けすることが可能です。また `name` optionで名前付けを行うことも可能です。


In [2]:
vector = Daru::Vector.new(
  [20,40,25,50,45,12], index: ['cherry', 'apple', 'barley', 'wheat', 'rice', 'sugar'], 
  name: "Prices of stuff.")

Daru::Vector(6),Daru::Vector(6)
Unnamed: 0_level_1,Prices of stuff.
cherry,20
apple,40
barley,25
wheat,50
rice,45
sugar,12


### 値の取得について

`[]` オペレーター中に取得したいindexを指定し値を取得することができます。


In [3]:
vector['rice']

45

### 複数の値の取得について

複数の値はコンマで区切って取り出すことができます。

In [4]:
vector['rice', 'wheat', 'sugar']

Daru::Vector(3),Daru::Vector(3)
Unnamed: 0_level_1,Prices of stuff.
rice,45
wheat,50
sugar,12


### 範囲指定によるスライスの取得

インデックスを範囲で指定すると、`Daru::Vector` のスライスを取得できます。

In [5]:
vector['barley'..'sugar']

Daru::Vector(4),Daru::Vector(4)
Unnamed: 0_level_1,Prices of stuff.
barley,25
wheat,50
rice,45
sugar,12


### 値の代入

＃[] =演算子に直接インデックスを指定して値を代入することができます。

In [6]:
vector['barley'] = 1500
vector

Daru::Vector(6),Daru::Vector(6)
Unnamed: 0_level_1,Prices of stuff.
cherry,20
apple,40
barley,1500
wheat,50
rice,45
sugar,12


### Daru::DataFrameの作成

：indexオプションは、DataFrameの行のインデックスを指定するために使用され、：orderオプションは、それらの順序を決めます。


In [7]:
df = Daru::DataFrame.new({
  'col0' => [1,2,3,4,5,6],
  'col2' => ['a','b','c','d','e','f'],
  'col1' => [11,22,33,44,55,66]
  }, 
  index: ['one', 'two', 'three', 'four', 'five', 'six'], 
  order: ['col0', 'col1', 'col2']
)

Daru::DataFrame(6x3),Daru::DataFrame(6x3),Daru::DataFrame(6x3),Daru::DataFrame(6x3)
Unnamed: 0_level_1,col0,col1,col2
one,1,11,a
two,2,22,b
three,3,33,c
four,4,44,d
five,5,55,e
six,6,66,f


### 列情報へのアクセス

DataFrame の列へは、＃[]演算子を使用してアクセスできます。
返り値は `Daru::Vector` になります。


In [8]:
df['col1']

Daru::Vector(6),Daru::Vector(6)
Unnamed: 0_level_1,col1
one,11
two,22
three,33
four,44
five,55
six,66


### 複数列へのアクセス

カンマを使うことで複数の列にアクセスできます。 

In [9]:
df['col2', 'col0']

Daru::DataFrame(6x2),Daru::DataFrame(6x2),Daru::DataFrame(6x2)
Unnamed: 0_level_1,col2,col0
one,a,1
two,b,2
three,c,3
four,d,4
five,e,5
six,f,6


### 列の範囲へのアクセス

＃[]で範囲を指定すると、DataFrameの列単位でスライスを取得できます。

In [10]:
df['col1'..'col2']

Daru::DataFrame(6x2),Daru::DataFrame(6x2),Daru::DataFrame(6x2)
Unnamed: 0_level_1,col1,col2
one,11,a
two,22,b
three,33,c
four,44,d
five,55,e
six,66,f


### 列の代入

`Daru::Vector` をDataFrameの列に割り当てることができます。
VectorのインデックスはDataFrameのインデックスとオートでマッチするようになっています。


In [11]:
df['col1'] = Daru::Vector.new(['this', 'is', 'some','new','data','here'], 
  index: ['one', 'three','two','six','four', 'five'])
df

Daru::DataFrame(6x3),Daru::DataFrame(6x3),Daru::DataFrame(6x3),Daru::DataFrame(6x3)
Unnamed: 0_level_1,col0,col1,col2
one,1,this,a
two,2,some,b
three,3,is,c
four,4,data,d
five,5,here,e
six,6,new,f


### 行の代入

#row []関数を使用すると、ある行にアクセスできます。


In [12]:
df.row['four']

Daru::Vector(3),Daru::Vector(3)
Unnamed: 0_level_1,four
col0,4
col1,data
col2,d


### 行の範囲へのアクセス

#row []関数で行インデックスの範囲を指定すると、それらの行を含むDataFrameが得られます。


In [13]:
df.row['three'..'five']

Daru::DataFrame(3x3),Daru::DataFrame(3x3),Daru::DataFrame(3x3),Daru::DataFrame(3x3)
Unnamed: 0_level_1,col0,col1,col2
three,3,is,c
four,4,data,d
five,5,here,e


### 行の代入

`Daru::Vector` で行を代入することもできます。
インデックスは、DataFrameの順序に従って照合されます。


In [14]:
df.row['five'] = [666,555,333]

[666, 555, 333]

### 欠損値を持つVectorの統計計算

`Daru::Vector` には、統計メソッドが用意されています。
またそれらは欠損値を持つデータにも適用できます。


In [15]:
vector = Daru::Vector.new([1,3,5,nil,2,53,nil])
vector.mean

12.8

### DataFrameの統計計算

DataFrameに対して基本的な統計計算を行うメソッドがあります。
これは全ての数値の列に対して適用されます。


In [16]:
df.mean

Daru::Vector(1),Daru::Vector(1)
Unnamed: 0_level_1,mean
col0,113.66666666666669


DataFrameのベクトルに関する統計情報は `#describe` で確認できます。

In [17]:
df.describe

Daru::DataFrame(5x1),Daru::DataFrame(5x1)
Unnamed: 0_level_1,col0
count,6.0
mean,113.66666666666669
std,270.5924364550249
min,1.0
max,666.0


## 時系列情報のサポート

Daruは、タイムスタンプに基づいてデータをインデックスするための時系列操作APIを提供しています。
これにより、財務データ（または時間とともに変化するデータ）を分析するためのツールになります。


### DateTimeIndex について

DateTimeIndexは、タイムスタンプに基づいてデータをインデックス付けするための特別なインデックスです。

DateTimeIndexの範囲は、DateTimeIndex.date_range関数を使用して作成できます。
`:freq` オプションは、日付インデックス内の各タイムスタンプ間の時間頻度を決定します。


In [18]:
index = Daru::DateTimeIndex.date_range(:start => '2012', :periods => 1000, :freq => '3D')

#<Daru::DateTimeIndex(1000, frequency=3D) 2012-01-01T00:00:00+00:00...2020-03-16T00:00:00+00:00>

`Daru::Vector` は、新しく作成したインデックスオブジェクトを：index引数に渡すだけで作成できます。


In [19]:
timeseries = Daru::Vector.new(1000.times.map {rand}, index: index)

Daru::Vector(1000),Daru::Vector(1000).1
2012-01-01T00:00:00+00:00,0.45836645686396216
2012-01-04T00:00:00+00:00,0.6351146156025986
2012-01-07T00:00:00+00:00,0.13413445494873177
2012-01-10T00:00:00+00:00,0.3743229530604322
2012-01-13T00:00:00+00:00,0.875087098334482
2012-01-16T00:00:00+00:00,0.9622171479517642
2012-01-19T00:00:00+00:00,0.5583460774688372
2012-01-22T00:00:00+00:00,0.3379372323175742
2012-01-25T00:00:00+00:00,0.5413438011212667
2012-01-28T00:00:00+00:00,0.8743517834603848


### 部分タイムスタンプによるデータへのアクセス

`Vector` または `DataFrame` が `DateTimeIndex` によってインデックス付けされると、日付に区間に属するデータを取得するために日付を部分的に指定できます。
(たとえば、2012年に属するすべてのデータにアクセスする場合などです。)

In [20]:
timeseries['2012']

Daru::Vector(122),Daru::Vector(122).1
2012-01-01T00:00:00+00:00,0.45836645686396216
2012-01-04T00:00:00+00:00,0.6351146156025986
2012-01-07T00:00:00+00:00,0.13413445494873177
2012-01-10T00:00:00+00:00,0.3743229530604322
2012-01-13T00:00:00+00:00,0.875087098334482
2012-01-16T00:00:00+00:00,0.9622171479517642
2012-01-19T00:00:00+00:00,0.5583460774688372
2012-01-22T00:00:00+00:00,0.3379372323175742
2012-01-25T00:00:00+00:00,0.5413438011212667
2012-01-28T00:00:00+00:00,0.8743517834603848


タイムスタンプが2012年3月のデータにアクセスする場合，下記になります。

In [21]:
timeseries['2012-3']

Daru::Vector(11),Daru::Vector(11).1
2012-03-01T00:00:00+00:00,0.7579949548933078
2012-03-04T00:00:00+00:00,0.1370953468531082
2012-03-07T00:00:00+00:00,0.1882204988706395
2012-03-10T00:00:00+00:00,0.8804705800929217
2012-03-13T00:00:00+00:00,0.5974529095455657
2012-03-16T00:00:00+00:00,0.6625250885009867
2012-03-19T00:00:00+00:00,0.6544256378233533
2012-03-22T00:00:00+00:00,0.1841604898962395
2012-03-25T00:00:00+00:00,0.5149997543563835
2012-03-28T00:00:00+00:00,0.422862624529486


日付をぴったり指定する場合，下記になります。

In [22]:
timeseries['2012-3-10']

0.8804705800929217

商品の価格に関する1秒あたりのデータがあり、2012年3月23日午後12時42分に分の価格にアクセスしたい場合下記になります。


In [23]:
index      = Daru::DateTimeIndex.date_range(
  :start => '2012-3-23 11:00', :periods => 20000, :freq => 'S')

seconds_ts = Daru::Vector.new(20000.times.map { rand(50) }, index: index)
seconds_ts['2012-3-23 12:42']

Daru::Vector(60),Daru::Vector(60).1
2012-03-23T12:42:00+00:00,12
2012-03-23T12:42:01+00:00,12
2012-03-23T12:42:02+00:00,4
2012-03-23T12:42:03+00:00,2
2012-03-23T12:42:04+00:00,9
2012-03-23T12:42:05+00:00,9
2012-03-23T12:42:06+00:00,42
2012-03-23T12:42:07+00:00,13
2012-03-23T12:42:08+00:00,40
2012-03-23T12:42:09+00:00,8


## Arel ライクなシンタックス


### where句

In [24]:
df = Daru::DataFrame.new({
  a: [1,2,3,4,5,6]*100,
  b: ['a','b','c','d','e','f']*100,
  c: [11,22,33,44,55,66]*100
}, index: (1..600).to_a.shuffle)
df

Daru::DataFrame(600x3),Daru::DataFrame(600x3),Daru::DataFrame(600x3),Daru::DataFrame(600x3)
Unnamed: 0_level_1,a,b,c
590,1,a,11
598,2,b,22
494,3,c,33
61,4,d,44
557,5,e,55
575,6,f,66
312,1,a,11
572,2,b,22
536,3,c,33
449,4,d,44


スカラ値比較を行い、真の値を返す場所でDataFrameを返す場合の記法


In [25]:
df.where(df[:a].eq(2).or(df[:c].eq(55)))

Daru::DataFrame(200x3),Daru::DataFrame(200x3),Daru::DataFrame(200x3),Daru::DataFrame(200x3)
Unnamed: 0_level_1,a,b,c
598,2,b,22
557,5,e,55
572,2,b,22
208,5,e,55
163,2,b,22
450,5,e,55
80,2,b,22
399,5,e,55
541,2,b,22
439,5,e,55
