# Introduction to DataFrames
**[Bogumił Kamiński](http://bogumilkaminski.pl/about/), February 8, 2019**

In [1]:
using DataFrames # load package

## Split-apply-combine

In [2]:
x = DataFrame(id=[1,2,3,4,1,2,3,4], id2=[1,2,1,2,1,2,1,2], v=rand(8))

Unnamed: 0_level_0,id,id2,v
Unnamed: 0_level_1,Int64,Int64,Float64
1,1,1,0.518197
2,2,2,0.0999881
3,3,1,0.215874
4,4,2,0.0269969
5,1,1,0.709069
6,2,2,0.64879
7,3,1,0.855573
8,4,2,0.702534


In [3]:
gx1 = groupby(x, :id)

Unnamed: 0_level_0,id,id2,v
Unnamed: 0_level_1,Int64,Int64,Float64
1,1,1,0.518197
2,1,1,0.709069

Unnamed: 0_level_0,id,id2,v
Unnamed: 0_level_1,Int64,Int64,Float64
1,4,2,0.0269969
2,4,2,0.702534


In [4]:
gx2 = groupby(x, [:id, :id2])

Unnamed: 0_level_0,id,id2,v
Unnamed: 0_level_1,Int64,Int64,Float64
1,1,1,0.518197
2,1,1,0.709069

Unnamed: 0_level_0,id,id2,v
Unnamed: 0_level_1,Int64,Int64,Float64
1,4,2,0.0269969
2,4,2,0.702534


In [5]:
parent(gx2) # получить родителя DataFrame 

Unnamed: 0_level_0,id,id2,v
Unnamed: 0_level_1,Int64,Int64,Float64
1,1,1,0.518197
2,2,2,0.0999881
3,3,1,0.215874
4,4,2,0.0269969
5,1,1,0.709069
6,2,2,0.64879
7,3,1,0.855573
8,4,2,0.702534


In [6]:
vcat(gx2...) # вернуться к DataFrame, но в другом порядке строк, чем оригинал

Unnamed: 0_level_0,id,id2,v
Unnamed: 0_level_1,Int64,Int64,Float64
1,1,1,0.518197
2,1,1,0.709069
3,2,2,0.0999881
4,2,2,0.64879
5,3,1,0.215874
6,3,1,0.855573
7,4,2,0.0269969
8,4,2,0.702534


In [7]:
DataFrame(gx2) # то же

Unnamed: 0_level_0,id,id2,v
Unnamed: 0_level_1,Int64,Int64,Float64
1,1,1,0.518197
2,1,1,0.709069
3,2,2,0.0999881
4,2,2,0.64879
5,3,1,0.215874
6,3,1,0.855573
7,4,2,0.0269969
8,4,2,0.702534


In [8]:
groupvars(gx2) # вектор имен группирующих переменных

2-element Array{Symbol,1}:
 :id 
 :id2

In [9]:
groupindices(gx2) # групповые индексы в родительском(gx2)

8-element Array{Union{Missing, Int64},1}:
 1
 2
 3
 4
 1
 2
 3
 4

In [10]:
x = DataFrame(id = [missing, 5, 1, 3, missing], x = 1:5)

Unnamed: 0_level_0,id,x
Unnamed: 0_level_1,Int64⍰,Int64
1,missing,1
2,5,2
3,1,3
4,3,4
5,missing,5


In [11]:
groupby(x, :id) # по умолчанию группы включают missing и не сортируются

Unnamed: 0_level_0,id,x
Unnamed: 0_level_1,Int64⍰,Int64
1,missing,1
2,missing,5

Unnamed: 0_level_0,id,x
Unnamed: 0_level_1,Int64⍰,Int64
1,3,4


In [12]:
groupby(x, :id, sort=true, skipmissing=true) # но мы можем изменить это

Unnamed: 0_level_0,id,x
Unnamed: 0_level_1,Int64⍰,Int64
1,1,3

Unnamed: 0_level_0,id,x
Unnamed: 0_level_1,Int64⍰,Int64
1,5,2


In [13]:
using Statistics
x = DataFrame(id=rand('a':'d', 100), v=rand(100));
by(x, :id, :v=>mean) # применить функцию к каждой группе фрейма данных

Unnamed: 0_level_0,id,v_Statistics.mean
Unnamed: 0_level_1,Char,Float64
1,'c',0.404394
2,'b',0.505675
3,'a',0.545504
4,'d',0.436952


In [14]:
by(x, :id, :v=>mean, sort=true) # мы можем отсортировать вывод

Unnamed: 0_level_0,id,v_Statistics.mean
Unnamed: 0_level_1,Char,Float64
1,'a',0.545504
2,'b',0.505675
3,'c',0.404394
4,'d',0.436952


In [15]:
by(x, :id, res=:v=>mean) # таким образом, мы можем установить имя для столбца

Unnamed: 0_level_0,id,res
Unnamed: 0_level_1,Char,Float64
1,'c',0.404394
2,'b',0.505675
3,'a',0.545504
4,'d',0.436952


In [16]:
by(x, :id, res1=:v=>mean, res2=:v=>sum) # Вы можете выполнять несколько операций

Unnamed: 0_level_0,id,res1,res2
Unnamed: 0_level_1,Char,Float64,Float64
1,'c',0.404394,10.5142
2,'b',0.505675,16.1816
3,'a',0.545504,13.0921
4,'d',0.436952,7.86513


In [17]:
x = DataFrame(id=rand('a':'d', 100), x1=rand(100), x2=rand(100))
aggregate(x, :id, sum) # применить функцию ко всем столбцам фрейма данных в группах, заданных id

Unnamed: 0_level_0,id,x1_sum,x2_sum
Unnamed: 0_level_1,Char,Float64,Float64
1,'a',11.2726,11.9281
2,'d',15.2965,11.2197
3,'b',13.4985,13.6769
4,'c',13.7427,11.6944


In [18]:
aggregate(x, :id, sum, sort=true) # также можно отсортировать

Unnamed: 0_level_0,id,x1_sum,x2_sum
Unnamed: 0_level_1,Char,Float64,Float64
1,'a',11.2726,11.9281
2,'b',13.4985,13.6769
3,'c',13.7427,11.6944
4,'d',15.2965,11.2197


Новая фича `mapcols`

In [19]:
x = DataFrame(rand(3, 5))

Unnamed: 0_level_0,x1,x2,x3,x4,x5
Unnamed: 0_level_1,Float64,Float64,Float64,Float64,Float64
1,0.391043,0.827254,0.962721,0.427237,0.949182
2,0.425643,0.300228,0.435158,0.314345,0.520474
3,0.059566,0.128958,0.300679,0.636596,0.229729


In [20]:
mapcols(mean, x)

Unnamed: 0_level_0,x1,x2,x3,x4,x5
Unnamed: 0_level_1,Float64,Float64,Float64,Float64,Float64
1,0.292084,0.418813,0.566186,0.459393,0.566461


In [21]:
map(mean, eachcol(x, false)) # отобразить функцию на каждый столбец и вернуть вектор

5-element Array{Float64,1}:
 0.2920839761044651 
 0.41881320493626495
 0.566186290850884  
 0.4593927686588217 
 0.5664613507696966 

In [22]:
foreach(c -> println(c[1], ": ", mean(c[2])), eachcol(x, true)) # итерация возвращает пару с именем и значениями столбца

x1: 0.2920839761044651
x2: 0.41881320493626495
x3: 0.566186290850884
x4: 0.4593927686588217
x5: 0.5664613507696966


In [23]:
colwise([mean,minimum,maximum], x) # colwise похож, но принимает вектор функций

3×5 Array{Float64,2}:
 0.292084  0.418813  0.566186  0.459393  0.566461
 0.059566  0.128958  0.300679  0.314345  0.229729
 0.425643  0.827254  0.962721  0.636596  0.949182

In [24]:
x[:id] = [1,1,2]
colwise(mean,groupby(x, :id)) # и это также работает на GroupedDataFrame

2-element Array{Array{Float64,1},1}:
 [0.408343, 0.563741, 0.69894, 0.370791, 0.734828, 1.0] 
 [0.059566, 0.128958, 0.300679, 0.636596, 0.229729, 2.0]

In [25]:
map(r -> r.x1/r.x2, eachrow(x))
# теперь возвращаемое значение - DataFrameRow, которое работает аналогично однострочному DataFrame.

3-element Array{Float64,1}:
 0.4726995678774371
 1.4177341956077698
 0.461903748266367 