# Introduction to DataFrames

**[Bogumił Kamiński](http://bogumilkaminski.pl/about/), February 8, 2019**


[Гитхаб](https://github.com/JuliaData/DataFrames.jl)

[Документация](https://juliadata.github.io/DataFrames.jl/stable/index.html)

[Источник](https://github.com/bkamins/Julia-DataFrames-Tutorial)

Начнем с загрузки пакета `DataFrames`.

In [None]:
]add DataFrames

In [1]:
using DataFrames, Random

## Конструкторы и конвертация

В этом разделе вы увидите несколько способов создания DataFrame с помощью конструктора `DataFrame()`.

Во-первых, мы могли бы создать пустой DataFrame,

In [3]:
DataFrame() # empty DataFrame

Или мы могли бы вызвать конструктор, используя ключевые аргументы, чтобы добавить столбцы в `DataFrame`.

In [4]:
DataFrame(A=1:3, B=rand(3), C=randstring.([3,3,3]))

Unnamed: 0_level_0,A,B,C
Unnamed: 0_level_1,Int64,Float64,String
1,1,0.905888,yZ6
2,2,0.00570254,Aeu
3,3,0.258783,CgK


Мы можем создать DataFrame из словаря, в этом случае ключи из словаря будут отсортированы для создания столбцов DataFrame.

In [5]:
x = Dict("A" => [1,2], "B" => [true, false], "C" => ['a', 'b'])
DataFrame(x)

Unnamed: 0_level_0,A,B,C
Unnamed: 0_level_1,Int64,Bool,Char
1,1,True,'a'
2,2,False,'b'


Вместо явного создания словаря вначале, как указано выше, мы могли бы передавать аргументы `DataFrame` с синтаксисом пар ключ-значение словаря. 

Обратите внимание, что в этом случае мы используем символы для обозначения имен столбцов, а аргументы не сортируются. Например, символ `:A` производит имя первого столбца:

In [6]:
DataFrame(:A => [1,2], :B => [true, false], :C => ['a', 'b'])

Unnamed: 0_level_0,A,B,C
Unnamed: 0_level_1,Int64,Bool,Char
1,1,True,'a'
2,2,False,'b'


Далее создадим `DataFrame` из массива векторов, каждый из которых пойдет в колонку.

In [7]:
DataFrame([rand(3) for i in 1:3])

Unnamed: 0_level_0,x1,x2,x3
Unnamed: 0_level_1,Float64,Float64,Float64
1,0.556549,0.461891,0.715673
2,0.432215,0.364826,0.231595
3,0.484971,0.00784312,0.250763


Массив скаляров, переданный в конструктор вызовет ошибку

In [2]:
DataFrame(rand(3))

ArgumentError: ArgumentError: 'Array{Float64,1}' iterates 'Float64' values, which don't satisfy the Tables.jl Row-iterator interface

Вместо этого используйте транспонированный вектор, если у вас есть вектор скаляров (таким образом вы эффективно передаете двухмерный массив в конструктор, что не запрещено).

In [5]:
DataFrame(permutedims([1, 2, 3]))

Unnamed: 0_level_0,x1,x2,x3
Unnamed: 0_level_1,Int64,Int64,Int64
1,1,2,3


или передайте вектор именованных кортежей

In [6]:
v = [(a=1, b=2), (a=3, b=4)]
DataFrame(v)

Unnamed: 0_level_0,a,b
Unnamed: 0_level_1,Int64,Int64
1,1,2
2,3,4


Передайте второй аргумент, чтобы дать имена столбцам:

In [7]:
DataFrame([1:3, 4:6, 7:9], [:A, :B, :C])

Unnamed: 0_level_0,A,B,C
Unnamed: 0_level_1,Int64,Int64,Int64
1,1,4,7
2,2,5,8
3,3,6,9


В качестве альтернативы вы можете передать именованный кортеж векторов:

In [8]:
n = (a=1:3, b=11:13)
DataFrame(n)

Unnamed: 0_level_0,a,b
Unnamed: 0_level_1,Int64,Int64
1,1,11
2,2,12
3,3,13


Здесь мы создаем `DataFrame` из матрицы,

In [9]:
DataFrame(rand(3,4))

Unnamed: 0_level_0,x1,x2,x3,x4
Unnamed: 0_level_1,Float64,Float64,Float64,Float64
1,0.358043,0.526234,0.904521,0.679043
2,0.881128,0.642247,0.558941,0.607284
3,0.405449,0.219605,0.494481,0.10176


и здесь мы делаем то же самое, но также передаем имена столбцов.

In [10]:
DataFrame(rand(3,4), Symbol.('a':'d'))

Unnamed: 0_level_0,a,b,c,d
Unnamed: 0_level_1,Float64,Float64,Float64,Float64
1,0.987944,0.815043,0.313832,0.128915
2,0.117095,0.557371,0.313287,0.583946
3,0.259421,0.965546,0.119332,0.623753


Мы также можем создать неинициализированный DataFrame. 

Здесь мы передаем типы столбцов, имена и количество строк; в столбце **:C** мы получаем `missing`

In [11]:
DataFrame([Int, Float64, Any], [:A, :B, :C], 1)

Unnamed: 0_level_0,A,B,C
Unnamed: 0_level_1,Int64,Float64,Any
1,100663296,1.07081e-313,missing


Далее создадим `DataFrame` где `:C` неопределел `#undef`

In [15]:
DataFrame([Int, Float64, String], [:A, :B, :C], 1)

Unnamed: 0_level_0,A,B,C
Unnamed: 0_level_1,Int64,Float64,String
1,1,4.31289e-316,#undef


Для инициализации `DataFrame` с именами столбцов, но без строк используйте

In [12]:
DataFrame([Int, Float64, String], [:A, :B, :C], 0) 

Unnamed: 0_level_0,A,B,C
Unnamed: 0_level_1,Int64,Float64,String


или

In [13]:
DataFrame(A=Int[], B=Float64[], C=String[])

Unnamed: 0_level_0,A,B,C
Unnamed: 0_level_1,Int64,Float64,String


Этот синтаксис дает нам быстрый способ создания неинициализированной однородной DataFrame.

In [14]:
DataFrame(Int, 3, 5)

Unnamed: 0_level_0,x1,x2,x3,x4,x5
Unnamed: 0_level_1,Int64,Int64,Int64,Int64,Int64
1,64884288,64880648,90586800,68092480,1
2,64884352,90586800,87058656,68092480,0
3,64884416,87058576,0,0,0


Этот пример похож, но имеет неоднородные столбцы.

In [15]:
DataFrame([Int, Float64], 4)

Unnamed: 0_level_0,x1,x2
Unnamed: 0_level_1,Int64,Float64
1,21671613376,4.5085e-316
2,89721936,4.43285e-316
3,68092480,4.20488e-316
4,0,0.0


Наконец, мы можем создать DataFrame, скопировав существующий DataFrame. 

Обратите внимание, что `copy` создает неглубокую копию.

In [16]:
x = DataFrame(a=1:2, b='a':'b')
y = copy(x)
(x === y), isequal(x, y)

(false, true)

Вызов DataFrame для объекта DataFrame также выполняет поверхностное копирование.

In [17]:
x = DataFrame(a=1:2, b='a':'b')
y = DataFrame(x)
(x === y), isequal(x, y)

(false, true)

Вы можете создать аналогичный неинициализированный `DataFrame` на основе оригинального:

In [18]:
similar(x)

Unnamed: 0_level_0,a,b
Unnamed: 0_level_1,Int64,Char
1,64884288,'\0'
2,72923376,'\0'


In [19]:
similar(x, 0) # количество строк в новом DataFrame, передаётся в качестве второго аргумента

Unnamed: 0_level_0,a,b
Unnamed: 0_level_1,Int64,Char


Вы также можете создать новый `DataFrame` из` SubDataFrame` или `DataFrameRow` (подробно обсуждается позже в руководстве)

In [20]:
sdf = view(x, [1,1], :)

Unnamed: 0_level_0,a,b
Unnamed: 0_level_1,Int64,Char
1,1,'a'
2,1,'a'


In [21]:
typeof(sdf)

SubDataFrame{DataFrame,DataFrames.Index,Array{Int64,1}}

In [22]:
DataFrame(sdf)

Unnamed: 0_level_0,a,b
Unnamed: 0_level_1,Int64,Char
1,1,'a'
2,1,'a'


In [23]:
dfr = x[1, :]

Unnamed: 0_level_0,a,b
Unnamed: 0_level_1,Int64,Char
1,1,'a'


In [24]:
DataFrame(dfr)

Unnamed: 0_level_0,a,b
Unnamed: 0_level_1,Int64,Char
1,1,'a'


### Преобразование в матрицу

Давайте начнем с создания DataFrame с двумя строками и двумя столбцами.

In [29]:
x = DataFrame(x=1:2, y=["A", "B"])

Unnamed: 0_level_0,x,y
Unnamed: 0_level_1,Int64,String
1,1,A
2,2,B


Мы можем создать матрицу, передав эту DataFrame в Matrix.

In [25]:
Matrix(x)

2×2 Array{Any,2}:
 1  'a'
 2  'b'

Это сработало бы, даже если бы в DataFrame были некоторые пропущенные данные:

In [26]:
x = DataFrame(x=1:2, y=[missing,"B"])

Unnamed: 0_level_0,x,y
Unnamed: 0_level_1,Int64,String⍰
1,1,missing
2,2,B


In [27]:
Matrix(x)

2×2 Array{Any,2}:
 1  missing
 2  "B"    

В двух предыдущих матричных примерах Юлия создала матрицы с элементами типа `Any`. Мы можем более четко видеть, что тип матрицы выводится, когда мы передаем, например, DataFrame целых чисел в Matrix, создавая двумерный массив Array Int64:

In [28]:
x = DataFrame(x=1:2, y=3:4)

Unnamed: 0_level_0,x,y
Unnamed: 0_level_1,Int64,Int64
1,1,3
2,2,4


In [29]:
Matrix(x)

2×2 Array{Int64,2}:
 1  3
 2  4

В следующем примере Джулия правильно определит, что `Union` необходим для выражения типа результирующей «Матрицы» (которая содержит `missing`).

In [30]:
x = DataFrame(x=1:2, y=[missing,4])

Unnamed: 0_level_0,x,y
Unnamed: 0_level_1,Int64,Int64⍰
1,1,missing
2,2,4


In [31]:
Matrix(x)

2×2 Array{Union{Missing, Int64},2}:
 1   missing
 2  4       

Обратите внимание, что мы не можем форсировать преобразование `missing` значений в `Int`ы!

In [32]:
Matrix{Int}(x)

ErrorException: cannot convert a DataFrame containing missing values to Matrix{Int64} (found for column y)

### Преобразование в табличные структуры, связанные с NamedTuple

In [33]:
x = DataFrame(x=1:2, y=["A", "B"])

Unnamed: 0_level_0,x,y
Unnamed: 0_level_1,Int64,String
1,1,A
2,2,B


In [None]:
]add Tables

In [36]:
using Tables

Сначала мы конвертируем DataFrame в NamedTuple векторов

In [37]:
ct = Tables.columntable(x)

(x = [1, 2], y = ["A", "B"])

Далее мы конвертируем его в вектор из `NamedTuples`

In [38]:
rt = Tables.rowtable(x)

2-element Array{NamedTuple{(:x, :y),Tuple{Int64,String}},1}:
 (x = 1, y = "A")
 (x = 2, y = "B")

Можно собрать `DataFrame` обратно с помощью конструктора:

In [39]:
DataFrame(ct)

Unnamed: 0_level_0,x,y
Unnamed: 0_level_1,Int64,String
1,1,A
2,2,B


In [40]:
DataFrame(rt)

Unnamed: 0_level_0,x,y
Unnamed: 0_level_1,Int64,String
1,1,A
2,2,B


### Уникальные имена для столбцов

Используя ключевое слово `makeunique` можно запретить дублирование имен столбцов

In [41]:
df = DataFrame(:a=>1, :a=>2, :a_1=>3; makeunique=true)

Unnamed: 0_level_0,a,a_2,a_1
Unnamed: 0_level_1,Int64,Int64,Int64
1,1,2,3


In [44]:
df = DataFrame(:a=>1, :a=>2, :a_1=>3)

ArgumentError: ArgumentError: Duplicate variable names: :a. Pass makeunique=true to make them unique using a suffix automatically.

Заметьте, что `nothing` не отображается при отображении `DataFrame`:

In [43]:
DataFrame(x=[1, nothing], y=[nothing, "a"])

Unnamed: 0_level_0,x,y
Unnamed: 0_level_1,Union…,Union…
1,1.0,
2,,a
