# Introduction to DataFrames
**[Bogumił Kamiński](http://bogumilkaminski.pl/about/), January 18, 2019**

In [1]:
using DataFrames # load package

## Получение базовой информации о фрейме данных

Давайте начнем с создания объекта `DataFrame`,` x`, чтобы мы могли научиться получать информацию об этом фрейме данных.

In [2]:
x = DataFrame(A = [1, 2], B = [1.0, missing], C = ["a", "b"])

Unnamed: 0_level_0,A,B,C
Unnamed: 0_level_1,Int64,Float64⍰,String
1,1,1.0,a
2,2,missing,b


Стандартная функция `size` работает для получения размеров` DataFrame`,

In [3]:
size(x), size(x, 1), size(x, 2)

((2, 3), 2, 3)

а также `nrow` и` ncol` из языка R (`length` в прошлом давал количество столбцов, но теперь устарел).

In [4]:
nrow(x), ncol(x)

(2, 3)

`describe` предоставляет базовую сводную статистику данных в вашем `DataFrame` (ознакомьтесь с помощью `?describe` для получения информации о том, как настроить отображаемую статистику).

In [5]:
describe(x, stats=:all)

Unnamed: 0_level_0,variable,mean,std,min,q25,median,q75,max,nunique,nmissing,first,last,eltype
Unnamed: 0_level_1,Symbol,Union…,Union…,Any,Union…,Union…,Union…,Any,Union…,Union…,Any,Any,DataType
1,A,1.5,0.707107,1,1.25,1.5,1.75,2,,,1,2,Int64
2,B,1.0,,1.0,1.0,1.0,1.0,1.0,,1.0,1.0,missing,Float64
3,C,,,a,,,,b,2.0,,a,b,String


`names` вернет имена всех столбцов,

In [6]:
names(x)

3-element Array{Symbol,1}:
 :A
 :B
 :C

и `eltypes` возвращает их типы.

In [6]:
eltypes(x)

3-element Array{Type,1}:
 Int64                  
 Union{Missing, Float64}
 String                 

Здесь мы создадим несколько больших `DataFrame`

In [7]:
y = DataFrame(rand(1:10, 1000, 10));

а затем мы можем использовать `first`, чтобы заглянуть в первые несколько строк

In [8]:
first(y, 5)

Unnamed: 0_level_0,x1,x2,x3,x4,x5,x6,x7,x8,x9,x10
Unnamed: 0_level_1,Int64,Int64,Int64,Int64,Int64,Int64,Int64,Int64,Int64,Int64
1,6,7,8,6,9,7,3,5,6,5
2,10,2,2,1,1,6,3,7,2,1
3,1,10,7,8,7,9,4,6,5,6
4,3,8,3,9,8,2,8,7,4,9
5,3,4,5,6,5,2,9,5,10,9


и `last`, чтобы увидеть его нижние ряды.

In [9]:
last(y, 3)

Unnamed: 0_level_0,x1,x2,x3,x4,x5,x6,x7,x8,x9,x10
Unnamed: 0_level_1,Int64,Int64,Int64,Int64,Int64,Int64,Int64,Int64,Int64,Int64
1,1,3,4,3,8,1,3,6,5,6
2,7,9,8,10,1,4,8,3,6,9
3,6,8,7,9,9,3,7,6,9,6


Использование `first` и` last` без количества строк вернет первый/последний `DataFrameRow` в` DataFrame`

In [10]:
first(y)

Unnamed: 0_level_0,x1,x2,x3,x4,x5,x6,x7,x8,x9,x10
Unnamed: 0_level_1,Int64,Int64,Int64,Int64,Int64,Int64,Int64,Int64,Int64,Int64
1,6,7,8,6,9,7,3,5,6,5


In [11]:
last(y)

Unnamed: 0_level_0,x1,x2,x3,x4,x5,x6,x7,x8,x9,x10
Unnamed: 0_level_1,Int64,Int64,Int64,Int64,Int64,Int64,Int64,Int64,Int64,Int64
1000,6,8,7,9,9,3,7,6,9,6


### Самые элементарные операции get и set

Есть четыре способа получить один из столбцов Датафрейма как `Vector`. 

*Обратите внимание, что начиная с Julia 1.0 вы можете получить доступ к имени столбца с помощью оператора `.`.*

In [12]:
x

Unnamed: 0_level_0,A,B,C
Unnamed: 0_level_1,Int64,Float64⍰,String
1,1,1.0,a
2,2,missing,b


In [13]:
x[1], x[:A], x.A # all get the vector stored in our DataFrame

([1, 2], [1, 2], [1, 2])

In [14]:
x[:, 1] # обратите внимание, что это создает копию

2-element Array{Int64,1}:
 1
 2

In [15]:
x[:, 1] === x[:, 1]

false

Чтобы захватить одну строку как DataFrame, мы можем проиндексировать следующим образом

In [16]:
x[1:1, :]

Unnamed: 0_level_0,A,B,C
Unnamed: 0_level_1,Int64,Float64⍰,String
1,1,1.0,a


In [17]:
x[1, :] # this will produces a DataFrameRow

Unnamed: 0_level_0,A,B,C
Unnamed: 0_level_1,Int64,Float64⍰,String
1,1,1.0,a


Мы можем получить одну ячейку или элемент с одинаковым синтаксисом, чтобы получить элемент массива.

In [19]:
x[1, 1]

1

или новый `DataFrame`, который является подмножеством строк и столбцов

In [18]:
x[1:2, 1:2]

Unnamed: 0_level_0,A,B
Unnamed: 0_level_1,Int64,Float64⍰
1,1,1.0
2,2,missing


Назначение может быть сделано в диапазонах к скаляру,

In [19]:
x[1:2, 1:2] = 1
x

Unnamed: 0_level_0,A,B,C
Unnamed: 0_level_1,Int64,Float64⍰,String
1,1,1.0,a
2,1,1.0,b


к вектору длины, равной количеству назначенных строк,

In [20]:
x[1:2, 1:2] = [1,2]
x

Unnamed: 0_level_0,A,B,C
Unnamed: 0_level_1,Int64,Float64⍰,String
1,1,1.0,a
2,2,2.0,b


или к другому фрейму данных соответствующего размера.

In [21]:
x[1:2, 1:2] = DataFrame([5 6; 7 8])
x

Unnamed: 0_level_0,A,B,C
Unnamed: 0_level_1,Int64,Float64⍰,String
1,5,6.0,a
2,7,8.0,b


### Views

Вы можете просто создать представление DataFrame (это более эффективно, чем создание материализованного выделения). Вот возможные варианты возвращаемого значения.

In [22]:
@view x[1:2, 1]

2-element view(::Array{Int64,1}, 1:2) with eltype Int64:
 5
 7

In [23]:
@view x[1,1]

0-dimensional view(::Array{Int64,1}, 1) with eltype Int64:
5

In [24]:
@view x[1, 1:2] # a DataFrameRow, the same as for x[1, 1:2] without a view

Unnamed: 0_level_0,A,B
Unnamed: 0_level_1,Int64,Float64⍰
1,5,6.0


In [25]:
@view x[1:2, 1:2] # a SubDataFrame

Unnamed: 0_level_0,A,B
Unnamed: 0_level_1,Int64,Float64⍰
1,5,6.0
2,7,8.0
