# Работа с таблицами и их представлениями

Чтобы начать работать с данными в таблицах нам понадобятся библиотеки **[DataFrames](https://juliadata.github.io/DataFrames.jl/stable/)** и **[CSV](https://juliadata.github.io/CSV.jl/stable/)**. В Julia есть встроенный пакетный менеджер **[Pkg](https://docs.julialang.org/en/v1/stdlib/Pkg/index.html)**, через него можно загружать обновлять и удалять библиотеки. Добавление выглядит следующим образом:

In [5]:
using Pkg
Pkg.add("DataFrames")
Pkg.add("CSV")

[32m[1m Resolving[22m[39m package versions...
[32m[1m  Updating[22m[39m `~/.julia/environments/v1.2/Project.toml`
[90m [no changes][39m
[32m[1m  Updating[22m[39m `~/.julia/environments/v1.2/Manifest.toml`
[90m [no changes][39m
[32m[1m Resolving[22m[39m package versions...
[32m[1m  Updating[22m[39m `~/.julia/environments/v1.2/Project.toml`
[90m [no changes][39m
[32m[1m  Updating[22m[39m `~/.julia/environments/v1.2/Manifest.toml`
[90m [no changes][39m


Вся работа с табличным файлом осуществляется с помощью CSV, а DataFrames нужен для внутреннего представления табличных данных в программе. Чтение таблицы из файла с последующим сохранением в объект выглядит следующим образом:

In [11]:
using CSV
using DataFrames

df = CSV.read("C:\\Users\\Екатерина\\Desktop\\ml-master\\decision_trees\\titanic.csv")
typeof(df)

DataFrame

df теперь хранит в себе всю таблицу с названиями столбцов, их типом и непосредственно значениями строк. Отобразить первые 5 элементов можно следующим способом:

In [14]:
first(df, 5)

Unnamed: 0_level_0,table,year,class,measure,type,estimate
Unnamed: 0_level_1,Int64,Int64,String,Int64,Int64,Float64⍰
1,101,2015,W1,1,1,350.0
2,101,2015,W2,1,1,285.0
3,101,2015,W3,1,1,70.0
4,101,2015,W4,1,1,7.0
5,101,2015,W5,1,1,264.0


Обращение к определенным диапазонам элементов удобно осуществлять с помощью `:` оператора.
Например можно получить доступ к первым десяти строкам шестого столбца:

In [21]:
df[1:10, [6]]

Unnamed: 0_level_0,estimate
Unnamed: 0_level_1,Float64⍰
1,350.0
2,285.0
3,70.0
4,7.0
5,264.0
6,13.0
7,29.0
8,12.0
9,13.0
10,517.0


Либо получить шестую запись в фрейме с названиями и типами первых четырех столбцов:

In [24]:
df[6, 1:4]

Unnamed: 0_level_0,table,year,class,measure
Unnamed: 0_level_1,Int64,Int64,String,Int64
6,101,2015,W6,1


Julia **[гомоиконичный](https://ru.wikipedia.org/wiki/%D0%93%D0%BE%D0%BC%D0%BE%D0%B8%D0%BA%D0%BE%D0%BD%D0%B8%D1%87%D0%BD%D0%BE%D1%81%D1%82%D1%8C)** язык, что позволяет с помощью объектов типа `Symbol` обращаться к столбцам по их названию:

In [26]:
df[1:5, [:estimate]]

Unnamed: 0_level_0,estimate
Unnamed: 0_level_1,Float64⍰
1,350.0
2,285.0
3,70.0
4,7.0
5,264.0


In [27]:
typeof(:estimate)

Symbol

# Типизация, функции и рекурсия

Julia - язык с динамической типизацией, следовательно можно не указывать тип возвращаемого функцией значения и типы аргументов функции.
Возможность указания типов присутствует, что может помочь в отладке и улучшении производительности кода.
Пример:

In [40]:
function foo(a, b)
    a * b
end

bar(a, b) = a * b

function foo_(a::Float64, b::Float64)
   a * b 
end

bar_(a::Float64, b::Float64) = a * b

@show foo(12.0, 10.0)
@show bar(12.0, 10.0)

@show foo_(12.0, 10.0)
@show bar_(12.0, 10.0)

foo(12.0, 10.0) = 120.0
bar(12.0, 10.0) = 120.0
foo_(12.0, 10.0) = 120.0
bar_(12.0, 10.0) = 120.0


120.0

Функция `foo` выполняет перемножение чисел любых типов, `foo_` в свою очередь только чисел с плавающей точкой. `bar` и `bar_` это просто болле удобная форма записи.

Возвращаемое значение функции - это результат выполнения последнего выражения в теле функции. Если необходим более сложный сценарий то используют ключевое слово `return`. Пример вычисления факториала:

In [47]:
function fact(n)
    if n == 0
        return 1
    else
        recurse = fact(n-1)
        result = n * recurse
        return result
    end
end

fact(5)

120

Также поддерживаются анонимные функции, с использованием `->` оператора, например:

In [45]:
map(x -> x^2, [1, 2, 3])

3-element Array{Int64,1}:
 1
 4
 9

`map()` применяет анонимную функцию возведения в квадрат к каждому из элементов массива.

# Составные типы данных

Объявление составных типов данных осуществляется с помощью ключевого слова `struct`. Внтури укзываются поля и функции структуры. Если тип поля не указан, то по умолчанию он будет `Any`. Тела функций и значения полей задаются в конструкторе. Подробнее о типах конструкторов и их использовании читать **[тут](https://docs.julialang.org/en/v1/manual/constructors/)**. Пример простого составного типа:

In [49]:
struct Foo
    bar
    baz::Int
    qux::Float64
end

test = Foo("foo", 123, 321.123)

Foo("foo", 123, 321.123)