# Julia для науки о данных
Подготовлено [@nassarhuda](https://github.com/nassarhuda)! 😃

В этом руководстве мы обсудим, почему *Julia* - это инструмент, который вы хотите использовать в своих приложениях для обработки данных.

Мы рассмотрим следующее:
* **Данные**
* Обработка данных
* Визуализация

### Данные. Постройте прочные отношения с вашими данными.
Каждое задание по науке о данных имеет один основной компонент - _данные_! Скорее всего,
Вы хотите использовать свои данные, чтобы узнать что-то новое. Но как насчет данных, которые у вас уже есть? Давайте удостоверимся, что вы можете их читать, сохранять и понимать, прежде чем начинать использование.

Джулия делает этот шаг действительно простым с помощью структур данных и пакетов для обработки данных, а также,
существующих функций, которые легко использовать на ваших данных.

Цель этой первой части - познакомить вас с некоторыми инструментами Джулии для управления вашими данными.

Сначала давайте загрузим csv-файл с github, с которым мы можем работать.

Примечание: `загрузка` зависит от внешних инструментов, таких как curl, wget или fetch. Таким образом, вы должны иметь один из них.

In [None]:
# обновим окружение
using Pkg
Pkg.update

In [None]:
# установим пакеты
using Pkg
for p in ["CSV", "DataFrames", "RDatasets", "FileIO"]
    Pkg.add(p)
end

In [None]:
using CSV, DataFrames, DelimitedFiles

Мы можем использовать команды оболочки типа `ls` в Julia, поставив перед ними точку с запятой.

In [None]:
;ls

In [None]:
pwd()

По умолчанию `readcsv` заполнит массив данными, сохраненными во входном файле .csv. Если мы установим ключевое слово аргумент `header` в` true`, мы получим второй выходной массив.

In [None]:
P = CSV.read("programminglanguages.csv")

Здесь мы пишем нашу первую маленькую функцию. <br>
Теперь вы можете ответить на такие вопросы, как "когда был создан язык X?"

In [None]:
function language_created_year(P,language::String)
    loc = findfirst(P[:,2].==language)
    return P[loc,1]
end

In [None]:
language_created_year(P,"Python")

In [None]:
language_created_year(P,"Julia")

In [None]:
language_created_year(P,"julia")

Как и ожидалось, это не вернет то, что вы хотите, но, к счастью, манипуляции со строками действительно просты в Julia!

In [None]:
function language_created_year_v2(P,language::String)
    loc = findfirst(lowercase.(P[:,2]).==lowercase.(language))
    return P[loc,1]
end
language_created_year_v2(P,"julia")

**Запись в файлы** <br>

Вы можете использовать разные разделители с функцией `readdlm` (` readcsv` это просто экземпляр `readdlm`). <br>

Для записи в файлы мы можем использовать `writecsv` или` writedlm`. <br>

Давайте запишем эти же данные в файл с другим разделителем.

In [None]:
CSV.write("programming_languages_data2.csv", P)

In [None]:
Tx = readdlm("programminglanguages.csv", ',')

In [None]:
writedlm("programming_languages_data.txt", Tx, ',')

In [None]:
writedlm("programming_languages_data2.txt", Tx, '-')

а также проверьте, что мы можем использовать `readdlm`, чтобы правильно прочитать наш новый текстовый файл.

In [None]:
P_new_delim = readdlm("programming_languages_data2.txt", '-')

### Словари
Попробуем сохранить вышеуказанные данные в формате словаря!

Во-первых, давайте инициализируем пустой словарь

In [None]:
dict = Dict{Integer,Vector{String}}()

Здесь мы сказали Джулии, что хотим, чтобы `dict` принимал только целые числа как ключи, а векторы строк как значения.

Однако мы могли бы инициализировать пустой словарь, не предоставляя эту информацию (в зависимости от нашего приложения).

In [None]:
dict2 = Dict()

Этот словарь принимает ключи и значения любого типа!

Теперь давайте наполним словарь ключами и годами, которые содержат все языки программирования, созданные в каждом году, в качестве значений.

In [None]:
for i = 1:size(P,1)
    year,lang = P[i,:]
    
    if year in keys(dict)
        dict[year] = push!(dict[year],lang)
    else
        dict[year] = [lang]
    end
end

Теперь вы можете выбрать любой год и узнать, какие языки программирования были изобретены в этом году.

In [None]:
dict[2003]

### DataFrames! 
*Привет фанатам R!*
Еще один способ поиграться с данными в Julia - это использовать DataFrame.

Это требует загрузки пакета `DataFrames`

In [None]:
# using DataFrames
df = DataFrame(year = P[:,1], language = P[:,2])

Вы можете получить доступ к столбцам по имени заголовка или по индексу столбца.

В этом случае `df[1]` эквивалентно `df [:year]`.

Обратите внимание, что если мы хотим получить доступ к столбцам по имени заголовка, мы добавляем к имени заголовка двоеточие! В Julia это означает, что имена заголовков обрабатываются как *символы*.

In [None]:
df[!,:year]

**`DataFrames` предоставляют некоторые удобные функции при работе с данными**

Во-первых, они используют «отсутствующий» тип.

In [None]:
a = missing
typeof(a)

Давайте посмотрим, что происходит, когда мы пытаемся добавить «пропущенный» тип к числу.

In [None]:
a + 1

`DataFrames` предоставляет` description`, который может дать вам быструю статистику о каждом столбце в вашем фрейме данных

In [None]:
describe(df)

### RDatasets

Мы можем использовать наборы данных RD для работы с уже существующими наборами данных.

In [None]:
using RDatasets
iris = dataset("datasets", "iris")

Обратите внимание, что данные, загруженные с помощью набора данных, хранятся в виде DataFrame.

In [None]:
typeof(iris) 

Резюме, которое мы получаем из `description` на` iris`, дает нам гораздо больше информации, чем резюме на `df`!

In [None]:
describe(iris)

### Missing Values Support

In [None]:
foods = ["apple", "cucumber", "tomato", "banana"]

In [None]:
calories = [missing,47,22,105]

In [None]:
typeof(calories)

In [None]:
using Statistics

In [None]:
mean(calories)

missings все портят! 😑

К счастью, мы можем игнорировать их `skipmissing`!

In [None]:
mean(skipmissing(calories))

О, ПОДОЖДИТЕ! Лирическое отступление. Как я получила смайлики там?

Попробуйте это:

`\:expressionless: + <TAB>`

In [None]:
😑 = 0 # expressionless
😀 = 1
😞 = -1

(😀 + 😞)^😑

In [None]:
prices = [0.85,1.6,0.8,0.6,]

In [None]:
dataframe_calories = DataFrame(item=foods,calories=calories)

In [None]:
dataframe_prices = DataFrame(item=foods,price=prices)

Мы также можем объединить два блока данных вместе

In [None]:
DF = join(dataframe_calories,dataframe_prices,on=:item)

### FileIO

In [None]:
using FileIO

In [None]:
# julialogo = download("https://avatars0.githubusercontent.com/u/743164?s=200&v=4","julialogo.png")

Опять же, давайте проверим, работает ли эта загрузка!

In [None]:
;ls

In [None]:
import Pkg
Pkg.add("ImageIO")

In [None]:
X1 = load("julialogo.png")

Ниже мы видим, что Юлия хранит этот логотип в виде множества цветов.

In [None]:
@show typeof(X1);
@show size(X1);