# Introduction to Data Science with Julia

<img src="http://julialang.org/images/logo_hires.png" alt="Julia Logo" width="300"></img>

# 目次
- [続データ分析](#続データ分析)
- [Kaggle](#Kaggle)
- [練習問題](#練習問題)

# 続データ分析

ここでは DataFrames を使ってデータ分析するときに便利な関数を紹介します。

In [None]:
import RDatasets, DataFrames
anscombe = RDatasets.dataset("datasets","anscombe")

各列の平均などは describe を使うと便利でした。

In [None]:
DataFrames.describe(anscombe)

各列ごとに関数を作用させる場合は colwise を使います

基本文法
```julia
    DataFrames.colwise(function, DataFrame)
```

In [None]:
DataFrames.colwise(mean, anscombe) # 各列の平均

 特定の列に対してだけ関数を作用させたい場合は、anscombe[[:X1, :Y1]] のように作用させる列を明示的に指定します。

In [None]:
DataFrames.colwise(mean, anscombe[[:X1, :Y1]])

eachrow, eachcol は、for 文を使って各行・列を抜き出すときに便利です。

同様のことは行番号や列番号を指定しても出来ますが、よくあるバグとして df[i,:] と書くべきところを df[:,i] と書いてしまうといったこともあるので eachrow, eachcol を使ったほうが良いと思います。

In [None]:
for row in DataFrames.eachrow(anscombe)
    println(row)
end

In [None]:
for col in DataFrames.eachcol(anscombe)
    println(col)
end

eachrow を使って試験 1, 2 両方の点数が 60 点以上の学生の ID を抜き出すには次のようになります。

In [None]:
scores = DataFrames.readtable("../data/scores.csv")
DataFrames.head(scores)
ID  = Int[]
for student in DataFrames.eachrow(scores)
    if student[:exam1] >= 60 && student[:exam2] >= 60
        push!(ID, student[:ID])
    end
end
@show ID;

[目次に戻る](#目次)

# Kaggle

以上まででデータ分析に必要な基礎は身についたでしょう。これからはより実践的なデータに触れていきましょう。

とはいえ、統計局が出しているデータなどを用いて分析せよと言われても何をどうしたら良いのかわからないと思うので、[Kaggle](https://www.kaggle.com/) のチュートリアルをやってみましょう。
Kaggle とはデータサイエンティスト達が集うコンペティションサイトです。問題によっては懸賞金が掛かっており、中には総額数億円掛かっている問題もあります。

今回はそんな Kaggel の中にチュートリアルとしてある [Titanic: Machine Learning from Disaster](https://www.kaggle.com/c/titanic) をやってみましょう。Kaggle を利用するには利用登録する必要が有ります。ですが JuliaBox 同様 Sign Up で Google のアカウントを選べばすぐに終わります。

副題に Machine Learning と入っていますが、機械学習を使わなくても参加できるので心配しないでください。

[目次に戻る](#目次)