Logging into Kaggle for the first time can be daunting. Our competitions often have large cash prizes, public leaderboards, and involve complex data. Nevertheless, we really think all data scientists can rapidly learn from machine learning competitions and meaningfully contribute to our community. To give you a clear understanding of how our platform works and a mental model of the type of learning you could do on Kaggle, we've created a Getting Started tutorial for the Titanic competition. It walks you through the initial steps required to get your first decent submission on the leaderboard. By the end of the tutorial, you'll also have a solid understanding of how to use Kaggle's online coding environment, where you'll have trained your own machine learning model.

So if this is your first time entering a Kaggle competition, regardless of whether you:
- have experience with handling large datasets,
- haven't done much coding,
- are newer to data science, or
- are relatively experienced (but are just unfamiliar with Kaggle's platform),

you're in the right place! 

# Part 1: Get started

In this section, you'll learn more about the competition and make your first submission. 


## Join the competition!

The first thing to do is to join the competition!  Open a new window with **[the competition page](https://www.kaggle.com/c/titanic)**, and click on the **"Join Competition"** button, if you haven't already.  (_If you see a "Submit Predictions" button instead of a "Join Competition" button, you have already joined the competition, and don't need to do so again._)

![](https://i.imgur.com/07cskyU.png)

This takes you to the rules acceptance page.  You must accept the competition rules in order to participate.  These rules govern how many submissions you can make per day, the maximum team size, and other competition-specific details.   Then, click on **"I Understand and Accept"** to indicate that you will abide by the competition rules.

## The challenge

The competition is simple: we want you to use the Titanic passenger data (name, age, price of ticket, etc) to try to predict who will survive and who will die.


## The data

To take a look at the competition data, click on the **<a href="https://www.kaggle.com/c/titanic/data" target="_blank" rel="noopener noreferrer"><b>Data tab</b></a>** at the top of the competition page.  Then, scroll down to find the list of files.  
There are three files in the data: (1) **train.csv**, (2) **test.csv**, and (3) **gender_submission.csv**.

### (1) train.csv

**train.csv** contains the details of a subset of the passengers on board (891 passengers, to be exact -- where each passenger gets a different row in the table).  To investigate this data, click on the name of the file on the left of the screen.  Once you've done this, you can view all of the data in the window.  

![](https://i.imgur.com/cYsdt0n.png)

The values in the second column (**"Survived"**) can be used to determine whether each passenger survived or not: 
- if it's a "1", the passenger survived.
- if it's a "0", the passenger died.

For instance, the first passenger listed in **train.csv** is Mr. Owen Harris Braund.  He was 22 years old when he died on the Titanic.

### (2) test.csv

Using the patterns you find in **train.csv**, you have to predict whether the other 418 passengers on board (in **test.csv**) survived.  

Click on **test.csv** (on the left of the screen) to examine its contents.  Note that **test.csv** does not have a **"Survived"** column - this information is hidden from you, and how well you do at predicting these hidden values will determine how highly you score in the competition! 

### (3) gender_submission.csv

The **gender_submission.csv** file is provided as an example that shows how you should structure your predictions.  It predicts that all female passengers survived, and all male passengers died.  Your hypotheses regarding survival will probably be different, which will lead to a different submission file.  But, just like this file, your submission should have:
- a **"PassengerId"** column containing the IDs of each passenger from **test.csv**.
- a **"Survived"** column (that you will create!) with a "1" for the rows where you think the passenger survived, and a "0" where you predict that the passenger died.


---
Kaggleに初めてログインするのは大変なことです。Kaggleのコンペティションは、高額な賞金、公開リーダーボード、複雑なデータを伴うことがよくあります。しかし、私たちは全てのデータサイエンティストが機械学習コンペティションから迅速に学び、私たちのコミュニティに有意義に貢献できると考えています。Kaggleのプラットフォームの仕組みと、Kaggleでどのような学習ができるかを理解していただくために、Titanicコンペティション用のGetting Startedチュートリアルを作成しました。このチュートリアルでは、初めてリーダーボードに投稿するために必要な最初のステップを説明します。チュートリアルが終わる頃には、Kaggleのオンラインコーディング環境の使い方もしっかりと理解し、自分の機械学習モデルをトレーニングすることができます。

Kaggleコンペティションに初めて参加される方は、以下の点に関わらず、ぜひご参加ください：
- 大規模なデータセットを扱った経験がある
- コーディングをあまりしたことがない
- データサイエンスの初心者
- 比較的経験がある（しかしKaggleのプラットフォームに慣れていない）、
-
あなたは正しい場所にいます！

# その1： スタート

このセクションでは、コンペティションについての詳細を学び、最初の投稿を行います。

## コンペに参加しよう

まず最初にすることは、コンペに参加することです！ [コンペティションページ](https://www.kaggle.com/c/titanic)**で新しいウィンドウを開き、**"コンペティションに参加する "**ボタンをクリックしてください。 (_「大会に参加する」ボタンの代わりに「予想を提出する」ボタンが表示されている場合は、すでに大会に参加していますので、再度参加する必要はありません。_)

![](https://i.imgur.com/07cskyU.png)

ルールの承諾ページに移動します。 大会に参加するには、大会ルールに同意する必要があります。 このルールには、1日に提出できる提出物の数、チームの最大人数、その他大会特有の詳細が規定されています。  次に、**"I Understand and Accept "**をクリックして、競技規則を遵守することを表明してください。

## チャレンジ

タイタニック号の乗客データ（名前、年齢、チケットの値段など）を使って、誰が生き残り、誰が死ぬかを予想してください。

## データ

競技データを見るには、競技ページの上部にある**<a href="https://www.kaggle.com/c/titanic/data" target="_blank" rel="noopener noreferrer"><b>「データ」</b></a>** タブをクリックしてください。そして、下にスクロールしてファイルのリストを見つける。
データには3つのファイルがあります：(1) train.csv、(2) test.esv、(3) gender_submission.csv。

### (1) train.csv

**train.csv**には、乗客の一部（正確には891人）の詳細が含まれている。 このデータを調べるには、画面左のファイル名をクリックしてください。 そうすると、ウィンドウ内のすべてのデータを見ることができる。 

![](https://i.imgur.com/cYsdt0n.png)

2列目の値（**"Survived "**）から、各乗客が生存しているかどうかを判断することができます： 
- が "1 "の場合、その乗客は生存している。
- もし "0 "なら、その乗客は死亡している。

例えば、**train.csv**にリストされている最初の乗客は、Owen Harris Braund氏です。 タイタニック号で死亡したとき、彼は22歳だった。

### (2) test.csv

**train.csv**で見つけたパターンを使って、(**test.csv**にある)他の418人の 乗客が生き残ったかを予測しなければなりません。 

**test.csv**（画面左）をクリックして内容を調べてください。 **test.csv**には**"Survived "**カラムがないことに注意してください。この情報はあなたには隠されており、この隠された値をどれだけうまく予測できたかによって、コンペティションでの高得点が決まります！

### (3) gender_submission.csv

gender_submission.csv**ファイルは、あなたがどのように予測を構成すべきかを示す例として提供されています。 このファイルは、すべての女性乗客が生存し、すべての男性乗客が死亡したと予測しています。 生存に関するあなたの仮説はおそらく異なるでしょうから、別の提出ファイルになるでしょう。 しかし、このファイルと同じように、あなたの提出ファイルには以下が必要です：
- a **"PassengerId "** 列には、**test.csv** からの各乗客の ID が含まれています。
- Survived "**カラム（あなたが作成します！）乗客が生存していると思われる行には "1 "を、乗客が死亡したと予測される行には "0 "を入れます。

# Part 2: Your coding environment

In this section, you'll train your own machine learning model to improve your predictions.  _If you've never written code before or don't have any experience with machine learning, don't worry!  We don't assume any prior experience in this tutorial._

## The Notebook

The first thing to do is to create a Kaggle Notebook where you'll store all of your code.  You can use Kaggle Notebooks to getting up and running with writing code quickly, and without having to install anything on your computer.  (_If you are interested in deep learning, we also offer free GPU access!_) 

Begin by clicking on the **<a href="https://www.kaggle.com/c/titanic/kernels" target="_blank">Code tab</a>** on the competition page.  Then, click on **"New Notebook"**.

![](https://i.imgur.com/v2i82Xd.png)

Your notebook will take a few seconds to load.  In the top left corner, you can see the name of your notebook -- something like **"kernel2daed3cd79"**.

![](https://i.imgur.com/64ZFT1L.png)

You can edit the name by clicking on it.  Change it to something more descriptive, like **"Getting Started with Titanic"**.  

![](https://i.imgur.com/uwyvzXq.png)

## Your first lines of code

When you start a new notebook, it has two gray boxes for storing code.  We refer to these gray boxes as "code cells".

![](https://i.imgur.com/q9mwkZM.png)

The first code cell already has some code in it.  To run this code, put your cursor in the code cell.  (_If your cursor is in the right place, you'll notice a blue vertical line to the left of the gray box._)  Then, either hit the play button (which appears to the left of the blue line), or hit **[Shift] + [Enter]** on your keyboard.

If the code runs successfully, three lines of output are returned.  Below, you can see the same code that you just ran, along with the output that you should see in your notebook.

---
# パート2：コーディング環境1 

このセクションでは、予測を改善するために、あなた自身の機械学習モデルをトレーニングします。コードを書いたことがない人や、機械学習の経験がない人も心配しないでください！このチュートリアルでは 

このチュートリアルでは、事前の経験は一切想定していません。

## ノートブック 

最初にすることは、すべてのコードを保存するKaggleノートブックを作成することです。Kaggleノートブックを使えば、コンピュータに何もインストールすることなく、すぐにコードを書くことができます。
コンピュータに何もインストールする必要がない。(ディープラーニングに興味がある方は、GPUへの無料アクセスも可能です！) 

コンペティションページの**<a href="https://www.kaggle.com/c/titanic/kernels" target="_blank">コードタブ</a>** をクリックします。そして、"New Notebook "をクリックしてください。

![](https://i.imgur.com/v2i82Xd.png)

ノートブックが読み込まれるまで数秒かかります。 左上隅に、ノートブックの名前が表示されます - **"kernel2daed3cd79"**のようなものです。

![](https://i.imgur.com/64ZFT1L.png)

名前をクリックすると編集できます。 タイタニック入門」**のように、より分かりやすい名前に変更してください。

![](https://i.imgur.com/uwyvzXq.png)

## 最初のコード行

新しいノートブックを始めると、コードを格納するための2つの灰色のボックスがあります。 私たちはこれらの灰色のボックスを「コード・セル」と呼んでいます。

![](https://i.imgur.com/q9mwkZM.png)

最初のコード・セルには、すでにいくつかのコードが格納されています。 このコードを実行するには、カーソルをコード・セルに入れてください。 (カーソルが正しい位置にあれば、グレーのボックスの左に青い縦線が表示されます。）  次に、再生ボタン（青い線の左側に表示されます）を押すか、キーボードの **[Shift] + [Enter]** を押してください。

コードが正常に実行されると、3行の出力が返されます。 以下は、先ほど実行したコードと、ノートブックに表示されるはずの出力です。

In [None]:
# This Python 3 environment comes with many helpful analytics libraries installed
# It is defined by the kaggle/python docker image: https://github.com/kaggle/docker-python
# For example, here's several helpful packages to load in 

import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)

# Input data files are available in the "../input/" directory.
# For example, running this (by clicking run or pressing Shift+Enter) will list all files under the input directory

import os
for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))

# Any results you write to the current directory are saved as output.

This shows us where the competition data is stored, so that we can load the files into the notebook.  We'll do that next.

## Load the data

The second code cell in your notebook now appears below the three lines of output with the file locations.

![](https://i.imgur.com/OQBax9n.png)

Type the two lines of code below into your second code cell.  Then, once you're done, either click on the blue play button, or hit **[Shift] + [Enter]**.  

---
これで競技データがどこに保存されているかがわかり、ノートブックにファイルを読み込むことができる。 次にそれを行います。

## データを読み込む

ノートブックの2つ目のコードセルは、ファイルの場所が書かれた3行の出力の下に表示されます。

![](https://i.imgur.com/OQBax9n.png)

以下の2行のコードを2番目のコードセルに入力します。 入力が終わったら、青い再生ボタンをクリックするか、**[Shift] + [Enter]** を押してください。 


In [None]:
train_data = pd.read_csv("/kaggle/input/titanic/train.csv")
train_data.head()

Your code should return the output above, which corresponds to the first five rows of the table in **train.csv**.  It's very important that you see this output **in your notebook** before proceeding with the tutorial!
> _If your code does not produce this output_, double-check that your code is identical to the two lines above.  And, make sure your cursor is in the code cell before hitting **[Shift] + [Enter]**.

The code that you've just written is in the Python programming language. It uses a Python "module" called **pandas** (abbreviated as `pd`) to load the table from the **train.csv** file into the notebook. To do this, we needed to plug in the location of the file (which we saw was `/kaggle/input/titanic/train.csv`).  
> If you're not already familiar with Python (and pandas), the code shouldn't make sense to you -- but don't worry!  The point of this tutorial is to (quickly!) make your first submission to the competition.  At the end of the tutorial, we suggest resources to continue your learning.

At this point, you should have at least three code cells in your notebook.  
![](https://i.imgur.com/ReLhYca.png)

Copy the code below into the third code cell of your notebook to load the contents of the **test.csv** file.  Don't forget to click on the play button (or hit **[Shift] + [Enter]**)!

---
あなたのコードは、**train.csv** の表の最初の5行に対応する上記の出力を返すはずです。 チュートリアルを進める前に、**ノートブック**でこの出力を確認することが非常に重要です！
> あなたのコードがこの出力を生成しない場合は、あなたのコードが上記の2行と同じであることを再確認してください。 そして、**[Shift]+[Enter]**を押す前に、カーソルがコードのセルにあることを確認してください。

あなたが今書いたコードはPythonプログラミング言語です。これは**pandas**（`pd`と略される）と呼ばれるPythonの「モジュール」を使用して、**train.csv**ファイルからノートブックにテーブルをロードします。これを行うには、ファイルの場所を入力する必要があります（`/kaggle/input/titanic/train.csv`と表示されました）。 
> もしあなたがPython（とpandas）にまだ慣れていないのであれば、このコードは意味をなさないだろう！ しかし、心配しないでください！このチュートリアルのポイントは、（素早く！）コンペティションに最初の投稿をすることです。 チュートリアルの最後には、学習を続けるためのリソースを提案します。

この時点で、あなたのノートブックには少なくとも3つのコードセルがあるはずです。 
![](https://i.imgur.com/ReLhYca.png)

以下のコードをノートブックの3番目のコードセルにコピーして、**test.csv** ファイルの内容を読み込みます。 再生ボタンをクリックする（または**[Shift]+[Enter]**キーを押す）ことを忘れないでください！

In [None]:
test_data = pd.read_csv("/kaggle/input/titanic/test.csv")
test_data.head()

As before, make sure that you see the output above in your notebook before continuing.  

Once all of the code runs successfully, all of the data (in **train.csv** and **test.csv**) is loaded in the notebook.  (_The code above shows only the first 5 rows of each table, but all of the data is there -- all 891 rows of **train.csv** and all 418 rows of **test.csv**!_)

# Part 3: Your first submission

Remember our goal: we want to find patterns in **train.csv** that help us predict whether the passengers in **test.csv** survived.

It might initially feel overwhelming to look for patterns, when there's so much data to sort through.  So, we'll start simple.

## Explore a pattern

Remember that the sample submission file in **gender_submission.csv** assumes that all female passengers survived (and all male passengers died).  

Is this a reasonable first guess?  We'll check if this pattern holds true in the data (in **train.csv**).

Copy the code below into a new code cell.  Then, run the cell.

---
前回と同様に、続行する前にノートブックに上記の出力が表示されていることを確認してください。 

すべてのコードが正常に実行されると、すべてのデータ（**train.csv**と**test.csv**にある）がノートブックに読み込まれます。 (_上記のコードでは各テーブルの最初の5行しか表示されていませんが、すべてのデータがそこにあります -- **train.csv**の891行すべてと**test.csv**の418行すべてです！_)

# パート3：最初の投稿

私たちの目標を思い出してください。**train.csv**の中から、**test.csv**の乗客が生き残ったかを予測するのに役立つパターンを見つけたいのです。

これだけ多くのデータを並べ替えると、パターンを探すのに最初は圧倒されるかもしれません。 そこで、簡単なことから始めましょう。

## パターンを探す

**gender_submission.csv**のサンプル投稿ファイルでは、女性乗客は全員生存している（男性乗客は全員死亡している）と仮定していることを思い出してください。 

これは妥当な最初の推測でしょうか？ このパターンがデータ（***train.csv** 内）でも当てはまるかどうか調べてみましょう。

以下のコードを新しいコード・セルにコピーしてください。 そしてそのセルを実行してください。

In [None]:
women = train_data.loc[train_data.Sex == 'female']["Survived"]
rate_women = sum(women)/len(women)

print("% of women who survived:", rate_women)

Before moving on, make sure that your code returns the output above.  The code above calculates the percentage of female passengers (in **train.csv**) who survived.

Then, run the code below in another code cell:

---
次に進む前に、あなたのコードが上記の出力を返すことを確認してください。 上のコードは、（**train.csv** 内の）女性乗客のうち生存者の割合を計算している。

次に、別のコード・セルで以下のコードを実行する：

In [None]:
men = train_data.loc[train_data.Sex == 'male']["Survived"]
rate_men = sum(men)/len(men)

print("% of men who survived:", rate_men)

The code above calculates the percentage of male passengers (in **train.csv**) who survived.

From this you can see that almost 75% of the women on board survived, whereas only 19% of the men lived to tell about it. Since gender seems to be such a strong indicator of survival, the submission file in **gender_submission.csv** is not a bad first guess!

But at the end of the day, this gender-based submission bases its predictions on only a single column.  As you can imagine, by considering multiple columns, we can discover more complex patterns that can potentially yield better-informed predictions.  Since it is quite difficult to consider several columns at once (or, it would take a long time to consider all possible patterns in many different columns simultaneously), we'll use machine learning to automate this for us.

## Your first machine learning model

We'll build what's known as a **random forest model**.  This model is constructed of several "trees" (there are three trees in the picture below, but we'll construct 100!) that will individually consider each passenger's data and vote on whether the individual survived.  Then, the random forest model makes a democratic decision: the outcome with the most votes wins!

![](https://i.imgur.com/AC9Bq63.png)

The code cell below looks for patterns in four different columns (**"Pclass"**, **"Sex"**, **"SibSp"**, and **"Parch"**) of the data.  It constructs the trees in the random forest model based on patterns in the **train.csv** file, before generating predictions for the passengers in **test.csv**.  The code also saves these new predictions in a CSV file **submission.csv**.

Copy this code into your notebook, and run it in a new code cell.

---
上のコードは、（**train.csv**内の）男性乗客のうち生存者の割合を計算するものである。

ここから、乗客のほぼ75％の女性が生存しているのに対し、男性は19％しか生存していないことがわかる。性別は生存の強力な指標であるようなので、**gender_submission.csv**の投稿ファイルは、最初の推測としては悪くない！

しかし、結局のところ、このジェンダーベースの提出ファイルは、たった1つの列に基づいて予測を行っている。 想像できるように、複数の列を考慮することで、より複雑なパターンを発見することができ、より良い情報に基づいた予測ができる可能性があります。 一度に複数の列を考慮するのはかなり難しいので（あるいは、多くの異なる列で可能なすべてのパターンを同時に考慮するには長い時間がかかる）、機械学習を使ってこれを自動化することにしよう。

## 最初の機械学習モデル

ランダムフォレスト・モデル**と呼ばれるものを構築します。 このモデルはいくつかの「木」（下の写真には3本の木がありますが、私たちは100本の木を作ります！）で構成され、それぞれの乗客のデータを個別に検討し、その個人が生き残ったかを投票します。 そして、ランダムフォレスト・モデルは民主的な決定を下す：最も多くの票を集めた結果が勝利する！

![](https://i.imgur.com/AC9Bq63.png)

下のコードセルは、データの4つの異なる列（**"Pclass "**、**"Sex "**、**"SibSp "**、**"Parch "**）のパターンを探します。 train.csv**ファイルのパターンに基づいてランダムフォレストモデルのツリーを構築し、**test.csv**の乗客の予測を生成します。 このコードはまた、これらの新しい予測値を CSV ファイル **submission.csv** に保存します。

このコードをノートブックにコピーして、新しいコード・セルで実行してください。


In [None]:
from sklearn.ensemble import RandomForestClassifier

y = train_data["Survived"]

features = ["Pclass", "Sex", "SibSp", "Parch"]
X = pd.get_dummies(train_data[features])
X_test = pd.get_dummies(test_data[features])

model = RandomForestClassifier(n_estimators=100, max_depth=5, random_state=1)
model.fit(X, y)
predictions = model.predict(X_test)

output = pd.DataFrame({'PassengerId': test_data.PassengerId, 'Survived': predictions})
output.to_csv('submission.csv', index=False)
print("Your submission was successfully saved!")

Make sure that your notebook outputs the same message above (`Your submission was successfully saved!`) before moving on.
> Again, don't worry if this code doesn't make sense to you!  For now, we'll focus on how to generate and submit predictions.

Once you're ready, click on the **"Save Version"** button in the top right corner of your notebook.  This will generate a pop-up window.  
- Ensure that the **"Save and Run All"** option is selected, and then click on the **"Save"** button.
- This generates a window in the bottom left corner of the notebook.  After it has finished running, click on the number to the right of the **"Save Version"** button.  This pulls up a list of versions on the right of the screen.  Click on the ellipsis **(...)** to the right of the most recent version, and select **Open in Viewer**.  
- Click on the **Data** tab on the top of the screen.  Then, click on the **"Submit"** button to submit your results.

![](https://i.imgur.com/1ocaUl4.png)

Congratulations for making your first submission to a Kaggle competition!  Within ten minutes, you should receive a message providing your spot on the leaderboard.  Great work!

---
次に進む前に、あなたのノートブックが上記と同じメッセージ（`Your submission was successfully saved!`）を出力することを確認してください。
> このコードが理解できなくても心配しないでください！ 今のところ、予測の生成と投稿の方法に焦点を当てます。

準備ができたら、ノートブックの右上にある **"Save Version "**ボタンをクリックしてください。 ポップアップウィンドウが表示されます。 
- Save and Run All "**オプションが選択されていることを確認し、**"Save "**ボタンをクリックします。
- ノートブックの左下にウィンドウが表示されます。 実行が終了したら、**"Save Version "**ボタンの右にある数字をクリックしてください。 これにより、画面の右側にバージョンのリストが表示されます。 最新のバージョンの右にある省略記号**(...)**をクリックし、**ビューアで開く**を選択します。 
- 画面上部の**データ**タブをクリックします。 次に、**"Submit "**ボタンをクリックして結果を送信します。

![](https://i.imgur.com/1ocaUl4.png)

Kaggleコンペティションへの初投稿おめでとうございます！ 10分以内に、リーダーボードにあなたの順位が表示されるメッセージが届きます。 お疲れ様でした！

# Part 4: Learn more!

If you're interested in learning more, we strongly suggest our (3-hour) **[Intro to Machine Learning](https://www.kaggle.com/learn/intro-to-machine-learning)** course, which will help you fully understand all of the code that we've presented here.  You'll also know enough to generate even better predictions!

---
# その4：もっと学ぶ

もしもっと学びたいのであれば、(3時間の) **[機械学習入門](https://www.kaggle.com/learn/intro-to-machine-learning)**コースを強くお勧めします。このコースは、私たちがここで紹介したすべてのコードを完全に理解するのに役立ちます。 また、さらに優れた予測を生成するのに十分な知識を得ることができます！