In [1]:
# この Python 3 環境には、多くの便利な分析ライブラリがインストールされています
# これは、kaggle/python Docker イメージによって定義されています: https://github.com/kaggle/docker-python
# たとえば、ロードする便利なパッケージがいくつかあります


# Numpy（線形代数：ベクトルや行列の操作、数値計算を効率的に行う）をインポート
import numpy as np 

# Pandas（データ操作と分析のための強力なライブラリ。特に構造化データ（表形式データ）の処理に優秀）をインポート
# data processing, CSV file I/O (e.g. pd.read_csv)：このコードばデータ処理とCSVファイルの入出力（I/O）を行うためのものであることを示す。
import pandas as pd

# 入力データファイルは読み取り専用の「../input/」ディレクトリにあります
# たとえば、これを実行すると（実行をクリックするか、Shift+Enter を押す）、入力ディレクトリの下にあるすべてのファイルが一覧表示されます.

# OSモジュールのインプット
# オペレーティングシステムとの対話を行うための標準ライブラリ。ファイルシステム操作に使用。
import os

# 指定されたディレクトリ（ここでは/kaggle/input）を再帰的（全てのディレクトリを探索）に探索する。
for dirname, _, filenames in os.walk('/kaggle/input'):
    # 現在のディレクトリ内のすべてのファイルについてループ（繰り返し処理）を行う。
    for filename in filenames:
        # ディレクトリ名（dirname）とファイル名（filename）を結合して、完全なファイルパスを作成し、ファイルの完全なパスを出力する。
        print(os.path.join(dirname, filename))

# 「Save & Run All」を使用してバージョンを作成すると、現在のディレクトリ (/kaggle/working/) に最大 20 GB を書き込むことができ、出力として保存されます
# /kaggle/temp/ に一時ファイルを書き込むこともできますが、現在のセッション外には保存されません


/kaggle/input/titanic/train.csv
/kaggle/input/titanic/test.csv
/kaggle/input/titanic/gender_submission.csv


In [2]:
#学習データ(train.csv)とテストデータ(test.csv)のデータフレームへの読み込み
train = pd.read_csv('/kaggle/input/titanic/train.csv')
test = pd.read_csv('/kaggle/input/titanic/test.csv')

In [13]:
#必要なライブラリのインポート

# matplotlib.pyplotのインポート、データの視覚化（プロット）を行う。
import matplotlib.pyplot as plt
# Jupyter Notebook内でプロットをインライン表示するためのもの,このコマンドを使用すると、プロットがノートブックのセル内に直接表示され、外部ウィンドウを開く必要がなくなる。
%matplotlib inline

# seabornのインポート,統計的データの視覚化を行う。
import seaborn as sns


# 1.データの確認をする。

In [14]:
#trainデータの確認
train.head()


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [15]:
# trainの基本情報を表示
print(train.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB
None


In [16]:
#trainの欠損値の確認
print(train.isnull().sum())

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64


In [17]:
#テストデータの確認
test.head()


Unnamed: 0,PassengerId,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,892,3,"Kelly, Mr. James",male,34.5,0,0,330911,7.8292,,Q
1,893,3,"Wilkes, Mrs. James (Ellen Needs)",female,47.0,1,0,363272,7.0,,S
2,894,2,"Myles, Mr. Thomas Francis",male,62.0,0,0,240276,9.6875,,Q
3,895,3,"Wirz, Mr. Albert",male,27.0,0,0,315154,8.6625,,S
4,896,3,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",female,22.0,1,1,3101298,12.2875,,S


In [18]:
# testの基本情報を表示
print(test.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 418 entries, 0 to 417
Data columns (total 11 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  418 non-null    int64  
 1   Pclass       418 non-null    int64  
 2   Name         418 non-null    object 
 3   Sex          418 non-null    object 
 4   Age          332 non-null    float64
 5   SibSp        418 non-null    int64  
 6   Parch        418 non-null    int64  
 7   Ticket       418 non-null    object 
 8   Fare         417 non-null    float64
 9   Cabin        91 non-null     object 
 10  Embarked     418 non-null    object 
dtypes: float64(2), int64(4), object(5)
memory usage: 36.0+ KB
None


In [19]:
# 欠損値の確認
print(test.isnull().sum())

PassengerId      0
Pclass           0
Name             0
Sex              0
Age             86
SibSp            0
Parch            0
Ticket           0
Fare             1
Cabin          327
Embarked         0
dtype: int64


# 2.欠損値のない数値データで予測してみる。

欠損値のない数値データ
Pclass（等級）、SibSp（兄弟、配偶者の数）、Parch（親、子供の数）

## ① 説明変数、目的変数を設定する。

In [30]:
#説明変数にPclass、SibSp、Parchを設定
features=['Pclass', 'SibSp', 'Parch']
x_train=train[features]
x_test=test[features]

#目的変数にSurvivedを設定
y_train=train['Survived']



## ② モデルの学習
ランダムフォレストを使用する。

In [31]:
#必要なライブラリのインポート
from sklearn.ensemble import RandomForestClassifier


In [33]:
# モデルの作成と訓練
model = RandomForestClassifier(n_estimators=100, random_state=1)
model.fit(x_train, y_train)


## ③ モデルの評価


In [39]:
# 必要なライブラリのインポート
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

In [40]:
# 訓練データと検証データに分割
x_train_part, x_val, y_train_part, y_val = train_test_split(x_train, y_train, test_size=0.2, random_state=1)

# モデルの訓練
model.fit(x_train_part, y_train_part)


## ④ 検証データで予測


In [41]:
y_pred = model.predict(x_val)


## ⑤ 精度の評価

In [43]:
accuracy = accuracy_score(y_val, y_pred)
accuracy

0.6536312849162011

## ⑥ テストデータで予測する。

In [44]:
predictions = model.predict(x_test)
predictions

array([0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 1, 0, 1, 0, 0, 0, 0, 0, 1, 1,
       1, 1, 1, 0, 1, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 1, 0, 0,
       1, 0, 1, 0, 1, 0, 1, 0, 1, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0,
       0, 1, 1, 0, 0, 0, 0, 1, 1, 1, 0, 1, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0,
       0, 1, 0, 0, 1, 0, 1, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 1, 0, 1, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 1,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 1, 0, 1, 0, 1, 1, 1, 0, 0, 0,
       0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 1, 1,
       0, 1, 1, 1, 0, 1, 1, 0, 1, 0, 1, 0, 0, 0, 0, 1, 0, 0, 1, 0, 1, 0,
       0, 0, 0, 0, 1, 1, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 1, 1, 0,
       0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 1, 0, 1, 1, 1, 1,
       1, 0, 0, 1, 0, 1, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0,
       0, 0, 1, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 1, 0, 0, 1, 0, 0, 1, 0, 0, 1, 0, 1, 0, 0,

## 3.データの提出


In [46]:
submission = pd.DataFrame({'PassengerId': test['PassengerId'], 'Survived': predictions})
submission.to_csv('submission_Kadai_titanic_1.csv', index = False )