# Titanicデータを用いたデータ分析<br>
## EDA編
alleeksテックブログ機械学習編のコードです。
kaggleのnotebook上で実行可能なコードになっています。手元にデータを落として利用される場合は、ディレクトリなどを変更しながら実行してみてください。

In [None]:
#今後分析していく中で必要なライブラリをimportします
import os 
import pandas as pd 
import numpy as np 
import matplotlib.pyplot as plt 
import seaborn as sns 

%matplotlib inline

In [None]:
#train_df, test_dfという名前でcsvファイルを読み込みます。
train_df = pd.read_csv('../input/titanic/train.csv')
test_df = pd.read_csv('../input/titanic/test.csv')

In [None]:
#Survivedのカラムに着目して、データを可視化します。
f, ax = plt.subplots(1, 2, figsize=(18, 8))
train_df["Survived"].value_counts().plot.pie(explode=[0, 0.1], autopct="%1.1f%%", ax=ax[0], shadow=True)
ax[0].set_title("Survived")
ax[0].set_ylabel("")
sns.countplot("Survived", data=train_df, ax=ax[1])
ax[1].set_title("Survived")
plt.show()

In [None]:
#SexとSurvivedカラムでグループ化してデータを確認します。
train_df.groupby(["Sex", "Survived"])["Survived"].count()

In [None]:
#Sexカラムに着目したデータの分布、SexとSurvivedの関係性の2つを可視化します。
f, ax = plt.subplots(1, 2, figsize=(18, 8))
train_df[["Sex", "Survived"]].groupby(["Sex"]).mean().plot.bar(ax=ax[0])
ax[0].set_title("Survived vs Sex")
sns.countplot("Sex", hue="Survived", data=train_df, ax=ax[1])
ax[1].set_title("Sex:Survived vs Dead")
plt.show()

In [None]:
#PclassとSurvivedの関係性をテーブルで表示します。
pd.crosstab(train_df.Pclass, train_df.Survived, margins=True).style.background_gradient(cmap="summer_r")

In [None]:
#Pclassに着目してデータを可視化します。また、PclassとSurvivedの関係性を可視化します。
f, ax = plt.subplots(1, 2, figsize=(18, 8))
train_df["Pclass"].value_counts().plot.bar(color=['#CD7F32','#FFDF00','#D3D3D3'],ax=ax[0])
ax[0].set_title("Number Of Passengers By Pclass")
ax[0].set_ylabel("Count")
sns.countplot("Pclass", hue="Survived", data=train_df, ax=ax[1])
ax[1].set_title("Pclass:Survived vs Dead")
plt.show()

In [None]:
#Ageの最大値・最小値・中央値を表示します。
print("Oldest Passenger was of:", train_df["Age"].max(), "Years")
print("Youngest Passenger was of:", train_df["Age"].min(), "Years")
print("Average Age on the ship:", train_df["Age"].mean(), "Years")

In [None]:
#PclassとAgeに着目して、Survivedとの関係性を表示します。
#また、Sexのみに着目して、Survivedとの関係性も可視化します。
f, ax = plt.subplots(1, 2, figsize=(18, 8))
sns.violinplot("Pclass", "Age", hue="Survived", data=train_df, split=True, ax=ax[0])
ax[0].set_title("Pclass and Age vs Survived")
ax[0].set_yticks(range(0, 110, 10))
sns.violinplot("Sex", "Age", hue="Survived", data=train_df, split=True, ax=ax[1])
ax[1].set_title("Sex and Age vs Survived")
ax[1].set_yticks(range(0, 110, 10))
plt.show()

In [None]:
#EmbarkedとSurvivedの関係性をテーブルで表示します。
pd.crosstab([train_df.Embarked], [train_df.Survived], margins=True).style.background_gradient(cmap="summer_r")

In [None]:
#1.Embarkedに着目してデータを可視化します。
#2.Embarked着目して、Sexとの関係性を可視化します。
#3.Embarked着目して、Survivedとの関係性を可視化します。
#4.EmbarkedとPclassに着目して、Survivedとの関係性を可視化します。
f, ax = plt.subplots(2, 2, figsize=(20, 15))
sns.countplot("Embarked", data=train_df, ax=ax[0, 0])
ax[0, 0,].set_title("No. Of Passenger Boarded")
sns.countplot("Embarked", hue="Sex", data=train_df, ax=ax[0, 1])
ax[0, 1].set_title("Male-Female Split for Embarked")
sns.countplot("Embarked", hue="Survived", data=train_df, ax=ax[1, 0])
ax[1, 0].set_title("Embarked vs Survived")
sns.countplot("Embarked", hue="Pclass", data=train_df, ax=ax[1, 1])
ax[1, 1].set_title("Embarked vs Pclass")
plt.subplots_adjust(wspace=0.2, hspace=0.5)
plt.show()

In [None]:
#SibSpとSurvivedとの関係性をテーブルで表示します。
pd.crosstab([train_df.SibSp],[train_df.Survived]).style.background_gradient(cmap='summer_r')

In [None]:
#SibSpとSurvivedとの関係性を可視化します。
sns.factorplot("SibSp", "Survived", data=train_df)
plt.show()

In [None]:
#SibSpとPclassとの関係性をテーブルで表示します。
pd.crosstab(train_df.SibSp,train_df.Pclass).style.background_gradient(cmap='summer_r')

In [None]:
#ParchとPclassとの関係性をテーブルで表示します。
pd.crosstab(train_df.Parch,train_df.Pclass).style.background_gradient(cmap='summer_r')

In [None]:
#ParchとSurvivedとの関係性を可視化します。
sns.factorplot("Parch", "Survived", data=train_df)
plt.show()

In [None]:
#Fareの統計情報を表示します。
train_df.Fare.describe(include="all")

In [None]:
#Fareに着目してヒストグラムを表示します。
sns.distplot(train_df.Fare)
plt.show()

In [None]:
#Pclassに着目して、Fareのヒストグラムを表示します。
f,ax=plt.subplots(1,3,figsize=(20,8))
sns.distplot(train_df[train_df['Pclass']==1].Fare,ax=ax[0])
ax[0].set_title('Fares in Pclass 1')
sns.distplot(train_df[train_df['Pclass']==2].Fare,ax=ax[1])
ax[1].set_title('Fares in Pclass 2')
sns.distplot(train_df[train_df['Pclass']==3].Fare,ax=ax[2])
ax[2].set_title('Fares in Pclass 3')
plt.show()

In [None]:
#特徴量の相関関係を表示します。
sns.heatmap(train_df.corr(),annot=True,cmap='RdYlGn',linewidths=0.2) 
fig=plt.gcf()
fig.set_size_inches(10,8)
plt.show()

ここまでが、EDAとなります。<br>
次のFeature Engineering編は、ここまでのコードを実行している前提で進めていきます。