# 探索的データ分析により仮説を立てる

In [None]:
import pandas as pd
import pandas_profiling
import matplotlib.pyplot as plt
import seaborn as sns

# Pandas Profilingで概要を確認する

In [None]:
train = pd.read_csv('../input/titanic/train.csv')
train.profile_report()

# 各特徴量について目的変数（Survived）との関係を確認する

### 年齢(Age)と目的変数（Survived）との関係
- ### 若年層や年配の人は比較的生存率が高い
- ### 20代〜30代は生存率が低い

In [None]:
plt.hist(train.loc[train["Survived"] == 0, "Age"].dropna(), bins=30, alpha=0.5, label="0")
plt.hist(train.loc[train["Survived"] == 1, "Age"].dropna(), bins=30, alpha=0.5, label="1")
plt.xlabel("Age")
plt.ylabel("count")
plt.legend(title="Survived")
plt.show()

### 兄弟姉妹が同乗している人(SibSp)と目的変数（Survived）との関係
- ### SibSpが0と3以上の人は生存率が低い

In [None]:
sns.countplot(x="SibSp", hue="Survived", data=train)
plt.legend(loc="upper right", title="Survived")
plt.show()

### 両親・子供が同乗している人(Parch)と目的変数（Survived）との関係
- ### Parchが0と４以上の人は生存率が低い

In [None]:
sns.countplot(x='Parch', hue='Survived', data=train)
plt.legend(loc='upper right', title='Survived')
plt.show()

### 乗車賃料(Fare)と目的変数（Survived）との関係
- ### 運賃が30以下の乗客は生存率が低く、その中でも特に10以下の乗客はより生存率が低い

In [None]:
plt.hist(train.loc[train['Survived'] == 0, 'Fare'].dropna(),
         range=(0, 250), bins=25, alpha=0.5, label='0')
plt.hist(train.loc[train['Survived'] == 1, 'Fare'].dropna(),
         range=(0, 250), bins=25, alpha=0.5, label='1')
plt.xlabel('Fare')
plt.ylabel('count')
plt.legend(title='Survived')
plt.xlim(-5, 250)
plt.show()

### 乗客の階級 (Pclass)と目的変数（Survived）との関係
- ### 乗客の階級が下がるにつれ（Pclassが大きくなるにつれ）、生存率が低くなる

In [None]:
sns.countplot(x='Pclass', hue='Survived', data=train)
plt.show()

### 性別(Sex)と目的変数（Survived）との関係
- ### 男性は生存率が低く、女性は生存率が高い

In [None]:
sns.countplot(x='Sex', hue='Survived', data=train)
plt.show()

### 乗船した港(Embarked)と目的変数（Survived）との関係
- ### Queenstown、Southamptonで乗船した乗客は生存率が低い

In [None]:
sns.countplot(x='Embarked', hue='Survived', data=train)
plt.show()