## 1. 目的・問題設定

Kaggle Titanic データセットを用いて、
乗客の「性別（Sex）」と「生存（Survived）」の間に
統計的に有意な関係が存在するかを検証することを目的とする。

Titanic号の沈没事故において、
「女性や子どもが優先的に救助された」という歴史的背景が知られている。
本分析では、この説がデータ上でも支持されるかを、
カイ二乗検定を用いた仮説検定により検証する。

## 2. 指標および仮説の設定

本分析では以下の2つのカテゴリ変数を扱う。

- 性別（Sex）：male / female
- 生存（Survived）：0 = 死亡, 1 = 生存

これらの変数の独立性を検証するため、
カイ二乗検定（独立性の検定）を用いる。

### 仮説

- 帰無仮説（H₀）：
  性別と生存は独立であり、両者の間に関係はない。

- 対立仮説（H₁）：
  性別と生存は独立ではなく、両者の間に関係がある。

### 有意水準

- 有意水準 α = 0.05 とする。

## 3. データの取得

本分析では、Kaggle が提供する Titanic データセットのうち、
学習用データである `train.csv` を使用する。

このデータには、乗客の性別情報および生存結果が含まれている。

In [1]:
import pandas as pd

df = pd.read_csv('./titanic/train.csv')
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


## 4. データ解析

性別と生存の関係を確認するため、
クロス集計表（観測度数表）を作成する。

In [5]:
contingency_table = pd.crosstab(df['Sex'], df['Survived'])
contingency_table

Survived,0,1
Sex,Unnamed: 1_level_1,Unnamed: 2_level_1
female,81,233
male,468,109


作成したクロス集計表に対して
カイ二乗検定（独立性の検定）を実施する。

In [6]:
from scipy.stats import chi2_contingency
chi2, p_value, dof, expected = chi2_contingency(contingency_table)
chi2, p_value, dof

(np.float64(260.71702016732104), np.float64(1.197357062775565e-58), 1)

In [7]:
expected

array([[193.47474747, 120.52525253],
       [355.52525253, 221.47474747]])

## 5. 結果と考察

カイ二乗検定の結果、p値は 0.05 未満となった。

この結果より、帰無仮説「性別と生存は独立である」は棄却される。
したがって、Titanic号の乗客において、
性別と生存の間には統計的に有意な関係があると判断できる。

また、期待度数はいずれも 5 以上であり、
カイ二乗検定の適用条件も満たしている。

以上