# 🚢 Titanicデータセット分析

このノートブックでは、Titanicの乗客データを分析して、生存予測のためのデータ探索を行います。

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')

# 日本語フォントの設定
plt.rcParams['font.family'] = 'DejaVu Sans'
plt.style.use('seaborn-v0_8')

print("✅ ライブラリのインポート完了")

## 2. データの読み込み

In [None]:
# データの読み込み
train_df = pd.read_csv('Titanic - Machine Learning from Disaster/titanic/train.csv')
test_df = pd.read_csv('Titanic - Machine Learning from Disaster/titanic/test.csv')
gender_submission = pd.read_csv('Titanic - Machine Learning from Disaster/titanic/gender_submission.csv')

print("📊 データ読み込み完了")
print(f"訓練データ: {train_df.shape}")
print(f"テストデータ: {test_df.shape}")
print(f"サンプル提出: {gender_submission.shape}")

## 3. 訓練データの基本情報

In [None]:
print("🔍 訓練データの基本情報")
print("="*50)
train_df.info()

In [None]:
print("📋 訓練データの最初の5行")
print("="*50)
train_df.head()

In [None]:
print("📊 数値データの統計情報")
print("="*50)
train_df.describe()

## 4. 欠損値の確認

In [None]:
# 欠損値の確認
missing_train = train_df.isnull().sum()
missing_test = test_df.isnull().sum()

print("⚠️ 訓練データの欠損値")
print("="*30)
for col, count in missing_train.items():
    if count > 0:
        percentage = (count / len(train_df)) * 100
        print(f"{col}: {count}件 ({percentage:.1f}%)")

print("\n⚠️ テストデータの欠損値")
print("="*30)
for col, count in missing_test.items():
    if count > 0:
        percentage = (count / len(test_df)) * 100
        print(f"{col}: {count}件 ({percentage:.1f}%)")

## 5. 生存率の分析

In [None]:
# 全体の生存率
survival_rate = train_df['Survived'].mean()
print(f"📈 全体の生存率: {survival_rate:.3f} ({survival_rate*100:.1f}%)")

# 性別別の生存率
gender_survival = train_df.groupby('Sex')['Survived'].agg(['count', 'sum', 'mean'])
gender_survival.columns = ['総数', '生存者数', '生存率']
print("\n👥 性別別の生存率")
print("="*30)
print(gender_survival)