In [None]:
# 此 Python 3 运行环境已预装许多有用的数据分析库（Kaggle 默认镜像说明）
# 下面演示如何导入常用包并列出输入目录中的文件（Kaggle 环境通常将数据放在 /kaggle/input）

import numpy as np  # 线性代数与数值计算常用库
import pandas as pd  # 数据处理与 CSV 读写

# 在 Kaggle 环境中，输入数据通常位于 /kaggle/input。下面遍历并打印该目录下的所有文件路径，便于确认数据位置
import os
for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))

# 说明：
# - 如果在本地运行（非 Kaggle），数据可能位于当前目录或其他路径，请根据实际路径修改读入代码。
# - /kaggle/working/ 可用于保存输出文件，/kaggle/temp/ 可用于临时文件（会话结束后可能丢失）。

In [None]:
# 从当前目录读取训练集 CSV 文件到 pandas DataFrame
# 请确保文件路径正确（本示例使用相对路径 ./train.csv）
train_data = pd.read_csv("./train.csv")

# 显示训练集的前几行，便于快速查看列名和样本格式
train_data.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [None]:
# 从当前目录读取测试集 CSV 文件到 pandas DataFrame
# 测试集用于生成最终提交的预测结果
test_data = pd.read_csv("./test.csv")

# 显示测试集的前几行以确认字段和格式
test_data.head()

Unnamed: 0,PassengerId,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,892,3,"Kelly, Mr. James",male,34.5,0,0,330911,7.8292,,Q
1,893,3,"Wilkes, Mrs. James (Ellen Needs)",female,47.0,1,0,363272,7.0,,S
2,894,2,"Myles, Mr. Thomas Francis",male,62.0,0,0,240276,9.6875,,Q
3,895,3,"Wirz, Mr. Albert",male,27.0,0,0,315154,8.6625,,S
4,896,3,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",female,22.0,1,1,3101298,12.2875,,S


In [None]:
# 筛选训练集中性别为 female 的乘客，并取其 Survived 列（0/1）
women = train_data.loc[train_data.Sex == 'female']["Survived"]

# 计算女性乘客的幸存率：幸存人数 / 女性总人数
rate_women = sum(women)/len(women)

# 输出女性幸存率（用于快速探索性分析）
print("% of women who survived:", rate_women)

% of women who survived: 0.7420382165605095


In [None]:
# 筛选训练集中性别为 male 的乘客，并取其 Survived 列（0/1）
men = train_data.loc[train_data.Sex == 'male']["Survived"]

# 计算男性乘客的幸存率：幸存人数 / 男性总人数
rate_men = sum(men)/len(men)

# 输出男性幸存率（用于快速探索性分析）
print("% of men who survived:", rate_men)

% of men who survived: 0.18890814558058924


In [None]:
# 导入随机森林分类器（Ensemble 方法的一种）
from sklearn.ensemble import RandomForestClassifier

# 目标变量：训练集中表示乘客是否幸存（1=幸存, 0=未幸存）
y = train_data["Survived"]

# 选择用于训练的特征：舱位等级、性别、兄弟姐妹/配偶 数量、父母/子女 数量
features = ["Pclass", "Sex", "SibSp", "Parch"]

# 将分类变量（如 Sex）转换为哑变量(one-hot)，构建特征矩阵 X 和测试集特征矩阵 X_test
X = pd.get_dummies(train_data[features])
X_test = pd.get_dummies(test_data[features])

# 定义随机森林模型：使用 100 棵树，限制最大深度为 5，设置随机种子以便结果可复现
model = RandomForestClassifier(n_estimators=100, max_depth=5, random_state=1)

# 在训练数据上训练模型（拟合）
model.fit(X, y)

# 在测试集上做出预测，输出为 0 或 1 的幸存标记
predictions = model.predict(X_test)

# 将预测结果与 PassengerId 组合成 DataFrame，格式符合 Kaggle 提交要求
output = pd.DataFrame({ 'PassengerId': test_data.PassengerId, 'Survived': predictions })

# 将结果保存为 CSV 文件，不包含行索引
output.to_csv('submission.csv', index=False)

# 打印提示信息，告知用户提交文件已保存
print("Your submission was successfully saved!")

Your submission was successfully saved!
