<a href="https://colab.research.google.com/github/hui509/titanic_analysis/blob/main/%E5%B0%88%E9%A1%8C%E5%AF%A6%E4%BD%9C%EF%BD%9C02_%E9%90%B5%E9%81%94%E5%B0%BC%E8%99%9F%E5%AD%98%E6%B4%BB%E9%A0%90%E6%B8%AC_Baseline.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 專題實作 #02 鐵達尼號存活預測 Baseline

#  **資料分析的工作流程**


### 1. 取得資料 - 資料收集、讀取、儲存
### 2. 資料前處理 - 資料清理、型態轉換、資料探索、視覺化、特徵工程
### 3. 模型訓練
### 4. 模型評估
### 5. 應用決策  

# **載入Titanic資料集的 `train.csv` 資料集**
（資料網址：https://raw.githubusercontent.com/dsindy/kaggle-titanic/master/data/train.csv）

In [None]:
import pandas as pd
url = 'https://raw.githubusercontent.com/dsindy/kaggle-titanic/master/data/train.csv'
df = pd.read_csv(url)
df

# **資料概況與觀察**

  1. Titanic 各欄位的定義
* PassengerID：乘客ID
* Survived：生存狀態（0=No，1=Yes）  
* Pclass：艙等 （1=1st, 2=2nd, 3=3rd）
* Name：姓名  
* Sex：性別  
* Age：年紀
* SibSp：兄弟姐妹/配偶的数量
* Parch：父母/子女的数量
* Ticket：船票號碼
* Fare：船票價格
* Cabin：艙位號碼
* Embarked：登船港口（C=Cherbourg,　Q=Queenstown,　S=Southampton）




  2. 資料概況

In [None]:
df.info()

In [None]:
df.describe()

In [None]:
df.isnull().sum()

3. 初步觀察：「Fare」欄位與「Survived」欄位正相關性最高

In [None]:
# 使用 Pearson 係數計算相關性
cor = df.corr()
cor

In [None]:
# 使用seaborn和matplotlib，視覺化呈現相關性
import seaborn as sns
import matplotlib.pyplot as plt

plt.figure(figsize=(10,8))
sns.heatmap(cor,annot=True,linewidth=0.5,cmap='coolwarm')
plt.title('Correlation Matrix of Titanic')
plt.show()

# **資料前處理**

1. 處理缺失值
* 刪除有缺失值的資料
* 刪除多餘的欄位
  * Name：危機時期，比較不可能出現唱名救援
  * Ticket：船票編號僅代表購買順序或核對資訊
  * Cabin：欄位中的缺失值(687)佔全體(891)中的77%




In [None]:
titanic = df.copy()
titanic.dropna(inplace=True)
titanic.drop(columns=['Name','Ticket','Cabin'],axis=1,inplace=True)

2. 轉換類別欄位：Sex、Embarked

In [None]:
df_train = pd.get_dummies(titanic,columns=['Sex','Embarked'],dtype=int)
df_train

# **模型分析**

1. 定義特徵欄位X、目標欄位Y，並完成訓練集資料

In [None]:
columns_X = set(df_train.columns) - {'Survived'}
columns_y = ['Survived']

train_X = df_train[columns_X]
train_y = df_train[columns_y]

2. 使用 Logistic Regression 模型，進行交叉驗證以評估準確度

In [22]:
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import cross_val_score

log = LogisticRegression(random_state=0,max_iter=3000)
scores = cross_val_score(log,train_X,train_y.values.ravel(),cv=5,scoring='accuracy')
print(scores)
print(scores.mean())

[0.75675676 0.86486486 0.7027027  0.66666667 0.69444444]
0.737087087087087


# **結論：**
## **1. 完成訓練集資料前處理和模型分析 Baseline。**
## **2. 使用 Logistic Regression 交叉驗證後，Accuracy 平均值約為0.74。**