# 作業 : (Kaggle)鐵達尼生存預測

# [作業目標]
- 試著完成三種不同特徵類型的三種資料操作, 觀察結果
- 思考一下, 這三種特徵類型, 哪一種應該最複雜/最難處理

# [作業重點]
- 完成剩餘的八種 類型 x 操作組合 (In[6]~In[13], Out[6]~Out[13])
- 思考何種特徵類型, 應該最複雜

In [1]:
# 載入基本套件
import pandas as pd
import numpy as np

# 讀取訓練與測試資料
data_path = '../data/Part02/'
df_train = pd.read_csv(data_path + 'titanic_train.csv')
df_test = pd.read_csv(data_path + 'titanic_test.csv')
df_train.shape

(891, 12)

In [2]:
# 重組資料成為訓練 / 預測用格式
train_Y = df_train['Survived']
ids = df_test['PassengerId']

#刪除觀測值或欄位. data frame 可以透過 drop() 方法來刪除觀測值或欄位:
#指定參數 axis = 0 表示要刪除觀測值（row），指定參數 axis = 1 表示要刪除欄位（column）
df_train = df_train.drop(['PassengerId', 'Survived'] , axis=1)
df_test = df_test.drop(['PassengerId'] , axis=1)

#concat()是將2個DataFrame合併的函數
#http://violin-tao.blogspot.com/2017/06/pandas-2-concat-merge.html
df = pd.concat([df_train,df_test])

df.head(20)

Unnamed: 0,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
5,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
6,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
7,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.075,,S
8,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S
9,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C


In [3]:
# 秀出資料欄位的類型與數量

#在concat()之後，需使用reset_index()使index重新進行排序
#https://blog.csdn.net/lujiandong1/article/details/52929090
dtype_df = df.dtypes.reset_index()

#增加column名稱
dtype_df.columns = ["Count", "Column Type"]

#使用groupby()將數據依照"Column Type"進行分類
#https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.groupby.html
#使用aggregare()對分類好的數據進行計算
#https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.aggregate.html
dtype_df = dtype_df.groupby("Column Type").aggregate('count').reset_index()

dtype_df

Unnamed: 0,Column Type,Count
0,int64,3
1,float64,2
2,object,5


In [4]:
#確定只有 int64, float64, object 三種類型後, 分別將欄位名稱存於三個 list 中
int_features = []
float_features = []
object_features = []

#zip()函數：將iterable打包並返回元組。
#http://www.runoob.com/python3/python3-func-zip.html
for dtype, feature in zip(df.dtypes, df.columns):
    if dtype == 'float64':
        float_features.append(feature)
    elif dtype == 'int64':
        int_features.append(feature)
    else:
        object_features.append(feature)
print(f'{len(int_features)} Integer Features : {int_features}\n')
print(f'{len(float_features)} Float Features : {float_features}\n')
print(f'{len(object_features)} Object Features : {object_features}')

3 Integer Features : ['Pclass', 'SibSp', 'Parch']

2 Float Features : ['Age', 'Fare']

5 Object Features : ['Name', 'Sex', 'Ticket', 'Cabin', 'Embarked']


# 作業1 
* 試著執行作業程式，觀察三種類型 (int / float / object) 的欄位分別進行( 平均 mean / 最大值 Max / 相異值 nunique )  
中的九次操作會有那些問題? 並試著解釋那些發生Error的程式區塊的原因?  

In [5]:
# 例 : 整數 (int) 特徵取平均 (mean)
df[int_features].mean()

Pclass    2.294882
SibSp     0.498854
Parch     0.385027
dtype: float64

# 請依序列出 三種特徵類型 (int / float / object) x 三種方法 (平均 mean / 最大值 Max / 相異值 nunique) 的其餘操作

In [6]:
#int特徵類型的平均
df[int_features].mean()

Pclass    2.294882
SibSp     0.498854
Parch     0.385027
dtype: float64

In [7]:
#int特徵類型的最大值
df[int_features].max()

Pclass    3
SibSp     8
Parch     9
dtype: int64

In [8]:
#int特徵類型的相異值(nuinque()是查看該序列(axis=0/1對應著列或行)的不同值的數量)
df[int_features].nunique()

Pclass    3
SibSp     7
Parch     8
dtype: int64

In [9]:
#float特徵類型的平均
df[float_features].mean()

Age     29.881138
Fare    33.295479
dtype: float64

In [10]:
#float特徵類型的最大值
df[float_features].max()

Age      80.0000
Fare    512.3292
dtype: float64

In [11]:
#float特徵類型的相異值(nuinque()是查看該序列(axis=0/1對應著列或行)的不同值的數量)
df[float_features].nunique()

Age      98
Fare    281
dtype: int64

In [12]:
#object特徵類型的平均
df[object_features].mean()

Series([], dtype: float64)

In [13]:
#object特徵類型的最大值
df[object_features].max()

Name      van Melkebeke, Mr. Philemon
Sex                              male
Ticket                      WE/P 5735
dtype: object

In [14]:
#object特徵類型的相異值(nuinque()是查看該序列(axis=0/1對應著列或行)的不同值的數量)
df[object_features].nunique()

Name        1307
Sex            2
Ticket       929
Cabin        186
Embarked       3
dtype: int64

## 九次操作會有那些問題? 並試著解釋那些發生Error的程式區塊的原因?

回答：

在「object特徵類型的平均」和「object特徵類型的最大值」方面：

因為數據是文字而非數字，因此文字的平均值及最大值，不具有數學意義，因此對於後續相關分析，無法直接進行評價，

需要事先將數據處理（例如：分類）及設定規則（例如：分類結果對應的分數），才可能成為有用的數據。

# 作業2
* 思考一下，試著舉出今天五種類型以外的一種或多種資料類型，你舉出的新類型是否可以歸在三大類中的某些大類?  
所以三大類特徵中，哪一大類處理起來應該最複雜?

 回答：

=======================================================================

樂透彩每期公布的樂透號碼，應屬於一種數值型的資料類型。


雖然樂透彩開獎是有週期性（每週開2次），故有包含時間型特徵，但是由於每期的樂透號碼，

與開獎時間並沒有絕對關係，因此，我認為在預測樂透的結果時，可以將時間型特徵排除。

=======================================================================

在處理特徵時，應屬時間型特徵處理起來最為複雜。

首先要將「時間型特徵」先轉換成「數值型特徵」或「分類型特徵」，然而：

1. 如果轉換成數值型特徵（例如：秒數），則會失去週期性；

2. 如果轉換成分類型特徵，在大量資料下，分類可能會過於龐大。

因為需要特別進行處理的關係，所以時間型特徵處理起來最為複雜。

=======================================================================