In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from IPython.display import display

In [2]:
pd.set_option('max_rows', 20)

plt.style.use('default')
plt.rcParams['figure.figsize'] = (12, 3)
plt.rcParams['font.family'] = 'sans-serif'

In [3]:
df = pd.read_csv('titanic_train.csv')

# Chapter 2 - Selecting data

## Q1. 觀察資料——檢視資料的彙整資訊

請選擇適當的 DataFrame object method，顯示鐵達尼號資料的以下資訊：

* `index dtype`：Index 的資料型態
* `column dtypes`：Column 的資料型態
* `non-null values`：非空值的個數
* `memory usage`：物件占用多少記憶體空間

In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
PassengerId    891 non-null int64
Survived       891 non-null int64
Pclass         891 non-null int64
Name           891 non-null object
Sex            891 non-null object
Age            714 non-null float64
SibSp          891 non-null int64
Parch          891 non-null int64
Ticket         891 non-null object
Fare           891 non-null float64
Cabin          204 non-null object
Embarked       889 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 83.6+ KB


根據結果回答以下問題：

1. 請問本資料中共有幾個 columns？
1. 請依序回答「年齡 (`Age`)」、「性別 (`Sex`)」、「船票等級 (`Pclass`)」3個欄位的 dtype 分別是？
1. 請問 dtype 為 `object` 的欄位有幾個？
1. 請問「船艙代號 (`Cabin`)」欄位為 non-null 的資料有幾筆？

In [5]:
# 1. 請問本資料中共有幾個 columns？
print(12)

12
float64
object
int64
5
204


In [None]:
# 2. 請依序回答「年齡 (Age)」、「性別 (Sex)」、「船票等級 (Pclass)」3個欄位的 dtype 分別是？
print('float64')
print('object')
print('int64')

In [None]:
# 3. 請問 dtype 為 object 的欄位有幾個？
print(5)

In [None]:
# 4. 請問「船艙代號 (Cabin)」欄位 non-null 的資料有幾筆？
print(204)

## Q2. 觀察資料——敘述性統計分析結果

請選擇適當的 DataFrame object method，顯示鐵達尼號資料的敘述性統計分析，以觀察資料分布。

In [6]:
df.describe(include='all')

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
count,891.0,891.0,891.0,891,891,714.0,891.0,891.0,891.0,891.0,204,889
unique,,,,891,2,,,,681.0,,147,3
top,,,,"Ling, Mr. Lee",male,,,,1601.0,,C23 C25 C27,S
freq,,,,1,577,,,,7.0,,4,644
mean,446.0,0.383838,2.308642,,,29.699118,0.523008,0.381594,,32.204208,,
std,257.353842,0.486592,0.836071,,,14.526497,1.102743,0.806057,,49.693429,,
min,1.0,0.0,1.0,,,0.42,0.0,0.0,,0.0,,
25%,223.5,0.0,2.0,,,20.125,0.0,0.0,,7.9104,,
50%,446.0,0.0,3.0,,,28.0,0.0,0.0,,14.4542,,
75%,668.5,1.0,3.0,,,38.0,1.0,0.0,,31.0,,


根據結果回答以下問題：

1. 請問「性別 (`Sex`)」中是男性或女性人數較多？有幾人？
1. 請問平均「年齡 (`Age`)」是？
1. 請問最大「年齡 (`Age`)」是？

In [10]:
# 1. 請問「性別 (Sex)」中是男性或女性人數較多？有幾人？
print('男')
print(577)

男
577


In [11]:
# 2. 請問平均「年齡 (Age)」是？
print(29.699118)

29.699118


In [None]:
# 3. 請問最大「年齡 (Age)」是？
print(80.000000)

## Q3. 觀察資料——計算數值的出現次數

請計算船票等級 (`Pclass`)資料中，各等級的出現次數：

> 備註：船票等級 (`Pclass`) 中分成三個等級：`1` = 1st, `2` = 2nd, `3` = 3rd

In [8]:
df['Pclass'].value_counts()[0:2]

3    491
1    216
Name: Pclass, dtype: int64

## Q4. 選擇資料—— `.loc` 與 `.iloc`

取出存活與否 (`Survived`)、性別 (`Sex`)、船艙代號 (`Cabin`) 共 3 個 columns 中 row 3 ~ 5 的數據：

In [9]:
# 用 .loc：以 Row/Column Label 為查詢基礎來取得資料
df.loc[3:5, ['Survived', 'Sex', 'Cabin']]

Unnamed: 0,Survived,Sex,Cabin
3,1,female,C123
4,0,male,
5,0,male,
