## 不同種的資料屬性
- 在進行機器學習或資料分析時，資料可能有不同的屬性或類型。以下是一些常見的資料屬性或類型，並提供相應的 Python 資料結構表示方式：

![](https://edge.aif.tw/content/images/size/w1000/2022/06/1_dEcInm8hryInHrHREcA3eg.png)
### Nominal
- 定義：屬於同一類別的項目沒有順序或排序。
    - 例子：顏色、性別、國家。
### Ordinal
- 定義：項目之間有順序或排列關係，但排名之間的距離沒有實際意義。
    - 例子：教育程度（高中、大學、碩士）。
### Interval
- 定義：具有等距屬性的資料，但沒有絕對的零點。
    - 例子：溫度（攝氏度或華氏度）。
### Ratio
- 定義：具有等距屬性的資料，有絕對的零點，可以進行比較和數學運算。

## 不同屬性的資料的運算
1. **Nominal（名目）:**
   - 運算符號：`==` (相等)、`!=` (不相等)。
   - 操作：可以進行相等性比較，例如判斷兩個名目變數是否相等或不相等。

2. **Ordinal（順序）:**
   - 運算符號：`==` (相等)、`!=` (不相等)、`>` (大於)、`<` (小於)、`>=` (大於等於)、`<=` (小於等於)。
   - 操作：可以進行相等性比較，也可以進行順序比較，例如判斷兩個順序變數的相對大小。

3. **Interval（區間）:**
   - 運算符號：`==` (相等)、`!=` (不相等)、`>` (大於)、`<` (小於)、`>=` (大於等於)、`<=` (小於等於)。
   - 操作：支持相等性比較和大小比較。可以進行算術運算，如加法、減法、乘法、除法。

4. **Ratio（比率）:**
   - 運算符號：`==` (相等)、`!=` (不相等)、`>` (大於)、`<` (小於)、`>=` (大於等於)、`<=` (小於等於)。
   - 操作：支持相等性比較和大小比較。可以進行算術運算，如加法、減法、乘法、除法。

- [補充閱讀](https://edge.aif.tw/data-lab-data-type/)

## 視覺化與分析方法
1. **Nominal（名目）:**
   - **統計方法：**
     - 使用頻率分佈（Frequency Distribution）來顯示每個類別的出現次數。
     - 使用模式（Mode）作為中央趨勢的度量，即眾數。
   - **視覺化：**
     - 使用長條圖（Bar Chart）或圓餅圖（Pie Chart）顯示不同類別的分佈。

2. **Ordinal（順序）:**
   - **統計方法：**
     - 使用中位數（Median）作為中央趨勢的度量。
     - 使用百分位數（Percentiles）來描述順序的位置。
   - **視覺化：**
     - 使用箱形圖（Boxplot）來顯示中位數和分位數的分佈。

3. **Interval（區間）:**
   - **統計方法：**
     - 使用平均數（Mean）和標準差（Standard Deviation）來描述數據的中心和變異。
     - 使用中位數（Median）來描述數據的中央趨勢。
     - 使用直方圖（Histogram）來顯示數據的分佈情況。
   - **視覺化：**
     - 使用直方圖（Histogram）顯示數據的分佈。

4. **Ratio（比率）:**
   - **統計方法：**
     - 使用平均數（Mean）和標準差（Standard Deviation）來描述數據的中心和變異。
     - 使用百分位數（Percentiles）來描述數據的分佈。
   - **視覺化：**
     - 使用直方圖（Histogram）顯示數據的分佈。

在分析時，也要考慮資料的分佈、極端值、缺失值等因素。選擇適當的統計方法和視覺化工具有助於更深入地理解資料。在實際應用中，通常會結合不同的分析方法以獲取全面的洞察。


## Titanic 資料集敘述
- [kaggle 連結](https://www.kaggle.com/competitions/titanic/data)
| 變數 | 定義 | 鍵 |
| --- | --- | --- |
| survival | 存活 | 0 = 否, 1 = 是 |
| pclass | 船票等級 | 1 = 1st（頭等艙）, 2 = 2nd（二等艙）, 3 = 3rd（三等艙） |
| sex | 性別 | |
| age | 年齡 | |
| sibsp | 泰坦尼克號上的兄弟姐妹/配偶數量 | |
| parch | 泰坦尼克號上的父母/子女數量 | |
| ticket | 船票編號 | |
| fare | 乘客費用 | |
| cabin | 船艙編號 | |
| embarked | 登船港口 | C = 瑟堡, Q = 奎茵斯敦, S = 南安普敦 |

**變數說明:**
- **pclass（船票等級）:** SES（社會經濟地位）的代理變數
  - 1st = 上層
  - 2nd = 中層
  - 3rd = 下層

- **age（年齡）:** 若年齡小於1，則以小數形式表示。如果年齡是估算的，則以xx.5的形式表示。

- **sibsp（兄弟姐妹/配偶數量）:** 數據集以以下方式定義家庭關係：
  - Sibling = 兄弟、姐妹、同父異母的兄弟、同父異母的姐妹
  - Spouse = 丈夫、妻子（情婦和未婚妻被忽略）

- **parch（父母/子女數量）:** 數據集以以下方式定義家庭關係：
  - Parent = 母親、父親
  - Child = 女兒、兒子、同父異母的女兒、同父異母的兒子
  - 有些兒童只與保姆一起旅行，因此對於他們，parch=0。


In [2]:
# 請使用 Pandas 讀取檔案
# 觀測一下資料，不同欄位的資料可能屬於不同種屬性的資料，請幫我各自舉出一個例子

In [None]:
# 根據該 dataset 中的資料告訴我任一一個屬性資料的統計概要

In [None]:
# 根據該 dataset 中的資料告訴我任一一個計量資料的統計概要

### 平均值（Mean）

**定義**：平均值是數據集中所有數據點的總和除以數據點的數量。公式為：

$ \text{平均值} = \frac{\sum_{i=1}^{n} x_i}{n} $

**特點**：
- 易於計算和理解。
- 能夠反映整體數據的集中趨勢。

**優點**：
- 使用所有數據點，因此是一種包含所有信息的衡量方式。
- 適用於正態分佈數據，能夠提供數據集的一個良好代表。

**缺點**：
- 對異常值（極端值）非常敏感，異常值可能會極大地影響平均值。
- 在分佈不對稱（如偏態分佈）的數據中，平均值可能不能很好地代表數據的中心趨勢。

### 中位數（Median）

**定義**：中位數是將數據點排序後，位於中間位置的數值。若數據點數量為偶數，中位數是中間兩個數的平均值。

**特點**：
- 是數據集的一個位置指標，代表數據的中心位置。

**優點**：
- 不受異常值的影響，因此對於有異常值的數據集來說，中位數是一個更可靠的集中趨勢指標。
- 適用於偏態分佈數據，可以更準確地反映數據的中心位置。

**缺點**：
- 不使用所有數據點的信息，因此在某些情況下，可能不如平均值那麼具有代表性。
- 對於小數據集，計算中位數可能不如平均值那麼穩定。

### 眾數（Mode）

**定義**：眾數是數據集中出現頻率最高的數值。在一個數據集中可能存在一個或多個眾數，或者沒有眾數。

**特點**：
- 代表數據集中最常見的數值。
- 可應用於分類數據和數值數據。

**優點**：
- 對於分類數據，眾數是唯一可用的集中趨勢衡量指標。
- 不受異常值影響，因此在有異常值的數據集中仍能提供有價值的信息。

**缺點**：
- 在數據分佈均勻或無明顯頻繁值時，眾數可能不明顯或無意義。
- 對於連續數據，如果數據沒有重複值，則眾數無法提供有用的信息。

### 總結

- **平均值**適用於沒有異常值或正態分佈的數據集，計算簡單但對異常值敏感。
- **中位數**對異常值不敏感，適用於有偏態的數據集，能更準確地反映數據的中心趨勢。
- **眾數**適用於分類數據和數值數據中的頻繁值，對異常值不敏感，但在均勻分佈或無明顯頻繁值的數據集中可能無法提供有用的信息。

在資料分析中，應根據數據的特性和分析需求選擇合適的統計值來描述和總結數據的集中趨勢。
