# 把連續型變數離散化

#### 連續型變數離散化的優點
* 因為可能性變少了，因此變得簡單
    * 假設年齡0-99 (有100種可能性)，轉換成美10歲一組(有10種可能性)
* 變數變得較穩定
    * 假設年齡>30是1，否則0。 若沒有離散化 「年齡200歲」這個outlier會給模型帶來很大的困擾
    
#### 連續型變數離散化的方法
* 等寬劃分: 按照同寬度將資料分成幾等份。**缺點:受到異常質影響比較大** [`pd.cut()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.cut.html)
* 等頻劃分: 將資料分成每份裡面資料個數相同 [`pd.qcut()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.qcut.html)
* 聚類劃分: 用聚類演算法分類

---

# 練習目標
- 理解 pandas.cut 這個函數還有哪些參數, 藉由改動參數以達成目標
- 藉由調整參數的過程, 熟悉查詢函數的方法與理解參數性質, 並了解數值的離散化的調整工具

# 練習重點
- 設定 pd.cut 的參數以指定間距

# 練習題目
- 新增一個欄位 `customized_age_grp`，把 `age` 分為 (0, 10], (10, 20], (20, 30], (30, 50], (50, 100] 這五組，

In [1]:
import os
import numpy as np
import pandas as pd

import matplotlib.pyplot as plt
%matplotlib inline

In [2]:
# 初始設定 Ages 的資料
ages = pd.DataFrame({"age": [18,22,25,27,7,21,23,37,30,61,45,41,9,18,80,100]})

#### 等寬劃分 `pd.cut()`

In [3]:
# 新增欄位 "equal_width_age", 對年齡做等寬劃分
ages["equal_width_age"] = pd.cut(ages["age"], bins = 4)

In [4]:
# 觀察等寬劃分下, 每個種組距各出現幾次
ages["equal_width_age"].value_counts() # 每個 bin 的值的範圍大小都是一樣的

(6.907, 30.25]    10
(30.25, 53.5]      3
(76.75, 100.0]     2
(53.5, 76.75]      1
Name: equal_width_age, dtype: int64

#### 等頻劃分`pd.qcut()`

In [7]:
# 新增欄位 "equal_freq_age", 對年齡做等頻劃分
ages["equal_freq_age"] = pd.qcut(ages["age"], q= 4)

In [8]:
# 觀察等頻劃分下, 每個種組距各出現幾次
ages["equal_freq_age"].value_counts() # 每個 bin 的資料筆數是一樣的

(42.0, 100.0]     4
(26.0, 42.0]      4
(20.25, 26.0]     4
(6.999, 20.25]    4
Name: equal_freq_age, dtype: int64

**新增一個欄位 `customized_age_grp`，把 `age` 分為 (0, 10], (10, 20], (20, 30], (30, 50], (50, 100] 這五組**

In [9]:
# 新增欄位 "customized_age_grp", 指定區間為 [0, 10, 20, 30, 50, 100] 做劃分
ages["customized_age_grp"] = pd.cut(ages["age"], [0, 10, 20, 30, 50, 100])

In [10]:
# 觀察指定區間的劃分, 以及範例中兩者劃分, 與原始數值 age 的關係
ages

Unnamed: 0,age,equal_width_age,equal_freq_age,customized_age_grp
0,18,"(6.907, 30.25]","(6.999, 20.25]","(10, 20]"
1,22,"(6.907, 30.25]","(20.25, 26.0]","(20, 30]"
2,25,"(6.907, 30.25]","(20.25, 26.0]","(20, 30]"
3,27,"(6.907, 30.25]","(26.0, 42.0]","(20, 30]"
4,7,"(6.907, 30.25]","(6.999, 20.25]","(0, 10]"
5,21,"(6.907, 30.25]","(20.25, 26.0]","(20, 30]"
6,23,"(6.907, 30.25]","(20.25, 26.0]","(20, 30]"
7,37,"(30.25, 53.5]","(26.0, 42.0]","(30, 50]"
8,30,"(6.907, 30.25]","(26.0, 42.0]","(20, 30]"
9,61,"(53.5, 76.75]","(42.0, 100.0]","(50, 100]"
