# 資料整理基礎

### 曾聖澧
**January 17, 2023**

---

資料整理通常比較困難的部份在於合併或堆疊，<br>
併成一個資料集後，轉換、分組或篩選其實相對都容易得多。

In [1]:
import numpy as np                # 處理數據
import pandas as pd               # 資料處理套件

# 堆疊橫列
以下兩個資料分別是三年四班期中考與期末考的成績。

In [2]:
d = {"同學" : ["小玉","永澤","花輪","丸尾","美環","杉山"],
     '語文' : [79,85,75,76,82,81],
     '數學' : [75,79,70,69,73,86],
     '社會' : [86,88,82,83,88,87]}

ex1 = pd.DataFrame(data = d)
ex1

Unnamed: 0,同學,語文,數學,社會
0,小玉,79,75,86
1,永澤,85,79,88
2,花輪,75,70,82
3,丸尾,76,69,83
4,美環,82,73,88
5,杉山,81,86,87


In [3]:
d = {"同學" : ("小玉","永澤","花輪","丸尾","美環","杉山"),
     '語文' : (92,78,84,81,80,77),
     '數學' : (78,88,87,88,85,92),
     '社會' : (90,84,92,92,92,85)}

ex2 = pd.DataFrame(data = d)
ex2

Unnamed: 0,同學,語文,數學,社會
0,小玉,92,78,90
1,永澤,78,88,84
2,花輪,84,87,92
3,丸尾,81,88,92
4,美環,80,85,92
5,杉山,77,92,85


老師想要將資料整理成一張表。<br>
一種整理方式是增加一欄紀錄是什麼考試。

### insert 方法 : 第一個參數指定插入列表的位置，第二個參數指定名稱，第三個參數指定數據，原數據會被取代

In [4]:
ex1.insert(ex1.shape[1], '考試', "期中考")
ex2.insert(ex2.shape[1], '考試', "期末考")

### obj['col'] = value 方法 : 第一個參數指定插入列表的位置，第二個參數指定名稱，第三個參數指定數據，原數據會被取代

更多方法 : 
+ [DataFrame 新增列的五种方法](https://blog.csdn.net/qq_35318838/article/details/102720553)

In [5]:
A = ex1
B = ex2

A["考試"] = "期中考"
B["考試"] = "期末考"

ex1

Unnamed: 0,同學,語文,數學,社會,考試
0,小玉,79,75,86,期中考
1,永澤,85,79,88,期中考
2,花輪,75,70,82,期中考
3,丸尾,76,69,83,期中考
4,美環,82,73,88,期中考
5,杉山,81,86,87,期中考


然後把這些橫列合併(注意表格的欄位名稱需相同)
### Concat : 串接資料會保留重複 index，合併資料可採取使用 join : outer、inner

In [6]:
exam = pd.concat((ex1, ex2), axis = 'index')
exam

Unnamed: 0,同學,語文,數學,社會,考試
0,小玉,79,75,86,期中考
1,永澤,85,79,88,期中考
2,花輪,75,70,82,期中考
3,丸尾,76,69,83,期中考
4,美環,82,73,88,期中考
5,杉山,81,86,87,期中考
0,小玉,92,78,90,期末考
1,永澤,78,88,84,期末考
2,花輪,84,87,92,期末考
3,丸尾,81,88,92,期末考


### Append : 等同 Concat 只是呼叫更簡單

In [7]:
Exam = ex1.append(ex2)
Exam

Unnamed: 0,同學,語文,數學,社會,考試
0,小玉,79,75,86,期中考
1,永澤,85,79,88,期中考
2,花輪,75,70,82,期中考
3,丸尾,76,69,83,期中考
4,美環,82,73,88,期中考
5,杉山,81,86,87,期中考
0,小玉,92,78,90,期末考
1,永澤,78,88,84,期末考
2,花輪,84,87,92,期末考
3,丸尾,81,88,92,期末考


# 堆疊直行
另一種整理方式是寫清楚各成績是哪次考試哪個科目。

In [8]:
d = {"同學" : ["小玉","永澤","花輪","丸尾","美環","杉山"],
     '語文' : [79,85,75,76,82,81],
     '數學' : [75,79,70,69,73,86],
     '社會' : [86,88,82,83,88,87]}

ex1 = pd.DataFrame(data = d)

b = {"同學" : ("小玉","永澤","花輪","丸尾","美環","杉山"),
     '語文' : (92,78,84,81,80,77),
     '數學' : (78,88,87,88,85,92),
     '社會' : (90,84,92,92,92,85)}

ex2 = pd.DataFrame(data = b)

### df.rename 改名

In [9]:
### inplace 能決定是否改 ex1 or ex2
A = ex1.rename(columns={'語文':"期中語文", '數學':"期中數學", '社會':"期中社會"}, inplace=False)
B = ex2.rename(columns={'語文':"期末語文", '數學':"期末數學", '社會':"期末社會"}, inplace=False)

### df.columns 改名

In [10]:
### ex1 跟 ex2 都會跟著改 !
A = ex1
A.columns = ["同學","期中語文","期中數學","期中社會"]
B = ex2
B.columns = ("同學","期末語文","期末數學","期末社會")

### Concat : 合併資料可採取使用 join : outer、inner，能一次放多個

In [11]:
exam = pd.concat((ex1, ex2.loc[:,"期末語文":"期末社會"]), axis = 'columns')
exam

Unnamed: 0,同學,期中語文,期中數學,期中社會,期末語文,期末數學,期末社會
0,小玉,79,75,86,92,78,90
1,永澤,85,79,88,78,88,84
2,花輪,75,70,82,84,87,92
3,丸尾,76,69,83,81,88,92
4,美環,82,73,88,80,85,92
5,杉山,81,86,87,77,92,85


### merge : 也是合併資料的一種，一次只能兩個，但可以有更多的應用，ex : join

In [12]:
Exam = pd.merge(ex1, ex2) 
Exam

Unnamed: 0,同學,期中語文,期中數學,期中社會,期末語文,期末數學,期末社會
0,小玉,79,75,86,92,78,90
1,永澤,85,79,88,78,88,84
2,花輪,75,70,82,84,87,92
3,丸尾,76,69,83,81,88,92
4,美環,82,73,88,80,85,92
5,杉山,81,86,87,77,92,85


# 橫列不相等之合併
除了各科目分數外，學期成績還有獎懲的紀錄如下。

In [13]:
record = pd.DataFrame({'姓名' : ("山根","美環","丸尾","杉山","永澤"),
                       '獎勵' : ("參加科展","擔任幹部",np.nan,"體育競賽",np.nan),
                       '懲處' : (np.nan,np.nan,"頂撞師長",np.nan,"曠課太多")})
record

Unnamed: 0,姓名,獎勵,懲處
0,山根,參加科展,
1,美環,擔任幹部,
2,丸尾,,頂撞師長
3,杉山,體育競賽,
4,永澤,,曠課太多


+ **若要加入獎懲紀錄，必須先比對姓名。**

## x.join(y, lsuffix='_xx', rsuffix='_yy', ...)
+ 是基于索引的横向拼接，如果索引一致，直接横向拼接；如果索引不一致，則會用 Nan 值填充
+ 合併的列表名稱相同 指定 lsuffix、rsuffix 進入行區分

In [14]:
record.index = record["姓名"]
record

Unnamed: 0_level_0,姓名,獎勵,懲處
姓名,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
山根,山根,參加科展,
美環,美環,擔任幹部,
丸尾,丸尾,,頂撞師長
杉山,杉山,體育競賽,
永澤,永澤,,曠課太多


In [15]:
exam.index = exam["同學"]
exam

Unnamed: 0_level_0,同學,期中語文,期中數學,期中社會,期末語文,期末數學,期末社會
同學,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
小玉,小玉,79,75,86,92,78,90
永澤,永澤,85,79,88,78,88,84
花輪,花輪,75,70,82,84,87,92
丸尾,丸尾,76,69,83,81,88,92
美環,美環,82,73,88,80,85,92
杉山,杉山,81,86,87,77,92,85


In [16]:
exam.iloc[:,1:7].join(record.iloc[:,1:3])

Unnamed: 0_level_0,期中語文,期中數學,期中社會,期末語文,期末數學,期末社會,獎勵,懲處
同學,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
小玉,79,75,86,92,78,90,,
永澤,85,79,88,78,88,84,,曠課太多
花輪,75,70,82,84,87,92,,
丸尾,76,69,83,81,88,92,,頂撞師長
美環,82,73,88,80,85,92,擔任幹部,
杉山,81,86,87,77,92,85,體育競賽,


## pd.concat(objs, *, axis=0, join='outer', ignore_index=False, keys=None, ...)
+ [pandas.concat](https://pandas.pydata.org/docs/reference/api/pandas.concat.html?highlight=pandas%20concat#pandas.concat)

In [17]:
record.iloc[:,1:3]

Unnamed: 0_level_0,獎勵,懲處
姓名,Unnamed: 1_level_1,Unnamed: 2_level_1
山根,參加科展,
美環,擔任幹部,
丸尾,,頂撞師長
杉山,體育競賽,
永澤,,曠課太多


In [18]:
exam.iloc[:,1:7]

Unnamed: 0_level_0,期中語文,期中數學,期中社會,期末語文,期末數學,期末社會
同學,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
小玉,79,75,86,92,78,90
永澤,85,79,88,78,88,84
花輪,75,70,82,84,87,92
丸尾,76,69,83,81,88,92
美環,82,73,88,80,85,92
杉山,81,86,87,77,92,85


In [19]:
fullTable = pd.concat((exam.iloc[:,1:7], record.iloc[:,1:3]),join="outer",axis=1)
fullTable

Unnamed: 0,期中語文,期中數學,期中社會,期末語文,期末數學,期末社會,獎勵,懲處
小玉,79.0,75.0,86.0,92.0,78.0,90.0,,
永澤,85.0,79.0,88.0,78.0,88.0,84.0,,曠課太多
花輪,75.0,70.0,82.0,84.0,87.0,92.0,,
丸尾,76.0,69.0,83.0,81.0,88.0,92.0,,頂撞師長
美環,82.0,73.0,88.0,80.0,85.0,92.0,擔任幹部,
杉山,81.0,86.0,87.0,77.0,92.0,85.0,體育競賽,
山根,,,,,,,參加科展,


## pd.merge(left_data, right_data, how, on, left_on, right_on, left_index, right_index, ...)
+ 是基於指定列表的橫向拼接，類似於數據庫的 left join、right join、inner join 等連接方式，可以根據一個或多個鍵將不同的 DataFrame 連接起來
+ [Python学习笔记：数据合并join、merge、concat、append、combine、combine_first等 
一、对比总结](https://www.cnblogs.com/hider/p/15272095.html)

### 以左邊為準

In [20]:
pd.merge(exam.iloc[:,1:7], record.iloc[:,1:3],left_index=True,right_index=True,how='left')

Unnamed: 0_level_0,期中語文,期中數學,期中社會,期末語文,期末數學,期末社會,獎勵,懲處
同學,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
小玉,79,75,86,92,78,90,,
永澤,85,79,88,78,88,84,,曠課太多
花輪,75,70,82,84,87,92,,
丸尾,76,69,83,81,88,92,,頂撞師長
美環,82,73,88,80,85,92,擔任幹部,
杉山,81,86,87,77,92,85,體育競賽,


### 以右邊為準

In [21]:
pd.merge(exam.iloc[:,1:7], record.iloc[:,1:3],left_index=True,right_index=True,how='right')

Unnamed: 0_level_0,期中語文,期中數學,期中社會,期末語文,期末數學,期末社會,獎勵,懲處
姓名,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
山根,,,,,,,參加科展,
美環,82.0,73.0,88.0,80.0,85.0,92.0,擔任幹部,
丸尾,76.0,69.0,83.0,81.0,88.0,92.0,,頂撞師長
杉山,81.0,86.0,87.0,77.0,92.0,85.0,體育競賽,
永澤,85.0,79.0,88.0,78.0,88.0,84.0,,曠課太多


### 取交集

In [22]:
pd.merge(exam.iloc[:,1:7], record.iloc[:,1:3],left_index=True,right_index=True,how='inner')

Unnamed: 0,期中語文,期中數學,期中社會,期末語文,期末數學,期末社會,獎勵,懲處
永澤,85,79,88,78,88,84,,曠課太多
丸尾,76,69,83,81,88,92,,頂撞師長
美環,82,73,88,80,85,92,擔任幹部,
杉山,81,86,87,77,92,85,體育競賽,


### 取聯集

In [23]:
pd.merge(exam.iloc[:,1:7], record.iloc[:,1:3],left_index=True,right_index=True,how='outer')

Unnamed: 0,期中語文,期中數學,期中社會,期末語文,期末數學,期末社會,獎勵,懲處
丸尾,76.0,69.0,83.0,81.0,88.0,92.0,,頂撞師長
小玉,79.0,75.0,86.0,92.0,78.0,90.0,,
山根,,,,,,,參加科展,
杉山,81.0,86.0,87.0,77.0,92.0,85.0,體育競賽,
永澤,85.0,79.0,88.0,78.0,88.0,84.0,,曠課太多
美環,82.0,73.0,88.0,80.0,85.0,92.0,擔任幹部,
花輪,75.0,70.0,82.0,84.0,87.0,92.0,,


## merge, concat, join 的對照表

|操作	|merge	|concat |join (靠 index)|
|:---:|:---:|:---:|:---:|
|左邊為準	|how='left'	    |x	|x|
|右邊為準	|how='right'	|x	|x|
|聯集(全留)	|how='outer'	|join='outer'	|x|
|交集(最少)	|how='inner'	|join='inner'	|x|

# 直行不相等之合併
升上四年級後，社會細分成歷史和地理，並增加自然。 老師想要把四年級期中考的成績和三年級的期中期末考合併。
+ 操作跟堆疊橫列差不多

In [24]:
d = {"同學" : ["小玉","永澤","花輪","丸尾","美環","杉山"],
     '語文' : [79,85,75,76,82,81],
     '數學' : [75,79,70,69,73,86],
     '社會' : [86,88,82,83,88,87]}

ex1 = pd.DataFrame(data = d)

b = {"同學" : ("小玉","永澤","花輪","丸尾","美環","杉山"),
     '語文' : (92,78,84,81,80,77),
     '數學' : (78,88,87,88,85,92),
     '社會' : (90,84,92,92,92,85)}

ex2 = pd.DataFrame(data = b)

In [25]:
ex3 = pd.DataFrame({'同學' : ("小玉","永澤","花輪","丸尾","美環","杉山"),
                    '語文' : (86,77,82,80,80,85),
                    '數學' : (94,84,75,80,78,78),
                    '地理' : (86,87,70,83,87,80),
                    '歷史' : (82,98,86,95,97,94),
                    '自然' : (78,81,78,84,79,76)})

In [26]:
ex1["考試"] = "期中考3"
ex2["考試"] = "期末考3"
ex3["考試"] = "期中考4"

In [27]:
ex3

Unnamed: 0,同學,語文,數學,地理,歷史,自然,考試
0,小玉,86,94,86,82,78,期中考4
1,永澤,77,84,87,98,81,期中考4
2,花輪,82,75,70,86,78,期中考4
3,丸尾,80,80,83,95,84,期中考4
4,美環,80,78,87,97,79,期中考4
5,杉山,85,78,80,94,76,期中考4


### pd.concat
+ 能一次放多筆資料

In [28]:
pd.concat((ex1,ex2,ex3),axis=0)

Unnamed: 0,同學,語文,數學,社會,考試,地理,歷史,自然
0,小玉,79,75,86.0,期中考3,,,
1,永澤,85,79,88.0,期中考3,,,
2,花輪,75,70,82.0,期中考3,,,
3,丸尾,76,69,83.0,期中考3,,,
4,美環,82,73,88.0,期中考3,,,
5,杉山,81,86,87.0,期中考3,,,
0,小玉,92,78,90.0,期末考3,,,
1,永澤,78,88,84.0,期末考3,,,
2,花輪,84,87,92.0,期末考3,,,
3,丸尾,81,88,92.0,期末考3,,,


### .append()
+ 一次兩筆，但能一直累加上去

In [29]:
ex1.append(ex2).append(ex3)

Unnamed: 0,同學,語文,數學,社會,考試,地理,歷史,自然
0,小玉,79,75,86.0,期中考3,,,
1,永澤,85,79,88.0,期中考3,,,
2,花輪,75,70,82.0,期中考3,,,
3,丸尾,76,69,83.0,期中考3,,,
4,美環,82,73,88.0,期中考3,,,
5,杉山,81,86,87.0,期中考3,,,
0,小玉,92,78,90.0,期末考3,,,
1,永澤,78,88,84.0,期末考3,,,
2,花輪,84,87,92.0,期末考3,,,
3,丸尾,81,88,92.0,期末考3,,,


# 拉直或壓扁
## 處理單一紀錄 :

In [30]:
Exam

Unnamed: 0,同學,期中語文,期中數學,期中社會,期末語文,期末數學,期末社會
0,小玉,79,75,86,92,78,90
1,永澤,85,79,88,78,88,84
2,花輪,75,70,82,84,87,92
3,丸尾,76,69,83,81,88,92
4,美環,82,73,88,80,85,92
5,杉山,81,86,87,77,92,85


## 轉換到長資料
### .stack()
+ **轉換索引以外的所有欄位**

為了後續更好操作，我們可以再用 reset_index() 將 Series 資料轉換回 DataFrame

In [31]:
Exam.set_index("同學").stack().reset_index()

Unnamed: 0,同學,level_1,0
0,小玉,期中語文,79
1,小玉,期中數學,75
2,小玉,期中社會,86
3,小玉,期末語文,92
4,小玉,期末數學,78
5,小玉,期末社會,90
6,永澤,期中語文,85
7,永澤,期中數學,79
8,永澤,期中社會,88
9,永澤,期末語文,78


### .melt()
+ 會忽略索引中的值、並且要求使用者用參數設定明確寫出重塑哪些欄位
+ id_vars：指定不要進行重塑的欄位
+ value_vars：指定哪些欄位要重塑成單一欄位

In [32]:
longform = Exam.melt(id_vars="同學",
                     value_vars=["期中語文","期中數學","期中社會","期末語文","期末數學","期末社會"])
longform

Unnamed: 0,同學,variable,value
0,小玉,期中語文,79
1,永澤,期中語文,85
2,花輪,期中語文,75
3,丸尾,期中語文,76
4,美環,期中語文,82
5,杉山,期中語文,81
6,小玉,期中數學,75
7,永澤,期中數學,79
8,花輪,期中數學,70
9,丸尾,期中數學,69


## 轉換到寬資料
### .unstack()
+ 取用最內層索引中的值，將它們轉換回寬資料的欄位名稱

In [33]:
longform.set_index(["同學","variable"]).unstack()

Unnamed: 0_level_0,value,value,value,value,value,value
variable,期中數學,期中社會,期中語文,期末數學,期末社會,期末語文
同學,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
丸尾,69,83,76,88,92,81
小玉,75,86,79,78,90,92
杉山,86,87,81,92,85,77
永澤,79,88,85,88,84,78
美環,73,88,82,85,92,80
花輪,70,82,75,87,92,84


### .pivot_table() / .pivot()
+ index：不重塑的欄位
+ columns：指定欄位的值將成為轉換後的寬資料欄位名稱
+ values：要重塑的欄位

+ pivot_table() 是 pivot() 的通用版本。使用 pivot() 時有額外的限制：原始長資料內，要重複的幾個欄位、不可以有重複的值

In [34]:
longform.pivot_table(index='同學', columns='variable', values='value')

variable,期中數學,期中社會,期中語文,期末數學,期末社會,期末語文
同學,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
丸尾,69,83,76,88,92,81
小玉,75,86,79,78,90,92
杉山,86,87,81,92,85,77
永澤,79,88,85,88,84,78
美環,73,88,82,85,92,80
花輪,70,82,75,87,92,84


In [35]:
longform.pivot(index='同學', columns='variable', values='value')

variable,期中數學,期中社會,期中語文,期末數學,期末社會,期末語文
同學,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
丸尾,69,83,76,88,92,81
小玉,75,86,79,78,90,92
杉山,86,87,81,92,85,77
永澤,79,88,85,88,84,78
美環,73,88,82,85,92,80
花輪,70,82,75,87,92,84


## 處理兩種以上的紀錄 :
### pd.wide_to_long()
+ stubnames：要重塑的欄位名稱之字首
+ i：不堆疊的欄位名稱
+ j：重塑後的新欄位名稱
+ sep：分隔符號
+ suffix： 要重塑的欄位名稱之字尾，使用 正則表示式（RegExp）


+ [pandas.wide_to_long](https://pandas.pydata.org/docs/reference/api/pandas.wide_to_long.html)
+ [Python Pandas 的長資料與寬資料轉換](https://haosquare.com/python-pandas-wide-and-long-data/)

In [36]:
Exam

Unnamed: 0,同學,期中語文,期中數學,期中社會,期末語文,期末數學,期末社會
0,小玉,79,75,86,92,78,90
1,永澤,85,79,88,78,88,84
2,花輪,75,70,82,84,87,92
3,丸尾,76,69,83,81,88,92
4,美環,82,73,88,80,85,92
5,杉山,81,86,87,77,92,85


In [37]:
pd.wide_to_long(Exam,
                stubnames=['期中', '期末'],
                i='同學',                   
                j='科目',                       
                sep='',
                suffix=r'\D+')

Unnamed: 0_level_0,Unnamed: 1_level_0,期中,期末
同學,科目,Unnamed: 2_level_1,Unnamed: 3_level_1
小玉,語文,79,92
永澤,語文,85,78
花輪,語文,75,84
丸尾,語文,76,81
美環,語文,82,80
杉山,語文,81,77
小玉,數學,75,78
永澤,數學,79,88
花輪,數學,70,87
丸尾,數學,69,88


In [38]:
Exam.columns = ('同學','分數期中語文','分數期中數學','分數期中社會','分數期末語文','分數期末數學','分數期末社會')

longform = pd.wide_to_long(Exam,
                           stubnames=['分數'],
                           i='同學',                   
                           j='科目',                       
                           sep='',
                           suffix=r'\D+')
longform

Unnamed: 0_level_0,Unnamed: 1_level_0,分數
同學,科目,Unnamed: 2_level_1
小玉,期中語文,79
永澤,期中語文,85
花輪,期中語文,75
丸尾,期中語文,76
美環,期中語文,82
杉山,期中語文,81
小玉,期中數學,75
永澤,期中數學,79
花輪,期中數學,70
丸尾,期中數學,69


### .unstack()

In [39]:
longform.unstack()

Unnamed: 0_level_0,分數,分數,分數,分數,分數,分數
科目,期中數學,期中社會,期中語文,期末數學,期末社會,期末語文
同學,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
小玉,75,86,79,78,90,92
永澤,79,88,85,88,84,78
花輪,70,82,75,87,92,84
丸尾,69,83,76,88,92,81
美環,73,88,82,85,92,80
杉山,86,87,81,92,85,77


# 分組歸納
+ [分組依據：拆分-應用-組合](https://pandas.pydata.org/pandas-docs/stable/user_guide/groupby.html)

In [40]:
d = {"家庭收入" : (100,70,50,69,56,130,200,110,320,44,67,69,55,48),
     "學齡" : (4,2,3,4,5,8,7,5,6,8,6,4,3,3),
     "程度" : ("高","低","中","高","高","中","高","中","高","低","中","中","高","低")}

test2 = pd.DataFrame(d)
test2

Unnamed: 0,家庭收入,學齡,程度
0,100,4,高
1,70,2,低
2,50,3,中
3,69,4,高
4,56,5,高
5,130,8,中
6,200,7,高
7,110,5,中
8,320,6,高
9,44,8,低


### .pivot_table()

In [41]:
test2.pivot_table(index='學齡', columns='程度', values='家庭收入')

程度,中,低,高
學齡,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2,,70.0,
3,50.0,48.0,55.0
4,69.0,,84.5
5,110.0,,56.0
6,67.0,,320.0
7,,,200.0
8,130.0,44.0,


### .groupby() / .aggregate()

In [42]:
grouped = test2.groupby(['學齡'])
grouped.aggregate(np.mean) 

Unnamed: 0_level_0,家庭收入
學齡,Unnamed: 1_level_1
2,70.0
3,51.0
4,79.333333
5,83.0
6,193.5
7,200.0
8,87.0


In [43]:
grouped = test2.groupby(['學齡',"程度"])
age_max = grouped.mean() 
print(age_max)

        家庭收入
學齡 程度       
2  低    70.0
3  中    50.0
   低    48.0
   高    55.0
4  中    69.0
   高    84.5
5  中   110.0
   高    56.0
6  中    67.0
   高   320.0
7  高   200.0
8  中   130.0
   低    44.0


In [44]:
grouped = test2.groupby(['學齡',"程度"])
grouped.aggregate(np.mean) 

Unnamed: 0_level_0,Unnamed: 1_level_0,家庭收入
學齡,程度,Unnamed: 2_level_1
2,低,70.0
3,中,50.0
3,低,48.0
3,高,55.0
4,中,69.0
4,高,84.5
5,中,110.0
5,高,56.0
6,中,67.0
6,高,320.0


# 在資料集中的操作

```
熟悉了以上的合併、分組、拉直與壓扁，剩下的資料處理都在一個資料集內完成，單純很多，
不外乎選部份變數(欄位/直行)、選部份樣本(橫列)、變數轉換、排序、分組、匯總等。
```
+ [split-apply-combine](https://pandas.pydata.org/pandas-docs/stable/user_guide/groupby.html)

1. 根據某些標準將數據分成幾組。


2. 將函數獨立應用於每個組。


3. 將結果組合成數據結構

```
此連結介紹了更詳細、進階的操作方法，有興趣可以參考看看
```

---