<img width=200 src="https://camo.githubusercontent.com/903f3cc51db134b8c9faed2ba2b18ffedff67ff2aafe75259cbde477b27d9b4f/68747470733a2f2f75706c6f61642e77696b696d656469612e6f72672f77696b6970656469612f636f6d6d6f6e732f7468756d622f652f65642f50616e6461735f6c6f676f2e7376672f3132303070782d50616e6461735f6c6f676f2e7376672e706e673f7261773d74727565"></img>

# Day-13 Pandas DataFrame 的新增與刪除

* 教學目標
  * 正確的從 DataFrame 中插入或刪除資料
  * 正確的對 DataFrame 進行合併與重組
  * 了解 DataFrame 中合併的方法差異

## 匯入套件

In [None]:
# 載入 NumPy, Pandas 套件
import numpy as np
import pandas as pd

# 檢查正確載入與版本
print(np)
print(np.__version__)
print(pd)
print(pd.__version__)

<module 'numpy' from 'D:\\anaconda3\\lib\\site-packages\\numpy\\__init__.py'>
1.19.2
<module 'pandas' from 'D:\\anaconda3\\lib\\site-packages\\pandas\\__init__.py'>
1.1.3


## 從 DataFrame 中插入或刪除資料

對於一個 DataFrame 可以進行新增或刪除的操作，又可以分為行或是列的方向：
* = 可以用來增加行(欄)
* append() 可以用來新增列(資料)
* del 或 pop() 可以用來刪除行(欄)
* drop() 可以用來刪除列(資料)

### 新增欄位

* = 可用來增加新的行(欄)

In [None]:
df = pd.DataFrame([[1], [2]], columns = ['a'])
print(df)

print('='*20)
df['b'] = pd.Series([3, 4])
print(df)

   a
0  1
1  2
   a  b
0  1  3
1  2  4


* append() 可用來新增列(資料)

In [None]:
df = pd.DataFrame([[1, 2]], columns = ['a', 'b'])
print(df)

print('='*20)
df = df.append(pd.DataFrame([[3, 4]], columns = ['a', 'b']))
print(df)

   a  b
0  1  2
   a  b
0  1  2
0  3  4


但仔細看一下，會發現索引重複了，這邊利用 reset_index() 修正：

In [None]:
df = pd.DataFrame([[1, 2]], columns = ['a', 'b'])
print(df)

print('='*20)
df = df.append(pd.DataFrame([[3, 4]], columns = ['a', 'b']))
df = df.reset_index(drop=True)
print(df)

   a  b
0  1  2
   a  b
0  1  2
1  3  4


### 刪除欄位

* del 或 pop() 可用來刪除行(欄)

In [None]:
df = pd.DataFrame([[1, 2, 3]], columns = ['a', 'b', 'c'])
print(df)

print('='*20)
del df['a']
df.pop('c')

   a  b  c
0  1  2  3


0    3
Name: c, dtype: int64

* drop() 可用來刪除列(資料)

In [None]:
df = pd.DataFrame([[1], [2]], columns = ['a'])
print(df)

print('='*20)
df = df.drop(1)
print(df)

   a
0  1
1  2
   a
0  1


## DataFrame 的合併與重組

### Concat (聯集)：上下相併

In [None]:
one = pd.DataFrame({
    'id':[1, 2],
    'Name': ['Alex', 'Amy'],
})
two = pd.DataFrame({
    'id':[1, 2],
    'Name': ['Bob', 'Tom']
})

pd.concat([one, two])

Unnamed: 0,id,Name
0,1,Alex
1,2,Amy
0,1,Bob
1,2,Tom


有時候會有索引重複的現象，請務必要修正：

In [None]:
one = pd.DataFrame({
    'id':[1, 2],
    'Name': ['Alex', 'Amy'],
})
two = pd.DataFrame({
    'id':[1, 2],
    'Name': ['Bob', 'Tom']
})

pd.concat([one, two]).reset_index(drop=True)

Unnamed: 0,id,Name
0,1,Alex
1,2,Amy
2,1,Bob
3,2,Tom


### Merge (合併)：實現欄位左右相併

In [None]:
one = pd.DataFrame({
    'id':[1, 2],
    'Name': ['Alex', 'Amy'],
})
two = pd.DataFrame({
    'id':[1, 2],
    'Score': [98, 60]
})

pd.merge(one, two, on='id')

Unnamed: 0,id,Name,Score
0,1,Alex,98
1,2,Amy,60


#### 不同的 merge 規則

合併除了可以指定欄位之外，也可以設定「拼」的方法：

```
pandas.merge(left, right, how='inner', on=None ...)

* left、right：必填，任何 dataFrame 物件
* how：提供四種不同的合併方法（參考下圖）
* on：用來合併的相依欄位
```

* inner join：交集
* full join：聯集
* left join：以左為主
* right join：以右為主

### Join (連接)：實現索引左右相併

In [None]:
one = pd.DataFrame({
    'Name': ['Alex', 'Amy'],
})
two = pd.DataFrame({
    'Score': [98, 60]
})

one.join(two)

Unnamed: 0,Name,Score
0,Alex,98
1,Amy,60


### Group By (分組)：依照資料內容重新組裝

In [None]:
df = pd.DataFrame({
  'A' : ['foo', 'bar', 'foo', 'bar'],
  'B' : ['one', 'one', 'two', 'three'],
  'C' : [1,2,3,4],
  'D' : [10, 20, 30, 40]
})

print( df.groupby('A').sum() )
print('='*20)
print( df.groupby('A').agg(sum) )
print('='*20)
print( df.groupby(['A','B']).sum() )

     C   D
A         
bar  6  60
foo  4  40
     C   D
A         
bar  6  60
foo  4  40
           C   D
A   B           
bar one    2  20
    three  4  40
foo one    1  10
    two    3  30


# 參考資料

* [Merge, join, concatenate and compare](https://pandas.pydata.org/pandas-docs/stable/user_guide/merging.html)
* [Groupby 用法詳解](https://zhuanlan.zhihu.com/p/101284491)