- author: Lee Meng
- date: 2019-07-29 09:00
- title: 資料科學家的 Pandas 懶人包：輕鬆掌握數據處理技巧
- slug: pandas-top-x-tricks-for-data-scientists
- tags: Python
- description: 
- summary: 
- image: nick-hillier-yD5rv8_WzxA-unsplash.jpg
- image_credit_url: 
- status: draft

pandas還有numpy使用vertorization 還有 broadcasting來加快運算, 多使用內建函數

- 超越 SQL 的存在
- 當你需要透過 Python 操作並分析數據時必備的工具

In [1]:
import pandas as pd
pd.__version__

'0.23.4'

## 建立 DataFrame

Pandas 裡有非常多種可以初始化一個 DataFrame 的技巧。以下列出一些我覺得實用的初始化方式。

### 用 Python dict 建立 DataFrame

使用 Python 的 `dict` 來初始化 DataFrame 十分直覺。基本上 `dict` 裡頭的每一個鍵值（key）都對應到一個欄位名稱，而其值（value）則是一個 iterable，代表該欄位裡頭所有的數值。

In [49]:
dic = {
    "col 1": [1, 2, 3], 
    "col 2": [10, 20, 30],
    "col 3": list('xyz'),
    "col 4": ['a', 'b', 'c'],
    "col 5": pd.Series(range(3))
}
df = pd.DataFrame(dic)
df

Unnamed: 0,col 1,col 2,col 3,col 4,col 5
0,1,10,x,a,0
1,2,20,y,b,1
2,3,30,z,c,2


在需要管理多個 DataFrames 時你會想要用更有意義的名字來代表它們，但在資料科學領域裡只要看到 `df`，每個人都會預期它是一個 **D**ata**F**rame。

很多時候你也會需要改變 DataFrame 裡的欄位名稱：

In [50]:
rename_dic = {"col 1": "x", "col 2": "10x"}
df.rename(rename_dic, axis=1)

Unnamed: 0,x,10x,col 3,col 4,col 5
0,1,10,x,a,0
1,2,20,y,b,1
2,3,30,z,c,2


這邊也很直覺，就是給一個將舊欄位名對應到新欄位名的 Python `dict`。值得注意的是參數 `axis=1`：在 Pandas 裡大部分函式預設處理的軸為列（row），以 `axis=0` 表示；而將 `axis` 設置為 `1` 則代表你想以行（column）為單位套用該函式。

你也可以用 `df.columns` 的方式改欄位名稱：

In [51]:
df.columns = ['x(new)', '10x(new)'] + list(df.columns[2:])
df

Unnamed: 0,x(new),10x(new),col 3,col 4,col 5
0,1,10,x,a,0
1,2,20,y,b,1
2,3,30,z,c,2


### 使用 pd.util.testing 隨機建立 DataFrame

當你想要隨意初始化一個 DataFrame 並測試 Pandas 功能時，`pd.util.testing` 就顯得十分好用：

In [62]:
pd.util.testing.makeDataFrame().head(10)

Unnamed: 0,A,B,C,D
RUw0o5BOsn,-1.003098,0.154223,0.246047,0.297746
q3lxjzeojD,1.263129,1.016828,-1.196741,-1.610176
bX7J0ZoLVB,0.880721,-0.58331,1.095338,2.154931
YTJ34YP871,2.65788,0.186504,0.889965,-0.718536
xddthRayHR,-1.664708,-1.123217,0.289856,0.903716
bScpiBxEXZ,-0.870219,-0.115168,-0.274716,-0.973726
FLug2YsQ9e,-1.395407,-1.061966,-0.923233,1.566704
7iYeSbfLo1,0.179766,-0.084165,-0.617226,0.89477
6IIoiZf9yy,-1.079345,0.07967,0.465705,0.577736
angj1JkSbo,1.028734,-0.161673,-0.032459,-1.248616


`head` 函式預設用來顯示 DataFrame 中前 5 筆數據。要顯示後面數據則可以使用 `tail` 函式。

你也可以用 `makeMixedDataFrame` 建立一個有各種資料型態的 DataFrame 方便測試：

In [152]:
pd.util.testing.makeMixedDataFrame()

Unnamed: 0,A,B,C,D
0,0.0,0.0,foo1,2009-01-01
1,1.0,1.0,foo2,2009-01-02
2,2.0,0.0,foo3,2009-01-05
3,3.0,1.0,foo4,2009-01-06
4,4.0,0.0,foo5,2009-01-07


你也可以嘗試 `makeMissingDataframe` 以及 `makeTimeDataFrame` 函式。

### 將剪貼簿內容轉換成 DataFrame

你也可以從 Excel、Google Sheet 或是網頁上複製表格並將其轉成 DataFrame。

簡單 2 步驟：
- 複製其他來源的表格
- 執行 `pd.read_clipboard`

!mp4
- images/pandas/pandas_clipboard.mp4
- images/pandas/pandas_clipboard.jpg

這個技巧在你想要快速將一些數據轉成 DataFrame 時非常方便。當然，你得考量重現性（reproducibility）。

為了讓未來的自己以及他人可以重現你當下的結果，必要時記得另存新檔以供後人使用：

```python
df.to_csv("some_data.csv")
```

### 讀取線上 CSV 檔

不限於本地檔案，只要有正確的 URL 以及網路連線就可以將網路上的任意 CSV 檔案轉成 DataFrame。

比方說我們可以將 Kaggle 上著名的[鐵達尼號競賽](https://www.kaggle.com/c/titanic)的 CSV 檔案從網路上下載下來並轉成 DataFrame：

In [178]:
df = pd.read_csv('http://bit.ly/kaggletrain')
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


### 優化記憶體使用量

我們可以透過 `df.info` 查看 DataFrame 當前的記憶體用量：

In [8]:
df.info(memory_usage="deep")

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
PassengerId    891 non-null int64
Survived       891 non-null int64
Pclass         891 non-null int64
Name           891 non-null object
Sex            891 non-null object
Age            714 non-null float64
SibSp          891 non-null int64
Parch          891 non-null int64
Ticket         891 non-null object
Fare           891 non-null float64
Cabin          204 non-null object
Embarked       889 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 322.0 KB


從最後一列可以看出鐵達尼號這個小 DataFrame 只佔了 322 KB。如果你是透過 [Jupyter](https://jupyter.org/) 來操作 Pandas，也可以考慮用 [Variable Inspector](https://jupyter-contrib-nbextensions.readthedocs.io/en/latest/nbextensions/varInspector/README.html) 插件來觀察包含 DataFrame 等變數的大小：

!mp4
- images/pandas/variable_inspector.mp4
- Variable Inspector

這邊使用的 `df` 不佔什麼記憶體，但如果你想讀入的 DataFrame 很大，可以只讀入特定的欄位並將已知的分類型（categorical）欄位轉成 `category` 型態以節省記憶體（在分類數目較數據量小時有效）：

In [83]:
dtypes = {"Embarked": "category"}
cols = ['PassengerId', 'Name', 'Sex', 'Embarked']
df = pd.read_csv('http://bit.ly/kaggletrain', 
                 dtype=dtypes, usecols=cols)
df.info(memory_usage="deep")

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 4 columns):
PassengerId    891 non-null int64
Name           891 non-null object
Sex            891 non-null object
Embarked       889 non-null category
dtypes: category(1), int64(1), object(2)
memory usage: 134.9 KB


透過減少讀入的欄位數並將 `object` 轉換成 `category` 欄位，讀入的 `df` 只剩 135 KB。只需剛剛的 40 % 記憶體用量。

另外如果你想在有限的記憶體內處理巨大 CSV 檔案，也可以透過 `chunksize` 參數來限制一次讀入的列數（rows）：

In [95]:
from IPython.display import display
# chunksize=k 表示一次讀入 k 行
reader = pd.read_csv('dataset/titanic-train.csv', 
                     chunksize=4, usecols=cols)
# 秀出前兩個 chunks
for _, df_partial in zip(range(2), reader):
    display(df_partial)

Unnamed: 0,PassengerId,Name,Sex,Embarked
0,1,"Braund, Mr. Owen Harris",male,S
1,2,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,C
2,3,"Heikkinen, Miss. Laina",female,S
3,4,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,S


Unnamed: 0,PassengerId,Name,Sex,Embarked
4,5,"Allen, Mr. William Henry",male,S
5,6,"Moran, Mr. James",male,Q
6,7,"McCarthy, Mr. Timothy J",male,S
7,8,"Palsson, Master. Gosta Leonard",male,S


### 讀入並合併多個 CSV 檔案成單一 DataFrame

很多時候因為 ETL 或是內部數據處理的方式（比方說[利用 Airflow 處理批次數據](https://leemeng.tw/a-story-about-airflow-and-data-engineering-using-how-to-use-python-to-catch-up-with-latest-comics-as-an-example.html)），相同類型的數據可能會被分成多個不同的 CSV 檔案儲存。

讓我們假設在 `dataset` 資料夾內有 2 個 CSV 檔案，分別儲存鐵達尼號上不同乘客的數據：

In [170]:
#ignore
df = pd.read_csv("dataset/titanic-train.csv")
columns = list(df.columns)
# columns = [c for c in columns if c != 'Name']
df.Name = df.Name.apply(lambda x: x.split()[0].replace(',', ''))

df.loc[4:6, columns].to_csv("dataset/passenger1.csv", index=False)
df.loc[12:14, columns].to_csv("dataset/passenger2.csv", index=False)

In [171]:
pd.read_csv("dataset/passenger1.csv")

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,5,0,3,Allen,male,35.0,0,0,373450,8.05,,S
1,6,0,3,Moran,male,,0,0,330877,8.4583,,Q
2,7,0,1,McCarthy,male,54.0,0,0,17463,51.8625,E46,S


另外一個 CSV 內容：

In [172]:
pd.read_csv("dataset/passenger2.csv")

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,13,0,3,Saundercock,male,20.0,0,0,A/5. 2151,8.05,,S
1,14,0,3,Andersson,male,39.0,1,5,347082,31.275,,S
2,15,0,3,Vestrom,female,14.0,0,0,350406,7.8542,,S


注意上面 2 個 DataFrames 的內容雖然分別代表不同乘客，其格式卻是一模一樣。這種時候你可以使用 `pd.concat` 將分散在不同 CSV 的數據合併成單一 DataFrame 方便之後處理：

In [173]:
from glob import glob
files = glob("dataset/passenger*.csv")

df = pd.concat([pd.read_csv(f) for f in files])
df.reset_index(drop=True)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,5,0,3,Allen,male,35.0,0,0,373450,8.05,,S
1,6,0,3,Moran,male,,0,0,330877,8.4583,,Q
2,7,0,1,McCarthy,male,54.0,0,0,17463,51.8625,E46,S
3,13,0,3,Saundercock,male,20.0,0,0,A/5. 2151,8.05,,S
4,14,0,3,Andersson,male,39.0,1,5,347082,31.275,,S
5,15,0,3,Vestrom,female,14.0,0,0,350406,7.8542,,S


你還可以使用 `reset_index` 函式來重置串接後的 DataFrame 索引。

前面說過很多 Pandas 函式**預設**的 `axis` 參數為 `0`，代表著以**列（row）**為單位做特定的操作。在 `pd.concat` 的例子中則是將 2 個同樣格式的 DataFrames 依照**列**串接起來。

有時候同一筆數據的不同特徵值（features）會被存在不同檔案裡頭。以鐵達尼號的數據集舉例：

In [174]:
#ignore
df = pd.read_csv("dataset/titanic-train.csv")
df.Name = df.Name.apply(lambda x: x.split()[0].replace(',', ''))
df.iloc[:, :4].head().to_csv("dataset/feature_set1.csv", index=False)
df.iloc[:, 4:].head().to_csv("dataset/feature_set2.csv", index=False)

In [175]:
pd.read_csv("dataset/feature_set1.csv")

Unnamed: 0,PassengerId,Survived,Pclass,Name
0,1,0,3,Braund
1,2,1,1,Cumings
2,3,1,3,Heikkinen
3,4,1,1,Futrelle
4,5,0,3,Allen


除了乘客名稱以外，其他如年齡以及性別等特徵值則被存在另個 CSV 裡頭：

In [176]:
pd.read_csv("dataset/feature_set2.csv")

Unnamed: 0,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,male,22.0,1,0,A/5 21171,7.25,,S
1,female,38.0,1,0,PC 17599,71.2833,C85,C
2,female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,female,35.0,1,0,113803,53.1,C123,S
4,male,35.0,0,0,373450,8.05,,S


假設這 2 個 CSV 檔案裡頭**同列**對應到同個乘客，則你可以很輕鬆地用 `pd.concat` 函式搭配 `axis=1` 將不同 DataFrames 依照**行（column）**串接：

In [177]:
files = glob("dataset/feature_set*.csv")
pd.concat([pd.read_csv(f) for f in files], axis=1)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,Braund,male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,Cumings,female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,Heikkinen,female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,Futrelle,female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,Allen,male,35.0,0,0,373450,8.05,,S


## 客製化 DataFrame 顯示設定

雖然 Pandas 會盡可能地將一個 DataFrame 完整且漂亮地呈現出來，有時候你還是會想要改變預設的顯示方式。這節列出一些常見的使用情境。

### 減少顯示的欄位長度

這邊我們透過 `pd.set_option` 函式限制鐵達尼號資料集裡頭 `Name` 欄位的顯示長度：

In [252]:
from IPython.display import display
print("display.max_colwidth 預設值：", 
      pd.get_option("display.max_colwidth"))

# 使用預設設定來顯示 DataFrame
df = pd.read_csv('http://bit.ly/kaggletrain')
display(df.head(3))

print("注意 Name 欄位的長度被改變了：")
# 客製化顯示（global）
pd.set_option("display.max_colwidth", 10)
display(df.head(3))

# 重置該顯示設定
pd.reset_option("display.max_colwidth")

display.max_colwidth 預設值： 50


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S


注意 Name 欄位的長度被改變了：


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,Braund...,male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,Cuming...,female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,Heikki...,female,26.0,0,0,STON/O...,7.925,,S


### 完整顯示所有欄位

有時候一個 DataFrame 裡頭的欄位太多， Pandas 會自動將某些中間的欄位省略以保持頁面整潔：

```python
df = pd.util.testing.makeCustomDataframe(5, 25)
df
```

!image
- pandas/long_dataframe.jpg

但如果你無論如何都想要顯示所有欄位以方便一次查看，可以透過修改 `display.max_columns` 設定來做到這件事情：

```python
pd.set_option("display.max_columns", None)
df
```

!image
- pandas/long_full_dataframe.jpg

In [212]:
#ignore
pd.reset_option("display.max_columns")

你也可以使用 `T` 來轉置（transpose）當前 DataFrame，垂直顯示所有欄位：

```python
# 注意轉置後 `head(15)` 代表選擇前 15 個欄位
df.T.head(15)
```

!image
- pandas/transposed_dataframe.jpg

欄位裡頭的 `C` 代表 column。你可以在 [Pandas 官方文件裡查看其他常用的顯示設定](https://pandas.pydata.org/pandas-docs/stable/user_guide/options.html#frequently-used-options)。

## 數據清理 & 整理

這節列出一些十分常用的數據清理與整理技巧，如處理空值（null value）以及切割欄位。

### 處理空值

很多時候 DataFrame 裡頭會有不存在的值，如底下為 `NaN` 的格子（cell）：

In [214]:
df = pd.util.testing.makeMissingDataframe().head()
df

Unnamed: 0,A,B,C,D
U2lGLKsDcX,,1.759934,0.796524,0.862019
Hl42nflLca,-1.108733,-0.702009,1.161036,0.484336
h25kHyvP4r,0.441658,-0.926295,2.42868,0.000735
KtbULWeHwn,-0.134538,-0.308454,,-0.333798
RgXGc7sh5q,-0.951081,0.066542,0.732867,-0.840982


你可以利用 `fillna` 函式將 DataFrame 裡頭所有不存在的值設為 `0`：

In [215]:
df.fillna(0) 

Unnamed: 0,A,B,C,D
U2lGLKsDcX,0.0,1.759934,0.796524,0.862019
Hl42nflLca,-1.108733,-0.702009,1.161036,0.484336
h25kHyvP4r,0.441658,-0.926295,2.42868,0.000735
KtbULWeHwn,-0.134538,-0.308454,0.0,-0.333798
RgXGc7sh5q,-0.951081,0.066542,0.732867,-0.840982


當然，這個操作的前提是你確定在當前分析的情境下，將不存在的值視為 `0` 這件事情是沒有問題的。

針對字串欄位，你也可以將空值設定成任何有意義的值：

In [240]:
df = pd.util.testing.makeMissingCustomDataframe(5, 4, dtype=str)
df.fillna("Unknown")

C0,C_l0_g0,C_l0_g1,C_l0_g2,C_l0_g3
R0,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
R_l0_g0,R0C0,R0C1,R0C2,R0C3
R_l0_g1,R1C0,R1C1,Unknown,R1C3
R_l0_g2,R2C0,Unknown,R2C2,R2C3
R_l0_g3,R3C0,R3C1,R3C2,R3C3
R_l0_g4,R4C0,R4C1,R4C2,R4C3


### 捨棄不需要的行列

給定一個初始 DataFrame：

In [241]:
df = pd.util.testing.makeDataFrame().head()
df

Unnamed: 0,A,B,C,D
zQWcySAW1Q,-0.001943,1.25822,0.426575,0.032773
nPlkMsnBEL,1.032032,0.068994,0.473742,-0.550165
vy4T76kJHh,0.468277,-1.654331,-1.376282,0.492721
vnY459Zcbh,0.737793,2.577886,-0.171066,1.616761
jfmnw37ZQj,0.702867,-2.457,0.123365,-0.544891


你可以使用 `drop` 函式來捨棄不需要的欄位。記得將 `axis` 設為 1：

In [242]:
columns = ['B', 'D']
df.drop(columns, axis=1)

Unnamed: 0,A,C
zQWcySAW1Q,-0.001943,0.426575
nPlkMsnBEL,1.032032,0.473742
vy4T76kJHh,0.468277,-1.376282
vnY459Zcbh,0.737793,-0.171066
jfmnw37ZQj,0.702867,0.123365


同理，你也可以捨棄特定列（row）：

In [243]:
df.drop('jfmnw37ZQj')

Unnamed: 0,A,B,C,D
zQWcySAW1Q,-0.001943,1.25822,0.426575,0.032773
nPlkMsnBEL,1.032032,0.068994,0.473742,-0.550165
vy4T76kJHh,0.468277,-1.654331,-1.376282,0.492721
vnY459Zcbh,0.737793,2.577886,-0.171066,1.616761


### 重置並捨棄索引

很多時候你會想要重置一個 DataFrame 的索引，以方便使用 `loc` 或 `iloc` **屬性**來存取想要的數據。

給定一個 DataFrame：

In [247]:
df = pd.util.testing.makeDataFrame().head()
df

Unnamed: 0,A,B,C,D
0WJPtD6XXK,0.938708,-0.969374,0.14049,-1.25405
DWO4tdmqnM,-0.974254,0.286546,-0.779828,0.019476
oabmmC0Twx,-0.422172,0.317207,0.766807,2.683856
LP5INX5sFq,0.075583,0.223268,-0.518026,1.734535
mgdPGVo2xE,0.324784,-0.678861,-0.99441,-0.226905


你可以使用 `reset_index` 函式來重置此 DataFrame 的索引並輕鬆存取想要的部分：

In [248]:
df.reset_index(inplace=True)
df.iloc[:3, :]
# 豆知識：因為 iloc 是屬性而非函式，
# 因此我們使用 [] 而非 () 存取數據

Unnamed: 0,index,A,B,C,D
0,0WJPtD6XXK,0.938708,-0.969374,0.14049,-1.25405
1,DWO4tdmqnM,-0.974254,0.286546,-0.779828,0.019476
2,oabmmC0Twx,-0.422172,0.317207,0.766807,2.683856


注意我們這次將 `inplace` 參數設定為 `True` 以讓 Pandas 直接修改 DataFrame `df`。一般來說，Pandas 裡的函式並不會修改原始 DataFrame，這樣可以保證原來的數據不會受到任何函式的影響。

當你不想要原來的 DataFrame `df` 受到 `reset_index` 函式的影響，則可以將處理後的結果交給一個新 DataFrame `df1`：

In [250]:
df = pd.util.testing.makeDataFrame().head()
df1 = df.reset_index(drop=True)
display(df)
display(df1)

Unnamed: 0,A,B,C,D
eyAY44lkTs,0.35017,-0.874501,0.100024,-0.336918
UWJ4fmTn0T,-0.252245,0.433278,0.426492,0.021356
coSs7WdPhI,0.769507,-0.186353,0.641879,0.031283
cVKVbvNy8z,0.281039,-0.590677,-2.920608,-1.037952
Dy3k8mcPg8,0.190175,0.302253,-0.146215,0.437149


Unnamed: 0,A,B,C,D
0,0.35017,-0.874501,0.100024,-0.336918
1,-0.252245,0.433278,0.426492,0.021356
2,0.769507,-0.186353,0.641879,0.031283
3,0.281039,-0.590677,-2.920608,-1.037952
4,0.190175,0.302253,-0.146215,0.437149


透過這樣的方式，Pandas 讓你可以放心地對原始數據做任何壞壞的事情而不會產生任何不好的影響。

### 將字串切割成多個欄位

在處理文本數據時，很多時候你會想要把一個字串欄位拆成多個欄位以方便後續處理。

給定一個簡單 DataFrame：

In [232]:
df = pd.DataFrame({
    "name": ["大雄", "胖虎"], 
    "feature": ["膽小, 翻花繩", "粗魯, 演唱會"]
})
df

Unnamed: 0,name,feature
0,大雄,"膽小, 翻花繩"
1,胖虎,"粗魯, 演唱會"


你可能會想把這個 DataFrame 的 `feature` 欄位分成不同欄位，這時候利用 `str` 將字串取出，並透過 `expand=True` 將字串切割的結果擴大成（expand）成一個 DataFrame：

In [236]:
df[['性格', '特技']] = df.feature.str.split(',', expand=True)
df

Unnamed: 0,name,feature,性格,特技
0,大雄,"膽小, 翻花繩",膽小,翻花繩
1,胖虎,"粗魯, 演唱會",粗魯,演唱會


注意我們使用 `df[columns] = ...` 的形式將字串切割出來的 2 個新欄位分別指定成 `性格` 與 `特技`。

### 將 list 分成多個欄位

有時候一個欄位裡頭的值為 Python `list`：

In [237]:
df = pd.DataFrame({
    "name": ["大雄", "胖虎"], 
    "feature": [["膽小", "翻花繩"], ["粗魯", "演唱會"]]
})
df

Unnamed: 0,name,feature
0,大雄,"[膽小, 翻花繩]"
1,胖虎,"[粗魯, 演唱會]"


這時則可以使用 `tolist` 函式做到跟剛剛字串切割相同的效果：

In [238]:
cols = ['性格', '特技']
pd.DataFrame(df.feature.tolist(), columns=cols)

Unnamed: 0,性格,特技
0,膽小,翻花繩
1,粗魯,演唱會


你也可以使用 `apply(pd.Series)` 的方式達到一樣的效果：

In [239]:
df.feature.apply(pd.Series)

Unnamed: 0,0,1
0,膽小,翻花繩
1,粗魯,演唱會


遇到以 Python `list` 呈現欄位數據的情境不少，這些函式能讓你少抓點頭。

## 取得想要關注的數據

通常你會需要依照各種不同的分析情境，將整個 DataFrame 裡頭的一部份數據取出並進一步分析。這節內容讓你能夠輕鬆取得想要關注的數據。

### 基本數據切割

在 Pandas 裡頭，切割（Slice）DataFrame 裡頭一部份數據出來做分析是稀鬆平常的事情。讓我們再次以鐵達尼號數據集為例：

In [303]:
df = pd.read_csv('http://bit.ly/kaggletrain')
df = df.drop("Name", axis=1)
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,male,35.0,0,0,373450,8.05,,S


你可以透過 `loc` 以及 `:` 的方式輕鬆選取從某個起始欄位 C1 到結束欄位 C2 的所有欄位而不需將它們一一列出：

In [305]:
df.loc[:3, 'Pclass':'Ticket']

Unnamed: 0,Pclass,Sex,Age,SibSp,Parch,Ticket
0,3,male,22.0,1,0,A/5 21171
1,1,female,38.0,1,0,PC 17599
2,3,female,26.0,0,0,STON/O2. 3101282
3,1,female,35.0,1,0,113803


### 反向選取行列

透過 Python 常見的 `[::-1]` 語法，你可以輕易地改變 DataFrame 裡頭所有欄位的排列順序：

In [306]:
df.loc[:3, ::-1]

Unnamed: 0,Embarked,Cabin,Fare,Ticket,Parch,SibSp,Age,Sex,Pclass,Survived,PassengerId
0,S,,7.25,A/5 21171,0,1,22.0,male,3,0,1
1,C,C85,71.2833,PC 17599,0,1,38.0,female,1,1,2
2,S,,7.925,STON/O2. 3101282,0,0,26.0,female,3,1,3
3,S,C123,53.1,113803,0,1,35.0,female,1,1,4


同樣概念也可以運用到列（row）上面。你可以將所有樣本（samples）排序顛倒並選取其中 N 列：

In [307]:
df.iloc[::-1, :5].head()

Unnamed: 0,PassengerId,Survived,Pclass,Sex,Age
890,891,0,3,male,32.0
889,890,1,1,male,26.0
888,889,0,3,female,
887,888,1,1,female,19.0
886,887,0,2,male,27.0


注意我們同時使用 `:5` 來選出前 5 個欄位。

### 條件選取數據

在 Pandas 裡頭最實用的技巧大概非遮罩（masking）莫屬了。遮罩讓 Pandas 將符合特定條件的樣本回傳：

In [308]:
male_and_age_over_70 = (df.Sex == 'male') & (df.Age > 70)
df[male_and_age_over_70]
# 跟 df[(df.Sex == 'male') & (df.Age > 70)] 結果相同

Unnamed: 0,PassengerId,Survived,Pclass,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
96,97,0,1,male,71.0,0,0,PC 17754,34.6542,A5,C
116,117,0,3,male,70.5,0,0,370369,7.75,,Q
493,494,0,1,male,71.0,0,0,PC 17609,49.5042,,C
630,631,1,1,male,80.0,0,0,27042,30.0,A23,S
851,852,0,3,male,74.0,0,0,347060,7.775,,S


`male_and_age_over_70` 是我們定義的一個遮罩，可以把同時符合兩個布林判斷式（大於 70 歲、男性）的樣本選取出來。上面的註解有相同效果，但當存在多個判斷式時，有個準確說明遮罩意義的變數會讓你的程式碼好懂一點。

另外你也可以使用 `query` 函式來達到跟遮罩一樣的效果：

In [309]:
age = 70
df.query("Age > @age & Sex == 'male'")

Unnamed: 0,PassengerId,Survived,Pclass,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
96,97,0,1,male,71.0,0,0,PC 17754,34.6542,A5,C
116,117,0,3,male,70.5,0,0,370369,7.75,,Q
493,494,0,1,male,71.0,0,0,PC 17609,49.5042,,C
630,631,1,1,male,80.0,0,0,27042,30.0,A23,S
851,852,0,3,male,74.0,0,0,347060,7.775,,S


在這個例子裡頭，你可以使用 `@` 來存取已經定義的 Python 變數 `age` 的值。

### 選擇任一欄有空值的樣本

一個 DataFrame 裡常會有多個欄位（column），而每個欄位裡頭都有可能包含空值。

有時候你會想把在**任一**欄位（column）出現過空值的樣本（row）全部取出：

In [310]:
df[df.isnull().any(axis=1)].head()

Unnamed: 0,PassengerId,Survived,Pclass,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,male,22.0,1,0,A/5 21171,7.25,,S
2,3,1,3,female,26.0,0,0,STON/O2. 3101282,7.925,,S
4,5,0,3,male,35.0,0,0,373450,8.05,,S
5,6,0,3,male,,0,0,330877,8.4583,,Q
7,8,0,3,male,2.0,3,1,349909,21.075,,S


這邊剛好所有樣本的 `Cabin` 欄位皆為空值。但倒數第 2 個樣本就算其 `Cabin` 欄不為空值，也會因為 `Age` 欄為空而被選出。

### 選取或排除特定類型欄位

有時候你會想選取特定數據類型（字串、數值、時間型態等）的欄位，而這時你可以使用 `select_dtypes` 函式：

In [311]:
df.select_dtypes(include='number').head()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
0,1,0,3,22.0,1,0,7.25
1,2,1,1,38.0,1,0,71.2833
2,3,1,3,26.0,0,0,7.925
3,4,1,1,35.0,1,0,53.1
4,5,0,3,35.0,0,0,8.05


上面我們將所有數值欄位取出，而你當然也可以透過 `exclude` 參數來排除特定類型的欄位：

In [313]:
df_mix = pd.util.testing.makeMixedDataFrame()
display(df_mix)
print(df_mix.dtypes)
display(df_mix.select_dtypes(exclude=['datetime64', 'object']))

Unnamed: 0,A,B,C,D
0,0.0,0.0,foo1,2009-01-01
1,1.0,1.0,foo2,2009-01-02
2,2.0,0.0,foo3,2009-01-05
3,3.0,1.0,foo4,2009-01-06
4,4.0,0.0,foo5,2009-01-07


A           float64
B           float64
C            object
D    datetime64[ns]
dtype: object


Unnamed: 0,A,B
0,0.0,0.0
1,1.0,1.0
2,2.0,0.0
3,3.0,1.0
4,4.0,0.0


Pandas 裡的函式使用上都很直覺，你可以丟入 1 個包含多個元素的 Python `list` 或是單一 `str` 作為參數輸入。

### 選取所有出現在 list 內的樣本

很多時候針對某一個特定欄位，你會想要取出所有出現在一個 `list` 的樣本。這時候你可以使用 `isin` 函式來做到這件事情：

In [319]:
tickets = ["SC/Paris 2123", "PC 17475"]
df[df.Ticket.isin(tickets)]

Unnamed: 0,PassengerId,Survived,Pclass,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
43,44,1,2,female,3.0,1,2,SC/Paris 2123,41.5792,,C
608,609,1,2,female,22.0,1,2,SC/Paris 2123,41.5792,,C
685,686,0,2,male,25.0,1,2,SC/Paris 2123,41.5792,,C
701,702,1,1,male,35.0,0,0,PC 17475,26.2875,E24,S


### 選取某欄位為 top-k 值的樣本

很多時候你會想選取在某個欄位中前 k 大的所有樣本。這時你可以先利用 `value_counts` 函式找出該欄位前 k 多的值：

In [333]:
top_k = 3
top_tickets = df.Ticket.value_counts()[:top_k]
top_tickets.index

Index(['347082', '1601', 'CA. 2343'], dtype='object')

這邊我們以欄位 `Ticket` 為例。另外你也可以使用 Pandas Series 裡的 `nlargest` 函式取得相同結果：

In [335]:
df.Ticket.value_counts().nlargest(top_k).index

Index(['347082', '1601', 'CA. 2343'], dtype='object')

接著利用上小節看過的 `isin` 函式就能輕鬆取得 `Ticket`欄位值為前 k 大值的樣本：

In [329]:
df[df.Ticket.isin(top_tickets.index)].head()

Unnamed: 0,PassengerId,Survived,Pclass,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
13,14,0,3,male,39.0,1,5,347082,31.275,,S
74,75,1,3,male,32.0,0,0,1601,56.4958,,S
119,120,0,3,female,2.0,4,2,347082,31.275,,S
159,160,0,3,male,,8,2,CA. 2343,69.55,,S
169,170,0,3,male,28.0,0,0,1601,56.4958,,S


### 找出符合特定字串的樣本

有時你會想要對一個字串欄位做正規表示式（regular expression），取出符合某個 pattern 的所有樣本。

這時你可以使用 `str` 底下的 `contains` 函式：

In [344]:
df = pd.read_csv('http://bit.ly/kaggletrain')
df[df.Name.str.contains("Mr\.")].head(5)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
12,13,0,3,"Saundercock, Mr. William Henry",male,20.0,0,0,A/5. 2151,8.05,,S


這邊我們將所有 `Name` 欄位值裡包含 `Mr.` 的樣本取出。注意 `contains` 函式接受的是正規表示式，因此需要將 `.` 轉換成 `\.`。

### 使用正規表示式選取數據

有時候你會想要依照一些特定的規則來選取 DataFrame 裡頭的值、索引或是欄位，尤其是在處理跟時間序列相關的數據：

In [375]:
df_date = pd.util.testing.makeTimeDataFrame(freq='7D')
df_date.head(10)

Unnamed: 0,A,B,C,D
2000-01-01,2.531054,0.413328,-2.774311,-0.474483
2000-01-08,-0.515306,0.727068,-0.434502,0.69004
2000-01-15,-0.345547,-0.227778,1.292651,0.837119
2000-01-22,-0.608783,-1.144827,0.908982,-0.091544
2000-01-29,1.02492,-0.28969,0.434473,-0.34079
2000-02-05,0.199309,0.785491,0.359549,0.885593
2000-02-12,-0.241404,0.042274,1.074881,0.412306
2000-02-19,1.276601,0.380068,-0.429855,-0.437075
2000-02-26,-0.815572,0.05514,-0.777955,-1.211914
2000-03-04,-0.307503,-0.110974,-1.440077,0.533766


假設你想將所有索引在 2000 年 2 月內的樣本取出，則可以透過 `filter` 函式達成這個目標：

In [376]:
df_date.filter(regex="2000-02.*", axis=0)

Unnamed: 0,A,B,C,D
2000-02-05,0.199309,0.785491,0.359549,0.885593
2000-02-12,-0.241404,0.042274,1.074881,0.412306
2000-02-19,1.276601,0.380068,-0.429855,-0.437075
2000-02-26,-0.815572,0.05514,-0.777955,-1.211914


`filter` 函式本身功能十分強大，有興趣的讀者可以[閱讀官方文件進一步了解其用法](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.filter.html)。

### 選取從某時間點開始的區間樣本

在處理時間數據時，很多時候你會想要針對某個起始時間挑出前 t 個時間點的樣本。

讓我們再看一次剛剛建立的 DataFrame：

In [383]:
df_date.head(8)

Unnamed: 0,A,B,C,D
2000-01-01,2.531054,0.413328,-2.774311,-0.474483
2000-01-08,-0.515306,0.727068,-0.434502,0.69004
2000-01-15,-0.345547,-0.227778,1.292651,0.837119
2000-01-22,-0.608783,-1.144827,0.908982,-0.091544
2000-01-29,1.02492,-0.28969,0.434473,-0.34079
2000-02-05,0.199309,0.785491,0.359549,0.885593
2000-02-12,-0.241404,0.042274,1.074881,0.412306
2000-02-19,1.276601,0.380068,-0.429855,-0.437075


在索引為時間型態的情況下，如果你想要把前 3 週的樣本取出可以使用 `first` 函式：

In [391]:
df_date.first('3W')

Unnamed: 0,A,B,C,D
2000-01-01,2.531054,0.413328,-2.774311,-0.474483
2000-01-08,-0.515306,0.727068,-0.434502,0.69004
2000-01-15,-0.345547,-0.227778,1.292651,0.837119


十分方便的函式。

## 基本數據處理與轉換

在了解如何選取數據以後，你可以透過這節的介紹來熟悉一些 Pandas 常見的數據處理方式。

這章節是我認為使用 Pandas 時最令人愉快的部分之一。

### 對某一軸套用相同運算

你時常會需要對 DataFrame 裡頭的每一個欄位（縱軸）或是每一列（橫軸）做相同的運算。

比方說你想將鐵達尼號資料集內的 `Survived` 數值欄位轉換成人類容易理解的字串：

In [430]:
# 重新讀取鐵達尼號數據
df_titanic = pd.read_csv('http://bit.ly/kaggletrain')
df_titanic = df_titanic.drop("Name", axis=1)

# 複製一份副本 DataFrame
df = df_titanic.copy()
columns = df.columns.tolist()[:4]

# 好戲登場
new_col = '存活'
columns.insert(1, new_col)  # 調整欄位順序用
df[new_col] = df.Survived.apply(lambda x: '倖存' if x else '死亡')
df.loc[:5, columns]

Unnamed: 0,PassengerId,存活,Survived,Pclass,Sex
0,1,死亡,0,3,male
1,2,倖存,1,1,female
2,3,倖存,1,3,female
3,4,倖存,1,1,female
4,5,死亡,0,3,male
5,6,死亡,0,3,male


透過 `apply` 函式，我們把一個匿名函式 `lambda` 套用到整個 `df.Survived` Series 之上，並以此建立一個新的 `存活` 欄位。

值得一提的是當你需要追加新的欄位但又不想影響到原始 DataFrame，可以使用 `copy` 函式複製一份副本另行操作。

### 將連續數值轉換成分類數據

有時你會想把一個連續數值（numerical）的欄位分成多個 groups 以方便對每個 groups 做統計。這時候你可以使用 `pd.cut` 函式：

In [427]:
df = df_titanic.copy()

# 為了方便比較新舊欄位
columns = df.columns.tolist()
new_col = '年齡區間'
columns.insert(4, new_col)

# 將 numerical 轉換成 categorical 欄位
df[new_col] = pd.cut(df.Age, 10, labels=[f'族群 {i}' for i in range(1, 11)])

# 可以排序切割後的 categorical 欄位
df.sort_values(new_col, ascending=False).reset_index().loc[:5, columns]

Unnamed: 0,PassengerId,Survived,Pclass,Sex,年齡區間,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,631,1,1,male,族群 10,80.0,0,0,27042,30.0,A23,S
1,852,0,3,male,族群 10,74.0,0,0,347060,7.775,,S
2,55,0,1,male,族群 9,65.0,0,1,113509,61.9792,B30,C
3,97,0,1,male,族群 9,71.0,0,0,PC 17754,34.6542,A5,C
4,494,0,1,male,族群 9,71.0,0,0,PC 17609,49.5042,,C
5,117,0,3,male,族群 9,70.5,0,0,370369,7.75,,Q


如上所示，使用 `pd.cut` 函式建立出來的每個分類 `族群 X` 有大小之分，因此我們可以輕易地使用 `sort_values` 函式排序樣本。

In [428]:
df[new_col].dtype

CategoricalDtype(categories=['族群 1', '族群 2', '族群 3', '族群 4', '族群 5', '族群 6', '族群 7',
                  '族群 8', '族群 9', '族群 10'],
                 ordered=True)

### 將 





- 數據處理
    - itertuples 做特定處理
    - 切兩個 subset
    - join dataframe
        - `df.merge`
- 匯總
    - value_counts + sorted value
    - describe + `[min:max]`
    - unique
    - groupby + (multi-agg func or describe())
        - 對時間的匯總可以用 `resample`
            - https://twitter.com/justmarkham/status/1151846604216971264?s=20
    - group by custom lambda func
    - `df.groupby(["Group", "Size"]).size()`
    - transform 函式
    - multi-index groupby (`unstack`) VS pivot_table
- 簡單畫圖
    - easy plot + nice style
        - `df.plot()`
    - 使用 matplotlib 以外的 backend (看 pocket)
    - 改變 display options / style obj.
        - chain your operations!
        - https://t.co/6xlytNLmGm
        - https://t.co/mhz9GiueaN
- output
    - windows friendly output: `to_csv(encoding="cp932")`
- everything together: chain the operation!
- powerful tools
    - pandas profiling
        - `pip install pandas-profiling`
        - 適合用在 numerical features 的分析
    - qgrid
        - https://www.evernote.com/l/AET7-dpk349LNJcQVCWP-rGWdnyGA6-mz2w
    - tqdm
        - https://www.evernote.com/l/AETKpFnXeB5B84M5PbPBwXR_dMDZ4vAu0Xw
    - swifter
    - Facets
        - https://www.evernote.com/l/AETaGMqtguRAKbEF9z4hWtF9HazEVkWr70c
    - cufflinks and plotly
        - https://www.kdnuggets.com/2019/07/10-simple-hacks-speed-data-analysis-python.html
- good reference
    - youtube
    - pocket 那篇 10 個
    - safari
    - dataquest cheat sheet
        - https://storage.googleapis.com/molten/lava/2018/09/f0c721d9-pandas-cheat-sheet-dataquest.jpg
    - pocket: minimal pandas ... 
- 確保 reproduciblity    
- optional
    - read json
    
- 將數據做排序
    - sort by index
    - sort by values
    - sort by categoricalindex
```python
df1.index = pd.CategoricalIndex(df1.index, 
                               categories=['Monday', 'Tuesday', 'Wednesday', 'Thursday', 'Friday','Saturday', 'Sunday'], 
                               sorted=True)
df1.sort_index().plot(kind='bar', figsize=(15, 12))
```


## 選擇子集

In [None]:
customers = customers[customers >= 35]
products = products[products >= 20]

reduced_df = df.merge(pd.DataFrame({'customer_id': customers.index})).merge(pd.DataFrame({'product_id': products.index}))

## 看 columns 裡頭的值的分佈

In [None]:
customers = df['customer_id'].value_counts()
products = df['product_id'].value_counts()

quantiles = [0, 0.1, 0.25, 0.5, 0.75, 0.8, 0.85, 0.9, 0.95, 0.96, 0.97, 0.98, 0.99, 0.995, 0.999, 0.9999, 1]
print('customers\n', customers.quantile(quantiles))
print('products\n', products.quantile(quantiles))

馬上將這張的東西應用到你目前的數據及。