- author: Lee Meng
- date: 2019-07-29 09:00
- title: 掌握數據科學家常用的 Pandas 技巧
- slug: pandas-top-x-tricks-for-data-scientists
- tags: Python
- description: 
- summary: 
- image: nick-hillier-yD5rv8_WzxA-unsplash.jpg
- image_credit_url: 
- status: draft

pandas還有numpy使用vertorization 還有 broadcasting來加快運算, 多使用內建函數

- 超越 SQL 的存在
- 當你需要透過 Python 操作並分析數據時必備的工具

In [1]:
import pandas as pd
pd.__version__

'0.23.4'

## 建立 DataFrame

Pandas 裡有非常多種可以初始化一個 DataFrame 的技巧。以下列出一些我覺得實用的初始化方式。

### 用 Python dict 建立 DataFrame

使用 Python 的 `dict` 來初始化 DataFrame 十分直覺。基本上 `dict` 裡頭的每一個鍵值（key）都對應到一個欄位名稱，而其值（value）則是一個 iterable，代表該欄位裡頭所有的數值。

In [49]:
dic = {
    "col 1": [1, 2, 3], 
    "col 2": [10, 20, 30],
    "col 3": list('xyz'),
    "col 4": ['a', 'b', 'c'],
    "col 5": pd.Series(range(3))
}
df = pd.DataFrame(dic)
df

Unnamed: 0,col 1,col 2,col 3,col 4,col 5
0,1,10,x,a,0
1,2,20,y,b,1
2,3,30,z,c,2


在需要管理多個 DataFrames 時你會想要用更有意義的名字來代表它們，但在資料科學領域裡只要看到 `df`，每個人都會預期它是一個 **D**ata**F**rame。

很多時候你也會需要改變 DataFrame 裡的欄位名稱：

In [50]:
rename_dic = {"col 1": "x", "col 2": "10x"}
df.rename(rename_dic, axis=1)

Unnamed: 0,x,10x,col 3,col 4,col 5
0,1,10,x,a,0
1,2,20,y,b,1
2,3,30,z,c,2


這邊也很直覺，就是給一個將舊欄位名對應到新欄位名的 Python `dict`。值得注意的是參數 `axis=1`：在 Pandas 裡大部分函式預設的 `axis` 為 `0`，代表著列（row）；而將 `axis=1` 則代表以行（column）為單位。

你也可以用 `df.columns` 的方式改欄位名稱：

In [51]:
df.columns = ['x(new)', '10x(new)'] + list(df.columns[2:])
df

Unnamed: 0,x(new),10x(new),col 3,col 4,col 5
0,1,10,x,a,0
1,2,20,y,b,1
2,3,30,z,c,2


### 使用 pd.util.testing 隨機建立 DataFrame

當你想要隨意初始化一個 DataFrame 並測試 Pandas 功能時，`pd.util.testing` 就顯得十分好用：

In [62]:
pd.util.testing.makeDataFrame().head(10)

Unnamed: 0,A,B,C,D
RUw0o5BOsn,-1.003098,0.154223,0.246047,0.297746
q3lxjzeojD,1.263129,1.016828,-1.196741,-1.610176
bX7J0ZoLVB,0.880721,-0.58331,1.095338,2.154931
YTJ34YP871,2.65788,0.186504,0.889965,-0.718536
xddthRayHR,-1.664708,-1.123217,0.289856,0.903716
bScpiBxEXZ,-0.870219,-0.115168,-0.274716,-0.973726
FLug2YsQ9e,-1.395407,-1.061966,-0.923233,1.566704
7iYeSbfLo1,0.179766,-0.084165,-0.617226,0.89477
6IIoiZf9yy,-1.079345,0.07967,0.465705,0.577736
angj1JkSbo,1.028734,-0.161673,-0.032459,-1.248616


`head` 函式預設用來顯示 DataFrame 中前 5 筆數據。要顯示後面數據則可以使用 `tail` 函式。

你也可以用 `makeMixedDataFrame` 建立一個有各種資料型態的 DataFrame 方便測試：

In [152]:
pd.util.testing.makeMixedDataFrame()

Unnamed: 0,A,B,C,D
0,0.0,0.0,foo1,2009-01-01
1,1.0,1.0,foo2,2009-01-02
2,2.0,0.0,foo3,2009-01-05
3,3.0,1.0,foo4,2009-01-06
4,4.0,0.0,foo5,2009-01-07


你也可以嘗試 `makeMissingDataframe` 以及 `makeTimeDataFrame` 函式。

### 將剪貼簿內容轉換成 DataFrame

你也可以從 Excel、Google Sheet 或是網頁上複製表格並將其轉成 DataFrame。

簡單 2 步驟：
- 複製其他來源的表格
- 執行 `pd.read_clipboard`

!mp4
- images/pandas/pandas_clipboard.mp4
- images/pandas/pandas_clipboard.jpg

這個技巧在你想要快速將一些數據轉成 DataFrame 時非常方便。當然，你得考量重現性（reproducibility）。

為了讓未來的自己以及他人可以重現你當下的結果，必要時記得另存新檔以供後人使用：

```python
df.to_csv("some_data.csv")
```

### 讀取線上 CSV 檔

不限於本地檔案，只要有正確的 URL 以及網路連線就可以將網路上的任意 CSV 檔案轉成 DataFrame。

比方說我們可以將 Kaggle 上著名的[鐵達尼號競賽](https://www.kaggle.com/c/titanic)的 CSV 檔案從網路上下載下來並轉成 DataFrame：

In [154]:
df = pd.read_csv('http://bit.ly/kaggletrain')
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


### 優化記憶體使用量

我們可以透過 `df.info` 查看 DataFrame 當前的記憶體用量：

In [8]:
df.info(memory_usage="deep")

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
PassengerId    891 non-null int64
Survived       891 non-null int64
Pclass         891 non-null int64
Name           891 non-null object
Sex            891 non-null object
Age            714 non-null float64
SibSp          891 non-null int64
Parch          891 non-null int64
Ticket         891 non-null object
Fare           891 non-null float64
Cabin          204 non-null object
Embarked       889 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 322.0 KB


從最後一列可以看出鐵達尼號這個小 DataFrame 只佔了 322 KB。如果你是透過 [Jupyter](https://jupyter.org/) 來操作 Pandas，也可以考慮用 [Variable Inspector](https://jupyter-contrib-nbextensions.readthedocs.io/en/latest/nbextensions/varInspector/README.html) 插件來觀察包含 DataFrame 等變數的大小：

!mp4
- images/pandas/variable_inspector.mp4
- Variable Inspector

這邊使用的 `df` 不佔什麼記憶體，但如果你想讀入的 DataFrame 很大，可以只讀入特定的欄位並將已知的分類型（categorical）欄位轉成 `category` 型態以節省記憶體（在分類數目較數據量小時有效）：

In [83]:
dtypes = {"Embarked": "category"}
cols = ['PassengerId', 'Name', 'Sex', 'Embarked']
df = pd.read_csv('http://bit.ly/kaggletrain', 
                 dtype=dtypes, usecols=cols)
df.info(memory_usage="deep")

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 4 columns):
PassengerId    891 non-null int64
Name           891 non-null object
Sex            891 non-null object
Embarked       889 non-null category
dtypes: category(1), int64(1), object(2)
memory usage: 134.9 KB


透過減少讀入的欄位數並將 `object` 轉換成 `category` 欄位，讀入的 `df` 只剩 135 KB。只需剛剛的 40 % 記憶體用量。

另外如果你想在有限的記憶體內處理巨大 CSV 檔案，也可以透過 `chunksize` 參數來限制一次讀入的列數（rows）：

In [95]:
from IPython.display import display
# chunksize=k 表示一次讀入 k 行
reader = pd.read_csv('dataset/titanic-train.csv', 
                     chunksize=4, usecols=cols)
# 秀出前兩個 chunks
for _, df_partial in zip(range(2), reader):
    display(df_partial)

Unnamed: 0,PassengerId,Name,Sex,Embarked
0,1,"Braund, Mr. Owen Harris",male,S
1,2,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,C
2,3,"Heikkinen, Miss. Laina",female,S
3,4,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,S


Unnamed: 0,PassengerId,Name,Sex,Embarked
4,5,"Allen, Mr. William Henry",male,S
5,6,"Moran, Mr. James",male,Q
6,7,"McCarthy, Mr. Timothy J",male,S
7,8,"Palsson, Master. Gosta Leonard",male,S


### 讀入並合併多個 CSV 檔案成單一 DataFrame

很多時候因為 ETL 或是內部數據處理的方式（比方說[利用 Airflow 處理批次數據](https://leemeng.tw/a-story-about-airflow-and-data-engineering-using-how-to-use-python-to-catch-up-with-latest-comics-as-an-example.html)），相同類型的數據可能會被分成多個不同的 CSV 檔案儲存。

讓我們假設在 `dataset` 資料夾內有 2 個 CSV 檔案，分別儲存鐵達尼號上不同乘客的數據：

In [170]:
#ignore
df = pd.read_csv("dataset/titanic-train.csv")
columns = list(df.columns)
# columns = [c for c in columns if c != 'Name']
df.Name = df.Name.apply(lambda x: x.split()[0].replace(',', ''))

df.loc[4:6, columns].to_csv("dataset/passenger1.csv", index=False)
df.loc[12:14, columns].to_csv("dataset/passenger2.csv", index=False)

In [171]:
pd.read_csv("dataset/passenger1.csv")

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,5,0,3,Allen,male,35.0,0,0,373450,8.05,,S
1,6,0,3,Moran,male,,0,0,330877,8.4583,,Q
2,7,0,1,McCarthy,male,54.0,0,0,17463,51.8625,E46,S


另外一個 CSV 內容：

In [172]:
pd.read_csv("dataset/passenger2.csv")

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,13,0,3,Saundercock,male,20.0,0,0,A/5. 2151,8.05,,S
1,14,0,3,Andersson,male,39.0,1,5,347082,31.275,,S
2,15,0,3,Vestrom,female,14.0,0,0,350406,7.8542,,S


注意上面 2 個 DataFrames 的內容雖然分別代表不同乘客，其格式卻是一模一樣。這種時候你可以使用 `pd.concat` 將分散在不同 CSV 的數據合併成單一 DataFrame。這樣之後可以讓你輕鬆地處理這些數據：

In [173]:
from glob import glob
files = glob("dataset/passenger*.csv")

df = pd.concat([pd.read_csv(f) for f in files])
df.reset_index(drop=True)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,5,0,3,Allen,male,35.0,0,0,373450,8.05,,S
1,6,0,3,Moran,male,,0,0,330877,8.4583,,Q
2,7,0,1,McCarthy,male,54.0,0,0,17463,51.8625,E46,S
3,13,0,3,Saundercock,male,20.0,0,0,A/5. 2151,8.05,,S
4,14,0,3,Andersson,male,39.0,1,5,347082,31.275,,S
5,15,0,3,Vestrom,female,14.0,0,0,350406,7.8542,,S


你還可以使用 `reset_index` 函式來重置串接後的 DataFrame 索引。

前面說過很多 Pandas 函式**預設**的 `axis` 參數為 `0`，代表著以**列（row）**為單位做特定的操作。在 `pd.concat` 的例子中則是將 2 個同樣格式的 DataFrames 依照**列**串接起來。

有時候同一筆數據的不同特徵值（features）會被存在不同檔案裡頭。以鐵達尼號的數據集舉例：

In [174]:
#ignore
df = pd.read_csv("dataset/titanic-train.csv")
df.Name = df.Name.apply(lambda x: x.split()[0].replace(',', ''))
df.iloc[:, :4].head().to_csv("dataset/feature_set1.csv", index=False)
df.iloc[:, 4:].head().to_csv("dataset/feature_set2.csv", index=False)

In [175]:
pd.read_csv("dataset/feature_set1.csv")

Unnamed: 0,PassengerId,Survived,Pclass,Name
0,1,0,3,Braund
1,2,1,1,Cumings
2,3,1,3,Heikkinen
3,4,1,1,Futrelle
4,5,0,3,Allen


除了乘客名稱以外，其他如年齡以及性別等特徵值則被存在另個 CSV 裡頭：

In [176]:
pd.read_csv("dataset/feature_set2.csv")

Unnamed: 0,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,male,22.0,1,0,A/5 21171,7.25,,S
1,female,38.0,1,0,PC 17599,71.2833,C85,C
2,female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,female,35.0,1,0,113803,53.1,C123,S
4,male,35.0,0,0,373450,8.05,,S


假設這 2 個 CSV 檔案裡頭**同列**對應到同個乘客，則你可以很輕鬆地用 `pd.concat` 函式搭配 `axis=1` 將不同 DataFrames 依照**行（column）**串接：

In [177]:
files = glob("dataset/feature_set*.csv")
pd.concat([pd.read_csv(f) for f in files], axis=1)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,Braund,male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,Cumings,female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,Heikkinen,female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,Futrelle,female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,Allen,male,35.0,0,0,373450,8.05,,S


## 數據清理 & 整理

In [159]:
df = pd.util.testing.makeMissingDataframe().head()
df

Unnamed: 0,A,B,C,D
FXdsNiKto1,-2.507058,-0.787807,,2.240959
bkxz4q3Cng,-0.99397,1.001842,-0.215799,-0.257532
kjeP3iCnKY,-1.332256,0.687775,-1.235441,-0.420661
hw5toggemV,0.709755,-0.098641,-1.092789,-0.822595
TKE6mseQWK,,-0.675294,0.11285,-2.651522


In [160]:
df.fillna(0)

Unnamed: 0,A,B,C,D
FXdsNiKto1,-2.507058,-0.787807,0.0,2.240959
bkxz4q3Cng,-0.99397,1.001842,-0.215799,-0.257532
kjeP3iCnKY,-1.332256,0.687775,-1.235441,-0.420661
hw5toggemV,0.709755,-0.098641,-1.092789,-0.822595
TKE6mseQWK,0.0,-0.675294,0.11285,-2.651522


toc
- 數據清理 / 整理
    - drop columns
        - https://gist.github.com/600474cca52227129872d44559d312f2
    - rename columns
    - reindex 然後 drop
    - fillna
    - (conditional) drop columns
    - 將字串 split 成兩個 columns
    - 將 numerical 切成 categorical (pd.cut)
- select data
    - `df.first` 選擇 datetime based rows
    - 記得loc, iloc, ix, at, iat都不是function, 而是attribute, 所以是使用[], 而不是()
    - reserve row / col orders
    - row and/or columns slicer 
        - [col_a:col_b]
    - mask and `query`
    - 選出任何一行有 NLL 值的 rows
        - `df[df.isnull().any(axis=1)]`
    - 選擇 dtype 為特定型態的 column
    - 選擇某些 column 特定值 (`isin`)
    - 選擇某些 column 為 top k 值的 row
    - `df.filter`
        - 下面的例子把string的columns 還有 年份從20XX年的columns取出來 (19XX的columns被過濾掉)
            - `cols = ['RegionID', 'RegionName', 'State', 'Metro', 'CountyName', 'SizeRank', '20.*']`
            - `df.filter(regex='|'.join(cols), axis=1).head()`
    - iterows 做特定處理
    - 依照某個string column值來選擇row
        - `df2[df2['comment'].str.contains('yoooo')]`
- sorting
    - sort by index
    - sort by values
    - sort by categoricalindex
```python
df1.index = pd.CategoricalIndex(df1.index, 
                               categories=['Monday', 'Tuesday', 'Wednesday', 'Thursday', 'Friday','Saturday', 'Sunday'], 
                               sorted=True)
df1.sort_index().plot(kind='bar', figsize=(15, 12))
```

- 數據處理
    - apply
    - 將一個 list column 轉成多個 columns
    - 切兩個 subset
    - to_datetime
        - https://twitter.com/justmarkham/status/1148217934298406912?s=20
    - join dataframe
        - `df.merge`
- 匯總
    - value_counts + sorted value
    - describe + `[min:max]`
    - unique
    - groupby + (multi-agg func or describe())
        - 對時間的匯總可以用 `resample`
            - https://twitter.com/justmarkham/status/1151846604216971264?s=20
    - group by custom lambda func
    - transform 函式
    - multi-index groupby (`unstack`) VS pivot_table
- 簡單畫圖
    - easy plot + nice style
        - `df.plot()`
    - 改變 display options / style obj.
        - chain your operations!
        - https://t.co/6xlytNLmGm
        - https://t.co/mhz9GiueaN
- output
    - windows friendly output: `to_csv(encoding="cp932")`
- powerful tools
    - pandas profiling
        - `pip install pandas-profiling`
        - 適合用在 numerical features 的分析
    - qgrid
        - https://www.evernote.com/l/AET7-dpk349LNJcQVCWP-rGWdnyGA6-mz2w
    - tqdm
        - https://www.evernote.com/l/AETKpFnXeB5B84M5PbPBwXR_dMDZ4vAu0Xw
    - swifter
    - Facets
        - https://www.evernote.com/l/AETaGMqtguRAKbEF9z4hWtF9HazEVkWr70c
    - cufflinks and plotly
        - https://www.kdnuggets.com/2019/07/10-simple-hacks-speed-data-analysis-python.html
- good reference
    - youtube
    - pocket 那篇 10 個
    - safari
    - dataquest cheat sheet
        - https://storage.googleapis.com/molten/lava/2018/09/f0c721d9-pandas-cheat-sheet-dataquest.jpg
- 確保 reproduciblity    
    

## 選擇子集

In [None]:
customers = customers[customers >= 35]
products = products[products >= 20]

reduced_df = df.merge(pd.DataFrame({'customer_id': customers.index})).merge(pd.DataFrame({'product_id': products.index}))

## 看 columns 裡頭的值的分佈

In [None]:
customers = df['customer_id'].value_counts()
products = df['product_id'].value_counts()

quantiles = [0, 0.1, 0.25, 0.5, 0.75, 0.8, 0.85, 0.9, 0.95, 0.96, 0.97, 0.98, 0.99, 0.995, 0.999, 0.9999, 1]
print('customers\n', customers.quantile(quantiles))
print('products\n', products.quantile(quantiles))

馬上將這張的東西應用到你目前的數據及。