# Python 程式語言初級班工作坊

> Python 資料分析，東吳大學，2021-05-13

[數據交點](https://www.datainpoint.com) | 郭耀仁 <yaojenkuo@datainpoint.com>

## 資料分析與管線流

## 資料分析的一切都與管線流息息相關

![Imgur](https://i.imgur.com/din6Ig6.png)

圖片來源: <https://r4ds.had.co.nz/>

## 每個環節的意涵

- Import：從常見來源將資料載入分析環境。
- Tidy：清理與整併資料內容。
- Transform：轉換資料為適當的樣式。
- Visualize：探索分析資料的形狀、相關、組成與趨勢。

## 每個環節的意涵（續）

- Model：預測或挖掘資料的隱含特徵。
- Communicate：向產品、行銷與管理團隊精準且有效地傳達分析洞察。
- Program：利用程式語言掌握管線流。

## 每個環節都有對應的第三方套件支援

- [NumPy](https://numpy.org/) 可以支援 Import、Tidy、Transform 與 Model
- [Pandas](https://pandas.pydata.org/) 可以支援 Import、Tidy、Transform 與 Visualise

## 確認分析環境能夠使用這兩個套件

In [1]:
import numpy as np
import pandas as pd

## 檢視這些第三方套件的版本資訊

In [2]:
## Note that there are 2 underlines before and after __version__ attributes
print(np.__version__)
print(pd.__version__)

1.18.4
1.1.5


## NumPy 快速入門

## 簡介 NumPy 套件

> NumPy，Numerical Python 的簡稱，是使用 Python 進行科學計算的第三方套件，創造了一個稱為 N 維陣列（ndarray）的類別，透過 N 維陣列，可以將 Python 從一個泛用（general purposed）程式語言轉變成一個科學計算（scientific computing）程式語言，並且有豐富的統計、線性代數與隨機的函數。

## 範例資料：COVID-19 每日報告

資料來源：<https://github.com/CSSEGISandData/COVID-19/tree/master/csse_covid_19_data/csse_covid_19_daily_reports>

In [3]:
import datetime

def get_latest_daily_report():
    """
    This function returns the latest global daily report from https://github.com/CSSEGISandData/COVID-19 and its file date.
    """
    latest_date = datetime.date.today()
    day_delta = datetime.timedelta(days=1)
    fmt = '%m-%d-%Y'
    while True:
        try:
            latest_date_fmt = latest_date.strftime(fmt)
            csv_url = "https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/csse_covid_19_data/csse_covid_19_daily_reports/{}.csv".format(latest_date_fmt)
            daily_report = pd.read_csv(csv_url)
            print("載入了 {} 的每日報告。".format(latest_date_fmt))
            break
        except:
            latest_date_fmt = latest_date.strftime(fmt)
            print("尚未有 {} 的每日報告。".format(latest_date_fmt))
            latest_date -= day_delta
    return daily_report

In [4]:
daily_report = get_latest_daily_report()

尚未有 05-10-2021 的每日報告。
載入了 05-09-2021 的每日報告。


## N 維陣列可由資料框取出

In [5]:
confirmed = daily_report['Confirmed'].values
type(confirmed)

numpy.ndarray

## N 維陣列提供兩個好用的功能

- 向量化（Vectorization）運算、有時也稱為元素級別（Element-wise）運算
- 布林索引（Boolean indexing）

## 向量化運算

In [6]:
deaths = daily_report['Deaths'].values
recovered = daily_report['Recovered'].values
active = confirmed - deaths - recovered # Vectorization

## 布林索引

In [7]:
print(confirmed.size)
print(confirmed > 100000)                 # Creating a boolean array
print(confirmed[confirmed > 100000].size) # Boolean indexing

3983
[False  True  True ... False False False]
244


## 試著使用內建資料結構 `list` 完成前兩個任務（藉此體驗 N 維陣列的便利性）

1. 計算治療中個案數。
2. 挑選確診數超過 10 萬的觀測值。

In [8]:
# 計算治療中個案數
confirmed = list(daily_report['Confirmed'].values)
deaths = list(daily_report['Deaths'].values)
recovered = list(daily_report['Recovered'].values)

In [9]:
# 挑選確診數超過 10 萬的觀測值
confirmed = list(daily_report['Confirmed'].values)

## 除了 N 維陣列，NumPy 還附帶豐富的函數

- 通用函數
- 聚合函數
- 隨機函數
- 線性代數函數
- ...etc.

## 暸解更多 NumPy 提供的功能

[NumPy User Guide](https://www.numpy.org/devdocs/user/index.html)

## Pandas 快速入門

## 簡介 Pandas 套件

> Pandas，Panel DataFrame Series 的簡稱，是在 Python 中分析表格資料的第三方套件，創造了稱為索引（Index）、序列（Series）與資料框（DataFrame）的類別，透過這些類別，可以讓 Python 在面對文字檔案、Excel 試算表與關聯式資料庫時能夠使用更直覺的觀念操作。

## 將 CSV 文字檔案讀入成為資料框

- 範例資料：COVID-19 每日報告
- 資料來源：<https://github.com/CSSEGISandData/COVID-19/tree/master/csse_covid_19_data/csse_covid_19_daily_reports>

In [10]:
daily_report = get_latest_daily_report()
type(daily_report)

尚未有 05-10-2021 的每日報告。
載入了 05-09-2021 的每日報告。


pandas.core.frame.DataFrame

## Pandas 提供三種新的資料結構

- `DataFrame`
- `Series`
- `Index`

In [11]:
print(type(daily_report))              # DataFrame
print(type(daily_report['Confirmed'])) # Series
print(type(daily_report.columns))      # Index
print(type(daily_report.index))        # Index

<class 'pandas.core.frame.DataFrame'>
<class 'pandas.core.series.Series'>
<class 'pandas.core.indexes.base.Index'>
<class 'pandas.core.indexes.range.RangeIndex'>


## 使用更直覺的觀念操作資料

- 如何定義「更直覺」？
    - 像操作試算表一樣（Spreadsheet-like）。
    - 像使用資料庫一樣（SQL-like）。

## 基礎的資料框操作

- 衍生（mutate），新增欄位到資料框中，特別是新欄位與既有欄位具有函數的輸出以及輸入關係。
- 選擇（select），從資料框中依據名稱挑出單個或多個欄位。
- 篩選（filter），依據判斷條件（布林值）從資料框中挑出符合（布林值為 `True`）的觀測值。

## 基礎的資料框操作（續）

- 摘要（summarise），對欄位進行聚合（Aggregate）的運算將多筆觀測值總結。
- 排序（arrange），對觀測值由小到大（遞增）或者由大到小（遞減）變動排列順序。
- 分組（group by），將欄位依照獨一類別進行摘要。

## 衍生（mutate）

治療中案例數可以用既有的欄位計算而得，常見的定義為：確診數減去死亡數再減痊癒數。

\begin{equation}
\text{Active} = \text{Confirmed} - \text{Deaths} - \text{Recovered}
\end{equation}

In [12]:
active = daily_report["Confirmed"] - daily_report["Deaths"] - daily_report["Recovered"]
active

0        4934.0
1       12222.0
2       34356.0
3         301.0
4        3390.0
         ...   
3978      775.0
3979    12008.0
3980     2219.0
3981      407.0
3982      780.0
Length: 3983, dtype: float64

## 選擇（select）

在中括號裡頭輸入欄位名稱可以將資料以 `Series` 外型從資料框中取出。

In [13]:
daily_report["Country_Region"]

0              Afghanistan
1                  Albania
2                  Algeria
3                  Andorra
4                   Angola
               ...        
3978               Vietnam
3979    West Bank and Gaza
3980                 Yemen
3981                Zambia
3982              Zimbabwe
Name: Country_Region, Length: 3983, dtype: object

## 選擇（select）

若想要選擇多個欄位，將多個欄位名稱以 `list` 傳入中括號。

In [14]:
multiple_columns = ["Country_Region", "Confirmed", "Deaths", "Recovered"]
daily_report[multiple_columns]

Unnamed: 0,Country_Region,Confirmed,Deaths,Recovered
0,Afghanistan,61842,2686,54222.0
1,Albania,131723,2412,117089.0
2,Algeria,124104,3328,86420.0
3,Andorra,13423,127,12995.0
4,Angola,28740,633,24717.0
...,...,...,...,...
3978,Vietnam,3412,35,2602.0
3979,West Bank and Gaza,301751,3358,286385.0
3980,Yemen,6482,1271,2992.0
3981,Zambia,92092,1257,90428.0


## 篩選（filter）

在中括號裡頭輸入判斷條件所獲得的布林值 `Series` 可以獲得指定的觀測值。

In [15]:
is_tw = daily_report['Country_Region'] == 'Taiwan*' # 台灣在哪裡
is_tw

0       False
1       False
2       False
3       False
4       False
        ...  
3978    False
3979    False
3980    False
3981    False
3982    False
Name: Country_Region, Length: 3983, dtype: bool

In [16]:
daily_report[is_tw] # is_tw 是一個布林值 Series

Unnamed: 0,FIPS,Admin2,Province_State,Country_Region,Last_Update,Lat,Long_,Confirmed,Deaths,Recovered,Active,Combined_Key,Incident_Rate,Case_Fatality_Ratio
643,,,,Taiwan*,2021-05-10 04:20:38,23.7,121.0,1184,12,1089.0,83.0,Taiwan*,4.971286,1.013514


## 摘要（summarize）

對 `Series` 呼叫聚合方法，例如加總 `.sum()`。

In [17]:
daily_report['Confirmed'].sum()

158326318

## 分組（group by）與摘要（summarise）

以國家為分組層級，所以在 `groupby()` 方法中傳入 Country_Region 欄位，獲得一個 `DataFrameGroupBy` 類別。

In [18]:
daily_report.groupby("Country_Region")

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7ff1176a9438>

## 分組（group by）與摘要（summarise） 

指定 `DataFrameGroupBy` 類別的欄位與聚合函數，獲得分組摘要的結果，是一個 `Series`。

In [19]:
daily_report.groupby("Country_Region")['Confirmed'].sum()

Country_Region
Afghanistan            61842
Albania               131723
Algeria               124104
Andorra                13423
Angola                 28740
                       ...  
Vietnam                 3412
West Bank and Gaza    301751
Yemen                   6482
Zambia                 92092
Zimbabwe               38419
Name: Confirmed, Length: 192, dtype: int64

## 排序（arrange）

呼叫 `Series` 的 `sort_values(ascending=False)` 方法將摘要結果由大到小遞減排序。

In [20]:
confirmed_by_country = daily_report.groupby("Country_Region")['Confirmed'].sum()
confirmed_by_country.sort_values(ascending=False)[:10] # 顯示確診人數前 10 高的國家

Country_Region
US                32707750
India             22662575
Brazil            15184790
France             5838294
Turkey             5031332
Russia             4824621
United Kingdom     4450578
Italy              4111210
Spain              3567408
Germany            3530887
Name: Confirmed, dtype: int64

## 除了基礎操作，Pandas 還能夠進行

- 網頁表格內容載入
- 關聯式資料庫操作
- 視覺化
- ...etc.

## 使用 Pandas 處理校外公開資訊

## 校外公開資訊檔案格式

- `.xlsx`
- `.csv`
- `.pdf`

## 使用 `read_excel` 函數載入 `.xlsx`

In [21]:
xlsx_df = pd.read_excel('學1-1.正式學籍在學學生人數-以「系(所)」統計.xlsx')
type(xlsx_df)

pandas.core.frame.DataFrame

## 使用 `read_csv` 函數載入 `.csv`

In [22]:
csv_df = pd.read_csv('學1-1.正式學籍在學學生人數-以「系(所)」統計.csv')
type(csv_df)

pandas.core.frame.DataFrame

## 使用 `tabula.read_pdf` 函數載入 `.pdf`

- 使用前要確定分析環境有安裝 `tabula-py`。
- 在 Anaconda 安裝：Anaconda Prompt > `pip install tabula-py`。
- 在 Google Colab 安裝：`!pip install tabula-py`。

In [23]:
import tabula

pdf_df_list = tabula.read_pdf('1092-1.pdf', pages='1')
pdf_df = pdf_df_list[0]

Got stderr: May 10, 2021 11:34:07 PM org.apache.pdfbox.rendering.PDFRenderer suggestKCMS
INFO: Your current java version is: 1.8.0_152
May 10, 2021 11:34:07 PM org.apache.pdfbox.rendering.PDFRenderer suggestKCMS
INFO: To get higher rendering speed on old java 1.8 or 9 versions,
May 10, 2021 11:34:07 PM org.apache.pdfbox.rendering.PDFRenderer suggestKCMS
INFO:   update to the latest 1.8 or 9 version (>= 1.8.0_191 or >= 9.0.4),
May 10, 2021 11:34:07 PM org.apache.pdfbox.rendering.PDFRenderer suggestKCMS
INFO:   or
May 10, 2021 11:34:07 PM org.apache.pdfbox.rendering.PDFRenderer suggestKCMS
INFO:   use the option -Dsun.java2d.cmm=sun.java2d.cmm.kcms.KcmsServiceProvider
May 10, 2021 11:34:07 PM org.apache.pdfbox.rendering.PDFRenderer suggestKCMS
INFO:   or call System.setProperty("sun.java2d.cmm", "sun.java2d.cmm.kcms.KcmsServiceProvider")



In [24]:
type(pdf_df)

pandas.core.frame.DataFrame

## 使用 Pandas 清理與轉換載入資料，以 `.xlsx` 為例

In [25]:
xlsx_df = pd.read_excel('學1-1.正式學籍在學學生人數-以「系(所)」統計.xlsx',  skiprows=2, skipfooter=16)
xlsx_df

Unnamed: 0,學年度,設立別,學校類別,學校統計處代碼,學校名稱,系所代碼,系所名稱,學制班別,在學學生數小計,在學學生數男,在學學生數女
0,109,私立,一般大學,1003,東吳大學,2151001,音樂學系,學士班(日間),256,69,187
1,109,私立,一般大學,1003,東吳大學,2151001,音樂學系,碩士班(日間),51,12,39
2,109,私立,一般大學,1003,東吳大學,2151001,音樂學系,碩士在職專班,8,3,5
3,109,私立,一般大學,1003,東吳大學,2221006,歷史學系,學士班(日間),249,135,114
4,109,私立,一般大學,1003,東吳大學,2221006,歷史學系,碩士班(日間),13,7,6
...,...,...,...,...,...,...,...,...,...,...,...
67,109,私立,一般大學,1003,東吳大學,6131028,資訊管理學系,學士班(日間),499,280,219
68,109,私立,一般大學,1003,東吳大學,6131028,資訊管理學系,碩士班(日間),30,15,15
69,109,私立,一般大學,1003,東吳大學,6131028,資訊管理學系,碩士在職專班,44,33,11
70,109,私立,一般大學,1003,東吳大學,9231030,社會工作學系,學士班(日間),549,163,386


## 調整資料外型

In [26]:
xlsx_df = xlsx_df.drop('在學學生數小計', axis=1)
id_variables = xlsx_df.columns[:8]
xlsx_df_long = pd.melt(xlsx_df, id_vars=id_variables, var_name='性別', value_name='在學學生數')
xlsx_df_long

Unnamed: 0,學年度,設立別,學校類別,學校統計處代碼,學校名稱,系所代碼,系所名稱,學制班別,性別,在學學生數
0,109,私立,一般大學,1003,東吳大學,2151001,音樂學系,學士班(日間),在學學生數男,69
1,109,私立,一般大學,1003,東吳大學,2151001,音樂學系,碩士班(日間),在學學生數男,12
2,109,私立,一般大學,1003,東吳大學,2151001,音樂學系,碩士在職專班,在學學生數男,3
3,109,私立,一般大學,1003,東吳大學,2221006,歷史學系,學士班(日間),在學學生數男,135
4,109,私立,一般大學,1003,東吳大學,2221006,歷史學系,碩士班(日間),在學學生數男,7
...,...,...,...,...,...,...,...,...,...,...
139,109,私立,一般大學,1003,東吳大學,6131028,資訊管理學系,學士班(日間),在學學生數女,219
140,109,私立,一般大學,1003,東吳大學,6131028,資訊管理學系,碩士班(日間),在學學生數女,15
141,109,私立,一般大學,1003,東吳大學,6131028,資訊管理學系,碩士在職專班,在學學生數女,11
142,109,私立,一般大學,1003,東吳大學,9231030,社會工作學系,學士班(日間),在學學生數女,386


## 對應性別

In [27]:
gender_dict = {
    '在學學生數男': '男',
    '在學學生數女': '女'
}
gender = xlsx_df_long['性別'].map(gender_dict)
xlsx_df_long = xlsx_df_long.drop('性別', axis=1)
xlsx_df_long.insert(8, '性別', gender)
xlsx_df_long

Unnamed: 0,學年度,設立別,學校類別,學校統計處代碼,學校名稱,系所代碼,系所名稱,學制班別,性別,在學學生數
0,109,私立,一般大學,1003,東吳大學,2151001,音樂學系,學士班(日間),男,69
1,109,私立,一般大學,1003,東吳大學,2151001,音樂學系,碩士班(日間),男,12
2,109,私立,一般大學,1003,東吳大學,2151001,音樂學系,碩士在職專班,男,3
3,109,私立,一般大學,1003,東吳大學,2221006,歷史學系,學士班(日間),男,135
4,109,私立,一般大學,1003,東吳大學,2221006,歷史學系,碩士班(日間),男,7
...,...,...,...,...,...,...,...,...,...,...
139,109,私立,一般大學,1003,東吳大學,6131028,資訊管理學系,學士班(日間),女,219
140,109,私立,一般大學,1003,東吳大學,6131028,資訊管理學系,碩士班(日間),女,15
141,109,私立,一般大學,1003,東吳大學,6131028,資訊管理學系,碩士在職專班,女,11
142,109,私立,一般大學,1003,東吳大學,9231030,社會工作學系,學士班(日間),女,386


## 篩選資料

In [28]:
xlsx_df_long[xlsx_df_long['系所名稱'].str.contains('巨量資料')]

Unnamed: 0,學年度,設立別,學校類別,學校統計處代碼,學校名稱,系所代碼,系所名稱,學制班別,性別,在學學生數
49,109,私立,一般大學,1003,東吳大學,4199031,巨量資料管理學院碩士在職學位學程,碩士在職專班,男,86
50,109,私立,一般大學,1003,東吳大學,4199031,巨量資料管理學院碩士學位學程,碩士班(日間),男,20
51,109,私立,一般大學,1003,東吳大學,4199031,巨量資料管理學院學士學位學程,學士班(日間),男,210
52,109,私立,一般大學,1003,東吳大學,4199032,巨量資料分析學士後多元專長培力課程專班,學士班(日間),男,2
121,109,私立,一般大學,1003,東吳大學,4199031,巨量資料管理學院碩士在職學位學程,碩士在職專班,女,62
122,109,私立,一般大學,1003,東吳大學,4199031,巨量資料管理學院碩士學位學程,碩士班(日間),女,11
123,109,私立,一般大學,1003,東吳大學,4199031,巨量資料管理學院學士學位學程,學士班(日間),女,150
124,109,私立,一般大學,1003,東吳大學,4199032,巨量資料分析學士後多元專長培力課程專班,學士班(日間),女,0


## 暸解更多 Pandas 提供的功能

[pandas: powerful Python data analysis toolkit](http://pandas.pydata.org/pandas-docs/stable/)