In [None]:
## %matplotlib inline
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd

# Data Preparation

*Course Module: Getting and Cleaning Data*

--------

Ting-Shuo Yo 2018


## 關於本課程

這段課程的主題是「如何準備好分析要用的資料」，包含以下概念：

- 尋找與擷取「原始資料」(raw data)
- 「整齊資料」(Tidy data) 的原則，以及如何讓資料整齊
- 相關的 Python 套件
- 實際案例練習

## 你期待資料的樣子

<img class=center src=figures/excel.png width=80%>

## 資料實際上的長相

<img class=center src=figures/fastq.png width=80%/>


[http://brianknaus.com/software/srtoolbox/s_4_1_sequence80.txt](http://brianknaus.com/software/srtoolbox/s_4_1_sequence80.txt)


## 資料在哪裡？

<img class=center src=figures/databases.png height=400/>


[http://rickosborne.org/blog/2010/02/infographic-migrating-from-sql-to-mapreduce-with-mongodb/](http://rickosborne.org/blog/2010/02/infographic-migrating-from-sql-to-mapreduce-with-mongodb/)


## 資料在哪裡？

<img class=center src=figures/twitter.png width=80%/>

[https://dev.twitter.com/docs/api/1/get/blocks/blocking](https://dev.twitter.com/docs/api/1/get/blocks/blocking)


## 資料在哪裡？

<img class=center src=figures/data_gov_tw.jpg height= 400/>

[http://data.gov.tw//](http://data.gov.tw//)


# 到哪裡去找資料？學術研究資料

- 在大部分的科學研究領域，**資料**都是耗費相當的時間與金錢，經過繁複的程序才取得的，一般來說都非常寶貴，在論文發表之前，不會輕易與其他人分享。
- 多年來，經由許多資料分析領域的研究人員的推廣，有些學者開始將已經發表過的學術研究資料公開，讓學生以及開發新研究方法的研究人員，有可以拿來做練習的資料。
- 過去， [UCI Machine Learning Repository](https://www.kaggle.com/uciml) 收集了大量的資料集，目前則由 [Kaggle](https://www.kaggle.com/) 延續了這個任務。


# 到哪裡去找資料？開放資料

近年來的由於[開放資料](https://zh.wikipedia.org/wiki/%E9%96%8B%E6%94%BE%E8%B3%87%E6%96%99)（Open Data）的發展，各國政府也開始將部分資料公開給社會大眾使用，例如我們課程範例中的很多資料，就是從[政府開放資料平台]((http://data.gov.tw//))取得。

然而，氣象資料本身有特殊的屬性，無法輕易從一般管道取得，我們介紹一些對外公開的管道。


## Where to Get Reanalysis Data

- [ECMWF Datasets](https://www.ecmwf.int/en/forecasts/datasets)
- [NCEP / NCAR Reanalysis](https://www.esrl.noaa.gov/psd/data/gridded/data.ncep.reanalysis.html)



## Where to Get Satellite Data

1. [USGS Earth Explorer](https://earthexplorer.usgs.gov/)
2. [ESA’s Sentinel Mission](https://scihub.copernicus.eu/dhus/#/home)
3. [NOAA CLASS](https://www.bou.class.noaa.gov/saa/products/welcome;jsessionid=844EEAC02233CDC6D6054BE24A9499B7)
4. [NASA Reverb](https://search.earthdata.nasa.gov/search)

### [15 Free Satellite Imagery Data Sources](https://gisgeography.com/free-satellite-imagery-data-list/)

## Where to Get Sounding Data

- [Atmospheric Soundings Archive from University of Wyoming](http://weather.uwyo.edu/upperair/sounding.html)
- [NOAA Integrated Global RadioSonde Archive(IGRA)](https://www.ncdc.noaa.gov/data-access/weather-balloon/integrated-global-radiosonde-archive)
- [中央氣象局](https://www.cwb.gov.tw/V7/station/graph.htm) (plot only, no raw data provided.)

## 課程目標

**原始資料** -> **資料處理** -> **整齊資料**</rt> -> 資料分析 -> 資料溝通


# 原始資料與整齊資料

## 資料的定義

<q>資料是以數值的方式呈現，用來描述特定對象的性質或數量</q>

_Data are values of qualitative or quantitative variables, belonging to a set of items._

[http://en.wikipedia.org/wiki/Data](http://en.wikipedia.org/wiki/Data)


## 資料的定義

<q>資料是以數值的方式呈現，用來描述特定對象的性質或數量</q>

<q>Data are values of qualitative or quantitative variables, belonging to a <font color='red'>set of items</font>.</q>

[http://en.wikipedia.org/wiki/Data](http://en.wikipedia.org/wiki/Data)

__Set of items__: Sometimes called the population; the set of objects you are interested in


## 資料的定義

<q>資料是以數值的方式呈現，用來描述特定對象的性質或數量</q>

<q>Data are values of <font color=red>qualitative</font> or <font color=red>quantitative</font> variables, belonging to a set of items.</q>

[http://en.wikipedia.org/wiki/Data](http://en.wikipedia.org/wiki/Data)

__Qualitative__: Country of origin, sex, treatment

__Quantitative__: Height, weight, blood pressure

## 原始資料與整齊資料

__原始資料__

* 資料的原始型態
* 通常很難直接拿來分析
* 資料分析包括「清理與處理」
* 原始資料可能只需要處理一次

[http://en.wikipedia.org/wiki/Raw_data](http://en.wikipedia.org/wiki/Raw_data)


## 原始資料與整齊資料

__整齊資料__

* 可以直接用於分析的資料
* 處理的步驟可能包括合併、分割、轉換等等
* 資料的處理可能需要符合固定的標準
* 資料處理的每一道程序最好都記錄下來

[http://en.wikipedia.org/wiki/Computer_data_processing](http://en.wikipedia.org/wiki/Computer_data_processing)


## 常用的資料整理技巧

* 資料分割（Subseting）
* 資料排序（Sorting）
* 增加新變項（Creating new variables）
* 資料摘要（Summarizing）
* 資料重整（Reshaping data）
* 資料合併（Merging data）

主要使用到的套件：*NumPy* and *Pandas*

# 資料分割（Subseting）

讓我們先隨機產生一些資料：

In [None]:
np.random.seed(12345)
X = pd.DataFrame({'var1':np.random.permutation(5), 
                  'var2':np.random.permutation(5)+5, 
                  'var3':np.random.permutation(5)+10}, index=range(1,6))
X.iloc[0:3:2, 1] = None
X


## 資料分割

先來複習一下 `pandas.DataFrame` 的 indexing

In [None]:
X.iloc[:,0]

In [None]:
X.loc[0:3,'var2']

In [None]:
X['var2'][0:3]

## 資料分割

之前的課程也示範過 `pandas.DataFrame` 的篩選

In [None]:
data = pd.read_csv('../data/cwb_earthquake_20181101.csv')
mean_strength = data['規模'].mean()
depth_above_average = data.loc[data['規模']>mean_strength, '深度'].mean()
depth_bellow_average = data.loc[data['規模']<=mean_strength, '深度'].mean()
print("Average depth of strong earthquake: " + str(depth_above_average))
print("Average depth of weak earthquake: " + str(depth_bellow_average))
depth_above_average - depth_bellow_average

## 使用 *and* and *or* 來組合篩選條件

資料的篩選也可以透過多個條件的組合，主要是以 `set` 的邏輯運算來進行：

In [None]:
data[(data['規模']>5) & (data['深度']<8)]

## 透過 pandas.DataFrame 選取資料

從前面的例子我們可以看到，pandas.DataFrame 提供了多種選擇資料的方式，顯得有點令人混淆。例如，我們可以直接用數字來選取某一筆資料，像是`data[1]`；或是範圍式的選取，例如：`data[1:3]`，這樣的選取方式使用了 Python 預設的 list operation。

In [None]:
data = pd.Series(['a', 'b', 'c'], index=[1, 3, 5])
data

In [None]:
# explicit index when indexing
data[1]

In [None]:
# implicit index when slicing
data[1:3]

## 選取資料: loc

由上面的例子裡，我們可以看到用「整數」當做行列指標潛在的問題：當行列本身的標籤也是整數時，會造成混淆。因此，pandas 提供了一些額外的資料選擇方式: `loc`, `iloc`。

我們首先介紹的是 `loc`，凡是透過這個方法選擇的，一律參考資料列的標籤：

In [None]:
data.loc[1]

In [None]:
data.loc[1:3]

## 選取資料: iloc

第二種是 pandas.DataFrame 的 `iloc` 函數，則是一律使用 python list 的預設選擇方式：

In [None]:
data.iloc[1]

In [None]:
data.iloc[1:3]

# 資料排序（Sorting）

資料的排序是整理資料經常用到的功能，讓我們用台灣六個直轄市的面積和人口資料做例子：

In [None]:
area = pd.Series({'Kaohsiung City': 2951.85, 'New Taipei City': 2052.57,
                  'Taichung City': 2214.90, 'Tainan City': 2191.65,
                  'Taipei City': 271.80, 'Taoyuan City': 1220.83})
pop = pd.Series({'Kaohsiung City': 2778729, 'New Taipei City': 3971250,
                 'Taichung City': 2746112, 'Tainan City': 1885550,
                 'Taipei City': 2704974, 'Taoyuan City': 2108786})
citydata = pd.DataFrame({'area':area, 'pop':pop})
citydata

## Sorting with Pandas

*pandas* 提供了兩種基本的排序工具：

1. **`sort_values()`**: 依據某個欄位的值排序
2. **`sort_index()`**: 依據數據及的列名稱排序

In [None]:
citydata.sort_index()

## 排序預設由小到大


In [None]:
citydata.sort_values('pop')

In [None]:
citydata.sort_values('area',ascending=False)

# 產生新資料變項

## 資料還不夠多嗎？為什麼要產生新資料變項？

* 通常原始資料並不包含我們想分析的變項（例如：「氣象參數」與「特定天氣事件」）
* 我們需要透過一些計算或轉換，算出我們感興趣的變項
* 一般來說，我們會把新變項加到原本分析的 DataFrame 裡
* 常見的新增變項：
  * 遺失值指標
  * 把連續數字轉換成類別
  * 轉換函數

## 產生新變數

例如，前面用到的台灣六個直轄市的面積和人口資料，我們真正感興趣的是「人口密度」。我們知道：

        人口密度 ＝ 總人口 / 總面積

但是要怎麼加進原本的資料集裡呢？

In [None]:
citydata['density'] = citydata['pop'] / citydata['area']
citydata.sort_values('density',ascending=False)

## 範例：2018年9月的公司登記清冊

讓我們用一組新的資料來做示範。我們到[政府開放資料平台](https://data.gov.tw/)下載2018年9月的[公司設立登記清冊](https://data.gov.tw/dataset/6047)。

`pandas.DataFrame.head()` 會列出資料集的前五筆資料。

In [None]:
data = pd.read_csv('../data/company_registration_201809.csv')
data.head()

## 產生新變項：處理過的變數

有時候原始資料並不包含我們想分析的變項，例如我們想知道的是新登記公司在各縣市的分佈，所以我們把「公司所在地」的前三個字抓出來當做行政區：

In [None]:
city = [x[:3] for x in data['公司所在地']]
data['city'] = city
data.head()

## 產生新變項：變項的類別轉換

公司的資本額可以有很多不同的數字，但是我們關心的可能只有少數類別所以可以利用 `pandas.cut`（依指定間距） 或 `pandas.qcut`（依百分等級） 來將連續變項轉換為等級變項：

In [None]:
data['capital'] = pd.qcut(data['資本額'], q=[0, .25, .50, .75, 1.00])
print(pd.crosstab(data['capital'], 'count'))
data.head()

以利用 `pandas.cut`（依指定間距） 或 `pandas.qcut`（依百分等級） 來將連續變項轉換為等級變項時，可以指定類別名稱，或是自動用數字當做標籤：

In [None]:
data['capital'] = pd.qcut(data['資本額'], q=[0, .25, .50, .75, 1.00], labels=False)
data.head()

In [None]:
data['capital'] = pd.qcut(data['資本額'], q=[0, .25, .50, .75, 1.00], labels=['30萬以下','100萬以下','200萬以下','200萬以上'])
data.head()

In [None]:
company_reg_data = data

## 遺失值的處理（missing values）

資料遺失是極為常見的情況，pandas 當初設計的目的之一就包括了簡化遺失值處理的程序。舉例來說：pandas 提供的各個描述統計函數（平均值、標準差、百分位數...)，在計算時都會自動剔除遺失值。



In [None]:
np.random.seed(12345)
X = pd.DataFrame({'var1':np.random.permutation(5), 
                  'var2':np.random.permutation(5)+5, 
                  'var3':np.random.permutation(5)+10}, index=range(1,6))
X.iloc[0:3:2, 1] = None
print(X)
X['var2'].mean()

## Pandas 內建的遺失值處理工具

|Argument| Description|
|--------|------------|
|dropna| Filter axis labels based on whether values for each label have missing data.|
|fillna| Fill in missing data with some value or using an interpolation method such as 'ffill' or 'bfill'.|
|isnull| Return link-type object containing boolean values indicating which values are missing / NA.|
|notnull| Negation of isnull.|

`DataFrame.dropna()` 是最簡單的遺失值處理方法：直接把有遺失值的資料列或欄位剔除。

In [None]:
X

In [None]:
X.dropna()

## 遺失的資料原本應該是什麼？

遺失值的處理是一個專門的研究主題，「遺失的資料原本應該是什麼」本身就是個艱難的問題，例如：

- 資料遺失的發生是完全隨機的，還是系統性的隨機？
- 資料遺失如果不是隨機發生，背後有什麼特殊的意義？

這些問題與資料本身的特性有關，對科學研究本身至關重要，但在課程裡我們聚焦在處理遺失值的工具上。除了最簡單的「放棄資料」之外，pandas 還提供了 `DataFrame.fillna()` 、 `DataFrame.interpolate()` 這些簡單的工具讓我們可以快速的填入值。

 `DataFrame.fillna()` 讓我們可以快速的填入一個指定值。詳細的使用方法可以參考[使用手冊](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.fillna.html)。

In [None]:
X

In [None]:
X.fillna(0)

In [None]:
X.fillna(method='bfill')

 `DataFrame.interpolate()` 則是提供了各種內插函數，從簡單的線性內插到 cubic-spline，以及更複雜的 model-based interpolation。使用的方法及限制可以參考[使用手冊](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.interpolate.html#pandas.DataFrame.interpolate)。

In [None]:
X.interpolate()

In [None]:
X.interpolate(axis=1)

# 資料摘要 (Summerizing)

如同前面提到的，當我們取得一筆資料，無論是要填入遺失值或是進一步產生新變數，都需要先了解資料的特性。pandas 提供了[一些工具](https://pandas.pydata.org/pandas-docs/stable/api.html#api-dataframe-stats)讓我們可以快速的最資料集做摘要，列舉部分如下：

- `DataFrame.describe()`：對數值變項做簡單的描述統計摘要
- `DataFrame.head()` / `DataFrame.tail()`：顯示最前面/最後面的幾列資料
- `DataFrame.quantile()`：


In [None]:
data = pd.read_csv('../data/data_sample1.csv')
data.describe()

`DataFrame.corr()` / `DataFrame.cov()` 可以快速的算出相關矩陣 / 共變數矩陣

In [None]:
data.corr()

`pandas.crosstab()` 可以快速的做交叉分析表。例如，我們想看看每個月份氣溫高於80％百分位數的有幾天：

In [None]:
data['hot'] = data['Temp'] >= data['Temp'].quantile(0.8)
pd.crosstab(data['Month'],[data['hot'],'count'])

又例如，我們想知道今年註冊的新公司，註冊所在地與資本額的關聯性：

In [None]:
len(set(company_reg_data['city']))

In [None]:
pd.crosstab(company_reg_data['city'], [company_reg_data['capital'],'count'])

發現有什麼問題嗎？

## Quiz

我們發現公司登記資料有一點小問題，怎麼修理它呢？

In [None]:
company_reg_data['city'=='台北市', 'city'] = '臺北市'
company_reg_data['city'].value_counts()

# 資料重整（Reshaping data）

有時候資料並不是我們想要的排列方式，所以需要重新排列，`pandas.DataFrame.pivot()` 提供了這樣的功能。

例如上述的測站資料，我們希望依照月/日來列出溫度：

In [None]:
tmpdata = data.pivot(index='Month', columns='Day', values='Temp')
tmpdata

有時候，我們想要反過來，把眾多欄位變成一個單一的欄位， `pandas.DataFrame.melt()` 提供了這樣的功能。

例如，上述的氣溫資料，我們希望把「日期─溫度」變成單一的索引：

In [None]:
data.melt(id_vars=['Month','Day'], value_vars=['Temp','Ozone']).head()

# 合併資料 (Merging data)

有時候，我們的資料來自多個來源（檔案），但在分析前我們需要將資料合併。

## Merge data with a key

如果兩組資料有部分共同的欄位，我們可以透過這些欄位來進行「交集」（`join`）式的合併。

In [None]:
sub1 = pd.read_csv('../data/data_sample1_subset1.csv')
sub2 = pd.read_csv('../data/data_sample1_subset2.csv')
sub1.head()

In [None]:
sub2.head()

`pandas.DataFrame.merge()` 可以將一個資料集依據指定的欄位併入另一個資料集，完整的函數用法可以參考[使用手冊](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.merge.html#pandas.DataFrame.merge)。

In [None]:
fulldata = sub1.iloc[:,1:].merge(sub2.iloc[:,1:], on=['Month','Day'])
fulldata.head()

## Merge data vertically

資料合併也可以是將新的資料列增加在原本資料的最後面，透過 `pandas.DataFrame.append()` 來完成。

In [None]:
d1 = pd.DataFrame({'a':[1,2,3],'b':[4,5,6]})
d2 = pd.DataFrame({'a':[7,8,9],'b':[10,11,12]})
d12 = d1.append(d2)
d12

In [None]:
d12.reset_index(inplace=True)
d12

# Summary

- 原始資料通常並不完整，需要經過整理，才能成為整齊資料
- 資料整理的過程，可能包括：
  - 資料分割與排序（Subseting and sorting）
  - 資料摘要（Summarizing）
  - 增加新變項（Creating new variables）
  - 資料重整（Reshaping data）
  - 資料合併（Merging data）
- 清理資料可能是一個反覆探索的過程，也不一定有標準答案，所有步驟最好保留完整的紀錄
- 理論再多，都不如實際體驗