In [1]:
## %matplotlib inline
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd

# Data Preparation

*Course Module: Getting and Cleaning Data*

--------

Ting-Shuo Yo 2018


## 關於本課程

這段課程的主題是「如何準備好分析要用的資料」，包含以下概念：

- 尋找與擷取「原始資料」(raw data)
- 「整齊資料」(Tidy data) 的原則，以及如何讓資料整齊
- 相關的 Python 套件
- 實際案例練習

## 你期待資料的樣子

<img class=center src=figures/excel.png width=80%>

## 資料實際上的長相

<img class=center src=figures/fastq.png width=80%/>


[http://brianknaus.com/software/srtoolbox/s_4_1_sequence80.txt](http://brianknaus.com/software/srtoolbox/s_4_1_sequence80.txt)


## 資料在哪裡？

<img class=center src=figures/databases.png height=400/>


[http://rickosborne.org/blog/2010/02/infographic-migrating-from-sql-to-mapreduce-with-mongodb/](http://rickosborne.org/blog/2010/02/infographic-migrating-from-sql-to-mapreduce-with-mongodb/)


## 資料在哪裡？

<img class=center src=figures/twitter.png width=80%/>

[https://dev.twitter.com/docs/api/1/get/blocks/blocking](https://dev.twitter.com/docs/api/1/get/blocks/blocking)


## 資料在哪裡？

<img class=center src=figures/data_gov_tw.jpg height= 400/>

[http://data.gov.tw//](http://data.gov.tw//)


# 到哪裡去找資料？學術研究資料

- 在大部分的科學研究領域，**資料**都是耗費相當的時間與金錢，經過繁複的程序才取得的，一般來說都非常寶貴，在論文發表之前，不會輕易與其他人分享。
- 多年來，經由許多資料分析領域的研究人員的推廣，有些學者開始將已經發表過的學術研究資料公開，讓學生以及開發新研究方法的研究人員，有可以拿來做練習的資料。
- 過去， [UCI Machine Learning Repository](https://www.kaggle.com/uciml) 收集了大量的資料集，目前則由 [Kaggle](https://www.kaggle.com/) 延續了這個任務。


# 到哪裡去找資料？開放資料

近年來的由於[開放資料](https://zh.wikipedia.org/wiki/%E9%96%8B%E6%94%BE%E8%B3%87%E6%96%99)（Open Data）的發展，各國政府也開始將部分資料公開給社會大眾使用，例如我們課程範例中的很多資料，就是從[政府開放資料平台]((http://data.gov.tw//))取得。

然而，氣象資料本身有特殊的屬性，無法輕易從一般管道取得，我們介紹一些對外公開的管道。


## Where to Get Reanalysis Data

- [ECMWF Datasets](https://www.ecmwf.int/en/forecasts/datasets)
- [NCEP / NCAR Reanalysis](https://www.esrl.noaa.gov/psd/data/gridded/data.ncep.reanalysis.html)



## Where to Get Satellite Data

1. [USGS Earth Explorer](https://earthexplorer.usgs.gov/)
2. [ESA’s Sentinel Mission](https://scihub.copernicus.eu/dhus/#/home)
3. [NOAA CLASS](https://www.bou.class.noaa.gov/saa/products/welcome;jsessionid=844EEAC02233CDC6D6054BE24A9499B7)
4. [NASA Reverb](https://search.earthdata.nasa.gov/search)

### [15 Free Satellite Imagery Data Sources](https://gisgeography.com/free-satellite-imagery-data-list/)

## Where to Get Sounding Data

- [Atmospheric Soundings Archive from University of Wyoming](http://weather.uwyo.edu/upperair/sounding.html)
- [NOAA Integrated Global RadioSonde Archive(IGRA)](https://www.ncdc.noaa.gov/data-access/weather-balloon/integrated-global-radiosonde-archive)
- [中央氣象局](https://www.cwb.gov.tw/V7/station/graph.htm) (plot only, no raw data provided.)

## 課程目標

**原始資料** -> **資料處理** -> **整齊資料**</rt> -> 資料分析 -> 資料溝通


# 原始資料與整齊資料

## 資料的定義

<q>資料是以數值的方式呈現，用來描述特定對象的性質或數量</q>

_Data are values of qualitative or quantitative variables, belonging to a set of items._

[http://en.wikipedia.org/wiki/Data](http://en.wikipedia.org/wiki/Data)


## 資料的定義

<q>資料是以數值的方式呈現，用來描述特定對象的性質或數量</q>

<q>Data are values of qualitative or quantitative variables, belonging to a <font color='red'>set of items</font>.</q>

[http://en.wikipedia.org/wiki/Data](http://en.wikipedia.org/wiki/Data)

__Set of items__: Sometimes called the population; the set of objects you are interested in


## 資料的定義

<q>資料是以數值的方式呈現，用來描述特定對象的性質或數量</q>

<q>Data are values of <font color=red>qualitative</font> or <font color=red>quantitative</font> variables, belonging to a set of items.</q>

[http://en.wikipedia.org/wiki/Data](http://en.wikipedia.org/wiki/Data)

__Qualitative__: Country of origin, sex, treatment

__Quantitative__: Height, weight, blood pressure

## 原始資料與整齊資料

__原始資料__

* 資料的原始型態
* 通常很難直接拿來分析
* 資料分析包括「清理與處理」
* 原始資料可能只需要處理一次

[http://en.wikipedia.org/wiki/Raw_data](http://en.wikipedia.org/wiki/Raw_data)


## 原始資料與整齊資料

__整齊資料__

* 可以直接用於分析的資料
* 處理的步驟可能包括合併、分割、轉換等等
* 資料的處理可能需要符合固定的標準
* 資料處理的每一道程序最好都記錄下來

[http://en.wikipedia.org/wiki/Computer_data_processing](http://en.wikipedia.org/wiki/Computer_data_processing)


## 常用的資料整理技巧

* 資料分割（Subseting）
* 資料排序（Sorting）
* 增加新變項（Creating new variables）
* 資料摘要（Summarizing）
* 資料重整（Reshaping data）
* 資料合併（Merging data）

主要使用到的套件：*NumPy* and *Pandas*

# 資料分割（Subseting）

讓我們先隨機產生一些資料：

In [2]:
np.random.seed(12345)
X = pd.DataFrame({'var1':np.random.permutation(5), 
                  'var2':np.random.permutation(5)+5, 
                  'var3':np.random.permutation(5)+10}, index=range(1,6))
X.iloc[0:3:2, 1] = None
X


Unnamed: 0,var1,var2,var3
1,0,,14
2,4,5.0,10
3,3,,13
4,1,6.0,11
5,2,9.0,12


## 資料分割

先來複習一下 `pandas.DataFrame` 的 indexing

In [3]:
X.iloc[:,0]

1    0
2    4
3    3
4    1
5    2
Name: var1, dtype: int64

In [4]:
X.loc[0:3,'var2']

1    NaN
2    5.0
3    NaN
Name: var2, dtype: float64

In [5]:
X['var2'][0:3]

1    NaN
2    5.0
3    NaN
Name: var2, dtype: float64

## 資料分割

之前的課程也示範過 `pandas.DataFrame` 的篩選

In [6]:
data = pd.read_csv('../data/cwb_earthquake_20181101.csv')
mean_strength = data['規模'].mean()
depth_above_average = data.loc[data['規模']>mean_strength, '深度'].mean()
depth_bellow_average = data.loc[data['規模']<=mean_strength, '深度'].mean()
print("Average depth of strong earthquake: " + str(depth_above_average))
print("Average depth of weak earthquake: " + str(depth_bellow_average))
depth_above_average - depth_bellow_average

Average depth of strong earthquake: 17.277977528089878
Average depth of weak earthquake: 11.020958083832339


6.257019444257539

## 使用 *and* and *or* 來組合篩選條件

資料的篩選也可以透過多個條件的組合，主要是以 `set` 的邏輯運算來進行：

In [7]:
data[(data['規模']>5) & (data['深度']<8)]

Unnamed: 0,編號,地震時間,經度,緯度,深度,規模,震央位置
611,048,2018/2/7 下午 11:21:00,121.78,24.08,7.8,5.8,花蓮縣政府東偏北方 18.9 公里 (位於臺灣東部海域)
617,小區域,2018/2/7 下午 09:06:00,121.77,24.08,7.2,5.1,花蓮縣政府東偏北方 18.2 公里 (位於臺灣東部海域)
656,039,2018/2/7 上午 11:36:00,121.74,24.08,7.4,5.1,花蓮縣政府東北方 15.6 公里 (位於臺灣東部海域)
725,031,2018/2/7 上午 03:15:00,121.73,24.01,5.7,5.4,花蓮縣政府東方 11.1 公里 (位於花蓮縣近海)
742,029,2018/2/7 上午 02:07:00,121.71,24.04,4.2,5.3,花蓮縣政府東偏北方 10.6 公里 (位於花蓮縣近海)
745,028,2018/2/7 上午 02:00:00,121.73,24.12,6.7,5.3,花蓮縣政府東北方 17.7 公里 (位於花蓮縣近海)
799,022,2018/2/6 下午 11:50:00,121.73,24.1,6.3,6.2,花蓮縣政府東北方 16.5 公里 (位於臺灣東部海域)
893,006,2018/2/4 下午 09:12:00,121.7,24.21,3.0,5.3,花蓮縣政府北偏東方 25.1 公里 (位於花蓮縣近海)


## 透過 pandas.DataFrame 選取資料

從前面的例子我們可以看到，pandas.DataFrame 提供了多種選擇資料的方式，顯得有點令人混淆。例如，我們可以直接用數字來選取某一筆資料，像是`data[1]`；或是範圍式的選取，例如：`data[1:3]`，這樣的選取方式使用了 Python 預設的 list operation。

In [8]:
data = pd.Series(['a', 'b', 'c'], index=[1, 3, 5])
data

1    a
3    b
5    c
dtype: object

In [9]:
# explicit index when indexing
data[1]

'a'

In [10]:
# implicit index when slicing
data[1:3]

3    b
5    c
dtype: object

## 選取資料: loc

由上面的例子裡，我們可以看到用「整數」當做行列指標潛在的問題：當行列本身的標籤也是整數時，會造成混淆。因此，pandas 提供了一些額外的資料選擇方式: `loc`, `iloc`。

我們首先介紹的是 `loc`，凡是透過這個方法選擇的，一律參考資料列的標籤：

In [11]:
data.loc[1]

'a'

In [12]:
data.loc[1:3]

1    a
3    b
dtype: object

## 選取資料: iloc

第二種是 pandas.DataFrame 的 `iloc` 函數，則是一律使用 python list 的預設選擇方式：

In [13]:
data.iloc[1]

'b'

In [14]:
data.iloc[1:3]

3    b
5    c
dtype: object

# 資料排序（Sorting）

資料的排序是整理資料經常用到的功能，讓我們用台灣六個直轄市的面積和人口資料做例子：

In [15]:
area = pd.Series({'Kaohsiung City': 2951.85, 'New Taipei City': 2052.57,
                  'Taichung City': 2214.90, 'Tainan City': 2191.65,
                  'Taipei City': 271.80, 'Taoyuan City': 1220.83})
pop = pd.Series({'Kaohsiung City': 2778729, 'New Taipei City': 3971250,
                 'Taichung City': 2746112, 'Tainan City': 1885550,
                 'Taipei City': 2704974, 'Taoyuan City': 2108786})
citydata = pd.DataFrame({'area':area, 'pop':pop})
citydata

Unnamed: 0,area,pop
Kaohsiung City,2951.85,2778729
New Taipei City,2052.57,3971250
Taichung City,2214.9,2746112
Tainan City,2191.65,1885550
Taipei City,271.8,2704974
Taoyuan City,1220.83,2108786


## Sorting with Pandas

*pandas* 提供了兩種基本的排序工具：

1. **`sort_values()`**: 依據某個欄位的值排序
2. **`sort_index()`**: 依據數據及的列名稱排序

In [16]:
citydata.sort_index()

Unnamed: 0,area,pop
Kaohsiung City,2951.85,2778729
New Taipei City,2052.57,3971250
Taichung City,2214.9,2746112
Tainan City,2191.65,1885550
Taipei City,271.8,2704974
Taoyuan City,1220.83,2108786


## 排序預設由小到大


In [17]:
citydata.sort_values('pop')

Unnamed: 0,area,pop
Tainan City,2191.65,1885550
Taoyuan City,1220.83,2108786
Taipei City,271.8,2704974
Taichung City,2214.9,2746112
Kaohsiung City,2951.85,2778729
New Taipei City,2052.57,3971250


In [18]:
citydata.sort_values('area',ascending=False)

Unnamed: 0,area,pop
Kaohsiung City,2951.85,2778729
Taichung City,2214.9,2746112
Tainan City,2191.65,1885550
New Taipei City,2052.57,3971250
Taoyuan City,1220.83,2108786
Taipei City,271.8,2704974


# 產生新資料變項

## 資料還不夠多嗎？為什麼要產生新資料變項？

* 通常原始資料並不包含我們想分析的變項（例如：「氣象參數」與「特定天氣事件」）
* 我們需要透過一些計算或轉換，算出我們感興趣的變項
* 一般來說，我們會把新變項加到原本分析的 DataFrame 裡
* 常見的新增變項：
  * 遺失值指標
  * 把連續數字轉換成類別
  * 轉換函數

## 產生新變數

例如，前面用到的台灣六個直轄市的面積和人口資料，我們真正感興趣的是「人口密度」。我們知道：

        人口密度 ＝ 總人口 / 總面積

但是要怎麼加進原本的資料集裡呢？

In [19]:
citydata['density'] = citydata['pop'] / citydata['area']
citydata.sort_values('density',ascending=False)

Unnamed: 0,area,pop,density
Taipei City,271.8,2704974,9952.075055
New Taipei City,2052.57,3971250,1934.769582
Taoyuan City,1220.83,2108786,1727.337959
Taichung City,2214.9,2746112,1239.835658
Kaohsiung City,2951.85,2778729,941.351695
Tainan City,2191.65,1885550,860.333539


## 範例：2018年9月的公司登記清冊

讓我們用一組新的資料來做示範。我們到[政府開放資料平台](https://data.gov.tw/)下載2018年9月的[公司設立登記清冊](https://data.gov.tw/dataset/6047)。

`pandas.DataFrame.head()` 會列出資料集的前五筆資料。

In [20]:
data = pd.read_csv('../data/company_registration_201809.csv')
data.head()

Unnamed: 0,序號,統一編號,公司名稱,公司所在地,代表人,資本額,核准設立日期
0,1,24813076,東哲投資股份有限公司,臺北市信義區信義路4段460號18樓,林志明,1382000000,1070926
1,2,29187412,崴得升科技有限公司,高雄市前鎮區復興四路2號四樓之1A03室,李居財,2000000,1070907
2,3,29187428,易傳塾科技有限公司,高雄市前鎮區復興四路20號,潘則佑,1000000,1070914
3,4,42519006,台灣艾貴太陽能源股份有限公司,臺北市信義區忠孝東路5段68號20樓,梁盛宇 (Sung Woo Yang),369750000,1070927
4,5,42921458,鑫隆食品實業有限公司,臺南市南區再興里新慶街３號1樓,蔡鑫隆,299999,1070827


## 產生新變項：處理過的變數

有時候原始資料並不包含我們想分析的變項，例如我們想知道的是新登記公司在各縣市的分佈，所以我們把「公司所在地」的前三個字抓出來當做行政區：

In [21]:
city = [x[:3] for x in data['公司所在地']]
data['city'] = city
data.head()

Unnamed: 0,序號,統一編號,公司名稱,公司所在地,代表人,資本額,核准設立日期,city
0,1,24813076,東哲投資股份有限公司,臺北市信義區信義路4段460號18樓,林志明,1382000000,1070926,臺北市
1,2,29187412,崴得升科技有限公司,高雄市前鎮區復興四路2號四樓之1A03室,李居財,2000000,1070907,高雄市
2,3,29187428,易傳塾科技有限公司,高雄市前鎮區復興四路20號,潘則佑,1000000,1070914,高雄市
3,4,42519006,台灣艾貴太陽能源股份有限公司,臺北市信義區忠孝東路5段68號20樓,梁盛宇 (Sung Woo Yang),369750000,1070927,臺北市
4,5,42921458,鑫隆食品實業有限公司,臺南市南區再興里新慶街３號1樓,蔡鑫隆,299999,1070827,臺南市


## 產生新變項：變項的類別轉換

公司的資本額可以有很多不同的數字，但是我們關心的可能只有少數類別所以可以利用 `pandas.cut`（依指定間距） 或 `pandas.qcut`（依百分等級） 來將連續變項轉換為等級變項：

In [22]:
data['capital'] = pd.qcut(data['資本額'], q=[0, .25, .50, .75, 1.00])
print(pd.crosstab(data['capital'], 'count'))
data.head()

col_0                      count
capital                         
(-0.001, 300000.0]           880
(300000.0, 1000000.0]       1207
(1000000.0, 2000000.0]       265
(2000000.0, 1382000000.0]    667


Unnamed: 0,序號,統一編號,公司名稱,公司所在地,代表人,資本額,核准設立日期,city,capital
0,1,24813076,東哲投資股份有限公司,臺北市信義區信義路4段460號18樓,林志明,1382000000,1070926,臺北市,"(2000000.0, 1382000000.0]"
1,2,29187412,崴得升科技有限公司,高雄市前鎮區復興四路2號四樓之1A03室,李居財,2000000,1070907,高雄市,"(1000000.0, 2000000.0]"
2,3,29187428,易傳塾科技有限公司,高雄市前鎮區復興四路20號,潘則佑,1000000,1070914,高雄市,"(300000.0, 1000000.0]"
3,4,42519006,台灣艾貴太陽能源股份有限公司,臺北市信義區忠孝東路5段68號20樓,梁盛宇 (Sung Woo Yang),369750000,1070927,臺北市,"(2000000.0, 1382000000.0]"
4,5,42921458,鑫隆食品實業有限公司,臺南市南區再興里新慶街３號1樓,蔡鑫隆,299999,1070827,臺南市,"(-0.001, 300000.0]"


以利用 `pandas.cut`（依指定間距） 或 `pandas.qcut`（依百分等級） 來將連續變項轉換為等級變項時，可以指定類別名稱，或是自動用數字當做標籤：

In [23]:
data['capital'] = pd.qcut(data['資本額'], q=[0, .25, .50, .75, 1.00], labels=False)
data.head()

Unnamed: 0,序號,統一編號,公司名稱,公司所在地,代表人,資本額,核准設立日期,city,capital
0,1,24813076,東哲投資股份有限公司,臺北市信義區信義路4段460號18樓,林志明,1382000000,1070926,臺北市,3
1,2,29187412,崴得升科技有限公司,高雄市前鎮區復興四路2號四樓之1A03室,李居財,2000000,1070907,高雄市,2
2,3,29187428,易傳塾科技有限公司,高雄市前鎮區復興四路20號,潘則佑,1000000,1070914,高雄市,1
3,4,42519006,台灣艾貴太陽能源股份有限公司,臺北市信義區忠孝東路5段68號20樓,梁盛宇 (Sung Woo Yang),369750000,1070927,臺北市,3
4,5,42921458,鑫隆食品實業有限公司,臺南市南區再興里新慶街３號1樓,蔡鑫隆,299999,1070827,臺南市,0


In [24]:
data['capital'] = pd.qcut(data['資本額'], q=[0, .25, .50, .75, 1.00], labels=['30萬以下','100萬以下','200萬以下','200萬以上'])
data.head()

Unnamed: 0,序號,統一編號,公司名稱,公司所在地,代表人,資本額,核准設立日期,city,capital
0,1,24813076,東哲投資股份有限公司,臺北市信義區信義路4段460號18樓,林志明,1382000000,1070926,臺北市,200萬以上
1,2,29187412,崴得升科技有限公司,高雄市前鎮區復興四路2號四樓之1A03室,李居財,2000000,1070907,高雄市,200萬以下
2,3,29187428,易傳塾科技有限公司,高雄市前鎮區復興四路20號,潘則佑,1000000,1070914,高雄市,100萬以下
3,4,42519006,台灣艾貴太陽能源股份有限公司,臺北市信義區忠孝東路5段68號20樓,梁盛宇 (Sung Woo Yang),369750000,1070927,臺北市,200萬以上
4,5,42921458,鑫隆食品實業有限公司,臺南市南區再興里新慶街３號1樓,蔡鑫隆,299999,1070827,臺南市,30萬以下


In [25]:
company_reg_data = data

## 遺失值的處理（missing values）

資料遺失是極為常見的情況，pandas 當初設計的目的之一就包括了簡化遺失值處理的程序。舉例來說：pandas 提供的各個描述統計函數（平均值、標準差、百分位數...)，在計算時都會自動剔除遺失值。



In [26]:
np.random.seed(12345)
X = pd.DataFrame({'var1':np.random.permutation(5), 
                  'var2':np.random.permutation(5)+5, 
                  'var3':np.random.permutation(5)+10}, index=range(1,6))
X.iloc[0:3:2, 1] = None
print(X)
X['var2'].mean()

   var1  var2  var3
1     0   NaN    14
2     4   5.0    10
3     3   NaN    13
4     1   6.0    11
5     2   9.0    12


6.666666666666667

## Pandas 內建的遺失值處理工具

|Argument| Description|
|--------|------------|
|dropna| Filter axis labels based on whether values for each label have missing data.|
|fillna| Fill in missing data with some value or using an interpolation method such as 'ffill' or 'bfill'.|
|isnull| Return link-type object containing boolean values indicating which values are missing / NA.|
|notnull| Negation of isnull.|

`DataFrame.dropna()` 是最簡單的遺失值處理方法：直接把有遺失值的資料列或欄位剔除。

In [27]:
X

Unnamed: 0,var1,var2,var3
1,0,,14
2,4,5.0,10
3,3,,13
4,1,6.0,11
5,2,9.0,12


In [28]:
X.dropna()

Unnamed: 0,var1,var2,var3
2,4,5.0,10
4,1,6.0,11
5,2,9.0,12


## 遺失的資料原本應該是什麼？

遺失值的處理是一個專門的研究主題，「遺失的資料原本應該是什麼」本身就是個艱難的問題，例如：

- 資料遺失的發生是完全隨機的，還是系統性的隨機？
- 資料遺失如果不是隨機發生，背後有什麼特殊的意義？

這些問題與資料本身的特性有關，對科學研究本身至關重要，但在課程裡我們聚焦在處理遺失值的工具上。除了最簡單的「放棄資料」之外，pandas 還提供了 `DataFrame.fillna()` 、 `DataFrame.interpolate()` 這些簡單的工具讓我們可以快速的填入值。

 `DataFrame.fillna()` 讓我們可以快速的填入一個指定值。詳細的使用方法可以參考[使用手冊](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.fillna.html)。

In [29]:
X

Unnamed: 0,var1,var2,var3
1,0,,14
2,4,5.0,10
3,3,,13
4,1,6.0,11
5,2,9.0,12


In [30]:
X.fillna(0)

Unnamed: 0,var1,var2,var3
1,0,0.0,14
2,4,5.0,10
3,3,0.0,13
4,1,6.0,11
5,2,9.0,12


In [31]:
X.fillna(method='bfill')

Unnamed: 0,var1,var2,var3
1,0,5.0,14
2,4,5.0,10
3,3,6.0,13
4,1,6.0,11
5,2,9.0,12


 `DataFrame.interpolate()` 則是提供了各種內插函數，從簡單的線性內插到 cubic-spline，以及更複雜的 model-based interpolation。使用的方法及限制可以參考[使用手冊](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.interpolate.html#pandas.DataFrame.interpolate)。

In [32]:
X.interpolate()

Unnamed: 0,var1,var2,var3
1,0,,14
2,4,5.0,10
3,3,5.5,13
4,1,6.0,11
5,2,9.0,12


In [33]:
X.interpolate(axis=1)

Unnamed: 0,var1,var2,var3
1,0.0,7.0,14.0
2,4.0,5.0,10.0
3,3.0,8.0,13.0
4,1.0,6.0,11.0
5,2.0,9.0,12.0


# 資料摘要 (Summerizing)

如同前面提到的，當我們取得一筆資料，無論是要填入遺失值或是進一步產生新變數，都需要先了解資料的特性。pandas 提供了[一些工具](https://pandas.pydata.org/pandas-docs/stable/api.html#api-dataframe-stats)讓我們可以快速的最資料集做摘要，列舉部分如下：

- `DataFrame.describe()`：對數值變項做簡單的描述統計摘要
- `DataFrame.head()` / `DataFrame.tail()`：顯示最前面/最後面的幾列資料
- `DataFrame.quantile()`：


In [34]:
data = pd.read_csv('../data/data_sample1.csv')
data.describe()

Unnamed: 0,Ozone,Solar.R,Wind,Temp,Month,Day
count,116.0,146.0,153.0,153.0,153.0,153.0
mean,42.12931,185.931507,9.957516,77.882353,6.993464,15.803922
std,32.987885,90.058422,3.523001,9.46527,1.416522,8.86452
min,1.0,7.0,1.7,56.0,5.0,1.0
25%,18.0,115.75,7.4,72.0,6.0,8.0
50%,31.5,205.0,9.7,79.0,7.0,16.0
75%,63.25,258.75,11.5,85.0,8.0,23.0
max,168.0,334.0,20.7,97.0,9.0,31.0


`DataFrame.corr()` / `DataFrame.cov()` 可以快速的算出相關矩陣 / 共變數矩陣

In [35]:
data.corr()

Unnamed: 0,Ozone,Solar.R,Wind,Temp,Month,Day
Ozone,1.0,0.348342,-0.601547,0.69836,0.164519,-0.013226
Solar.R,0.348342,1.0,-0.056792,0.27584,-0.075301,-0.150275
Wind,-0.601547,-0.056792,1.0,-0.457988,-0.178293,0.027181
Temp,0.69836,0.27584,-0.457988,1.0,0.420947,-0.130593
Month,0.164519,-0.075301,-0.178293,0.420947,1.0,-0.007962
Day,-0.013226,-0.150275,0.027181,-0.130593,-0.007962,1.0


`pandas.crosstab()` 可以快速的做交叉分析表。例如，我們想看看每個月份氣溫高於80％百分位數的有幾天：

In [36]:
data['hot'] = data['Temp'] >= data['Temp'].quantile(0.8)
pd.crosstab(data['Month'],[data['hot'],'count'])

hot,False,True
col_1,count,count
Month,Unnamed: 1_level_2,Unnamed: 2_level_2
5,31,0
6,25,5
7,21,10
8,17,14
9,25,5


又例如，我們想知道今年註冊的新公司，註冊所在地與資本額的關聯性：

In [37]:
len(set(company_reg_data['city']))

22

In [38]:
pd.crosstab(company_reg_data['city'], [company_reg_data['capital'],'count'])

capital,30萬以下,100萬以下,200萬以下,200萬以上
col_1,count,count,count,count
city,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
南投縣,5,3,2,1
台北市,1,0,0,0
嘉義市,7,4,4,3
嘉義縣,9,8,1,6
基隆市,11,6,4,2
宜蘭縣,8,9,2,4
屏東縣,27,19,5,3
彰化縣,23,36,11,27
新北市,143,215,38,89
新竹市,15,21,2,11


發現有什麼問題嗎？

## Quiz

我們發現公司登記資料有一點小問題，怎麼修理它呢？

In [39]:
company_reg_data['city'=='台北市', 'city'] = '臺北市'
company_reg_data['city'].value_counts()

臺北市    879
新北市    485
臺中市    453
高雄市    294
桃園市    270
臺南市    177
彰化縣     97
新竹縣     73
屏東縣     54
新竹市     49
雲林縣     29
苗栗縣     27
嘉義縣     24
宜蘭縣     23
基隆市     23
嘉義市     18
花蓮縣     17
南投縣     11
金門縣      7
臺東縣      5
澎湖縣      3
台北市      1
Name: city, dtype: int64

# 資料重整（Reshaping data）

有時候資料並不是我們想要的排列方式，所以需要重新排列，`pandas.DataFrame.pivot()` 提供了這樣的功能。

例如上述的測站資料，我們希望依照月/日來列出溫度：

In [40]:
tmpdata = data.pivot(index='Month', columns='Day', values='Temp')
tmpdata

Day,1,2,3,4,5,6,7,8,9,10,...,22,23,24,25,26,27,28,29,30,31
Month,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
5,67.0,72.0,74.0,62.0,56.0,66.0,65.0,59.0,61.0,69.0,...,73.0,61.0,61.0,57.0,58.0,57.0,67.0,81.0,79.0,76.0
6,78.0,74.0,67.0,84.0,85.0,79.0,82.0,87.0,90.0,87.0,...,76.0,76.0,76.0,75.0,78.0,73.0,80.0,77.0,83.0,
7,84.0,85.0,81.0,84.0,83.0,83.0,88.0,92.0,92.0,89.0,...,81.0,82.0,86.0,85.0,82.0,86.0,88.0,86.0,83.0,81.0
8,81.0,81.0,82.0,86.0,85.0,87.0,89.0,90.0,90.0,92.0,...,72.0,75.0,79.0,81.0,86.0,88.0,97.0,94.0,96.0,94.0
9,91.0,92.0,93.0,93.0,87.0,84.0,80.0,78.0,75.0,73.0,...,71.0,81.0,69.0,63.0,70.0,77.0,75.0,76.0,68.0,


有時候，我們想要反過來，把眾多欄位變成一個單一的欄位， `pandas.DataFrame.melt()` 提供了這樣的功能。

例如，上述的氣溫資料，我們希望把「日期─溫度」變成單一的索引：

In [41]:
data.melt(id_vars=['Month','Day'], value_vars=['Temp','Ozone']).head()

Unnamed: 0,Month,Day,variable,value
0,5,1,Temp,67.0
1,5,2,Temp,72.0
2,5,3,Temp,74.0
3,5,4,Temp,62.0
4,5,5,Temp,56.0


# 合併資料 (Merging data)

有時候，我們的資料來自多個來源（檔案），但在分析前我們需要將資料合併。

## Merge data with a key

如果兩組資料有部分共同的欄位，我們可以透過這些欄位來進行「交集」（`join`）式的合併。

In [42]:
sub1 = pd.read_csv('../data/data_sample1_subset1.csv')
sub2 = pd.read_csv('../data/data_sample1_subset2.csv')
sub1.head()

Unnamed: 0.1,Unnamed: 0,Wind,Temp,Month,Day
0,0,7.4,67,5,1
1,1,8.0,72,5,2
2,2,12.6,74,5,3
3,3,11.5,62,5,4
4,4,14.3,56,5,5


In [43]:
sub2.head()

Unnamed: 0.1,Unnamed: 0,Ozone,Solar.R,Month,Day
0,0,41.0,190.0,5,1
1,1,36.0,118.0,5,2
2,2,12.0,149.0,5,3
3,3,18.0,313.0,5,4
4,4,,,5,5


`pandas.DataFrame.merge()` 可以將一個資料集依據指定的欄位併入另一個資料集，完整的函數用法可以參考[使用手冊](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.merge.html#pandas.DataFrame.merge)。

In [44]:
fulldata = sub1.iloc[:,1:].merge(sub2.iloc[:,1:], on=['Month','Day'])
fulldata.head()

Unnamed: 0,Wind,Temp,Month,Day,Ozone,Solar.R
0,7.4,67,5,1,41.0,190.0
1,8.0,72,5,2,36.0,118.0
2,12.6,74,5,3,12.0,149.0
3,11.5,62,5,4,18.0,313.0
4,14.3,56,5,5,,


## Merge data vertically

資料合併也可以是將新的資料列增加在原本資料的最後面，透過 `pandas.DataFrame.append()` 來完成。

In [45]:
d1 = pd.DataFrame({'a':[1,2,3],'b':[4,5,6]})
d2 = pd.DataFrame({'a':[7,8,9],'b':[10,11,12]})
d12 = d1.append(d2)
d12

Unnamed: 0,a,b
0,1,4
1,2,5
2,3,6
0,7,10
1,8,11
2,9,12


In [46]:
d12.reset_index(inplace=True)
d12

Unnamed: 0,index,a,b
0,0,1,4
1,1,2,5
2,2,3,6
3,0,7,10
4,1,8,11
5,2,9,12


# Summary

- 原始資料通常並不完整，需要經過整理，才能成為整齊資料
- 資料整理的過程，可能包括：
  - 資料分割與排序（Subseting and sorting）
  - 資料摘要（Summarizing）
  - 增加新變項（Creating new variables）
  - 資料重整（Reshaping data）
  - 資料合併（Merging data）
- 清理資料可能是一個反覆探索的過程，也不一定有標準答案，所有步驟最好保留完整的紀錄
- 理論再多，都不如實際體驗