# 單元4 熊貓數據分析

今天介紹資料分析近來很紅的 pandas 套件, 作者是 Wes McKinney。Python 會成為一個數據分析的熱門語言, 和 pandas 的出現也有相當的關係。

但是 pandas 雖然功能強, 但有些地方沒那麼直覺, 有時會讓大家以為是個深奧的套件。其實你大約可以把 pandas 想成「Python 的 Excel」, 但是功能更強、更有彈性、也有更多的可能性。

下面介紹個基本上就是把 pandas 當 Excel 學的影片, 相信大家會覺得很親切。

In [1]:
from IPython.display import YouTubeVideo

In [2]:
YouTubeVideo("https://youtu.be/9d5-Ti6onew")

## 4-1 開始使用 `pandas`

首先我們來讀入一個 CSV 檔, 這裡有個「假的」學測成績, 叫 `grades.csv` 我們來練習一下。

用 `df` 是標準的叫法 (雖然這名稱我們隨便取也可以), 意思是 Data Frame, 這是 `pandas` 兩大資料結構之一。我們可以把 Data Frame 想成一張表格 (雖然其實可以是很多張表格)。

我們來看看我們 `df` 的前五筆資料。

如果你曾經手動讀入 CSV 檔, 就知道這省了多少事 (雖然我個人還挺喜歡純手動帶進 CSV)。

#### Excel 檔也可以快速讀入

不只 CSV 檔, 很多資料檔案, 像 Excel 檔都很容易在 `pandas` 完成。使用法是這樣:

    df2 = pd.read_excel('filename.xls', 'sheetname')
    
其中 sheetname 那裡要放工作表的名稱, 如果是中文的最好改成英文。

## 4-2 Pandas 基本資料結構

Pandas 有兩個基本資料結構:

* <b style="color:red;">DataFrame</b>: 可以想成一個表格。
* <b style="color:red;">Series</b>: 表格的某一列、某一行, 基本上就是我們以前的 list 或 array

一個 DataFrame, 我們有 `index` (列的名稱), `columns` (行的名稱)。

#### DataFrame

![DataFrame 的結構](images/indexcol.png)

#### Series

剛剛說 series 大概就是一個 list, 一個 array。其實更精準的說, 其實是一個有 "index" 的 array。

DataFrame 的每一行或每一列其實也都是一個 series。我們來看個例子, 例如所有同學的國文成績, 就是一個 series。

在 Python 3 中, 我們終於可以和英文同步, 用這種很炫的方式叫出所有國文成績。

#### 資料畫出來

要畫個圖很容易。

當然, 在這個例子中, 其實畫 histogram 圖更有意義一點。

## 4-3 一些基本的資料分析

算平均。

算標準差。

不如就該算的都幫我們算算...

有時我們很愛看的相關係數矩陣。

只算兩科間的相關係數當然也可以。

## 4-4 增加一行

### 【技巧】

我們增加一行, 加入總級分。

### 【技巧】

有計算的當然也可以的。

## 4-5 排序和 index 重設

### 【重點】排序的方法

我們依總級分來排序。

### 【重點】排序的方法

加權分最高, 同分才看總級分

### 【重點】重設 index

## 4-6 篩出我們要的資料

基本上和 NumPy 的 array 篩法很像。

### 【重點】

找出數學滿級分同學。

### 【重點】

找出數學和英文都滿級分的同學。要注意 `and` 要用 `&`, `or` 要用 `|`。每個條件一定要加弧號。

## 4-7 刪除一行或一列

### 【重點】刪掉一行

我們來刪掉總級分的那行。

### 【重點】改變原有的 DataFrame

我們會發現 `pandas` 很多動作都沒有更改原有的 DataFrame, 真的要改要加入

    inplace=True

### 【重點】刪掉一列

刪掉列就是指定要刪去的 index。

### 【重點】刪掉一列

通常刪掉符合條件的比較合理 (注意是找到要刪掉的部份, 再找出相對的 index)。

### 【重點】刪掉一列

聰明的你是不是想到, 那直接篩出我們要留的就好了啊!

## 4-8 真實股價資料

有個從 `Pandas` 獨立出來的套件叫 `pandas-datareader`, 幾經波折, 先是 Yahoo! 的財務資料不能用, 後來又是 Google 的資料不能用, 不過至少現在看來 Yahoo! 還可以使用。

安裝 `pandas-datareader` 就標準 `conda` 安裝:

    conda install pandas-datareader
    
如果裝過, 但很久沒更新就用:

    conda update pandas-datareader

### 【例子】 分析 Apple 股價

In [4]:
# 為防止網路有問題, 我們把這個檔案以 aapl.csv 存起來, 可以這樣讀入。
# df = pd.read_csv('data/aapl.csv', index_col="Date")

#### 只要最後 300 個交易日!

#### 20 日的移動平均

#### 20 日和 60 日的移動平均

#### 準備做預測

我們用個非常天真的模型...

![天真股票模型](images/naive.png)

而且小豬說這是線性的 (可能嗎)!


哦, 真的有點像線性的, 我們之後用線性迴歸試試看。

## 4-9 手工打造一個 DataFrame*

有時我們用手工打造一個簡單的 DataFrame, 可以更理解整個結構。其實很容易, 一個 DataFrame 基本上就包含兩個主要部份:

* 資料本身: 通常一個二維陣列 (矩陣)
* 行、列的名稱

我們來個簡單的小例子。

In [43]:
mydata = np.random.randn(4,3)

In [44]:
mydata

array([[ 1.12945587, -0.14573379, -0.25215813],
       [ 1.12809297, -0.60980842,  0.95764537],
       [ 0.7720795 ,  1.48878766, -0.02251793],
       [-1.00148622, -0.379223  , -0.44863121]])

把行列的名字放進去, 就成一個 DataFrame。我們列的部份先讓 Python 自己產生。

In [45]:
df2 = pd.DataFrame(mydata, columns=list("ABC"))

In [46]:
df2

Unnamed: 0,A,B,C
0,1.129456,-0.145734,-0.252158
1,1.128093,-0.609808,0.957645
2,0.772079,1.488788,-0.022518
3,-1.001486,-0.379223,-0.448631


#### 兩個表格上下貼起來

我們再來生一個 DataFrame, 再「貼」起來。

In [47]:
df3 = pd.DataFrame(np.random.randn(3,3), columns=list("ABC"))

In [48]:
df3

Unnamed: 0,A,B,C
0,0.012814,0.044553,1.328565
1,-0.670647,-0.650074,-0.50408
2,0.819673,-0.12973,0.04009


In [49]:
df4 = pd.concat([df2, df3], axis=0)

In [50]:
df4

Unnamed: 0,A,B,C
0,1.129456,-0.145734,-0.252158
1,1.128093,-0.609808,0.957645
2,0.772079,1.488788,-0.022518
3,-1.001486,-0.379223,-0.448631
0,0.012814,0.044553,1.328565
1,-0.670647,-0.650074,-0.50408
2,0.819673,-0.12973,0.04009


前面我們弄得亂七八糟的 index 重設一下。

In [51]:
df4.index = range(7)

In [52]:
df4

Unnamed: 0,A,B,C
0,1.129456,-0.145734,-0.252158
1,1.128093,-0.609808,0.957645
2,0.772079,1.488788,-0.022518
3,-1.001486,-0.379223,-0.448631
4,0.012814,0.044553,1.328565
5,-0.670647,-0.650074,-0.50408
6,0.819673,-0.12973,0.04009


#### 横向的貼

In [53]:
df5 = pd.concat([df2, df3], axis=1)

等等, 這大小好像不太對也可以嗎? 答案是可以的!

In [54]:
df5

Unnamed: 0,A,B,C,A.1,B.1,C.1
0,1.129456,-0.145734,-0.252158,0.012814,0.044553,1.328565
1,1.128093,-0.609808,0.957645,-0.670647,-0.650074,-0.50408
2,0.772079,1.488788,-0.022518,0.819673,-0.12973,0.04009
3,-1.001486,-0.379223,-0.448631,,,


#### 大一點的例子

我們來做前面「假的」學測資料。首先要有「假的」同學名單, 如果有興趣產生很多名字, 可以用這個服務。

[中文姓名產生器](http://www.richyli.com/name/index.asp)

In [56]:
df_names = pd.read_csv('data/names.csv', names=["姓名"])

In [57]:
df_names.head()

Unnamed: 0,姓名
0,羅雅慧
1,王紹尹
2,黃季坤
3,許正書
4,張鈞蓮


In [58]:
df_grades = pd.DataFrame(np.random.randint(6,16,(100,5)), 
                      columns=["國文", "英文", "數學", 
                               "社會", "自然"])

In [59]:
df6 = pd.concat([df_names, df_grades], axis=1)

In [60]:
df6.head()

Unnamed: 0,姓名,國文,英文,數學,社會,自然
0,羅雅慧,9,13,8,15,13
1,王紹尹,13,14,12,8,11
2,黃季坤,6,13,14,6,13
3,許正書,7,11,11,10,7
4,張鈞蓮,9,12,12,7,7
