# Pandas數據分析

今天介紹資料分析近來很紅的 pandas 套件, 作者是 Wes McKinney。Python 會成為一個數據分析的熱門語言, 和 pandas 的出現也有相當的關係。

但是 pandas 雖然功能強, 但有些地方沒那麼直覺, 有時會讓大家以為是個深奧的套件。其實你大約可以把 pandas 想成「Python 的 Excel」, 但是功能更強、更有彈性、也有更多的可能性。

下面介紹個基本上就是把 pandas 當 Excel 學的影片, 相信大家會覺得很親切。<br>
https://youtu.be/9d5-Ti6onew

In [40]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

## 1 開始使用 `pandas`

首先我們來讀入一個 CSV 檔, 這裡有個「假的」學測成績, 叫 `grades.csv` 我們來練習一下。

In [117]:
data = pd.read_csv('data/grades.csv')
print(data)

     姓名  國文  英文  數學  自然  社會
0   劉俊安   9  10  15  10  13
1   胡玉華  10  10  10   8   9
2   黃淑婷  13  15   8  11  14
3   陳上紫  10  10   8   9  14
4   崔靜成  13  12  14  12  13
..  ...  ..  ..  ..  ..  ..
95  蔡佳燕   9  10   9  13  14
96  吳筱婷   8  10  14  10  15
97  陳家銘  14   9  11   8  12
98  李明威  15   9   8   9  15
99  農揚勇   9  11  12  12  10

[100 rows x 6 columns]


In [118]:
df = pd.DataFrame(data)
print(df)

     姓名  國文  英文  數學  自然  社會
0   劉俊安   9  10  15  10  13
1   胡玉華  10  10  10   8   9
2   黃淑婷  13  15   8  11  14
3   陳上紫  10  10   8   9  14
4   崔靜成  13  12  14  12  13
..  ...  ..  ..  ..  ..  ..
95  蔡佳燕   9  10   9  13  14
96  吳筱婷   8  10  14  10  15
97  陳家銘  14   9  11   8  12
98  李明威  15   9   8   9  15
99  農揚勇   9  11  12  12  10

[100 rows x 6 columns]


用 `df` 是標準的叫法 (雖然這名稱我們隨便取也可以), 意思是 Data Frame, 這是 `pandas` 兩大資料結構之一。我們可以把 Data Frame 想成一張表格 (雖然其實可以是很多張表格)。

我們來看看我們 `df` 的前五筆資料。

In [43]:
pd.read_csv('data/grades.csv',nrows=5)

Unnamed: 0,姓名,國文,英文,數學,自然,社會
0,劉俊安,9,10,15,10,13
1,胡玉華,10,10,10,8,9
2,黃淑婷,13,15,8,11,14
3,陳上紫,10,10,8,9,14
4,崔靜成,13,12,14,12,13


如果你曾經手動讀入 CSV 檔, 就知道這省了多少事 (雖然我個人還挺喜歡純手動帶進 CSV)。

#### Excel 檔也可以快速讀入

不只 CSV 檔, 很多資料檔案, 像 Excel 檔都很容易在 `pandas` 完成。使用法是這樣:

    df2 = pd.read_excel('filename.xls', 'sheetname')
    
其中 sheetname 那裡要放工作表的名稱, 如果是中文的最好改成英文。

## 2 Pandas 基本資料結構

Pandas 有兩個基本資料結構:

* <b style="color:red;">DataFrame</b>: 可以想成一個表格。
* <b style="color:red;">Series</b>: 表格的某一列、某一行, 基本上就是我們以前的 list 或 array

一個 DataFrame, 我們有 `index` (列的名稱), `columns` (行的名稱)。

#### DataFrame

![DataFrame 的結構](images/indexcol.png)

#### Series

剛剛說 series 大概就是一個 list, 一個 array。其實更精準的說, 其實是一個有 "index" 的 array。

DataFrame 的每一行或每一列其實也都是一個 series。我們來看個例子, 例如所有同學的國文成績, 就是一個 series。

在 Python 3 中, 我們終於可以和英文同步, 用這種很炫的方式叫出所有國文成績。

In [119]:
df = pd.DataFrame(data)
print(df)
df0 = pd.DataFrame(data, columns=['姓名','國文'])
print(df0)

     姓名  國文  英文  數學  自然  社會
0   劉俊安   9  10  15  10  13
1   胡玉華  10  10  10   8   9
2   黃淑婷  13  15   8  11  14
3   陳上紫  10  10   8   9  14
4   崔靜成  13  12  14  12  13
..  ...  ..  ..  ..  ..  ..
95  蔡佳燕   9  10   9  13  14
96  吳筱婷   8  10  14  10  15
97  陳家銘  14   9  11   8  12
98  李明威  15   9   8   9  15
99  農揚勇   9  11  12  12  10

[100 rows x 6 columns]
     姓名  國文
0   劉俊安   9
1   胡玉華  10
2   黃淑婷  13
3   陳上紫  10
4   崔靜成  13
..  ...  ..
95  蔡佳燕   9
96  吳筱婷   8
97  陳家銘  14
98  李明威  15
99  農揚勇   9

[100 rows x 2 columns]


#### 資料畫出來

要畫個圖很容易。

當然, 在這個例子中, 其實畫 histogram 圖更有意義一點。

## 3 一些基本的資料分析

算平均。

In [78]:
df.mean()

國文    11.39
英文    11.38
數學    11.57
自然    11.03
社會    11.83
dtype: float64

算標準差。

In [54]:
df.std()

國文       2.196853
英文       2.273164
數學       2.310516
自然       2.217720
社會       2.486550
Total    4.805300
dtype: float64

不如就該算的都幫我們算算...

In [79]:
df.describe()

Unnamed: 0,國文,英文,數學,自然,社會
count,100.0,100.0,100.0,100.0,100.0
mean,11.39,11.38,11.57,11.03,11.83
std,2.196853,2.273164,2.310516,2.21772,2.48655
min,8.0,8.0,8.0,8.0,8.0
25%,9.0,9.0,10.0,9.0,9.0
50%,11.0,11.0,11.0,11.0,12.0
75%,13.0,13.0,14.0,13.0,14.0
max,15.0,15.0,15.0,15.0,15.0


有時我們很愛看的相關係數矩陣。

In [80]:
df.corr()

Unnamed: 0,國文,英文,數學,自然,社會
國文,1.0,0.160158,-0.310899,-0.110236,-0.028421
英文,0.160158,1.0,0.025656,0.113929,-0.063512
數學,-0.310899,0.025656,1.0,0.014371,0.041651
自然,-0.110236,0.113929,0.014371,1.0,-0.156594
社會,-0.028421,-0.063512,0.041651,-0.156594,1.0


只算兩科間的相關係數當然也可以。

## 4 增加一行

### 【技巧】

我們增加一行, 加入總級分。

In [120]:
total=df.sum(axis=1)
df.insert(6,'Total',total)
print(df)

     姓名  國文  英文  數學  自然  社會  Total
0   劉俊安   9  10  15  10  13     57
1   胡玉華  10  10  10   8   9     47
2   黃淑婷  13  15   8  11  14     61
3   陳上紫  10  10   8   9  14     51
4   崔靜成  13  12  14  12  13     64
..  ...  ..  ..  ..  ..  ..    ...
95  蔡佳燕   9  10   9  13  14     55
96  吳筱婷   8  10  14  10  15     57
97  陳家銘  14   9  11   8  12     54
98  李明威  15   9   8   9  15     56
99  農揚勇   9  11  12  12  10     54

[100 rows x 7 columns]


In [121]:
print(df)

     姓名  國文  英文  數學  自然  社會  Total
0   劉俊安   9  10  15  10  13     57
1   胡玉華  10  10  10   8   9     47
2   黃淑婷  13  15   8  11  14     61
3   陳上紫  10  10   8   9  14     51
4   崔靜成  13  12  14  12  13     64
..  ...  ..  ..  ..  ..  ..    ...
95  蔡佳燕   9  10   9  13  14     55
96  吳筱婷   8  10  14  10  15     57
97  陳家銘  14   9  11   8  12     54
98  李明威  15   9   8   9  15     56
99  農揚勇   9  11  12  12  10     54

[100 rows x 7 columns]


### 【技巧】

有計算的當然也可以的。

## 5 排序和 index 重設

### 【重點】排序的方法

我們依總級分來排序。

In [50]:
df.sort_values(by='Total')

Unnamed: 0,姓名,國文,英文,數學,自然,社會,Total
18,梁慧君,9,8,8,8,12,45
7,林金鳳,8,9,10,10,8,45
1,胡玉華,10,10,10,8,9,47
32,林建亨,9,11,8,8,11,47
93,李曼夢,11,9,11,8,8,47
...,...,...,...,...,...,...,...
64,俞志峰,9,14,13,14,15,65
54,陳怡潔,15,15,9,15,11,65
57,胡淳茜,12,15,14,13,11,65
12,李正偉,11,15,11,14,15,66


###【重點】排序的方法
加權分最高, 同分才看總級分

In [95]:
weight = [1.5,1.5,1.5,1,1]
df1 = weight* df[['國文','英文','數學','自然','社會']]
weights= df1.sum(axis=1)
weights
df.insert(7,'總級分',weights)
print(df)

     姓名  國文  英文  數學  自然  社會  Total   總級分
0   劉俊安   9  10  15  10  13     57  74.0
1   胡玉華  10  10  10   8   9     47  62.0
2   黃淑婷  13  15   8  11  14     61  79.0
3   陳上紫  10  10   8   9  14     51  65.0
4   崔靜成  13  12  14  12  13     64  83.5
..  ...  ..  ..  ..  ..  ..    ...   ...
95  蔡佳燕   9  10   9  13  14     55  69.0
96  吳筱婷   8  10  14  10  15     57  73.0
97  陳家銘  14   9  11   8  12     54  71.0
98  李明威  15   9   8   9  15     56  72.0
99  農揚勇   9  11  12  12  10     54  70.0

[100 rows x 8 columns]


In [96]:
df.sort_values('總級分')

Unnamed: 0,姓名,國文,英文,數學,自然,社會,Total,總級分
18,梁慧君,9,8,8,8,12,45,57.5
7,林金鳳,8,9,10,10,8,45,58.5
32,林建亨,9,11,8,8,11,47,61.0
1,胡玉華,10,10,10,8,9,47,62.0
93,李曼夢,11,9,11,8,8,47,62.5
...,...,...,...,...,...,...,...,...
54,陳怡潔,15,15,9,15,11,65,84.5
25,蔡亦瑄,13,13,14,13,12,65,85.0
57,胡淳茜,12,15,14,13,11,65,85.5
48,陳怡婷,15,14,12,9,15,65,85.5


### 【重點】重設 index

In [160]:
df1 = df.copy()
df1.index=df1['姓名']
del df1['姓名']

## 6 篩出我們要的資料

基本上和 NumPy 的 array 篩法很像。

### 【重點】

找出數學滿級分同學。

In [161]:
df1.sort_values('數學')
Math15 = df1['數學']==15
Math15[Math15==True]

姓名
劉俊安    True
陳竹伯    True
詹威德    True
曾怡君    True
段冠廷    True
芮秋辛    True
林哲法    True
葉儀依    True
吳志遠    True
周育霖    True
李士賢    True
張雅彬    True
胡勝傑    True
Name: 數學, dtype: bool

### 【重點】

找出數學和英文都滿級分的同學。要注意 `and` 要用 `&`, `or` 要用 `|`。每個條件一定要加弧號。

In [158]:
df1[['數學','英文']]
result= (df1['數學']==15)&(df1['英文']==15)
result[result == True]

姓名
吳志遠    True
dtype: bool

## 7 刪除一行或一列

### 【重點】刪掉一行

我們來刪掉總級分的那行。

In [123]:
del df['Total']
df

Unnamed: 0,姓名,國文,英文,數學,自然,社會
0,劉俊安,9,10,15,10,13
1,胡玉華,10,10,10,8,9
2,黃淑婷,13,15,8,11,14
3,陳上紫,10,10,8,9,14
4,崔靜成,13,12,14,12,13
...,...,...,...,...,...,...
95,蔡佳燕,9,10,9,13,14
96,吳筱婷,8,10,14,10,15
97,陳家銘,14,9,11,8,12
98,李明威,15,9,8,9,15


### 【重點】改變原有的 DataFrame

我們會發現 `pandas` 很多動作都沒有更改原有的 DataFrame, 真的要改要加入

    inplace=True

### 【重點】刪掉一列

刪掉列就是指定要刪去的 index。

In [172]:
df2 = df1.copy()
df3 = df2.drop(['劉俊安','胡玉華'])
print(df3)

     國文  英文  數學  自然  社會
姓名                     
黃淑婷  13  15   8  11  14
陳上紫  10  10   8   9  14
崔靜成  13  12  14  12  13
張雅岳  13  12  12  12   8
梁俊翔  11  13  10  10  14
..   ..  ..  ..  ..  ..
蔡佳燕   9  10   9  13  14
吳筱婷   8  10  14  10  15
陳家銘  14   9  11   8  12
李明威  15   9   8   9  15
農揚勇   9  11  12  12  10

[98 rows x 5 columns]


### 【重點】刪掉一列

通常刪掉符合條件的比較合理 (注意是找到要刪掉的部份, 再找出相對的 index)。

## 8 真實股價資料

有個從 `Pandas` 獨立出來的套件叫 `pandas-datareader`, 幾經波折, 先是 Yahoo! 的財務資料不能用, 後來又是 Google 的資料不能用, 不過至少現在看來 Yahoo! 還可以使用。

安裝 `pandas-datareader` 就標準 `conda` 安裝:

    conda install pandas-datareader
    
如果裝過, 但很久沒更新就用:

    conda update pandas-datareader

### 【例子】 分析 Apple 股價

In [176]:
#import pandas_datareader as pdr
#df4 = pdr.get_data_yahoo('AAPL')

ModuleNotFoundError: No module named 'pandas_datareader'

In [177]:
# 為防止網路有問題, 我們把這個檔案以 aapl.csv 存起來, 可以這樣讀入。
df4 = pd.read_csv('data/aapl.csv', index_col="Date")

In [178]:
df4

Unnamed: 0_level_0,Open,High,Low,Close,Adj Close,Volume
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2009-12-31,30.447144,30.478571,30.080000,30.104286,26.986492,88102700
2010-01-04,30.490000,30.642857,30.340000,30.572857,27.406532,123432400
2010-01-05,30.657143,30.798571,30.464285,30.625713,27.453915,150476200
2010-01-06,30.625713,30.747143,30.107143,30.138571,27.017223,138040000
2010-01-07,30.250000,30.285715,29.864286,30.082857,26.967278,119282800
...,...,...,...,...,...,...
2017-12-04,172.479996,172.619995,169.630005,169.800003,169.800003,32542400
2017-12-05,169.059998,171.520004,168.399994,169.639999,169.639999,27350200
2017-12-06,167.500000,170.199997,166.460007,169.009995,169.009995,28560000
2017-12-07,169.029999,170.440002,168.910004,169.320007,169.320007,25673300


#### 只要最後 300 個交易日!

In [181]:
df4.tail(300)

Unnamed: 0_level_0,Open,High,Low,Close,Adj Close,Volume
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2016-10-03,112.709999,113.050003,112.279999,112.519997,110.173546,21701800
2016-10-04,113.059998,114.309998,112.629997,113.000000,110.643539,29736800
2016-10-05,113.400002,113.660004,112.690002,113.050003,110.692505,21453100
2016-10-06,113.699997,114.339996,113.129997,113.889999,111.514984,28779300
2016-10-07,114.309998,114.559998,113.510002,114.059998,111.681435,24358400
...,...,...,...,...,...,...
2017-12-04,172.479996,172.619995,169.630005,169.800003,169.800003,32542400
2017-12-05,169.059998,171.520004,168.399994,169.639999,169.639999,27350200
2017-12-06,167.500000,170.199997,166.460007,169.009995,169.009995,28560000
2017-12-07,169.029999,170.440002,168.910004,169.320007,169.320007,25673300


#### 20 日的移動平均

In [187]:
df5=df4.tail(20)
df5.mean(axis=0)

Open         1.717145e+02
High         1.727080e+02
Low          1.703365e+02
Close        1.715020e+02
Adj Close    1.715020e+02
Volume       2.650063e+07
dtype: float64

#### 20 日和 60 日的移動平均

In [None]:
df.Close.plot(legend=True)
df.Close.rolling(20).mean().plot(label="$MA_{20}$",legend=True)
df.Close.rolling(60).mean().plot(label="$MA_{60}$",legend=True)

#### 準備做預測

我們用個非常天真的模型...

![天真股票模型](images/naive.png)

網路上說這是線性的 (可能嗎)!


哦, 真的有點像線性的, 我們之後用線性迴歸試試看。

## 9 手工打造一個 DataFrame*

有時我們用手工打造一個簡單的 DataFrame, 可以更理解整個結構。其實很容易, 一個 DataFrame 基本上就包含兩個主要部份:

* 資料本身: 通常一個二維陣列 (矩陣)
* 行、列的名稱

我們來個簡單的小例子。

In [189]:
mydata = np.random.randn(4,3)

In [190]:
mydata

array([[ 1.19955861, -0.25204577,  0.97869188],
       [-1.62950226, -1.59260419,  1.69556168],
       [-1.28967904, -1.05298585,  1.02472868],
       [ 0.9050028 ,  0.75267115, -0.99782128]])

把行列的名字放進去, 就成一個 DataFrame。我們列的部份先讓 Python 自己產生。

In [196]:
df6 = pd.DataFrame(mydata, columns=list("ABC"))

In [202]:
df6

Unnamed: 0,A,B,C
0,1.199559,-0.252046,0.978692
1,-1.629502,-1.592604,1.695562
2,-1.289679,-1.052986,1.024729
3,0.905003,0.752671,-0.997821


#### 兩個表格上下貼起來

我們再來生一個 DataFrame, 再「貼」起來。

In [198]:
df7 = pd.DataFrame(np.random.randn(3,3), columns=list("ABC"))

In [206]:
print(df6)
print(df7)

          A         B         C
0  1.199559 -0.252046  0.978692
1 -1.629502 -1.592604  1.695562
2 -1.289679 -1.052986  1.024729
3  0.905003  0.752671 -0.997821
          A         B         C
0  0.411549 -0.074281 -0.785182
1 -1.578490  1.039592  0.003601
2  1.602247 -0.639308  1.258780


In [210]:
df8=pd.concat([df6,df7])
df8

Unnamed: 0,A,B,C
0,1.199559,-0.252046,0.978692
1,-1.629502,-1.592604,1.695562
2,-1.289679,-1.052986,1.024729
3,0.905003,0.752671,-0.997821
0,0.411549,-0.074281,-0.785182
1,-1.57849,1.039592,0.003601
2,1.602247,-0.639308,1.25878


In [211]:
df8.reset_index(drop=True, inplace=True)
df8

Unnamed: 0,A,B,C
0,1.199559,-0.252046,0.978692
1,-1.629502,-1.592604,1.695562
2,-1.289679,-1.052986,1.024729
3,0.905003,0.752671,-0.997821
4,0.411549,-0.074281,-0.785182
5,-1.57849,1.039592,0.003601
6,1.602247,-0.639308,1.25878


前面我們弄得亂七八糟的 index 重設一下。

#### 横向的貼

In [275]:
df8.T

Unnamed: 0,0,1,2,3,4,5,6
A,1.199559,-1.629502,-1.289679,0.905003,0.411549,-1.57849,1.602247
B,-0.252046,-1.592604,-1.052986,0.752671,-0.074281,1.039592,-0.639308
C,0.978692,1.695562,1.024729,-0.997821,-0.785182,0.003601,1.25878


等等, 這大小好像不太對也可以嗎? 答案是可以的!

#### 大一點的例子

我們來做前面「假的」學測資料。首先要有「假的」同學名單, 如果有興趣產生很多名字, 可以用這個服務。

[中文姓名產生器](http://www.richyli.com/name/index.asp)

In [251]:
df_grades = pd.DataFrame(np.random.randint(6,16,(100,5)),
                        columns=['國文','英文','數學','社會','自然'])
df_grades

Unnamed: 0,國文,英文,數學,社會,自然
0,6,13,7,12,7
1,8,9,9,11,6
2,7,7,6,6,8
3,6,7,13,12,8
4,7,10,8,8,11
...,...,...,...,...,...
95,13,12,6,8,12
96,15,8,6,13,12
97,15,14,8,12,11
98,8,13,15,14,14


In [272]:
students = pd.read_csv("data/students.csv", sep=" ")
print(students)

     姓名
0   李祐寶
1   吳珮瑜
2   李珮伯
3   蔡淑萍
4   屈凡蘋
..  ...
95  張宜臻
96  戴梅星
97  王怡君
98  李宜諭
99  王舜胤

[100 rows x 1 columns]


In [273]:
df_grades.insert(0, "姓名", students)
df_grades

Unnamed: 0,姓名,國文,英文,數學,社會,自然
0,李祐寶,6,13,7,12,7
1,吳珮瑜,8,9,9,11,6
2,李珮伯,7,7,6,6,8
3,蔡淑萍,6,7,13,12,8
4,屈凡蘋,7,10,8,8,11
...,...,...,...,...,...,...
95,張宜臻,13,12,6,8,12
96,戴梅星,15,8,6,13,12
97,王怡君,15,14,8,12,11
98,李宜諭,8,13,15,14,14
