# Pandas 簡介

## Pandas 是 Python 裡面被用來作資料分析及整理最常用的套件。

### 這一份筆記主要說明以下重點：

* 資料結構及其基本操作
  - Series
  - DataFrame
* 網路資料存取
* 資料視覺化
* 資料分組及聚合

參考資料：

* [Python Data Analysis Library](http://pandas.pydata.org/)
* [Pandas Cookbook](http://pandas.pydata.org/pandas-docs/version/0.18.0/cookbook.html)
* [Pandas 入門介紹](https://github.com/Wei1234c/Introduction_to_Pandas)
* [Financial Time Series](https://github.com/yhilpisch/py4fi/blob/master/ipython3/06_Financial_Time_Series.ipynb)
* [Pandas API references](http://pandas.pydata.org/pandas-docs/stable/api.html#api-dataframe-stats)

In [None]:
import pandas as pd

pd.__version__

In [None]:
%matplotlib inline

import numpy as np

## Pandas 的資料結構

### Series

In [None]:
s = pd.Series([1, 2, 3, 4, 5])
s

#### Series 跟 ndarray 有什麼不同呢？

In [None]:
s.values

In [None]:
s.index

#### index 可以在創建 Series 時指定

In [None]:
s = pd.Series(range(5), index=list('abcde'))

In [None]:
s

#### index 也可以在創建完 Series 後指定

In [None]:
s.index = list('fghij')
s

#### 什麼是 reindex？

In [None]:
s.reindex(list('hijabcd'))

In [None]:
s

### DataFrame

In [None]:
data = np.random.randn(10, 4)

In [None]:
df = pd.DataFrame(data)
df

In [None]:
df.columns = ['No1', 'No2', 'No3', 'No4']
df

In [None]:
df.index = pd.date_range('2016-01-01', periods=10)
df

In [None]:
df.ix['2016-01-06']

In [None]:
df.drop(datetime(2016, 1, 3), inplace=True)
df

In [None]:
df.index=range(9)
df

In [None]:
df.ix[1]

In [None]:
df.drop(4)

## 使用 Pandas 作資料存取

### 這一部分包括底下幾個重點：

* read_csv() 的使用
* read_html() 的使用
* 如何抓取股市資訊？

底下練習一下將 [台灣證券交易所 - 加權股價指數歷史資料](http://www.tse.com.tw/ch/trading/indices/MI_5MINS_HIST/MI_5MINS_HIST.php#) 的資料轉成 DataFrame。

### 使用 read_csv() 讀取資料

參考連結：[pandas.read_csv](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html)

In [None]:
df = pd.read_csv("data/MI_5MINS_HIST10603.csv", encoding="Big5", header=1)

In [None]:
df

In [None]:
df.drop(df.index[len(df.index)-1], inplace=True)
df

### 使用 read_html() 讀取資料

參考連結：[pandas.read_html](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_html.html)

In [None]:
import requests
from bs4 import BeautifulSoup

In [None]:
r = requests.get("http://www.tse.com.tw/ch/trading/indices/MI_5MINS_HIST/MI_5MINS_HIST.php")
r.encoding = 'Big5'

In [None]:
soup = BeautifulSoup(r.text, "lxml")
tables = soup.select("table.board_trad")
tables

In [None]:
type(tables[0])

In [None]:
df_list = pd.read_html(str(tables[0]), header=1)

In [None]:
df_list[0]

### 使用 Pandas 讀取股價資訊

參考資料：[pandas-datareadre 說明文件](https://pandas-datareader.readthedocs.io/en/latest/)

In [None]:
import pandas_datareader.data as web
from datetime import datetime

In [None]:
df = web.DataReader("TSLA", 'yahoo', datetime(2016,1,1))
df['Close'].plot()

## 資料視覺化

Series 跟 DataFrame 都附帶有一個產生各類圖表的 plot()，預設的情況下，它會產生線形圖。

參考資料：[Pandas Plotting](http://pandas.pydata.org/pandas-docs/stable/visualization.html)

In [None]:
s = pd.Series(np.random.randn(10), index=np.arange(10))
s.plot()

In [None]:
s.plot(kind="bar")

In [None]:
df = pd.DataFrame(np.random.randn(10, 4), columns=list('ABCD'))
df.plot()

In [None]:
df.plot(kind='bar')

## 資料分組與聚合

In [None]:
data = np.random.randn(10, 4)

In [None]:
df = pd.DataFrame(data, columns=['No1', 'No2', 'No3', 'No4'])
df

In [None]:
df['Category'] = np.NaN
df

In [None]:
clist = ['C1'] * 3 + ['C2'] * 5 + ['C3'] * 2

In [None]:
df['Category'] = np.random.permutation(clist)

In [None]:
df

In [None]:
groups = df.groupby('Category')

In [None]:
groups

In [None]:
groups.mean()