# Pandas 簡介

## Pandas 是 Python 裡面被用來作資料分析及整理最常用的套件。

### 這一份筆記主要說明以下重點：

* 資料結構及其基本操作
  - Series
  - DataFrame
* 網路資料存取
* 資料視覺化

參考資料：

* [Python Data Analysis Library](http://pandas.pydata.org/)
* [Python for Data Analysis 隨書講義](https://github.com/wesm/pydata-book)
* [Financial Time Series](https://github.com/yhilpisch/py4fi/blob/master/ipython3/06_Financial_Time_Series.ipynb)

In [None]:
import pandas as pd

pd.__version__

In [None]:
%matplotlib inline
import numpy as np

## Pandas 的資料結構

### Series

In [None]:
s = pd.Series([1, 2, 3, 4, 5])
s

In [None]:
u = pd.Series([1, 2, 3, 4, 5])
u

In [None]:
s + u

#### Series 跟 ndarray 有什麼不同呢？

In [None]:
s.values

In [None]:
s.index

#### index 可以在創建 Series 時指定

In [None]:
s = pd.Series(range(5), index=list('abcde'))

In [None]:
s

In [None]:
u.index = list('bcdef')

In [None]:
u

In [None]:
s + u

#### index 也可以在創建完 Series 後指定

In [None]:
s.index = list('fghij')
s

#### 什麼是 reindex？

In [None]:
s.reindex(list('hijabcd'))

In [None]:
s

In [None]:
s.dtype

In [None]:
s.shape

In [None]:
s.ndim

In [None]:
s

In [None]:
s['i']

In [None]:
s['f':'h']

### DataFrame

In [None]:
data = np.random.randn(10, 4)

In [None]:
df = pd.DataFrame(data)
df

In [None]:
df.columns = ['No1', 'No2', 'No3', 'No4']
df

In [None]:
df.index = pd.date_range('2016-01-01', periods=10)
df

In [None]:
df.loc['2016-01-06']

In [None]:
df.loc['2016-01-06':'2016-01-08']

In [None]:
df.drop(pd.to_datetime("2016-01-03"), inplace=True)
df

In [None]:
from datetime import datetime
df.drop(datetime(2016, 1, 3), inplace=True)
df

In [None]:
df.index=range(9)
df

In [None]:
df.iloc[1]

In [None]:
df.drop(4)

In [None]:
df

In [None]:
df['No1']

In [None]:
df[['No1']]

In [None]:
df[['No1','No3']]

## 使用 Pandas 作資料存取

### 這一部分包括底下幾個重點：

* 使用 read_csv() 讀取 csv 資料
* 使用 read_html() 讀取 HTML 表格資料
* 使用 pandas-datareader 讀取股價歷史資料

### 使用 read_csv() 讀取資料

參考連結：[pandas.read_csv](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html)

In [None]:
url = "https://dts.twse.com.tw/opendata/t187ap03_L.csv"

In [None]:
df = pd.read_csv(url)

In [None]:
df.head()

### 使用 read_html() 讀取資料

參考連結：[pandas.read_html](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_html.html)

In [None]:
url = "https://www.pmi.org.tw/?p=5361"

In [None]:
dfs = pd.read_html(url)

In [None]:
dfs[0]

In [None]:
dfs[1]

### 使用 Pandas 讀取股價資訊

參考資料：[pandas-datareadre 說明文件](https://pandas-datareader.readthedocs.io/en/latest/)

In [None]:
import pandas_datareader.data as web

In [None]:
df = web.DataReader("TSLA", 'yahoo', "2018-01-01")
df.head()

In [None]:
df.tail()

In [None]:
df['Close'].plot()

In [None]:
df.info()

## 資料視覺化

Series 跟 DataFrame 都附帶有一個產生各類圖表的 plot()，預設的情況下，它會產生線形圖。

參考資料：[Pandas Plotting](http://pandas.pydata.org/pandas-docs/stable/visualization.html)

In [None]:
s = pd.Series(np.random.randn(10), index=np.arange(10))
s.plot()

In [None]:
s.plot(kind="bar")

In [None]:
df = pd.DataFrame(np.random.randn(10, 4), columns=list('ABCD'))
df.plot()

In [None]:
df.plot(kind='bar')