In [1]:
%matplotlib inline
import numpy as np
import matplotlib.pyplot as plt

## Pandas簡介
這是資料分析最重要的套件之一，其中兩個最常見也是最重要的資料型態是
1. series    (類似list)
2. dataframe (excel中的試算表)

In [2]:
import pandas as pd #匯入pandas套件

## 匯入資料利用Pandas進行資料分析
- 確認資料夾中檔案 `^GSPC.csv`
- 讀取`csv`檔：`pd.read_csv`
- 確認讀進去的資料型態
- 初步檢查資料內容: `data.head()`;`data.tail()`


In [None]:
%ls 
#魔術指令，查詢資料夾的所有資料

### 股價資料獲取：[Yahoo財經](https://finance.yahoo.com/)
1. 輸入股票代碼 (例如：^GSPC, AAPL, IBM)
2. 選擇時間範圍
3. 下載(`Download`)檔案(`.csv`)
4. 資料存放在同一資料夾
5. 匯入資料 (`pd.read_csv("檔案名稱")`)

In [3]:
data = pd.read_csv("^GSPC.csv")
data.tail()

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
246,2018-10-15,2763.830078,2775.98999,2749.030029,2750.790039,2750.790039,3300140000
247,2018-10-16,2767.050049,2813.459961,2766.909912,2809.919922,2809.919922,3428340000
248,2018-10-17,2811.669922,2816.939941,2781.810059,2809.209961,2809.209961,3321710000
249,2018-10-18,2802.0,2806.040039,2755.179932,2768.780029,2768.780029,3616440000
250,2018-10-19,2775.659912,2797.77002,2760.27002,2767.780029,2767.780029,3566490000


array(['2017-10-23', '2017-10-24', '2017-10-25', '2017-10-26',
       '2017-10-27', '2017-10-30', '2017-10-31', '2017-11-01',
       '2017-11-02', '2017-11-03', '2017-11-06', '2017-11-07',
       '2017-11-08', '2017-11-09', '2017-11-10', '2017-11-13',
       '2017-11-14', '2017-11-15', '2017-11-16', '2017-11-17',
       '2017-11-20', '2017-11-21', '2017-11-22', '2017-11-24',
       '2017-11-27', '2017-11-28', '2017-11-29', '2017-11-30',
       '2017-12-01', '2017-12-04', '2017-12-05', '2017-12-06',
       '2017-12-07', '2017-12-08', '2017-12-11', '2017-12-12',
       '2017-12-13', '2017-12-14', '2017-12-15', '2017-12-18',
       '2017-12-19', '2017-12-20', '2017-12-21', '2017-12-22',
       '2017-12-26', '2017-12-27', '2017-12-28', '2017-12-29',
       '2018-01-02', '2018-01-03', '2018-01-04', '2018-01-05',
       '2018-01-08', '2018-01-09', '2018-01-10', '2018-01-11',
       '2018-01-12', '2018-01-16', '2018-01-17', '2018-01-18',
       '2018-01-19', '2018-01-22', '2018-01-23', '2018-

### 列出檔案內容 (`!type`)
- 若是在Unix系統，則輸入`!cat`

In [None]:
# 列出檔案內容
!type MSFT.csv

In [None]:
data.head(5) #只列出前5項

***若只想檢查某欄位的資料***

In [None]:
data["Adj Close"].head()

In [None]:
data.Volume.head() 

## 基本敘述統計量
- 平均數 `mean`
- 標準差 `std`
- 偏態 `skew`
- 峰態 `kurt`
- 以上所有 `describe`

In [None]:
# 將資料抽出一列就會變成numpy.ndarray
price = data.Close.values

In [None]:
type(price)

In [None]:
price[:5]

In [None]:
data.mean() #所有的各自平均

In [None]:
data.std() #所有科目的各自標準差

In [None]:
data.describe()  

### 相關係數 (`corr`)
- `data.corr()` 相關係數矩陣
- `data.Volume.corr(data.Close)` 指定兩個變數的相關係數

In [None]:
data.corr()

In [None]:
data.Volume.corr(data.Close) 

### 增加新欄位 `data['XXX'] = ...`
- 差分 (`.diff(1)`)：後項減去前項
- 行加總 `sum(0)` or 列加總 `sum(1)` 

In [None]:
# 同時間計算
data["weighted price"] = data.Open*0.5 + data.Close*0.5

In [None]:
# 跨時間計算
data["return"] = data["Close"].diff(1)/data["Close"]

In [None]:
data

In [None]:
test = pd.DataFrame(np.random.randn(100,4))

In [None]:
test.tail()

In [None]:
test.sum(0)

In [None]:
test.sum(1)

### 刪除欄位 
- `data.drop('XXX', axis=1)` 刪除行變數XXX

In [None]:
data = data.drop("weighted price",axis=1)

In [None]:
data.head()

### 練習
1. 下載蘋果公司(AAPL)過去一年的每日股價
2. 將資料匯入 (`pd.read_csv()`)
3. 計算這家公司的平均數、標準差、最小值與最大值、第一四分位數、第三四分位數 (`describe()`)。
4. 計算這家公司的交易量與收盤價的相關係數 (`corr`)。
5. 計算蘋果的日報酬率為何？(`增加欄位`)

## Pandas作圖
- 趨勢圖 `plot`
- 直方圖 `hist`

In [None]:
data['Adj Close'].plot() 

In [None]:
data.Close.hist(bins=15) #直方圖 bins:區間個數

### 練習
1. 畫出S&P500大盤(`^GSPC`)的價格(收盤價`Close`)走勢圖
2. 畫出S&P500大盤的日報酬率走勢圖
3. 畫出台灣加權指數(`^TWII`)的價格走勢圖

## Pandas資料排序
- 按照報酬率排序
- 由大到小排序
- 只列出前10項

In [None]:
data.sort_values(by="return", ascending=False).head(10)

- 針對兩個項目排序 

In [None]:
data.sort_values(by=["return", "Volume"], ascending=False).head(10)

### 生成 DataFrame

In [None]:
test_data = np.random.randn(100,4)

In [None]:
test_data

In [None]:
data1 = pd.DataFrame(test_data, columns = ['A','B','C','D'])

In [None]:
data1.head()

In [None]:
data2 = pd.DataFrame(np.random.randn(100,4), columns=list("ABCD"))

In [None]:
data2.head()

### 合併資料 (`concat`)
- 縱向合併 (`axis = 0`) 日
- 橫向合併 (`axis = 1`) 口口

In [None]:
data3 = pd.concat([data1, data2], axis=0)

In [None]:
data3

In [None]:
data4 = pd.concat([data1, data2], axis=1)

In [None]:
data4

## Pandas學習資源
- [Pandas作者問答集整理](https://github.com/justmarkham/pandas-videos)
- 網頁中包含許多實際資料檔案
- 我們挑選UFO的資料(bit.ly/uforeports)

In [None]:
data_ufo = pd.read_csv("http://bit.ly/uforeports") #可以直接放網址，只要網址是直接連結csv檔案

In [None]:
data_ufo

## 資料分析目的
- 在哪裡會最容易看到UFO

### 資料分組 (`groupby`)
- 可指定分組類別
- 計算次數可用`.count()`

In [None]:
data_ufo_state = data_ufo.groupby("State").count()

In [None]:
data_ufo_state

### 資料排序 (`.sort_values()`)
- `by =` 排序依據變數名稱
- `ascending =` 由小到大(`True`) 由大到小(`False`)
- 若要把結果直接取代變數 `inplace=True`

In [None]:
data_ufo_state.sort_values(by="Time", ascending=False)

In [None]:
data_ufo_state.sort_values(by="Time", ascending=False, inplace=True)

In [None]:
data_ufo_state.head(10)

- 畫出長條圖 `.plot(kind='bar')`

In [None]:
data_ufo_state[:10].Time.plot(kind='bar') #長條圖

## Pandas的定位法
- 先生成4組獨立隨機變數來自於標準常態分佈
- 分別命名為ABCD

In [None]:
data = pd.DataFrame(np.random.randn(100,4),
                 index=list(range(100)),
                 columns=list("ABCD"))

In [None]:
data.head()

- 想要找出滿足某些條件的觀測值

In [None]:
data[data.B>0].head()

In [None]:
data[data.B>0]["C"] = 0

In [None]:
data.head() #並沒有完成

- 定位函數 `loc`

In [None]:
data.loc[2:3, "B":"C"]

In [None]:
data.loc[2, "B"]

In [None]:
data.loc[2, "B"] = 1

In [None]:
data.loc[2,"B"]

In [None]:
data.loc[data.B>0, "C"] = 0

In [None]:
data.head()