# Introduction to Python, data analytics and financial app development

<img src="https://raw.githubusercontent.com/dummytutorialtt/python101/master/demo.gif" style="width=100;"/>

## Python 介紹

Python 是一種 `高級程式` 設計語言，屬於`通用型程式設計語言`。Python的設計強調簡潔的語法（尤其是使用空格縮進劃分代碼塊，而非使用大括弧或者關鍵字）。相比於C++或Java，Python讓開發者能夠用更少的代碼表達想法。不管是小型還是大型程式，該語言都試圖讓程式的結構清晰明瞭。

`高級程式` : 以人類的日常語言為基礎的一種編程語言, 低階語言的例子有 C, Java

`通用型程式設計語言`　：可以編程不同的應用程式，例如數據分析，人工智能，計量金融回測，軟件設計等等

source : https://zh.wikipedia.org/wiki/Python

## Jupyter Notebook 介紹

Jupyter Notebook 是一個線上 `Python` 程式設計環境，每行的代碼在敲擊 `Shift + Enter` 後單獨執行，可以將程式開發的過程連同程式碼、說明文字及圖示、運算結果，甚至是影片都完整的記錄下來，還可以重覆編輯、修改和執行。

source : http://jupyter-notebook.readthedocs.io/en/stable/examples/Notebook/What%20is%20the%20Jupyter%20Notebook.html

example :http://nbviewer.jupyter.org/github/nborwankar/LearnDataScience/blob/master/notebooks/A1.%20Linear%20Regression%20-%20Overview.ipynb

Getting start

Official introduction : https://nbviewer.jupyter.org/github/jupyter/notebook/blob/master/docs/source/examples/Notebook/Running%20Code.ipynb#Running-Code

Jupyter notebook : https://www.slideshare.net/mutolisp/jupyter

不少人學了基本語法之後，一直無法進入資料分析的領域。今天我們會介紹 Python 資料分析重要套件

目錄

* Part 1 - 基本語法 / Python syntax and data types 

* - 簡單資料類型 Simple Data Type : Int, Float, String
* - 複雜資料類型 Data Structure : List, Dictionary
* - 函數 function 與 流程控制 control flow


* Part 2 - 資料分析重要套件 / Python open source library

* - 表格資料整理 Pandas
* - 互動用戶介面 Ipywidget


* Part 3 - 彭博計量金融工具 Bloomberg Exclusive library

* - 彭博數據庫 BQL
* - 回測與金融分析工具 bqfactor, bq
* - 互動板面與圖像 bqwidget, bqplot, bqviz


* Part 4 - Capstone Project

* - 盈餘意外行業分析

## 編程儲存格 (Code Cell) 裡面可以輸入程式碼

使用 `Shift-Enter` 去運行 code cell, 或者從功能表下方按 <button class='btn btn-default btn-xs'><i class="icon-step-forward fa fa-step-forward"></i></button> :

使用 `Alt-Enter` 去運行並插入一個新的cell :

使用 `B` 去直接插入一個新的cell :

In [None]:
a = 10

In [None]:
print(a)

#### 如果發現系統錯誤, 需要重新開啟Notebook, 可以使用"Kernal -> Restart and clear output"

## Part 1 - Python syntax and data types

基本 Hello World

* 使用 # Comment

```python
# This is a comment
print("Hi")
```

* Python 在不同的地方都需要縮進 (Indentation)

*Try this:*

```python
run = True
if run:
print("Running")
else:
print("Not Running")
```

In [None]:
# 按 TAB 把 code 行縮進
run = True
if run:
print("Running")
else:
print("Not Running")

### 資料類型 Data Type 　

<img src="https://raw.githubusercontent.com/dummytutorialtt/python101/master/built_in_types.png" style="width=600px;"/>

### Numbers 數字 ###

* `int` 和 `float`
* 今天不會談到: `octal`, `heximal`, `binary`, `complex`, `Decimal`, `Fraction`

Integers　沒有小數
```python
54
-13
```

No size limit in Python:
```python
999 ** 100
```

Floats 有小數 : 以下全都是 float. *Try this:*

```python
1.23
1.
3.14e-10
4E210
4.0e+210
```

可以使用 type() 去檢查資料類型. *Try this:*

```python
print(type(555))
print(type(-45.8787))
```

### Calculation 計算 ###
```python
2 * 5 + 3 / 4 ** 8 - 1

5/2

x = 7
y = 4

x < y
x >= y
x == y

z = x + y
z += x
z /= y
```

### String 文字 ###

你可以使用單引號 ' ' 或者是雙引號 "" 去定義文字

```python
s = "I am great"
```

特別符號: ```\n``` : 下一行, ```\t``` : 產生 Tab 的空間, 只打 ```\``` 可以避免下個符號變成特別符號 (escape).

```python
a = "First Line\nSecond Line\nFirst col\tSecond Col"
print(a)
```

連接文字

```python
"hello" + "world"
```

重複文字
```python
"(^_^)" * 5
```

*練習:*

使用 1 個 `print` 語句, 把下面的文字顯示出來 (提示: 有 8 個 "-") :

`
+-------+
HELLO
+-------+
`

In [None]:
#======練習 (把你的編碼填在這裡)======
bar = "+" + "-" * 8 + "+"
print(bar + "\nHELLO\n" + bar)
#======練習 (把你的編碼填在這裡)======

閱讀文字

Python 的文字都是序列 (sequence).

len() 元素長度

```python
print(len('abc'))

for single_char in 'abc':
    print(single_char)
```

所以, 程序員可以使用索引 / 範圍 (indexing / slicing) 去取得一個文字中的部份的字符

在電腦科學世界，index 通常是從 0 開始，-1 從結尾數回來

<img src="https://github.com/dummytutorialtt/python101/blob/master/sequence.png?raw=true" style="width:600px;" />

```python
ticker = '2330 TT Equity'

ticker[0]
ticker[-1] == ticker[len(ticker) - 1]

ticker[:]
ticker[2:]
ticker[:5]
ticker[5:7]
```

*練習:*

使用 1 個文字索引, 把股票的國家代碼顯示出來 :

`
TT
`

In [None]:
#======練習 (把你的編碼填在這裡)======

#======練習 (把你的編碼填在這裡)======

格式化 (Format) 函数

用於串連字符


```python
analyst_name = "Wong"
company = "2330 TT Equity"

headline = "Our analyst {} has published a report for the company {}".format(analyst_name, company)
headline = "Our analyst {name} has published a report for the company {ticker}".format(name = analyst_name, ticker = company)
```

### 複雜資料類型 - 數據結構 (Data Structure)

數據結構代表存儲、組織數據的方式, 我們通常會使用 Dict 和 List

### 串列 list ###

串列是一連串 **順序性** 的元素組成，我們可以新增、讀取、刪除和修改串列，串列中可以有重複的元素。

**順序性** : 串列中元素的排列會保存, 程序員可以使用索引 (Index) 去取得當中的元素


** 建立串列 **

串列可以透過中括號或是使用 list 關鍵字來創建，裡面元素由逗號分隔

```python
my_list = list()
my_list = []
my_list = [1, 2, 3]
```

使用索引 (index) 和範圍 (slice) 來取得元素

```python
ticker = ['2330 TT Equity', 'FB US Equity', '700 HK Equity']
ticker[0] # 2330 TT Equity
ticker[1] # FB US Equity
ticker[-1] # 700 HK Equity
```

append 元素到串列最後

```python
ticker = ['2330 TT Equity', 'FB US Equity', '700 HK Equity']
ticker.append('6505 TT Equity') # 加6505 TT Equity 到最後
```

insert 插入元素到位置上

```python
ticker = ['2330 TT Equity', 'FB US Equity', '700 HK Equity']
ticker.insert(0, '6505 TT Equity') # ['6505 TT Equity', '2330 TT Equity', 'FB US Equity', '700 HK Equity']
```

del 刪除特定 index 值

```python
ticker = ['2330 TT Equity', 'FB US Equity', '700 HK Equity']
del ticker[-1] # 餘下 ['2330 TT Equity', 'FB US Equity']
```

len() 元素長度

```python
ticker = ['2330 TT Equity', 'FB US Equity', '700 HK Equity']
len(ticker) # 3
```

*練習:*

現在有 ```ccy = ['EUR', 'JPY', 'GBP', 'CAD', 'USD']``` :

- 把最後一項值改成'TWD'
- 增加 'AUD' 到最後
- 把 'JPY' 刪除

In [None]:
ccy = ['EUR', 'JPY', 'GBP', 'CAD', 'USD']
#======練習 (把你的編碼填在這裡)======

#======練習 (把你的編碼填在這裡)======

### 字典 dict ###

是一個以 ` {'key':'value'} `, "鍵" 對應 "值" 的關聯式陣列. 只要用戶輸入鍵, 字典就會直接回報相對應的值

- 每個鍵必須獨一無二, 但是值可以重複
- 字典沒有順序性, 就算程序員根據順序輸入不同數值, 這個順序並不會被保留

創建 dict : 使用大括弧或者用使 dict() 函数

```python
user_infor = {
    'name' : 'Tim',
    'age' : 23,
    'weight' : 30.05,
}

user_infor = dict([('name','Tim'),('age',23),('weight',30.05)])
```

新增和取值

```python
user_infor['job'] = 'Data Analyst' # 加入 {'job' : 'data analyst'}

user_infor['name'] # Tim
```

取代現有值

```python
user_infor['name'] = 'Jack' # Tim 會轉為 Jack
```

keys() 取得所有鍵、values() 取得所有值、items() 取得所有鍵值對

```python
user_infor = {
    'name' : 'Tim',
    'age' : 23,
    'weight' : 30.05,
}

user_infor.keys() # ['name','age','weight']
user_infor.values() # ['Tim', 23, 30.05]
user_infor.items() # [('name','Tim'),('age',23),('weight',30.05)]
```

### 流程控制 Control Flow ###

** 1. if...elif...else... **

```python
run = True # 或者是 False
tickers = ['ccc']

if not run: # 如果 run 不是 True 的話
    print('沒有在run')

if tickers: # 如果 tickers 不是空的話
    print('We have {} items.'.format(len(tickers)))
else: # 其他的可能性
    print('No ticker given.')
```

** 2. For ... in ... **

```python
ticker = ['2330 TT Equity', 'FB US Equity', '700 HK Equity']
for name in ticker: # 每一個在ticker 內的元素
    country = name[-9:-7]
    print("國家: ", country)
    if name == '2330 TT Equity':
        print(name, ' is in the search')
```

** 3. While ... **

使用 `break` 去停止 while loop
使用 `pass` 去跳過現在的程序, 進入下一個迴圈

```python
k=0
l=[]
while True:
    k += 1
    if k > 10: # 如果 K > 10, while loop 將會完結
        break
    if k % 2 == 0: # 如果 K 除以 2 等於 0, 將會直接進入下一個迴圈, 不會把數字加到 list 之中
        pass
    l.append(k)
    
```

<img src="http://www.runoob.com/wp-content/uploads/2013/11/loop-over-python-list-animation.gif" style="width:300px;" />


### 函數 Function ###

定義函數使用關鍵字 (keyword) def ，其後空一格接函數名稱與小括弧，小括弧用來放參數，函數可以有參數 (parameter) 也可以沒有參數，沒有參數的函數的小括弧留空，另外函數可用 return 設定回傳值 (return value) 。

```python
def send_ten():
    return 10
    
get_ten_in_this_var = send_ten()

def my_useless_function(your_name):
    print("Your name is :", your_name)
    return your_name
    
my_name = my_useless_function('Jim')
```

函數常見的運用為重複性質的工作

*練習:*

設計一個函數, 這個函數會讀取一個 `ccy` 的参數,並進行分析

- 如果 `ccy` 為 'EUR' 的話, 回傳 'Europe'
- 如果 `ccy` 為 'USD' 的話, 回傳 'America'
- 如果 `ccy` 為 'CNY' 的話, 回傳 'China'


In [None]:
ccy = 'EUR'
#======練習 (把你的編碼填在這裡)======

#======練習 (把你的編碼填在這裡)======

Part 1 總結

- 了解 int, float, string
- 了解 list, dict
- 認識 print , format, type, len 函數
- 如果自己設計函數

了解更多 Python 基本程序

- https://docs.python.org.tw/3/

## Part 2 - Open source library 開放原始碼的套件

開放原始碼表示網路上的人都可以去修改和分享這個工具, 令始創者可以更快的去增加不同的功能和除錯

<img src="http://bigdata.black/wp-content/uploads/2016/05/ds_stack_tools.png" style="width:600px;" />

Python 開發者在完成開發一個工具後, 會在第三方的代碼發佈平臺公開程式 (比如 https://pypi.org) ,並讓別人下載並安裝

BQuant 除了Bloomberg 獨有的 Date API 和數據分析套件外, 還預先安裝了大部分有關於 Data Science 和 Machine Learning 的套件, 

- BQL : 取得 Bloomberg 的數據
- Bqplot : 設計金融圖表 
- Bqviz : 快速設計圖表 / 互動圖表


- Pandas
- Numpy
- Scipy
- Ipywidget
- Scikit-learn 等等

### 導入套件 Import  "package name"###

<img src="http://www.focusedsupport.com/blog/content/images/2016/04/python_ecosystem-1.png" style="width:400px;" />

```python
import numpy as np
import pandas as pd
import ipywidgets as ipw
```

### Pandas ###

Pandas = Python Data Analysis Library

Import Pandas (```pd``` 是 pandas 官方的縮寫, 可以令之後的程序更整潔)

```python
import numpy as np
import pandas as pd
```

在 Pandas 中主要有兩大資料結構：Series、DataFrame，

Series 類似於 Python 本身的 list 資料結構，不同的是每個元素有自己的 index（可以自己命名）

```python
s1 = pd.Series([1, 3, 5, np.nan, 6, 8])
print(s1)
```

跟 list 一樣, 使用索引 (index) 來取得元素
```python
print(s1[5])
```

Pandas DataFrame 類似 EXCEL 表格, 可以儲存不同的資料型別 (int, float, string ...)
```python
df = pd.read_csv("WorldCupMatches.csv")
df.head() # 展示首 5 個列
```

<img src="https://raw.githubusercontent.com/dummytutorialtt/python101/master/df_head.JPG" style="width:800px;" />



觀察資料型態、結構、內容值
```python
# 資料類型
print(df.dtypes) # 注意, 擁有 string 的欄的資料類型都是 object, 在 pandas 上 object 跟 string 對用戶來說非常類似

# 讀取某一列
one_col = df['Attendance'] # df['欄的名稱']

# 印出基本敘述統計數據
print(df.describe())
```

表格出現問題! 在欄 "Attendance"(觀看人數) 只有 850 列是有值, 但球賽場數是852, 有兩場比賽是缺乏了觀看人數的 !

處理遺失資料
```python
# 找出觀看人數的平均值, 填補'Attendance'中的空白值
mean_all_column = df.mean() # 以 series 傳回所有 column 的平均值
mean_attend = mean_all_column['Attendance'] # 再使用 index 內的名字去取 "Attendance" 的平均值
df['Attendance'].fillna(value = mean_attend, inplace = True) # Inplace = True 去表示我們會更新 df 這個變數中, Attendance 欄的數值

# 或者直接刪除沒有數據的列
df.dropna(inplace = True)
```

其他常用的統計數據函數
```python
dataframe.max()
dataframe.mean()
dataframe.medium()
dataframe.sum()
dataframe.cumsum() # 累計總和
dataframe.std() # 標準差
dataframe.count()
```

插入新的欄 / 新增資料 (1)


```python
# 簡單方法
df['Net Goal Difference'] = df['Home Team Goals'] - df['Away Team Goals'] # df['新欄的名字'] = ...
```

插入新的欄 / 新增資料 (2) : Apply() 函數

- 先設定一個 apply 函數, 這個函數會被應用在 Dataframe 裡的每一列, 並回傳結果
- 再使用 dataframe.apply() 去使用這個函數

```python
# 先訂立 apply 函數
def goal_more_than_5(x): # x 代表每一個列

    total_goal = x['Home Team Goals'] + x['Away Team Goals'] # 先計算每一個列的總入球量
    
    if total_goal > 5: # 假如入超過五球
        return True # 回傳 True
    else:
        return False # 回傳 False

df['Goal More Than 5'] = df.apply(goal_more_than_5) # df['新欄的名字'] = ...
```


繪圖
```python
# 把歷年觀看人數印出圖表
# 要先打這句, 圖才會直接顯示在網頁之中
%matplotlib inline 
df['Attendance'].plot()
```

樞紐分析表(Pivot Tables)
```python
# Data = 原始資料表, values = 值 / 會被整合的數據, index = 列標籤
pivot_df = pd.pivot_table(data = df, values="Home Team Goals", index="Home Team Name") 
```

輸出檔案
```python
pivot_df.to_csv("隊伍對決資料.csv")
```

*練習:*

使用世界杯數據的 Dataframe

- 制作樞紐分析表, 加總每一屆的觀看人數
- 使用 .plot 把每屆觀看總人數顯示出來

提示: 想不到的時候, 嘗試加一個 cell 並輸入 df.head() 去了解這個 dataframe

In [None]:
# 首先讓我們重新讀取 Excel 放入 df 這個變數裡
df = pd.read_csv("WorldCupMatches.csv")
#======練習 (把你的編碼填在這裡)======
# 先打 pivot table 的指令 (1 line of code)
attend_per_year = pd.pivot_table(data = df)

# 再使用 .plot (1 line of code)

#======練習 (把你的編碼填在這裡)======

了解更多 Pandas 基本程序

- http://pandas.pydata.org/pandas-docs/stable/10min.html

### Ipywidget 互動 ###

Ipywidget 可以讓開發者設計超炫的互動, 非常容易就可以展示一個互動的數據分析 Dashboard

```python
from ipywidgets import interact

def f(x):
    return(x)

interact(f, x=1)
```

所有的 widgets 都可以在 http://ipywidgets.readthedocs.io/en/latest/examples/Widget%20List.html 看到

把 ipywidget 套用到世界盃的分析吧!


```python
from ipywidgets import interact
import matplotlib.pyplot as plt

def f(x):
    country_selected = df[df['Home Team Name'] == x].copy() # 把選擇的球隊的列從 df 過濾出來
    pivot_show = pd.pivot_table(country_selected, values ='Attendance', index='Year') # 使用 pivot table 加總該國家每年的觀看人數
    
    plt.plot(pivot_show) # 制圖
    plt.show() # 並顯示出來
    
option = interact(f, x=df['Home Team Name'].unique()) # 最後把 interact 顯示出來
```

### Part 3 - 彭博計量金融工具 Bloomberg Exclusive library ###

這個部份會直接使用 BQuant 作為示範

### Part 4 - Capstone Project

使用 `stock_data_eps.csv` 找出行業平均盈餘意外