# Pandas 簡介
* Pandas 常搭配 NumPy 處理陣列與矩陣運算, 透過 SciPy 和 Matplotlib 可以提供數據分析與繪圖的功能
* DataFrame 是 Pandas 常見的資料結構, 可以處理 CSV 或 [Excel](http://pbpython.com/excel-pandas-comp.html) 試算表類型的資料
* The equivalent to a pandas DataFrame in Arrow is a Table. Both consist of a set of named columns of equal length. While pandas only supports flat columns, the Table also provides nested columns, thus it can represent more data than a DataFrame, so a full conversion is not always possible.
![Series vs DataFrame](img/series-dataframe.png)

# 最常見的起手式指令

In [None]:
import pandas as pd
import numpy as np

# NumPy 基本操作
* NumPy 名稱是 Numeric Python 的縮寫
* NumPy 支援 Array 型別和常見的科學計算功能, 內部運算採 C 語言最佳化的實作, 讓 NumPy 同時享有易讀和效能的兩大優勢
* 常見 Array 型別包括一維/二維/三維, 二維的 row 是橫向資料, 以 axis 0 代表, 二維的 column 是縱向資料, 以 axis 1 代表
* x.idxmin() x.idxmax() df['X'].ne(0) df.nsmallest(3, 'Points') df.nlargest() https://medium.com/@radecicdario/top-3-pandas-functions-you-dont-know-about-probably-5ae9e1c964c8
* 參考文件: [Python Numpy Array Tutorial](https://www.datacamp.com/community/tutorials/python-numpy-tutorial)
![NumPy Array](https://miro.medium.com/max/1440/1*Ikn1J6siiiCSk4ivYUhdgw.png)

## 最簡單的 Array 建立方式
* 注意: 資料型態要一致, 才能建立多維 Array

In [None]:
# 一維
ar1 = np.array([1, 2, 3])

type(ar1)

In [None]:
print(ar1[1], ar1[-1])

In [None]:
# 二維
ar2 = np.array([[1, 3, 5], [2, 4, 6]])

type(ar2)

In [None]:
print(ar2[0, 0], ar2[0, 1], ar2[1, 0])

## 讀取屬性值
* dtype: data type 組成元素的型態
* ndim: the number of dimensions 維度
* shape: the dimensions of the array 每一個維度的大小
* size: the number of elements 總元素數量 (shape 相乘)
* itemsize: element size in Bytes 每一個元素的大小 (ex: int16=>16/8=2 Bytes)

In [None]:
print(ar1.dtype)
print(ar2.ndim)

In [None]:
print(ar2.shape)
print(ar2.size)

In [None]:
print(ar1.itemsize)

## 讀取 Column

In [None]:
# 讀取第1欄資料
ar2[:,0]

## Arrary 基本運算
![Broadcast Example](https://i.stack.imgur.com/kzNxo.gif)
* 採取 Element-wise 針對每個元素進行運算方式, 或是 Broadcast 運算方式, 也就是元素維度一致或是其中一個 Array 是一維
* [sort()](https://www.tutorialspoint.com/numpy/numpy_sort_search_counting_functions.htm) [sort by column](https://stackoverflow.com/questions/2828059/sorting-arrays-in-numpy-by-column)

In [None]:
ar1 + 10

In [None]:
ar1 * 5

In [None]:
ar1 + 10 - ar1 * 5

In [None]:
ar1 * np.array([10**0, 10**1, 10**2, 10**3])

In [None]:
# Transpose
ar2.T

In [None]:
# 建立 全是 0 的陣列
arZero = np.zeros((2,2))
print(arZero)

In [None]:
# 建立 全是 1 的陣列
arOne = np.ones((1,2))
print(arOne)

In [None]:
# 建立 i x j 元素全為 s 的陣列
arFull = np.full((3,3), 7)
print(arFull)

In [None]:
# 建立 i x i 單位陣列
arEye = np.eye(3)
print(arEye)

In [None]:
# 取得隨機浮點數
arRandom = np.random.random((2,2))
print(arRandom)

In [None]:
# 取得隨機整數值
np.random.seed(10)
arR = np.random.randint(0, 10, size=(4,5))
print(arR)

In [None]:
# 加總每一欄 column
print(arR.sum(axis=0))

In [None]:
# 加總每一列 row
print(arR.sum(axis=1))

In [None]:
arR.mean()

In [None]:
arR.std()

In [None]:
arR.var(axis=0)

In [None]:
# 累積和 Cumulative Sum
arR.cumsum()

## 利用 arange() 建立 Array
* 格式: arange(start, end, step)

In [None]:
# Array Range
arA = np.arange(0, 6)
arB = np.array([0, 1, 2, 3, 4, 5])

In [None]:
# 陣列比較
np.array_equal(arA, arB)

In [None]:
# 與上述 array_equal() 範例同義
np.all(arA == arB)

# 陣列運算
* np.add: 矩陣或陣列相加
* np.sqrt: 矩陣內所有元素開平方根
* np.exp: 矩陣內所有元素進行 Exponential function(e) 運算

In [None]:
arAdd = np.add(arA, arB)
print(arAdd)

In [None]:
arSqrt = np.sqrt(arA)
print(arSqrt)

In [None]:
arExp = np.exp(arB)
print(arExp)

# 陣列索引和切片運算

In [None]:
ar3 = np.arange(1, 16)
ar3

In [None]:
ar3[0], ar3[-1]

In [None]:
# 切片運算格式: [start:end:step]
ar3[0:-3:2]

In [None]:
# Resizing
ar3.resize((18,))

# 如果遇到 ValueError: ... Use the resize function 則改用下列語法
# np.resize(ar3, (18,))

# Reshaping
* 格式 ar.reshape(m, n)
* 進階方式: [透過 pivot() 來轉換](http://www.datasciencemadesimple.com/reshape-long-wide-pandas-python-pivot-function/)

In [None]:
# 改成 3 row , 5 column
ar3.reshape(3, 5)

In [None]:
ar4 = np.arange(1, 41).reshape(5, 8)

# 迴圈裡取出每 row 的內容
for row in ar4:
    print(row)

# 利用函式來建立陣列
* 格式: fromfunction(function, shape, **kwargs)

In [None]:
def myfunc(row, col):
    return row*5 + col

arFunc = np.fromfunction(myfunc, (5, 5), dtype=int)
print(arFunc)
 
print()
print(b[0:5, 4])
 
print()
print(b[:, 3])

In [None]:
# 計算時間
ar1000 = np.arange(1000)
%timeit ar1000 ** 3

# Mask: 是否符合篩選條件的 Bool Array

In [None]:
# 建立偶數的 Mask
evenMask = (ar3 % 2 == 0)
print(evenMask)

In [None]:
evenNums = ar3[evenMask]
print(evenNums)

## 認識 View 與 Copy 的不同
* [View](http://scipy-cookbook.readthedocs.io/items/ViewsVsCopies.html) 又可分為 Slice View 和 Dtype View, 但 Slice View 是常見範例
* [View 之間的 Shape 改變的話, 並不會一樣](https://www.tutorialspoint.com/numpy/numpy_copies_and_views.htm)

http://cs231n.github.io/python-numpy-tutorial/
a = np.array([[1,2,3,4], [5,6,7,8], [9,10,11,12]])

 Use slicing to pull out the subarray consisting of the first 2 rows
 and columns 1 and 2; b is the following array of shape (2, 2):
 [[2 3]
 [6 7]]
b = a[:2, 1:3]

 A slice of an array is a view into the same data, so modifying it will modify the original array.
print(a[0, 1])   # Prints "2"
b[0, 0] = 77     # b[0, 0] is the same piece of data as a[0, 1]
print(a[0, 1])   # Prints "77"

In [None]:
arView = ar3[::2]
arView

In [None]:
arView[1] = -1
ar3

In [None]:
# Deep Copy 的範例
arCopy = ar3[::2].copy()

# Pandas 資料型別
* 入門階段 Series 和 DataFrame 是最常見的資料型別
* DataFrame 由 Series 組成
<img src="http://bookdata.readthedocs.io/en/latest/_images/base_01_pandas_5_0.png" />

## 利用 List 建立 Series

In [None]:
# List of Float (溫度記錄)
s1 = pd.Series([8.3, 7.0, 9.5, 11.7, 13.1, 14.8])

## Series 由 Index 和 Value 組成
* 為了運算效能, 會自動讓 Value 使用一致的 Data Type (dtype) 來儲存

In [None]:
print(s1.index)
print(s1.values)
print(s1.dtype)

# 觀察 Series 的長相
* 第1欄是 Index
* 第2欄是 Value
* 最下方是 Data Type

In [None]:
s1

# 利用月份名稱當作 Index

In [None]:
import calendar as cal

monthNames = [cal.month_name[i] for i in np.arange(1, 13)]
monthNames

In [None]:
s_month = pd.Series(np.arange(1, 13), index=monthNames)
s_month

# 建立 DataFrame 的四種方式
<img src="http://pbpython.com/images/pandas-dataframe-shadow.png" />

## 利用 2個 Series 的 Dictionary 來建立 DataFrame

In [None]:
# 累積雨量記錄, 缺值可用 np.nan (Not a Number) 來代表
s2 = pd.Series([10.0,33.4,107.4,330.5,np.nan,1986.6])
dataset = {'TP': s1, 'AP': s2}
df = pd.DataFrame.from_dict(dataset)
df

In [None]:
# 顯示 axis dimensions 資訊
df.shape

In [None]:
# 顯示摘要統計資訊
df.describe()

## 選取 Column
* 可用 .ColumnName 或 ['ColumnName']
* 如果有空白字元只能用 ['Column Name']

In [None]:
# 顯示所有 Column 名稱
df.columns

In [None]:
# df. 支援 Tab Completion
df.AP


# 建立 100筆隨機數值的 DataFrame

In [None]:
d = {'Cost': np.random.normal(100, 5, 100),
     'Profit': np.random.normal(50, 5, 100),
     'CatA': np.random.choice(['a', 'b', 'c'], 100),
     'CatB': np.random.choice(['e', 'f', 'g'], 100)}
df = pd.DataFrame(d)

## 顯示或選取特定 Row

In [None]:
# 顯示前五列
df.head()

In [None]:
# 顯示末三列
df.tail(3)

In [None]:
# 顯示前三列
df[:3]

## 選取多個 Column

In [None]:
# 查詢特定 Column 不同的元素數有哪幾個
df['CatA'].unique()

In [None]:
# 選取其中的兩個 Column
df[['Cost', 'Profit']]

In [None]:
df[df.CatA == 'a'][:5]

In [None]:
type(df.CatA)

In [None]:
# 依據篩選條件建立新 Column
df['count_a'] = df['CatA'].apply(lambda x: x.count('a'))

In [None]:
# 建立 a or e 的 a and e 的資料集
a_e = ['a', 'e']
CatA_a_e = df[df.CatA.isin(a_e)]
only_a_e = CatA_a_e[CatA_a_e.CatB.isin(a_e)]
only_a_e[:5]

In [None]:
# 同上, 但利用 logical_and 函式
mask = np.logical_and(df.CatA=='a', df.CatB=='e')
df[mask][:5]

# 欄位更換
cols = list(df.columns)
df = df[col[1:3] + col[4:6]]
https://youtu.be/vmEHCJofslg?t=1519

## 排序運算
* 使用 sort_values() 函式, 如果參數是 ['c1', 'c2' ...] 可以依次排序

In [None]:
sorted = df.sort_values('Profit', ascending=False)
sorted.head()

In [None]:
df['Profit'].sort_values(ascending=False)

## 上述運算結果與下列同義

In [None]:
df['Profit'].max()

## 加總次數
* 使用 value_counts() 函式

In [None]:
pd.value_counts(df['CatA'])

# 寫入檔案
* pandas.DataFrame.to_csv 寫入 CSV 檔案: encoding 預設值在 Python2 是 ascii, 在 Python3 是 utf-8, sep 預設值是 ','
* pandas.DataFrame.to_excel 寫入 Excel 檔案: sheet_name 預設值是 'Sheet1'

In [None]:
# 常見的寫入參數: index=False 代表要取消最前面的編號欄
sorted.to_csv('sorted.csv', encoding='utf-8', index=False)

In [None]:
# 如果使用存在的 ExcelWriter 物件, 可以將不同的 DataFrame 存到同一個 Workbook
writer = pd.ExcelWriter('output.xlsx')
df.to_excel(writer, 'Sheet1')
# df2.to_excel(writer, 'Sheet2')
writer.save()

# 範例: 成績表 Grade Sheet
* 主要欄位包括: 學號, 課號, 成績
* 本範例展示中文編碼的處理方式

In [None]:
gs1 = pd.read_csv('sample/cgu-201810.csv')

# 這樣會遇到什麼問題嗎?

In [None]:
# 檢視 gs1 的內容
gs1

In [None]:
gs2 = pd.read_csv('sample/cgu-201810.csv', encoding='big5')

In [None]:
# 檢視 gs2 的內容
gs2

In [None]:
gs2.describe()

In [None]:
gs2.describe(include=float)

In [None]:
gs2.修課成績.mean()

In [None]:
gs2['學號*'].unique()

In [None]:
len(gs2['學號*'].unique())

In [None]:
gs2.groupby('學號*').size()
# 第一個欄位是學號 第二個數值是學號的選課數量

In [None]:
gs2.groupby('學號*').get_group('B5013247')

In [None]:
gs2.groupby('系所*').size()

In [None]:
gs2.groupby('修課永久課號*').size()

In [None]:
gs2.groupby('居住地').groups

In [None]:
len(gs2.groupby('居住地').groups)

In [None]:
gs2.groupby('居住地').get_group('臺南市')

In [None]:
gs2.groupby(['居住地','入學管道','修課年級']).mean()

# 範例: 好評影片集
* IMDB Ratings 資料網址: http://bit.ly/imdbtatings
* 找出播映時間超過 200分鐘的影片

In [None]:
# 讀取 DataSet 內容
movies = pd.read_csv('http://bit.ly/imdbratings')
movies[:5]

In [None]:
# 利用 For Loop 建立遮罩
mask = []
for length in movies.duration:
    if length >= 200:
        mask.append(True)
    else:
        mask.append(False)

mask[:5]

In [None]:
is_long = pd.Series(mask)
is_long[:5]

In [None]:
# 另一種方式: 不用 For Loop 也能建立遮罩
is_long2 = movies.duration >= 200
is_long2[:5]

In [None]:
movies[is_long2]

In [None]:
# 等同於上述結果
movies[movies.duration >= 200]

## 篩選多個類型條件
* And Or 運算在 Pandas 裡使用 & | 符號 (bitwise operator)
* 使用 and 或 or 的話 會產生 [True value of a Series is ambiguous](https://stackoverflow.com/questions/36921951/truth-value-of-a-series-is-ambiguous-use-a-empty-a-bool-a-item-a-any-o) 訊息

In [None]:
# And 運算
movies[(movies.duration >= 200) & (movies.genre == 'Drama')]

In [None]:
# Or 運算
movies[(movies.genre == 'Crime') | (movies.genre == 'Drama') | (movies.genre == 'Action')]

In [None]:
# Is In 運算
mymask = movies.genre.isin(['Crime', 'Drama', 'Action'])
mymask

## 還可以試 ~ 運算
* https://stackoverflow.com/questions/19960077/how-to-implement-in-and-not-in-for-pandas-dataframe

In [None]:
movies[movies.genre.isin(['Crime', 'Drama', 'Action'])]

# Kaggle 範例資料集
* Kaggle 網站致力讓資料科學成為全民運動, 除了提供範例資料集 Dataset 之外, 也舉辦資料分析與預測建模的競賽, 還有針對初學者的[教學文件](https://medium.com/pyradise/kaggle-%E5%95%9F%E5%8B%95%E5%AD%B8%E7%BF%92%E5%B0%88%E6%A1%88-d0a0f981baac)

# 範例: 房屋價格資料
https://towardsdatascience.com/5-steps-to-amazing-visualizations-with-matplotlib-ca61f0ec5fec

# 範例: 奧運記錄資料
* [應用歷史記錄進行分析](https://towardsdatascience.com/exploratory-statistical-data-analysis-with-a-real-dataset-using-pandas-208007798b92)
* NaN 對 Numpy 是數值上的 not a number 但是在 Pandas 裡面是有特殊意義的 它是代表空值的意思 你可以找 isnull() 或是 notnull() function 去把 NaN 找出來然後填值
* Athlete Events Dataset from Kaggle: https://www.kaggle.com/heesoo37/120-years-of-olympic-history-athletes-and-results#athlete_events.csv

In [None]:
ae = pd.read_csv('athlete_events.csv')
ae.shape

In [None]:
def NaN_percent(df, column_name):
    row_count = df[column_name].shape[0]
    empty_values = row_count - df[column_name].count()
    return (100.0*empty_values)/row_count

In [None]:
NaN_percent(ae, 'Height')

In [None]:
for i in list(ae):
    print(i +': ' + str(NaN_percent(ae,i))+'%')

In [None]:
total_rows = ae.shape[0]
unique_athletes = len(ae.Name.unique())
medal_winners = len(ae[ae.Medal.fillna('None')!='None'].Name.unique())

"{0} {1} {2}".format(total_rows, unique_athletes, medal_winners)

In [None]:
# 女性運動員最早出現的年份是?
ae[ae.Sex=='F'].Year.min()

# 最早獲得金牌的女性運動員名單是?
ae[(ae.Sex=='F') & (ae.Medal=='Gold')]

In [None]:
# 台灣運動員最早出現的年份是?
ae[ae.Team=='Chinese Taipei']

# 台灣運動員最早得牌的年份是?
ae[(ae.NOC=='TPE') & (ae.Medal.fillna('None')!='None')]

# 進階篩選工具
* loc 依 Label 篩選
* iloc 代表 Integer LOC, 依整數索引篩選
* ix 允許 Label 與 Integer 混合規則

In [None]:
movies.columns

## loc 語法: 先決定 Row (Index Label) 再決定 Column Label
* Single Label: 例 3 或 'a'
* List of Labels: 例 ['a', 'b', 'c']
* Slice of Labels: 例 'a':'c'

In [None]:
movies.loc[[0,1,2,977,978], 'star_rating':'genre']

## Drop: 刪除 Row 或 Column
* Label / List of Labels
* df.index[n] / df.index[[m,n]]
<pre>axis=0 代表 Row
axis=1 代表 Column
inplace=True 代表取代掉舊資料</pre>

In [None]:
movies.drop('content_rating', axis=1)

# 字串處理
* Series 提供 str 處理工具

## 過濾特定字串

In [None]:
movies.title != 'The Godfather'

## 過濾特定單字
<a href="http://stackoverflow.com/questions/34962104/pandas-how-can-i-use-the-apply-function-for-a-single-column">Series 可以接 apply() 或 map() 兩者有差異嗎?</a>

In [None]:
movies.title.apply(lambda x: False if 'The' in x.split() else True)

## 使用 str 過濾特定單字

In [None]:
movies.actors_list.str.contains('Tom')

# GroupBy

In [None]:
myGrp = movies.groupby('content_rating')
myGrp.groups

In [None]:
len(myGrp.groups)

In [None]:
myGrp.size()

In [None]:
myGrp.size().sort_values(ascending=False)

# 向量之間的距離
* 兩個向量之間的距離計算, 在數學上稱為向量的距離 (Distance), 也稱為樣本之間的相似性度量 (Similarity Measurement)
Minkowski Distance, Euclidean Distance, Manhattan Distance, Chebyshev Distance, Cosine, Hamming Distance, Jaccard Similarity Coefficient

# 時間數列
df.set_index('TimeColumn')

# GeoPy
https://youtu.be/q_OUHA_zqeM?t=2m27s

In [None]:
from geopy.geocoders import Nominatim
nom = Nominatim()
nom.geocode("3995 23rn St, San Francisco, CA 94114")

# Matplotlib 資料視覺化
* 優點: 功能完整 文件豐富
* 缺點: 畫圖指令繁雜

In [None]:
# 起手式
import matplotlib.pyplot as plt


# 顯示方式
* 在 IPython 執行 %matplotlib 可以另開視窗顯示繪圖
* 在 Jupyter Notebook 執行 %matplotlib inline 可以直接嵌入繪圖, 不需要額外執行 plt.show()
* 在 Jupyter Notebook 執行 %matplotlib notebook 可以嵌入顯示互動式繪圖

![plt.show()](https://miro.medium.com/max/1785/1*409ArBhlxniQ4q657INbpA.png)

In [None]:
# 互動式繪圖包括縮放功能
%matplotlib notebook

# plot() 下列參數分別代表 x,y 軸的點資料, 預設使用折線繪圖
plt.plot([1, 2, 3, 4], [1, 4, 9, 16])

In [None]:
# plot() 接 'o' 參數代表使用圓點繪圖
plt.plot([1, 2, 3, 4], [1, 4, 9, 16], 'o')

# 同場加映1: '--' 參數代表使用虛線繪圖, 's' 參數代表使用方塊繪圖, '^' 參數代表使用三角形繪圖
# 同場加映2: 'ro' 代表 red 圓點, 'r--' 代表 red 虛線, 'bs' 代表 blue 方塊, 'g^' 代表 green 三角形, 試試看還能找到幾種顏色參數

In [None]:
# 設定 x,y 軸 Label 標題
plt.ylabel('Y Label')
plt.xlable('X Label')

In [None]:
# 設定中文 Label 標題
plt.ylabel('縱軸標題', fontproperties='mingliu')
plt.xlabel('橫軸標題', fontproperties='mingliu')

# 設定 Figure Title 繪圖標題
* 指定個別子圖 [subplot](https://matplotlib.org/gallery/subplots_axes_and_figures/figure_title.html) 的標題

In [None]:
import matplotlib.pyplot as plt
import numpy as np
import scipy.stats as stats
import math

mu = 0
variance = 1
sigma = math.sqrt(variance)
x = np.linspace(mu - 3*sigma, mu + 3*sigma, 100)
plt.plot(x, stats.norm.pdf(x, mu, sigma))

# 直方圖

In [None]:
import csv
import numpy as np
import matplotlib.pyplot as plt

def dataset(path, filter_field=None, filter_value=None):
    with open(path, 'r') as csvfile:
        reader = csv.DictReader(csvfile)
        if filter_field:
            for row in filter(lambda row:
                             row[filter_field]==filter_value, reader):
                yield row
        else:
            for row in reader:
                yield row

def main(path):
    # 美國平均所得
    data = [(row["Year"], float(row["Average income per tax unit"]))
           for row in dataset(path, "Country", "United States")]
    width = 15
    height = 6
    ind = np.arange(len(data))
    fig = plt.figure(figsize=(width, height))
    ax = plt.subplot(111)
    ax.bar(ind, list(d[1] for d in data))
    ax.set_xticks(np.arange(0, len(data), 4))
    ax.set_xticklabels(list(d[0] for d in data)[0::4],
                       rotation=45)
    ax.set_ylabel("Income in USD")
    plt.title("U.S. Average Income 1913-2008")
    plt.show()

if __name__ == "__main__":
    main("sample/data.csv")

# 資料視覺化模組 Seaborn 簡介
* 以 Matplotlib 為基礎, 提供常用繪圖主題的設定, 簡化功能操作的複雜度
* 有效處理 DataFrame 資料型別, 包括多變數的關連性呈現, 分類或分群式的呈現, 資料分佈狀態的呈現
* 方便設定多種變數的圖表並列對照
* 方便設定資料顏色和圖表底色
* 自動顯示線性迴歸的圖線

In [None]:
import numpy as np
import pandas as pd
import seaborn as sns

In [None]:
flights = sns.load_dataset("flights")
sns.relplot(x="passengers", y="month", data=flights)

# 範例 Pokemon.csv
* 利用 lmplot() 建立散佈圖 Scatter Plot -- isnull().sum()
* 參考文件 https://elitedatascience.com/python-seaborn-tutorial

In [None]:
df = pd.read_csv('sample/Pokemon.csv', index_col=0)
# index_col=0 代表要把第一排的內容當成 ID Column

df.head()

In [None]:
# Recommended way
sns.lmplot(x='Attack', y='Defense', data=df)

# Alternative way
# sns.lmplot(x=df.Attack, y=df.Defense)