# 範例
***

# [教學目標]

* 正確使用欄位名稱與索引選取資料
* 正確使用 location 座標選取資料
* 正確使用 遮罩操作 選取資料



In [34]:
# 載入 NumPy, Pandas 套件
import numpy as np
import pandas as pd

# 檢查正確載入與版本
print(np)
print(np.__version__)
print(pd)
print(pd.__version__)

<module 'numpy' from '/Users/cm0675/opt/anaconda3/lib/python3.8/site-packages/numpy/__init__.py'>
1.19.2
<module 'pandas' from '/Users/cm0675/opt/anaconda3/lib/python3.8/site-packages/pandas/__init__.py'>
1.1.3


In [21]:
# 股票資料
d = [
    ['109/10/05', 103.45, 103.05],
    ['109/10/06', 104.00, 104.25],
    ['109/10/07', 104.00, 104.80],
    ['109/10/08', 105.45, 106.20],
    ['109/10/12', 106.70, 107.05],
    ['109/10/13', 107.35, 107.10]
]

stock_data1 = pd.DataFrame(d, columns=['date', 'open', 'close'])
print(stock_data1)

d = [
    ['109/10/08', 105.45, 106.35],
    ['109/10/12', 106.70, 107.70],
    ['109/10/13', 107.35, 107.60],
    ['109/10/14', 107.05, 107.20],
    ['109/10/15', 106.50, 106.50]
]

stock_data2 = pd.DataFrame(d, columns=['date', 'open', 'high'])
print(stock_data2)

        date    open   close
0  109/10/05  103.45  103.05
1  109/10/06  104.00  104.25
2  109/10/07  104.00  104.80
3  109/10/08  105.45  106.20
4  109/10/12  106.70  107.05
5  109/10/13  107.35  107.10
        date    open    high
0  109/10/08  105.45  106.35
1  109/10/12  106.70  107.70
2  109/10/13  107.35  107.60
3  109/10/14  107.05  107.20
4  109/10/15  106.50  106.50


In [9]:
# 資料過濾、選擇
# 利用[]和.loc[]做布林邏輯選擇資料，回傳為 True 的資料
print(stock_data1[stock_data1.open<104])

print(stock_data1.loc[stock_data1.open<104])

# 其中.iloc[] / loc[]可以一併選擇欄位，則[]不行選擇欄位。
print(stock_data1.loc[(stock_data1.open < 107) & (stock_data1.close > 105), ['open', 'close']])

# 利用.iloc[]針對索引做過濾，也可以一併選擇欄位，不過在這裡不是用欄位名稱選擇而是用欄位的位子做選擇
print(stock_data1.iloc[3:6])

print(stock_data1.iloc[3:6, :2])

        date    open   close
0  109/10/05  103.45  103.05
        date    open   close
0  109/10/05  103.45  103.05
     open   close
3  105.45  106.20
4  106.70  107.05
        date    open   close
3  109/10/08  105.45  106.20
4  109/10/12  106.70  107.05
5  109/10/13  107.35  107.10
        date    open
3  109/10/08  105.45
4  109/10/12  106.70
5  109/10/13  107.35


In [15]:
# 合併資料
# 串連(concat)
# pandas 的可以將多個物件的資料合成一個新物件
# DataFrame 的串連(concat)可以在任何指定的欄位進行結合，如資料對其後出現遺漏值將會填入 NaN。

# stock_data1 欄位有[date,open,close]，stock_data2 欄位有[date,open,high]，
# 使用 concat 串聯參數 axis=0 縱向結合後發現 
# stock_data1 不存在 high 欄位，stock_data2 不存在 close 欄位，那麼該位子會被填入 NaN。
print(pd.concat([stock_data1, stock_data2], axis = 0))


# 使用concat串聯參數axis=1橫向結合，會以列索引標籤對齊。
print(pd.concat([stock_data1, stock_data2], axis = 1))

# 串連(concat)在合併資料時，連結類型預設是外連結(outer join)連集的操作，連結類型可以用 join 參數調整，
# 如 join=’inner’ 表示連結型態為內連結(inner join)交集的操作。
print(pd.concat([stock_data1, stock_data2], axis = 0, join = 'inner'))

        date    open   close    high
0  109/10/05  103.45  103.05     NaN
1  109/10/06  104.00  104.25     NaN
2  109/10/07  104.00  104.80     NaN
3  109/10/08  105.45  106.20     NaN
4  109/10/12  106.70  107.05     NaN
5  109/10/13  107.35  107.10     NaN
0  109/10/08  105.45     NaN  106.35
1  109/10/12  106.70     NaN  107.70
2  109/10/13  107.35     NaN  107.60
3  109/10/14  107.05     NaN  107.20
4  109/10/15  106.50     NaN  106.50
        date    open   close       date    open    high
0  109/10/05  103.45  103.05  109/10/08  105.45  106.35
1  109/10/06  104.00  104.25  109/10/12  106.70  107.70
2  109/10/07  104.00  104.80  109/10/13  107.35  107.60
3  109/10/08  105.45  106.20  109/10/14  107.05  107.20
4  109/10/12  106.70  107.05  109/10/15  106.50  106.50
5  109/10/13  107.35  107.10        NaN     NaN     NaN
        date    open
0  109/10/05  103.45
1  109/10/06  104.00
2  109/10/07  104.00
3  109/10/08  105.45
4  109/10/12  106.70
5  109/10/13  107.35
0  109/10/08  105

In [19]:
# 合併(merge)
# 合併是藉由找出一或多個行或列索引的吻合值，然後將兩資料結合。

# pd.merge() 預設連結類型為內連結(inner join)，參數 how 可以更改連結類型，
# inner : 兩資料集的交集
# outer: 兩資料集的聯集
# left   : 只使用左資料的合併欄位(key)
# right : 只使用右資料的合併欄位(key)

# 以下為針對合併欄位 (key)date 做合併，合併方式為 how=’outer’ 外連結，
# 如除了合併欄位 date 之外還有相同欄位名稱，
# pandas 將會自動把重複欄位名稱加上 '_x' 代表左邊 DataFrame stock_data1 的重複欄位open，
# 加上 '_y' 代表右邊 DataFrame stock_data2 的重複欄位 open。
print(pd.merge(stock_data1, stock_data2, on='date', how='outer'))

print(pd.merge(stock_data1, stock_data2, on='date'))

print(pd.merge(stock_data1, stock_data2, on='date', how='left'))

print(pd.merge(stock_data1, stock_data2, on='date', how='right'))

        date  open_x   close  open_y    high
0  109/10/05  103.45  103.05     NaN     NaN
1  109/10/06  104.00  104.25     NaN     NaN
2  109/10/07  104.00  104.80     NaN     NaN
3  109/10/08  105.45  106.20  105.45  106.35
4  109/10/12  106.70  107.05  106.70  107.70
5  109/10/13  107.35  107.10  107.35  107.60
6  109/10/14     NaN     NaN  107.05  107.20
7  109/10/15     NaN     NaN  106.50  106.50
        date  open_x   close  open_y    high
0  109/10/08  105.45  106.20  105.45  106.35
1  109/10/12  106.70  107.05  106.70  107.70
2  109/10/13  107.35  107.10  107.35  107.60
        date  open_x   close  open_y    high
0  109/10/05  103.45  103.05     NaN     NaN
1  109/10/06  104.00  104.25     NaN     NaN
2  109/10/07  104.00  104.80     NaN     NaN
3  109/10/08  105.45  106.20  105.45  106.35
4  109/10/12  106.70  107.05  106.70  107.70
5  109/10/13  107.35  107.10  107.35  107.60
        date  open_x   close  open_y    high
0  109/10/08  105.45  106.20  105.45  106.35
1  109/10/

In [23]:
# 合併的另一種方法.join()，利用兩個 DataFrame 的索引標籤(index)進行連結操作
# 除了 date 是索引標籤(index)以外兩資料還有一個 open 欄位名稱重複，
# 因為 join 不像 merge 會自動對於重複欄位產生字尾，所以需要參數 lsuffix、rsuffix 加上指定字尾。
stock_data1_index = stock_data1.set_index('date')
stock_data2_index = stock_data2.set_index('date')

stock_data1_index.join(stock_data2_index, how = 'outer', lsuffix = '_left', rsuffix = '_right')

Unnamed: 0_level_0,open_left,close,open_right,high
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
109/10/05,103.45,103.05,,
109/10/06,104.0,104.25,,
109/10/07,104.0,104.8,,
109/10/08,105.45,106.2,105.45,106.35
109/10/12,106.7,107.05,106.7,107.7
109/10/13,107.35,107.1,107.35,107.6
109/10/14,,,107.05,107.2
109/10/15,,,106.5,106.5


In [25]:
# 利用欄位名稱選取單行資料

import pandas as pd

df = pd.DataFrame([[1, 2, 3], [4, 5, 6]], index=['a', 'b'], columns=['A', 'B', 'C'])
#    A  B  C
# a  1  2  3
# b  4  5  6

print(df['A'])
print(df['B'])


a    1
b    4
Name: A, dtype: int64
a    2
b    5
Name: B, dtype: int64


In [4]:
# 利用欄位名稱選取多行資料

import pandas as pd

df = pd.DataFrame([[1, 2, 3], [4, 5, 6]], index=['a', 'b'], columns=['A', 'B', 'C'])
#    A  B  C
# a  1  2  3
# b  4  5  6

print(df[['A', 'B']])
print(df[['A', 'C']])


   A  B
a  1  2
b  4  5
   A  C
a  1  3
b  4  6


In [27]:
# 利用列索引位置選取單列/多列資料

import pandas as pd

df = pd.DataFrame([[1, 2, 3], [4, 5, 6]], index=['a', 'b'], columns=['A', 'B', 'C'])
#    A  B  C
# a  1  2  3
# b  4  5  6

print(df[0:0])
# Empty DataFrame
print(df[1:1])
# Empty DataFrame
print(df[0:1])
#    A  B  C
# a  1  2  3
print(df[0:2])
#    A  B  C
# a  1  2  3
# b  4  5  6

Empty DataFrame
Columns: [A, B, C]
Index: []
Empty DataFrame
Columns: [A, B, C]
Index: []
   A  B  C
a  1  2  3
   A  B  C
a  1  2  3
b  4  5  6


In [29]:
# 用 loc, iloc, ix 取得行與列
# 座標選取的方法 .loc[...]
import pandas as pd

df = pd.DataFrame([[1, 2, 3], [4, 5, 6]], index=['a', 'b'], columns=['A', 'B', 'C'])
#    A  B  C
# a  1  2  3
# b  4  5  6

print(df.loc['a', 'A'])
# 1

print(df.loc['a', ['A', 'B']])
# A    1
# B    2
# Name: a, dtype: int64

print(df.loc[['a', 'b'], 'A'])
# a    1
# b    4
#Name: A, dtype: int64

print(df.loc[['a', 'b'], ['A', 'B']])
#    A  B
# a  1  2
# b  4  5

1
A    1
B    2
Name: a, dtype: int64
a    1
b    4
Name: A, dtype: int64
   A  B
a  1  2
b  4  5


In [31]:
import pandas as pd
#  iloc[...] ，可以索引位置的方法來選出資料

df = pd.DataFrame([[1, 2, 3], [4, 5, 6]], index=['a', 'b'], columns=['A', 'B', 'C'])
#    A  B  C
# a  1  2  3
# b  4  5  6

print(df.iloc[0, 0])
# 1

print(df.iloc[0, [0, 1]])
# A    1
# B    2
# Name: a, dtype: int64

print(df.iloc[[0, 1], 0])
# a    1
# b    4
#Name: A, dtype: int64

print(df.iloc[[0, 1], [0, 1]])
#    A  B
# a  1  2
# b  4  5

1
A    1
B    2
Name: a, dtype: int64
a    1
b    4
Name: A, dtype: int64
   A  B
a  1  2
b  4  5


In [38]:
import pandas as pd

# 想同時使用名稱跟位置來選資料的話，也可以使用 .ix[...] 的方法
# .ix is deprecated

df = pd.DataFrame([[1, 2, 3], [4, 5, 6]], index=['a', 'b'], columns=['A', 'B', 'C'])
#    A  B  C
# a  1  2  3
# b  4  5  6

print(df.ix[0, 'A'])
# 1

print(df.ix['a', [0, 1]])
# A    1
# B    2
# Name: a, dtype: int64

print(df.ix[['a', 'b'], 0])
# a    1
# b    4
#Name: A, dtype: int64

print(df.ix[[0, 1], ['A', 'B']])
#    A  B
# a  1  2
# b  4  5

AttributeError: 'DataFrame' object has no attribute 'ix'

In [40]:
# 用 iat, at 取得資料
# .loc[...] 的用法並不是一個函式，.loc 本身其實是一個特殊的物件，搭配 [...] 方式做座標選取。

print(df.loc['a', 'A']) # 1
print(df.iloc[0, 1]) # 2

print(df.at['a', 'A']) # 1
print(df.iat[0, 1]) # 2

print(df.loc)
# <pandas.core.indexing._LocIndexer object at 0x7ff8c27553b0>
print(type(df.loc))
# <class 'pandas.core.indexing._LocIndexer'>

1
2
1
2
<pandas.core.indexing._LocIndexer object at 0x7ff8c27553b0>
<class 'pandas.core.indexing._LocIndexer'>


In [10]:
# 根據條件篩選資料（遮罩）

#    A  B  C
# a  1  2  3
# b  4  5  6

print(df > 2)
#        A      B     C
# a  False  False  True
# b   True   True  True

print(df[df > 2])
#      A    B  C
# a  NaN  NaN  3
# b  4.0  5.0  6

       A      B     C
a  False  False  True
b   True   True  True
     A    B  C
a  NaN  NaN  3
b  4.0  5.0  6


In [11]:
#    A  B  C
# a  1  2  3
# b  4  5  6

print(df['A'] > 2)
# a    False
# b     True
# Name: A, dtype: bool

print(df[df['A'] > 2])
#    A  B  C
# b  4  5  6

a    False
b     True
Name: A, dtype: bool
   A  B  C
b  4  5  6
