# pandas的基礎操作
- 現在可以更深入於資料的分析和操作資料

## 使用reindex()重新建立索引

In [63]:
import pandas as pd
import numpy as np

obj = pd.Series([4.5, 7.2, -5.3, 3.6], index=['d', 'b', 'a', 'c'])
obj

d    4.5
b    7.2
a   -5.3
c    3.6
dtype: float64

In [64]:
#使用reindex()方法,重新規劃新索引
#沒有索引到的資料會被移除
#新增的索引會使用 NaN

obj2 = obj.reindex(['a', 'c', 'd', 'e'])
obj2

a   -5.3
c    3.6
d    4.5
e    NaN
dtype: float64

In [65]:
#DataFrame使用reindex()
frame = pd.DataFrame(np.arange(9).reshape(3, 3),
                    index=['a', 'c', 'd'],
                    columns=['台北', '台中', '高雄'])
frame

Unnamed: 0,台北,台中,高雄
a,0,1,2
c,3,4,5
d,6,7,8


In [66]:
#使用reindex()新增row
frame2 = frame.reindex(['a', 'b', 'c', 'd'])
print(frame2)
print('----------')

#使用reindex()移除row
frame2 = frame.reindex(['a', 'c'])
print(frame2)
print('------------')

#使用reindex()的columns引數名稱,新增移除column
states = ['台北', '高雄', '台南']
frame2 = frame.reindex(['a', 'c'],columns=states)
frame2

    台北   台中   高雄
a  0.0  1.0  2.0
b  NaN  NaN  NaN
c  3.0  4.0  5.0
d  6.0  7.0  8.0
----------
   台北  台中  高雄
a   0   1   2
c   3   4   5
------------


Unnamed: 0,台北,高雄,台南
a,0.0,2.0,
c,3.0,5.0,


## 使用drop()移除欄或列
- 只有移除,不重新排列順序


In [87]:
#Series
obj = pd.Series(np.arange(5.),index=['a', 'b', 'c', 'd', 'e'])
print(obj)
print(1,'---------------')

#使用drop()方法移除一個索引
new_obj = obj.drop('c')
print(new_obj)
print(2,'---------------')

#使用drop()方法移除多個索引
new_obj = obj.drop(['d', 'c'])
new_obj

a    0.0
b    1.0
c    2.0
d    3.0
e    4.0
dtype: float64
1 ---------------
a    0.0
b    1.0
d    3.0
e    4.0
dtype: float64
2 ---------------


a    0.0
b    1.0
e    4.0
dtype: float64

In [68]:
#DataFrame
data = pd.DataFrame(np.arange(16).reshape(4,4),
                   index=['台北','台中', '台南', '高雄'],
                   columns=['one', 'two', 'three', 'four'])
print(data)
print(1,'-------------------')

#drop()預設是移除row
drapData = data.drop(['台北','台中'])
print(drapData)
print(2,'-------------------')


#使用引數名稱axis=1或axis='columns'移除欄
drapData = data.drop('two', axis=1)
print(drapData)
print(3,'-------------------')
drapData = data.drop(['two', 'four'], axis='columns')
drapData

#如果是要移除原始資料,必需使用引數名稱inplace=True
data.drop('台北', inplace=True)
data

    one  two  three  four
台北    0    1      2     3
台中    4    5      6     7
台南    8    9     10    11
高雄   12   13     14    15
-------------------
    one  two  three  four
台南    8    9     10    11
高雄   12   13     14    15
-------------------
    one  three  four
台北    0      2     3
台中    4      6     7
台南    8     10    11
高雄   12     14    15
-------------------


Unnamed: 0,one,two,three,four
台中,4,5,6,7
台南,8,9,10,11
高雄,12,13,14,15


## 索引、選取、過濾

In [88]:
#Series的索引(obj[...])類似於ndarray,除了series的索引沒有限定整數,還可以是字串
obj = pd.Series(np.arange(4.), index=['a', 'b', 'c', 'd'])
print(obj)
print(1,'------------')

print(obj['b'])
print(2,'------------')

#使用索引
print(obj[1])
print(3,'---------')

#使用slice()
print(obj[2:4])
print(4,'---------')

#使用list,slice
print(obj[['b', 'a', 'd']])
print(5,'---------')

#使用list,索引
print(obj[[1, 3]])
print(6,'---------')

#使用boolean series
print(obj[obj < 2])
print(7,'--------------')

#使用標籤的slice,不同於整數的slice,最後一個是包含的
print(obj['b':'c'])
print(8,'--------------')

#也可使用選取時,給值
obj['b': 'c'] = 5
obj

a    0.0
b    1.0
c    2.0
d    3.0
dtype: float64
1 ------------
1.0
2 ------------
1.0
3 ---------
c    2.0
d    3.0
dtype: float64
4 ---------
b    1.0
a    0.0
d    3.0
dtype: float64
5 ---------
b    1.0
d    3.0
dtype: float64
6 ---------
a    0.0
b    1.0
dtype: float64
7 --------------
b    1.0
c    2.0
dtype: float64
8 --------------


a    0.0
b    5.0
c    5.0
d    3.0
dtype: float64

In [98]:
#DataFrame的索引,主要是取出1個或多個欄位.一個欄位是取出Series
data = pd.DataFrame(np.arange(16).reshape((4, 4)),
                   index=['台北','台中','台南', '高雄'],
                   columns=['one', 'two', 'three', 'four'])
print(data)
print(1,'------------')

#取出一欄,是Series
print(data['two'])
print(2,'------------')

#使用list取出多欄
print(data[['three', 'one']])
print(3,'--------------')

#使用數值的索引是取出row
print(data[:2])
print(4,'--------------')

#使用boolean series做為選取
print(data[data['three'] > 5])
print(5,'--------------')

#使用boolean dataFrame做為選取
print(data < 5)
print(6,'--------------')

data[data<5] = 0
data

    one  two  three  four
台北    0    1      2     3
台中    4    5      6     7
台南    8    9     10    11
高雄   12   13     14    15
1 ------------
台北     1
台中     5
台南     9
高雄    13
Name: two, dtype: int64
2 ------------
    three  one
台北      2    0
台中      6    4
台南     10    8
高雄     14   12
3 --------------
    one  two  three  four
台北    0    1      2     3
台中    4    5      6     7
4 --------------
    one  two  three  four
台中    4    5      6     7
台南    8    9     10    11
高雄   12   13     14    15
5 --------------
      one    two  three   four
台北   True   True   True   True
台中   True  False  False  False
台南  False  False  False  False
高雄  False  False  False  False
6 --------------


Unnamed: 0,one,two,three,four
台北,0,0,0,0
台中,0,5,6,7
台南,8,9,10,11
高雄,12,13,14,15


### 使用loc,iloc選取
- loc()使用標籤索引
- iloc()使用整數索引

In [109]:
data = pd.DataFrame(np.arange(16).reshape((4, 4)),
                   index=['台北','台中','台南', '高雄'],
                   columns=['one', 'two', 'three', 'four'])
print(data)
print(1,'-----------------------------')
#使用loc
print(data.loc['台北',['two', 'three']])
print(2,'-----------------------------')

#使用iloc
data.iloc[2,[3, 0, 1]]

#使用iloc取出整列
print(data.iloc[2])
print(3,'----------------------------')

#使用iloc
print(data.iloc[[1, 2],[3, 0, 1]])
print(4,'----------------------------')

#使用loc配合標籤slice語法
print(data.loc[:'台南','two'])
print(5,'----------------------------')



    one  two  three  four
台北    0    1      2     3
台中    4    5      6     7
台南    8    9     10    11
高雄   12   13     14    15
1 -----------------------------
two      1
three    2
Name: 台北, dtype: int64
2 -----------------------------
one       8
two       9
three    10
four     11
Name: 台南, dtype: int64
3 ----------------------------
    four  one  two
台中     7    4    5
台南    11    8    9
4 ----------------------------


台北    1
台中    5
台南    9
Name: two, dtype: int64

## 數學運算和資料對齊

In [112]:
import pandas as pd
import numpy as np

s1 = pd.Series([7.3, -2.5, 3.4, 1.5], index=['a', 'c', 'd', 'e'])
s2 = pd.Series([-2.1, 3.6, -1.5, 4, 3.1], index=['a', 'c', 'e', 'f', 'g'])

print(s1)
print(1,'--------------------')

print(s2)
print(2,'--------------------')

#運算時使用標籤對齊
print(s1 + s2)
print(3,'--------------------')



a    7.3
c   -2.5
d    3.4
e    1.5
dtype: float64
1 --------------------
a   -2.1
c    3.6
e   -1.5
f    4.0
g    3.1
dtype: float64
2 --------------------
a    5.2
c    1.1
d    NaN
e    0.0
f    NaN
g    NaN
dtype: float64
3 --------------------


In [120]:
#dataFrame運算時同時對齊row和columns標籤
df1 = pd.DataFrame(np.arange(9.).reshape((3, 3)),
                  columns=list('bcd'),
                  index=['台北','台中','台南'])
df2 = pd.DataFrame(np.arange(12.).reshape((4, 3)),
                  columns = list('bde'),
                  index=['高雄','台北','台中','台南'])
print(df1)
print(1,'---------------------')

print(df2)
print(2,'----------------------')

#同時row,column標籤對齊
print(df1 + df2)
print(3,'----------------------')


#都沒有row,column標籤對齊
df1 = pd.DataFrame({'A':[1, 2]})
df2 = pd.DataFrame({'B':[3, 4]})

print(df1)
print(4,'----------------------')

print(df2)
print(5,'----------------------')

df1-df2

      b    c    d
台北  0.0  1.0  2.0
台中  3.0  4.0  5.0
台南  6.0  7.0  8.0
1 ---------------------
      b     d     e
高雄  0.0   1.0   2.0
台北  3.0   4.0   5.0
台中  6.0   7.0   8.0
台南  9.0  10.0  11.0
2 ----------------------
       b   c     d   e
台中   9.0 NaN  12.0 NaN
台北   3.0 NaN   6.0 NaN
台南  15.0 NaN  18.0 NaN
高雄   NaN NaN   NaN NaN
3 ----------------------
   A
0  1
1  2
4 ----------------------
   B
0  3
1  4
5 ----------------------


Unnamed: 0,A,B
0,,
1,,


In [125]:
#add()方法配合fill_value引數名稱
df1 = pd.DataFrame(np.arange(12.).reshape((3, 4)),
                  columns=list('abcd'))
df2 = pd.DataFrame(np.arange(20.).reshape((4, 5)),
                  columns=list('abcde'))
df2.loc[1, 'b'] = np.nan
print(df1)
print('a','-------------------')
print(df2)
print('b','-------------------')

#使用fill_value
df1.add(df2, fill_value=0)

     a    b     c     d
0  0.0  1.0   2.0   3.0
1  4.0  5.0   6.0   7.0
2  8.0  9.0  10.0  11.0
a -------------------
      a     b     c     d     e
0   0.0   1.0   2.0   3.0   4.0
1   5.0   NaN   7.0   8.0   9.0
2  10.0  11.0  12.0  13.0  14.0
3  15.0  16.0  17.0  18.0  19.0
b -------------------


Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,4.0
1,9.0,5.0,13.0,15.0,9.0
2,18.0,20.0,22.0,24.0,14.0
3,15.0,16.0,17.0,18.0,19.0


|方法|表示|
|:--|:--|
|add|+|
|sub|-|
|div|/|
|floordiv|//|
|mul|*|
|pow|**|

## Function 和 Mapping
- numpy 的ufunc也可以使用在pandas上


In [127]:
import pandas as pd
import numpy as np

frame = pd.DataFrame(np.random.randn(4,3),
                    columns=list('bde'),
                    index=['台北','台中','台南','高雄'])
frame

Unnamed: 0,b,d,e
台北,-1.384638,-0.412816,0.614363
台中,-0.643563,1.413325,2.229433
台南,1.735249,-0.540851,-0.499227
高雄,0.811424,-0.910415,-0.124838


In [128]:
#numpy絕對值
np.abs(frame)

Unnamed: 0,b,d,e
台北,1.384638,0.412816,0.614363
台中,0.643563,1.413325,2.229433
台南,1.735249,0.540851,0.499227
高雄,0.811424,0.910415,0.124838


In [129]:
#使用apply(function)
#預設為列,非列的索引,使用整列的方向
#function必需return 值
f = lambda x: x.max() - x.min()
frame.apply(f)

b    3.119887
d    2.323740
e    2.728660
dtype: float64

In [130]:
#使用apply(,axis='columns'),使用整欄的方法
f = lambda x: x.max() - x.min()
frame.apply(f, axis='columns')

台北    1.999001
台中    2.872996
台南    2.276100
高雄    1.721839
dtype: float64

In [134]:
#使用apply(function)
#function return值不一定是純值,也可以是Series
frame = pd.DataFrame(np.random.randn(4,3),
                    columns=list('bde'),
                    index=['台北','台中','台南','高雄'])
frame

Unnamed: 0,b,d,e
台北,-0.812315,-0.507539,-0.044107
台中,0.017816,-1.758226,-0.846614
台南,0.310608,-0.226755,0.461839
高雄,0.247513,-0.908478,-1.029405


In [135]:
def f(x):
    return pd.Series([x.min(),x.max()],index=['min','max'])

frame.apply(f)

Unnamed: 0,b,d,e
min,-0.812315,-1.758226,-1.029405
max,0.310608,-0.226755,0.461839


In [137]:
#dataFrame應用到每一value,使用applymap(function)
format = lambda x: '%.2f' % x
frame.applymap(format)

Unnamed: 0,b,d,e
台北,-0.81,-0.51,-0.04
台中,0.02,-1.76,-0.85
台南,0.31,-0.23,0.46
高雄,0.25,-0.91,-1.03


In [138]:
#Series應用每一個value,做用map
frame['e'].map(format)

台北    -0.04
台中    -0.85
台南     0.46
高雄    -1.03
Name: e, dtype: object

## 排序和排名

In [139]:
#使用sort_index()方法,傳回新的已排序的資料
obj = pd.Series(range(4), index=['d', 'a', 'b', 'c'])
obj.sort_index()

a    1
b    2
c    3
d    0
dtype: int64

In [140]:
frame = pd.DataFrame(np.arange(8).reshape((2, 4)),
                    index = ['three', 'one'],
                    columns=['d', 'a', 'b', 'c'])

#dataFrame排序index
frame.sort_index()

Unnamed: 0,d,a,b,c
one,4,5,6,7
three,0,1,2,3


In [141]:
#dataFrame column 排序
frame.sort_index(axis=1)

Unnamed: 0,a,b,c,d
three,1,2,3,0
one,5,6,7,4


In [142]:
#dataFrame 遞減排序
frame.sort_index(axis=1, ascending=False)

Unnamed: 0,d,c,b,a
three,0,3,2,1
one,4,7,6,5


In [143]:
#使用sort_values(),讓series依value的排序
obj = pd.Series([4, 7, -3, 2])
obj.sort_values()

2   -3
3    2
0    4
1    7
dtype: int64

In [144]:
#任何有NaN value的值,排序會在最後
obj = pd.Series([4, np.nan, 7, np.nan, -3, 2])
obj.sort_values()

4   -3.0
5    2.0
0    4.0
2    7.0
1    NaN
3    NaN
dtype: float64

In [146]:
#DataFrame的排序,可指定一個欄位的排序
frame = pd.DataFrame({'b':[4, 7, -3, 2], 'a':[0, 1, 0, 1]})
frame

frame.sort_values(by='b')

Unnamed: 0,b,a
0,4,0
1,7,1
2,-3,0
3,2,1


In [148]:
#DataFrame的排序,可指定多個欄位的排序
frame.sort_values(by=['a', 'b'])

Unnamed: 0,b,a
2,-3,0
0,4,0
3,2,1
1,7,1


In [150]:
#排名使用rank()
obj = pd.Series([7, -5, 7, 4, 2, 0, 4])
obj.rank()

0    6.5
1    1.0
2    6.5
3    4.5
4    3.0
5    2.0
6    4.5
dtype: float64

In [152]:
#先出現的排前面
obj.rank(method='first')

0    6.0
1    1.0
2    7.0
3    4.0
4    3.0
5    2.0
6    5.0
dtype: float64

In [153]:
obj.rank(ascending=False, method='max')

0    2.0
1    7.0
2    2.0
3    4.0
4    5.0
5    6.0
6    4.0
dtype: float64

In [154]:
#DataFrame的排名可使用列或欄
frame = pd.DataFrame({'b':[4.3, 7, -3, 2],
                     'a':[0, 1, 0,1],
                     'c':[-2, 5, 8, -2.5]})
frame

Unnamed: 0,b,a,c
0,4.3,0,-2.0
1,7.0,1,5.0
2,-3.0,0,8.0
3,2.0,1,-2.5


In [155]:
frame.sort_index(axis=1).rank(axis='columns')

Unnamed: 0,a,b,c
0,2.0,3.0,1.0
1,1.0,3.0,2.0
2,2.0,1.0,3.0
3,2.0,3.0,1.0


## 總結和統計
- 如加總和平均
- 可以從DataFrame計算出統計資料的Series

In [156]:
df = pd.DataFrame([[1.4, np.nan],
                  [7.1, -4.5],
                  [np.nan, np.nan],
                  [0.75, -1.3]],
                 index=['a', 'b', 'c', 'd'],
                 columns=['one', 'two'])
df

Unnamed: 0,one,two
a,1.4,
b,7.1,-4.5
c,,
d,0.75,-1.3


In [157]:
#sum()加總
df.sum()

one    9.25
two   -5.80
dtype: float64

In [158]:
df.sum(axis='columns')

a    1.40
b    2.60
c    0.00
d   -0.55
dtype: float64

In [159]:
df = pd.DataFrame([[1.4, np.nan],
                  [7.1, -4.5],
                  [np.nan, np.nan],
                  [0.75, -1.3]],
                 index=['a', 'b', 'c', 'd'],
                 columns=['one', 'two'])
df

Unnamed: 0,one,two
a,1.4,
b,7.1,-4.5
c,,
d,0.75,-1.3


In [160]:
#取出最大值的index
df.idxmax()

one    b
two    d
dtype: object

In [161]:
#使用cumsum(),產生累積值
df.cumsum()

Unnamed: 0,one,two
a,1.4,
b,8.5,-4.5
c,,
d,9.25,-5.8


In [162]:
#使用describe() 產生全部的統計
df.describe()

Unnamed: 0,one,two
count,3.0,2.0
mean,3.083333,-2.9
std,3.493685,2.262742
min,0.75,-4.5
25%,1.075,-3.7
50%,1.4,-2.9
75%,4.25,-2.1
max,7.1,-1.3


## 相關係數(correlation) and 共變異數(Covariance)

### 相關係數 
- r是相關係數  
- 當r>0時，表示兩變數正相關，r<0時，兩變數為負相關。  
- 當|r|=1時，表示兩變數為完全線性相關，即為函數關係。  
- 當r=0時，表示兩變數間無線性相關關係。  
- 當0<|r|<1時，表示兩變數存在一定程度的線性相關。且|r|越接近1，兩變數間線性關係越密切；|r|越接近於0，表示兩變數的線性相關越弱。  
- 一般可按三級劃分：|r|<0.4為低度線性相關；0.4≤|r|<0.7為顯著性相關；0.7≤|r|<1為高度線性相關。

### 共變異數其實就等於在算x和y的相關程度

In [178]:
data = {'年廣告費投入':[12.5, 15.3, 23.2, 26.4, 33.5, 34.4, 39.4, 45.2, 55.4, 60.9],
            '月均銷售額':[21.2, 23.9, 32.9, 34.1, 42.5, 43.2, 49.0, 52.8, 59.4, 63.5]}
dataFrame = pd.DataFrame(data, index=[2020,2019,2018,2017,2016,2015,2014,2013,2012,2011])
dataFrame

Unnamed: 0,年廣告費投入,月均銷售額
2020,12.5,21.2
2019,15.3,23.9
2018,23.2,32.9
2017,26.4,34.1
2016,33.5,42.5
2015,34.4,43.2
2014,39.4,49.0
2013,45.2,52.8
2012,55.4,59.4
2011,60.9,63.5


In [180]:
#相關係數
dataFrame['年廣告費投入'].corr(dataFrame['月均銷售額'])

0.9941983762371884

In [181]:
#共變異數
dataFrame['年廣告費投入'].cov(dataFrame['月均銷售額'])

228.01555555555558

#### Apple,IBM,MFSF,Google股票分析

In [166]:
import pandas_datareader.data as web
#print(web.get_data_yahoo('AAPL'))

all_data = {ticker: web.get_data_yahoo(ticker) for ticker in ['AAPL', 'IBM', 'MSFT', 'GOOG']}
price = pd.DataFrame({ticker: data['Adj Close'] for ticker, data in all_data.items()})
price

Unnamed: 0_level_0,AAPL,IBM,MSFT,GOOG
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2015-03-19,117.333099,128.341202,38.132248,556.462219
2015-03-20,115.860680,130.806686,38.664242,558.825745
2015-03-23,117.066200,132.212097,38.646210,557.279968
2015-03-24,116.587677,130.903015,38.682270,568.628845
2015-03-25,113.541618,127.851295,37.383846,557.255066
...,...,...,...,...
2020-03-11,275.429993,117.970001,153.630005,1215.410034
2020-03-12,248.229996,102.809998,139.059998,1114.910034
2020-03-13,277.970001,107.949997,158.830002,1219.729980
2020-03-16,242.210007,99.080002,135.419998,1084.329956


In [169]:
volume = pd.DataFrame({ticker:data['Volume'] for ticker, data in all_data.items()})
volume

Unnamed: 0_level_0,AAPL,IBM,MSFT,GOOG
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2015-03-19,45809500.0,3878600.0,33879100.0,1197200.0
2015-03-20,68695100.0,9006400.0,71904500.0,2616800.0
2015-03-23,37709700.0,5930100.0,26246100.0,1643800.0
2015-03-24,32842300.0,4346100.0,25513300.0,2583200.0
2015-03-25,51655200.0,5428900.0,43469900.0,2152200.0
...,...,...,...,...
2020-03-11,63899700.0,8446500.0,56371600.0,2608500.0
2020-03-12,104618500.0,12512700.0,93226400.0,4226700.0
2020-03-13,92683000.0,12502100.0,92727400.0,3700100.0
2020-03-16,80605900.0,10568000.0,87905900.0,4252400.0


In [171]:
#和上一筆資料的平均差
returns = price.pct_change()

returns.tail()

Unnamed: 0_level_0,AAPL,IBM,MSFT,GOOG
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2020-03-11,-0.034731,-0.0545,-0.045302,-0.05075
2020-03-12,-0.098755,-0.128507,-0.094838,-0.082688
2020-03-13,0.119808,0.049995,0.142169,0.094017
2020-03-16,-0.128647,-0.082168,-0.14739,-0.111008
2020-03-17,0.04397,0.076403,0.082337,0.032712


In [172]:
## corr() 相關係數(線性關係)
returns['MSFT'].corr(returns['IBM'])

0.5629656816403606

In [174]:
## cov() 共變異數
returns['MSFT'].cov(returns['IBM'])

0.0001360525902655374

In [182]:
#4個股票的相關係數比較
returns.corr()

Unnamed: 0,AAPL,IBM,MSFT,GOOG
AAPL,1.0,0.492204,0.674021,0.612198
IBM,0.492204,1.0,0.562966,0.493046
MSFT,0.674021,0.562966,1.0,0.72852
GOOG,0.612198,0.493046,0.72852,1.0
