# pandas的基礎操作
- 現在可以更深入於資料的分析和操作資料
- 基本操作
    * 重新建立列或欄的索引 - reindexing
    * 刪除部份欄或列 - Dropping Entries from an Axis
    * 使用索引,切割,過濾技術，截取想獲得的資料 - indexing,selection,and Filtering
    * 整數的索引 - integer Indexes
    * 資料集的數學運算 - Arithmetic and Data Alignment
    * 使用function,lambda方法,讀取每一個cell,或欄或列 - Function Application and Mapping
    * 排序資料和排名資料 - Sorting and Ranking
    * 查詢索引是否有重覆的標籤 - Axes indexes with Duplicate Labels
    
- 總合和統計描素 - Summarizing and Computing Descriptive Statistics
    * 相關係數(correlation) and 共變異數(Covariance)
    * 單獨值,值的數量和成員 - Uinque Values, value Counts, and Membership

## 使用reindex()利用重新建立索引產生新的資料集

In [None]:
import pandas as pd
import numpy as np

obj = pd.Series([4.5, 7.2, -5.3, 3.6], index=['d', 'b', 'a', 'c'])
obj
'''
Out[1]: 
d    4.5
b    7.2
a   -5.3
c    3.6
dtype: float64
'''

#使用reindex()方法,重新規劃新索引,並產生新的資料集
#沒有索引到的資料會被移除
#新增的索引會使用 NaN
obj2 = obj.reindex(['a', 'c', 'd', 'e'])
obj2
'''
Out[2]: 
a   -5.3
b    7.2
c    3.6
d    4.5
e    NaN
dtype: float64
'''

#使用引數名稱method='ffill',向前填滿資料
obj3 = pd.Series(['blue', 'purple', 'yellow'], index=[0, 2, 4])
obj3
'''
Out[4]: 
0      blue
2    purple
4    yellow
dtype: object
'''

obj3.reindex(range(6), method='ffill')
'''
Out[5]: 
0      blue
1      blue
2    purple
3    purple
4    yellow
5    yellow
dtype: object
'''


In [None]:
#DataFrame使用reindex()
#reindex()可以重新建立列的索引外,也可以重新建立欄的索引標籤

frame = pd.DataFrame(np.arange(9).reshape(3, 3),
                    index=['a', 'c', 'd'],
                    columns=['台北', '台中', '高雄'])
frame
'''
Out[6]: 
   台北  台中  高雄
a   0   1   2
c   3   4   5
d   6   7   8
'''

#使用reindex()新增row
frame2 = frame.reindex(['a', 'b', 'c', 'd'])
frame2
'''
Out[7]: 
    台北   台中   高雄
a  0.0  1.0  2.0
b  NaN  NaN  NaN
c  3.0  4.0  5.0
d  6.0  7.0  8.0
'''

#使用reindex()移除row
frame2 = frame.reindex(['a', 'c'])
frame2
'''
Out[8]: 
   台北  台中  高雄
a   0   1   2
c   3   4   5
'''

#使用reindex()的columns引數名稱,新增移除column
states = ['台北', '高雄', '台南']
frame2 = frame.reindex(['a', 'c'],columns=states)
frame2
'''
Out[9]: 
    台北   高雄  台南
a  0.0  2.0 NaN
c  3.0  5.0 NaN
'''


## 使用drop()移除欄或列-當列或欄的數量非常多時

- 只有移除,不重新排列順序


In [13]:
#Series
obj = pd.Series(np.arange(5.),index=['a', 'b', 'c', 'd', 'e'])
obj
'''
Out[10]: 
a    0.0
b    1.0
c    2.0
d    3.0
e    4.0
dtype: float64
'''

#使用drop()方法移除一個列索引
new_obj = obj.drop('c')
new_obj

#使用drop()方法移除多個索引
new_obj = obj.drop(['d', 'c'])
new_obj
'''
Out[11]: 
a    0.0
b    1.0
e    4.0
dtype: float64
'''

#DataFrame
data = pd.DataFrame(np.arange(16).reshape(4,4),
                   index=['台北','台中', '台南', '高雄'],
                   columns=['one', 'two', 'three', 'four'])
data
'''
Out[12]: 
    one  two  three  four
台北    0    1      2     3
台中    4    5      6     7
台南    8    9     10    11
高雄   12   13     14    15
'''

#drop()預設是移除row
dropData = data.drop(['台北','台中'])
dropData
'''
Out[13]: 
    one  two  three  four
台南    8    9     10    11
高雄   12   13     14    15
'''

#使用引數名稱axis=1或axis='columns'移除欄
dropData = data.drop('two', axis=1)
dropData
'''
Out[15]: 
    one  three  four
台北    0      2     3
台中    4      6     7
台南    8     10    11
高雄   12     14    15
'''

drapData = data.drop(['two', 'four'], axis='columns')
drapData
'''
Out[16]: 
    one  three
台北    0      2
台中    4      6
台南    8     10
高雄   12     14
'''

#如果是要移除原始資料,必需使用引數名稱inplace=True
data.drop('台北', inplace=True)
data
'''
Out[17]: 
    one  two  three  four
台中    4    5      6     7
台南    8    9     10    11
高雄   12   13     14    15
'''

Unnamed: 0,one,two,three,four
台中,4,5,6,7
台南,8,9,10,11
高雄,12,13,14,15


#### homework1
[homework1](https://github.com/roberthsu2003/PythonForDataAnalysis/blob/master/pandas%E7%9A%84%E5%9F%BA%E7%A4%8E%E5%8A%9F%E8%83%BD/Homework1.ipynb)

## 索引、選取、過濾

In [None]:
#Series的索引(obj[...])類似於ndarray,除了series的索引沒有限定整數,還可以是字串
obj = pd.Series(np.arange(4.), index=['a', 'b', 'c', 'd'])
obj

'''
Out[18]: 
a    0.0
b    1.0
c    2.0
d    3.0
dtype: float64
'''

#使用索引
obj[1]
'''
Out[19]: 1.0
'''

#使用slice()
obj[2:4]
'''
Out[20]: 
c    2.0
d    3.0
dtype: float64
'''

#使用list,index的值
obj[['b', 'a', 'd']]
'''
Out[21]: 
b    1.0
a    0.0
d    3.0
dtype: float64
'''

#使用list,索引
obj[[1, 3]]
'''
Out[22]: 
b    1.0
d    3.0
dtype: float64
'''

#使用boolean series來過瀘
obj[obj < 2]
'''
Out[23]: 
a    0.0
b    1.0
dtype: float64
'''

#使用標籤的slice,不同於整數的slice,最後一個是包含的
obj['b':'c']
'''
Out[24]: 
b    1.0
c    2.0
dtype: float64
'''

#也可使用選取時,給值
obj['b': 'c'] = 5
obj
'''
Out[25]: 
a    0.0
b    5.0
c    5.0
d    3.0
dtype: float64
'''

In [None]:
#DataFrame的索引,主要是取出1個或多個欄位.一個欄位是取出Series
data = pd.DataFrame(np.arange(16).reshape((4, 4)),
                   index=['台北','台中','台南', '高雄'],
                   columns=['one', 'two', 'three', 'four'])
data
'''
Out[27]: 
    one  two  three  four
台北    0    1      2     3
台中    4    5      6     7
台南    8    9     10    11
高雄   12   13     14    15
'''

#取出一欄,是Series
data['two']
'''
Out[28]: 
台北     1
台中     5
台南     9
高雄    13
Name: two, dtype: int64
'''

#使用list取出多欄,取出的是DataFrame
data[['three', 'one']]
'''
Out[29]: 
    three  one
台北      2    0
台中      6    4
台南     10    8
高雄     14   12
'''

#使用數值的slice是取出row,只可以使用slice方式
#不可以只有索引

data[:2]
'''
    one  two  three  four
台北    0    1      2     3
台中    4    5      6     7
'''

#使用boolean series做為選取
'''
Out[34]: 
    one  two  three  four
台中    4    5      6     7
台南    8    9     10    11
高雄   12   13     14    15
'''

#使用boolean dataFrame做為選取
data < 5
'''
Out[35]: 
      one    two  three   four
台北   True   True   True   True
台中   True  False  False  False
台南  False  False  False  False
高雄  False  False  False  False
'''

data[data<5] = 0
data
'''
Out[36]: 
    one  two  three  four
台北    0    0      0     0
台中    0    5      6     7
台南    8    9     10    11
高雄   12   13     14    15
'''

### 使用loc,iloc選取
- loc()使用標籤索引
- iloc()使用整數索引

In [None]:
data = pd.DataFrame(np.arange(16).reshape((4, 4)),
                   index=['台北','台中','台南', '高雄'],
                   columns=['one', 'two', 'three', 'four'])
data
'''
Out[39]: 
    one  two  three  four
台北    0    1      2     3
台中    4    5      6     7
台南    8    9     10    11
高雄   12   13     14    15
'''

#使用loc
data.loc['台北',['two', 'three']]
'''
Out[40]: 
two      1
three    2
Name: 台北, dtype: int64
'''

#使用iloc
data.iloc[2,[3, 0, 1]]
'''
Out[41]: 
four    11
one      8
two      9
Name: 台南, dtype: int64
'''

#使用iloc取出整列
data.iloc[2]
'''
Out[42]: 
one       8
two       9
three    10
four     11
Name: 台南, dtype: int64
'''

#使用iloc
data.iloc[[1, 2],[3, 0, 1]]
'''
Out[43]: 
    four  one  two
台中     7    4    5
台南    11    8    9
'''

#使用loc配合標籤slice語法
print(data.loc[:'台南','two'])
print(5,'----------------------------')



## 數學運算和資料對齊

In [None]:
import pandas as pd
import numpy as np

s1 = pd.Series([7.3, -2.5, 3.4, 1.5], index=['a', 'c', 'd', 'e'])
s2 = pd.Series([-2.1, 3.6, -1.5, 4, 3.1], index=['a', 'c', 'e', 'f', 'g'])

print(s1)
print(1,'--------------------')

print(s2)
print(2,'--------------------')

#運算時使用標籤對齊
print(s1 + s2)
print(3,'--------------------')



In [None]:
#dataFrame運算時同時對齊row和columns標籤
df1 = pd.DataFrame(np.arange(9.).reshape((3, 3)),
                  columns=list('bcd'),
                  index=['台北','台中','台南'])
df2 = pd.DataFrame(np.arange(12.).reshape((4, 3)),
                  columns = list('bde'),
                  index=['高雄','台北','台中','台南'])
print(df1)
print(1,'---------------------')

print(df2)
print(2,'----------------------')

#同時row,column標籤對齊
print(df1 + df2)
print(3,'----------------------')


#都沒有row,column標籤對齊
df1 = pd.DataFrame({'A':[1, 2]})
df2 = pd.DataFrame({'B':[3, 4]})

print(df1)
print(4,'----------------------')

print(df2)
print(5,'----------------------')

df1-df2

In [None]:
#add()方法配合fill_value引數名稱
df1 = pd.DataFrame(np.arange(12.).reshape((3, 4)),
                  columns=list('abcd'))
df2 = pd.DataFrame(np.arange(20.).reshape((4, 5)),
                  columns=list('abcde'))
df2.loc[1, 'b'] = np.nan
print(df1)
print('a','-------------------')
print(df2)
print('b','-------------------')

#使用fill_value
df1.add(df2, fill_value=0)

|方法|表示|
|:--|:--|
|add|+|
|sub|-|
|div|/|
|floordiv|//|
|mul|*|
|pow|**|

## Function 和 Mapping
- numpy 的ufunc也可以使用在pandas上


In [None]:
import pandas as pd
import numpy as np

frame = pd.DataFrame(np.random.randn(4,3),
                    columns=list('bde'),
                    index=['台北','台中','台南','高雄'])
frame

In [None]:
#numpy絕對值
np.abs(frame)

In [None]:
#使用apply(function)
#預設為列,非列的索引,使用整列的方向
#function必需return 值
f = lambda x: x.max() - x.min()
frame.apply(f)

In [None]:
#使用apply(,axis='columns'),使用整欄的方法
f = lambda x: x.max() - x.min()
frame.apply(f, axis='columns')

In [None]:
#使用apply(function)
#function return值不一定是純值,也可以是Series
frame = pd.DataFrame(np.random.randn(4,3),
                    columns=list('bde'),
                    index=['台北','台中','台南','高雄'])
frame

In [None]:
def f(x):
    return pd.Series([x.min(),x.max()],index=['min','max'])

frame.apply(f)

In [None]:
#dataFrame應用到每一value,使用applymap(function)
format = lambda x: '%.2f' % x
frame.applymap(format)

In [None]:
#Series應用每一個value,做用map
frame['e'].map(format)

## 排序和排名

In [None]:
#使用sort_index()方法,傳回新的已排序的資料
obj = pd.Series(range(4), index=['d', 'a', 'b', 'c'])
obj.sort_index()

In [None]:
frame = pd.DataFrame(np.arange(8).reshape((2, 4)),
                    index = ['three', 'one'],
                    columns=['d', 'a', 'b', 'c'])

#dataFrame排序index
frame.sort_index()

In [None]:
#dataFrame column 排序
frame.sort_index(axis=1)

In [None]:
#dataFrame 遞減排序
frame.sort_index(axis=1, ascending=False)

In [None]:
#使用sort_values(),讓series依value的排序
obj = pd.Series([4, 7, -3, 2])
obj.sort_values()

In [None]:
#任何有NaN value的值,排序會在最後
obj = pd.Series([4, np.nan, 7, np.nan, -3, 2])
obj.sort_values()

In [None]:
#DataFrame的排序,可指定一個欄位的排序
frame = pd.DataFrame({'b':[4, 7, -3, 2], 'a':[0, 1, 0, 1]})
frame

frame.sort_values(by='b')

In [None]:
#DataFrame的排序,可指定多個欄位的排序
frame.sort_values(by=['a', 'b'])

In [None]:
#排名使用rank()
obj = pd.Series([7, -5, 7, 4, 2, 0, 4])
obj.rank()

In [None]:
#先出現的排前面
obj.rank(method='first')

In [None]:
obj.rank(ascending=False, method='max')

In [None]:
#DataFrame的排名可使用列或欄
frame = pd.DataFrame({'b':[4.3, 7, -3, 2],
                     'a':[0, 1, 0,1],
                     'c':[-2, 5, 8, -2.5]})
frame

In [None]:
frame.sort_index(axis=1).rank(axis='columns')

## 總結和統計
- 如加總和平均
- 可以從DataFrame計算出統計資料的Series

In [None]:
df = pd.DataFrame([[1.4, np.nan],
                  [7.1, -4.5],
                  [np.nan, np.nan],
                  [0.75, -1.3]],
                 index=['a', 'b', 'c', 'd'],
                 columns=['one', 'two'])
df

In [None]:
#sum()加總
df.sum()

In [None]:
df.sum(axis='columns')

In [None]:
df = pd.DataFrame([[1.4, np.nan],
                  [7.1, -4.5],
                  [np.nan, np.nan],
                  [0.75, -1.3]],
                 index=['a', 'b', 'c', 'd'],
                 columns=['one', 'two'])
df

In [None]:
#取出最大值的index
df.idxmax()

In [None]:
#使用cumsum(),產生累積值
df.cumsum()

In [None]:
#使用describe() 產生全部的統計
df.describe()

## 相關係數(correlation) and 共變異數(Covariance)

### 相關係數 
- r是相關係數  
- 當r>0時，表示兩變數正相關，r<0時，兩變數為負相關。  
- 當|r|=1時，表示兩變數為完全線性相關，即為函數關係。  
- 當r=0時，表示兩變數間無線性相關關係。  
- 當0<|r|<1時，表示兩變數存在一定程度的線性相關。且|r|越接近1，兩變數間線性關係越密切；|r|越接近於0，表示兩變數的線性相關越弱。  
- 一般可按三級劃分：|r|<0.4為低度線性相關；0.4≤|r|<0.7為顯著性相關；0.7≤|r|<1為高度線性相關。

### 共變異數其實就等於在算x和y的相關程度

In [None]:
data = {'年廣告費投入':[12.5, 15.3, 23.2, 26.4, 33.5, 34.4, 39.4, 45.2, 55.4, 60.9],
            '月均銷售額':[21.2, 23.9, 32.9, 34.1, 42.5, 43.2, 49.0, 52.8, 59.4, 63.5]}
dataFrame = pd.DataFrame(data, index=[2020,2019,2018,2017,2016,2015,2014,2013,2012,2011])
dataFrame

In [None]:
#相關係數
dataFrame['年廣告費投入'].corr(dataFrame['月均銷售額'])

In [None]:
#共變異數
dataFrame['年廣告費投入'].cov(dataFrame['月均銷售額'])

#### Apple,IBM,MFSF,Google股票分析

In [None]:
import pandas_datareader.data as web
#print(web.get_data_yahoo('AAPL'))

all_data = {ticker: web.get_data_yahoo(ticker) for ticker in ['AAPL', 'IBM', 'MSFT', 'GOOG']}
price = pd.DataFrame({ticker: data['Adj Close'] for ticker, data in all_data.items()})
price

In [None]:
volume = pd.DataFrame({ticker:data['Volume'] for ticker, data in all_data.items()})
volume

In [None]:
#和上一筆資料的平均差
returns = price.pct_change()

returns.tail()

In [None]:
## corr() 相關係數(線性關係)
returns['MSFT'].corr(returns['IBM'])

In [None]:
## cov() 共變異數
returns['MSFT'].cov(returns['IBM'])

In [None]:
#4個股票的相關係數比較
returns.corr()