# pandas
1 pandas的資料結構  
2 pandas的資料工具  
3 規劃和整理資料  
4 分析資料更為快速  
5 pandas的數值處理方法非常類似於Numpy和Scipy  
6 pandas也是使用array 導向方式處理資料  
7 numpy專門處理相同數值的array資料  
8 pandas專門處理不同資料型態的表格資料  

In [None]:
#一般我們使用pandas的語法如下
import pandas as pd

#如果要直接將Series,DataFrame載入到現在使用的命名空間
from pandas import Series, DataFrame

## pandas的資料結構
1.Series  
2.DataFrame  


## Series
- 類似一個一維的陣列(相似於numpy),但還包含了一些對應資料的符號(index)  

In [None]:
#pd.Series()
#屬性values
#屬性index

import pandas as np


#Seriese -> 類似一個一維的陣列(相似於numpy),但還包含了一些對應資料的符號(index)
obj = pd.Series([4, 7, -5, 3])
obj

#下面左邊是index,右邊的是值.沒有特定指定索引將會採用0 ~ N-1的值(N是這資料的長度)。
'''
Out[23]: 
0    4
1    7
2   -5
3    3
dtype: int64
'''


#使用values的屬性取出numpy的ndarray
obj.values
'''
Out[24]: array([ 4,  7, -5,  3])
'''

#使用index屬性取出index物件
obj.index
#Out[25]: RangeIndex(start=0, stop=4, step=1)



In [None]:
#pd.Series(,index=)
#自定Series索引的label
import pandas as pd

obj2 = pd.Series([4, 7, -5, 3], index=['d', 'b', 'a', 'c'])
obj2
'''
In [27]: obj2                                                                   
Out[27]: 
d    4
b    7
a   -5
c    3
dtype: int64
'''

#使用index屬性取出索引物件
obj2.index
#Out[28]: Index(['d', 'b', 'a', 'c'], dtype='object')


#和numpy不同是，我們可以使用索引的label取出值來
obj2['a']
# output -5

#修改值
obj2['d'] = 6
obj2
'''
Out[30]: 
d    6
b    7
a   -5
c    3
dtype: int64
'''

#使用list取出多個值
obj2[['c', 'a', 'd']]
'''
Out[31]: 
c    3
a   -5
d    6
dtype: int64
'''

In [None]:
import pandas as pd

#使用類似numpy的運算元操作
obj2 = pd.Series([4, 7, -5, 3], index=['d', 'b', 'a', 'c'])
obj2
'''
Out[34]: 
d    4
b    7
a   -5
c    3
dtype: int64
'''

#使用boolean array過濾資料
obj2[obj2 > 0]
'''
Out[33]: 
d    4
b    7
c    3
dtype: int64
'''

#使用和純值的運算
obj2 * 2
'''
Out[35]: 
d     8
b    14
a   -10
c     6
dtype: int64
'''

#使用numpy的數學函式
#自然常数e为底的指数函数
#e=2.71828182846
import numpy as np
np.exp(obj2)
'''
Out[36]: 
d      54.598150
b    1096.633158
a       0.006738
c      20.085537
dtype: float64
'''


In [None]:
#有時可以想像Series是一個固定長度,可以排序的Dictionary
import pandas as pd

obj2 = pd.Series([4, 7, -5, 3], index=['d', 'b', 'a', 'c'])

#使用 in 運算元
#記住是索引

print('b' in obj2)
#Out[41]: True

'e' in obj2
#Out[40]: False

In [None]:
#由於類似Dictionary, 所以也可以使用Dictionary來建立Series
sdata = {'台北':35000, '桃園':71000, '台中':16000, '高雄':5000}
obj3 = pd.Series(sdata)
obj3
'''
Out[44]: 
台北    35000
桃園    71000
台中    16000
高雄     5000
dtype: int64
'''

In [None]:
#使用 index 引數名稱,排序資料
sdata = {'台北':35000, '桃園':71000, '台中':16000, '高雄':5000}
states = ['花蓮','高雄', '台中', '台北']
obj4 = pd.Series(sdata, index=states)
obj4
'''
Out[48]: 
花蓮        NaN
高雄     5000.0
台中    16000.0
台北    35000.0
dtype: float64
'''

In [None]:
obj4
'''
Out[48]: 
花蓮        NaN
高雄     5000.0
台中    16000.0
台北    35000.0
dtype: float64
'''

#使用pd的isnull()和notnull()functions
pd.isnull(obj4)
'''
In [50]: pd.isnull(obj4)                                                        
Out[50]: 
花蓮     True
高雄    False
台中    False
台北    False
dtype: bool
'''

pd.notnull(obj4)
'''
Out[51]: 
花蓮    False
高雄     True
台中     True
台北     True
dtype: bool
'''

#使用Series的method()
obj4.isnull()
'''
Out[52]: 
花蓮     True
高雄    False
台中    False
台北    False
dtype: bool
'''

In [None]:
#2個Series在做數學運算時,會依照索引來做運算

sdata = {'台北':35000, '桃園':71000, '台中':16000, '高雄':5000}
obj3 = pd.Series(sdata)
obj3
'''
Out[53]: 
台北    35000
桃園    71000
台中    16000
高雄     5000
dtype: int64
'''

sdata = {'台北':35000, '桃園':71000, '台中':16000, '高雄':5000}
states = ['花蓮','高雄', '台中', '台北']
obj4 = pd.Series(sdata, index=states)
obj4
'''
Out[55]: 
花蓮        NaN
高雄     5000.0
台中    16000.0
台北    35000.0
dtype: float64
'''

#NaN + 值會得到NaN
obj3 + obj4
'''
Out[56]: 
台中    32000.0
台北    70000.0
桃園        NaN
花蓮        NaN
高雄    10000.0
dtype: float64
'''

In [None]:
#屬性series.name
#屬性series.index.name

#Series物件和index有各自的name屬性
sdata = {'台北':35000, '桃園':71000, '台中':16000, '高雄':5000}
states = ['花蓮','高雄', '台中', '台北']
obj4 = pd.Series(sdata, index=states)

obj4.name = '縣市人口'
obj4.index.name = '縣市'
obj4
'''
Out[60]: 
縣市
花蓮        NaN
高雄     5000.0
台中    16000.0
台北    35000.0
Name: 縣市人口, dtype: float64
'''

In [None]:
#Series的index物件可以被更換的
obj = pd.Series([4, 7, -5, 3])
'''
Out[62]: 
0    4
1    7
2   -5
3    3
dtype: int64
'''

obj.index = ['Bob', 'Steve', 'Jeff', 'Ryan']
obj
'''
Out[64]: 
Bob      4
Steve    7
Jeff    -5
Ryan     3
dtype: int64
'''

- homework1   
    1 將'新北市食品工廠清冊.csv',轉換為Series  
    2 將索引名改為「統一編號」  
    3 將Series名改為「工廠統編清冊」  
    
```
Out[1]: 
統一編號
99611344             鴻輝食品廠
99604192       廣達香食品股份有限公司
99613990             順發糧食行
99600477      台灣塩野香料股份有限公司
99606467      圓金釀造食品股份有限公司
                 ...      
65007117    元茂農產企業股份有限公司二廠
65007172         萬寶客股份有限公司
65007211          昆帝食品有限公司
65007246       嚐鱻食品有限公司板橋廠
65007247          崴欣國際有限公司
Name: 工廠統編清冊, Length: 1232, dtype: object
```

    4 排序索引  

```
統一編號
01000070           小潘蛋糕坊
01000084    國鼎生物科技股份有限公司
01000112        大新食品有限公司
01000119        佑善生技有限公司
01000129        松村實業有限公司
                ...     
T6500641         普光傳統豆腐店
T6500647           山井食品行
T6500656           柏源盛商行
T6500666         名品客家美食行
T6500672        台品興業有限公司
Name: 工廠統編清冊, Length: 1232, dtype: object
```

    5 取出'0100070'~'0101000'的廠商
```
Out[5]: 
統一編號
01000070           小潘蛋糕坊
01000084    國鼎生物科技股份有限公司
01000112        大新食品有限公司
01000119        佑善生技有限公司
01000129        松村實業有限公司
01000181     滿盈食品有限公司五股廠
01000202       威斯登食品有限公司
01000203       金軒揚食品有限公司
01000231    承恩食品企業股份有限公司
01000235         耕耘川有限公司
01000241           洪記食品行
01000260       小南門食品有限公司
Name: 工廠統編清冊, dtype: object
```
[解題]()

## DataFrame
- DataFrame可以展示表格資料  
- DataFrame有columns,每個column可以有不同的資料型態(數值,字串,布林)  
- DataFrame有2個index,一個是row的index,一個是column的index  
- 可以想像很多有相同index的Series,組成DataFrame,每個Series有自已的column索引

In [None]:
#pd.DataFrame()
#實體.head()

#有非常多種方式可以建立DataFrame,最常用的是Dictionary,然後key當作column的索引,list當作value
data = {
    '縣市': ['台北','台北','台北', '新竹', '新竹', '新竹'],
    '年份': [2000, 2001, 2002, 2001, 2002, 2003],
    '人口': [2.2, 2.5, 2.7, 1.1, 1.5, 2.0]
}

#會自動產生row的index
frame = pd.DataFrame(data)
frame
'''
Out[67]: 
   縣市    年份   人口
0  台北  2000  2.2
1  台北  2001  2.5
2  台北  2002  2.7
3  新竹  2001  1.1
4  新竹  2002  1.5
5  新竹  2003  2.0
'''


#有時資料會非常多,如果要只看前面幾筆,可以使用head()方法,只顯示前面幾筆
#head()
frame.head()
'''
Out[68]: 
   縣市    年份   人口
0  台北  2000  2.2
1  台北  2001  2.5
2  台北  2002  2.7
3  新竹  2001  1.1
4  新竹  2002  1.5
'''

In [None]:
#pd.DataFrame(,columns=)
#如果指定引數名稱columns,則DataFrame欄位名稱將依照columns的順序排列
data = {
    '縣市': ['台北','台北','台北', '新竹', '新竹', '新竹'],
    '年份': [2000, 2001, 2002, 2001, 2002, 2003],
    '人口': [2.2, 2.5, 2.7, 1.1, 1.5, 2.0]
}

pd.DataFrame(data, columns=['年份','人口', '縣市'])
'''
Out[69]: 
     年份   人口  縣市
0  2000  2.2  台北
1  2001  2.5  台北
2  2002  2.7  台北
3  2001  1.1  新竹
4  2002  1.5  新竹
5  2003  2.0  新竹
'''

In [None]:
#pd.DataFrame(,columns=,index=)
#屬性columns

#dataFrame['欄位索引']
#屬性dataFrame.欄位索引

#dataFrame['列索引','欄位索引'](錯誤語法,但numpy可以)

#如果傳遞的columns,沒有包含在data的key內,則會產生遺失的value
data = {
    '縣市': ['台北','台北','台北', '新竹', '新竹', '新竹'],
    '年份': [2000, 2001, 2002, 2001, 2002, 2003],
    '人口': [2.2, 2.5, 2.7, 1.1, 1.5, 2.0]
}

frame2 = pd.DataFrame(data, 
                      columns=['年份', '縣市', '人口', '負債'], 
                      index=['one', 'two', 'three', 'foru', 'five', 'six'])
frame2
'''
Out[70]: 
         年份  縣市   人口   負債
one    2000  台北  2.2  NaN
two    2001  台北  2.5  NaN
three  2002  台北  2.7  NaN
foru   2001  新竹  1.1  NaN
five   2002  新竹  1.5  NaN
six    2003  新竹  2.0  NaN
'''

#使用columns屬性,取出columns的索引
frame2.columns
#Out[71]: Index(['年份', '縣市', '人口', '負債'], dtype='object')

#可以取出DataFrame的一個欄位,將會傳出Series
frame2['縣市']
'''
Out[72]: 
one      台北
two      台北
three    台北
foru     新竹
five     新竹
six      新竹
Name: 縣市, dtype: object
'''
#也可以屬性的方式,取出column
frame2.人口
'''
Out[73]: 
one      2.2
two      2.5
three    2.7
foru     1.1
five     1.5
six      2.0
Name: 人口, dtype: float64
'''

#frame2['縣市']語法可以有不同的語法
#frame2.人口 點的語法,只有一個功能,取出人口欄位
#取出的Series的name屬性會使用欄位名稱


In [None]:
#loc[索引名稱]
#可以使用loc的屬性,傳入位置或索引名稱取出rows
data = {
    '縣市': ['台北','台北','台北', '新竹', '新竹', '新竹'],
    '年份': [2000, 2001, 2002, 2001, 2002, 2003],
    '人口': [2.2, 2.5, 2.7, 1.1, 1.5, 2.0]
}

frame2 = pd.DataFrame(data, columns=['年份', '縣市', '人口', '負債'], index=['one', 'two', 'three', 'four', 'five', 'six'])
frame2
'''
Out[76]: 
         年份  縣市   人口   負債
one    2000  台北  2.2  NaN
two    2001  台北  2.5  NaN
three  2002  台北  2.7  NaN
four   2001  新竹  1.1  NaN
five   2002  新竹  1.5  NaN
six    2003  新竹  2.0  NaN
'''

#loc[索引名稱]
frame2.loc['three']
'''
Out[77]: 
年份    2002
縣市      台北
人口     2.7
負債     NaN
Name: three, dtype: object
'''

#可以使用指定運算子,改變裏面的值
frame2['負債'] = 16.5
frame2
'''
Out[78]: 
         年份  縣市   人口    負債
one    2000  台北  2.2  16.5
two    2001  台北  2.5  16.5
three  2002  台北  2.7  16.5
four   2001  新竹  1.1  16.5
five   2002  新竹  1.5  16.5
six    2003  新竹  2.0  16.5
'''

frame2['負債'] = np.arange(6.)
frame2
'''
Out[79]: 
         年份  縣市   人口   負債
one    2000  台北  2.2  0.0
two    2001  台北  2.5  1.0
three  2002  台北  2.7  2.0
four   2001  新竹  1.1  3.0
five   2002  新竹  1.5  4.0
six    2003  新竹  2.0  5.0
'''

In [None]:
#當指定是list或array給欄位時,長度必需要和DataFrame欄位的長度一樣
#如果指定的是Series,Series的索引會對應DataFrame欄位的索引,如果是DataFrame沒有的索引,則會自動補上NaN的值
val = pd.Series([-1.2, -1.5, -1.7], index=['two', 'four', 'five'])
frame2['負債'] = val
frame2
'''
Out[81]: 
         年份  縣市   人口   負債
one    2000  台北  2.2  NaN
two    2001  台北  2.5 -1.2
three  2002  台北  2.7  NaN
four   2001  新竹  1.1 -1.5
five   2002  新竹  1.5 -1.7
six    2003  新竹  2.0  NaN
'''

In [None]:
#如果指定的欄位名稱是沒有出現過的,則代表新增一個欄位

frame2['新開發區'] = frame2.縣市 == '新竹'
frame2
'''
Out[82]: 
         年份  縣市   人口   負債   新開發區
one    2000  台北  2.2  NaN  False
two    2001  台北  2.5 -1.2  False
three  2002  台北  2.7  NaN  False
four   2001  新竹  1.1 -1.5   True
five   2002  新竹  1.5 -1.7   True
six    2003  新竹  2.0  NaN   True
'''
#注意新增不可以使用點運算子的方法. frame2.新開發區 = xxxx

In [None]:
# del運算子,可以刪除欄位,操作方式和dictionary
del frame2['新開發區']
frame2
'''
Out[83]: 
         年份  縣市   人口   負債
one    2000  台北  2.2  NaN
two    2001  台北  2.5 -1.2
three  2002  台北  2.7  NaN
four   2001  新竹  1.1 -1.5
five   2002  新竹  1.5 -1.7
six    2003  新竹  2.0  NaN
'''

In [None]:
#注意[索引]方式,取出的Columns是個View,而不是copy一份出來,如果是要取出是獨立的一份,請使用Series的copy()方法
copyFrame = frame2['人口'].copy()
copyFrame['one'] = 3.0
copyFrame
'''
Out[84]: 
one      3.0
two      2.5
three    2.7
four     1.1
five     1.5
six      2.0
Name: 人口, dtype: float64
'''

frame2.人口
'''
Out[86]: 
one      2.2
two      2.5
three    2.7
four     1.1
five     1.5
six      2.0
Name: 人口, dtype: float64
'''

In [None]:
#另一種常見方式是建立巢狀的Dictionary
#如果使用巢狀的Dictionary,外面的key當作Column的索引,裏面的key當作row的索引
pop = {'台北':{2001:2.4, 2002:2.9},
      '高雄':{2000:1.5, 2001:1.7, 2002:3.6}}
frame3 = pd.DataFrame(pop)
frame3
'''
Out[87]: 
       台北   高雄
2001  2.4  1.7
2002  2.9  3.6
2000  NaN  1.5
'''

In [None]:
#可以調換欄和列的位置,使用和numpy一樣的語法
frame4 = frame3.T
frame4
'''
Out[88]: 
    2001  2002  2000
台北   2.4   2.9   NaN
高雄   1.7   3.6   1.5
'''

In [None]:
#指定特定的columns可以重新排序新的位置
frame4.columns = [2000 ,2001, 2002]
frame4
'''
Out[89]: 
    2000  2001  2002
台北   2.4   2.9   NaN
高雄   1.7   3.6   1.5
'''

#也可以在建立時就使用引數名稱index直接排序
pop = {'台北':{2001:2.4, 2002:2.9},
      '高雄':{2000:1.5, 2001:1.7, 2002:3.6}}
frame3 = pd.DataFrame(pop, index=[2001, 2002, 2003])
frame3

'''
Out[90]: 
       台北   高雄
2001  2.4  1.7
2002  2.9  3.6
2003  NaN  NaN
'''

In [None]:
#dataFrame.index.name=
#dataFrame.columns.name=
#可以使用name屬設定DataFrame的欄位名稱和索引名稱
frame3.index.name = "年份"
frame3.columns.name = "縣市"
frame3
'''
Out[91]: 
縣市     台北   高雄
年份            
2001  2.4  1.7
2002  2.9  3.6
2003  NaN  NaN
'''

In [None]:
#使用values屬性取出ndArray
frame3.values
'''
Out[92]: 
array([[2.4, 1.7],
       [2.9, 3.6],
       [nan, nan]])
'''

## pandas和Series 的 Index物件
- index物件將對應到matpoltlib圖表的軸  
- 如果要以圖表顯示,必需注意到column和index內所儲存的值  

In [None]:
import numpy as np
import pandas as pd

obj = pd.Series(range(3), index=['a', 'b', 'c'])
index = obj.index
index
#Out[93]: Index(['a', 'b', 'c'], dtype='object')
index[1:]
#Out[94]: Index(['b', 'c'], dtype='object')

In [None]:
#index是不可變的內容
#index[1] = 'd' # typeError

In [None]:
#pd.Index()
#使用pd.Index建立自訂的index
labels = pd.Index(np.arange(3))
labels
#Out[95]: Int64Index([0, 1, 2], dtype='int64')

obj2 = pd.Series([1.5, -2.5, 0], index = labels)
obj2
'''
Out[96]: 
0    1.5
1   -2.5
2    0.0
dtype: float64
'''

In [None]:
pop = {'台北':{2001:2.4, 2002:2.9},
      '高雄':{2000:1.5, 2001:1.7, 2002:3.6}}
frame3 = pd.DataFrame(pop, index=[2000, 2001, 2002])
frame3
'''
Out[97]: 
       台北   高雄
2000  NaN  1.5
2001  2.4  1.7
2002  2.9  3.6

'''

In [None]:
#index物件除了像ndarra外,也很像固定的set
#可以使用 in 運算子

frame3.columns
#Out[98]: Index(['台北', '高雄'], dtype='object')

'台北' in frame3.columns
#Out[99]: True

'新竹' in frame3.columns
#Out[100]: False

In [18]:
#pandas的index物件內容是可以有重複值的
dup_labels = pd.Index(['foo', 'foo', 'bar', 'bar'])
dup_labels
#Out[101]: Index(['foo', 'foo', 'bar', 'bar'], dtype='object')

Index(['foo', 'foo', 'bar', 'bar'], dtype='object')

#### 