# Python-Pandas資料處理套件

Pandas目前最常被大家用來作為資料處理，除了可以讀寫表格，也可以進行資料編輯以及繪製圖表等工作

上課時有提到，Pandas具有兩種資料型態，Series(一維)序列、DataFrame(二維)資料表

In [1]:
#先載入pandas，大家慣用的命名是pd
import pandas as pd

## Series(序列)

In [23]:
#先用之前練習過的list和dictionary來看看
l=[1,2,6,'a']
d={'a': 1, 'b': 4, 'c': 5, 'd': 8}
se1=pd.Series(l)
se2=pd.Series(d)
print(type(a),type(adjs))

<class 'list'> <class 'dict'>


In [38]:
print(l,d,sep="\n")

[1, 2, 6, 'a']
{'a': 1, 'b': 4, 'c': 5, 'd': 8}


In [29]:
print(se1,se2,sep="\n")

0    1
1    2
2    6
3    a
dtype: object
a    1
b    4
c    5
d    8
dtype: int64


In [52]:
#看起來Series像是把list和dictionary換個方向，series也可以用類似list的方式提出前幾筆資料:
se1[:2]

[1, 2]

In [51]:
#這邊把list和dictionary的index列印出來看看，發現list轉換成的series以描述的方式列出來，dictionary則是直接列出
print(se1.index,se2.index)

RangeIndex(start=0, stop=4, step=1) Index(['a', 'b', 'c', 'd'], dtype='object')


In [65]:
#之前在dictionary有討論到預設值以及空值的問題，現在也試試看這邊會遇到甚麼情況
#先定義一段dict準備當series使用
d1={'Chinese':90,'math':88,'English':78}
se1=pd.Series(d1)
se1

Chinese    90
English    78
math       88
dtype: int64

In [79]:
se2=pd.Series(d1,index=['Phd','master','student','Chinese','English'])
se2

Phd         NaN
master      NaN
student     NaN
Chinese    90.0
English    78.0
dtype: float64

從這邊可以看出，如果宣告原本不在的index，會自動填入便將值設為NaN，而沒有提到的math也不會加入新的series se2中

In [68]:
#在資料處理時，有時候會遇到有空值的欄位，這時候就可以使用pandas的另一個函式isnull、notnull
pd.isnull(se2)

Phd         True
master      True
student     True
Chinese    False
English    False
dtype: bool

In [71]:
#若資料已經轉換成series也具有這兩個檢查空值用的函式
se2.notnull()

Phd        False
master     False
student    False
Chinese     True
English     True
dtype: bool

In [81]:
#series中的index也可以重新設定
se2.index=['a','b','c','d','e']
se2

a     NaN
b     NaN
c     NaN
d    90.0
e    78.0
dtype: float64

In [91]:
#list練習時有試過兩個list相加，會將list1,2串聯再一起，現在試試看series相加
se1=pd.Series({'a':1,'b':2,'c':3,'d1':4})
se2=pd.Series({'a':2,'b':4,'c':6,'d2':8})
se1+se2

a     3.0
b     6.0
c     9.0
d1    NaN
d2    NaN
dtype: float64

In [100]:
se1["c"]

3

series物件在index一樣的情形下可以做加減乘除，而不存在的index會新增
另外，他也可以用來做一些邏輯判斷

In [93]:
se1*3

a      3
b      6
c      9
d1    12
dtype: int64

In [92]:
se1[se1>3]

d1    4
dtype: int64

## DataFrame(資料表)

series是一維的資料形式，如果資料具有二維，這時候就可以使用dataframe來處理

In [109]:
data = {"name":["Tom","Pole","Book"], "score":[100,40,80], "number":[9, 8, 7]} 
a=pd.Series(data)
a

name      [Tom, Pole, Book]
number            [9, 8, 7]
score         [100, 40, 80]
dtype: object

In [110]:
df1=pd.DataFrame(data)
df1

Unnamed: 0,name,number,score
0,Tom,9,100
1,Pole,8,40
2,Book,7,80


In [126]:
print(df1.columns,df1.index,sep="\t")

Index(['國', '英', '數'], dtype='object')	Index(['小王', '小明', '小美'], dtype='object')


In [2]:
#這邊改用個淺顯的舉例來試試看
#列標題index為學生，行標題column為科目
data = {"學生":["小王","小明","小美"], "分數":[[100,40,80],[45,67,33],[87,57,99]], "科目":['國','英','數']} 
data['分數']
df1=pd.DataFrame(data['分數'],columns=data['科目'],index=data['學生'])
df1

Unnamed: 0,國,英,數
小王,100,40,80
小明,45,67,33
小美,87,57,99


In [3]:
#可以用以下的方式取出行、列以及值
df1.columns#行
df1.index#列
df1.values#值
print(df1.values,df1.index,df1.columns,sep="\n")

[[100  40  80]
 [ 45  67  33]
 [ 87  57  99]]
Index(['小王', '小明', '小美'], dtype='object')
Index(['國', '英', '數'], dtype='object')


In [4]:
#要選擇行標題之一時，
df1['國']

小王    100
小明     45
小美     87
Name: 國, dtype: int64

若我們現在想要以學生(列標題)作為提取對象，會運用到loc
使用方式df.loc['行標題'[,列標題]]

In [5]:
df1.loc['小王']

國    100
英     40
數     80
Name: 小王, dtype: int64

In [6]:
#兩個學生，兩個科目
df1.loc[('小王','小明'),('數','英')]

Unnamed: 0,數,英
小王,80,40
小明,33,67


In [134]:
#也可以搭配:使用
df1.loc['小明':,('數','英')]

Unnamed: 0,數,英
小明,33,67
小美,99,57


以上都是使用"標題"來做操作，如果想要改以"第幾個"位置標題來做操作，
使用方式df.iloc[列位置[,行位置]]

In [140]:
df1.iloc[1:,2]

小明    33
小美    99
Name: 數, dtype: int64

如果想要混在一起，可以用df.ix來試試看

In [159]:
df1.ix["小明"][:]

國    45
英    67
數    33
Name: 小明, dtype: int64

在取得資料時，常常要檢查頭尾資料，這時候可以使用df.head(),df.tail()

In [157]:
df1.head(1)

Unnamed: 0,國,英,數
小王,100,40,80


In [7]:
#如果發現要新增一筆成績，只要將還沒輸入的列名稱，加上分數即可
df1['理']=[87,35,55]
df1
#如果發現要新增新同學，只要將還沒輸入的行名稱，加上分數即可
df1.loc['小巴'] = [89,34,75,90]
df1

Unnamed: 0,國,英,數,理
小王,100,40,80,87
小明,45,67,33,35
小美,87,57,99,55
小巴,89,34,75,90


資料的修改與排序
剛剛突然發現，小明應該每科都是80分，要怎麼更改原本的dataframe呢?

In [9]:
#用剛剛取得資料的任一種方法，設定一個新的數值即可
df1.ix["小明"][:]=80
df1

Unnamed: 0,國,英,數,理
小王,100,40,80,87
小明,80,80,80,80
小美,87,57,99,55
小巴,89,34,75,90


In [12]:
#現在想做個國語分數的排名，預設ascending是遞增排列
df1.sort_values(by='國',ascending=False)

Unnamed: 0,國,英,數,理
小王,100,40,80,87
小巴,89,34,75,90
小美,87,57,99,55
小明,80,80,80,80


In [11]:
#也可以根據行列標題來做排序，axis=0適用列標題，1是用行標題，一樣也預設ascending是遞增排列
df1.sort_index(axis=0,ascending=True)

Unnamed: 0,國,英,數,理
小巴,89,34,75,90
小明,80,80,80,80
小王,100,40,80,87
小美,87,57,99,55


如果要刪除資料，可以使用df.drop(行或列標題[,axis=行列數值])
df.drop(df.columns,axis=行列數值)
df.drop(df.index,axis=行列數值)
axis=0適用列標題，1是用行標題，在中文表格上使用效果較不好

In [17]:
#小明轉學了，將他移除資料中
df2=df1.drop(['小明'])
df2

Unnamed: 0,國,英,數,理
小王,100,40,80,87
小美,87,57,99,55
小巴,89,34,75,90


In [19]:
#其實不用考理科，要刪除列資料
df2=df1.drop('理',axis=1)
df2

Unnamed: 0,國,英,數
小王,100,40,80
小明,80,80,80
小美,87,57,99
小巴,89,34,75


In [24]:
df3=df1.drop(df1.index[1:3])
df3

Unnamed: 0,國,英,數,理
小王,100,40,80,87
小巴,89,34,75,90


In [28]:
df4=df1.drop(df1.columns[2],axis=1)
df4

Unnamed: 0,國,英,理
小王,100,40,87
小明,80,80,80
小美,87,57,55
小巴,89,34,90
