# Cơ bản về pandas

Nội dung bài này tương ứng với Chương 5 - NumPy Basics: Arrays and Vectorized Computation

Các bạn xem phần đầy đủ của Chương này tại http://nbviewer.jupyter.org/github/pydata/pydata-book/blob/2nd-edition/ch05.ipynb

pandas cung cấp các cấu trúc dữ liệu và công cụ xử lý dữ liệu. pandas sở hữu những tính năng hữu ích của NumPy như các tính toán hỗ trợ mảng và các công cụ xử lý dữ liệu mà không cần vòng lặp.

In [1]:
import pandas as pd

In [2]:
from pandas import Series, DataFrame

## Cấu trúc dữ liệu của pandas

### Series

Một Series là một đối tượng giống như mảng một chiều chứa một chuỗi các giá trị và một mảng liên kết các nhãn của dữ liệu, được gọi là index.

Ví dụ một Series đơn giản nhất chỉ có dữ liệu:

In [3]:
obj = pd.Series([4, 7, -5, 3])
obj

0    4
1    7
2   -5
3    3
dtype: int64

In [4]:
obj.values

array([ 4,  7, -5,  3])

In [5]:
obj.index # giống range(4)

RangeIndex(start=0, stop=4, step=1)

Ví dụ với index:

In [6]:
obj2 = pd.Series([4, 7, -5, 3], index=['d', 'b', 'a', 'c'])
obj2

d    4
b    7
a   -5
c    3
dtype: int64

In [7]:
obj2.index

Index(['d', 'b', 'a', 'c'], dtype='object')

In [8]:
obj2['a']

-5

In [9]:
obj2[['c', 'a', 'd']]

c    3
a   -5
d    4
dtype: int64

Có thể sử dụng các hàm của NumPy hoặc các thao tác tựa như NumPy, như lọc với mảng các giá trị boolean, nhân,...

In [10]:
obj2[obj2 > 0]

d    4
b    7
c    3
dtype: int64

In [11]:
obj2 * 2

d     8
b    14
a   -10
c     6
dtype: int64

In [12]:
import numpy as np
np.exp(obj2)

d      54.598150
b    1096.633158
a       0.006738
c      20.085537
dtype: float64

Có thể xem Series như một dict có thứ tự và độ dài cố định. Do đó, cách sử dụng Series sẽ tương tự như dict:

In [13]:
'b' in obj2

True

Chuyển từ dict thành Series. Thứ tự các index đã được sắp xếp.

In [14]:
sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}
obj3 = pd.Series(sdata)
obj3

Ohio      35000
Oregon    16000
Texas     71000
Utah       5000
dtype: int64

Hàm isnull và notnull được dùng để kiểm tra dữ liệu bị thiếu:

In [15]:
pd.isnull(obj3)

Ohio      False
Oregon    False
Texas     False
Utah      False
dtype: bool

In [16]:
obj3.notnull()

Ohio      True
Oregon    True
Texas     True
Utah      True
dtype: bool

Series có thuộc tính name cho chính nó và index của nó.

In [17]:
obj3.name = 'population'
obj3.index.name = 'state'
obj3

state
Ohio      35000
Oregon    16000
Texas     71000
Utah       5000
Name: population, dtype: int64

index của Series có thể sửa đổi sử dụng lệnh gán:

In [18]:
obj

0    4
1    7
2   -5
3    3
dtype: int64

In [19]:
obj.index = ['Bob', 'Steve', 'Jeff', 'Ryan']
obj

Bob      4
Steve    7
Jeff    -5
Ryan     3
dtype: int64

### DataFrame

Một DataFrame thể hiện một bảng hình chữ nhật của dữ liệu và chứa một tập có thứ tự các cột có thể có kiểu dữ liệu khác nhau. DataFrame có index cho cả hàng và cột.

In [20]:
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
        'year': [2000, 2001, 2002, 2001, 2002, 2003],
        'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}
frame = pd.DataFrame(data)
frame

Unnamed: 0,pop,state,year
0,1.5,Ohio,2000
1,1.7,Ohio,2001
2,3.6,Ohio,2002
3,2.4,Nevada,2001
4,2.9,Nevada,2002
5,3.2,Nevada,2003


In [21]:
frame.head() # hiển thị 5 hàng đầu tiên

Unnamed: 0,pop,state,year
0,1.5,Ohio,2000
1,1.7,Ohio,2001
2,3.6,Ohio,2002
3,2.4,Nevada,2001
4,2.9,Nevada,2002


In [22]:
pd.DataFrame(data, columns=['year', 'state', 'pop']) # xác định cụ thể thứ tự các cột

Unnamed: 0,year,state,pop
0,2000,Ohio,1.5
1,2001,Ohio,1.7
2,2002,Ohio,3.6
3,2001,Nevada,2.4
4,2002,Nevada,2.9
5,2003,Nevada,3.2


In [23]:
frame2 = pd.DataFrame(data, columns=['year', 'state', 'pop', 'debt'],
                      index=['one', 'two', 'three', 'four', 'five', 'six'])
frame2 # truyền một 1 cột không có dữ liệu

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,
five,2002,Nevada,2.9,
six,2003,Nevada,3.2,


Có thể lấy một cột dữ liệu ra dưới dạng Series bằng cách dùng dấu ngoặc vuông hoặc bằng thuộc tính:

In [24]:
frame2['state']

one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
six      Nevada
Name: state, dtype: object

In [25]:
frame2.year

one      2000
two      2001
three    2002
four     2001
five     2002
six      2003
Name: year, dtype: int64

Hàng có thể được lấy ra dựa vào vị trí hoặc tên sử dụng thuộc tính loc:

In [26]:
frame2.loc['three']

year     2002
state    Ohio
pop       3.6
debt      NaN
Name: three, dtype: object

Có thể thay đổi dữ liệu cột bằng phép gán:

In [27]:
frame2['debt'] = 16.5 # bằng 1 scalar
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,16.5
two,2001,Ohio,1.7,16.5
three,2002,Ohio,3.6,16.5
four,2001,Nevada,2.4,16.5
five,2002,Nevada,2.9,16.5
six,2003,Nevada,3.2,16.5


In [28]:
frame2['debt'] = np.arange(6.) # bằng 1 mảng dữ liệu
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,0.0
two,2001,Ohio,1.7,1.0
three,2002,Ohio,3.6,2.0
four,2001,Nevada,2.4,3.0
five,2002,Nevada,2.9,4.0
six,2003,Nevada,3.2,5.0


Khi bạn gán list hoặc array cho một cột, số lượng giá trị phải bằng với số lượng hàng của DataFrame. Nếu bạn gán một Series, các nhãn sẽ được sử dụng để làm index:

In [29]:
val = pd.Series([-1.2, -1.5, -1.7], index=['two', 'four', 'five'])
frame2['debt'] = val
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,-1.2
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,-1.5
five,2002,Nevada,2.9,-1.7
six,2003,Nevada,3.2,


Khi thực hiện gán cho một cột chưa tồn tại thì sẽ tương đương với tạo một cột mới.

In [30]:
frame2['eastern'] = frame2.state == 'Ohio'
frame2

Unnamed: 0,year,state,pop,debt,eastern
one,2000,Ohio,1.5,,True
two,2001,Ohio,1.7,-1.2,True
three,2002,Ohio,3.6,,True
four,2001,Nevada,2.4,-1.5,False
five,2002,Nevada,2.9,-1.7,False
six,2003,Nevada,3.2,,False


Sử dụng hàm del để xoá cột.

In [31]:
del frame2['eastern']
frame2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

Chuyển đổi từ dict of dict thành DataFrame.

In [32]:
pop = {'Nevada': {2001: 2.4, 2002: 2.9},
       'Ohio': {2000: 1.5, 2001: 1.7, 2002: 3.6}}
frame3 = pd.DataFrame(pop)
frame3

Unnamed: 0,Nevada,Ohio
2000,,1.5
2001,2.4,1.7
2002,2.9,3.6


index và cột của DataFrame cũng có thuộc tính name.

In [33]:
frame3.index.name = 'year'; frame3.columns.name = 'state'
frame3

state,Nevada,Ohio
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2000,,1.5
2001,2.4,1.7
2002,2.9,3.6


### Index

In [34]:
obj = pd.Series(range(3), index=['a', 'b', 'c'])
index = obj.index
index

Index(['a', 'b', 'c'], dtype='object')

In [35]:
index[1:]

Index(['b', 'c'], dtype='object')

Index là immutable:

In [36]:
index[1] = 'd' #Type Error

TypeError: Index does not support mutable operations

Tính immutability giúp an toàn hơn khi chia sẻ các Index giữa các cấu trúc dữ liệu:

In [37]:
labels = pd.Index(np.arange(3))
labels

Int64Index([0, 1, 2], dtype='int64')

In [38]:
obj2 = pd.Series([1.5, -2.5, 0], index=labels)
obj2

0    1.5
1   -2.5
2    0.0
dtype: float64

In [39]:
obj2.index is labels

True

Giống mảng, Index cũng hoạt động như một tập hợp với kích thước cố định:

In [40]:
frame3

state,Nevada,Ohio
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2000,,1.5
2001,2.4,1.7
2002,2.9,3.6


In [41]:
frame3.columns

Index(['Nevada', 'Ohio'], dtype='object', name='state')

In [42]:
'Ohio' in frame3.columns

True

In [43]:
2003 in frame3.index

False

Không giống như tập hợp trong Python, Index của pandas có thể chứa các nhãn trùng tên:

In [44]:
dup_labels = pd.Index(['foo', 'foo', 'bar', 'bar'])
dup_labels

Index(['foo', 'foo', 'bar', 'bar'], dtype='object')

Danh sách các hàm và thuộc tính của Index:
1. append
2. difference
3. intersection
4. union
5. isin
6. delete
7. drop
8. insert
9. is_monotonic
10. is_unique
11. unique

## Các chức năng chính

### Reindexing

Một chức năng quan trọng của các đối tượng của pandas là reindex, được dùng khi tạo một đối tượng mới với dữ liệu được chuyển đổi theo một index mới.

In [45]:
obj = pd.Series([4.5, 7.2, -5.3, 3.6], index=['d', 'b', 'a', 'c'])
obj

d    4.5
b    7.2
a   -5.3
c    3.6
dtype: float64

In [46]:
obj2 = obj.reindex(['a', 'b', 'c', 'd', 'e'])
obj2

a   -5.3
b    7.2
c    3.6
d    4.5
e    NaN
dtype: float64

Với các dữ liệu có thứ tự như time series, khi thực hiện reindex, ta có thể thực hiện các phép nội suy. Gán giá trị ffill cho tuỳ chọn method của hàm reindex cho phép ta thực hiện điều này.

In [47]:
obj3 = pd.Series(['blue', 'purple', 'yellow'], index=[0, 2, 4])
obj3

0      blue
2    purple
4    yellow
dtype: object

In [48]:
obj3.reindex(range(6), method='ffill')

0      blue
1      blue
2    purple
3    purple
4    yellow
5    yellow
dtype: object

Với DataFrame, reindex có thể sửa đổi cho hàng, cột hoặc cả hai. Nếu tham số truyền vào chỉ là một danh sách, thì nó sẽ thực hiện sửa đổi cho hàng:

In [49]:
frame = pd.DataFrame(np.arange(9).reshape((3, 3)),
                     index=['a', 'c', 'd'],
                     columns=['Ohio', 'Texas', 'California'])
frame

Unnamed: 0,Ohio,Texas,California
a,0,1,2
c,3,4,5
d,6,7,8


In [50]:
frame2 = frame.reindex(['a', 'b', 'c', 'd'])
frame2

Unnamed: 0,Ohio,Texas,California
a,0.0,1.0,2.0
b,,,
c,3.0,4.0,5.0
d,6.0,7.0,8.0


Sử dụng từ khoá columns để thực hiện reindex trên cột:

In [51]:
states = ['Texas', 'Utah', 'California']
frame.reindex(columns=states)

Unnamed: 0,Texas,Utah,California
a,1,,2
c,4,,5
d,7,,8


Bạn có thể reindex ngắn gọn hơn bằng cách index dựa trên nhãn với hàm loc:

In [52]:
frame.loc[['a', 'b', 'c', 'd'], states]

Passing list-likes to .loc or [] with any missing label will raise
KeyError in the future, you can use .reindex() as an alternative.

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#deprecate-loc-reindex-listlike
  """Entry point for launching an IPython kernel.


Unnamed: 0,Texas,Utah,California
a,1.0,,2.0
b,,,
c,4.0,,5.0
d,7.0,,8.0


### Xoá các entries khỏi một Axis

In [53]:
obj = pd.Series(np.arange(5.), index=['a', 'b', 'c', 'd', 'e'])
obj

a    0.0
b    1.0
c    2.0
d    3.0
e    4.0
dtype: float64

In [54]:
new_obj = obj.drop('c')
new_obj

a    0.0
b    1.0
d    3.0
e    4.0
dtype: float64

In [55]:
obj.drop(['d', 'c'])

a    0.0
b    1.0
e    4.0
dtype: float64

Với DataFrame

In [56]:
data = pd.DataFrame(np.arange(16).reshape((4, 4)),
                    index=['Ohio', 'Colorado', 'Utah', 'New York'],
                    columns=['one', 'two', 'three', 'four'])
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [57]:
data.drop(['Colorado', 'Ohio'])

Unnamed: 0,one,two,three,four
Utah,8,9,10,11
New York,12,13,14,15


Để xoá cột

In [58]:
data.drop('two', axis=1)

Unnamed: 0,one,three,four
Ohio,0,2,3
Colorado,4,6,7
Utah,8,10,11
New York,12,14,15


In [59]:
data.drop(['two', 'four'], axis='columns')

Unnamed: 0,one,three
Ohio,0,2
Colorado,4,6
Utah,8,10
New York,12,14


Sử dụng tham số inplace để áp dụng sửa đổi/xoá trực tiếp cho đối tượng hiện tại:

In [60]:
obj.drop('c', inplace=True)
obj

a    0.0
b    1.0
d    3.0
e    4.0
dtype: float64

### Indexing, Selection và Filtering

In [61]:
obj = pd.Series(np.arange(4.), index=['a', 'b', 'c', 'd'])
obj

a    0.0
b    1.0
c    2.0
d    3.0
dtype: float64

In [62]:
obj['b']

1.0

In [63]:
obj[1]

1.0

In [64]:
obj[2:4]

c    2.0
d    3.0
dtype: float64

In [65]:
obj[['b', 'a', 'd']]

b    1.0
a    0.0
d    3.0
dtype: float64

In [66]:
obj[[1, 3]]

b    1.0
d    3.0
dtype: float64

In [67]:
obj[obj < 2]

a    0.0
b    1.0
dtype: float64

In [68]:
obj['b':'c'] # kết quả slicing khác so với slicing của Python ở chỗ kết quả bao gồm cả endpoint

b    1.0
c    2.0
dtype: float64

In [69]:
obj['b':'c'] = 5
obj

a    0.0
b    5.0
c    5.0
d    3.0
dtype: float64

Với DataFrame:

In [70]:
data = pd.DataFrame(np.arange(16).reshape((4, 4)),
                    index=['Ohio', 'Colorado', 'Utah', 'New York'],
                    columns=['one', 'two', 'three', 'four'])
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [71]:
data['two']

Ohio         1
Colorado     5
Utah         9
New York    13
Name: two, dtype: int64

In [72]:
data[['three', 'one']]

Unnamed: 0,three,one
Ohio,2,0
Colorado,6,4
Utah,10,8
New York,14,12


In [73]:
data[:2] # lựa chọn hàng

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7


In [74]:
data[data['three'] > 5]

Unnamed: 0,one,two,three,four
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [75]:
data < 5

Unnamed: 0,one,two,three,four
Ohio,True,True,True,True
Colorado,True,False,False,False
Utah,False,False,False,False
New York,False,False,False,False


In [76]:
data[data < 5] = 0
data

Unnamed: 0,one,two,three,four
Ohio,0,0,0,0
Colorado,0,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


#### Selection với loc và iloc

In [77]:
data.loc['Colorado', ['two', 'three']]

two      5
three    6
Name: Colorado, dtype: int64

In [78]:
data.iloc[2, [3, 0, 1]]

four    11
one      8
two      9
Name: Utah, dtype: int64

In [79]:
data.iloc[2]

one       8
two       9
three    10
four     11
Name: Utah, dtype: int64

In [80]:
data.iloc[[1, 2], [3, 0, 1]]

Unnamed: 0,four,one,two
Colorado,7,0,5
Utah,11,8,9


In [81]:
data.loc[:'Utah', 'two']

Ohio        0
Colorado    5
Utah        9
Name: two, dtype: int64

In [82]:
data.iloc[:, :3][data.three > 5]

Unnamed: 0,one,two,three
Colorado,0,5,6
Utah,8,9,10
New York,12,13,14


### Các index số nguyên

Các đối tượng pandas được index bằng số nguyên sẽ hành xử hơi khác so với các cấu trúc dữ liệu có sẵn của Python. Ví dụ, đoạn code sau phát sinh lỗi do không thể thực hiện -1 với index kiểu integer. Vì các số 0, 1, 2 được hiểu là các nhãn index. Do đó, nhãn -1 là không tồn tại.

In [83]:
ser = pd.Series(np.arange(3.))
ser
ser[-1]

KeyError: -1

Với các nhãn không phải là integer, thì phép toán -1 sẽ cho ra kết quả đúng:

In [84]:
ser2 = pd.Series(np.arange(3.), index=['a', 'b', 'c'])
ser2[-1]

2.0

Nếu bạn có một index chứa các số integer, việc lựa chọn dữ liệu sẽ dựa trên nhãn. Để xử lý chính xác hơn, hãy sử dụng loc (cho các nhãn) hay iloc (cho các số nguyên):

In [85]:
ser[:1]

0    0.0
dtype: float64

In [86]:
ser.loc[:1]

0    0.0
1    1.0
dtype: float64

In [87]:
ser.iloc[:1]

0    0.0
dtype: float64

### Số học và căn chỉnh dữ liệu

In [88]:
s1 = pd.Series([7.3, -2.5, 3.4, 1.5], index=['a', 'c', 'd', 'e'])
s2 = pd.Series([-2.1, 3.6, -1.5, 4, 3.1], index=['a', 'c', 'e', 'f', 'g'])

In [89]:
s1 + s2

a    5.2
c    1.1
d    NaN
e    0.0
f    NaN
g    NaN
dtype: float64

In [90]:
df1 = pd.DataFrame(np.arange(9.).reshape((3, 3)), columns=list('bcd'),
                   index=['Ohio', 'Texas', 'Colorado'])
df2 = pd.DataFrame(np.arange(12.).reshape((4, 3)), columns=list('bde'),
                   index=['Utah', 'Ohio', 'Texas', 'Oregon'])

In [91]:
df1 + df2

Unnamed: 0,b,c,d,e
Colorado,,,,
Ohio,3.0,,6.0,
Oregon,,,,
Texas,9.0,,12.0,
Utah,,,,


Khi thực hiện các phép tính số học, đôi khi ta muốn gán các giá trị đặc biệt, ví dụ 0, cho những ô không có dữ liệu. Ví dụ:

In [93]:
df1 = pd.DataFrame(np.arange(12.).reshape((3, 4)),
                   columns=list('abcd'))
df1

Unnamed: 0,a,b,c,d
0,0.0,1.0,2.0,3.0
1,4.0,5.0,6.0,7.0
2,8.0,9.0,10.0,11.0


In [95]:
df2 = pd.DataFrame(np.arange(20.).reshape((4, 5)),
                   columns=list('abcde'))
df2.loc[1, 'b'] = np.nan
df2

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,3.0,4.0
1,5.0,,7.0,8.0,9.0
2,10.0,11.0,12.0,13.0,14.0
3,15.0,16.0,17.0,18.0,19.0


In [96]:
df1 + df2

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,
1,9.0,,13.0,15.0,
2,18.0,20.0,22.0,24.0,
3,,,,,


In [97]:
df1.add(df2, fill_value = 0) # sử dụng tham số fill_value

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,4.0
1,9.0,5.0,13.0,15.0,9.0
2,18.0,20.0,22.0,24.0,14.0
3,15.0,16.0,17.0,18.0,19.0


### Các thao tác giữa DataFrame và Series

In [98]:
frame = pd.DataFrame(np.arange(12.).reshape((4, 3)),
                     columns=list('bde'),
                     index=['Utah', 'Ohio', 'Texas', 'Oregon'])
series = frame.iloc[0]

In [99]:
frame

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [100]:
series

b    0.0
d    1.0
e    2.0
Name: Utah, dtype: float64

In [101]:
frame - series

Unnamed: 0,b,d,e
Utah,0.0,0.0,0.0
Ohio,3.0,3.0,3.0
Texas,6.0,6.0,6.0
Oregon,9.0,9.0,9.0


Nếu một index không có trong cột DataFrame hoặc Series, thì thao tác sẽ thành union:

In [103]:
series2 = pd.Series(range(3), index=['b', 'e', 'f'])
series

b    0.0
d    1.0
e    2.0
Name: Utah, dtype: float64

In [104]:
frame + series2

Unnamed: 0,b,d,e,f
Utah,0.0,,3.0,
Ohio,3.0,,6.0,
Texas,6.0,,9.0,
Oregon,9.0,,12.0,


Nếu bạn muốn các tính toán áp dụng cho mỗi cột, thay cho hàng, bạn hãy sử dụng tham số axis:

In [105]:
series3 = frame['d']

In [106]:
frame

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [107]:
series3

Utah       1.0
Ohio       4.0
Texas      7.0
Oregon    10.0
Name: d, dtype: float64

In [108]:
frame.sub(series3, axis = 'index')

Unnamed: 0,b,d,e
Utah,-1.0,0.0,1.0
Ohio,-1.0,0.0,1.0
Texas,-1.0,0.0,1.0
Oregon,-1.0,0.0,1.0


### Sử dụng function và mapping

Đầu tiên, các hàm ufunc của NumPy cũng làm việc được với các đối tượng pandas:

In [109]:
frame = pd.DataFrame(np.random.randn(4, 3), columns=list('bde'),
                     index=['Utah', 'Ohio', 'Texas', 'Oregon'])
frame

Unnamed: 0,b,d,e
Utah,-1.110731,0.759088,-0.433847
Ohio,0.427831,-0.39966,0.996796
Texas,-0.480029,0.477385,-0.139573
Oregon,-0.403474,-2.314936,-1.312216


In [110]:
np.abs(frame)

Unnamed: 0,b,d,e
Utah,1.110731,0.759088,0.433847
Ohio,0.427831,0.39966,0.996796
Texas,0.480029,0.477385,0.139573
Oregon,0.403474,2.314936,1.312216


Sử dụng phương thức apply của DataFrame để áp dụng một hàm trên các cột hay hàng.

In [111]:
f = lambda x: x.max() - x.min() # định nghĩa một hàm

In [112]:
frame.apply(f)

b    1.538562
d    3.074024
e    2.309013
dtype: float64

In [113]:
frame.apply(f, axis='columns') # sử dụng tham số axis để áp dụng cho hàng

Utah      1.869819
Ohio      1.396456
Texas     0.957414
Oregon    1.911462
dtype: float64

Nhiều hàm thống kê (như sum, mean) là đã có trong DataFrame, nên không cần dùng apply nữa.

Hàm được truyền cho apply không bắt buộc phải trả ra kết quả kiểu cơ bản, mà còn có thể trả ra một Series.

In [114]:
def f(x):
    return pd.Series([x.min(), x.max()], index=['min', 'max'])

In [115]:
frame.apply(f)

Unnamed: 0,b,d,e
min,-1.110731,-2.314936,-1.312216
max,0.427831,0.759088,0.996796


Các hàm áp dụng cho từng phần tử (Element-wise) của Python cũng có thể được sử dụng ở đây. Ví dụ: bạn muốn định dạng các số thực trong frame. Bạn có thể sử dụng hàm applymap:

In [116]:
format = lambda x: '%.2f' % x

In [117]:
frame.applymap(format)

Unnamed: 0,b,d,e
Utah,-1.11,0.76,-0.43
Ohio,0.43,-0.4,1.0
Texas,-0.48,0.48,-0.14
Oregon,-0.4,-2.31,-1.31


In [121]:
frame['e'].map(format) # hàm map của Series

Utah      -0.43
Ohio       1.00
Texas     -0.14
Oregon    -1.31
Name: e, dtype: object

### Sắp xếp và xếp hạng

Để sắp xếp theo thứ tự các index, ta sử dụng hàm sort_index:

In [122]:
obj = pd.Series(range(4), index=['d', 'a', 'b', 'c'])

In [123]:
obj.sort_index()

a    1
b    2
c    3
d    0
dtype: int64

In [124]:
frame = pd.DataFrame(np.arange(8).reshape((2, 4)),
                     index=['three', 'one'],
                     columns=['d', 'a', 'b', 'c'])

In [125]:
frame.sort_index()

Unnamed: 0,d,a,b,c
one,4,5,6,7
three,0,1,2,3


In [126]:
frame.sort_index(axis=1)

Unnamed: 0,a,b,c,d
three,1,2,3,0
one,5,6,7,4


Sắp xếp giảm dần:

In [127]:
frame.sort_index(axis=1, ascending=False)

Unnamed: 0,d,c,b,a
three,0,3,2,1
one,4,7,6,5


Sử dụng hàm sort_values để sắp xếp theo dữ liệu của một Series:

In [128]:
obj = pd.Series([4, 7, -3, 2])

In [129]:
obj.sort_values()

2   -3
3    2
0    4
1    7
dtype: int64

Với DataFrame, bạn có thể sắp xếp trên nhiều cột. Để làm điều này, bạn truyền tên các cột cho tham số by của hàm sort_values:

In [130]:
frame = pd.DataFrame({'b': [4, 7, -3, 2], 'a': [0, 1, 0, 1]})
frame

Unnamed: 0,a,b
0,0,4
1,1,7
2,0,-3
3,1,2


In [131]:
frame.sort_values(by='b')

Unnamed: 0,a,b
2,0,-3
3,1,2
0,0,4
1,1,7


In [132]:
frame.sort_values(by=['a', 'b'])

Unnamed: 0,a,b
2,0,-3
0,0,4
3,1,2
1,1,7


Hàm rank cho Series và DataFrame sẽ gán cho mỗi group một vị thứ trung bình.

In [133]:
obj = pd.Series([7, -5, 7, 4, 2, 0, 4])
obj.rank()

0    6.5
1    1.0
2    6.5
3    4.5
4    3.0
5    2.0
6    4.5
dtype: float64

In [135]:
obj.rank(method='first') # giá trị nào nằm trước sẽ có vị thứ cao hơn

0    6.0
1    1.0
2    7.0
3    4.0
4    3.0
5    2.0
6    5.0
dtype: float64

In [136]:
obj.rank(ascending=False, method='max') # sắp xếp theo thứ tự giảm dần 

0    2.0
1    7.0
2    2.0
3    4.0
4    5.0
5    6.0
6    4.0
dtype: float64

Hàm rank trên DataFrame có thể thực hiện trên hàng hoặc cột:

In [137]:
frame = pd.DataFrame({'b': [4.3, 7, -3, 2], 'a': [0, 1, 0, 1],
                      'c': [-2, 5, 8, -2.5]})
frame

Unnamed: 0,a,b,c
0,0,4.3,-2.0
1,1,7.0,5.0
2,0,-3.0,8.0
3,1,2.0,-2.5


In [138]:
frame.rank(axis='columns')

Unnamed: 0,a,b,c
0,2.0,3.0,1.0
1,1.0,3.0,2.0
2,2.0,1.0,3.0
3,2.0,3.0,1.0


## Tính toán Thống kê mô tả

pandas có thể xử lý cho trường hợp thiếu dữ liệu.

In [139]:
df = pd.DataFrame([[1.4, np.nan], [7.1, -4.5], [np.nan, np.nan], [0.75, -1.3]],
                  index=['a', 'b', 'c', 'd'],
                  columns=['one', 'two'])
df

Unnamed: 0,one,two
a,1.4,
b,7.1,-4.5
c,,
d,0.75,-1.3


In [140]:
df.sum()

one    9.25
two   -5.80
dtype: float64

In [141]:
df.sum(axis='columns')

a    1.40
b    2.60
c    0.00
d   -0.55
dtype: float64

Sử dụng tham số skipna để không bỏ qua các giá trị NA trong dữ liệu.

In [142]:
df.mean(axis='columns', skipna=False)

a      NaN
b    1.300
c      NaN
d   -0.275
dtype: float64

Các hàm idxmin, idxmax trả ra vị trí index xuất hiện giá trị min và max.

In [143]:
df.idxmax()

one    b
two    d
dtype: object

In [144]:
df.cumsum()

Unnamed: 0,one,two
a,1.4,
b,8.5,-4.5
c,,
d,9.25,-5.8


In [145]:
df.describe()

Unnamed: 0,one,two
count,3.0,2.0
mean,3.083333,-2.9
std,3.493685,2.262742
min,0.75,-4.5
25%,1.075,-3.7
50%,1.4,-2.9
75%,4.25,-2.1
max,7.1,-1.3


Với dữ liệu phi số, hàm describe tạo ra các thống kê tóm tắt:

In [147]:
obj = pd.Series(['a', 'a', 'b', 'c'] * 4)
obj

0     a
1     a
2     b
3     c
4     a
5     a
6     b
7     c
8     a
9     a
10    b
11    c
12    a
13    a
14    b
15    c
dtype: object

In [148]:
obj.describe()

count     16
unique     3
top        a
freq       8
dtype: object

### Tương quan và phương sai

Cài đặt package pandas-datareader để lấy dữ liệu từ Yahoo! Finance. Để thực hiện, các bạn chuyển cell bên dưới thành dạng code, rồi run.

!conda install pandas-datareader --yes

In [153]:
import pandas_datareader.data as web

Các lệnh tiếp theo sau đây (trích từ sách) là không thể thực hiện được do dịch vụ Yahoo! Finance không còn hoạt động.

all_data = {ticker: web.get_data_yahoo(ticker) for ticker in ['AAPL', 'IBM', 'MSFT', 'GOOG']}

price = pd.DataFrame({ticker: data['Adj Close'] for ticker, data in all_data.items()})

volume = pd.DataFrame({ticker: data['Volume'] for ticker, data in all_data.items()})

Do đó, dữ liệu price và volume sẽ được lấy từ 2 tập tin yahoo_price.pkl và yahoo_volume.pkl trong thư mục Data.

In [156]:
price = pd.read_pickle('Data/yahoo_price.pkl')
volume = pd.read_pickle('Data/yahoo_volume.pkl')

In [159]:
returns = price.pct_change() # tính phần trăm thay đổi của giá
returns.tail() # hiển thị 5 hàng cuối cùng

Unnamed: 0_level_0,AAPL,GOOG,IBM,MSFT
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2016-10-17,-0.00068,0.001837,0.002072,-0.003483
2016-10-18,-0.000681,0.019616,-0.026168,0.00769
2016-10-19,-0.002979,0.007846,0.003583,-0.002255
2016-10-20,-0.000512,-0.005652,0.001719,-0.004867
2016-10-21,-0.00393,0.003011,-0.012474,0.042096


In [161]:
returns['MSFT'].corr(returns['IBM'])

0.4997636114415116

In [162]:
returns['MSFT'].cov(returns['IBM'])

8.870655479703549e-05

In [163]:
returns.corr()

Unnamed: 0,AAPL,GOOG,IBM,MSFT
AAPL,1.0,0.407919,0.386817,0.389695
GOOG,0.407919,1.0,0.405099,0.465919
IBM,0.386817,0.405099,1.0,0.499764
MSFT,0.389695,0.465919,0.499764,1.0


In [164]:
returns.corrwith(returns.IBM)

AAPL    0.386817
GOOG    0.405099
IBM     1.000000
MSFT    0.499764
dtype: float64

In [165]:
returns.corrwith(volume)

AAPL   -0.075565
GOOG   -0.007067
IBM    -0.204849
MSFT   -0.092950
dtype: float64

### Giá trị duy nhất, đếm giá trị và thành phần

In [166]:
obj = pd.Series(['c', 'a', 'd', 'a', 'a', 'b', 'b', 'c', 'c'])

In [168]:
uniques = obj.unique()
uniques

array(['c', 'a', 'd', 'b'], dtype=object)

In [169]:
obj.value_counts()

a    3
c    3
b    2
d    1
dtype: int64

In [170]:
pd.value_counts(obj.values, sort=False)

c    3
b    2
d    1
a    3
dtype: int64

Hàm isin thực hiện kiểm tra thành phần của một vector và hữu dụng để thực hiện lọc dữ liệu trong Series hay cột của DataFrame.

In [171]:
obj

0    c
1    a
2    d
3    a
4    a
5    b
6    b
7    c
8    c
dtype: object

In [172]:
mask = obj.isin(['b', 'c']) # tạo mặt nạ những vị trí có b và c
mask

0     True
1    False
2    False
3    False
4    False
5     True
6     True
7     True
8     True
dtype: bool

In [173]:
obj[mask]

0    c
5    b
6    b
7    c
8    c
dtype: object

Tính histogram cho một DataFrame.

In [175]:
data = pd.DataFrame({'Qu1': [1, 3, 4, 3, 4],
                     'Qu2': [2, 3, 1, 2, 3],
                     'Qu3': [1, 5, 2, 4, 4]})
data

Unnamed: 0,Qu1,Qu2,Qu3
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [177]:
result = data.apply(pd.value_counts).fillna(0)
result

Unnamed: 0,Qu1,Qu2,Qu3
1,1.0,1.0,1.0
2,0.0,2.0,1.0
3,2.0,2.0,0.0
4,2.0,0.0,2.0
5,0.0,0.0,1.0
