# Getting started with pandas

## Introduction to pandas Data Structures

In [50]:
import pandas as pd
import numpy as np
from pandas import Series, DataFrame

### Series


Tạo một mảng một chiều chứa một mảng dữ liệu

In [51]:
obj = Series([4, 7, -5, 3])
obj

0    4
1    7
2   -5
3    3
dtype: int64

 Giá trị của từng phần tử

In [52]:
obj.values 

array([ 4,  7, -5,  3], dtype=int64)

Chỉ mục của từng phần từ bắt đầu từ 0 đến N-1 với N là độ dài của dữ liệu

In [53]:
obj.index   

RangeIndex(start=0, stop=4, step=1)

Thông thường ta gán vào từng phần tử của mảng ứng với từng chỉ mục

In [54]:
obj2 = Series([4, 7, -5, 3], index=['d', 'b', 'a', 'c']) 
obj2

d    4
b    7
a   -5
c    3
dtype: int64

Phần tử tại chỉ mục 'a'

In [55]:
obj2['a'] 

-5

Thay thế phần tử tại chỉ mục 'd' = 6 

In [56]:
obj2['d'] = 6

In ra kết quả tại các chỉ mục 'c','a','d' lúc này chỉ mục tại 'd' được thay = 6 

In [57]:
obj2[['c', 'a', 'd']]

c    3
a   -5
d    6
dtype: int64

In [58]:
obj2

d    6
b    7
a   -5
c    3
dtype: int64

Chỉ in ra với các phần tử > 0

In [59]:
obj2[obj2 > 0]

d    6
b    7
c    3
dtype: int64

Nhân đôi giá trị của từng phần tử

In [60]:
obj2 * 2

d    12
b    14
a   -10
c     6
dtype: int64

In ra e^x của mỗi phần tử

In [61]:
np.exp(obj2)

d     403.428793
b    1096.633158
a       0.006738
c      20.085537
dtype: float64

Xem chỉ mục 'b' có trong obj2 hay không 

In [62]:
'b' in obj2

True

Xem chỉ mục 'c' có trong obj2 hay không

In [63]:
'e' in obj2

False

Ta có thể tạo một Series từ một dict

In [64]:
sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}
obj3 = Series(sdata)
obj3

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

Khi chỉ truyền một dict, chỉ mục ở kết quả trả về của Series sẽ có các dict’s keys theo thứ tự được sắp xếp.

In [65]:
states = ['California', 'Ohio', 'Oregon', 'Texas']
obj4 = Series(sdata, index=states)
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

Chỉ có giá trị tại chỉ mục 'California' bằng null

In [66]:
pd.isnull(obj4) 

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [67]:
pd.notnull(obj4)

California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool

Cộng trừ theo từng chỉ mục của Series

In [68]:
obj3 

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

In [69]:
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

In [70]:
obj3 + obj4

California         NaN
Ohio           70000.0
Oregon         32000.0
Texas         142000.0
Utah               NaN
dtype: float64

Series có thuộc tính name và chỉ mục của nó cũng vậy

In [71]:
obj4.name = 'population'
obj4.index.name = 'state'
obj4

state
California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
Name: population, dtype: float64

Một chỉ mục của Series có thể được thay đổi tại chỗ bằng cách gán

In [72]:
obj.index = ['Bob', 'Steve', 'Jeff', 'Ryan']
obj

Bob      4
Steve    7
Jeff    -5
Ryan     3
dtype: int64

### DataFrame

Xây dựng DataFrame bằng một dict của các lists cùng chiều dài hoặc Numpy arrays

In [73]:
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'],
        'year': [2000, 2001, 2002, 2001, 2002],
        'pop': [1.5, 1.7, 3.6, 2.4, 2.9]}
frame = DataFrame(data)

Kết quả DataFrame sẽ được chỉ định tự động như với Series và các cột được sắp xếp theo thứ tự

In [74]:
frame

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9


Ta có thể sắp xếp lại theo cách sau

In [75]:
DataFrame(data, columns=['year', 'state', 'pop'])

Unnamed: 0,year,state,pop
0,2000,Ohio,1.5
1,2001,Ohio,1.7
2,2002,Ohio,3.6
3,2001,Nevada,2.4
4,2002,Nevada,2.9


Như với Series, nếu bạn chuyển một cột không có trong data, no sẽ xuất hiện giá trị NA trong kết quả trả về

In [76]:
frame2 = DataFrame(data, columns=['year', 'state', 'pop', 'debt'],index=['one', 'two', 'three', 'four', 'five'])
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,
five,2002,Nevada,2.9,


In [77]:
frame2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

In ra các phần tử của cột 'state'

In [78]:
frame2['state']

one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
Name: state, dtype: object

Hoặc có thể làm bằng cách sử dụng thuộc tính như sau

In [79]:
frame2.year

one      2000
two      2001
three    2002
four     2001
five     2002
Name: year, dtype: int64

Truy xuất các giá trị theo hàng

In [80]:
frame2.loc['three']

year     2002
state    Ohio
pop       3.6
debt      NaN
Name: three, dtype: object

Có thể thay đổi cả một cột

In [81]:
frame2['debt'] = 16.5
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,16.5
two,2001,Ohio,1.7,16.5
three,2002,Ohio,3.6,16.5
four,2001,Nevada,2.4,16.5
five,2002,Nevada,2.9,16.5


In [82]:
frame2['debt'] = np.arange(5.)
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,0.0
two,2001,Ohio,1.7,1.0
three,2002,Ohio,3.6,2.0
four,2001,Nevada,2.4,3.0
five,2002,Nevada,2.9,4.0


Hoặc từng dòng cụ thể dựa vào Series

In [83]:
val = Series([-1.2, -1.5, -1.7], index=['two', 'four', 'five'])
frame2['debt'] = val
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,-1.2
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,-1.5
five,2002,Nevada,2.9,-1.7


Tạo một cột mới với thuộc tính (một cột mới) có tên là 'eastern', với thuộc tính 'state' của phần tử nào = 'Ohio' thì bằng true ngược lại là false 

In [84]:
frame2['eastern'] = frame2.state == 'Ohio'
frame2

Unnamed: 0,year,state,pop,debt,eastern
one,2000,Ohio,1.5,,True
two,2001,Ohio,1.7,-1.2,True
three,2002,Ohio,3.6,,True
four,2001,Nevada,2.4,-1.5,False
five,2002,Nevada,2.9,-1.7,False


Một dạng dữ liệu phổ biến khác là định dạng dict of dict lồng nhau

In [85]:
pop = {'Nevada': {2001: 2.4, 2002: 2.9},'Ohio': {2000: 1.5, 2001: 1.7, 2002: 3.6}}

Nếu được chuyển đến DataFrame, nó sẽ diễn giải các khóa dict bên ngoài là các cột và bên trong các phím làm chỉ số hàng

In [86]:
frame3 = DataFrame(pop)
frame3

Unnamed: 0,Nevada,Ohio
2001,2.4,1.7
2002,2.9,3.6
2000,,1.5


Tất nhiên, bạn luôn có thể chuyển đổi kết quả

In [87]:
frame3.T

Unnamed: 0,2001,2002,2000
Nevada,2.4,2.9,
Ohio,1.7,3.6,1.5


Các keys trong các ô bên trong được liên kết và sắp xếp để tạo thành chỉ mục trong kết quả

In [88]:
DataFrame(pop, index=[2001, 2002, 2003])

Unnamed: 0,Nevada,Ohio
2001,2.4,1.7
2002,2.9,3.6
2003,,


Dicts of Series được thể hiện trong cùng một cách

In [89]:
pdata = {'Ohio': frame3['Ohio'][:-1],'Nevada': frame3['Nevada'][:2]}
DataFrame(pdata)

Unnamed: 0,Ohio,Nevada
2001,1.7,2.4
2002,3.6,2.9


Nếu chỉ mục và các cột của DataFrame có thuộc tính tên được đặt, thì những thuộc tính này cũng sẽ hiển th

In [90]:
frame3.index.name = 'year'; frame3.columns.name = 'state'
frame3

state,Nevada,Ohio
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2001,2.4,1.7
2002,2.9,3.6
2000,,1.5


Giống như Series, thuộc tính values trả về dữ liệu có trong DataFrame dưới dạng 2D

In [91]:
frame3.values

array([[2.4, 1.7],
       [2.9, 3.6],
       [nan, 1.5]])

Nếu các cột của DataFrame là các kiểu khác nhau, thì kiểu của mảng giá trị sẽ là được chọn để chứa tất cả các cột:

In [92]:
frame2.values

array([[2000, 'Ohio', 1.5, nan, True],
       [2001, 'Ohio', 1.7, -1.2, True],
       [2002, 'Ohio', 3.6, nan, True],
       [2001, 'Nevada', 2.4, -1.5, False],
       [2002, 'Nevada', 2.9, -1.7, False]], dtype=object)

### Index Objects

In [93]:
import numpy as np 
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib

In [94]:
 obj = pd.Series(range(3), index=['a', 'b', 'c'])
 index = obj.index
 index


Index(['a', 'b', 'c'], dtype='object')

In [95]:
index[1:]


Index(['b', 'c'], dtype='object')

In [96]:
index[1] = 'd'

TypeError: Index does not support mutable operations

Các đối tượng chỉ mục là cố định và do đó người dùng không thể sửa đổi:

In [97]:
 index = pd.Index(np.arange(3))
 obj2 = pd.Series([1.5, -2.5, 0], index=index)
 obj2.index is index

True

Tính bất biến rất quan trọng để các đối tượng chỉ mục có thể được chia sẻ một cách an toàn giữa các dữ liệu.

In [98]:
pop = {'Nevada': {2001: 2.4, 2002: 2.9},
       'Ohio': {2000: 1.5, 2001: 1.7, 2002: 3.6}}
frame3 = pd.DataFrame(pop)
frame3.index.name = 'year'; frame3.columns.name = 'state'
frame3

state,Nevada,Ohio
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2001,2.4,1.7
2002,2.9,3.6
2000,,1.5


In [99]:
 'Ohio' in frame3.columns

True

In [100]:
2003 in frame3.index

False

Ngoài việc giống như mảng, một chỉ mục cũng có chức năng như một tập hợp kích thước cố định.

## Essential Functionality

### Reindexing

In [101]:
 obj = pd.Series([4.5, 7.2, -5.3, 3.6], index=['d', 'b', 'a', 'c'])
 obj

d    4.5
b    7.2
a   -5.3
c    3.6
dtype: float64

In [102]:
 obj2 = obj.reindex(['a', 'b', 'c', 'd', 'e'])
 obj2

a   -5.3
b    7.2
c    3.6
d    4.5
e    NaN
dtype: float64

Việc gọi reindex trên Series này sắp xếp lại dữ liệu theo chỉ mục mới, các giá trị bị thiếu NaN được điền vào nếu chưa có bất kỳ giá trị chỉ mục nào

In [103]:
 obj.reindex(['a', 'b', 'c', 'd', 'e'], fill_value=0)

a   -5.3
b    7.2
c    3.6
d    4.5
e    0.0
dtype: float64

Sử dụng thuộc tính fill_value=0 để điền giá trị 0 còn thiếu vào dữ liệu

In [104]:
obj3 = pd.Series(['blue', 'purple', 'yellow'], index=[0, 2, 4])
obj3.reindex(range(6), method='ffill')

0      blue
1      blue
2    purple
3    purple
4    yellow
5    yellow
dtype: object

Sử dụng method='ffill' có thể điền các giá trị cho các index còn thiếu.

In [105]:
 frame = pd.DataFrame(np.arange(9).reshape((3, 3)), index=['a', 'c', 'd'],
 columns=['Ohio', 'Texas', 'California'])
 frame

Unnamed: 0,Ohio,Texas,California
a,0,1,2
c,3,4,5
d,6,7,8


Với DataFrame, reindex có thể lập chỉ mục (hàng), cột hoặc cả hai. Khi chỉ được truyền một chuỗi, các hàng được lập chỉ mục lại trong kết quả

In [106]:
 frame2 = frame.reindex(['a', 'b', 'c', 'd'])

In [107]:
frame2

Unnamed: 0,Ohio,Texas,California
a,0.0,1.0,2.0
b,,,
c,3.0,4.0,5.0
d,6.0,7.0,8.0


Các hàng có thể được lập chỉ mục lại bằng cách sử dụng từ khóa hàng

In [108]:
 states = ['Texas', 'Utah', 'California']
 frame.reindex(columns=states)

Unnamed: 0,Texas,Utah,California
a,1,,2
c,4,,5
d,7,,8


Các cột có thể được lập chỉ mục lại bằng cách sử dụng từ khóa cột

In [109]:
frame.reindex(index=['a', 'b', 'c', 'd'],columns=states ).ffill()

Unnamed: 0,Texas,Utah,California
a,1.0,,2.0
b,1.0,,2.0
c,4.0,,5.0
d,7.0,,8.0


In [110]:
frame.reindex(index=['a', 'b', 'c', 'd'],columns= states)

Unnamed: 0,Texas,Utah,California
a,1.0,,2.0
b,,,
c,4.0,,5.0
d,7.0,,8.0


Cả hai đều có thể được lập chỉ mục lại trong một lần gộp, mặc dù phép nội suy sẽ chỉ áp dụng theo hàng (axis0)

### Dropping entries from an axis

In [111]:
 obj = pd.Series(np.arange(5.), index=['a', 'b', 'c', 'd', 'e'])
 new_obj = obj.drop('c')
 new_obj

a    0.0
b    1.0
d    3.0
e    4.0
dtype: float64

In [112]:
 obj.drop(['d', 'c'])

a    0.0
b    1.0
e    4.0
dtype: float64

Với DataFrame, các giá trị chỉ mục có thể bị xóa khỏi DataFrame

In [113]:
data =pd.DataFrame(np.arange(16).reshape((4, 4)),
index=['Ohio', 'Colorado', 'Utah', 'New York'],
columns=['one', 'two', 'three', 'four'])
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [114]:
 data.drop(['Colorado', 'Ohio'])

Unnamed: 0,one,two,three,four
Utah,8,9,10,11
New York,12,13,14,15


In [115]:
 data.drop('two', axis=1)

Unnamed: 0,one,three,four
Ohio,0,2,3
Colorado,4,6,7
Utah,8,10,11
New York,12,14,15


In [116]:
data.drop(['two', 'four'], axis=1)

Unnamed: 0,one,three
Ohio,0,2
Colorado,4,6
Utah,8,10
New York,12,14


Với DataFrame, các giá trị cột có thể bị xóa khỏi Dataframe khi giá trị cột axis=1

### Indexing, selection, and filtering

Lập chỉ mục chuỗi (obj [...]) hoạt động tương tự như lập chỉ mục mảng NumPy, ngoại trừ bạn có thể sử dụng các giá trị chỉ mục của Sê-ri thay vì chỉ sử dụng số nguyên.

In [117]:
 obj = pd.Series(np.arange(4.), index=['a', 'b', 'c', 'd'])

In [118]:
 obj['b']
    

1.0

In [119]:
 obj[1]

1.0

In [120]:
obj[2:4]

c    2.0
d    3.0
dtype: float64

In [121]:
 obj[['b', 'a', 'd']]

b    1.0
a    0.0
d    3.0
dtype: float64

In [122]:
 obj[[1, 3]]

b    1.0
d    3.0
dtype: float64

In [123]:
 obj[obj < 2]

a    0.0
b    1.0
dtype: float64

In [124]:
obj['b':'c']

b    1.0
c    2.0
dtype: float64

In [125]:
 obj['b':'c'] = 5
obj

a    0.0
b    5.0
c    5.0
d    3.0
dtype: float64

In [126]:
 data = pd.DataFrame(np.arange(16).reshape((4, 4)),
index=['Ohio', 'Colorado', 'Utah', 'New York'],
  columns=['one', 'two', 'three', 'four'])

In [127]:
 data['two']

Ohio         1
Colorado     5
Utah         9
New York    13
Name: two, dtype: int32

In [128]:
data['two']

Ohio         1
Colorado     5
Utah         9
New York    13
Name: two, dtype: int32

In [129]:
data[['three', 'one']]

Unnamed: 0,three,one
Ohio,2,0
Colorado,6,4
Utah,10,8
New York,14,12


In [130]:
 data[:2]

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7


In [131]:
 data[data['three'] > 5]

Unnamed: 0,one,two,three,four
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [132]:
 data < 5

Unnamed: 0,one,two,three,four
Ohio,True,True,True,True
Colorado,True,False,False,False
Utah,False,False,False,False
New York,False,False,False,False


In [133]:
data[data < 5] = 0
data

Unnamed: 0,one,two,three,four
Ohio,0,0,0,0
Colorado,0,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [134]:
data.iloc[1:3,[3,0,1]]

Unnamed: 0,four,one,two
Colorado,7,0,5
Utah,11,8,9


In [135]:
data.iloc[2]

one       8
two       9
three    10
four     11
Name: Utah, dtype: int32

In [136]:
data.iloc[0:3, 1]

Ohio        0
Colorado    5
Utah        9
Name: two, dtype: int32

In [137]:
 data=data[data.three > 5]
 data.iloc[:,:3]

Unnamed: 0,one,two,three
Colorado,0,5,6
Utah,8,9,10
New York,12,13,14


 Điều này nhằm mục đích làm cho DataFrame về mặt cú pháp giống một ndarray hơn trong trường hợp này. Để lập chỉ mục nhãn DataFrame trên các hàng, tôi giới thiệu trường lập chỉ mục đặc biệt loc,iloc. Nó cho phép bạn chọn một tập hợp con của các hàng và cột từ DataFrame với NumPy như ký hiệu cộng với nhãn trục. Như đã đề cập trước đó, đây cũng là một cách ít dài dòng hơn để lập lại chỉ mục

### Arithemetic and data alignment

Xét 2 Series:

In [138]:
s1 = Series([7.3, -2.5, 3.4, 1.5], index=['a', 'c', 'd', 'e'])

In [139]:
s2 = Series([-2.1, 3.6, -1.5, 4, 3.1], index=['a', 'c', 'e', 'f', 'g'])

In [140]:
s1

a    7.3
c   -2.5
d    3.4
e    1.5
dtype: float64

In [141]:
s2

a   -2.1
c    3.6
e   -1.5
f    4.0
g    3.1
dtype: float64

In [142]:
s1 + s2

a    5.2
c    1.1
d    NaN
e    0.0
f    NaN
g    NaN
dtype: float64

Trong trường hợp có DataFrame, thực hiện căn chỉnh được trên cả hàng và cột:

In [143]:
 df1 = DataFrame(np.arange(9.).reshape((3, 3)), columns=list('bcd'), index=['Ohio', 'Texas', 'Colorado'])

In [144]:
df2 = DataFrame(np.arange(12.).reshape((4, 3)), columns=list('bde'), index=['Utah', 'Ohio', 'Texas', 'Oregon'])

In [145]:
df1

Unnamed: 0,b,c,d
Ohio,0.0,1.0,2.0
Texas,3.0,4.0,5.0
Colorado,6.0,7.0,8.0


In [146]:
df2

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [147]:
df1 + df2

Unnamed: 0,b,c,d,e
Colorado,,,,
Ohio,3.0,,6.0,
Oregon,,,,
Texas,9.0,,12.0,
Utah,,,,


##### Arithmetic methods with fill values

Giữa các đối tượng lập chỉ mục khác nhau, được điền vào một giá trị đặc biệt, như 0

In [148]:
df1 = DataFrame(np.arange(12.).reshape((3, 4)), columns=list('abcd'))

In [149]:
df1

Unnamed: 0,a,b,c,d
0,0.0,1.0,2.0,3.0
1,4.0,5.0,6.0,7.0
2,8.0,9.0,10.0,11.0


In [150]:
df2 = DataFrame(np.arange(20.).reshape((4, 5)), columns=list('abcde'))

In [151]:
df2

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,3.0,4.0
1,5.0,6.0,7.0,8.0,9.0
2,10.0,11.0,12.0,13.0,14.0
3,15.0,16.0,17.0,18.0,19.0


Ở các vị trí không trùng lặp sẽ tạo ra các giá trị NaN

In [152]:
df1 + df2

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,
1,9.0,11.0,13.0,15.0,
2,18.0,20.0,22.0,24.0,
3,,,,,


Sử dụng add trên df1 sẽ chuyển các đối số của df2 tới fill_value thay vì  tạo ra các NaN

In [153]:
df1.add(df2, fill_value=0)

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,4.0
1,9.0,11.0,13.0,15.0,9.0
2,18.0,20.0,22.0,24.0,14.0
3,15.0,16.0,17.0,18.0,19.0


Hoặc lập lại 1 index mới với giá trị khác

In [154]:
df1.reindex(columns=df2.columns, fill_value=0)

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,3.0,0
1,4.0,5.0,6.0,7.0,0
2,8.0,9.0,10.0,11.0,0


##### Operations between DataFrame and Series

Xét sự khác biệt giữa mảng 2 chiều và 1 hàng của nó

In [155]:
arr = np.arange(12.).reshape((3, 4))
arr

array([[ 0.,  1.,  2.,  3.],
       [ 4.,  5.,  6.,  7.],
       [ 8.,  9., 10., 11.]])

In [156]:
arr[0]

array([0., 1., 2., 3.])

In [157]:
arr - arr[0]

array([[0., 0., 0., 0.],
       [4., 4., 4., 4.],
       [8., 8., 8., 8.]])

Xem xét DataFrame và Series

In [158]:
frame = DataFrame(np.arange(12.).reshape((4, 3)), columns=list('bde'), index=['Utah', 'Ohio', 'Texas', 'Oregon'])

In [159]:
series = frame.iloc[0]

In [160]:
frame

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [161]:
series

b    0.0
d    1.0
e    2.0
Name: Utah, dtype: float64

Series giống với các chỉ số trên cột của DataFrame

In [162]:
frame - series

Unnamed: 0,b,d,e
Utah,0.0,0.0,0.0
Ohio,3.0,3.0,3.0
Texas,6.0,6.0,6.0
Oregon,9.0,9.0,9.0


Nếu không có các giá trị trong DataFrame hoặc Series thì sẽ được lập lại chỉ mục cới giá trị NaN

In [163]:
series2 = pd.Series(range(3), index=['b', 'e', 'f'])

In [164]:
series2

b    0
e    1
f    2
dtype: int64

In [165]:
frame + series2

Unnamed: 0,b,d,e,f
Utah,0.0,,3.0,
Ohio,3.0,,6.0,
Texas,6.0,,9.0,
Oregon,9.0,,12.0,


In [166]:
series3 = frame['d']

In [167]:
frame

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [168]:
series3

Utah       1.0
Ohio       4.0
Texas      7.0
Oregon    10.0
Name: d, dtype: float64

In [169]:
frame.sub(series, axis=0)

Unnamed: 0,b,d,e
Ohio,,,
Oregon,,,
Texas,,,
Utah,,,
b,,,
d,,,
e,,,


Đối sánh trên index hàng của DataFrame cà phát trên toàn bộ

#### Function application and mapping

Xét Numpy ufuncs hoạt động trên pandas

In [170]:
frame = DataFrame(np.random.randn(4, 3), columns=list('bde'), index=['Utah', 'Ohio', 'Texas', 'Oregon'])

In [171]:
frame

Unnamed: 0,b,d,e
Utah,0.656547,-0.540375,0.836146
Ohio,-2.089045,1.862578,-0.297454
Texas,-1.113041,0.113305,1.397627
Oregon,-0.323655,-1.021575,-0.52335


In [172]:
np.abs(frame)

Unnamed: 0,b,d,e
Utah,0.656547,0.540375,0.836146
Ohio,2.089045,1.862578,0.297454
Texas,1.113041,0.113305,1.397627
Oregon,0.323655,1.021575,0.52335


Áp dụng hàm trên mảng 1 chiều

In [173]:
f = lambda x: x.max() - x.min()

In [174]:
frame.apply(f)

b    2.745592
d    2.884153
e    1.920977
dtype: float64

In [175]:
frame.apply(f, axis=1)

Utah      1.376521
Ohio      3.951623
Texas     2.510668
Oregon    0.697920
dtype: float64

In [176]:
def f(x):
    return Series([x.min(), x.max()], index=['min', 'max'])

In [177]:
frame.apply(f)

Unnamed: 0,b,d,e
min,-2.089045,-1.021575,-0.52335
max,0.656547,1.862578,1.397627


Tính 1 chuỗi được định dạng từ mỗi giá trị dấu phẩy động trong frame với applymap

In [178]:
format = lambda x: '%.2f' % x

In [179]:
frame.applymap(format)

Unnamed: 0,b,d,e
Utah,0.66,-0.54,0.84
Ohio,-2.09,1.86,-0.3
Texas,-1.11,0.11,1.4
Oregon,-0.32,-1.02,-0.52


In [180]:
frame['e'].map(format)

Utah       0.84
Ohio      -0.30
Texas      1.40
Oregon    -0.52
Name: e, dtype: object

#### Sorting and ranking

Sắp xếp tập dữ liệu theo index với sort_index để trả về một đối tượng mới

In [181]:
obj = Series(range(4), index=['d', 'a', 'b', 'c'])

In [182]:
obj.sort_index()

a    1
b    2
c    3
d    0
dtype: int64

In [183]:
frame = DataFrame(np.arange(8).reshape((2, 4)), index=['three', 'one'], columns=['d', 'a', 'b', 'c'])

In [184]:
frame.sort_index() 

Unnamed: 0,d,a,b,c
one,4,5,6,7
three,0,1,2,3


In [185]:
frame.sort_index(axis=1)

Unnamed: 0,a,b,c,d
three,1,2,3,0
one,5,6,7,4


Có thể sắp xếp tăng dần theo mặc định hoặc giảm dần

In [186]:
frame.sort_index(axis=1, ascending=False)

Unnamed: 0,d,c,b,a
three,0,3,2,1
one,4,7,6,5


Sắp xếp một Series theo các giá trị của nó

In [187]:
obj = Series([4, 7, -3, 2]) #obj = pd.Series([4, 7, -3, 2])

In [188]:
obj.sort_values()

2   -3
3    2
0    4
1    7
dtype: int64

Các giá trị bị thiếu đều được sắp xếp vào cuối theo mặc định với giá trị được tạo là NaN

In [189]:
obj = Series([4, np.nan, 7, np.nan, -3, 2]) #obj = pd.Series([4, np.nan, 7, np.nan, -3, 2])

In [190]:
obj.sort_values()

4   -3.0
5    2.0
0    4.0
2    7.0
1    NaN
3    NaN
dtype: float64

Sắp xếp các giá trị theo cột

In [191]:
frame = DataFrame({'b': [4, 7, -3, 2], 'a': [0, 1, 0, 1]})

In [192]:
frame

Unnamed: 0,b,a
0,4,0
1,7,1
2,-3,0
3,2,1


In [193]:
frame.sort_values(by='b')

Unnamed: 0,b,a
2,-3,0
3,2,1
0,4,0
1,7,1


Chuyển danh sách tên để sắp xếp nhiều cột

In [194]:
frame.sort_values(by=['a', 'b'])

Unnamed: 0,b,a
2,-3,0
0,4,0
3,2,1
1,7,1


Xếp hạng cho Series và DataFrame

In [195]:
obj = Series([7, -5, 7, 4, 2, 0, 4])

In [196]:
obj.rank()

0    6.5
1    1.0
2    6.5
3    4.5
4    3.0
5    2.0
6    4.5
dtype: float64

Chỉ định thứ hạng theo thứ tự được quan sát

In [197]:
obj.rank(method='first')

0    6.0
1    1.0
2    7.0
3    4.0
4    3.0
5    2.0
6    5.0
dtype: float64

Xếp hạng theo thứ tự giảm dần

In [198]:
obj.rank(ascending=False, method='max')

0    2.0
1    7.0
2    2.0
3    4.0
4    5.0
5    6.0
6    4.0
dtype: float64

Tính toán thứ hạng qua các hàng hoặc cột bằng DataFrame

In [199]:
frame = DataFrame({'b': [4.3, 7, -3, 2], 'a': [0, 1, 0, 1], 'c': [-2, 5, 8, -2.5]})

In [200]:
frame

Unnamed: 0,b,a,c
0,4.3,0,-2.0
1,7.0,1,5.0
2,-3.0,0,8.0
3,2.0,1,-2.5


In [201]:
frame.rank(axis=1)

Unnamed: 0,b,a,c
0,3.0,2.0,1.0
1,3.0,1.0,2.0
2,1.0,2.0,3.0
3,3.0,2.0,1.0


#### Axis indexes with duplicate values

Xem xét Series với các chỉ số trùng lặp

In [202]:
obj = Series(range(5), index=['a', 'a', 'b', 'b', 'c'])

In [203]:
obj

a    0
a    1
b    2
b    3
c    4
dtype: int64

Xét các giá trị có phải là duy nhất không

In [204]:
obj.index.is_unique

False

Lập index với các giá trị trùng trả về một Series còn đơn lẻ trả về giá trị vô hướng 

In [205]:
obj['a']

a    0
a    1
dtype: int64

In [206]:
obj['c']

4

Lập index các hàng trong DataFrame

In [207]:
df = DataFrame(np.random.randn(4, 3), index=['a', 'a', 'b', 'b'])

In [208]:
df

Unnamed: 0,0,1,2
a,1.113,-0.196048,1.451061
a,-1.499525,0.100531,1.597644
b,-1.174373,1.497686,-0.546858
b,1.566716,0.58997,-2.133801


In [209]:
df.loc['b']

Unnamed: 0,0,1,2
b,-1.174373,1.497686,-0.546858
b,1.566716,0.58997,-2.133801


## Summarizing and Computing Descriptive Statistics

Xét một dataframe được tạo bởi index và columns là một list 

In [210]:
df = DataFrame([[1.4, np.nan], [7.1, -4.5],
     [np.nan, np.nan], [0.75, -1.3]],
     index=['a', 'b', 'c', 'd'],
     columns=['one', 'two'])

In [211]:
df


Unnamed: 0,one,two
a,1.4,
b,7.1,-4.5
c,,
d,0.75,-1.3


Gọi phương thức sum của DataFrame trả về một Series tính tổng giá trị của mỗi cột

In [212]:
df.sum()


one    9.25
two   -5.80
dtype: float64

Khi có tham số axis = 1, có nghĩa là hàm sum được áp dụng tính tổng giá trị trên các hàng:

In [213]:
df.sum(axis=1)


a    1.40
b    2.60
c    0.00
d   -0.55
dtype: float64

Ta có thể tính trung bình các giá trị trong DataFrame (theo hàng hoặc cột) bằng hàm mean(),với tham số skipna = False để không bỏ qua các giá trị NaN thì nó sẽ kiểm tra và trả về NaN nếu có bất kỳ giá trị nào bị missing trong dữ liệu.

In [214]:
 df.mean(axis=1, skipna=False)


a      NaN
b    1.300
c      NaN
d   -0.275
dtype: float64

 idxmin và idxmax, trả về số liệu thống kê gián tiếp như giá trị chỉ số
trong đó đạt được các giá trị lớn nhất hoặc nhỏ nhất.

In [215]:
df.idxmax()


one    b
two    d
dtype: object

Phương pháp khác là cumsum

In [216]:
df.cumsum()


Unnamed: 0,one,two
a,1.4,
b,8.5,-4.5
c,,
d,9.25,-5.8


describe() là một phuong thức dùng để  tạo ra nhiều số liệu thống kê tóm tắt trong một lần.

In [217]:
df.describe()


Unnamed: 0,one,two
count,3.0,2.0
mean,3.083333,-2.9
std,3.493685,2.262742
min,0.75,-4.5
25%,1.075,-3.7
50%,1.4,-2.9
75%,4.25,-2.1
max,7.1,-1.3


Trên dữ liệu không phải số, describe tạo ra một Series trả về số liệu thống kê tóm tắt như:count, unique ,top ,freq.

In [218]:
obj = Series(['a', 'a', 'b', 'c'] * 4)

In [219]:
obj.describe()

count     16
unique     3
top        a
freq       8
dtype: object

### Correlation and Covariance

Một số thống kê tóm tắt, như tương quan và hiệp phương sai, được tính toán từ các cặp lập luận. Chúng ta thử xem xét một số DataFrames về giá cổ phiếu và khối lượng thu được từc các trang web Yahoo! và Finance:

In [220]:
import pandas.io.data as web
## Thư viện không còn hỗ trợ 

ModuleNotFoundError: No module named 'pandas.io.data'

### Unique Values, Value Counts, and Membership

Một lớp phương thức liên quan khác trích xuất thông tin về các giá trị có trong một Series một
chiều. Để minh họa những điều này, hãy xem xét ví dụ này.Hàm đầu tiên là unique, cung cấp
cho bạn một mảng các giá trị duy nhất trong Series

In [221]:
obj = Series(['c', 'a', 'd', 'a', 'a', 'b', 'b', 'c', 'c'])


In [222]:
uniques = obj.unique()


In [223]:
uniques


array(['c', 'a', 'd', 'b'], dtype=object)

Các giá trị duy nhất không nhất thiết phải được trả về theo thứ tự đã sắp xếp, nhưng có thể
được sắp xếp theo một Series chứa tần số giá trị

In [224]:
obj.value_counts()

c    3
a    3
b    2
d    1
dtype: int64

Series được sắp xếp theo giá trị theo thứ tự giảm dần như với dữ liệu là tần số của mỗi giá trị được trả về bởi ’values_counts’ .

In [225]:
pd.value_counts(obj.values, sort=False)

c    3
a    3
d    1
b    2
dtype: int64

Cuối cùng, isin chịu trách nhiệm về tư cách thành viên tập hợp vectơ và có thể rất hữu ích trong
lọc tập dữ liệu xuống một tập hợp con các giá trị trong Series hoặc cột trong DataFrame 

In [226]:
 mask = obj.isin(['b', 'c'])

In [227]:
 mask 

0     True
1    False
2    False
3    False
4    False
5     True
6     True
7     True
8     True
dtype: bool

In [228]:
obj[mask]

0    c
5    b
6    b
7    c
8    c
dtype: object

Trong một số trường hợp, bạn có thể muốn tính biểu đồ tần suất trên nhiều cột liên quan trong
một DataFrame. Dưới đây là một ví dụ

In [229]:
data = DataFrame({'Qu1': [1, 3, 4, 3, 4],'Qu2': [2, 3, 1, 2, 3], 'Qu3': [1, 5, 2, 4, 4]})

In [230]:
data

Unnamed: 0,Qu1,Qu2,Qu3
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


Đưa đối số pd.valuecounts của DataFrame cho hàm apply() :

In [231]:
result = data.apply(pd.value_counts).fillna(0)

In [232]:
result

Unnamed: 0,Qu1,Qu2,Qu3
1,1.0,1.0,1.0
2,0.0,2.0,1.0
3,2.0,2.0,0.0
4,2.0,0.0,2.0
5,0.0,0.0,1.0


## Handling Missing Data

In [233]:
 string_data = Series(['aardvark', 'artichoke', np.nan, 'avocado'])


In [234]:
 string_data 

0     aardvark
1    artichoke
2          NaN
3      avocado
dtype: object

In [235]:
string_data.isnull()


0    False
1    False
2     True
3    False
dtype: bool

Giá trị None được định nghĩa trong Python cũng được coi là NA trong các mảng đối tượng:

In [236]:
string_data[0] = None

In [237]:
string_data.isnull()


0     True
1    False
2     True
3    False
dtype: bool

### Filtering Out Missing Data


Bạn có một số tùy chọn để lọc ra dữ liệu bị thiếu. Trong khi làm điều đó bằng tay là luôn luôn
là một lựa chọn, dropna có thể rất hữu ích. Trên một Series, nó trả về Series chỉ với các giá trị
chỉ mục và dữ liệu không rỗng

In [238]:
 from numpy import nan as NA

In [239]:
data = Series([1, NA, 3.5, NA, 7])


In [240]:
data.dropna()

0    1.0
2    3.5
4    7.0
dtype: float64

 Có thể tự tính toán điều này bằng cách lập chỉ mục boolean

In [241]:
data[data.notnull()]

0    1.0
2    3.5
4    7.0
dtype: float64

Với các đối tượng DataFrame, chúng phức tạp hơn một chút. Bạn có thể muốn thả hàng hoặc
các cột đều là NA hoặc chỉ những cột chứa bất kỳ NA nào. dropna theo mặc định giảm bất kỳ
hàng nào chứa giá trị bị thiếu

In [242]:
data = DataFrame([[1., 6.5, 3.], [1., NA, NA],[NA,NA, NA], [NA, 6.5, 3.]])


In [243]:
cleaned = data.dropna()


In [244]:
data 

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
2,,,
3,,6.5,3.0


In [245]:
cleaned


Unnamed: 0,0,1,2
0,1.0,6.5,3.0


Tham số how=’all’ sẽ chỉ loại bỏ các hàng đều là NaN, nhưng không làm thay đổi chỉ số index
của DataFrame.

In [246]:
data.dropna(how='all')


Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
3,,6.5,3.0


Tương tự chúng ta có thể loại bỏ các cột khi trong cột đều là giá trị NaN , tham số axis = 1 là
tham số truyền vào hàm dropna().

In [247]:
 data[4] = NA

In [248]:
data 

Unnamed: 0,0,1,2,4
0,1.0,6.5,3.0,
1,1.0,,,
2,,,,
3,,6.5,3.0,


In [249]:
data.dropna(axis=1, how='all')

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
2,,,
3,,6.5,3.0


Để lọc ra các hàng DataFrame có xu hướng liên quan đến dữ liệu time series. Giả thiết bạn chỉ
muốn giữ lại các hàng chứa một số lượng quan sát nhất định. Chúng ta có thể lấy ra những dữ
liệu với đối số thresh. Thesh = n yêu cầu ít nhất n giá trị không phải là NaN , điều kiện này là
đủ để hàng hoặc cột có thể được in ra 

In [250]:
df = DataFrame(np.random.randn(7, 3))


In [251]:
df.iloc[:4, 1] = NA; df.iloc[:2, 2] = NA


In [252]:
df


Unnamed: 0,0,1,2
0,-0.845993,,
1,-0.189207,,
2,-0.685891,,-1.201144
3,-1.126252,,-0.055545
4,-0.118401,-1.185464,-1.093058
5,-1.810955,-0.039425,-0.434228
6,-1.63688,-0.732196,-2.110587


In [253]:
df.dropna(thresh=3) 

Unnamed: 0,0,1,2
4,-0.118401,-1.185464,-1.093058
5,-1.810955,-0.039425,-0.434228
6,-1.63688,-0.732196,-2.110587


### Filling in Missing Data

Thay vì lọc ra dữ liệu bị thiếu (và có khả năng loại bỏ dữ liệu khác cùng với nó), bạn có thể
muốn điền vào các chỗ trống theo bất kỳ cách nào. Chúng ta có thể gọi hàm fillna liên tục để
điền vào các giá trị đó

In [254]:
 df.fillna(0)

Unnamed: 0,0,1,2
0,-0.845993,0.0,0.0
1,-0.189207,0.0,0.0
2,-0.685891,0.0,-1.201144
3,-1.126252,0.0,-0.055545
4,-0.118401,-1.185464,-1.093058
5,-1.810955,-0.039425,-0.434228
6,-1.63688,-0.732196,-2.110587


Gọi fillna bằng một dict, bạn có thể sử dụng một giá trị điền khác nhau cho mỗi cột:

In [255]:
df.fillna({1: 0.5, 3: -1})


Unnamed: 0,0,1,2
0,-0.845993,0.5,
1,-0.189207,0.5,
2,-0.685891,0.5,-1.201144
3,-1.126252,0.5,-0.055545
4,-0.118401,-1.185464,-1.093058
5,-1.810955,-0.039425,-0.434228
6,-1.63688,-0.732196,-2.110587


Fillna trả về một đối tượng mới, nhưng chúng ta có thể sửa đổi đối tượng hiện tại với tham số
implace = True

In [256]:
 _ = df.fillna(0, inplace=True)

In [257]:
df

Unnamed: 0,0,1,2
0,-0.845993,0.0,0.0
1,-0.189207,0.0,0.0
2,-0.685891,0.0,-1.201144
3,-1.126252,0.0,-0.055545
4,-0.118401,-1.185464,-1.093058
5,-1.810955,-0.039425,-0.434228
6,-1.63688,-0.732196,-2.110587


Ta cũng có thể tùy chỉnh các giá trị index để phù hợp với việc truy cập vào các giá trị NaN và
tại các NaN ta cũng có rất nhiều phương pháp để thay thế bằng những giá trị lân cận hoặc bằng
các giá trị trị trung bình,.

In [258]:
df = DataFrame(np.random.randn(6, 3))

In [259]:
df.iloc[2:, 1] = NA; df.iloc[4:, 2] = NA

In [260]:
df

Unnamed: 0,0,1,2
0,-2.067811,-0.21846,0.577653
1,0.096176,0.426366,-1.45626
2,-0.802881,,1.184076
3,-0.31291,,-1.141583
4,0.27852,,
5,0.516771,,


In [261]:
df.fillna(method='ffill') 

Unnamed: 0,0,1,2
0,-2.067811,-0.21846,0.577653
1,0.096176,0.426366,-1.45626
2,-0.802881,0.426366,1.184076
3,-0.31291,0.426366,-1.141583
4,0.27852,0.426366,-1.141583
5,0.516771,0.426366,-1.141583


In [262]:
df.fillna(method='ffill', limit=2)

Unnamed: 0,0,1,2
0,-2.067811,-0.21846,0.577653
1,0.096176,0.426366,-1.45626
2,-0.802881,0.426366,1.184076
3,-0.31291,0.426366,-1.141583
4,0.27852,,-1.141583
5,0.516771,,-1.141583


Với fillna, bạn có thể làm rất nhiều thứ khác với một chút sáng tạo. Ví dụ: bạn có thể vượt qua
giá trị trung bình hoặc giá trị trung bình của một Seres:

In [263]:
 data = Series([1., NA, 3.5, NA, 7])


In [264]:
data.fillna(data.mean())


0    1.000000
1    3.833333
2    3.500000
3    3.833333
4    7.000000
dtype: float64

## Hierarchical Indexing

In [265]:
import pandas as pd
import numpy as np
from pandas import Series, DataFrame

Tạo một Series với index đầu vào dưới dạng MultiIndex

In [266]:
data = pd.Series(np.random.randn(10),
.....: index=[['a', 'a', 'a', 'b', 'b', 'b', 'c', 'c', 'd', 'd'],
.....: [1, 2, 3, 1, 2, 3, 1, 2, 2, 3]])

In [267]:
data

a  1    0.721908
   2   -0.080280
   3    1.158525
b  1    0.177976
   2   -1.532813
   3    2.193725
c  1    0.539296
   2    1.753406
d  2    1.569805
   3    1.233035
dtype: float64

In [268]:
data.index

MultiIndex([('a', 1),
            ('a', 2),
            ('a', 3),
            ('b', 1),
            ('b', 2),
            ('b', 3),
            ('c', 1),
            ('c', 2),
            ('d', 2),
            ('d', 3)],
           )

Với hệ thống index đầu vào theo cấp bậc, ta có thể dễ dàng gọi ra các phần của Series hoặc gọi chính xác các phần dữ liệu mong muốn

In [269]:
 data['b']

1    0.177976
2   -1.532813
3    2.193725
dtype: float64

In [270]:
 data['b':'c']

b  1    0.177976
   2   -1.532813
   3    2.193725
c  1    0.539296
   2    1.753406
dtype: float64

Ta còn có thể lựa chọn cấp độ trong một số trường hợp từ cấp độ "inner"

In [271]:
data[:, 2]

a   -0.080280
b   -1.532813
c    1.753406
d    1.569805
dtype: float64

Có thể được sắp xếp lại thành DataFrame bằng cách sử dụng phương pháp unstack:

In [272]:
 data.unstack()

Unnamed: 0,1,2,3
a,0.721908,-0.08028,1.158525
b,0.177976,-1.532813,2.193725
c,0.539296,1.753406,
d,,1.569805,1.233035


Nếu muốn quay trở lại nguyên trạng, ta sử dụng unstack đi kèm cùng stack:

In [273]:
 data.unstack().stack()

a  1    0.721908
   2   -0.080280
   3    1.158525
b  1    0.177976
   2   -1.532813
   3    2.193725
c  1    0.539296
   2    1.753406
d  2    1.569805
   3    1.233035
dtype: float64

stack và unstack sẽ được khám phá nhiều hơn ở chương 7.

Với DataFrame, một trong hai trục có thể có index phân cấp:

In [274]:
frame = pd.DataFrame(np.arange(12).reshape((4, 3)),
.....: index=[['a', 'a', 'b', 'b'], [1, 2, 1, 2]],
.....: columns=[['Ohio', 'Ohio', 'Colorado'],
.....: ['Green', 'Red', 'Green']])

In [275]:
frame

Unnamed: 0_level_0,Unnamed: 1_level_0,Ohio,Ohio,Colorado
Unnamed: 0_level_1,Unnamed: 1_level_1,Green,Red,Green
a,1,0,1,2
a,2,3,4,5
b,1,6,7,8
b,2,9,10,11


Các cấp phân cấp có thể có tên (dưới dạng chuỗi hoặc bất kỳ đối tượng Python nào) sẽ hiển thị
trong đầu ra (đừng nhầm lẫn tên index với axis label):

In [276]:
 frame.index.names = ['key1', 'key2']

In [277]:
 frame.columns.names = ['state', 'color']

In [278]:
 frame

Unnamed: 0_level_0,state,Ohio,Ohio,Colorado
Unnamed: 0_level_1,color,Green,Red,Green
key1,key2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
a,1,0,1,2
a,2,3,4,5
b,1,6,7,8
b,2,9,10,11


Với lập index một phần cột, có thể chọn các nhóm cột một cách tương tự:

In [279]:
 frame['Ohio']

Unnamed: 0_level_0,color,Green,Red
key1,key2,Unnamed: 2_level_1,Unnamed: 3_level_1
a,1,0,1
a,2,3,4
b,1,6,7
b,2,9,10


Một MultiIndex có thể được tạo ra bởi chính nó và sau đó được sử dụng lại; các cột trong
DataFrame ở trên với tên cấp có thể được tạo như thế này:

In [280]:
pd.MultiIndex.from_arrays([['Ohio', 'Ohio', 'Colorado'], ['Green', 'Red', 'Green']],
names=['state', 'color'])

MultiIndex([(    'Ohio', 'Green'),
            (    'Ohio',   'Red'),
            ('Colorado', 'Green')],
           names=['state', 'color'])

### Reordering and Sorting Levels 

Swaplevel có hai cấp số hoặc tên và trả về một đối tượng mới với các
mức được hoán đổi cho nhau (nhưng dữ liệu thì không thay đổi):

In [281]:
 frame.swaplevel('key1', 'key2')

Unnamed: 0_level_0,state,Ohio,Ohio,Colorado
Unnamed: 0_level_1,color,Green,Red,Green
key2,key1,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
1,a,0,1,2
2,a,3,4,5
1,b,6,7,8
2,b,9,10,11


sortlevel() sắp xếp dữ liệu (ổn định) chỉ sử dụng các giá trị trong một cấp độ. Khi
hoán đổi cấp độ, không có gì lạ khi cũng sử dụng sortlevel như kết quả được sắp xếp dưới
đây:

In [282]:
frame.sort_index(level=1, axis = 0)

Unnamed: 0_level_0,state,Ohio,Ohio,Colorado
Unnamed: 0_level_1,color,Green,Red,Green
key1,key2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
a,1,0,1,2
b,1,6,7,8
a,2,3,4,5
b,2,9,10,11


In [283]:
 frame.swaplevel(0,1).sort_index(level=1, axis = 0)

Unnamed: 0_level_0,state,Ohio,Ohio,Colorado
Unnamed: 0_level_1,color,Green,Red,Green
key2,key1,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
1,a,0,1,2
2,a,3,4,5
1,b,6,7,8
2,b,9,10,11


### Summary Statistics by Level

Xem xét DataFrame ở trên; chúng ta có thể tính tổng theo cấp độ trên các hàng hoặc cột như sau:

In [284]:
 frame.sum(level='key2')

  frame.sum(level='key2')


state,Ohio,Ohio,Colorado
color,Green,Red,Green
key2,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
1,6,8,10
2,12,14,16


### Using a DataFrame’s Columns

In [285]:
 frame = pd.DataFrame({'a': range(7), 'b': range(7, 0, -1),
.....: 'c': ['one', 'one', 'one', 'two', 'two', 'two', 'two'],
.....: 'd': [0, 1, 2, 0, 1, 2, 3]})

In [286]:
frame

Unnamed: 0,a,b,c,d
0,0,7,one,0
1,1,6,one,1
2,2,5,one,2
3,3,4,two,0
4,4,3,two,1
5,5,2,two,2
6,6,1,two,3


Hàm set_index() của DataFrame sẽ tạo thành một DataFrame mới sử dụng một hoặc nhiều
cột của nó để làm index:

In [287]:
 frame2 = frame.set_index(['c', 'd'])

In [288]:
frame2

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b
c,d,Unnamed: 2_level_1,Unnamed: 3_level_1
one,0,0,7
one,1,1,6
one,2,2,5
two,0,3,4
two,1,4,3
two,2,5,2
two,3,6,1


Sử dụng hàm set_index cũng có thể giữ nguyên nó

In [289]:
frame.set_index(['c', 'd'], drop=False)

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c,d
c,d,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
one,0,0,7,one,0
one,1,1,6,one,1
one,2,2,5,one,2
two,0,3,4,two,0
two,1,4,3,two,1
two,2,5,2,two,2
two,3,6,1,two,3


Hàm reset_index () trái ngược với hàm set_index (); các cấp bậc index được di chuyển vào
trong các cột:

In [290]:
frame2.reset_index()

Unnamed: 0,c,d,a,b
0,one,0,0,7
1,one,1,1,6
2,one,2,2,5
3,two,0,3,4
4,two,1,4,3
5,two,2,5,2
6,two,3,6,1


### Other pandas Topics

Một số chủ đề bổ sung có thể sử dụng làm hành trang ở hành trình làm việc với dữ liệu trong
tương lai.

#### Integer Indexing

Làm việc với các đối tượng Pandas được lập index bởi các số nguyên thường gây một số rắc rối. Ví dụ, ta sẽ gặp phải các dòng code báo lỗi như dưới đây:

In [291]:
ser = pd.Series(np.arange(3.))
ser[-1]

KeyError: -1

Ở đây ta có một index chứa các số nguyên 0, 1, 2, nhưng việc lập index dựa trên nhãn hoặc dựa trên vị trí sẽ gây trở ngại hơn:

In [None]:
ser

Để giữ mọi thứ nhất quán, nếu có một trục index chứa các index khác, và lựa chọn dữ liệu với
số nguyên sẽ luôn là phù hợp nhất.

Trong trường hợp cần các index ở vị trí đáng tin cậy bất kể ở kiểu index nào, ta có thể dùng
phương thức iget_value() từ Series và irow() và icol() từ DataFrame:

In [None]:
ser3 = Series(range(3), index=[-5, 1, 3])

In [None]:
ser3.iat[2]

In [None]:
frame = pd.DataFrame((np.arange(6).reshape(3, 2)), index=[2, 0, 1])