# pandas

pandas cũng cấp các cấu trúc dữ liệu và công cụ xử lý dữ liệu. pandas sở hữu những tính năng hữu ích của NumPy như các tính toán hỗ trợ mảng và các công cụ xử lý dữ liệu mà không cần vòng lặp.

In [1]:
import pandas as pd

In [2]:
from pandas import Series, DataFrame

## Cấu trúc dữ liệu của pandas

### Series

Một Series là một đối tượng giống như mảng một chiều chứa một chuỗi các giá trị và một mảng liên kết các nhãn của dữ liệu, được gọi là index.

Ví dụ một Series đơn giản nhất chỉ có dữ liệu:

In [3]:
obj = pd.Series([4, 7, -5, 3])
obj

0    4
1    7
2   -5
3    3
dtype: int64

In [4]:
obj.values

array([ 4,  7, -5,  3])

In [5]:
obj.index # giống range(4)

RangeIndex(start=0, stop=4, step=1)

Ví dụ với index:

In [6]:
obj2 = pd.Series([4, 7, -5, 3], index=['d', 'b', 'a', 'c'])
obj2

d    4
b    7
a   -5
c    3
dtype: int64

In [7]:
obj2.index

Index(['d', 'b', 'a', 'c'], dtype='object')

In [8]:
obj2['a']

-5

In [9]:
obj2[['c', 'a', 'd']]

c    3
a   -5
d    4
dtype: int64

Có thể sử dụng các hàm của NumPy hoặc các thao tác tựa như NumPy, như lọc với mảng các giá trị boolean, nhân,...

In [10]:
obj2[obj2 > 0]

d    4
b    7
c    3
dtype: int64

In [11]:
obj2 * 2

d     8
b    14
a   -10
c     6
dtype: int64

In [13]:
import numpy as np
np.exp(obj2)

d      54.598150
b    1096.633158
a       0.006738
c      20.085537
dtype: float64

Có thể xem Series như một dict có thứ tự và độ dài cố định. Do đó, cách sử dụng Series sẽ tương tự như dict:

In [14]:
'b' in obj2

True

Chuyển từ dict thành Series. Thứ tự các index đã được sắp xếp.

In [15]:
sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}
obj3 = pd.Series(sdata)
obj3

Ohio      35000
Oregon    16000
Texas     71000
Utah       5000
dtype: int64

Hàm isnull và notnull được dùng để kiểm tra dữ liệu bị thiếu:

In [17]:
pd.isnull(obj3)

Ohio      False
Oregon    False
Texas     False
Utah      False
dtype: bool

In [19]:
obj3.notnull()

Ohio      True
Oregon    True
Texas     True
Utah      True
dtype: bool

Series có thuộc tính name cho chính nó và index của nó.

In [20]:
obj3.name = 'population'
obj3.index.name = 'state'
obj3

state
Ohio      35000
Oregon    16000
Texas     71000
Utah       5000
Name: population, dtype: int64

index của Series có thể sửa đổi sử dụng lệnh gán:

In [21]:
obj

0    4
1    7
2   -5
3    3
dtype: int64

In [22]:
obj.index = ['Bob', 'Steve', 'Jeff', 'Ryan']
obj

Bob      4
Steve    7
Jeff    -5
Ryan     3
dtype: int64

### DataFrame

Một DataFrame thể hiện một bảng hình chữ nhật của dữ liệu và chứa một tập có thứ tự các cột có thể có kiểu dữ liệu khác nhau. DataFrame có index cho cả hàng và cột.

In [25]:
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
        'year': [2000, 2001, 2002, 2001, 2002, 2003],
        'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}
frame = pd.DataFrame(data)
frame

Unnamed: 0,pop,state,year
0,1.5,Ohio,2000
1,1.7,Ohio,2001
2,3.6,Ohio,2002
3,2.4,Nevada,2001
4,2.9,Nevada,2002
5,3.2,Nevada,2003


In [26]:
frame.head() # hiển thị 5 hàng đầu tiên

Unnamed: 0,pop,state,year
0,1.5,Ohio,2000
1,1.7,Ohio,2001
2,3.6,Ohio,2002
3,2.4,Nevada,2001
4,2.9,Nevada,2002


In [27]:
pd.DataFrame(data, columns=['year', 'state', 'pop']) # xác định cụ thể thứ tự các cột

Unnamed: 0,year,state,pop
0,2000,Ohio,1.5
1,2001,Ohio,1.7
2,2002,Ohio,3.6
3,2001,Nevada,2.4
4,2002,Nevada,2.9
5,2003,Nevada,3.2


In [29]:
frame2 = pd.DataFrame(data, columns=['year', 'state', 'pop', 'debt'],
                      index=['one', 'two', 'three', 'four', 'five', 'six'])
frame2 # truyền một 1 cột không có dữ liệu

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,
five,2002,Nevada,2.9,
six,2003,Nevada,3.2,


Có thể lấy một cột dữ liệu ra dưới dạng Series bằng cách dùng dấu ngoặc vuông hoặc bằng thuộc tính:

In [30]:
frame2['state']

one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
six      Nevada
Name: state, dtype: object

In [31]:
frame2.year

one      2000
two      2001
three    2002
four     2001
five     2002
six      2003
Name: year, dtype: int64

Hàng có thể được lấy ra dựa vào vị trí hoặc tên sử dụng thuộc tính loc:

In [32]:
frame2.loc['three']

year     2002
state    Ohio
pop       3.6
debt      NaN
Name: three, dtype: object

Có thể thay đổi dữ liệu cột bằng phép gán:

In [33]:
frame2['debt'] = 16.5 # bằng 1 scalar
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,16.5
two,2001,Ohio,1.7,16.5
three,2002,Ohio,3.6,16.5
four,2001,Nevada,2.4,16.5
five,2002,Nevada,2.9,16.5
six,2003,Nevada,3.2,16.5


In [34]:
frame2['debt'] = np.arange(6.) # bằng 1 mảng dữ liệu
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,0.0
two,2001,Ohio,1.7,1.0
three,2002,Ohio,3.6,2.0
four,2001,Nevada,2.4,3.0
five,2002,Nevada,2.9,4.0
six,2003,Nevada,3.2,5.0


Khi bạn gán list hoặc array cho một cột, số lượng giá trị phải bằng với số lượng hàng của DataFrame. Nếu bạn gán một Series, các nhãn sẽ được sử dụng để làm index:

In [35]:
val = pd.Series([-1.2, -1.5, -1.7], index=['two', 'four', 'five'])
frame2['debt'] = val
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,-1.2
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,-1.5
five,2002,Nevada,2.9,-1.7
six,2003,Nevada,3.2,


Khi thực hiện gán cho một cột chưa tồn tại thì sẽ tương đương với tạo một cột mới.

In [36]:
frame2['eastern'] = frame2.state == 'Ohio'
frame2

Unnamed: 0,year,state,pop,debt,eastern
one,2000,Ohio,1.5,,True
two,2001,Ohio,1.7,-1.2,True
three,2002,Ohio,3.6,,True
four,2001,Nevada,2.4,-1.5,False
five,2002,Nevada,2.9,-1.7,False
six,2003,Nevada,3.2,,False


Sử dụng hàm del để xoá cột.

In [37]:
del frame2['eastern']
frame2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

Chuyển đổi từ dict of dict thành DataFrame.

In [38]:
pop = {'Nevada': {2001: 2.4, 2002: 2.9},
       'Ohio': {2000: 1.5, 2001: 1.7, 2002: 3.6}}
frame3 = pd.DataFrame(pop)
frame3

Unnamed: 0,Nevada,Ohio
2000,,1.5
2001,2.4,1.7
2002,2.9,3.6


index và cột của DataFrame cũng có thuộc tính name.

In [39]:
frame3.index.name = 'year'; frame3.columns.name = 'state'
frame3

state,Nevada,Ohio
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2000,,1.5
2001,2.4,1.7
2002,2.9,3.6


### Các đối tượng Index