# BÀI 7: PANDAS VÀ DATAFRAME

Pandas là thư viện chuyên cho xử lý dữ liệu dạng bảng (tabular) thông qua 2 kiểu dữ liệu chính là **series** và **dataframe**, chúng giống như cột và bảng trong Excel.\
Thư viện Pandas thường được sử dụng cùng với Numpy.

In [1]:
import numpy as np
import pandas as pd

## 1. Giới thiệu chung

### 1.1. Series
Series là cấu trúc dữ liệu 1 chiều, chứa các phần tử cùng kiểu dữ liệu. Series giống như vector có thêm index.

#### Khởi tạo series

Series có thể được tạo ra từ hàm `pandas.Series()` và truyền vào một `dict` hoặc một đối tượng giống `list` (như `tuple`, `set`, `numpy.array`).

In [1]:
import numpy as np
import pandas as pd

In [3]:
pd.Series(['a', 'b', 'c', 'd', 'e'])

0    a
1    b
2    c
3    d
4    e
dtype: object

In [4]:
pd.Series(np.linspace(1, 60, 5))

0     1.00
1    15.75
2    30.50
3    45.25
4    60.00
dtype: float64

In [2]:
pd.Series(np.arange(10))

0    0
1    1
2    2
3    3
4    4
5    5
6    6
7    7
8    8
9    9
dtype: int32

**Chú ý:** Mỗi series đều có 1 `dtype` (kiểu dữ liệu) riêng. Trên đây là 3 ví dụ về các kiểu dữ liệu phổ biến của series: `object`, `float64` và `int64` - tương đương với `str`, `float` và `int` trong Python.

Do tính chất của series hoạt động giống như cột trong bảng, ta cần đặt tên cột. Tên của series được đặt thông qua tham số `name`.

In [6]:
s = pd.Series(['a', 'b', 'c'], name='letter')

In [1]:
import numpy as np
import pandas as pd

#### Kiểu dữ liệu string

In [8]:
pd.Series(['a', 'b', 'c'])

0    a
1    b
2    c
dtype: object

In [9]:
pd.Series([1, 2, 3]).astype(str)

0    1
1    2
2    3
dtype: object

#### Kiểu dữ liệu số

In [10]:
pd.Series(['01', '02', '03']).astype(int)

0    1
1    2
2    3
dtype: int32

In [11]:
pd.Series(['01', '02', '03']).astype(float)

0    1.0
1    2.0
2    3.0
dtype: float64

#### Kiểu dữ liệu ngày tháng
Sử dụng đối số `'datetime64'`.

In [12]:
pd.Series(['2020/01/01', '2020/01/02']).astype('datetime64')

0   2020-01-01
1   2020-01-02
dtype: datetime64[ns]

In [14]:
pd.to_datetime(pd.Series(['Jan.01-2020', '20200102']))

0   2020-01-01
1   2020-01-02
dtype: datetime64[ns]

#### Kiểu dữ liệu Boolean
Truyền vào phương thức `astype()` giá trị `bool`.

In [15]:
pd.Series([1, 0, 0, 1, 1]).astype(bool)

0     True
1    False
2    False
3     True
4     True
dtype: bool

#### Kiểu dữ liệu categorical
Categorical (định danh) là kiểu dữ liệu chỉ chứa một số lượng giới hạn các phần tử có thứ tự. Categorical cho phép sắp xếp dữ liệu theo ý muốn chứ không chỉ giới hạn theo giá trị lớn/nhỏ hoặc theo bảng chữ cái.

In [16]:
# sắp xếp kiểu dữ liệu object
pd.Series(['1-5', '6-10', '11-15', '6-10']).sort_values()

0      1-5
2    11-15
1     6-10
3     6-10
dtype: object

In [5]:
# sắp xếp kiểu dữ liệu categorical
pd.Categorical(['1-5', '6-10', '11-15', '6-10'], categories=['1-5', '6-10', '11-15']).sort_values()

pandas.core.arrays.categorical.Categorical

Do kiểu dữ liệu categorical có số lượng giá trị hữu hạn (kiểu dữ liệu số hay ngày tháng có vô số giá trị), bạn có thể dễ dàng tạo ra thứ tự bằng cách thủ công. Một số ví dụ ứng dụng kiểu dữ liệu categorical:
- Độ tuổi: `0-4`, `5-9`, `10-14`, `15-19`, `20-24`, `25-29`, `30-34`, `35-39`, `40-44`, `45-49`, `50-54`, `55-59`, `60-64`, `65-69`, `70-74`, `75-79`, `80+`.
- Huy chương: `Huy chương Vàng`, `Huy chương Bạc`, `Huy chương Đồng`.
- Bậc học: `Mầm non`, `Tiểu học`, `Trung học Cơ sở`, `Trung học Phổ thông`, `Đại học`, `Cao học`.

**Tình huống 1:** Tạo ra một series từ list `['Brozen', 'Gold', 'Silver']` rồi sắp xếp theo thứ bậc huy chương từ thấp đến cao.

### 1.2. Dataframe
Dataframe là kiểu dữ liệu 2 chiều, được cấu tạo từ nhiều series ghép với nhau.\
**Chiều 0** (axis 0) là chiều dọc, chứa index của các hàng. Mỗi hàng còn được gọi là một bản ghi (record) hay một quan sát (observation).\
**Chiều 1** (axis 1) là chiều ngang, chứa tên các cột. Cột còn được gọi là thuộc tính (feature), trường thông tin (field), biến (variable) hay chiều (dimension).

In [18]:
import numpy as np
import pandas as pd

#### Tạo dataframe từ dictionary
Các key của dictionary được dùng làm tên cột, value chính là các bản ghi.

In [19]:
data = {
    'product': pd.Series(['Laptop', 'Mouse', 'Headphone', 'USB']),
    'price': pd.Series(['$1000', '$20', '$50']),
    'stock': pd.Series([15, 100, 50, 100])
}
pd.DataFrame(data)

Unnamed: 0,product,price,stock
0,Laptop,$1000,15
1,Mouse,$20,100
2,Headphone,$50,50
3,USB,,100


#### Đọc tệp excel, csv, json vào dataframe
Pandas có các hàm `read_excel()`, `read_csv()` và `read_json()` để đọc các định dạng file tương ứng.\
Các hàm `to_excel()`, `to_csv()` và `to_json()` cho phép xuất ra một tệp từ dataframe.

In [20]:
pd.read_excel(r'data\electronic.xlsx')

Unnamed: 0,product,price,stock
0,Laptop,$1000,15
1,Mouse,$20,100
2,Headphone,$50,50
3,USB,,100


In [21]:
pd.read_csv(r'data\electronic.csv')

Unnamed: 0,product,price,stock
0,Laptop,$1000,15
1,Mouse,$20,100
2,Headphone,$50,50
3,USB,,100


In [22]:
pd.read_json(r'data\electronic.json')

Unnamed: 0,product,price,stock
0,Laptop,$1000,15
1,Mouse,$20,100
2,Headphone,$50,50
3,USB,,100


### 1.3. Quy trình phân tích dữ liệu

Một quy trình phân tích dữ liệu (data analytics) bắt đầu sau khi đã định nghĩa bài toán kinh doanh (business problem), có thể được tóm gọn trong 4 bước sau:

<img src="images\data_analytics_process.png">

Trong đó, data wrangling có thể chiếm đến 80% thời gian làm việc. Dưới đây là các thao tác cụ thể hơn của data wrangling:
- Data exploring: khám phá tổng quan tập dữ liệu
- Data cleaning: làm sạch dữ liệu
- Data tidying: biến đổi cấu trúc của dữ liệu để trở nên "ngăn nắp" hơn
- Data standardizing: chuẩn hóa dữ liệu

## 2. Quan sát tổng thể dữ liệu

In [23]:
import numpy as np
import pandas as pd

In [None]:
fish = pd.read_excel(r'data\us_fishery_foreign_trade.xlsx')

### 2.1. Quan sát một số bản ghi
Phương thức `head()` và `tail()` cho phép bạn quan sát 5 bản ghi đầu tiên/cuối cùng. Đây thường là thao tác thực hiện đầu tiên khi nhận được tập dữ liệu.

In [25]:
fish.head()

Unnamed: 0,Year,Month,Product Name,Country Name,Month number,Value,Feature,Unit
0,2010,January,SABLEFISH FRESH,UNITED ARAB EMIRATES,1,2297,EXP Quantity,kg
1,2010,January,SABLEFISH FRESH,JAPAN,1,16025,EXP Quantity,kg
2,2010,January,SABLEFISH FRESH,JAPAN,1,63437,EXP Quantity,kg
3,2010,January,MONKFISH FRESH,CANADA,1,579,EXP Quantity,kg
4,2010,January,MONKFISH FRESH,CANADA,1,7975,EXP Quantity,kg


In [26]:
fish.tail(10)

Unnamed: 0,Year,Month,Product Name,Country Name,Month number,Value,Feature,Unit
17464,2019,December,CRAWFISH FRESHWATER PEELED,CHINA,12,109821,IMP Value,USD
17465,2019,December,CRAWFISH FRESHWATER PEELED,CHINA,12,20966,IMP Value,USD
17466,2019,December,CRAWFISH FRESHWATER PEELED,CHINA,12,1660889,IMP Value,USD
17467,2019,December,CRAWFISH FRESHWATER PEELED,JAPAN,12,80050,IMP Value,USD
17468,2019,December,CRAWFISH FRESHWATER PEELED,JAPAN,12,47762,IMP Value,USD
17469,2019,December,CRAWFISH FRESHWATER PEELED,JAPAN,12,4979,IMP Value,USD
17470,2019,December,JELLYFISH PREPARED/PRESERVED,MALAYSIA,12,50825,IMP Value,USD
17471,2019,December,JELLYFISH PREPARED/PRESERVED,CHINA,12,87300,IMP Value,USD
17472,2019,December,JELLYFISH PREPARED/PRESERVED,CHINA,12,25156,IMP Value,USD
17473,2019,December,JELLYFISH PREPARED/PRESERVED,JAPAN,12,20581,IMP Value,USD


Phương thức `nlargest()` và `nsmallest()` trả về các giá trị lớn nhất và nhỏ nhất trong cột.

In [27]:
fish.nlargest(n=5, columns='Value')

Unnamed: 0,Year,Month,Product Name,Country Name,Month number,Value,Feature,Unit
16309,2018,August,CRAWFISH FRESHWATER PEELED,CHINA,8,19616424,IMP Value,USD
9209,2010,August,CRAWFISH FRESHWATER PEELED,CHINA,8,15186412,IMP Value,USD
16232,2018,July,CRAWFISH FRESHWATER PEELED,CHINA,7,15029681,IMP Value,USD
12639,2014,August,CRAWFISH FRESHWATER PEELED,CHINA,8,13927067,IMP Value,USD
11675,2013,August,CRAWFISH FRESHWATER PEELED,CHINA,8,12561486,IMP Value,USD


In [28]:
fish.nsmallest(n=5, columns='Year')

Unnamed: 0,Year,Month,Product Name,Country Name,Month number,Value,Feature,Unit
0,2010,January,SABLEFISH FRESH,UNITED ARAB EMIRATES,1,2297,EXP Quantity,kg
1,2010,January,SABLEFISH FRESH,JAPAN,1,16025,EXP Quantity,kg
2,2010,January,SABLEFISH FRESH,JAPAN,1,63437,EXP Quantity,kg
3,2010,January,MONKFISH FRESH,CANADA,1,579,EXP Quantity,kg
4,2010,January,MONKFISH FRESH,CANADA,1,7975,EXP Quantity,kg


## 2.2. Hàng và cột

In [29]:
fish.shape

(17474, 8)

In [30]:
fish.columns

Index(['Year', 'Month', 'Product Name', 'Country Name', 'Month number',
       'Value', 'Feature', 'Unit'],
      dtype='object')

Thuộc tính `dtypes` trả về kiểu dữ liệu của tất cả các cột (Pandas tự động xác định).

In [31]:
fish.dtypes

Year             int64
Month           object
Product Name    object
Country Name    object
Month number     int64
Value            int64
Feature         object
Unit            object
dtype: object

### 2.3. Các đại lượng thống kê

In [32]:
fish.describe()

Unnamed: 0,Year,Month number,Value
count,17474.0,17474.0,17474.0
mean,2014.599863,6.746137,137537.2
std,2.78004,3.426476,584883.9
min,2010.0,1.0,30.0
25%,2012.0,4.0,5896.25
50%,2015.0,7.0,21084.5
75%,2017.0,10.0,81033.75
max,2019.0,12.0,19616420.0


In [33]:
# ma trận tương quan giữa các trường định lượng
fish.corr()

Unnamed: 0,Year,Month number,Value
Year,1.0,-0.01612,-0.019128
Month number,-0.01612,1.0,0.035523
Value,-0.019128,0.035523,1.0


### 2.4. Tỉ lệ dữ liệu thiếu
Phương thức `isnull()` hoặc `isna()` kiểm tra các dữ liệu thiếu (missing data) trong dataframe. Kết hợp với các phương thức `sum()` và `count()` ta tính toán được có bao nhiêu % dữ liệu trống. Nếu một cột có trên 50% dữ liệu thiếu, bạn có thể loại bỏ nó.

In [34]:
fish.isnull()

Unnamed: 0,Year,Month,Product Name,Country Name,Month number,Value,Feature,Unit
0,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...
17469,False,False,False,False,False,False,False,False
17470,False,False,False,False,False,False,False,False
17471,False,False,False,False,False,False,False,False
17472,False,False,False,False,False,False,False,False


In [35]:
fish.isnull().sum()/fish.count()*100

Year            0.0
Month           0.0
Product Name    0.0
Country Name    0.0
Month number    0.0
Value           0.0
Feature         0.0
Unit            0.0
dtype: float64

### 2.5. Một số cài đặt thông dụng cho Pandas

In [31]:
# hiển thị tất cả số thập phân với 2 chữ số sau dấu phẩy (không ảnh hưởng đến số nguyên)
pd.options.display.float_format = '{:,.2f}'.format

In [37]:
# hiển thị lên đến 1000 ký tự trong mỗi cột
pd.options.display.max_colwidth = 1000

In [38]:
# hiển thị lên đến 500 cột
pd.options.display.max_columns = 500

In [39]:
# hiển thị lên đến 1000 dòng
pd.options.display.max_rows = 1000

## 3. Tìm hiểu chi tiết dữ liệu

In [40]:
import numpy as np
import pandas as pd

In [9]:
fish = pd.read_excel(r'data\us_fishery_foreign_trade.xlsx')

In [42]:
fish.head()

Unnamed: 0,Year,Month,Product Name,Country Name,Month number,Value,Feature,Unit
0,2010,January,SABLEFISH FRESH,UNITED ARAB EMIRATES,1,2297,EXP Quantity,kg
1,2010,January,SABLEFISH FRESH,JAPAN,1,16025,EXP Quantity,kg
2,2010,January,SABLEFISH FRESH,JAPAN,1,63437,EXP Quantity,kg
3,2010,January,MONKFISH FRESH,CANADA,1,579,EXP Quantity,kg
4,2010,January,MONKFISH FRESH,CANADA,1,7975,EXP Quantity,kg


### 3.1. Truy cập cột và hàng

In [43]:
fish.Feature

0        EXP Quantity
1        EXP Quantity
2        EXP Quantity
3        EXP Quantity
4        EXP Quantity
             ...     
17469       IMP Value
17470       IMP Value
17471       IMP Value
17472       IMP Value
17473       IMP Value
Name: Feature, Length: 17474, dtype: object

In [44]:
fish['Product Name']

0                     SABLEFISH FRESH
1                     SABLEFISH FRESH
2                     SABLEFISH FRESH
3                      MONKFISH FRESH
4                      MONKFISH FRESH
                     ...             
17469      CRAWFISH FRESHWATER PEELED
17470    JELLYFISH PREPARED/PRESERVED
17471    JELLYFISH PREPARED/PRESERVED
17472    JELLYFISH PREPARED/PRESERVED
17473    JELLYFISH PREPARED/PRESERVED
Name: Product Name, Length: 17474, dtype: object

In [45]:
# tách ra các cột dưới dạng dataframe
fish[['Feature', 'Value', 'Unit']]

Unnamed: 0,Feature,Value,Unit
0,EXP Quantity,2297,kg
1,EXP Quantity,16025,kg
2,EXP Quantity,63437,kg
3,EXP Quantity,579,kg
4,EXP Quantity,7975,kg
...,...,...,...
17469,IMP Value,4979,USD
17470,IMP Value,50825,USD
17471,IMP Value,87300,USD
17472,IMP Value,25156,USD


Phương thức `iloc[]` biến dataframe thành một array 2 chiều để có thể áp dụng slicing. Giống với array trong Numpy, dataframe có axis 0 là chiều dọc và axis 1 là chiều ngang.

In [14]:
fish.head()

Unnamed: 0,Year,Month,Product Name,Country Name,Month number,Value,Feature,Unit
0,2010,January,SABLEFISH FRESH,UNITED ARAB EMIRATES,1,2297,EXP Quantity,kg
1,2010,January,SABLEFISH FRESH,JAPAN,1,16025,EXP Quantity,kg
2,2010,January,SABLEFISH FRESH,x,1,63437,EXP Quantity,kg
3,2010,January,MONKFISH FRESH,CANADA,1,579,EXP Quantity,kg
4,2010,January,MONKFISH FRESH,CANADA,1,7975,EXP Quantity,kg


In [13]:
fish.iloc[2, 3]

In [48]:
fish.iloc[2:7, :4]

Unnamed: 0,Year,Month,Product Name,Country Name
2,2010,January,SABLEFISH FRESH,JAPAN
3,2010,January,MONKFISH FRESH,CANADA
4,2010,January,MONKFISH FRESH,CANADA
5,2010,January,MONKFISH FRESH,NETHERLANDS
6,2010,January,MONKFISH FRESH,FRANCE


Phương thức `loc[]` hoạt động giống `iloc[]` nhưng dùng tên hàng, tên cột thay vì dùng index. Ngoài ra, `loc[]` tính cả điểm cuối.

In [49]:
fish.head()

Unnamed: 0,Year,Month,Product Name,Country Name,Month number,Value,Feature,Unit
0,2010,January,SABLEFISH FRESH,UNITED ARAB EMIRATES,1,2297,EXP Quantity,kg
1,2010,January,SABLEFISH FRESH,JAPAN,1,16025,EXP Quantity,kg
2,2010,January,SABLEFISH FRESH,JAPAN,1,63437,EXP Quantity,kg
3,2010,January,MONKFISH FRESH,CANADA,1,579,EXP Quantity,kg
4,2010,January,MONKFISH FRESH,CANADA,1,7975,EXP Quantity,kg


In [50]:
fish.loc[:5, 'Year':'Value']

Unnamed: 0,Year,Product Name,Month number
0,2010,SABLEFISH FRESH,1
1,2010,SABLEFISH FRESH,1
2,2010,SABLEFISH FRESH,1
3,2010,MONKFISH FRESH,1
4,2010,MONKFISH FRESH,1
5,2010,MONKFISH FRESH,1


In [51]:
subset = ['Year', 'Month', 'Month number']
fish.loc[:5, subset]

Unnamed: 0,Year,Month,Month number
0,2010,January,1
1,2010,January,1
2,2010,January,1
3,2010,January,1
4,2010,January,1
5,2010,January,1


### 3.2. Sắp xếp giá trị

In [52]:
# sắp xếp bảng theo Country Name tăng dần rồi theo Feature giảm dần
fish.sort_values(by=['Country Name', 'Feature'], ascending=[True, False])

Unnamed: 0,Year,Month,Product Name,Country Name,Month number,Value,Feature,Unit
11279,2013,March,SCORPIONFISH (SCORPAENIDAE) FROZEN,ANGUILLA,3,4440,EXP Value,USD
2542,2013,March,SCORPIONFISH (SCORPAENIDAE) FROZEN,ANGUILLA,3,710,EXP Quantity,kg
14194,2016,April,SCORPIONFISH (SCORPAENIDAE) FROZEN,ANTIGUA & BARBUDA,4,3816,EXP Value,USD
5457,2016,April,SCORPIONFISH (SCORPAENIDAE) FROZEN,ANTIGUA & BARBUDA,4,453,EXP Quantity,kg
9326,2010,October,WHITEFISH MEAT FROZEN > 6.8KG,ARGENTINA,10,44860,IMP Value,USD
...,...,...,...,...,...,...,...,...
8007,2019,February,SABLEFISH FROZEN,VIETNAM,2,10025,EXP Quantity,kg
8275,2019,June,SABLEFISH FROZEN,VIETNAM,6,11218,EXP Quantity,kg
8332,2019,July,SABLEFISH FROZEN,VIETNAM,7,9968,EXP Quantity,kg
8473,2019,September,SABLEFISH FROZEN,VIETNAM,9,1964,EXP Quantity,kg


### 3.3. Lọc dữ liệu
Lọc dữ liệu trong dataframe dựa trên nền tảng là Boolean slicing của Numpy (xem lại Bài 6). Đối với lọc nhiều điều kiện, dùng ký tự `&` (và) và `|` (hoặc).

In [53]:
# lọc 1 điều kiện
fish[fish['Country Name']=='VIETNAM']

Unnamed: 0,Year,Month,Product Name,Country Name,Month number,Value,Feature,Unit
222,2010,May,SABLEFISH FRESH,VIETNAM,5,9514,EXP Quantity,kg
828,2011,February,BUTTERFISH FROZEN,VIETNAM,2,2030,IMP Quantity,kg
1037,2011,June,SABLEFISH FRESH,VIETNAM,6,22652,EXP Quantity,kg
1215,2011,August,SCORPIONFISH (SCORPAENIDAE) FROZEN,VIETNAM,8,24358,EXP Quantity,kg
1610,2012,February,SABLEFISH FROZEN,VIETNAM,2,28304,EXP Quantity,kg
1623,2012,February,JELLYFISH (RHOPILEMA SPP.) LIVE/FRESH/FROZEN/DRIED/SALTED/BRINE/SMOKED,VIETNAM,2,32518,EXP Quantity,kg
1679,2012,March,JELLYFISH (RHOPILEMA SPP.) LIVE/FRESH/FROZEN/DRIED/SALTED/BRINE/SMOKED,VIETNAM,3,27224,EXP Quantity,kg
1805,2012,May,JELLYFISH (RHOPILEMA SPP.) LIVE/FRESH/FROZEN/DRIED/SALTED/BRINE/SMOKED,VIETNAM,5,27223,EXP Quantity,kg
1878,2012,June,JELLYFISH (RHOPILEMA SPP.) LIVE/FRESH/FROZEN/DRIED/SALTED/BRINE/SMOKED,VIETNAM,6,23604,EXP Quantity,kg
1971,2012,August,SABLEFISH FRESH,VIETNAM,8,9738,EXP Quantity,kg


In [54]:
fish[fish['Product Name'].str.contains('FRESH')]

Unnamed: 0,Year,Month,Product Name,Country Name,Month number,Value,Feature,Unit
0,2010,January,SABLEFISH FRESH,UNITED ARAB EMIRATES,1,2297,EXP Quantity,kg
1,2010,January,SABLEFISH FRESH,JAPAN,1,16025,EXP Quantity,kg
2,2010,January,SABLEFISH FRESH,JAPAN,1,63437,EXP Quantity,kg
3,2010,January,MONKFISH FRESH,CANADA,1,579,EXP Quantity,kg
4,2010,January,MONKFISH FRESH,CANADA,1,7975,EXP Quantity,kg
...,...,...,...,...,...,...,...,...
17465,2019,December,CRAWFISH FRESHWATER PEELED,CHINA,12,20966,IMP Value,USD
17466,2019,December,CRAWFISH FRESHWATER PEELED,CHINA,12,1660889,IMP Value,USD
17467,2019,December,CRAWFISH FRESHWATER PEELED,JAPAN,12,80050,IMP Value,USD
17468,2019,December,CRAWFISH FRESHWATER PEELED,JAPAN,12,47762,IMP Value,USD


In [55]:
# lọc nhiều điều kiện
fish[
    (fish['Country Name']=='VIETNAM') &
    (fish['Feature']=='EXP Value') &
    (fish['Value']>10000)
]

Unnamed: 0,Year,Month,Product Name,Country Name,Month number,Value,Feature,Unit
8959,2010,May,SABLEFISH FRESH,VIETNAM,5,130015,EXP Value,USD
9774,2011,June,SABLEFISH FRESH,VIETNAM,6,199800,EXP Value,USD
9952,2011,August,SCORPIONFISH (SCORPAENIDAE) FROZEN,VIETNAM,8,41895,EXP Value,USD
10347,2012,February,SABLEFISH FROZEN,VIETNAM,2,188900,EXP Value,USD
10360,2012,February,JELLYFISH (RHOPILEMA SPP.) LIVE/FRESH/FROZEN/DRIED/SALTED/BRINE/SMOKED,VIETNAM,2,180600,EXP Value,USD
10416,2012,March,JELLYFISH (RHOPILEMA SPP.) LIVE/FRESH/FROZEN/DRIED/SALTED/BRINE/SMOKED,VIETNAM,3,151200,EXP Value,USD
10542,2012,May,JELLYFISH (RHOPILEMA SPP.) LIVE/FRESH/FROZEN/DRIED/SALTED/BRINE/SMOKED,VIETNAM,5,151200,EXP Value,USD
10615,2012,June,JELLYFISH (RHOPILEMA SPP.) LIVE/FRESH/FROZEN/DRIED/SALTED/BRINE/SMOKED,VIETNAM,6,131100,EXP Value,USD
10708,2012,August,SABLEFISH FRESH,VIETNAM,8,53222,EXP Value,USD
11065,2012,December,SABLEFISH FROZEN,VIETNAM,12,300000,EXP Value,USD


**Tình huống 2:** Lọc ra thông tin khối lượng nhập khẩu ("IMP Quantity") của Việt Nam ("VIETNAM"). Sau đó dùng 3 cách khác nhau để xem 5 tháng gần nhất.

### 3.4. Các giá trị phân biệt trong cột

In [56]:
fish['Product Name'].unique()

array(['SABLEFISH FRESH', 'MONKFISH FRESH', 'WHITEFISH FRESH',
       'WHITEFISH FROZEN', 'MONKFISH FROZEN', 'BUTTERFISH FROZEN',
       'SABLEFISH FROZEN', 'SCORPIONFISH (SCORPAENIDAE) FROZEN',
       'WHITEFISH FILLET FRESH', 'WOLFFISH FILLET BLOCKS FROZEN > 4.5KG',
       'WOLFFISH FILLET FROZEN', 'CRAWFISH FRESHWATER FROZEN',
       'CRAWFISH FRESHWATER PEELED',
       'SABLEFISH SCALED WHETHER OR NOT DRESS FRESH NOT > 6.8KG',
       'WHITEFISH MEAT FROZEN > 6.8KG', 'SABLEFISH FRESH NOT > 6.8KG',
       'WHITEFISH MEAT FRESH',
       'JELLYFISH (RHOPILEMA SPP.) LIVE/FRESH/FROZEN/DRIED/SALTED/BRINE/SMOKED',
       'JELLYFISH PREPARED/PRESERVED'], dtype=object)

In [57]:
fish[['Feature', 'Unit']].drop_duplicates()

Unnamed: 0,Feature,Unit
0,EXP Quantity,kg
17,IMP Quantity,kg
8737,EXP Value,USD
8754,IMP Value,USD


### 3.5. Phân nhóm dữ liệu
Phương thức `groupby()` chia tập dữ liệu thành các nhóm nhỏ rồi tính toán trên từng nhóm đó.

In [58]:
fish.head()

Unnamed: 0,Year,Month,Product Name,Country Name,Month number,Value,Feature,Unit
0,2010,January,SABLEFISH FRESH,UNITED ARAB EMIRATES,1,2297,EXP Quantity,kg
1,2010,January,SABLEFISH FRESH,JAPAN,1,16025,EXP Quantity,kg
2,2010,January,SABLEFISH FRESH,JAPAN,1,63437,EXP Quantity,kg
3,2010,January,MONKFISH FRESH,CANADA,1,579,EXP Quantity,kg
4,2010,January,MONKFISH FRESH,CANADA,1,7975,EXP Quantity,kg


In [59]:
# đếm số bản ghi mỗi mặt hàng
fish.groupby('Product Name').size()

Product Name
BUTTERFISH FROZEN                                                         1398
CRAWFISH FRESHWATER FROZEN                                                1032
CRAWFISH FRESHWATER PEELED                                                1826
JELLYFISH (RHOPILEMA SPP.) LIVE/FRESH/FROZEN/DRIED/SALTED/BRINE/SMOKED     932
JELLYFISH PREPARED/PRESERVED                                               920
MONKFISH FRESH                                                            1816
MONKFISH FROZEN                                                           1288
SABLEFISH FRESH                                                            718
SABLEFISH FRESH NOT > 6.8KG                                                392
SABLEFISH FROZEN                                                          2978
SABLEFISH SCALED WHETHER OR NOT DRESS FRESH NOT > 6.8KG                     44
SCORPIONFISH (SCORPAENIDAE) FROZEN                                        1674
WHITEFISH FILLET FRESH                 

**Tình huống 3:** Đếm số bản ghi từng tháng.

In [25]:
# tính các chỉ số xuất nhập khẩu theo từng năm
fish.groupby(['Feature', 'Year', 'Unit']).sum()['Value'].reset_index()

Unnamed: 0,Feature,Year,Unit,Value
0,EXP Quantity,2010,kg,15578318
1,EXP Quantity,2011,kg,28106436
2,EXP Quantity,2012,kg,15054158
3,EXP Quantity,2013,kg,13856966
4,EXP Quantity,2014,kg,19607838
5,EXP Quantity,2015,kg,17477174
6,EXP Quantity,2016,kg,10759863
7,EXP Quantity,2017,kg,12236928
8,EXP Quantity,2018,kg,9972012
9,EXP Quantity,2019,kg,9990474


**Tình huống 4:** Tính kim ngạch xuất nhập khẩu trung bình từng tháng qua các năm.

## Giải đáp tình huống

**Tình huống 1:** Tạo ra một series từ list `['Brozen', 'Gold', 'Silver']` rồi sắp xếp theo thứ bậc huy chương từ thấp đến cao.

In [6]:
import numpy as np
import pandas as pd

In [8]:
pd.Categorical(['Bronze', 'Gold', 'Silver'], categories=['Gold', 'Silver', 'Bronze']).sort_values()

[Gold, Silver, Bronze]
Categories (3, object): [Gold, Silver, Bronze]

**Tình huống 2:** Lọc ra thông tin khối lượng nhập khẩu ("IMP Quantity") của Việt Nam ("VIETNAM"). Sau đó dùng 3 cách khác nhau để xem 5 tháng gần nhất.

In [15]:
import numpy as np
import pandas as pd
fish = pd.read_excel(r'data\us_fishery_foreign_trade.xlsx')
fish.head()

In [19]:
fish[
    (fish['Country Name'] == 'VIETNAM') &
    (fish['Feature'] == 'IMP Quantity')
].nlargest(n=5, columns=['Year', 'Month number'])

Unnamed: 0,Year,Month,Product Name,Country Name,Month number,Value,Feature,Unit
8697,2019,December,BUTTERFISH FROZEN,VIETNAM,12,6912,IMP Quantity,kg
8399,2019,August,BUTTERFISH FROZEN,VIETNAM,8,2502,IMP Quantity,kg
8299,2019,June,CRAWFISH FRESHWATER PEELED,VIETNAM,6,11856,IMP Quantity,kg
8200,2019,May,BUTTERFISH FROZEN,VIETNAM,5,881,IMP Quantity,kg
8201,2019,May,BUTTERFISH FROZEN,VIETNAM,5,1621,IMP Quantity,kg


In [22]:
fish[
    (fish['Country Name'] == 'VIETNAM') &
    (fish['Feature'] == 'IMP Quantity')
].sort_values(by=['Year', 'Month number']).tail(5)

Unnamed: 0,Year,Month,Product Name,Country Name,Month number,Value,Feature,Unit
8201,2019,May,BUTTERFISH FROZEN,VIETNAM,5,1621,IMP Quantity,kg
8202,2019,May,BUTTERFISH FROZEN,VIETNAM,5,2045,IMP Quantity,kg
8299,2019,June,CRAWFISH FRESHWATER PEELED,VIETNAM,6,11856,IMP Quantity,kg
8399,2019,August,BUTTERFISH FROZEN,VIETNAM,8,2502,IMP Quantity,kg
8697,2019,December,BUTTERFISH FROZEN,VIETNAM,12,6912,IMP Quantity,kg


In [23]:
fish[
    (fish['Country Name'] == 'VIETNAM') &
    (fish['Feature'] == 'IMP Quantity')
].sort_values(by=['Year', 'Month number']).iloc[:-5]

Unnamed: 0,Year,Month,Product Name,Country Name,Month number,Value,Feature,Unit
828,2011,February,BUTTERFISH FROZEN,VIETNAM,2,2030,IMP Quantity,kg
6375,2017,April,BUTTERFISH FROZEN,VIETNAM,4,4536,IMP Quantity,kg
7771,2018,November,BUTTERFISH FROZEN,VIETNAM,11,3884,IMP Quantity,kg
7858,2018,December,BUTTERFISH FROZEN,VIETNAM,12,2963,IMP Quantity,kg
8200,2019,May,BUTTERFISH FROZEN,VIETNAM,5,881,IMP Quantity,kg


**Tình huống 3:** Đếm số bản ghi từng tháng.

In [15]:
import numpy as np
import pandas as pd
fish = pd.read_excel(r'data\us_fishery_foreign_trade.xlsx')
fish.head()

In [27]:
fish.groupby(['Year', 'Month']).size()

Year  Month    
2010  April        100
      August       134
      December     140
      February     116
      January      118
                  ... 
2019  March        144
      May          138
      November     136
      October      176
      September    142
Length: 120, dtype: int64

**Tình huống 4:** Tính kim ngạch xuất nhập khẩu trung bình từng tháng của tất cả các năm.

In [15]:
import numpy as np
import pandas as pd
fish = pd.read_excel(r'data\us_fishery_foreign_trade.xlsx')
fish.head()

In [34]:
fish[fish.Feature.str.contains('Value')]\
    .groupby(['Feature', 'Year', 'Month number']).sum().reset_index()\
    .groupby(['Feature', 'Month number']).mean()['Value'].reset_index()

Unnamed: 0,Feature,Month number,Value
0,EXP Value,1,4210348.9
1,EXP Value,2,3185211.9
2,EXP Value,3,3465167.2
3,EXP Value,4,8694505.8
4,EXP Value,5,14953813.7
5,EXP Value,6,15216529.7
6,EXP Value,7,12062280.3
7,EXP Value,8,9735869.9
8,EXP Value,9,10347673.5
9,EXP Value,10,10211269.2
