# BÀI 7: PANDAS VÀ DATAFRAME

Pandas là thư viện chuyên cho xử lý dữ liệu dạng bảng (tabular) thông qua 2 kiểu dữ liệu chính là **series** và **dataframe**, chúng giống như cột và bảng trong Excel.\
Thư viện Pandas thường được sử dụng cùng với Numpy.

In [1]:
import numpy as np
import pandas as pd

## 1. Giới thiệu chung

### 1.1. Series
Series là cấu trúc dữ liệu 1 chiều, chứa các phần tử cùng kiểu dữ liệu. Series giống như vector có thêm index.

#### Khởi tạo series

Series có thể được tạo ra từ hàm `pandas.Series()` và truyền vào một `dict` hoặc một đối tượng giống `list` (như `tuple`, `set`, `numpy.array`).

In [3]:
import numpy as np
import pandas as pd

In [2]:
pd.Series(['a', 'b', 'c', 'd', 'e'])

0    a
1    b
2    c
3    d
4    e
dtype: object

In [5]:
pd.Series(np.linspace(1, 60, 5))

0     1.00
1    15.75
2    30.50
3    45.25
4    60.00
dtype: float64

In [6]:
pd.Series(np.arange(10))

0    0
1    1
2    2
3    3
4    4
5    5
6    6
7    7
8    8
9    9
dtype: int64

**Chú ý:** Mỗi series đều có 1 `dtype` (kiểu dữ liệu) riêng. Trên đây là 3 ví dụ về các kiểu dữ liệu phổ biến của series: `object`, `float64` và `int64` - tương đương với `str`, `float` và `int` trong Python.

Do tính chất của series hoạt động giống như cột trong bảng, ta cần đặt tên cột. Tên của series được đặt thông qua tham số `name`.

In [3]:
s = pd.Series(['a', 'b', 'c'], name='letter')

In [None]:
import numpy as np
import pandas as pd

#### Kiểu dữ liệu string

In [8]:
pd.Series(['a', 'b', 'c'])

0    a
1    b
2    c
dtype: object

In [9]:
pd.Series([1, 2, 3]).astype(str)

0    1
1    2
2    3
dtype: object

#### Kiểu dữ liệu số

In [10]:
pd.Series(['01', '02', '03']).astype(int)

0    1
1    2
2    3
dtype: int64

In [11]:
pd.Series(['01', '02', '03']).astype(float)

0    1.0
1    2.0
2    3.0
dtype: float64

#### Kiểu dữ liệu ngày tháng
Sử dụng đối số `'datetime64'`.

In [12]:
pd.Series(['2020/01/01', '2020/01/02']).astype('datetime64')

0   2020-01-01
1   2020-01-02
dtype: datetime64[ns]

In [None]:
pd.to_datetime(pd.Series(['Jan.01-2020', '20200102']))

#### Kiểu dữ liệu Boolean
Truyền vào phương thức `astype()` giá trị `bool`.

In [None]:
pd.Series([1, 0, 0, 1, 1]).astype(bool)

#### Kiểu dữ liệu categorical
Categorical (định danh) là kiểu dữ liệu chỉ chứa một số lượng giới hạn các phần tử có thứ tự. Categorical cho phép sắp xếp dữ liệu theo ý muốn chứ không chỉ giới hạn theo giá trị lớn/nhỏ hoặc theo bảng chữ cái.

In [None]:
# sắp xếp kiểu dữ liệu object
pd.Series(['1-5', '6-10', '11-15', '6-10']).sort_values()

In [13]:
# sắp xếp kiểu dữ liệu categorical
pd.Categorical(['1-5', '6-10', '11-15', '6-10'], categories=['1-5', '6-10', '11-15']).sort_values()


[1-5, 6-10, 6-10, 11-15]
Categories (3, object): [1-5, 6-10, 11-15]

Do kiểu dữ liệu categorical có số lượng giá trị hữu hạn (kiểu dữ liệu số hay ngày tháng có vô số giá trị), bạn có thể dễ dàng tạo ra thứ tự bằng cách thủ công. Một số ví dụ ứng dụng kiểu dữ liệu categorical:
- Độ tuổi: `0-4`, `5-9`, `10-14`, `15-19`, `20-24`, `25-29`, `30-34`, `35-39`, `40-44`, `45-49`, `50-54`, `55-59`, `60-64`, `65-69`, `70-74`, `75-79`, `80+`.
- Huy chương: `Huy chương Vàng`, `Huy chương Bạc`, `Huy chương Đồng`.
- Bậc học: `Mầm non`, `Tiểu học`, `Trung học Cơ sở`, `Trung học Phổ thông`, `Đại học`, `Cao học`.

**Tình huống 1:** Tạo ra một series từ list `['Brozen', 'Gold', 'Silver']` rồi sắp xếp theo thứ bậc huy chương từ thấp đến cao.

### 1.2. Dataframe
Dataframe là kiểu dữ liệu 2 chiều, được cấu tạo từ nhiều series ghép với nhau.\
**Chiều 0** (axis 0) là chiều dọc, chứa index của các hàng. Mỗi hàng còn được gọi là một bản ghi (record) hay một quan sát (observation).\
**Chiều 1** (axis 1) là chiều ngang, chứa tên các cột. Cột còn được gọi là thuộc tính (feature), trường thông tin (field), biến (variable) hay chiều (dimension).

In [None]:
import numpy as np
import pandas as pd

#### Tạo dataframe từ dictionary
Các key của dictionary được dùng làm tên cột, value chính là các bản ghi.

In [None]:
data = {
    'product': pd.Series(['Laptop', 'Mouse', 'Headphone', 'USB']),
    'price': pd.Series(['$1000', '$20', '$50']),
    'stock': pd.Series([15, 100, 50, 100])
}
pd.DataFrame(data)

#### Đọc tệp excel, csv, json vào dataframe
Pandas có các hàm `read_excel()`, `read_csv()` và `read_json()` để đọc các định dạng file tương ứng.\
Các hàm `to_excel()`, `to_csv()` và `to_json()` cho phép xuất ra một tệp từ dataframe.

In [None]:
pd.read_excel(r'data\electronic.xlsx')

In [None]:
pd.read_csv(r'data\electronic.csv')

In [None]:
pd.read_json(r'data\electronic.json')

### 1.3. Quy trình phân tích dữ liệu

Một quy trình phân tích dữ liệu (data analytics) bắt đầu sau khi đã định nghĩa bài toán kinh doanh (business problem), có thể được tóm gọn trong 4 bước sau:

<img src="images\data_analytics_process.png">

Trong đó, data wrangling có thể chiếm đến 80% thời gian làm việc. Dưới đây là các thao tác cụ thể hơn của data wrangling:
- Data exploring: khám phá tổng quan tập dữ liệu
- Data cleaning: làm sạch dữ liệu
- Data tidying: biến đổi cấu trúc của dữ liệu để trở nên "ngăn nắp" hơn
- Data standardizing: chuẩn hóa dữ liệu

## 2. Quan sát tổng thể dữ liệu

In [None]:
import numpy as np
import pandas as pd

In [None]:
fish = pd.read_excel(r'data\us_fishery_foreign_trade.xlsx')

### 2.1. Quan sát một số bản ghi
Phương thức `head()` và `tail()` cho phép bạn quan sát 5 bản ghi đầu tiên/cuối cùng. Đây thường là thao tác thực hiện đầu tiên khi nhận được tập dữ liệu.

In [None]:
fish.head()

In [None]:
fish.tail(10)

Phương thức `nlargest()` và `nsmallest()` trả về các giá trị lớn nhất và nhỏ nhất trong cột.

In [None]:
fish.nlargest(n=5, columns='Value')

In [None]:
fish.nsmallest(n=5, columns='Year')

## 2.2. Hàng và cột

In [None]:
fish.shape

In [None]:
fish.columns

Thuộc tính `dtypes` trả về kiểu dữ liệu của tất cả các cột (Pandas tự động xác định).

In [None]:
fish.dtypes

### 2.3. Các đại lượng thống kê

In [None]:
fish.describe()

In [None]:
# ma trận tương quan giữa các trường định lượng
fish.corr()

### 2.4. Tỉ lệ dữ liệu thiếu
Phương thức `isnull()` hoặc `isna()` kiểm tra các dữ liệu thiếu (missing data) trong dataframe. Kết hợp với các phương thức `sum()` và `count()` ta tính toán được có bao nhiêu % dữ liệu trống. Nếu một cột có trên 50% dữ liệu thiếu, bạn có thể loại bỏ nó.

In [None]:
fish.isnull()

In [None]:
fish.isnull().sum()/fish.count()*100

### 2.5. Một số cài đặt thông dụng cho Pandas

In [None]:
# hiển thị tất cả số thập phân với 2 chữ số sau dấu phẩy (không ảnh hưởng đến số nguyên)
pd.options.display.float_format = '{:,.2f}'.format

In [None]:
# hiển thị lên đến 1000 ký tự trong mỗi cột
pd.options.display.max_colwidth = 1000

In [None]:
# hiển thị lên đến 500 cột
pd.options.display.max_columns = 500

In [None]:
# hiển thị lên đến 1000 dòng
pd.options.display.max_rows = 1000

## 3. Tìm hiểu chi tiết dữ liệu

In [None]:
import numpy as np
import pandas as pd

In [None]:
fish = pd.read_excel(r'data\us_fishery_foreign_trade.xlsx')

In [None]:
fish.head()

### 3.1. Truy cập cột và hàng

In [None]:
fish.Feature

In [None]:
fish['Product Name']

In [None]:
# tách ra các cột dưới dạng dataframe
fish[['Feature', 'Value', 'Unit']]

Phương thức `iloc[]` biến dataframe thành một array 2 chiều để có thể áp dụng slicing. Giống với array trong Numpy, dataframe có axis 0 là chiều dọc và axis 1 là chiều ngang.

In [None]:
fish.head()

In [None]:
fish.iloc[2, 3]

In [None]:
fish.iloc[2:7, :4]

Phương thức `loc[]` hoạt động giống `iloc[]` nhưng dùng tên hàng, tên cột thay vì dùng index. Ngoài ra, `loc[]` tính cả điểm cuối.

In [None]:
fish.head()

In [None]:
fish.loc[:5, 'Year':'Value']

In [None]:
subset = ['Year', 'Month', 'Month number']
fish.loc[:5, subset]

### 3.2. Sắp xếp giá trị

In [None]:
# sắp xếp bảng theo Country Name tăng dần rồi theo Feature giảm dần
fish.sort_values(by=['Country Name', 'Feature'], ascending=[True, False])

### 3.3. Lọc dữ liệu
Lọc dữ liệu trong dataframe dựa trên nền tảng là Boolean slicing của Numpy (xem lại Bài 6). Đối với lọc nhiều điều kiện, dùng ký tự `&` (và) và `|` (hoặc).

In [None]:
# lọc 1 điều kiện
fish[fish['Country Name']=='VIETNAM']

In [None]:
fish[fish['Product Name'].str.contains('FRESH')]

In [None]:
# lọc nhiều điều kiện
fish[
    (fish['Country Name']=='VIETNAM') &
    (fish['Feature']=='EXP Value') &
    (fish['Value']>10000)
]

**Tình huống 2:** Lọc ra thông tin khối lượng nhập khẩu ("IMP Quantity") của Việt Nam ("VIETNAM"). Sau đó dùng 3 cách khác nhau để xem 5 tháng gần nhất.

### 3.4. Các giá trị phân biệt trong cột

In [None]:
fish['Product Name'].unique()

In [None]:
fish[['Feature', 'Unit']].drop_duplicates()

### 3.5. Phân nhóm dữ liệu
Phương thức `groupby()` chia tập dữ liệu thành các nhóm nhỏ rồi tính toán trên từng nhóm đó.

In [None]:
fish.head()

In [None]:
# đếm số bản ghi mỗi mặt hàng
fish.groupby('Product Name').size()

**Tình huống 3:** Đếm số bản ghi từng tháng.

In [None]:
# tính các chỉ số xuất nhập khẩu theo từng năm
fish.groupby(['Feature', 'Year', 'Unit']).sum()['Value'].reset_index()

**Tình huống 4:** Tính kim ngạch xuất nhập khẩu trung bình từng tháng qua các năm.

## Giải đáp tình huống

**Tình huống 1:** Tạo ra một series từ list `['Brozen', 'Gold', 'Silver']` rồi sắp xếp theo thứ bậc huy chương từ thấp đến cao.

In [None]:
import numpy as np
import pandas as pd

In [None]:
pd.Categorical(['Bronze', 'Gold', 'Silver'], categories=['Gold', 'Silver', 'Bronze']).sort_values()

**Tình huống 2:** Lọc ra thông tin khối lượng nhập khẩu ("IMP Quantity") của Việt Nam ("VIETNAM"). Sau đó dùng 3 cách khác nhau để xem 5 tháng gần nhất.

In [None]:
import numpy as np
import pandas as pd
fish = pd.read_excel(r'data\us_fishery_foreign_trade.xlsx')
fish.head()

In [None]:
fish[
    (fish['Country Name'] == 'VIETNAM') &
    (fish['Feature'] == 'IMP Quantity')
].nlargest(n=5, columns=['Year', 'Month number'])

In [None]:
fish[
    (fish['Country Name'] == 'VIETNAM') &
    (fish['Feature'] == 'IMP Quantity')
].sort_values(by=['Year', 'Month number']).tail(5)

In [None]:
fish[
    (fish['Country Name'] == 'VIETNAM') &
    (fish['Feature'] == 'IMP Quantity')
].sort_values(by=['Year', 'Month number']).iloc[:-5]

**Tình huống 3:** Đếm số bản ghi từng tháng.

In [None]:
import numpy as np
import pandas as pd
fish = pd.read_excel(r'data\us_fishery_foreign_trade.xlsx')
fish.head()

In [None]:
fish.groupby(['Year', 'Month']).size()

**Tình huống 4:** Tính kim ngạch xuất nhập khẩu trung bình từng tháng của tất cả các năm.

In [None]:
import numpy as np
import pandas as pd
fish = pd.read_excel(r'data\us_fishery_foreign_trade.xlsx')
fish.head()

In [None]:
fish[fish.Feature.str.contains('Value')]\
    .groupby(['Feature', 'Year', 'Month number']).sum().reset_index()\
    .groupby(['Feature', 'Month number']).mean()['Value'].reset_index()